신약 개발 단계의 염기서열 분석 관련 과제 및 기회

jefferson parker

NullSet Informatics Solutions 설립자인 Jefferson Parker 박사와의 대화

신약 개발과 관련이 있는 전산 생물학이 꾸준하게 발전하면서, 새로운 과제와 기회가 끊임없이 대두되고 있습니다. 염기서열 분석은 오랫동안 생물정보학의 핵심 요소였습니다. 이 기사에서는 NullSet Informatics Solutions의 설립자이자 생명과학 부문의 데이터 분석 전문가인 Jefferson Parker 박사와 함께 신약 개발을 위한 염기서열 분석과 관련된 새로운 발전 가능성에 대해 알아봅니다.

CAS: 전산 생물학자로서 신약 개발 부문에서 어떤 역할을 해 오셨습니까?

Jefferson: 신약 개발 실험실 지원부터 중개 연구 그룹 지원까지 다양한 역할을 담당했습니다. 최근에는 임상 팀과 함께 운영 및 개발 관련 작업을 진행했고요. 그리고 안전 데이터 분석을 통한 약물 감시 팀 지원과 사업 개발 및 경쟁 인털리전스 관련 작업도 수행했습니다. 웨트 랩 과학자와 소프트웨어 개발자 사이에서 일종의 번역가 역할을 하는 생물정보 분석가로 소프트웨어 엔지니어링 팀의 구성원으로 활동하기도 했습니다.

CAS: 신약 개발에서 염기서열 분석이 어떠한 역할을 하는지 설명해 주시겠습니까? 염기서열 분석이 중요한 이유는 무엇입니까?

Jefferson: 염기서열 분석의 경우 개발 단계의 타깃 발굴 스크리닝에 활용할 수 있습니다. 전사체적 관점에서 보면, 경로에 대한 자신의 지식과 관련하여 "가장 가능성이 높은 업스트림 대상은 무엇인가?"라는 질문을 던질 수 있으며, 이는 신약의 타깃이거나 신호 전달 측면에서 해당 타깃에 가까운 대상일 수 있습니다. 특정 타깃을 고려해서 약물을 설계한 경우, 의도에 맞게 진행되고 있는지 확인하는 데 도움이 될 수 있습니다.

또한 환자 선택 생체표지자를 찾는 작업을 시작할 수 있습니다. 발현 또는 DNA 염기서열 수준에서 다양한 돌연변이가 발생하는 특정 유전자 프로필이 존재하는가? 환자가 약물 효능에 대한 민감도를 높이거나 떨어뜨리는 특정 돌연변이를 보유하고 있는가? 제약 업계에서는 이 흥미로운 영역에 대한 연구가 활발히 진행되고 있습니다. 치료 전에 이 약물이 환자에게 효능이 있는지 여부를 판단할 수 있기 때문에, 이러한 연구가 신약 개발의 성공을 좌우할 수 있습니다. 또한 환자의 귀중한 시간을 낭비하지 않게 됩니다. 특히 신속한 치료가 중요한 종양학과 같은 분야에서 효능이 없는 약물을 사용한 여러 차례의 치료와 시행착오로 인한 시간 낭비가 사라지게 됩니다.

이 모든 절차가 염기서열 분석과 관련이 있습니다. 염기서열 분석은 신약 개발 프로세스의 모든 측면에 영향을 미칩니다.

CAS: 염기서열 분석의 가장 큰 과제는 무엇이라고 생각하십니까?

Jefferson: 기술이 매년 발전하고 있기 때문에 실제로 과제들이 빠르게 해소되고 있다고 생각합니다. 기존에 활용하던 아주 작은 쇼트 리드 기술의 경우 통합이 굉장히 까다로웠습니다. 이후 롱 리드 기술이 개발되면서 통합이 전보다는 쉬워졌습니다.

전쟁과 평화라는 책을 문서 파쇄기에 넣는다고 생각해 보십시오. 그러면 책의 페이지가 아주 작은 조각들로 잘게 찢어지는데, 이러한 조각을 다시 모아 한 권의 책으로 만드는 것은 굉장히 어렵습니다. 하지만 페이지 조각이 훨씬 더 크고 길 뿐만 아니라 단어가 아닌 단락 단위로 잘라져 있다면 올바른 순서로 조각들을 다시 조합하는 것이 훨씬 더 쉬워집니다. 이와 마찬가지로 롱 리드 기술이 발전하면서 DNA 조각의 길이가 점점 길어지고 있습니다.

저장의 경우 여전히 문제가 되고 있습니다. 가장 최근에 진행한 작업에서도 염기서열 데이터를 옮겨야 했는데, 가장 빠른 방법은 하드 드라이브에 로드한 후 택배 상자에 넣는 것이었습니다. 인터넷을 통해 수백 기가바이트, 수백 테라바이트의 데이터를 옮기는 대신 상자에 넣어 배송하는 것이 더 빠릅니다. 문제는 로컬 저장소가 아닌, 많은 양의 데이터를 한 곳에서 다른 곳으로 전송하는 것입니다. 요즘에는 컴퓨터의 성능이 충분해서 염기서열 프로젝트를 진행하는 데 문제가 없지만, 해당 시스템으로 데이터를 옮기는 일은 여전히 어려운 과제로 남아 있습니다.

환자에게서 샘플을 채취하는 것 역시 어려운 과제입니다. 샘플 채취는 고통스러운 과정이며 생검은 외과적 수술을 통해 이루어지기 때문에 환자들은 샘플 채취를 여러 번 진행하고 싶어 하지 않습니다. 채취된 샘플은 일반적으로 FFPE(Formalin-Fixed Paraffin-Embedded) 조직이므로 핵산 물질이 어느 정도 분해됩니다. 이와 같이 염기서열 분석을 위해 준비된 샘플 조직을 추출하여 사용하는 방식들이 있지만, 그러한 방식은 항상 염기서열의 품질에 영향을 미칩니다.

또한 이러한 시스템은 매우 고가이기 때문에 소규모 기업에게 있어 해당 기술에 대한 비용 부담이 굉장히 큽니다. 마찬가지로, 과거보다 전산 생물학자의 수가 눈에 띄게 늘어나고 있지만 모든 전산 생물학자가 가장 크고 좋은 환경에서 최고의 수입을 얻고자 하기 때문에 여전히 인력 불균형 현상이 일어나고 있습니다. 전문 인력이 증가하고는 있지만 여전히 그 수는 제한적입니다.

모든 전산 생물학자가 염기서열 분석 작업보다는 뛰어난 차세대 학습 모델을 만들고 싶어한다고 볼 수 있습니다. 이제는 수치 처리와 데이터 분석이 아닌 첨단 AI와 ML에 집중하고 있습니다. 모두가 염기서열 분석이 아닌 참신하고 전망이 밝은 신기술 개발 작업을 진행하려고 합니다. 이러한 현상이 곧 큰 과제를 불러 일으킬 것입니다.

CAS: 오늘날 염기서열 분석을 수행하기 위해서는 반드시 전산 생물학자가 필요한가요?

Jefferson: 검증된 방법론을 활용하여 개발, 검증, 문서화가 잘 진행되고 일정한 결과를 도출하는 경우라면 필요하지 않습니다. 염기서열 분석의 경우 완전히 새로운 접근법이 필요한 것은 아니기 때문입니다. 다양한 염기서열 시스템에서 입력 데이터를 가져올 수 있는 다수의 기성 소프트웨어 솔루션이 존재합니다. 데이터를 로드하고 처리하고자 하는 파이프라인의 아이콘을 끌어다 놓는 식으로 쉽게 작업을 시작할 수 있습니다. 작업이 시작되면 시스템의 크기에 따라 커피를 마시거나 점심 식사를 하고 나서 결과를 확인하거나 퇴근 후 다음 날 아침에 결과를 확인할 수 있습니다. 굳이 전산 전문가가 필요한 작업은 아닙니다. 최신 기술에 능숙한 연구원이라면 누구나 작업을 진행할 수 있습니다.

반면, 첨단 염기서열 시스템에서 전례 없는 새로운 분석 방법론을 찾아내려 하는 경우에는 기성 솔루션이 존재하지 않습니다. 이때는 입력 데이터, 출력 데이터, 수학을 비롯한 생물학 작업 관련 지식을 갖춘 사람이 필요합니다. 이 모든 요소를 모아 존재하지 않는 새로운 솔루션으로 통합하기 위해서는 이러한 모든 내용에 대해 잘 알고 있는 전문가가 작업을 진행해야 합니다.

CAS: 오늘날에는 사람들이 AI와 ML을 활용하는 작업을 선호한다고 말씀하셨습니다. 이러한 기술이 염기서열 분석에 도움이 될까요?

Jefferson: 잘 엄선된 데이터 세트를 활용한다면 AI와 ML이 분명 도움이 될 수 있습니다. 특히 문헌을 활용하고 지식 그래프를 만들기 위해 머신 러닝 기술을 적용하고 있는 조직들에게는 매우 중요할 수 있습니다. AI와 머신 러닝을 염기서열 통합에만 활용해도 도움이 된다고 생각하십니까? 그럴 것 같습니다만, 굳이 필요가 있는지 잘 모르겠습니다.

CAS: AI 이야기가 나온 김에, 단백질 구조에 대한 AI 예측을 수행하는 AlphaFold에 대해 어떻게 생각하십니까?

Jefferson: AlphaFold가 업계의 판도를 바꾸었다고 생각합니다. 구조에 대한 훨씬 더 빠른 경로를 제공하므로, 이전보다 훨씬 빠르게 컴퓨터 지원 약물 설계를 진행할 수 있습니다. AlphaFold가 개발되면서 이제 NMR이나 결정 구조 없이도 작업을 시작할 수 있게 되었습니다. 그렇다면 AlphaFold가 결정 구조만큼 우수하다는 건가요? 그렇지는 않을 겁니다. 언제나 실제로 측정한 값이 시뮬레이션보다 더 정확하기 마련입니다. 하지만 시간적인 측면에서 즉시 활용 가능한 결과를 도출해 낼 수 있다는 장점이 있습니다. AlphaFold는 우리의 예상을 뛰어넘는 엄청난 변화를 불러올 수 있습니다. AlphaFold는 처음 공개되었을 때 업계에 큰 파장을 일으켰으며 계속해서 수많은 변화를 불러올 것입니다.

CAS: 신약 개발과 관련해 AI와 ML은 어떠한 방향으로 발전하고 있다고 생각하십니까?

Jefferson: 공간 측면에서는 일종의 차세대 단일 세포에 해당한다고 볼 수 있습니다. 이를 다중 오믹스라고 합니다. 다중 오믹스의 경우 DNA, RNA, 단백질, 대사체학 등을 하나로 통합합니다. 또한 세포 경로 및 세포 간 신호 전달과 통합됩니다. 따라서 더 이상 단순한 단일 세포가 아닙니다. 각각의 단일 세포가 통합된 상태에서 이러한 세포는 어떻게 상호 작용할까요? 바로 이러한 부분에 초점을 맞추어 기술이 발전하고 있습니다.

CAS: 향후 생체계 모델이 만들어질 것이라고 생각하십니까?

Jefferson: 제가 대학원생일 때 그런 질문을 하셨다면 인류는 아직 생체계를 설명할 수 있는 수학적 역량을 갖추지 못했다고 답했을 것입니다. 생물학은 복잡한 화학에 속하며, 화학은 복잡한 물리학에, 물리학은 복잡한 수학에 해당합니다. 수학은 이 모든 학문의 토대입니다. 물리학은 막대한 양의 데이터만 있으면 수학적으로 해결이 가능한 문제이며, 화학도 마찬가지입니다. 하지만 생물학은... 저는 인류는 생체계를 수학적으로 모델링할 수 있는 역량이 부족하며 앞으로도 이러한 역량을 갖추지 못할 것이라고 생각하곤 했습니다.

하지만 지금은 이 불가능해 보이는 목표를 이루기 위해 나아갈 때라고 생각합니다. 양자 컴퓨터를 활용한다면 어떨까요? 어쩌면 가능하지 않을까요? 아주 오랜 시간이 걸릴 수도 있지만, 언젠가는 인류가 정확하고 안정적으로 생체계를 시뮬레이션할 수 있는 전산적인 역량을 갖추는 시대가 올 것이라고 믿습니다. 그러한 시대는 어떤 모습일지 굉장히 궁금합니다. 오늘날에는 디지털 트윈 영역에서 많은 작업이 이루어지고 있습니다. 비록 제한적인 초기 시나리오에 불과하긴 하지만, 현재 디지털 트윈이 임상 시험에서 활용되고 있습니다. 이러한 사례를 시작으로 디지털 트윈의 활용도는 더 높아질 것입니다.

CAS: 그렇다면 이러한 새로운 영역을 개척하기 위해 무엇이 필요하다고 생각하십니까? 새로운 알고리즘이나 프레임워크가 필요할까요? 아니면 각 요소의 조화가 중요하다고 생각하십니까?

Jefferson: 말씀하신 모든 것이 필요하다고 말하고 싶습니다. 먼저 문제를 새로운 관점에서 살펴봐야 합니다. 기존의 알고리즘을 새로운 설계 방식에 적용하거나 새로운 알고리즘을 구현할 수 있습니다. 후생유전체학과 DNA 역학 또는 비번역 RNA 영역, 진유전체 비교의 경우 단순한 염기서열 분석과는 다릅니다. 다른 관점에서 살펴봐야 합니다. 여전히 염기서열에 해당하긴 하지만 염기서열 외의 관점에서 문제를 살펴보는 것이 중요합니다. 다른 관점에서 문제를 살펴보려면 각기 다른 도구가 필요합니다.

CAS: 염기서열 분석 및 신약 개발과 관련해 하나의 문제를 해결할 수 있는 마법의 지팡이가 생긴다면 어떠한 문제를 해결하시겠습니까? 그리고 그 문제를 해결하면 어떠한 상황이 벌어질까요?

Jefferson: 저는 모든 데이터에 꼼꼼하게 주석을 달고 모두에게 공개할 것입니다. 일단 기업, 기관, 대학을 비롯한 모든 곳의 독점 데이터를 확보하겠습니다. 그런 다음 주석 추가와 문서화 작업이 잘 이루어진 통합형 스토리지 플랫폼을 통해 모두가 자유롭게 해당 데이터를 이용할 수 있게 만들겠습니다. 이로써 중대한 문제를 해결할 수 있는 충분한 역량을 갖추게 될 것입니다.

 

Jefferson began his research career at MIT, exploring xenobiotic metabolism in the gram-positive soil bacterium Rhodococcus aetherovorans. He got into computing when faced with an overload of data trying to annotate the genome to develop DNA microarrays, and he’s been working at the intersection of biology, computing, and mathematics since. His career has taken him through small pharma, large pharma, and consulting organizations, including Novartis and Thomson Reuters. Along the way Jefferson acquired his Graduate Certificate in Applied Statistics from Pennsylvania State University and a master’s degree in computer science from Boston University.

Now, Jefferson is forging a new path with his own bioinformatics consulting company, NullSet Informatics Solutions providing data and analytics, data modeling, and technology project management services.