CAS Registry Services℠

예측 모델은 신약 개발을 어떻게 촉진할 수 있습니까?

CAS 소속 Adam Sanford 박사, Orr Ravitz 박사와의 대담

__wf_예약_상속
__wf_예약_상속

오늘날 빠르게 진화하는 신약 개발 환경에서, 예측 모델은 생물학적 활성, 약물-표적 상호작용 등을 시뮬레이션하고 예측하여 워크플로를 가속화하는 필수 도구로 부상하고 있습니다. 이러한 모델의 효용성은 구축 기반이 되는 데이터의 품질과 관리에 크게 좌우됩니다. 이 기술 혁신의 최전선에는 CAS가 있으며, CAS BioFinder Discovery Platform™은 고급 예측 모델에 의해 구동됩니다. 예측 모델의 정확성이 신약 개발 연구자들에게 어떻게 진정한 인사이트로 이어지는지를 이해하기 위해 CAS 생명과학 사업부 디렉터 Adam Sanford 박사와 CAS BioFinder® 수석 프로덕트 매니저 Orr Ravitz 박사를 만나 CAS를 업계 선두로 만드는 엄격한 데이터 관리 전략에 대해 들어보았습니다.

CAS: 예측 모델을 지원하기 위한 데이터 통합, 정규화, 조화에 대한 CAS의 접근 방식은 무엇입니까?

Adam Sanford
생명과학 사업부 디렉터

우리는 데이터 관리와 관련해 몇 가지 핵심 철학을 가지고 있습니다. 첫 번째는 포괄성입니다. 가능한 한 많은 관련 소스를 포착해 폭넓게 수집함으로써, 우리의 모델이 다양한 데이터에 기반한 견고한 토대 위에 구축되도록 하는 것이 목표입니다. 그러나 이는 단순히 데이터를 모으는 것에 그치지 않고, 그 데이터가 실제로 활용 가능하도록 하는 데 더 큰 의미가 있습니다. 여기서 인간 큐레이션과 정합 과정이 중요한 역할을 합니다. 이 과정이 다소 단조롭거나 과도해 보일 수 있지만, AI 기반 추출만으로는 도달할 수 없는 수준의 정확도를 달성하기 위해서는 필수적이라고 생각합니다.

데이터를 도입할 때 우리는 세 가지 핵심 영역에 주목합니다. 첫째, 특정 유형의 개체, 예를 들어 소분자·단백질·경로와 같은 경우 이를 우리의 물질체계에 정합시킵니다. 이는 하나의 개체가 다양한 방식으로 표현된 것을 단일 식별자나 구성 요소로 통합하는 과정입니다. 발표된 문헌에서는 단백질이나 화학 구조가 수백 가지 다른 방식으로 표현되는 것이 흔합니다. 주의를 기울이지 않으면 서로 독립적인 관측처럼 보이지만, 실제로는 동일한 개체이기 때문에 하나의 군집으로 묶일 수 있습니다. 우리의 프로세스는 이러한 다양한 개체를 하나의 군집으로 통합합니다.

Orr Ravitz
CAS BioFinder 수석 프로덕트 매니저

문헌에 등장하는 개체를 명확히 구분하는 것은 모델 정확성을 보장하기 위해 매우 중요합니다. 예를 들어, 생물학에서는 하나의 단백질이 수많은 방식으로 지칭될 수 있으며, 이러한 이름과 형태가 모두 반영되지 않으면 연구자가 방대한 데이터의 상당 부분을 놓칠 수 있습니다. 화학 분야에서도 유사한 과제가 존재하며, 우리는 이 분야에서 축적된 전문성을 보유하고 있습니다. CAS는 오랜 화학 데이터 처리 경험을 통해 얻은 전문 지식을 바탕으로 생물학적 개체를 높은 정확도로 구분해낼 수 있습니다.

중요한 것은 단순히 개체를 올바르게 식별하는 데 그치지 않고, 실험적 맥락을 정확히 포착하며, 단위나 사용된 방법과 같은 측정값 자체도 효과적으로 조화시키는 것입니다.

우리는 이러한 근본적인 물질체계를 구축하는 데 많은 노력을 기울이고 있습니다. 예를 들어, 문헌에서 단백질은 종이나 변형에 따라 다양한 이름이나 식별자로 언급될 수 있습니다. 우리의 접근 방식은 이러한 모든 변이를 하나의 일관된 식별자 아래에 통합하도록 보장합니다. 이를 통해 예측에서 높은 수준의 정밀성을 유지할 수 있으며, 이는 신약 개발에 매우 중요합니다.

Adam Sanford
생명과학 사업부 디렉터

우리 프로세스에서 또 하나 중요한 측면은 정보를 정규화하는 것입니다. 이 작업은 완전히 자동화된 것이 아니며, 인간이 깊이 관여합니다. 예를 들어, 우리가 데이터를 색인화할 때 실제 과학자가 문헌에 기록된 관측값을 확인해 수치 관측인지, 활성인지, 혹은 다른 것인지 판단합니다. 이후 이 데이터를 표준 단위 집합에 맞춰 정합합니다. 이는 모든 세부 사항을 꼼꼼하게 다루는 과정으로, 각각의 데이터가 정확하고 우리 컨텐츠 전체와 일관성을 유지하도록 보장합니다.

이처럼 엄격한 데이터 관리 접근 방식이 CAS를 업계의 다른 기업들과 차별화합니다. CAS는 이러한 복잡성을 처리하기 위한 전사적 인프라를 구축했으며, 이를 통해 예측 모델이 높은 효과를 발휘할 수 있습니다.

CAS: 그 접근 방식이 어떻게 신약 개발 연구자에게 도움이 되는 예측 모델로 이어집니까?

Orr Ravitz
CAS BioFinder 수석 프로덕트 매니저

우리의 모델은 신뢰할 수 있는 데이터 기반 위에 구축되어 있으며, 이러한 확신이 곧바로 더 정확한 예측으로 이어집니다. 처음에는 공개 데이터로 모델을 테스트했지만, CAS가 큐레이션한 컨텐츠로 전환했을 때 예측 정확도가 눈에 띄게 향상되는 것을 확인했습니다. 또한 특정 생물 종에 맞추거나 특정 작용 기전에 집중하는 등 더 세분화된 모델을 만들 수 있다는 사실도 발견했습니다. 이는 데이터의 정확성을 보장할 뿐 아니라, 데이터가 얻어진 맥락까지 함께 반영하기 때문입니다.

CAS BioFinder에서는 정보학 기반 모델을 사용합니다. 우리는 데이터 전반의 패턴을 살펴보며, 그렇기 때문에 규모가 무엇보다 중요합니다. 데이터가 많을수록 모델 성능이 향상됩니다. 우리는 세 가지 핵심 요소, 즉 올바른 분자·올바른 표적·올바른 측정값에서 출발해 그 기반 위에서 확장합니다. 이러한 요소들의 품질을 철저히 관리하기 때문에 CAS 모델은 본질적으로 더 높은 신뢰성을 갖습니다.

Adam Sanford
생명과학 사업부 디렉터

CAS BioFinder는 서로 다른 방법론을 가진 다섯 가지 예측 모델 클러스터를 사용합니다. 구조 기반에 강점을 지니고 화학 데이터를 탁월하게 활용하는 모델도 있고, 다양한 데이터 특성에 집중하는 모델도 있습니다. 각 모델이 고유한 관점에서 예측을 수행하는 앙상블 접근 방식을 사용하면 이러한 예측을 결합하여 합의된 결과를 도출할 수 있습니다. 이러한 합의는 개별 모델 하나가 단독으로 낼 수 있는 결과보다 더 높은 예측 신뢰 수준을 제공하는 경우가 많습니다.

예를 들어, 리간드-표적 활성 예측은 CAS BioFinder의 핵심 기능 중 하나입니다. 새로운 화합물이든 기존 데이터베이스에 있는 화합물이든, CAS의 모델은 명시적 실험 데이터가 없더라도 리간드가 표적과 상호작용할 가능성을 예측할 수 있습니다. 이 기능은 새로운 화합물의 잠재적 활성을 이해하려는 의약 화학자들에게 매우 유용합니다.

또한 CAS는 체내에서 화합물이 어떻게 대사될지를 예측하는 대사 산물 프로파일 모델도 보유하고 있습니다. 신약 후보의 대사 경로를 이해하는 것은 안전성과 효능을 평가하는 데 필수적입니다. 이러한 예측은 실험적으로 확인된 대사 산물에 기반해 구축되므로 특히 높은 신뢰성을 제공합니다.

Orr Ravitz
CAS BioFinder 수석 프로덕트 매니저

우리는 고객이 자체 보유한 데이터에 CAS의 데이터 컬렉션을 더해 활용할 수 있도록 지원하고 있습니다. 많은 제약 기업들은 자체적으로 개발한 화학 데이터에 대한 깊은 역사를 보유하고 있습니다. 여기에 CAS 데이터를 결합하면, 각 기업의 필요에 매우 특화된 예측 모델을 구축할 수 있습니다. 이는 기업이 자체 전문성을 최대한 활용하면서도 CAS 데이터의 폭과 깊이가 제공하는 이점을 함께 누릴 수 있게 하는 강력한 역량입니다.

CAS: 모델을 개발하는 과정에서 직면한 가장 큰 과제는 무엇이었습니까?

Adam Sanford
생명과학 사업부 디렉터

앞서 언급한 물질체계를 구축하는 일은 많은 사람의 개입이 필요한 고된 과정입니다. 특히 복잡한 화학 및 생물학 정보를 다룰 때는 완전히 자동화할 수 있는 일이 아닙니다. 모든 것이 정확한지 확인하는 데 필요한 인적 투입을 고려하면 이 과정은 매우 까다로울 수 있습니다.

또 다른 중요한 도전 과제는 문헌에서 데이터가 제시되는 방식의 다양성입니다. 예를 들어, 특허의 경우 데이터가 표 안에 묻혀 있거나, 보충 자료에 포함되어 있거나, 문서 전반에 흩어져 있는 경우가 있습니다. 기계만으로는 이러한 조각들을 모두 정확히 모을 수 없습니다. 데이터가 정확하게 추출되고 정규화되도록 하기 위해서는 반드시 인간 큐레이터의 개입이 필요합니다. 이것은 단순한 일회성 작업이 아니라, 세부 사항에 지속적으로 주의를 기울여야 하는 끊임없는 노력이 요구되는 일입니다.

Orr Ravitz
CAS BioFinder 수석 프로덕트 매니저

최근 경험한 일화를 통해 이러한 복잡성을 설명해 드릴 수 있습니다. 저는 1980년대 후반에 승인된 한 기존 의약품의 측정값을 접한 적이 있습니다. 그 데이터는 몇 년 전의 논문을 참조하고 있었고, 해당 의약품이 승인되기 훨씬 전에 이미 그 구조가 언급되었다는 사실에 놀랐습니다. 자세히 살펴보니 논문에는 여러 구조가 포함되어 있었지만, 어느 것도 문제의 의약품과 정확히 일치하지 않았습니다. 이후 다양한 치환에 대해 언급한 텍스트를 확인하고 나서야 올바른 구조를 찾아낼 수 있었습니다. 이러한 수준의 복잡성은 현재의 기계가 처리할 수 있는 범위를 넘어서는 것이며, 이는 CAS의 데이터 관리 프로세스에서 인간 전문성이 왜 중요한지를 잘 보여줍니다.

우리는 흔히 “엣지 사례 머신(edge case machine)을 만들었다”고 농담하곤 합니다. 실제로 우리는 이런 복잡한 사례들을 자주 다루기 때문입니다. 이러한 엣지 사례는 데이터에서 차지하는 비율은 적을 수 있지만, 모델의 정확도에 큰 영향을 미칠 수 있습니다. 따라서 이러한 사례를 올바르게 처리하는 것이 예측 모델 전반의 성공에 매우 중요합니다.

CAS: 출판물과 데이터가 끊임없이 등장하는 상황에서 CAS는 이러한 모델을 어떻게 최신 상태로 유지합니까?

Adam Sanford
생명과학 사업부 디렉터

처음 모델을 구축할 때는 새로운 데이터를 반영할 때마다 대규모 배치 단위로 업데이트했습니다. 현재는 더 짧은 주기로, 경우에 따라 격주 단위로 모델을 재학습하고 있습니다. 이를 통해 사용자들이 항상 최신 예측 결과를 활용할 수 있도록 보장합니다. 또한 새로운 데이터를 통합하기 위한 파이프라인을 마련해 두었으며, 이 과정은 점점 더 효율적으로 발전하고 있습니다.

Orr Ravitz
CAS BioFinder 수석 프로덕트 매니저

우리는 새로운 데이터를 논문 발표 후 수주 안에 모델에 통합하는 것을 목표로 하고 있습니다.과거에는 데이터 환경에 큰 변화가 있을 때, 예를 들어 새로운 표적에 신뢰할 수 있는 예측 모델을 구축하기에 충분한 데이터가 확보되었을 때 모델을 학습시켰습니다. 데이터 모델링과 정확성에 대한 기대치는 빠르게 변하고 있으며, 우리는 신약 개발 과학자들의 요구를 충족하기 위해 앞으로도 모델을 지속적으로 모니터링하고 자주 재학습시킬 것입니다.

CAS: CAS BioFinder™와 귀하의 예측 모델에 대해 특별히 기대되는 점이 있습니까?

Adam Sanford
생명과학 사업부 디렉터

우리의 데이터와 솔루션은 말 그대로 매일 진화하고 있습니다.하지만 2024년 10월 현재, 우리는 단백질 기반 치료제와 PROTAC과 같은 더 발전된 치료 기법을 예측 프레임워크에 통합하는 방법을 포함하여 여러 분야를 적극적으로 탐구하고 있습니다. 이러한 영역은 아직 개발 단계에 있지만, 우리 모델이 달성할 수 있는 한계를 확장할 잠재력에 큰 기대를 걸고 있습니다. 여기에는 항체-약물 접합체와 같은 분야도 포함되는데, 이는 소분자와는 다른 모델링 접근법이 필요합니다. 또한 업계가 점점 더 복잡한 치료 기법으로 나아감에 따라 독성 예측의 중요성도 커지고 있어, 이 부분에도 주목하고 있습니다.

Orr Ravitz
CAS BioFinder 수석 프로덕트 매니저

또 다른 흥미로운 분야는 예측 모델링에 지식 그래프를 활용하는 것입니다. 경로 정보나 바이오마커와 같이 CAS가 제공하는 생물학적 맥락을 확장함으로써, 이러한 관계를 활용해 더욱 정교한 모델을 만들 수 있습니다. 이를 통해 새로운 약물-표적 상호작용을 예측하거나 질환에 대한 새로운 바이오마커를 식별할 수도 있습니다. 또한 우리는 이러한 지식 그래프를 구축하는 다양한 방법을 실험 중이며, 이를 통해 훨씬 더 강력한 예측 기능을 제공할 수 있을 것으로 기대합니다.

CAS: 신약 개발에서 예측 모델링에 대한 이 접근 방식이 독특한 이유는 무엇입니까? 

Orr Ravitz
CAS BioFinder 수석 프로덕트 매니저

CAS를 진정으로 차별화하는 요소 중 하나는 투명성과 유연성에 대한 확고한 의지입니다. 우리는 사용자들이 계산 방법에 대해 서로 다른 선호를 가질 수 있다는 점을 이해하고 있습니다. 그래서 CAS BioFinder Discovery Platform을 단일 애플리케이션이 아니라 더 유연한 형태로 설계했습니다. 사용자는 CAS 데이터 코퍼스에서 데이터를 다운로드해 자체 데이터와 결합하고, 선호하는 방법으로 활용할 수 있습니다. 이러한 유연성은 고객이 CAS의 컨텐츠와 역량을 최대한 활용할 수 있도록 하는 핵심 요소입니다.

Adam Sanford
생명과학 사업부 디렉터

CAS BioFinder의 모든 관측값은 문헌상의 출처와 연결되어 있어, 사용자는 데이터를 원래 출처까지 추적할 수 있습니다. 이러한 투명성은 사용자와의 신뢰를 구축하는 데 필수적입니다. 우리는 사용자들에게 우리의 모델을 맹목적으로 신뢰하라고 요구하는 것이 아니라, 스스로 데이터를 검증할 수 있는 도구를 제공하고 있습니다. 이와 같은 수준의 투명성과 엄격함이 CAS를 신약 개발 예측 모델링의 과제를 해결할 수 있는 가장 적합한 기업으로 만듭니다.

CAS: 만약 신약 개발 과정에서 무엇이든 바꿀 수 있는 마법의 지팡이가 있다면, 무엇을 바꾸고 싶으신가요?

Orr Ravitz
CAS BioFinder 수석 프로덕트 매니저

출판된 문헌에는 긍정적인 결과에 편향이 있다는 것을 우리는 잘 알고 있습니다. 하지만 특정 표적에 대해 비활성을 보이는 분자와 같은 부정적 데이터도 정확한 모델을 구축하는 데 똑같이 가치가 있습니다.더 많은 부정적 데이터에 접근할 수 있다면 우리의 머신러닝 기법은 크게 향상될 것입니다. 그러나 이는 업계에서 여전히 중요한 과제로 남아 있습니다. 학계와 산업계가 이러한 데이터를 공개할 수 있도록 더 많은 인센티브가 제공되면 좋을 것 같습니다.

Adam Sanford
생명과학 사업부 디렉터

많은 사람들이 AI와 머신러닝을 가장 어려운 신약 개발 문제를 해결할 만능 열쇠처럼 여기지만, 실질적인 변화 없이는 그런 일은 일어나기 어렵습니다. 견고한 데이터 기반 위에 구축되지 않는다면 이러한 기술은 반복적으로 실패할 수밖에 없습니다. 우리는 이 점이 너무나 중요하기 때문에 계속 강조해 왔습니다. 가장 중요한 데이터 그 자체에 에너지를 집중해야 합니다. 

제가 업계에서 경험했던 과거를 돌이켜보면, 기초 데이터 구조와 지식 관리의 중요성에 더 큰 비중이 두어졌다면 좋았을 것 같습니다. 오늘날 데이터가 성공적인 실험과 예측의 토대라는 점은 널리 인정받고 있지만, 여전히 많은 조직들이 이 분야에 충분히 투자하지 않고 있습니다. 문제를 인식하고는 있지만 이를 제대로 다루는 데 얼마나 많은 에너지와 리소스가 필요한지는 파악하지 못하고 있습니다. CAS는 이러한 복잡성을 다루도록 설계되어 있으며, 우리는 그 투자가 가져오는 이점을 직접 확인해 왔습니다.