생명 과학 부문의 권위적 조직화 생성과 관련한 과제와 기회

CAS Science Team

CAS 데이터 전문가 Mark Schmidt, Jeff Wilson, Nicole Stobart
CAS 데이터 전문가 Mark Schmidt, Jeff Wilson, Nicole Stobart

CAS 소속 Nicole Stobart, Jeff Wilson, Mark Schmidt와의 대담

CAS는 화학 부문에서 100년 가까이 독자적 물질체계(authority construct)와 식별자를 세계 최고 수준의 큐레이션 및 색인화의 초석으로 사용해 왔습니다. 이제 CAS의 생명 과학 팀에서 새로운 산업 부문을 대상으로 동일한 색인화 도구를 생성하는 방안을 찾고 있습니다. 이 기사에서는 생명 과학 부문 선임 역량 관리자 Nicole Stobart, 선임 데이터 과학 부문 관리자 Jeff Wilson 박사, 수석 데이터 담당자 Mark Schmidt와 함께 독자적인 물질체계를 사용하여 이 새로운 경로를 만드는 방법에 대한 이야기를 나눕니다.

CAS: 먼저 물질체계에 대해 설명해 주시겠습니까?

Jeff: CAS 관점에서 독자적인 물질체계를 주로 식별에 초점을 맞추고 있습니다. 단백질, 화학물질, 핵산을 비롯한 모든 영역에서 각 개체를 고유하게 식별할 수 있어야 합니다. CAS의 화학 컬렉션에 존재하는 CAS REGISTRY®를 대표적인 예로 꼽을 수 있습니다. CAS REGISTRY에서는 다양한 화학물질을 고유하게 묘사하고 큐레이션 과정에서 동일한 물질을 접할 때 언제나 같은 방식으로 식별할 수 있어야 합니다. 아세트아미노펜을 예로 들어 보겠습니다. 아세트아미노펜이라 부르든, 타이레놀 또는 파라세타몰이라 부르든 상관없이 모두 동일한 화학물질로 식별됩니다. 

CAS: 생명 과학자들에게 이 물질체계가 중요한 이유는 무엇입니까?

Nicole: 현재 사용하고 있는 물질체계의 경우 저분자에서는 문제가 없지만, 단백질이나 효소를 다루게 되면 어떻게 될 것 같습니까? 물론 관련이 있는 염기서열이 존재하겠지만 하나의 아미노산만 바뀐 염기서열을 다른 개체로 봐야 할까요? CAS는 연구원들이 이 문제로 고심하고 있다는 사실을 알게 되었습니다. 여러 기업들과 기타 조직들이 조직화를 시도하긴 했으나 이러한 생물제제의 완전한 물질체계(authoritative organization)에 성공한 곳은 없었습니다. 생물학적 정보를 고객들에게 제공하려고 했을 때, CAS는 먼저 독자적인 물질체계를 진행하지 않으면 그러한 정보의 제공이 불가능하다는 사실을 발견했습니다. 단순히 방대한 양의 데이터를 수집만 하는 것이 아니라, 이러한 데이터를 체계적으로, 그리고 전 세계 모든 사람이 원하는 방식으로 조직화해야 합니다. 

Mark: 생명 과학 영역에서 CAS는 모든 중요 개체를 식별하고 합의를 통해 이러한 개체의 정의와 명칭을 정하는 공식적인 작업을 진행하고자 합니다. 과거 작업에서는 화학 물질을 관련 컬렉션에서 찾아보고 해당 물질에 대한 새로운 정보를 추가할 수 있었습니다. 생명 과학 부문에서도 단백질 및 효소 등을 대상으로 동일한 작업이 가능해지게 만들고자 하는데, 그러려면 먼저 합의를 통해 각 개체의 본질을 정해야 합니다. 

Jeff: 연구를 진행하는 사람과 해당 연구원의 위치에 따라 다르겠지만, 대상의 명확한 묘사가 가능해지면 제공하는 데이터의 일관성과 신뢰성이 크게 개선될 것이라고 생각합니다. 가장 간단한 수준에서 보면 CAS가 항상 해 왔던 작업으로 돌아가게 되는데, CAS SciFindern 같은 CAS의 검색 도구를 활용할 때 암이라 부르든 육종이라 부르든 상관없이 해당 용어 간의 관계를 알아서 파악할 수 있도록 검색을 위한 데이터를 조직화합니다. 데이터를 찾기 위해 여러 용어를 검색해 볼 필요 없이 백그라운드에서 자동으로 처리되므로 용어 중 하나만 사용해도 모든 데이터를 찾을 수 있습니다. 

하지만 단순한 검색을 넘어 지식 그래프와 중요한 관계 파악 같은 보다 정교한 작업으로 넘어가면, 여러 노드에 개체가 분산되어 있는 경우 정확한 지식 그래프를 만드는 것이 굉장히 어렵습니다. 예를 들어 특정 단백질에 관심이 있는 경우, 해당 단백질에 대한 모든 데이터가 하나의 노드에 저장되어 있고 다른 관련 개체의 데이터는 각기 다른 노드에 존재해야 합니다. 그렇지 않으면 지식 그래프가 지나치게 복잡해져 단백질 관련 노드가 15개, 질병 관련 노드가 12개, 동일한 물질 관련 노드가 7개 등 어려운 상황이 벌어집니다. 이렇게 복잡한 그래프가 만들어지면 이러한 본질을 사전에 정의하지 않아 기본적으로 3개의 개체가 예측 가능한 방식으로 연결되어 있다는 사실을 알 수 없습니다.

CAS: CAS의 큐레이션에 대해 설명해 주시겠습니까?

Mark: 일반적으로 큐레이션은 두 가지 의미를 갖습니다. 첫 번째는 데이터의 수집과 집계로, 보통 CAS에서는 이러한 작업을 큐레이션이라고 지칭하지 않습니다. CAS가 오랜 세월 제공해 온 큐레이션 서비스의 경우 과학자가 정보의 원출처를 살펴본 후 보유한 지식을 동원하여 해당 정보를 추출 및 개선하고 보다 체계적으로 활용할 수 있게 만듭니다.

Jeff: CAS 소속 과학자 대다수가 Mark가 설명한 큐레이션 작업에 관여하고 있는데, 1차 출처에서 핵심 정보를 추출한 다음 해당 정보를 개선, 표준화하고 다른 데이터 지점에 연결하지만 그다음 단계도 존재합니다. CAS에 소속된 또 다른 그룹에서는 개별 컬렉션의 자체 큐레이션을 진행하고 있으며, 새로 들어오는 정보를 살펴보며 해당 정보가 새로운 것인지, 이미 존재하는 정보인지, 이 정보를 어떻게 조직화할지, 관계는 어떻게 되는지, 어떠한 용어를 사용할지 결정합니다. 1차 문헌에서 정보를 추출하는 사람들이 이러한 결정을 내리지는 않지만 컬렉션을 큐레이션하는 사람들은 존재합니다.

Mark: 핵심은 체계화에는 끝이 없다는 것입니다. 항상 새롭게 발견되거나 새롭게 떠오르는 정보를 추가하고 있으며 유용하게 사용할 수 있도록 새로운 동의어를 추가하고 있습니다.

CAS: 큐레이션에 독자적인 물질체계를 활용하면 어떠한 이점이 있습니까?

Jeff: 물질체계를 활용하여 본질과 용어를 합하기 시작하면 새로운 대상의 식별이 간소화됩니다. 개체의 이름을 모두 수집한 후에는 독자적인 물질체계를 생성하여 즉시 해당 개체를 확인하고 맞춰 볼 수 있습니다. 동의어가 큐레이션을 가능하게 만듭니다.

Mark: 독자적 물질체계를 이용하면 모든 관련 정보를 조직화하고 집계하는 데 도움이 됩니다. 단백질을 예로 들면, 이 단백질의 이름이 여러 가지라고 해도 서로가 어떻게 부르는지 안다면 동일한 본질하에 모든 정보를 종합하여 정리할 수 있습니다.

CAS: 새로운 물질체계 생성이나 해당 구조를 통한 큐레이션에 AI를 활용할 수 있을 것 같습니까?

Nicole: AI 큐레이션을 위해서는 먼저 해당 대상을 설득력있게 조직화하고 식별했는지 확인해야 합니다. 모두 수동으로 조직화하거나 설득력있는 방식으로 다루고 식별하지 않는다면 머신 러닝이나 기계 선별 데이터에 의존하는 것이 굉장히 어렵습니다.

Jeff: AI 그리고 AI와 데이터의 관계에 대한 CAS의 일반적인 철학은 바로 사람의 역량을 높이기 위해 가장 발전한 기술을 활용한다는 것입니다. 오늘날 수백 명의 과학자들이 CAS에서 수행하고 있는 큐레이션 작업을 살펴보면 30년 전과 비교했을 때 그 수준이 훨씬 더 정교해졌습니다. 새로운 기술을 채택할 때마다 해당 기술을 사용해 사람들이 보다 정교한 작업을 수행할 수 있게 만듭니다. CAS는 문서와 통찰력 식별에 도움이 되는 자연어 처리 및 머신 러닝 관련 기술을 활용하며 이러한 데이터는 이후 사람에게 전달되어 사람이 중요한 내용과 관련이 있는 내용, 그리고 조직화 방식을 최종적으로 결정합니다.

체계화된 데이터를 생성한 후에는 반대쪽에서 기술 및 AI 솔루션을 통해 동일한 작업을 수행합니다. CAS는 사용자가 원하는 정보와 관련 정보를 보여 주기 위해 최고의 기술을 활용하려 노력합니다. 예측 기술을 사용해 합성 계획을 도울 수 있고 선행 기술을 예측하는 데 도움이 되는 AI 엔진을 보유하고 있으며, 불(Boolean) 유형 검색을 통해 정보를 찾을 수도 있습니다. 따라서 CAS는 인력을 대체할 목적으로 AI를 사용하는 것이 아니라 고도로 체계화된 데이터를 가져와 AI 기술을 적용합니다.

CAS: CAS는 생물학적 개체의 정의와 식별에 대해 어떠한 접근법을 사용할 예정입니까?

Mark: 여기서부터 본질의 의미가 중요해집니다. CAS는 생명 과학 부문에서 이 문제가 굉장히 까다롭고 복잡한 문제라는 사실을 잘 알고 있으며, 매일 사례별로 이러한 문제를 처리하고 있습니다. 완벽한 결과를 얻지 못한다고 해도 최선을 다할 것입니다. 생명 과학 영역의 작업자들에게 도움이 되도록 합리적이고 정당한 선택을 할 것입니다. 언제나 모든 사람에게 만족스러운 경험을 제공할 수는 없지만 사람들이 CAS가 제공하는 시스템을 믿고 사용할 수 있게 예측 가능하고 명확한 방식으로 작업을 진행할 것입니다.

"하나의 뉴클레오티드 차이도 새로운 본질로 간주할 것인가?"와 같은 질문을 받으면 상황에 따라 답이 달라질 수 있습니다. 하지만 세 개의 각기 다른 단일염기다형성을 세 개가 아닌 하나의 본질로 간주한다면 세 가지의 차이점을 모두 설명하고 하나의 본질에 연결시켜야 합니다. 따라서 하나의 본질 아래 다양한 요소를 배치한다고 해도 모든 정보를 계속 검색하고 연결하고 확인할 수 있습니다.

처음에 본질의 의미를 선택하고 정의한 다음 새로운 정보를 받게 되면 새로운 본질인지, 아니면 기존의 본질에 추가할 것인지 결정합니다. CAS는 최대한 많은 전산 역량을 활용하고 있지만 언제나 이러한 결정은 해당 주제에 대해 가장 잘 알고 있는 사람들이 내립니다. 이것이 바로 CAS가 신뢰할 수 있는 서비스를 제공하는 방식입니다.

Jeff: 사전에 명확하고 일관적이고 포괄적인 규칙을 만들어야 합니다. 개체 정의와 정보 집계를 시도해 보지 않았던 사람들에게는 이러한 작업이 변덕스럽게 느껴질 수 있지만, 정보를 조직화할 때에는 명확성과 일관성에 만전을 기하는 것이 좋습니다. 특정 사례에서는 미묘한 과학적 차이가 있을 수 있는데, 모든 대상을 위한 규칙을 구현하면 데이터가 분산되어 검색과 수집이 더 어려워집니다. 그 대신 99%의 대상에 적합한 규칙을 만드는 것이 더 낫습니다. 화학 영역의 경우 때때로 CAS REGISTRY에 설명되어 있는 내용이 잘못되었으며 데이터로 미루어 볼 때 다른 방식으로 설명하는 것이 더 낫다고 주장하는 과학자 분들이 계신데, 이러한 차이가 발생하는 이유는 일반적으로 CAS의 콘텐츠가 검색 가능성을 중심으로 조직화되기 때문입니다. 바로 이 부분이 핵심으로, 미묘한 과학적 차이가 누락될 때가 있더라도 큐레이션은 일관적으로 사용자가 원하는 데이터를 제공해야 한다는 것입니다.

CAS: 생명 과학 부문에서 이러한 본질을 생성하는 데 구조와 기능 중 어떤 것을 활용하고 계십니까?

Mark: 다수의 생물학적 개체, 특히 단백질의 경우 구조보다는 기능의 비중이 높지만 보통 두 수단을 모두 사용합니다. 화학 부문에서는 구조만 활용하여 쉽게 권위적 구성을 생성할 수 있지만 생명 과학 부문은 다릅니다. CAS는 단백질, 항체, 유기체 등 해결해야 하는 여러 가지 설득력있는 체계를 가지고 있으며 각 구조는 각각 고유한 방식으로 접근해야 합니다. 과거의 단순한 구조 기반 본질에서 벗어나 새로운 방식을 사용하여 생명 과학 부문으로 나아가야 합니다.

CAS: 시간이 지나면서 새로운 연구 결과가 나오면 생물학적 기능은 변하게 되는데, 기능 기반의 정의 작업 시 지속성에 대한 문제는 어떻게 해결할 계획입니까?

Jeff: CAS는 언제나 미래를 염두에 두고 있습니다. 생명 과학 분야의 10년 뒤를 예측할 수는 없지만 일관적인 구조를 만들면서 약간의 유연성과 확장성을 확보할 것입니다. 여기서 중요한 것은 현재의 구조를 계속 사용할 때와 새로운 구조를 필요로 하는 새로운 과학 분야가 등장하는 시점을 파악하는 것입니다. 사람들은 계속해서 단백질을 묘사하고자 하겠지만 새로운 권위적 구성을 만들어야 하는 일종의 하위 범주가 생겨날 수 있습니다.

Mark: 처음에 합리적인 본질의 의미를 제대로 정의해 두면 미래에도 문제없이 과학자들이 본질 중 하나를 보다 구체적인 여러 본질들로 세분할 것입니다. 유기체의 속종 관계 명명 사례를 생각해 보면 해당 사례는 아주 오랫동안 이어졌습니다. 아종의 필요성도 속종 관계 모델을 완전히 무효화시키지는 못했습니다. 처음 시작했을 때와 비교했을 때 본질이 더 구체화될 수 있는 부분에 구조를 구축할 수 있다고 생각하지만, 이러한 구조가 완전히 시대에 뒤처지지는 않을 것입니다.

CAS: CAS가 이렇게 나뉘어져 있는 생명 과학 부문의 독자적인 물질체계를 통합하는 데 적합한 조직인 이유는 무엇입니까?

Jeff: 특정 주제에 대해 전 세계적인 권위자가 되면 자립적인 성질을 띠게 됩니다. 화학물질의 경우 CAS REGISTRY를 의심하는 사람은 없습니다. 그만큼 절대적인 권위를 가지고 있습니다. 다른 물질 컬렉션도 존재하지만, CAS는 대다수의 다른 조직과 그 입지가 다릅니다. 미국 화학 학회 소속인 CAS의 목표는 단순히 수익을 내는 것이 아닌, 과학의 발전을 도모하는 것입니다. CAS는 이러한 생명 과학 데이터를 처리하고 CAS REGISTRY와 동일한 방식으로 조직화할 수 있는 인력, 전문성, 공간을 모두 갖추고 있습니다. CAS의 역량만 충분하다면 이 프로젝트가 완료되었을 때 단백질에 대한 권위적 영역을 구축할 수 있을 것입니다. CAS는 이러한 목표를 이룰 것입니다.

Mark: 생명 과학 부문 내에서 합의를 통해 유의미한 본질 집합을 도출해 내고자 하는 사람들이 꽤 많은데, 저분자 화학 부문에서 이미 이 문제를 해결한 적이 있습니다. 생명 과학자들은 명확한 본질 집합과 잘 정의된 본질 간의 관계를 활용하여 해당 구조를 중심으로 데이터를 조직화하고자 합니다. CAS는 이러한 복잡성을 해소하고 혼돈을 잠재우기 위해 노력하고 있습니다. 작업을 계속 진행하다 보면 사람들이 CAS가 대다수의 사람들에게 중요한 모든 단백질에 대해 잘 알고 있으며 대다수의 사람들에게 유용한 방식으로 이러한 단백질을 묘사한다는 사실을 받아들이기 시작할 것입니다. 특정 단백질을 컬렉션에서 찾지 못할 경우 CAS에 문의하면 문의자가 완전히 분리된 데이터베이스를 따로 만들 필요가 없도록 CAS가 해당 내용을 추가합니다. 이처럼 권위적 구성 컬렉션을 만드는 것을 넘어 생명 과학 영역의 권위자가 되는 것이 CAS의 목표입니다.

CAS: 과거의 작업들에 비해 지금 진행하고 있는 작업은 어떠한 차이가 있습니까?

Mark: 여러 과학적 영역에서 사람들은 자신에게 적합한 방식으로 자신과 동료들을 위해 국부적으로 문제를 해결합니다. 이 경우 데이터베이스에 포함되는 본질과 해당 본질의 묘사 방식, 관련 정보가 모두 자기중심적 성격을 띠게 됩니다. 한편 약간 중복되는 영역에서 어느 정도 동일한 작업과 다른 작업을 진행하는 사례에서는 다른 방식으로 이러한 본질을 묘사하고 다른 정보를 취합합니다. 이후 이러한 소규모 영역을 통합하는 프로젝트들이 생겨나면서 관련 당사자들의 의견을 합하고 해당 범위 내에서 자유로운 검색이 가능하게 만듭니다. 이러한 프로젝트는 생명 과학 부문에서도 이미 진행되고 있지만, 지금까지 하나의 통합적 본질 집합을 활용해 대규모 통합을 시도한 적은 없었습니다.

목표는 특정 단백질 표적이 3~4가지 생물학적 경로에 속한다는 사실을 모르는 채로 검색을 진행했을 때, 정보 집합 내 해당 본질을 통해 모든 연결고리를 확인할 수 있는 공간을 만드는 것입니다. 또한 해당 표적이 질병 상태나 치료 결과에 대한 생물지표로 사용되고 있다는 사실을 알 수도 있습니다. 사용자가 검색 및 이용할 수 있도록 하나의 본질을 중심으로 여러 위치에 있는 모든 정보를 집계하면 이전에는 얻을 수 없었던 가치를 확보할 수 있습니다.

Jeff: 현재 다수의 소규모 조직들이 단편적 정보를 집계하고 있습니다. 질병 온톨로지가 존재하며 Uniprot은 단백질 조직화를 위해 노력하고 있으며 NCBI는 유기체 데이터베이스를 보유하고 있습니다. 이들 각각은 그 자체만으로 권위적 구성이긴 하지만 그 어디에도 유용한 방식으로 연결되어 있지 않아 이리저리 이동해야 합니다. CAS는 조화롭게 연결된 생명 과학 영역 전반에서 모든 데이터를 찾을 수 있는 통일된 데이터 집합을 구축하고자 합니다. 그러기 위해서는 단백질에 대한 Uniprot, Ensemble, CAS REGISTRY의 관점을 취해 조화로운 하나의 시각적 구조, 하나의 본질 집합으로 만들어야 합니다. 또한 이러한 집합에서 출발해 더 작은 규모의 컬렉션들도 다시 활용할 수 있습니다. 모든 부분을 다 연결하면 이전에는 찾을 수 없던 정보까지 보여 주기 때문에 총합 그 이상의 가치를 얻을 수 있습니다.

Nicole: CAS는 세상에서 가장 포괄적인 생명 과학 데이터베이스를 만들고자 합니다. CAS는 고객들이 직면하고 있는 모든 문제와 과제를 해결해 드리고자 하며, 고객들은 생명 과학 부문의 설득력있는 물질체계를 필요로 하고 있습니다.

CAS: 이 영역으로 넘어오면서 이미 존재하고 있던 다른 데이터베이스의 반발에 부딪힌 적이 있으셨습니까?

Mark: 모두와 뜻을 같이할 수는 없습니다. 어느 시점에서는 특정 체계를 이용해 선택을 내려야 합니다. 잘 확립되고 견고한 대상에 반대하는 것은 어려운 일이므로, 작업을 진행하는 동안 잘못된 선택을 하지 않도록 노력할 것입니다. 모든 사람에게 갑자기 이전과 다른 용어를 사용하라고 강요하지는 않겠지만, CAS의 목표를 조금씩 달성해 나갈 예정입니다.

이 경우 원리는 간단한데, 바로 기존의 데이터베이스에 맞추는 것입니다. 하지만 실제로는 이러한 선택을 하는 것이 훨씬 더 어렵습니다. 두 개의 데이터베이스가 하나의 대상을 각기 다른 방식으로 부른다면, 둘 중 하나를 따르거나 새로운 이름을 선택해 더 나은 선택지를 제공하고자 할 수 있습니다. 이 과정은 굉장히 어려운 것처럼 들리지만, 그만큼 이 과정을 마치면 이 영역과 고객들에게 아주 큰 가치를 제공하게 될 것이라고 CAS는 판단하고 있습니다.

Nicole: CAS는 기존 데이터베이스를 활용하는 사람들이 소외감을 느끼는 것을 원치 않습니다. CAS는 기존의 도구를 개선하여 더 큰 가치를 제공하고자 합니다. 아직 다른 큐레이션 담당자들의 의견은 묻지 않았기 때문에 담당자들이 어떻게 생각하는지는 아직 모릅니다!

Jeff: 사실 큐레이션 작업에 관여하는 과학자들은 소수인데, 어떻게 보면 대중을 돕는 것이 목적이므로 이 그룹에 초점을 맞출 필요가 없습니다. 그리고 다수의 과학자들은 필요한 데이터를 얻는데 어려움을 겪고 있다고 말합니다.

Nicole: 맞습니다! 최근에 항체 정보 관련 데이터베이스를 만든 과학자와 이야기를 나눈 적이 있습니다. 그 과학자가 말하길, 항체 데이터를 조직화하고 싶어서가 아니라 본인의 예측 모델을 실행하는 데 항체 데이터가 필요했기 때문에 이러한 데이터베이스를 만들었다고 합니다. 아마 많은 과학자들이 이러한 상황에 놓여 있을 텐데, CAS는 연구에 방해가 되는 이 부분을 해결하고자 합니다.

CAS: 권위적 구성과 관련해 하나의 문제를 해결할 수 있는 마법의 지팡이가 생긴다면 어떠한 문제를 해결하고 싶으십니까? 그리고 이 문제를 해결하면 어떠한 결과가 나타날 거라 예상하시나요?

Mark: 저는 사람들이 하나의 대상을 지칭할 때 같은 이름을 사용했으면 좋겠습니다. 그렇게만 된다면 일이 훨씬 더 쉬워질 것입니다. 현재 과학자들이 특정 대상을 지칭할 때 사용하는 단어와 관련해 올바른 본질을 찾고 해당 본질과 이러한 단어를 연결하는 작업이 큰 비중을 차지하고 있습니다. 사용하는 언어의 범위를 줄이고 모두가 합의를 한다면 이 단계를 건너뛸 수 있습니다.

Jeff: 저는 더 많은 사람들이 권위적 구성을 이해하고 비전과 열정을 가지고 유용한 방식으로 해당 구조를 만들기 위해 노력했으면 좋겠습니다. 이러한 구조를 지원하는 조직 내에서도 여전히 왜 이 구조가 필요한지, 이 구조의 가치는 어떻게 되는지 설명하는 데 많은 시간을 할애하고 있습니다. 물론 이러한 구조를 설명하는 일은 보람이 있지만 제가 정말 하고자 하는 일, 즉 실제로 데이터를 처리하고 성과를 구축하는 데에는 약간의 방해 요소라고 생각합니다.