생명과학 데이터에 새로운 물질체계가 필요한 이유는 무엇입니까?
CAS 소속 Nicole Stobart, Jeff Wilson 박사, Mark Schmidt와의 대담

CAS는 화학 부문에서 100년 가까이 독자적 물질체계(authority construct)와 식별자를 세계 최고 수준의 큐레이션 및 색인화의 초석으로 사용해 왔습니다. 이제 CAS 생명과학팀은 동일한 색인화 도구를 새로운 산업에 맞게 구축하고 있습니다. 이번 기사에서는 생명과학 부문 선임 역량 관리자 Nicole Stobart, 컨텐츠 전략 및 물질체계 담당 부책임자 Jeff Wilson 박사, 수석 데이터 담당자 Mark Schmidt가 물질체계를 활용해 새로운 길을 열어가는 방법에 대해 이야기합니다.
CAS: 물질체계란 무엇이며, 생명과학 연구에서 물질체계가 중요한 이유는 무엇입니까?
CAS 관점에서 독자적인 물질체계는 주로 식별에 초점을 맞추고 있습니다. 단백질, 화학물질, 핵산을 비롯한 모든 영역에서 각 개체를 고유하게 식별할 수 있어야 합니다. CAS의 화학 컬렉션에 존재하는 CAS REGISTRY®를 대표적인 예로 꼽을 수 있습니다. CAS REGISTRY에서는 다양한 화학물질을 고유하게 묘사하고 큐레이션 과정에서 동일한 물질을 접할 때 언제나 같은 방식으로 식별할 수 있어야 합니다. 아세트아미노펜을 예로 들어 보겠습니다. 아세트아미노펜이라 부르든, 타이레놀 또는 파라세타몰이라 부르든 상관없이 모두 동일한 화학물질로 식별됩니다.
CAS: CAS의 데이터 큐레이션에 대해 설명해 주시겠습니까?
일반적으로 큐레이션은 두 가지 의미를 갖습니다.첫 번째는 데이터의 수집과 집계로, 보통 CAS에서는 이러한 작업을 큐레이션이라고 지칭하지 않습니다. CAS가 오랜 세월 제공해 온 큐레이션 서비스의 경우 과학자가 정보의 원출처를 살펴본 후 보유한 지식을 동원하여 해당 정보를 추출 및 개선하고 보다 체계적으로 활용할 수 있게 만듭니다.
CAS 소속 과학자 대다수가 Mark가 설명한 큐레이션 작업에 관여하고 있는데, 1차 출처에서 핵심 정보를 추출한 다음 해당 정보를 개선, 표준화하고 다른 데이터 지점에 연결하지만 그다음 단계도 존재합니다. CAS에 소속된 또 다른 그룹에서는 개별 컬렉션의 자체 큐레이션을 진행하고 있으며, 새로 들어오는 정보를 살펴보며 해당 정보가 새로운 것인지, 이미 존재하는 정보인지, 이 정보를 어떻게 조직화할지, 관계는 어떻게 되는지, 어떠한 용어를 사용할지 결정합니다. 1차 문헌에서 정보를 추출하는 사람들이 이러한 결정을 내리지는 않지만 컬렉션을 큐레이션하는 사람들은 존재합니다.
핵심은 체계화에는 끝이 없다는 것입니다. 항상 새롭게 발견되거나 새롭게 떠오르는 정보를 추가하고 있으며 유용하게 사용할 수 있도록 새로운 동의어를 추가하고 있습니다.
CAS: 큐레이션에 독자적인 물질체계를 활용하면 어떠한 이점이 있습니까?
물질체계를 활용하여 본질과 용어를 합하기 시작하면 새로운 대상의 식별이 간소화됩니다. 개체의 이름을 모두 수집한 후에는 독자적인 물질체계를 생성하여 즉시 해당 개체를 확인하고 맞춰 볼 수 있습니다. 동의어가 큐레이션을 가능하게 만듭니다.
독자적 물질체계를 이용하면 모든 관련 정보를 조직화하고 집계하는 데 도움이 됩니다. 단백질을 예로 들면, 이 단백질의 이름이 여러 가지라고 해도 서로가 어떻게 부르는지 안다면 동일한 본질하에 모든 정보를 종합하여 정리할 수 있습니다.
CAS: 새로운 물질체계 생성이나 해당 구조를 통한 큐레이션에 AI를 활용할 수 있을 것 같습니까?
AI 큐레이션을 위해서는 먼저 해당 대상을 설득력있게 조직화하고 식별했는지 확인해야 합니다. 모두 수동으로 조직화하거나 설득력있는 방식으로 다루고 식별하지 않는다면 머신 러닝이나 기계 선별 데이터에 의존하는 것이 굉장히 어렵습니다.
AI 그리고 AI와 데이터의 관계에 대한 CAS의 일반적인 철학은 바로 사람의 역량을 높이기 위해 가장 발전한 기술을 활용한다는 것입니다. 오늘날 수백 명의 과학자들이 CAS에서 수행하고 있는 큐레이션 작업을 살펴보면 30년 전과 비교했을 때 그 수준이 훨씬 더 정교해졌습니다. 새로운 기술을 채택할 때마다 해당 기술을 사용해 사람들이 보다 정교한 작업을 수행할 수 있게 만듭니다. CAS는 문서와 통찰력 식별에 도움이 되는 자연어 처리 및 머신 러닝 관련 기술을 활용하며 이러한 데이터는 이후 사람에게 전달되어 사람이 중요한 내용과 관련이 있는 내용, 그리고 조직화 방식을 최종적으로 결정합니다.
체계화된 데이터를 생성한 후에는 반대쪽에서 기술 및 AI 솔루션을 통해 동일한 작업을 수행합니다. CAS는 사용자가 원하는 정보와 관련 정보를 보여 주기 위해 최고의 기술을 활용하려 노력합니다. 예측 기술을 사용해 합성 계획을 도울 수 있고 선행 기술을 예측하는 데 도움이 되는 AI 엔진을 보유하고 있으며, 불(Boolean) 유형 검색을 통해 정보를 찾을 수도 있습니다. 따라서 CAS는 인력을 대체할 목적으로 AI를 사용하는 것이 아니라 고도로 체계화된 데이터를 가져와 AI 기술을 적용합니다.
CAS: CAS는 생물학적 개체의 정의와 식별에 대해 어떠한 접근법을 사용할 예정입니까?
여기서부터 본질의 의미가 중요해집니다. CAS는 생명 과학 부문에서 이 문제가 굉장히 까다롭고 복잡한 문제라는 사실을 잘 알고 있으며, 매일 사례별로 이러한 문제를 처리하고 있습니다. 완벽한 결과를 얻지 못한다고 해도 최선을 다할 것입니다. 생명 과학 영역의 작업자들에게 도움이 되도록 합리적이고 정당한 선택을 할 것입니다. 언제나 모든 사람에게 만족스러운 경험을 제공할 수는 없지만 사람들이 CAS가 제공하는 시스템을 믿고 사용할 수 있게 예측 가능하고 명확한 방식으로 작업을 진행할 것입니다.
"하나의 뉴클레오티드 차이도 새로운 본질로 간주할 것인가?"와 같은 질문을 받으면 상황에 따라 답이 달라질 수 있습니다. 하지만 세 개의 각기 다른 단일염기다형성을 세 개가 아닌 하나의 본질로 간주한다면 세 가지의 차이점을 모두 설명하고 하나의 본질에 연결시켜야 합니다. 따라서 하나의 본질 아래 다양한 요소를 배치한다고 해도 모든 정보를 계속 검색하고 연결하고 확인할 수 있습니다.
처음에 본질의 의미를 선택하고 정의한 다음 새로운 정보를 받게 되면 새로운 본질인지, 아니면 기존의 본질에 추가할 것인지 결정합니다. CAS는 최대한 많은 전산 역량을 활용하고 있지만 언제나 이러한 결정은 해당 주제에 대해 가장 잘 알고 있는 사람들이 내립니다. 이것이 바로 CAS가 신뢰할 수 있는 서비스를 제공하는 방식입니다.
사전에 명확하고 일관적이고 포괄적인 규칙을 만들어야 합니다. 개체 정의와 정보 집계를 시도해 보지 않았던 사람들에게는 이러한 작업이 변덕스럽게 느껴질 수 있지만, 정보를 조직화할 때에는 명확성과 일관성에 만전을 기하는 것이 좋습니다. 특정 사례에서는 미묘한 과학적 차이가 있을 수 있는데, 모든 대상을 위한 규칙을 구현하면 데이터가 분산되어 검색과 수집이 더 어려워집니다. 그 대신 99%의 대상에 적합한 규칙을 만드는 것이 더 낫습니다. 화학 영역의 경우 때때로 CAS REGISTRY에 설명되어 있는 내용이 잘못되었으며 데이터로 미루어 볼 때 다른 방식으로 설명하는 것이 더 낫다고 주장하는 과학자 분들이 계신데, 이러한 차이가 발생하는 이유는 일반적으로 CAS의 콘텐츠가 검색 가능성을 중심으로 조직화되기 때문입니다. 바로 이 부분이 핵심으로, 미묘한 과학적 차이가 누락될 때가 있더라도 큐레이션은 일관적으로 사용자가 원하는 데이터를 제공해야 한다는 것입니다.
CAS: 생명 과학 부문에서 이러한 본질을 생성하는 데 구조와 기능 중 어떤 것을 활용하고 계십니까?
다수의 생물학적 개체, 특히 단백질의 경우 구조보다는 기능의 비중이 높지만 보통 두 수단을 모두 사용합니다. 화학 부문에서는 구조만 활용하여 쉽게 권위적 구성을 생성할 수 있지만 생명 과학 부문은 다릅니다. CAS는 단백질, 항체, 유기체 등 해결해야 하는 여러 가지 설득력있는 체계를 가지고 있으며 각 구조는 각각 고유한 방식으로 접근해야 합니다. 과거의 단순한 구조 기반 본질에서 벗어나 새로운 방식을 사용하여 생명 과학 부문으로 나아가야 합니다.
CAS: 시간이 지나면서 새로운 연구 결과가 나오면 생물학적 기능은 변하게 되는데, 기능 기반의 정의 작업 시 지속성에 대한 문제는 어떻게 해결할 계획입니까?
CAS는 언제나 미래를 염두에 두고 있습니다. 생명 과학 분야의 10년 뒤를 예측할 수는 없지만 일관적인 구조를 만들면서 약간의 유연성과 확장성을 확보할 것입니다.여기서 중요한 것은 현재의 구조를 계속 사용할 때와 새로운 구조를 필요로 하는 새로운 과학 분야가 등장하는 시점을 파악하는 것입니다. 사람들은 계속해서 단백질을 묘사하고자 하겠지만 새로운 권위적 구성을 만들어야 하는 일종의 하위 범주가 생겨날 수 있습니다.
처음에 합리적인 본질의 의미를 제대로 정의해 두면 미래에도 문제없이 과학자들이 본질 중 하나를 보다 구체적인 여러 본질들로 세분할 것입니다. 유기체의 속종 관계 명명 사례를 생각해 보면 해당 사례는 아주 오랫동안 이어졌습니다. 아종의 필요성도 속종 관계 모델을 완전히 무효화시키지는 못했습니다. 처음 시작했을 때와 비교했을 때 본질이 더 구체화될 수 있는 부분에 구조를 구축할 수 있다고 생각하지만, 이러한 구조가 완전히 시대에 뒤처지지는 않을 것입니다.
CAS: 이처럼 파편화된 데이터를 큐레이션하기에 CAS가 적합한 조직인 이유는 무엇입니까?
특정 주제에 대해 전 세계적인 권위자가 되면 자립적인 성질을 띠게 됩니다. 화학물질의 경우 CAS REGISTRY를 의심하는 사람은 없습니다. 그만큼 절대적인 권위를 가지고 있습니다. 다른 물질 컬렉션도 존재하지만, CAS는 대다수의 다른 조직과 그 입지가 다릅니다. 미국 화학 학회 소속인 CAS의 목표는 단순히 수익을 내는 것이 아닌, 과학의 발전을 도모하는 것입니다. CAS는 이러한 생명 과학 데이터를 처리하고 CAS REGISTRY와 동일한 방식으로 조직화할 수 있는 인력, 전문성, 공간을 모두 갖추고 있습니다. CAS의 역량만 충분하다면 이 프로젝트가 완료되었을 때 단백질에 대한 권위적 영역을 구축할 수 있을 것입니다. CAS는 이러한 목표를 이룰 것입니다.
생명 과학 부문 내에서 합의를 통해 유의미한 본질 집합을 도출해 내고자 하는 사람들이 꽤 많은데, 저분자 화학 부문에서 이미 이 문제를 해결한 적이 있습니다. 생명 과학자들은 명확한 본질 집합과 잘 정의된 본질 간의 관계를 활용하여 해당 구조를 중심으로 데이터를 조직화하고자 합니다. CAS는 이러한 복잡성을 해소하고 혼돈을 잠재우기 위해 노력하고 있습니다. 작업을 계속 진행하다 보면 사람들이 CAS가 대다수의 사람들에게 중요한 모든 단백질에 대해 잘 알고 있으며 대다수의 사람들에게 유용한 방식으로 이러한 단백질을 묘사한다는 사실을 받아들이기 시작할 것입니다. 특정 단백질을 컬렉션에서 찾지 못할 경우 CAS에 문의하면 문의자가 완전히 분리된 데이터베이스를 따로 만들 필요가 없도록 CAS가 해당 내용을 추가합니다. 이처럼 권위적 구성 컬렉션을 만드는 것을 넘어 생명 과학 영역의 권위자가 되는 것이 CAS의 목표입니다.
CAS: 과거의 작업들에 비해 지금 진행하고 있는 작업은 어떠한 차이가 있습니까?
여러 과학적 영역에서 사람들은 자신에게 적합한 방식으로 자신과 동료들을 위해 국부적으로 문제를 해결합니다. 이 경우 데이터베이스에 포함되는 본질과 해당 본질의 묘사 방식, 관련 정보가 모두 자기중심적 성격을 띠게 됩니다. 한편 약간 중복되는 영역에서 어느 정도 동일한 작업과 다른 작업을 진행하는 사례에서는 다른 방식으로 이러한 본질을 묘사하고 다른 정보를 취합합니다. 이후 이러한 소규모 영역을 통합하는 프로젝트들이 생겨나면서 관련 당사자들의 의견을 합하고 해당 범위 내에서 자유로운 검색이 가능하게 만듭니다. 이러한 프로젝트는 생명 과학 부문에서도 이미 진행되고 있지만, 지금까지 하나의 통합적 본질 집합을 활용해 대규모 통합을 시도한 적은 없었습니다.
목표는 특정 단백질 표적이 3~4가지 생물학적 경로에 속한다는 사실을 모르는 채로 검색을 진행했을 때, 정보 집합 내 해당 본질을 통해 모든 연결고리를 확인할 수 있는 공간을 만드는 것입니다. 또한 해당 표적이 질병 상태나 치료 결과에 대한 생물지표로 사용되고 있다는 사실을 알 수도 있습니다. 사용자가 검색 및 이용할 수 있도록 하나의 본질을 중심으로 여러 위치에 있는 모든 정보를 집계하면 이전에는 얻을 수 없었던 가치를 확보할 수 있습니다.
현재 다수의 소규모 조직들이 단편적 정보를 집계하고 있습니다. 질병 온톨로지가 존재하며 Uniprot은 단백질 조직화를 위해 노력하고 있으며 NCBI는 유기체 데이터베이스를 보유하고 있습니다. 이들 각각은 그 자체만으로 권위적 구성이긴 하지만 그 어디에도 유용한 방식으로 연결되어 있지 않아 이리저리 이동해야 합니다. CAS는 조화롭게 연결된 생명 과학 영역 전반에서 모든 데이터를 찾을 수 있는 통일된 데이터 집합을 구축하고자 합니다. 그러기 위해서는 단백질에 대한 Uniprot, Ensemble, CAS REGISTRY의 관점을 취해 조화로운 하나의 시각적 구조, 하나의 본질 집합으로 만들어야 합니다. 또한 이러한 집합에서 출발해 더 작은 규모의 컬렉션들도 다시 활용할 수 있습니다. 모든 부분을 다 연결하면 이전에는 찾을 수 없던 정보까지 보여 주기 때문에 총합 그 이상의 가치를 얻을 수 있습니다.
CAS는 세상에서 가장 포괄적인 생명 과학 데이터베이스를 만들고자 합니다. CAS는 고객들이 직면하고 있는 모든 문제와 과제를 해결해 드리고자 하며, 고객들은 생명 과학 부문의 설득력 있는 물질체계를 필요로 하고 있습니다.
CAS: 이 영역으로 넘어오면서 이미 존재하고 있던 다른 데이터베이스의 반발에 부딪힌 적이 있으셨습니까?
모두와 뜻을 같이할 수는 없습니다. 어느 시점에서는 특정 체계를 이용해 선택을 내려야 합니다. 잘 확립되고 견고한 대상에 반대하는 것은 어려운 일이므로, 작업을 진행하는 동안 잘못된 선택을 하지 않도록 노력할 것입니다. 모든 사람에게 갑자기 이전과 다른 용어를 사용하라고 강요하지는 않겠지만, CAS의 목표를 조금씩 달성해 나갈 예정입니다.
이 경우 원리는 간단한데, 바로 기존의 데이터베이스에 맞추는 것입니다. 하지만 실제로는 이러한 선택을 하는 것이 훨씬 더 어렵습니다. 두 개의 데이터베이스가 하나의 대상을 각기 다른 방식으로 부른다면, 둘 중 하나를 따르거나 새로운 이름을 선택해 더 나은 선택지를 제공하고자 할 수 있습니다. 이 과정은 굉장히 어려운 것처럼 들리지만, 그만큼 이 과정을 마치면 이 영역과 고객들에게 아주 큰 가치를 제공하게 될 것이라고 CAS는 판단하고 있습니다.
CAS는 기존 데이터베이스를 활용하는 사람들이 소외감을 느끼는 것을 원치 않습니다. CAS는 기존의 도구를 개선하여 더 큰 가치를 제공하고자 합니다. 아직 다른 큐레이션 담당자들의 의견은 묻지 않았기 때문에 담당자들이 어떻게 생각하는지는 아직 모릅니다!
사실 큐레이션 작업에 관여하는 과학자들은 소수인데, 어떻게 보면 대중을 돕는 것이 목적이므로 이 그룹에 초점을 맞출 필요가 없습니다. 그리고 다수의 과학자들은 필요한 데이터를 얻는 데 어려움을 겪고 있다고 말합니다.
물론입니다! 최근에 항체 정보 관련 데이터베이스를 만든 과학자와 이야기를 나눈 적이 있습니다. 그 과학자가 말하길, 항체 데이터를 조직화하고 싶어서가 아니라 본인의 예측 모델을 실행하는 데 항체 데이터가 필요했기 때문에 이러한 데이터베이스를 만들었다고 합니다. 아마 많은 과학자들이 이러한 상황에 놓여 있을 텐데, CAS는 연구에 방해가 되는 이 부분을 해결하고자 합니다.
CAS: 만약 신약 개발 과정에서 무엇이든 바꿀 수 있는 마법의 지팡이가 있다면, 무엇을 바꾸고 싶으신가요?
저는 사람들이 하나의 대상을 지칭할 때 같은 이름을 사용했으면 좋겠습니다. 그렇게만 된다면 일이 훨씬 더 쉬워질 것입니다. 현재 과학자들이 특정 대상을 지칭할 때 사용하는 단어와 관련해 올바른 본질을 찾고 해당 본질과 이러한 단어를 연결하는 작업이 큰 비중을 차지하고 있습니다. 사용하는 언어의 범위를 줄이고 모두가 합의를 한다면 이 단계를 건너뛸 수 있습니다.
저는 더 많은 사람들이 권위적 구성을 이해하고 비전과 열정을 가지고 유용한 방식으로 해당 구조를 만들기 위해 노력했으면 좋겠습니다. 이러한 구조를 지원하는 조직 내에서도 여전히 왜 이 구조가 필요한지, 이 구조의 가치는 어떻게 되는지 설명하는 데 많은 시간을 할애하고 있습니다. 물론 이러한 구조를 설명하는 일은 보람이 있지만 제가 정말 하고자 하는 일, 즉 실제로 데이터를 처리하고 성과를 구축하는 데에는 약간의 방해 요소라고 생각합니다.