브라질의 생물 다양성을 토대로 혁신을 도모하기 위한 중요 데이터 정리

Steven P. Watkins , Scientific Data Engineer

Brazil Biodiversity

오래 전부터 간직해 온 사진으로 가족 사진첩을 만든다고 생각해 보겠습니다. 모든 사진을 신발 상자와 같은 한 곳에 모으는 것만으로는 큰 가치가 있거나 유용하지도 않습니다. 원하는 이미지를 찾는 데 시간이 많이 걸리고 다른 사람과 공유하기도 어렵습니다. 따라서 신발 상자에 모아 두면 더 이상 손길이 닿지 않고 옷장 속에서 사용되지 않고 잊혀지는 경우가 많습니다.

오늘날의 디지털 도구를 사용하면 사진을 훨씬 더 쉽게 검색, 공유 및 분류할 수 있습니다. 이제 사진을 잘 정리된 컬렉션에 빠르게 업로드하고 전세계 어디서나 볼 수 있습니다. 이러한 도구를 활용하면 더 이상 여러 상자에 사진을 아무렇게나 보관하지 않고 디지털 방식으로 정리한 컬렉션을 활용할 수 있습니다.

과학자들 역시 중요한 연구 데이터에 있어 유사한 문제에 직면해 있습니다. 단순히 컨텐츠를 수집하는 것만으로는 충분하지 않습니다. 올바른 구조와 체계적인 정리가 없다면 혁신가들이 이 정보를 완벽하게 활용할 수 없습니다. 일상적인 연구에서 AI, 예측 분석, 머신 러닝과 같은 디지털 기술 구현에 이르기까지 거의 모든 R&D 활동에는 강력한 데이터 기초가 중요합니다.

브라질의 생물 다양성 보존

풍부한 생물 다양성을 보유한 브라질은 지구 전체 생명 다양성의 15~20%를 차지하며 그 중 상당 부분은 아직까지 사람의 발길이 닿지 않은 상태입니다. 체계적인 정보 부족으로 연구원들이 관련 화학 물질을 검색, 선별, 심지어 비교하는 것초자 어려웠으며 이는 새로운 표적을 식별하고 사전 발견의 토대를 마련하며 혁신을 도모하는 데 방해 요인으로 작용했습니다.

결과적으로 상파울루주립대학교(IQ-UNESP) 연구진은 브라질의 특별한 생물 다양성에 대한 관련 정보에 접근할 수 있는 더 나은 방법을 모색했습니다. 희귀종을 위태롭게 만드는 도시화와 삼림 벌채가 계속 증가하면서 체계적인 데이터 정리의 필요성이 높아졌습니다. 샘플을 빠르게 처리하고 분류하지 않으면 물질에 대한 정보를 영원히 잃게 될 수 있습니다.

리우데자네이루 국립박물관에 큰 화재가 발생하면서 희귀 샘플이 영구적으로 손실되어 학계는 큰 타격을 입게 되었고, 그로 인해 2018년에 중요한 정보의 보존 요구가 더욱 커졌습니다. 화재 후 CAS 전문가들은 브라질 과학계에 대한 지원을 확대했으며 IQ-UNESP와 함께 향후 연구에 활용할 수 있도록 천연 생물 합성 화합물을 분류하고 정리했습니다.

CAS의 과학 정보 전문가와 브라질 천연물 연구원 간의 협업 결과 체계적이고 전문적인 천연물 컬렉션이 완성될 수 있었습니다. 누구나 이용할 수 있는 NuBBE(Nucleus for Bioassays, Biosynthesis and Ecophysiology of Natural Products) 데이터베이스로 데이터가 체계적으로 정리되고 있습니다. 이 프로젝트는 상파울루주립대학교 화학과(IQ-UNESP) Vanderlan Bolzani 박사와 상파울루대학교 상카를루스 물리학과(IFSC-USP) Adriano Andricopulo 박사가 처음 시작했습니다.

CAS 연구진은 데이터 관리 분야의 심도 깊은 과학 지식과 전문성을 활용하여 30,000건이 넘는 관련 과학 간행물의 정보를 발췌 및 정리했습니다. 완성된 컨텐츠 컬렉션은 브라질의 천연 생물 합성 화합물에 대한 접근성과 활용도를 극대화하여 혁신 노력을 지원하고 있습니다.

CAS와 IQ-UNESP의 협력으로 브라질의 풍부한 생물 다양성을 대표하는 54,000가지가 넘는 물질의 데이터 컬렉션을 완성한 과정을 자세히 알아보려면 지금 NuBBEDB 로고사례 연구를 다운로드하십시오.

체계적이고 접근이 용이한 데이터로 통찰력 강화

효율성은 필요한 혁신을 도모하기 위한 필수 요소입니다. 과학 정보의 접근성, 검색 용이성 또는 신뢰성이 낮으면 효율적인 연구가 어렵습니다. 실제로 데이터 무결성과 접근성 문제는 모든 개발 작업의 10~20%가 반복되는 결과를 초래합니다. 따라서 연구팀은 다양하고 일관되며 정확한 과학 및 비즈니스 정보에 쉽게 접근할 수 있어야 하며 그렇지 않은 경우 지연과 오류는 물론 그에 따른 비용 부담까지 발생할 수 있습니다.

지난 수십 년간 과학 정보는 그 양과 복잡성이 모두 크게 증가했으며 연결성과 체계성이 확보되지 않은 데이터로 인해 과학계의 대혼란이 초래되었습니다. 내부 시스템조차 다양한 소스로 인해 데이터의 형식과 품질 수준이 일관되지 않은 상황입니다. 따라서 체계적인 정리와 함께 검색이 용이한 데이터 저장소를 구축하고 유지하는 일은 어렵지만 그 어느 때보다 중요성이 강조되고 있습니다.

과학 데이터 관리 및 운영을 위한 FAIR 처리 원칙에 따르면 데이터는 검색 및 접근성은 물론 상호운용과 재활용이 용이해야 합니다. 정확한 의미와 연결 관계로 데이터를 정리하고 정규화하는 작업은 쉽지 않으며 전문적인 스킬과 상당한 자원 투자가 필요합니다. 따라서 많은 조직이 빠르고 경제적인 방식으로 자체 데이터의 가치를 활용하기 위해 CAS와 같은 외부 전문가와 협력하고 있습니다.

과학적 전문성으로 데이터 가치 극대화

일관되고 검증된 데이터의 강력한 토대를 구축함으로써 연구팀의 역량과 기술력을 효율적으로 강화할 수 있습니다. 일례로, 내부 데이터의 접근성과 정확성 문제로 어려움을 겪고 있던 한 기업이 CAS와의 협력으로 자체 지식 관리 시스템을 조율 및 표준화하여 연간 3,300시간 이상의 연구 시간을 절약한 사례가 있습니다.

고품질 데이터 세트를 구축 및 유지 관리하기 위해서는 전문성이 필요합니다. CAS는 다양한 학문 분야에 걸쳐 수백 명의 전문 과학 인력을 보유하고 있으며 전세계 50개 이상의 언어를 지원합니다. 알고리즘이 데이터 처리에 도움을 줄 수는 있지만 외적으로 관련이 없어 보이는 정보 간의 연결성을 파악하고 결과를 해석하는 데 있어 경험 많은 과학자의 능력을 대체할 수 있는 알고리즘은 없습니다.

CAS 전문가는 고객의 특정 프로젝트 범위에 맞게 엄선된 컨텐츠 컬렉션을 제공할 수 있습니다. 정확한 요구 사항을 반영함으로써 워크플로를 간소화하고 검색 가능성을 개선하며 다양한 이니셔티브를 가속화할 수 있도록 내부 및 외부 자원 투자에 따른 영향력을 높일 수 있습니다.

CAS는 맞춤형 서비스를 통해 이미 조직의 가장 큰 데이터 엄선 및 통합 문제 해결에 도움을 주고 있습니다. CAS 전문성으로 데이터의 가치를 극대화하고 싶다면 CAS에 직접 문의해 주십시오.