과학분야의 발견은 항상 양질의 정확한 데이터에 의존해 왔습니다. 잘못된 데이터는 재현 불가능한 결과와 문제 있는 솔루션으로 이어지며, 궁극적으로 더 나은 데이터를 재검토하고 확보해야 하는 필요성을 초래합니다. AI 기반 예측 모델이 초기 신약 개발 데이터 워크플로에서 점점 더 보편화됨에 따라, 전체 연구 워크플로 전반에 걸쳐 정확하고 일관성 있는 데이터의 중요성이 그 어느 때보다 커지고 있습니다.
혼란스러운 데이터는 현대 신약 개발의 지속적인 과제로 남아 있으며, 과학자들은 엔티티 이름 지정의 불일치를 해결하고, 일치하지 않는 데이터베이스 형식을 파악하고, 오류를 수정하는 데 상당한 시간을 소비하고 있습니다. 기계는 모호성과 불일치를 해석하는 데 필요한 맥락적 이해가 부족하기 때문에 복잡한 데이터 세트의 미묘한 차이를 처리하는 데 어려움을 겪습니다. 인간 과학자들은 기술로는 충분히 해결할 수 없는 데이터에 숨겨진 문제를 파악하고 수정하는 일을 자주 맡게 됩니다.
신약 개발 팀에게 혼란스러운 데이터는 파급 효과를 일으켜 연구자들이 잘못된 가정이나 불완전한 정보를 기반으로 실험을 설계하고 모델을 구축하도록 유도하여 궁극적으로 귀중한 리소스를 낭비하게 만듭니다. 여기에서 데이터 정제와 데이터 조화의 상호 보완적인 프로세스가 워크플로를 최적화하는 데 중추적인 역할을 하며, 각각 별개이지만 서로 연결된 문제를 해결합니다.
- 데이터 정제: 전문가가 오류를 식별하고 수정하며, 누락된 값을 채우고, 관련 없는 데이터를 제거하여 개별 데이터 세트의 정확성과 신뢰성을 보장하는 과정입니다
- 데이터 조화: 여러 출처의 정보를 사람이 데이터 통합하고 표준화하여 일관된 프레임워크로 통합함으로써 원활한 분석, 비교 가능성, 협업을 가능하게 합니다.
성공적인 정제와 조화의 핵심은 휴먼 큐레이션에 있습니다.
{{lipid-report="/new-components"}}
데이터 정제, 중요한 첫 번째 단계
과학자들이 데이터를 조화시키려면 먼저 데이터를 정제해야 합니다. 데이터 입력, 계산 오류, 센서 오작동, 시스템 결함으로 인한 오류를 제거함으로써 과학자들은 조화를 위한 데이터 기반을 구축할 수 있습니다. 적절하게 정제된 데이터에 의존하는 팀은 다음과 같은 이점을 얻습니다.
- 정확도가 향상되어 이 데이터에서 도출된 결과가 신뢰할 수 있고 재현 가능하므로 고품질의 신약 후보 물질로 이어질 수 있습니다.
- 효율성이 향상되어 오류로 인한 문제 해결 및 분석 재실행에 소요되는 시간이 줄어듭니다.
- 협업을 강화하고 데이터 세트 간의 불일치를 제거하여 팀, 기관 및 산업 간의 더 나은 팀워크를 촉진합니다.
- 정제된 데이터를 형성하여 약물과 표적 간의 상호작용, 질병 관계 등을 정확하게 예측할 수 있는 예측 모델의 기반을 구축하여 예측력을 강화합니다.
적절한 데이터 정제 없이 조화를 이루는 것은 모래 위에 건물을 짓는 것과 같이 취약하고 지속 불가능합니다. 과학자가 데이터를 정제할 때 가장 관련성이 높고 신뢰할 수 있는 정보만 다운스트림 프로세스에 통합하여 연구 환경에 대한 정확한 시각과 견고한 데이터 기반을 제공합니다.
성공적인 데이터 조화를 위한 구조화된 접근 방식
데이터 조화(그림 1)는 권한 구성과 명명 표준을 설정하는 것에서 시작됩니다. 예를 들어, 이러한 공들인 작업은 단백질과 같은 개체가 신약 개발을 위한 모든 소스 및 데이터 세트에서 일관되게 명명되고 분류되어 표적 식별을 가능하게 합니다.
조화의 다음 단계는 물질 연결로, 과학자들이 서로 다른 데이터 세트나 데이터베이스에서 동일한 화학 물질에 대한 참조를 식별하고 연결하는 작업입니다. 이 프로세스는 다양한 물질 표현, 동의어 및 식별자를 단일 일관된 개체로 통합합니다. 이러한 노력은 약리학 및 신약 개발에 필수적이며, 여러 출처에서 다양한 관습으로 인해 동일한 화합물이 다른 방식으로 설명되는 경우가 많습니다.

조화 과정에서 데이터 과학자들은 정확하고 관련된 데이터 문서를 식별하고 관리하여 데이터 중복을 방지하고 가장 관련된 정보만 유지합니다. 마지막 단계는 여러 소스의 데이터를 사용하여 구축된 통합된 기반을 만드는 데 필수적인 데이터 집합 간 데이터 정의의 일관성을 보장하는 데 중점을 둡니다.
신약 개발 팀은 휴먼 큐레이션 워크플로를 구현하여 복잡한 데이터 동향을 자신 있게 탐색할 수 있으며, 그 결과 고급 분석 및 예측 모델링에 적합한 신뢰할 수 있는 데이터 세트를 확보할 수 있습니다. 이러한 체계적인 접근 방식은 오류를 최소화하고 모든 후속 연구가 견고하고 정제된 데이터 기반 위에 구축되도록 합니다.
CAS 컨텐츠 컬렉션에서 조화된 생명과학 데이터 유형에 대해 자세히 알아보세요.
조화된 데이터로 예측 모델의 정확도 향상
데이터 조화의 가장 실질적인 이점 중 하나는 예측 모델에 미치는 영향입니다. 예측 정확성에 긍정적인 영향을 입증하기 위해 CAS 과학자들은 새롭게 조화된 데이터 세트를 사용하여 리간드-표적 쌍의 활성을 예측하는 기존 앙상블 모델을 재학습했습니다.
재학습된 모델은 예측 결과와 실험 결과 간의 표준 편차를 23% 줄이고, 예측과 실험 리간드-표적 상호작용의 불일치를 56% 줄임으로써 정확도가 크게 향상되었음을 보여주었습니다(그림 2). 과학자들은 표적 이름을 정규화하고 물질 연결을 개선하여 물질과 표적 간의 관계를 보다 일관되고 정확하게 설명할 수 있도록 데이터를 향상시켰습니다.

이 예측 모델링은 모델 성능을 개선하는 데 있어 인간 데이터 조화의 필수적인 역할을 강조합니다. 선별 과정 초기에 가장 유망한 후보를 식별하고 집중함으로써 팀은 히트-투-리드 단계를 더 빠르게 통과하고 개발 및 시험을 진행할 수 있습니다.
조화된 데이터로 고급 분석의 원동력 제공
데이터 조화는 예측 모델과 지식 그래프 및 상호작용 네트워크와 같은 고급 분석 도구를 최적화하여 혁신적인 신약 개발 워크플로를 주도합니다(그림 3). 이 도구들은 연구자들이 표적, 물질, 생물학적 경로 간의 관계를 탐구하여 질병 연관성과 새로운 치료 방법을 식별하는 데 도움을 줍니다.


조화된 휴먼 큐레이션 데이터 기반은 과학자들이 유전자 발현, 단백질 상호작용, 대사 경로와 같은 다양한 생물학적 수준에서 복잡한 상호작용을 추적할 수 있게 하여, 파편화된 데이터 소스에 의해 가려졌던 통찰력을 제공합니다. 이 접근법은 기존 화합물과 새로운 치료 표적 간의 숨겨진 연결을 밝혀내어 약물 발견의 정확성을 향상시키고 잠재적인 약물 재창출 기회를 가속화합니다.
혁신의 토대가 되는 휴먼 큐레이션
문맥의 뉘앙스를 이해하지 못하는 기계는 생물학적 데이터 세트에 내재된 모호성과 불일치를 적절히 처리하는 데 어려움을 겪습니다. 숙련된 전문가들은 미묘한 변화를 인식하고 오류를 해결하며 데이터를 조정하여 자동화된 시스템으로는 불가능한 방식으로 정확성과 연관성을 보장하는 중요한 역할을 합니다. 이 과정은 과학적 연구를 수행하는 사람들과 관련 서비스를 제공하는 조직에 필수적입니다. 예를 들어, 수백 명의 CAS 과학자들이 인간이 큐레이팅한 세계 최대 규모의 과학 지식 컬렉션인 CAS 컨텐츠 컬렉션™을 구축하는 데 사용된 데이터를 정제하고, 조화시키며, 큐레이팅합니다.
이러한 노력은 다운스트림 분석의 신뢰성을 높이고 잠재적인 약물 표적 및 효과적인 질병 치료법을 발견하는 속도를 높이는 데 도움이 됩니다.
예측 모델과 네트워크 다이어그램과 같은 고급 도구에 적용하면 조화된 휴먼 큐레이션 데이터를 통해 생명 과학을 비롯한 여러 분야에서 획기적인 발전을 이룰 수 있습니다. 조직은 연구에서 데이터 정제를 지속적으로 우선순위에 두면 연구 결과의 품질을 보장하고 혁신 가속화할 수 있습니다.
.avif)


