A descoberta científica sempre se baseou em dados de qualidade e precisos. Dados de má qualidade levam a resultados irreproduzíveis, soluções problemáticas e, por fim, à necessidade de revisar e adquirir dados de melhor qualidade. Agora que os modelos preditivos baseados em IA estão se tornando mais comuns nos primeiros fluxos de trabalho de descoberta de medicamentos, a importância de dados que sejam precisos e consistentes em todos os fluxos de trabalho de pesquisa nunca foi tão grande.
Dados desorganizados continuam sendo um desafio persistente na descoberta moderna de medicamentos, levando os cientistas a gastar um tempo considerável resolvendo inconsistências na nomeação de entidades, identificando formatos de banco de dados incompatíveis e corrigindo erros. As máquinas têm dificuldade em lidar com as nuances de conjuntos de dados complexos porque não têm a compreensão contextual necessária para interpretar ambiguidades e inconsistências. Cientistas humanos são frequentemente encarregados de identificar e corrigir problemas ocultos nos dados que a tecnologia não está suficientemente preparada para resolver.
Para as equipes de descoberta de medicamentos, dados confusos criam um efeito cascata, levando os pesquisadores a projetar experimentos e criar modelos com base em suposições errôneas ou informações incompletas, desperdiçando recursos valiosos. É nesse ponto que os processos complementares de limpeza e harmonização de dados desempenham um papel fundamental na otimização dos fluxos de trabalho, cada um abordando desafios distintos, mas interconectados.
- Limpeza de dados: O processo de fazer com que especialistas identifiquem e corrijam erros, preencham valores ausentes e removam informações irrelevantes para garantir precisão e confiabilidade em conjuntos de dados individuais.
- Harmonização de dados: a integração humana de informações de várias fontes, padronizando e unificando-as em uma estrutura coesa para permitir uma análise, comparabilidade e colaboração fluida
A chave para a limpeza e a harmonização bem-sucedidas está na curadoria humana.
{{lipid-report="/new-components"}}
Limpeza de dados, a primeira etapa crítica
Antes que os cientistas possam harmonizar os dados, eles devem limpá-los. Ao eliminar os erros decorrentes da inserção de dados, erros de cálculo, mau funcionamento de sensores ou falhas no sistema, os cientistas podem criar a base de dados necessária para a harmonização. As equipes que confiam em dados devidamente limpos obtêm:
- Precisão aprimorada, garantindo que as conclusões extraídas desses dados sejam confiáveis e reproduzíveis, levando a candidatos a medicamentos de alta qualidade.
- Maior eficiência, reduzindo o tempo gasto na resolução de problemas e na reexecução de análises devido a erros.
- Colaboração aprimorada, facilitando um melhor trabalho em equipe entre equipes, instituições e setores, eliminando discrepâncias entre conjuntos de dados.
- Poder preditivo refinado, utilizando dados limpos para criar a base de modelos preditivos que possam prever com precisão interações farmacodinâmicas, relações de doenças e muito mais.
A harmonização sem a limpeza adequada dos dados é como construir sobre areia movediça—frágil e insustentável. Quando os cientistas limpam dados, eles garantem que apenas as informações mais relevantes e confiáveis sejam incorporadas aos processos subsequentes, proporcionando uma visão precisa do cenário de pesquisa e uma base de dados robusta.
Uma abordagem estruturada para a harmonização bem-sucedida de dados
A harmonização de dados (Figura 1) começa com o estabelecimento de criação de autoridade e padrões de nomenclatura. Por exemplo, este trabalho meticuloso assegura que entidades como proteínas sejam nomeadas e categorizadas de forma uniforme em todas as fontes e conjuntos de dados para fins de desenvolvimento de medicamentos, permitindo assim a identificação de alvos.
A próxima fase na harmonização é a vinculação de substâncias, na qual os cientistas identificam e conectam referências à mesma substância química em conjuntos de dados ou bancos de dados distintos. Este processo unifica diferentes representações de substâncias, sinônimos e identificadores em uma única entidade consistente. Esse esforço é essencial para a farmacologia e a descoberta de medicamentos, onde convenções variadas entre fontes frequentemente resultam no mesmo composto sendo descrito de maneiras diferentes.

Mais adiante no processo de harmonização, os cientistas de dados identificam e gerenciam documentos exatos e relacionados, evitando a duplicação de dados e garantindo que apenas as informações mais relevantes sejam retidas. A etapa final se concentra em garantir a consistência das definições de dados entre os conjuntos de dados, o que é essencial para produzir uma base coesa construída com dados de múltiplas fontes.
As equipes de descoberta de medicamentos podem navegar com confiança por cenários de dados complexos ao implementar um fluxo de trabalho de harmonização impulsionado por curadoria humana, resultando em conjuntos de dados confiáveis, prontos para análises de dados avançadas e modelagem preditiva. Essa abordagem sistemática minimiza os erros e garante que toda a pesquisa subsequente seja feita sobre uma base de dados sólida e limpa.
Saiba mais sobre os tipos de dados de ciências biológicas harmonizados no CAS Content Collection.
Dados harmonizados aumentam a precisão dos modelos preditivos
Um dos benefícios mais tangíveis da harmonização de dados é o seu impacto nos modelos preditivos. Para demonstrar o efeito positivo na precisão da previsão, os cientistas do CAS utilizaram um conjunto de dados recém-harmonizado para retreinar um modelo de conjunto existente que prevê a atividade de um par ligante-alvo.
O modelo retreinado demonstrou melhorias significativas na precisão, reduzindo o desvio padrão entre os resultados previstos e experimentais em 23% e diminuindo a discrepância nas interações ligante-alvo previstas e experimentais em 56% (Figura 2). Ao normalizar o nome do alvo e melhorar a vinculação de substâncias, os cientistas aprimoraram os dados para descrever a relação entre uma substância e seu alvo de maneira mais consistente e precisa.

Essa modelagem preditiva destaca o papel essencial da harmonização de dados humanos no aprimoramento do desempenho do modelo. Ao identificar e se concentrar nos candidatos mais promissores no início do processo de triagem, as equipes podem avançar mais rapidamente pela fase hit-to-lead e prosseguir com o desenvolvimento e os testes.
Dados harmonizados alimentam análises de dados avançadas
A harmonização de dados também otimiza modelos preditivos e ferramentas analíticas avançadas, como grafos de conhecimento e redes de interação que impulsionam fluxos de trabalho inovadores de descoberta de medicamentos (Figura 3). Essas ferramentas ajudam os pesquisadores a explorar as relações entre alvos, substâncias e vias biológicas para identificar associações de doenças e novas modalidades terapêuticas.


Uma base de dados unificada e com curadoria humana permite que os cientistas rastreiem interações complexas em vários níveis biológicos – como expressão gênica, interações entre proteínas e vias metabólicas – proporcionando insights que, de outra forma, seriam obscurecidos por fontes de dados fragmentadas. Essa abordagem melhora a precisão da descoberta de medicamentos e acelera a identificação de possíveis oportunidades de reaproveitamento de medicamentos, pois revela conexões ocultas entre compostos estabelecidos e alvos terapêuticos emergentes.
A curadoria humana é a base da inovação
Sem a capacidade de apreciar as nuances contextuais, as máquinas enfrentam dificuldades para lidar adequadamente com a ambiguidade e as inconsistências inerentes aos conjuntos de dados biológicos. Profissionais qualificados desempenham um papel vital ao reconhecer variações sutis, resolver erros e alinhar os dados para garantir precisão e relevância de maneiras que os sistemas automatizados não conseguem. Esse processo é vital para aqueles que realizam pesquisas científicas e para as organizações que oferecem serviços relacionados. Por exemplo, centenas de cientistas do CAS limpam, harmonizam e tratam os dados usados para criar a CAS Content Collection, a maior coleção do mundo de conhecimento científico com curadoria humana.
Esse esforço resulta em uma maior confiabilidade das análises posteriores e na aceleração da descoberta de potenciais alvos de medicamentos e tratamentos eficazes para doenças.
Quando aplicados a modelos preditivos e ferramentas avançadas, como diagramas de rede, os dados harmonizados com curadoria humana impulsionam descobertas importantes nas ciências biológicas e além delas. À medida que as organizações continuam priorizando a limpeza de dados nas pesquisas, elas podem garantir a qualidade de suas descobertas e acelerar a inovação.
.avif)



