CAS Registry Services℠

Como os modelos preditivos potencializam a descoberta de medicamentos?

Uma conversa com Adam Sanford, Ph.D. e Orr Ravitz, Ph.D. do CAS

Hexagon shaped overlay
Close-up of transparent spherical capsules illuminated in blue, each containing intricate, embedded structures resembling cells or circuits.

No cenário atual de descoberta de medicamentos em rápida evolução, os modelos preditivos surgiram como ferramentas essenciais para acelerar os fluxos de trabalho simulando e prevendo atividades biológicas, interações entre medicamentos e muito mais. A utilidade desses modelos é altamente dependente da qualidade e do gerenciamento dos dados sobre os quais são construídos. Na vanguarda dessa revolução tecnológica encontra-se o CAS, cuja CAS BioFinder Discovery Platform™ é alimentada por modelos preditivos avançados. Para entender como a precisão desses modelos leva a verdadeiros insights para os cientistas da descoberta de medicamentos, conversamos com Adam Sanford, Ph.D. diretor da Life Sciences Division, e Orr Ravitz, Ph.D., gerente sênior de produtos do BioFinder® Product Manager, para nos aprofundarmos nas rigorosas estratégias de gerenciamento de dados que fazem do CAS um líder na área.

CAS: Qual é a abordagem do CAS para integração, normalização e harmonização de dados para apoiar seus modelos preditivos?

Adam Sanford
Diretor da Divisão de Ciências da Vida

Temos algumas filosofias centrais em relação ao gerenciamento de dados. A primeira é a abrangência. Nosso objetivo é capturar o maior número possível de fontes relevantes, lançando uma ampla rede para garantir que nossos modelos sejam construídos sobre uma base robusta de dados diversos. Mas não se trata apenas de coletar dados; trata-se de garantir que os dados sejam utilizáveis. É aqui que nosso processo de curadoria e reconciliação humana entra em cena. Embora esse processo possa parecer mundano ou excessivo, acreditamos que é vital para a construção de modelos que atinjam um grau de precisão inatingível apenas por meio da extração orientada por IA.

Quando trazemos dados, concentramo-nos em três áreas principais. Primeiro, garantimos que, se for um tipo específico de entidade — como uma pequena molécula, uma proteína ou um caminho — nós as reconciliamos com nossas construções de autoridade. Isso envolve a resolução das muitas expressões diferentes de uma entidade em um identificador ou componente singular. Na literatura publicada, é comum ver centenas de representações diferentes de uma proteína ou de uma estrutura química. Se você não for cuidadoso, pode acabar com o que parece ser muitas observações independentes diferentes, mas elas podem realmente ser agrupadas porque são a mesma entidade. Nosso processo reconcilia essas diferentes entidades em um grupo.

Orr Ravitz
Gerente sênior de produto do CAS BioFinder

A desambiguação das entidades na literatura é fundamental para garantirmos a precisão do modelo. Por exemplo, na biologia, uma proteína pode ser referida de várias maneiras e essas variações podem fazer com que os pesquisadores percam grandes segmentos de dados se todos os nomes e formas não forem levados em conta. Há desafios semelhantes na química, onde temos experiência especializada. Conseguimos aproveitar a experiência adquirida em nosso longo histórico de manipulação de dados químicos para desambiguar entidades biológicas com alta precisão. 

Não se trata apenas de identificar corretamente as entidades, mas também de capturar corretamente o contexto experimental e garantir que as medições reais, incluindo unidades ou métodos usados, sejam harmonizadas de forma eficaz.

Investimos muita energia criando essas autoridades fundamentais. Por exemplo, quando uma proteína é mencionada nas referências, ela pode ter vários nomes ou identificadores, dependendo da espécie ou das modificações. Nossa abordagem garante que todas essas variações sejam capturadas sob um identificador único e coerente em nosso sistema. Isso nos permite manter um alto nível de precisão em nossas previsões, o que é crucial para a descoberta de medicamentos.

Adam Sanford
Diretor da Divisão de Ciências da Vida

Outro aspecto crítico do nosso processo é a normalização das informações. Não é uma tarefa totalmente automática — os humanos estão profundamente envolvidos nesse processo. Por exemplo, quando indexamos dados, um cientista de verdade analisa uma observação feita na literatura e determina se é uma observação numérica, uma atividade ou outra coisa. Eles então reconciliarão esses dados a um conjunto padrão de unidades. É um processo meticuloso que envolve muitos detalhes, garantindo que cada dado seja preciso e consistente com o restante do nosso conteúdo.

Essa abordagem rigorosa ao gerenciamento de dados é o que diferencia o CAS dos outros no campo. Criamos toda uma infraestrutura para lidar com essa complexidade e é essa infraestrutura que permite que nossos modelos preditivos sejam tão eficazes.

CAS: Como essa abordagem ajuda seus modelos a beneficiar os pesquisadores de descoberta de medicamentos?

Orr Ravitz
Gerente sênior de produto do CAS BioFinder

Nossos modelos são construídos sobre uma base de dados na qual confiamos profundamente e essa confiança se traduz diretamente em previsões mais precisas. Começamos a testar nossos modelos com dados disponíveis publicamente. Quando fizemos a transição para o Conteúdo com curadoria do CAS, observamos um salto considerável na precisão das nossas previsões. Descobrimos também que poderíamos criar modelos mais detalhados que podem ser específicos para organismos e dedicados a modos de ação específicos. Isso ocorre porque não somente garantimos que os dados sejam precisos, mas também capturamos o contexto em que foram obtidos.

Empregamos modelos baseados em informática no CAS BioFinder. Analisamos os padrões nos dados, por isso a escala é extremamente importante. Quanto mais dados tivermos, melhor será o desempenho dos nossos modelos. Começamos com um "triplo" — a molécula certa, o alvo certo e a medição certa — e construímos a partir daí. Como somos diligentes quanto à qualidade desses triplos, nossos modelos são inerentemente mais confiáveis.

Adam Sanford
Diretor da Divisão de Ciências da Vida

O CAS BioFinder usa um grupo de cinco modelos preditivos diferentes, cada um com sua própria metodologia. Alguns modelos são muito baseados em estrutura e aproveitam nossos dados químicos excepcionalmente bem, enquanto outros podem se concentrar em diferentes características de dados. Utilizando uma abordagem de conjunto, com cada modelo fazendo previsões a partir de sua perspectiva exclusiva, podemos combinar essas previsões para criar consenso. Esse consenso geralmente proporciona um nível de confiança mais alto nas previsões do que qualquer modelo único poderia alcançar por si só.

Por exemplo, as previsões de atividade ligante-alvo estão no cerne do que o CAS BioFinder faz. Seja um composto novo ou algo dentro de nosso banco de dados existente, nossos modelos podem prever a probabilidade de um ligante interagir com um alvo, mesmo que não haja dados experimentais explícitos disponíveis. Essa capacidade é incrivelmente valiosa para químicos medicinais que estão tentando entender a atividade potencial de novos compostos.

Além disso, temos modelos que preveem perfis de metabólitos — como o corpo provavelmente processará um composto. A compreensão das vias metabólicas de um candidato a medicamento é fundamental para avaliar sua segurança e eficácia. Essas previsões são baseadas em metabólitos identificados experimentalmente, o que as torna particularmente confiáveis.

Orr Ravitz
Gerente sênior de produto do CAS BioFinder

Também estamos trabalhando para permitir que nossos clientes aumentem seus próprios dados proprietários com nossa coleção de dados. Muitas empresas farmacêuticas têm um histórico profundo de dados de química que desenvolveram internamente. Com a inclusão dos nossos dados, podem criar modelos preditivos altamente específicos para suas necessidades. Trata-se de um recurso poderoso que permite que eles aproveitem sua experiência e, ao mesmo tempo, se beneficiem da amplitude e da profundidade dos dados do CAS.

CAS: Quais os maiores desafios que você enfrentou no desenvolvimento dos modelos?

Adam Sanford
Diretor da Divisão de Ciências da Vida

Criar as construções de autoridade que mencionei anteriormente é um processo meticuloso que exige muita intervenção humana. Não é algo que possa ser totalmente automático, especialmente quando se lida com informações químicas e biológicas complexas. Esse processo pode ser extremamente difícil, principalmente quando se considera o investimento humano necessário para garantir que tudo esteja correto.

Outro desafio considerável é a variabilidade na forma como os dados são apresentados na literatura. Por exemplo, em patentes, os dados podem estar ocultos em tabelas, informações suplementares ou espalhados pelo documento. Uma máquina sozinha não consegue montar todas essas peças corretamente. Os curadores humanos devem intervir para garantir que os dados sejam extraídos e normalizados com precisão. Essa não é apenas uma tarefa única — é um esforço contínuo que exige atenção constante aos detalhes.

Orr Ravitz
Gerente sênior de produto do CAS BioFinder

Posso contar um caso de uma experiência recente que ilustra essa complexidade. Encontrei uma medição para um medicamento conhecido aprovado no final da década de 1980. Os dados se referiam a um artigo de anos atrás e fiquei surpreso ao ver essa estrutura mencionada tão cedo, antes da aprovação do medicamento. Quando olhei mais de perto, percebi que a publicação continha várias estruturas, mas nenhuma se parecia exatamente com a droga em questão. Somente quando examinei o texto referente a várias substituições que encontrei a estrutura correta. Esse nível de complexidade está além do que as máquinas atuais conseguem lidar e ressalta a importância da experiência humana em nossos processos de gerenciamento de dados.

Brincamos dizendo que criamos uma "máquina de casos extremos" porque lidamos frequentemente com esses tipos de complexidades. Embora esses casos extremos possam representar uma porcentagem menor dos dados, eles podem ter um impacto desproporcional na precisão de nossos modelos. Garantir que esses casos sejam tratados corretamente é crucial para o sucesso geral de nossos modelos preditivos.

CAS: Como as publicações e dados estão constantemente surgindo, como o CAS garante que esses modelos permaneçam atualizados?

Adam Sanford
Diretor da Divisão de Ciências da Vida

Inicialmente, ao criarmos nossos modelos, nós os atualizávamos em grandes lotes à medida que incorporávamos novos dados. Agora treinamos nossos modelos com mais frequência, em alguns casos quinzenalmente. Isso garante que nossos usuários estejam sempre trabalhando com as previsões mais atualizadas. Estabelecemos pipelines para a integração de novos dados, que continuam a se tornar mais eficientes. 

Orr Ravitz
Gerente sênior de produto do CAS BioFinder

Esperamos integrar novos dados em nossos modelos dentro de algumas semanas após a publicação. Anteriormente, treinávamos modelos quando havia uma mudança considerável no cenário de dados — por exemplo, quando um novo alvo finalmente tinha dados suficientes para construir um modelo preditivo confiável. As expectativas em torno da modelagem e precisão de dados estão mudando rapidamente e continuaremos monitorando e retreinando nossos modelos com frequência para atender às necessidades dos cientistas de descoberta de medicamentos. 

CAS: Há algo no horizonte para o CAS BioFinder e seus modelos preditivos que o deixe particularmente animado?

Adam Sanford
Diretor da Divisão de Ciências da Vida

Nossos dados e soluções estão em constante evolução, literalmente todos os dias. Mas, a partir de outubro de 2024, exploramos ativamente várias áreas como formas de incorporar modalidades terapêuticas mais avançadas, como terapêuticas baseadas em proteínas e PROTACs em nossa estrutura preditiva. Essas áreas ainda estão em desenvolvimento e estamos entusiasmados com o potencial de ampliar os limites do que nossos modelos podem alcançar. Isso inclui áreas como conjugados anticorpo-medicamento, que exigem uma abordagem diferente das moléculas pequenas para a modelagem. Também estamos analisando as previsões de toxicidade, cada vez mais importantes à medida que o setor avança para modalidades terapêuticas mais complexas.

Orr Ravitz
Gerente sênior de produto do CAS BioFinder

Outra área empolgante é o uso de gráficos de conhecimento para modelagem preditiva. Expandindo o contexto biológico que oferecemos — como informações sobre vias ou biomarcadores — podemos aproveitar essas relações para criar modelos mais sofisticados. Isso pode nos permitir prever novas interações entre medicamentos e alvos ou identificar novos biomarcadores de doenças. Também estamos experimentando métodos diferentes para criar esses gráficos de conhecimento, o que nos permitiria oferecer recursos preditivos ainda mais poderosos.

CAS: O que torna essa abordagem de modelagem preditiva na descoberta de medicamentos única? 

Orr Ravitz
Gerente sênior de produto do CAS BioFinder

Uma das coisas que realmente diferenciam o CAS é o nosso compromisso com a transparência e a flexibilidade. Entendemos que nossos usuários podem ter preferências diferentes em relação aos métodos computacionais, por isso projetamos o CAS BioFinder Discovery Platform não somente como um único aplicativo. Os usuários podem baixar dados de nosso corpus, combiná-los com seus próprios dados e usá-los com seus métodos preferidos. Essa flexibilidade é crucial para permitir que nossos clientes aproveitem ao máximo nosso conteúdo e nossos recursos.

Adam Sanford
Diretor da Divisão de Ciências da Vida

Cada observação no CAS BioFinder está associada à proveniência na literatura, o que significa que os usuários podem rastrear os dados até sua fonte original. Essa transparência é essencial para construir a confiança de nossos usuários. Não estamos apenas pedindo que confiem cegamente em nossos modelos — estamos entregando as ferramentas para verificarem os dados por conta própria. Esse nível de transparência e rigor faz do CAS a melhor organização para enfrentar os desafios da modelagem preditiva para a descoberta de medicamentos.

CAS: Se você tivesse uma varinha mágica para mudar alguma coisa no processo de descoberta de fármacos, o que mudaria?

Orr Ravitz
Gerente sênior de produto do CAS BioFinder

Sabemos que há um viés na literatura publicada em relação a resultados positivos. Mas dados negativos, como moléculas inativas contra um alvo, são igualmente valiosos para construir modelos precisos. Nossos métodos de aprendizado de máquina se beneficiariam consideravelmente se tivéssemos acesso a mais dados negativos. No entanto, isso ainda é um desafio considerável no setor. Seria ótimo se houvesse mais incentivos para a academia e o setor publicarem esses dados.

Adam Sanford
Diretor da Divisão de Ciências da Vida

Parece que muitos veem a IA e o aprendizado de máquina como uma solução mágica que resolverá os problemas mais difíceis da descoberta de medicamentos, mas isso é muito improvável sem mudanças substantivas. Muitas e muitas vezes essas tecnologias falham quando não são construídas sobre uma base sólida de dados. Temos repetido esse ponto porque é fundamental: concentre sua energia onde é mais importante, nos próprios dados. 

Refletindo sobre minha experiência anterior no setor, gostaria que tivesse havido uma ênfase maior na importância da estrutura de dados subjacente e do gerenciamento do conhecimento. Atualmente, é amplamente reconhecido que os dados são a base da experimentação e da previsão bem-sucedidas, mas muitas organizações ainda não estão investindo totalmente nessa área. Reconhecem que isso é um problema, mas nem sempre percebem quanta energia e recursos são necessários para resolver o problema. No CAS, fomos projetados para lidar com essa complexidade, e vimos os benefícios desse investimento.