CAS Registry Services℠

¿Cómo potencian los modelos predictivos el descubrimiento de fármacos?

Conversación con el Dr. Adam Sanford y el Dr. Orr Ravitz, de CAS

Hexagon shaped overlay
Close-up of transparent spherical capsules illuminated in blue, each containing intricate, embedded structures resembling cells or circuits.

En el panorama actual del descubrimiento de fármacos, en rápida evolución, los modelos predictivos se han convertido en herramientas esenciales para acelerar los flujos de trabajo mediante la simulación y la predicción de la actividad biológica, las interacciones entre fármacos y dianas, y mucho más. La utilidad de estos modelos depende en gran medida de la calidad y la gestión de los datos en los que se basan. A la vanguardia de esta revolución tecnológica se encuentra CAS, cuya plataforma CAS BioFinder Discovery Platform™ funciona con modelos predictivos avanzados. Para comprender cómo la precisión de estos modelos proporciona información valiosa a los científicos dedicados al descubrimiento de fármacos, hablamos con Adam Sanford, doctor y director de la división de ciencias biológicas, y con Orr Ravitz, doctor y director sénior de productos de CAS BioFinder®, para profundizar en las rigurosas estrategias de gestión de datos que convierten a CAS en líder en este campo.

CAS: ¿Cuál es el enfoque de CAS respecto a la integración, normalización y armonización de datos para respaldar sus modelos predictivos?

Adam Sanford
Director de la División de Ciencias de la Vida

Tenemos un par de filosofías fundamentales con respecto a la gestión de datos. La primera es la exhaustividad. Nuestro objetivo es capturar tantas fuentes relevantes como sea posible, lanzando una amplia red para garantizar que nuestros modelos se construyan sobre una base sólida de datos diversos. Pero no se trata solo de recopilar datos, sino de asegurarnos de que los datos puedan usarse. Aquí es donde entra en juego nuestro proceso de selección y conciliación humana. Aunque este proceso pueda parecer mundano o excesivo, creemos que es vital para crear modelos que alcancen un grado de precisión inalcanzable mediante la extracción impulsada por la IA por sí sola.

Cuando incorporamos datos, nos centramos en tres áreas clave. En primer lugar, nos aseguramos de que, si se trata de un tipo específico de entidad, como una molécula pequeña, una proteína o una vía, las reconciliemos con nuestros sistemas de autoridades. Esto implica resolver las muchas expresiones diferentes de una entidad en un identificador o componente único. En la bibliografía publicada, es común ver cientos de representaciones diferentes de una proteína o una estructura química. Si no se tiene cuidado, se puede terminar con lo que parecen ser muchas observaciones independientes diferentes, pero que en realidad pueden agruparse porque son la misma entidad. Nuestro proceso concilia estas diferentes entidades en un solo grupo.

Orr Ravitz
Director sénior de producto de CAS BioFinder

La desambiguación de entidades en la bibliografía es clave para garantizar la precisión del modelo. Por ejemplo, en biología, una proteína puede denominarse de numerosas formas, y estas variaciones pueden hacer que los investigadores pierdan grandes segmentos de datos si no se tienen en cuenta todos los nombres y formas. Existen retos similares en química, donde contamos con experiencia especializada. Hemos podido aprovechar la experiencia adquirida a lo largo de nuestra dilatada trayectoria en el manejo de datos químicos para desambiguar entidades biológicas con gran precisión.

No se trata solo de identificar correctamente las entidades, sino también de captar correctamente el contexto experimental y garantizar que las mediciones reales, incluidas las unidades o los métodos utilizados, se armonicen de manera eficaz.

Invertimos mucha energía en crear estas autoridades subyacentes. Por ejemplo, cuando se hace referencia a una proteína en la bibliografía, puede aparecer con varios nombres o identificadores, dependiendo de la especie o las modificaciones. Nuestro enfoque garantiza que todas estas variaciones se capturen bajo un único identificador coherente dentro de nuestro sistema. Esto nos permite mantener un alto nivel de precisión en nuestras predicciones, lo cual es crucial para el descubrimiento de fármacos.

Adam Sanford
Director de la División de Ciencias de la Vida

Otro aspecto crítico de nuestro proceso es la normalización de la información. No se trata de una tarea totalmente automatizada, ya que los seres humanos están muy involucrados en este proceso. Por ejemplo, cuando indexamos datos, un científico real examina una observación realizada en la bibliografía y determina si se trata de una observación numérica, una actividad o algo más. A continuación, concilian estos datos con un conjunto estándar de unidades. Se trata de un proceso meticuloso que implica muchos detalles y garantiza que cada dato sea preciso y coherente con el resto de nuestro contenido.

Este riguroso enfoque de la gestión de datos es lo que distingue a CAS de otros en el campo. Hemos construido toda una infraestructura para manejar esta complejidad, y es esta infraestructura la que permite que nuestros modelos predictivos sean tan eficaces.

CAS: ¿Cómo ayuda ese enfoque a que sus modelos beneficien a los investigadores en el descubrimiento de fármacos?

Orr Ravitz
Director sénior de producto de CAS BioFinder

Nuestros modelos se basan en datos en los que confiamos profundamente, y esta confianza se traduce directamente en predicciones más precisas. Comenzamos a probar nuestros modelos con datos disponibles públicamente. Cuando hicimos la transición al contenido catalogado por CAS, observamos un aumento significativo en la precisión de nuestras predicciones. También descubrimos que podíamos crear modelos más granulares que pueden ser específicos para cada organismo y centrados en modos de acción específicos. Esto se debe a que no solo nos aseguramos de que los datos sean precisos, sino que también capturamos el contexto en el que se obtuvieron.

En CAS BioFinder empleamos modelos basados en la informática. Analizamos los patrones de los datos, por lo que la escala es de vital importancia. Cuantos más datos tengamos, mejor será el rendimiento de nuestros modelos. Partimos de un «triple»: la molécula adecuada, la diana adecuada y la medición adecuada, y a partir de ahí construimos. Como somos muy rigurosos con la calidad de estos tríos, nuestros modelos son intrínsecamente más fiables.

Adam Sanford
Director de la División de Ciencias de la Vida

CAS BioFinder utiliza un conjunto de cinco modelos predictivos diferentes, cada uno con su propia metodología. Algunos modelos se basan en gran medida en la estructura y aprovechan excepcionalmente bien nuestros datos químicos, mientras que otros pueden centrarse en diferentes características de los datos. Mediante un enfoque conjunto, en el que cada modelo realiza predicciones desde su perspectiva única, podemos combinar estas predicciones para crear un consenso. Este consenso suele proporcionar un nivel de confianza en las predicciones más alto que el que podría alcanzar cualquier modelo por sí solo.

Por ejemplo, las predicciones de la actividad del ligando a la diana son el núcleo de la actividad de CAS BioFinder. Tanto si se trata de un compuesto nuevo como de algo que ya figura en nuestra base de datos, nuestros modelos pueden predecir la probabilidad de que un ligando interactúe con una diana, incluso si no se dispone de datos experimentales explícitos. Esta capacidad es increíblemente valiosa para los químicos médicos que tratan de comprender la actividad potencial de los nuevos compuestos.

Además, contamos con modelos que predicen los perfiles de metabolitos, es decir, cómo es probable que el cuerpo procese un compuesto. Comprender las vías metabólicas de un fármaco candidato es fundamental para evaluar su seguridad y eficacia. Estas predicciones se basan en metabolitos identificados experimentalmente, lo que las hace especialmente fiables.

Orr Ravitz
Director sénior de producto de CAS BioFinder

También estamos trabajando para que nuestros clientes puedan ampliar sus propios datos patentados con nuestra recopilación de datos. Muchas empresas farmacéuticas tienen un amplio historial de datos químicos que han desarrollado internamente. Con la incorporación de nuestros datos, pueden crear modelos predictivos muy específicos para sus necesidades. Se trata de una potente capacidad que les permite aprovechar su experiencia y, al mismo tiempo, beneficiarse de la amplitud y profundidad de los datos de CAS.

CAS: ¿Cuáles son algunos de los mayores desafíos a los que se ha enfrentado en el desarrollo de los modelos?

Adam Sanford
Director de la División de Ciencias de la Vida

Crear los sistemas de autoridades que he mencionado anteriormente es un proceso laborioso que requiere mucha intervención humana. No es algo que se pueda automatizar por completo, especialmente cuando se trata de información química y biológica compleja. Este proceso puede ser extremadamente difícil, sobre todo si se tiene en cuenta la inversión humana necesaria para garantizar que todo sea correcto.

Otro reto importante es la variabilidad en la forma en que se presentan los datos en la bibliografía. Por ejemplo, en las patentes, los datos pueden estar ocultos en tablas, información complementaria o dispersos por todo el documento. Una máquina por sí sola no puede reunir todas estas piezas correctamente. Los catalogadores humanos deben intervenir para garantizar que los datos se extraigan y normalicen con precisión. No se trata de una tarea puntual, sino de un esfuerzo continuo que requiere una atención constante a los detalles.

Orr Ravitz
Director sénior de producto de CAS BioFinder

Puedo aportar una anécdota de una experiencia reciente que ilustra esta complejidad. Me encontré con una medición de un fármaco conocido aprobado a finales de la década de 1980. Los datos se referían a un artículo de años atrás, y me sorprendió ver que se mencionara esta estructura tan pronto antes de la aprobación del fármaco. Cuando lo miré más detenidamente, me di cuenta de que la publicación contenía varias estructuras, pero ninguna se parecía exactamente al fármaco en cuestión. No fue hasta que examiné el texto que se refería a varias sustituciones cuando encontré la estructura correcta. Este nivel de complejidad supera la capacidad de las máquinas actuales y subraya la importancia de la experiencia humana en nuestros procesos de gestión de datos.

Bromeamos diciendo que hemos construido una «máquina de casos extremos» porque a menudo nos enfrentamos a este tipo de complejidades. Aunque estos casos extremos pueden representar un porcentaje menor de los datos, pueden tener un impacto desproporcionado en la precisión de nuestros modelos. Garantizar que estos casos se traten correctamente es fundamental para el éxito general de nuestros modelos predictivos.

CAS: Dado que las publicaciones y los datos están surgiendo constantemente, ¿cómo asegura CAS que estos modelos se mantengan actualizados?

Adam Sanford
Director de la División de Ciencias de la Vida

Inicialmente, al crear nuestros modelos, los actualizábamos en grandes lotes a medida que incorporábamos nuevos datos. Ahora reentrenamos nuestros modelos con más frecuencia, en algunos casos cada dos semanas. Esto garantiza que nuestros usuarios siempre trabajen con las predicciones más actualizadas. Hemos establecido procesos para integrar nuevos datos, que siguen siendo cada vez más eficientes.

Orr Ravitz
Director sénior de producto de CAS BioFinder

Esperamos integrar los nuevos datos en nuestros modelos en las semanas siguientes a su publicación.Anteriormente, entrenábamos los modelos cuando se producía un cambio significativo en el panorama de los datos, por ejemplo, cuando un nuevo objetivo finalmente tenía datos suficientes para crear un modelo predictivo fiable. Las expectativas en torno al modelado y la precisión de los datos han cambiado rápidamente, y seguiremos supervisando y reentrenando nuestros modelos con frecuencia para satisfacer las necesidades de los científicos dedicados al descubrimiento de fármacos. 

CAS: ¿Hay algo en el horizonte para CAS BioFinder y sus modelos predictivos que le entusiasme especialmente?

Adam Sanford
Director de la División de Ciencias de la Vida

Nuestros datos y soluciones están en constante evolución, literalmente cada día.Pero desde octubre de 2024, estamos explorando activamente varias áreas, como formas de incorporar modalidades terapéuticas más avanzadas, como terapias basadas en proteínas y PROTAC, en nuestro marco predictivo. Estas áreas aún están en desarrollo, y nos entusiasma el potencial de ampliar los límites de lo que nuestros modelos pueden lograr. Se incluyen áreas como los conjugados de anticuerpos y fármacos, que requieren un enfoque de modelización diferente al de las moléculas pequeñas. También estamos estudiando las predicciones de toxicidad, que son cada vez más importantes a medida que la industria avanza hacia modalidades terapéuticas más complejas.

Orr Ravitz
Director sénior de producto de CAS BioFinder

Otra área interesante es el uso de grafos de conocimiento para el modelado predictivo.Al ampliar el contexto biológico que proporcionamos, como la información sobre las vías metabólicas o los biomarcadores, podemos aprovechar estas relaciones para crear modelos más sofisticados. Esto podría permitirnos predecir nuevas interacciones entre fármacos y dianas o identificar nuevos biomarcadores para enfermedades. También estamos experimentando con diferentes métodos para construir estos grafos de conocimiento, lo que nos permitiría ofrecer capacidades predictivas aún más potentes.

CAS: ¿Qué hace que este enfoque de modelización predictiva en el descubrimiento de fármacos sea único?

Orr Ravitz
Director sénior de producto de CAS BioFinder

Una de las cosas que realmente distingue a CAS es nuestro compromiso con la transparencia y la flexibilidad. Entendemos que nuestros usuarios pueden tener diferentes preferencias en cuanto a métodos computacionales, por lo que hemos diseñado la plataforma CAS BioFinder Discovery no solo como una única aplicación. Los usuarios pueden descargar datos de nuestro corpus, combinarlos con sus propios datos y utilizarlos con sus métodos preferidos. Esta flexibilidad es crucial para que nuestros clientes puedan sacar el máximo partido a nuestro contenido y nuestras capacidades.

Adam Sanford
Director de la División de Ciencias de la Vida

Cada observación en CAS BioFinder está asociada a su procedencia en la bibliografía, lo que significa que los usuarios pueden rastrear los datos hasta su fuente original. Esta transparencia es esencial para generar confianza entre nuestros usuarios. No solo les pedimos que confíen ciegamente en nuestros modelos, sino que les proporcionamos las herramientas para que ellos mismos verifiquen los datos. Este nivel de transparencia y rigor convierte a CAS en la mejor organización para abordar los retos del modelado predictivo para el descubrimiento de fármacos.

CAS: Si tuviera una varita mágica para cambiar algo sobre el proceso de descubrimiento de fármacos, ¿qué cambiaría?

Orr Ravitz
Director sénior de producto de CAS BioFinder

Sabemos que existe un sesgo en la bibliografía publicada hacia los resultados positivos. Pero los datos negativos, como las moléculas inactivas contra una diana, son igual de valiosos para crear modelos precisos.Nuestros métodos de aprendizaje automático se beneficiarían significativamente si tuviéramos acceso a más datos negativos. Sin embargo, esto sigue siendo un reto importante en el sector. Sería estupendo que hubiera más incentivos para que el mundo académico y la industria publicaran estos datos.

Adam Sanford
Director de la División de Ciencias de la Vida

Parece que muchos consideran la IA y el aprendizaje automático como una solución milagrosa que resolverá los problemas más difíciles del descubrimiento de fármacos, pero eso es muy poco probable sin cambios sustanciales. Una y otra vez, estas tecnologías fracasan cuando no se basan en una base de datos sólida. Hemos repetido este punto porque es muy importante: centra tu energía donde más importa, en los datos mismos. 

Reflexionando sobre mi experiencia pasada en la industria, desearía que se hubiera hecho más hincapié en la importancia de la estructura de datos subyacente y la gestión del conocimiento. Hoy en día, se reconoce ampliamente que los datos son la base del éxito de la experimentación y la predicción, pero muchas organizaciones aún no invierten plenamente en esta área. Reconocen que es un problema, pero no siempre comprenden cuánta energía y recursos se necesitan para hacerlo bien. En CAS, estamos preparados para manejar esta complejidad y hemos visto los beneficios de esa inversión.