Desafíos y oportunidades del análisis de secuencias durante el descubrimiento de fármacos

jefferson parker

Una conversación con el Dr. Jefferson Parker, fundador de NullSet Informatics Solutions

A medida que la biología computacional avanza en el ámbito del descubrimiento de fármacos, surgen nuevos desafíos y oportunidades. El análisis de secuencias es, desde hace tiempo, un aspecto esencial de la bioinformática. En este artículo, conversamos con el Dr. Jefferson Parker, fundador de NullSet Informatics Solutions y experto en analítica de datos para las ciencias médicas y biológicas, sobre las nuevas fronteras del análisis de secuencias para el descubrimiento de fármacos.

CAS: Como biólogo computacional, ¿qué tareas ha realizado en el campo del descubrimiento de fármacos?

Jefferson: He hecho de todo, desde ayudar a laboratorios especializados en el descubrimiento de fármacos hasta trabajar en grupos de investigación traslacional. Recientemente he colaborado con equipos clínicos en tareas de operaciones y desarrollo. He ayudado a equipos de farmacovigilancia a realizar análisis de datos de seguridad, he trabajado en el desarrollo de negocio y en el campo de la inteligencia competitiva. He llegado incluso a integrarme en equipos de ingeniería de software como analista bioinformático, una especie de traductor entre los científicos del laboratorio y los desarrolladores de software.

CAS: ¿Puede hablarnos sobre el papel del análisis de secuencias en el descubrimiento de fármacos? ¿Por qué es importante?

Jefferson: En el descubrimiento, el análisis de secuencias se puede usar para cribar las posibles dianas. Observando lo que sucede a nivel transcriptómico, se puede establecer una correspondencia con el conocimiento disponible sobre una vía y preguntar: “¿Cuáles son las causas más probables en los pasos previos?”. Esas son las dianas farmacológicas probables o algo proximal a la diana farmacológica desde el punto de vista de la señalización. Si el fármaco se ha diseñado para una diana concreta, es de esperar que ayude a confirmar que se está actuando sobre ella.

También permite empezar a buscar biomarcadores de selección de pacientes. ¿Hay un perfil genético concreto, ya sea en el nivel de la expresión o en el de la secuencia de ADN, con varias mutaciones? ¿Hay algunas mutaciones presentes en pacientes que los hacen más o menos susceptibles a una actuación eficaz del fármaco estudiado? Esta es un área muy interesante y activa de la industria farmacéutica. Saber antes del tratamiento si un medicamento debería funcionar o si, por el contrario, lo más probable es que no funcione, puede marcar la diferencia entre el éxito y el fracaso. Además, de este modo se evita hacer perder a los pacientes un tiempo valioso. Especialmente en un campo como la oncología, en el que los pacientes no tienen mucho tiempo, hay que evitar desperdiciarlo con pruebas y errores y con diversas líneas de tratamiento con medicamentos que no van a funcionar.

Y el análisis de secuencias desempeña un papel importante en todo esto. Toca todos los aspectos del proceso de desarrollo de fármacos.

CAS: ¿Cuáles cree que son los mayores desafíos para el análisis de secuencias?

Jefferson: Yo diría que los desafíos se están superando con bastante rapidez porque la tecnología avanza año tras año. Antes, los problemas tenían que ver con el hecho de que se obtenían unas lecturas muy cortas, con lo que el ensamblaje resultaba muy difícil. Ahora obtenemos lecturas más largas y el ensamblaje sigue siendo complicado, pero algo menos que en el pasado.

Podríamos compararlo a tirar una copia de Guerra y paz en una trituradora de papel. Produciría fragmentos de página de un par de milímetros por un par de centímetros, así que ensamblarlos todos para reconstruir el libro sería muy difícil. Pero si los fragmentos de las páginas fuesen mucho más grandes y largos y en lugar de un fragmento de una palabra tuviéramos una parte de un párrafo, sería más sencillo reconstruir la historia en el orden correcto. Eso es lo que está sucediendo ahora con la transición a lecturas cada vez más largas.

El almacenamiento sigue siendo un problema. En mi puesto más reciente, tuvimos que mover datos de secuencias y la forma más rápida de hacerlo fue cargarlos en un disco duro y enviarlo a través de FedEx. Es más barato enviar cientos de gigabytes o terabytes en una caja que hacerlo a través de Internet. El almacenamiento local no plantea problemas, es la transmisión de una gran cantidad de datos de un lugar a otro lo que obstaculiza el proceso. Hoy en día, una vez que los datos están donde tienen que estar, es fácil contar con suficiente potencia de cálculo para ejecutar un proyecto de secuenciación, pero llevar los datos hasta las máquinas sigue siendo un cuello de botella.

Las muestras obtenidas de pacientes también generan problemas. Son dolorosas, las biopsias son invasivas y las personas enfermas no quieren tener que dar múltiples muestras. Una vez extraídas, se fijan normalmente en formalina y se incluyen en parafina, de modo que el material de ácido nucleico que pueda haber en ellas se degrada en cierta medida. Hay formas de intentar extraer y usar esa clase de tejido de muestra preparado para la secuenciación, pero, inevitablemente, la calidad de la muestra disminuye.

Además, si la empresa es pequeña, la tecnología resulta cara, porque estas máquinas cuestan muchísimo dinero. Por otra parte, aunque empieza a haber más biólogos computacionales, no abundan y todos quieren trabajar para las mejores empresas, donde pueden ganar más dinero. La cantera de profesionales está creciendo, pero sigue siendo limitada.

En cierta forma, ya no hay nadie que quiera trabajar en el análisis de secuencias. Todo el mundo quiere crear el próximo modelo de aprendizaje que arrase en el mercado. El foco se ha desplazado del procesamiento de los números y el análisis de los datos a las técnicas avanzadas de IA y aprendizaje automático. Todo el mundo quiere trabajar en la tecnología de moda, que desde luego no es el análisis de secuencias. Eso se va a convertir muy pronto en otro problema.

CAS: ¿Hace falta realmente un biólogo computacional para hacer análisis de secuencias hoy en día?

Jefferson: Si se usan metodologías perfectamente definidas, establecidas, desarrolladas, validadas y documentadas, no. No se trata de inventar la nueva rueda. Existen numerosas soluciones de software ya preparadas que pueden ingerir datos de las distintas máquinas de secuenciación. Los cargas, arrastras y sueltas los iconos correspondientes al proceso deseado y pulsas el botón de iniciar. Te vas a tomar un café o a comer o, dependiendo del tamaño de la máquina con la que trabajes, te marchas a casa y al regresar por la mañana tienes los resultados a tu disposición. No hace falta un perfil como el mío para hacer eso. Cualquier investigador asociado con ciertos conocimientos tecnológicos puede ejecutar el proceso. 

En cambio, si se trabaja con una máquina de secuenciación de vanguardia y se intenta derivar una nueva metodología de análisis que no se ha usado antes, no hay soluciones comerciales disponibles. En ese caso se necesita una persona que entienda la biología subyacente, alguien que comprenda los datos introducidos, los resultantes, las matemáticas implicadas y todo lo demás. Para combinar todos esos elementos e integrarlos en una nueva solución que no existe, hace falta alguien con mi perfil, alguien que entienda todos los componentes.

CAS: Ha mencionado que ahora la gente quiere trabajar con la IA y el aprendizaje automático. ¿Estas tecnologías pueden ayudar en el ámbito del análisis de secuencias?

Jefferson: Con un conjunto de datos bien seleccionado, la IA y el aprendizaje automático pueden resultar muy útiles, sin duda. Me consta que hay organizaciones que están usando tecnologías de aprendizaje automático para incorporar la bibliografía disponible y generar gráficos de conocimiento, así que eso puede ayudar, desde luego. ¿Podrían facilitar la IA y el aprendizaje automático el ensamblaje de secuencias? Probablemente, pero no sé si estas tecnologías resultarían algo excesivas para ese fin. 

CAS: Hablando de la IA, ¿qué opina de AlphaFold, que realiza predicciones de estructuras de proteínas basadas en la IA?

Jefferson: Creo que AlphaFold va a suponer una revolución total. Proporciona una vía mucho más rápida para llegar a una estructura que se puede introducir en procesos como el diseño de fármacos asistido por ordenador para completarlos en mucho menos tiempo que antes. Ya no es necesario contar con una RMN o una estructura cristalina como punto de partida. ¿Es tan bueno como una estructura cristalina? Probablemente no. Medir el objeto real siempre va a ser mejor que trabajar con una simulación. Pero, con relación al tiempo requerido, ofrece la posibilidad de contar con algo ya disponible. Va a tener un impacto que ni siquiera podemos imaginar ahora mismo. Creo que con AlphaFold hemos lanzado una piedra al estanque y solo estamos viendo las primeras ondas.

CAS: ¿Cuál es, en su opinión, la principal innovación que la IA y el aprendizaje automático introducen en el descubrimiento de fármacos?

Jefferson: Es espacial, algo así como la próxima generación de una única célula. La multiómica. La posibilidad de usar el ADN, el ARN, las proteínas y la metabolómica, e integrarlo todo. Integrarlo, incluso, con las vías celulares y la comunicación intercelular. Ya no hablamos de una única célula. Hablamos de una célula, de las células próximas a ella y de las cercanas a estas últimas, y de ver cómo interactúan. Nos dirigimos a eso; de hecho, ya estamos ahí.

CAS: ¿Cree que llegaremos a crear modelos de sistemas biológicos?

Jefferson: Si me hubiera preguntado eso durante mi formación de posgrado, habría contestado que la humanidad no contaba con las matemáticas que podían describir un sistema biológico. La biología es química compleja, la química es física compleja y la física son matemáticas complejas. Todo se basa en eso. La física es un problema que se puede resolver con la ayuda de las matemáticas, solo requiere una enorme cantidad de datos. Y la química es, en cierta medida, lo mismo. Pero la biología… Antes pensaba que no teníamos ni tendríamos la capacidad de crear modelos matemáticos de sistemas biológicos.

Pero esa es probablemente la dirección hacia la que tendremos que avanzar. ¿Hará falta un ordenador cuántico? Tal vez. Es posible que yo no llegue a verlo, pero ahora puedo afirmar con bastante seguridad que en algún momento la humanidad tendrá simulaciones computacionales precisas y fiables de sistemas vivos. Y esa afirmación me produce cierto temor. Sé que se está haciendo muchísimo trabajo en el espacio de los gemelos digitales. Los supuestos iniciales son limitados, pero existen gemelos digitales en línea y ya se están usando en ensayos clínicos. Es el principio de todo ese proceso.

CAS: ¿Qué cree entonces que hace falta para ampliar los límites actuales? ¿Necesitamos nuevos algoritmos o nuevos marcos de trabajo? ¿O ya solo hay que intentar integrarlo todo?

Jefferson: Todo eso a la vez. Necesitamos formas nuevas de ver el problema. Quizás haya que aplicar algoritmos antiguos con nuevas formas de diseñar o tal vez sea necesario implementar nuevos algoritmos. Porque campos como la epigenómica y el estudio de la dinámica del ADN, el espacio del ARN no codificante o el exoma frente a todo lo demás van más allá del análisis de secuencias. Es una forma diferente de enfrentarse al problema. La base sigue siendo la secuencia, pero ya no se trata solo de la secuencia. Esas formas diferentes de ver el problema requerirán herramientas diferentes.

CAS: Si tuviera una varita mágica que le permitiera resolver un único problema del análisis de secuencias y el descubrimiento de fármacos, ¿cuál elegiría? ¿Y qué impacto tendría?

Jefferson: Incluiría anotaciones completas en todos los datos y los pondría a disposición de todo el mundo. Todos los datos de empresas, instituciones, universidades… todo. En una plataforma de almacenamiento unificada con buenas anotaciones y bien documentada que todo el mundo pudiera usar de forma gratuita. Porque entonces tendríamos suficiente información y podríamos resolver los problemas importantes.

 

Jefferson began his research career at MIT, exploring xenobiotic metabolism in the gram-positive soil bacterium Rhodococcus aetherovorans. He got into computing when faced with an overload of data trying to annotate the genome to develop DNA microarrays, and he’s been working at the intersection of biology, computing, and mathematics since. His career has taken him through small pharma, large pharma, and consulting organizations, including Novartis and Thomson Reuters. Along the way Jefferson acquired his Graduate Certificate in Applied Statistics from Pennsylvania State University and a master’s degree in computer science from Boston University.

Now, Jefferson is forging a new path with his own bioinformatics consulting company, NullSet Informatics Solutions providing data and analytics, data modeling, and technology project management services.