Défis et opportunités de l'analyse des séquences lors de la recherche de médicaments

jefferson parker

Une conversation avec le Dr Jefferson Parker, titulaire d'un doctorat, fondateur de NullSet Informatics Solutions

Alors que la biologie computationnelle ne cesse de progresser dans le domaine de la recherche de médicaments, de nouveaux défis et de nouvelles opportunités se présentent constamment. L'analyse des séquences est depuis longtemps un aspect essentiel de la bioinformatique. Dans cet article, nous nous entretenons avec le Dr Jefferson Parker, titulaire d'un doctorat, fondateur de NullSet Informatics Solutions et expert en analyse des données pour les sciences de la vie, au sujet des nouvelles frontières de l'analyse des séquences dans la recherche de médicaments.

CAS : En tant que biologiste computationnel, quels rôles avez-vous joués dans la recherche de médicaments ?

Jefferson : J'ai joué un peu tous les rôles, du soutien aux laboratoires de recherche de médicaments aux groupes de recherche translationnelle. Plus récemment, j'ai travaillé avec des équipes cliniques au sujet des opérations et du développement. J'ai soutenu des équipes de pharmacovigilance dans leurs analyses de données de sécurité, travaillé au développement commercial et à la veille concurrentielle. J'ai même été intégré à des équipes d'ingénierie logicielle en tant qu'analyste bioinformatique, une sorte de traducteur entre les chercheurs de laboratoire et les développeurs de logiciels.

CAS : Pouvez-vous nous parler du rôle de l'analyse des séquences dans la recherche de médicaments ? Pourquoi est-ce important ?

Jefferson : Dans la recherche, on peut utiliser l'analyse des séquences pour la sélection de recherches ciblées. En examinant ce qui se produit au niveau transcriptomique, il est possible d'appliquer cette carte sur le parcours de connaissance que l'on emprunte et de se demander : « Quelles sont les causes les plus probables en amont ? » Voici vos cibles thérapeutiques probables ou un élément proximal à votre cible thérapeutique au sens du signalement. Si votre médicament a été conçu pour une cible particulière, cela pourrait vous aider à confirmer que vous l'atteignez.

Vous pouvez aussi commencer à rechercher des biomarqueurs pour la sélection des patients. Existe-t-il un profil génétique particulier, soit au niveau de l'expression, soit au niveau de la séquence d'ADN, qui présente différentes mutations ? Certaines mutations sont-elles présentes chez des patients, qui les rendent plus ou moins sensibles à l'efficacité de votre médicament ? Il s'agit d'un domaine extrêmement fascinant et actif de l'industrie pharmaceutique. Le fait de pouvoir dire avant le traitement oui, ce médicament devrait fonctionner ou non, il ne fonctionnera probablement pas, peut faire toute la différence entre le succès et l'échec. En outre, vous évitez ainsi de faire perdre un temps précieux aux patients. Surtout dans un domaine comme l'oncologie, où les patients n'ont pas beaucoup de temps : vous évitez de le leur faire gaspiller dans des études empiriques et de leur faire suivre plusieurs lignes de traitement avec des médicaments qui pour finir, ne sont pas efficaces.

Et tout cela passe par l'analyse des séquences. Cela touche chaque aspect du processus de développement d'un médicament.

CAS : Selon vous, quels sont les principaux défis au sein de l'analyse des séquences ?

Jefferson : Je dirais qu'en fait, les défis disparaissent très vite, car la technologie progresse chaque année. Autrefois, nous ne disposions que de minuscules résultats très courts, dont l'assemblage représentait justement un défi. Aujourd'hui, on obtient des résultats plus complets et l'assemblage reste un défi, mais nettement moindre.

Imaginez que vous passiez votre exemplaire de Guerre et paix dans une broyeuse. Vous obtenez des fragments de page de deux millimètres sur deux centimètres, de sorte qu'il est très difficile de réassembler le livre. Mais si les fragments de pages étaient beaucoup plus gros, plus longs et que vous disposiez d'une partie de paragraphe au lieu d'un fragment de mot, il serait bien plus facile de réassembler l'histoire dans le bon ordre. C'est à peu près ce qui se passe actuellement avec la transition vers des résultats de plus en plus longs.

Le stockage demeure un problème. Même dans ma fonction la plus récente, nous devions déplacer les données des séquences et le moyen le plus rapide d'y parvenir consistait à les charger sur un disque dur et à déposer celui-ci dans une boîte FedEx. Au lieu de déplacer des centaines de gigaoctets ou de téraoctets de données sur Internet, il est plus rapide de les expédier dans un carton. Le stockage local n'est pas un problème ; le plus difficile est surtout la transmission d'un gros volume de données d'un lieu à un autre. Aujourd'hui, une fois que les données sont à l'endroit adéquat, vous disposez d'une puissance de calcul suffisante pour exécuter votre projet de séquençage, mais la tâche de chargement des données sur les machines forme toujours un goulet d'étranglement.

Les échantillons obtenus sur les patients posent également un problème. Les examens sont douloureux, les biopsies invasives et les malades n'ont pas envie d'avoir à fournir de multiples échantillons. Une fois prélevés, ils sont généralement fixés dans le formol et enrobés de paraffine, de sorte que l'acide nucléique est dégradé dans une certaine mesure. Il existe des moyens de tenter d'extraire et d'utiliser ce type de tissu d'échantillon préparé pour le séquençage, mais la qualité de la séquence en souffrira toujours.

Si vous dirigez une petite entreprise, la technologie est également coûteuse : ces machines coûtent en effet très cher. De même, les biologistes computationnels deviennent beaucoup plus nombreux, mais malgré tout, ils ne peuvent pas être partout et chacun souhaite travailler pour la plus grande et la meilleure équipe et gagner beaucoup d'argent. La main d'œuvre se développe, mais reste limitée.

D'une certaine manière, personne n'a plus envie de travailler sur l'analyse des séquences. Chacun a envie de créer le prochain modèle d'apprentissage majeur. Il ne s'agit plus d'analyser des chiffres et des données, mais de se tourner vers l'IA avancée et l'apprentissage machine. Chacun souhaite travailler sur la dernière technologie, la plus brillante et celle dont tout le monde parle. Et, il ne s'agit pas de l'analyse des séquences. Cela sera donc un défi très bientôt.

CAS : Est-il vraiment indispensable de faire appel à un biologiste computationnel pour procéder à une analyse des séquences aujourd'hui ?

Jefferson : Si vous utilisez des méthodologies très au point, bien établies et développées, validées et documentées, alors non, vous n'en avez pas besoin. Vous n'avez pas besoin de quelqu'un qui réinventerait la roue. De nombreuses solutions logicielles prêtes à l'emploi peuvent accepter des données d'entrée provenant de toutes les différentes machines de séquençage. Vous les chargez, faites glisser et déposez les icônes du pipeline que vous souhaitez traiter, et vous appuyez sur le bouton Marche. Vous pouvez aller prendre un café, déjeuner ou, selon la taille de la machine que vous utilisez, vous pouvez même rentrer chez vous et revenir le lendemain matin et le travail sera terminé. Vous n'avez pas besoin de quelqu'un comme moi pour le faire. N'importe quel chercheur qui s'y connaît un minimum en technologie peut exécuter ce genre de programme.

En revanche, si vous travaillez avec une machine de séquençage de pointe et que vous tentez de dériver une nouvelle méthodologie d'analyse qui n'a encore jamais été utilisée, il n'existe pas de solution prête à l'emploi. Dans ce cas, vous avez besoin de quelqu'un qui comprend la biologie, qui comprend les données en entrée et en sortie, les mathématiques et bien d'autres sujets. Pour réunir tous ces éléments et les intégrer à une nouvelle solution qui n'existe pas, alors il vous faut quelqu'un comme moi, qui comprend tous ces différents éléments.

CAS : Vous avez dit que beaucoup de gens souhaitent travailler avec l'IA et le ML désormais. Ces technologies peuvent-elles vous aider dans l'analyse des séquences ?

Jefferson : Avec un ensemble de données bien organisé, l'IA et le ML peuvent sans aucun doute être utiles. Je sais d'expérience que certaines entreprises utilisent des technologies d'apprentissage machine pour absorber la littérature et créer des graphiques de connaissances, de sorte que cela pourrait sans aucun doute jouer un rôle. L'IA et l'apprentissage machine ne seraient-ils utiles que pour l'assemblage de séquences ? Probablement, mais je me demande si ce n'est pas excessif.

CAS : À propos d'IA, que pensez-vous d'AlphaFold, qui réalise des prédictions d'IA sur les structures protéiniques ?

Jefferson : Je pense qu'AlphaFold transforme complètement la donne. Ce système vous offre un parcours nettement plus rapide jusqu'à une structure, laquelle peut alimenter, par exemple, la conception de médicaments assistée par ordinateur bien plus rapidement qu'on ne le faisait par le passé. Il n'est plus nécessaire de disposer d'un spectromètre RMN ou d'une structure cristalline pour avoir un point de départ. Est-il aussi efficace qu'une structure de cristalline ? Probablement pas. L'élément réel et mesuré sera toujours supérieur à une simulation. Toutefois, en termes de temps, on peut disposer d'un appareil dès maintenant. Cela aura un impact dont nous n'avons peut-être même pas encore conscience. J'ai le sentiment qu'avec AlphaFold, la pierre est tombée dans le lac et a produit des vagues, mais que nous ne voyons actuellement que les premières vaguelettes se former.

CAS : Quelle est selon vous, la science de pointe en matière d'IA et d'apprentissage machine dans la recherche de médicaments ?

Jefferson : Elle est spatiale, ce qui est en quelque sorte la prochaine génération de cellules uniques. La méthode multi-omique. Elle utilise l'ADN, l'ARN, les protéines, la métabolomique et intègre le tout. Elle intègre même cet ensemble avec les voies cellulaires et la communication intercellulaire. Il ne s'agit plus d'une cellule unique. Il s'agit de la cellule unique, mais aussi des cellules voisines et des cellules voisines de ces dernières ; comment interagissent-elles ? C'est l'orientation prise, l'option déjà utilisée.

CAS : Pensez-vous que nous créerons des modèles de systèmes biologiques ?

Jefferson : Si vous m'aviez posé cette question lorsque j'étais à l'université, je vous aurais répondu que l'humanité ne dispose pas des mathématiques permettant de décrire un système biologique. La biologie, c'est de la chimie complexe, la chimie, c'est de la physique complexe et la physique, ce sont des mathématiques complexes. Tout repose sur cela. La physique est un problème mathématiquement résoluble, qui requiert simplement d'immenses quantités de données et, dans une certaine mesure, on peut en dire autant de la chimie. Mais la biologie... Je pensais que nous ne possédions pas et que nous ne pourrions pas posséder la capacité de modéliser mathématiquement un système biologique.

Mais aujourd'hui, c'est probablement vers cela que nous nous dirigeons. Cela nécessitera-t-il un ordinateur quantique ? Peut-être ? Ce ne sera peut-être pas de mon vivant, mais je peux affirmer dès maintenant avec une certaine confiance que tôt ou tard, l'humanité pourra disposer de simulations informatiques de systèmes vivants précises et fiables. Et cette affirmation est un peu effrayante. Je sais que de nombreux travaux sont menés dans le domaine des jumeaux numériques. Il ne s'agit que d'un premier pas dans ces scénarios, mais les jumeaux numériques sont en ligne et déjà utilisés aujourd'hui dans le cadre d'essais cliniques. Ce n'est qu'un début.

CAS : Qu'est-ce qui serait, selon vous, nécessaire pour repousser ces nouvelles frontières encore plus loin ? Faudrait-il de nouveaux algorithmes ou de nouveaux cadres ? Ou s'agit-il simplement de tenter d'assembler correctement toutes les pièces du puzzle ?

Jefferson : C'est un peu tout cela : nous devons adopter de nouveaux modes de pensée face à ce problème. Peut-être en appliquant d'anciens algorithmes à de nouvelles conceptions ou en mettant en œuvre de nouveaux algorithmes. Pour des problématiques telles que l'épigénomique et l'examen de la dynamique de l'ADN, ou encore le domaine de l'ARN non codant, l'exome par rapport à tout le reste, c'est différent d'une simple analyse de séquences. C'est une manière différente de considérer le problème. Il s'agit toujours d'une séquence, mais il n'y a pas que la séquence. Ces différentes perspectives sur la question nécessiteront aussi des outils différents.

CAS : Si vous disposiez d'une baguette magique et étiez en mesure de résoudre un problème de l'analyse de séquences et de la recherche de médicaments, lequel choisiriez-vous ? Et quel serait le résultat ?

Jefferson : Je rendrais toutes les données bien annotées et disponibles pour tous. Toutes les données exclusives des entreprises, des institutions et des universités... partout. Sur une plateforme de stockage bien annotée, bien documentée et unifiée, utilisable gratuitement par tous. Parce qu'alors, la masse de données serait suffisante et nous pourrions résoudre les problèmes majeurs.

 

Jefferson began his research career at MIT, exploring xenobiotic metabolism in the gram-positive soil bacterium Rhodococcus aetherovorans. He got into computing when faced with an overload of data trying to annotate the genome to develop DNA microarrays, and he’s been working at the intersection of biology, computing, and mathematics since. His career has taken him through small pharma, large pharma, and consulting organizations, including Novartis and Thomson Reuters. Along the way Jefferson acquired his Graduate Certificate in Applied Statistics from Pennsylvania State University and a master’s degree in computer science from Boston University.

Now, Jefferson is forging a new path with his own bioinformatics consulting company, NullSet Informatics Solutions providing data and analytics, data modeling, and technology project management services.