Hexagon shaped overlay
CAS Registry Services℠

Você precisa de um biólogo computacional para análise de sequência?

Uma conversa com Jefferson Parker, Ph.D. fundador da NullSet Informatics Soluções

Close-up of transparent spherical capsules illuminated in blue, each containing intricate, embedded structures resembling cells or circuits.

À medida que a biologia computacional continua avançando na descoberta de medicamentos, novos desafios e oportunidades surgem constantemente. A análise de sequência é um aspecto fundamental da bioinformática. Nesse artigo, falamos com Jefferson Parker, Ph.D., fundador da NullSet Informatics Solutions e especialista em análise de dados em ciências da vida, sobre as novas fronteiras da análise de sequência na descoberta de medicamentos.

CAS: Como biólogo computacional, que funções você já desempenhou na descoberta de medicamentos?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

Já fiz de tudo, auxiliei desde laboratórios de descoberta de medicamentos até grupos de pesquisa translacionais. Mais recentemente, trabalhei com equipes clínicas em operações e desenvolvimento. Dei suporte a equipes de farmacovigilância com análises de dados de segurança, trabalhei em desenvolvimento de negócios e com inteligência competitiva. Inclusive fui membro incorporado em equipes de engenharia de software como analista de bioinformática, uma espécie de tradutor entre os cientistas do laboratório experimental e os desenvolvedores de software.

CAS: Por que a análise de sequência é importante na descoberta de medicamentos?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

Na descoberta, você pode usar a análise de sequência para a triagem de alvos. Observando o que acontece no nível transcriptômico, você pode mapear qualquer caminho de conhecimento que tenha e perguntar: “Quais são as causas iniciais mais prováveis?” Esses são seus prováveis alvos de medicamentos ou algo próximo ao seu alvo de medicamentos em um sentido de sinalização. Se o seu medicamento foi projetado para um alvo específico, esperamos que a análise ajude a confirmar que você está chegando perto.

Você também pode começar a procurar biomarcadores dos pacientes selecionados. Existe um perfil genético específico, seja no nível da expressão, seja no nível da sequência de DNA, com várias mutações? Há certas mutações presentes nos pacientes que os tornam mais ou menos suscetíveis à eficácia do medicamento? Essa é uma área extremamente empolgante e ativa na indústria farmacêutica. Pode realmente fazer a diferença entre o sucesso e o fracasso de um tratamento saber se, sim, este medicamento funcionará, ou não, ele provavelmente não funcionará.

Além disso, você não vai desperdiçar o tempo precioso dos pacientes. Especialmente em um campo como a oncologia, onde os pacientes não têm muito tempo, você não vai perder tempo com tentativa e erro e com várias linhas de terapia com medicamentos que simplesmente não funcionam.

E tudo isso envolve a análise de sequência. Ela aborda todos os aspectos do processo de desenvolvimento de medicamentos.

CAS: Onde você acha que estão os maiores desafios da análise de sequência?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

Eu diria que os desafios estão diminuindo muito rápido, porque a tecnologia avança a cada ano. Antes você tinha essas pequenas leituras curtas e a montagem era um grande desafio. Agora estamos obtendo leituras mais longas e a montagem ainda é um desafio, mas não tanto.

Imagine que você deixe cair seu exemplar de Guerra e Paz em um triturador. Você tem fragmentos de página com alguns milímetros por alguns centímetros, então será muito difícil remontar o livro com isso. Mas se os fragmentos das páginas forem muito maiores, mais longos e você tiver um pedaço de parágrafo em vez de um fragmento de palavra, será muito mais fácil remontar a história na ordem correta. Isso é basicamente o que está acontecendo agora, com a transição para leituras cada vez mais longas.

O armazenamento ainda é um problema. Mesmo na minha função mais recente, tínhamos que movimentar os dados de sequência e a maneira mais rápida de fazer isso era carregá-los em um disco rígido e despachá-lo pela FedEx em uma caixa. Em vez de movimentar centenas de gigabytes ou terabytes de dados pela Internet, é mais rápido enviá-los em uma caixa. O armazenamento local não é um problema, é a transmissão de uma grande quantidade de dados de um lugar para outro. Hoje em dia, tendo os dados onde eles precisam estar, você pode encontrar poder de computação suficiente para executar seu projeto de sequenciamento, mas o gargalo ainda é levar os dados até as máquinas.

As amostras derivadas dos pacientes também são um desafio. Elas são dolorosas, as biópsias são invasivas e os pacientes não querem ter que dar várias amostras. Geralmente, após retiradas, as amostras são fixadas em formalina e embebidas em parafina, de modo que qualquer material de ácido nucleico será degradado em algum grau. Há maneiras de tentar extrair e usar esse tipo de tecido de amostra preparado para sequenciamento, mas a qualidade da sequência sempre ficará prejudicada.

Para uma empresa pequena, a tecnologia também é cara – essas máquinas custam muito dinheiro. Da mesma forma, os biólogos computacionais estão se tornando muito mais comuns, mas ainda assim não estão em todos os lugares e todo mundo quer trabalhar para a maior e melhor empresa e ganhar mais. A mão de obra está aumentando, mas ainda é limitada.

De certa forma, ninguém mais quer trabalhar com análise de sequência. Todos querem criar o próximo grande modelo de aprendizado. O foco não está tanto no processamento dos números e na análise de dados, agora está na IA e no ML avançados. Todo mundo quer trabalhar na tecnologia nova, sedutora e atraente. E análise de sequência não é nada disso. Então, em breve será muito difícil.

CAS: Hoje você realmente precisa de um biólogo computacional para fazer análise de sequência?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

Se você está utilizando metodologias padronizadas e bem estabelecidas que são bem desenvolvidas, validadas e documentadas, então não, não precisa. Você não precisa de alguém para criar a roda de novo. Há muitas soluções de software disponíveis no mercado que podem ler os dados de entrada de todas as diferentes máquinas de sequenciamento. Você carrega, arrasta e solta os ícones do pipeline que deseja processar e pressiona um botão. Você vai tomar café, almoçar ou, dependendo do tamanho da máquina em que está trabalhando, pode ir para casa e voltar de manhã, e estará tudo pronto. Você não precisa de alguém como eu para fazer isso. Qualquer associado de pesquisa com conhecimento de tecnologia pode executá-lo. 

Se, por outro lado, você estiver trabalhando com uma máquina de sequenciamento de ponta e tentando derivar uma nova metodologia de análise que não foi feita antes, então não vai ter uma solução pronta para uso. Aí você precisa de alguém que entenda de biologia; alguém que entenda os dados de entrada, os dados de saída, a matemática e tudo mais. Para juntar tudo isso e integrar a uma nova solução que ainda não existe, então você precisa de alguém como eu ou alguém que conheça todas essas partes.

CAS: A IA e o ML podem ser úteis na análise de sequência?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

Com um conjunto de dados bem-organizado, a IA e o ML com certeza ajudarão. Eu sei que há organizações aplicando tecnologias de aprendizado de máquina para consumir a literatura e construir gráficos de conhecimento, então elas certamente têm uma função a desempenhar. A IA e o aprendizado de máquina poderiam ajudar apenas na montagem da sequência? Provavelmente, mas não sei se isso não seria um exagero.

CAS: Quais são suas opiniões sobre o AlphaFold, que realiza previsões de estruturas de proteínas por meio de IA?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

Eu acho que o AlphaFold é absolutamente um divisor de águas. Ele oferece um caminho muito mais rápido para uma estrutura, que pode alimentar coisas como o design de medicamentos auxiliado por computador muito mais rápido do que você jamais conseguiria antes. Você não precisa mais ter uma estrutura de RMN ou cristalina para ter um ponto de partida. Ele é tão bom quanto uma estrutura cristalina? Provavelmente não. A coisa real, medida, sempre será melhor que a simulação. Mas, em termos de tempo, você pode ter alguma coisa disponível agora. Vai ter um impacto que talvez nem estejamos vendo ainda. Eu sinto que, com o AlphaFold, a pedra caiu no lago e gerou impacto, mas são apenas as primeiras ondulações que estão se formando.

CAS: O que você acha que é a vanguarda de IA e ML na descoberta de medicamentos?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

É espacial, o que é meio que a próxima geração de célula única. Multiômica. Pegando o DNA, o RNA, as proteínas, a metabolômica e integrando tudo isso. Até mesmo integrando-o com vias celulares e comunicação intercelular. Não se trata mais de apenas uma célula única. É a célula única, as células próximas dela e as próximas a elas; como elas interagem? É para onde estamos indo, onde já estamos.

CAS: Você acha que vamos criar modelos de sistemas biológicos?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

Se você tivesse me perguntado isso quando eu estava na pós-graduação, eu teria dito que a humanidade não tem a matemática capaz de descrever um sistema biológico. Biologia é química complexa, química é física complexa e física é matemática complexa. Essa é a base de tudo. A física é um problema que pode ser resolvido matematicamente, só que exige uma imensa quantidade de dados, e a química é, até certo ponto, a mesma coisa. Mas biologia... Eu acreditava que não tínhamos, e não teríamos, a capacidade de modelar matematicamente um sistema biológico.

Mas agora provavelmente é esse o caminho que terá que ser seguido. Será necessário um computador quântico? Talvez. Pode ser depois que eu morrer, mas digo agora com uma boa dose de confiança que, em algum momento, a humanidade será capaz de fazer simulações computacionais precisas e confiáveis dos sistemas vitais. E essa afirmação me dá arrepios. Sei que há muito trabalho sendo feito no espaço do gêmeo digital. São cenários iniciais, limitados, mas os gêmeos digitais estão online e sendo usados em ensaios clínicos agora. Isso é meio que o começo.

CAS: O que você acha que é necessário para impulsionar essas novas fronteiras? Novos algoritmos, novas estruturas ou algo mais?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

É tudo isso — precisamos de novas formas de pensar sobre o problema. Pode ser aplicar algoritmos antigos com novas formas de design ou implementar novos algoritmos. Para áreas como a epigenômica e o estudo da dinâmica do DNA, ou o campo dos RNAs não codificadores, exoma em comparação com todo o restante, isso é diferente de apenas uma análise de sequências. É uma forma diferente de pensar sobre o assunto. Ainda é a sequência, mas não é a sequência. Essas formas diferentes de pensar sobre o assunto vão exigir ferramentas diferentes.

CAS: Se você tivesse uma varinha mágica para mudar alguma coisa no processo de descoberta de medicamentos, o que mudaria?

Headshot of Jefferson Parker
Jefferson Parker
Fundador da
Soluções de Informática NullSet

Eu tornaria todos os dados bem anotados e disponíveis para todos. Todos os dados proprietários de empresas, instituições e universidades… em todos os lugares. Em uma plataforma de armazenamento unificada, bem anotada e bem documentada, que pode ser usada livremente por todos. Porque então haveria o suficiente e poderíamos resolver os grandes problemas.

Jefferson iniciou sua carreira de pesquisa no MIT, explorando o metabolismo de xenobióticos na bactéria do solo gram-positiva Rhodococcus aetherovorans. Começou a trabalhar com computação quando se deparou com uma sobrecarga de dados ao tentar anotar o genoma para desenvolver microarrays de DNA e, desde então, tem trabalhado na interseção entre biologia, computação e matemática. Sua carreira o levou por pequenas e grandes organizações farmacêuticas e de consultoria, incluindo a Novartis e a Thomson Reuters. Ao longo do caminho, Jefferson adquiriu seu Certificado de Graduação em Estatística Aplicada pela Pennsylvania State University e um mestrado em ciência da computação pela Boston University.

Agora, Jefferson está trilhando um novo caminho com sua própria empresa de consultoria em bioinformática, a NullSet Informatics Solutions, que oferece serviços de dados e analytics, modelagem de dados e gerenciamento de projetos de tecnologia.

Jefferson Parker, Ph.D., iniciou sua carreira de pesquisa no MIT, explorando o metabolismo de xenobióticos na bactéria do solo gram-positiva Rhodococcus aetherovorans. Entrou na computação quando se deparou com uma sobrecarga de dados tentando anotar o genoma para desenvolver microarrays de DNA e trabalha na interseção de biologia, computação e matemática desde então. Sua carreira o levou a pequenas empresas farmacêuticas, grandes farmacêuticas e organizações de consultoria, incluindo Novartis e Thomson Reuters. nessa jornada, Jefferson adquiriu seu certificado de pós-graduação em estatística aplicada pela Pennsylvania State University e um mestrado em ciência da computação pela Boston University. Jefferson também abriu um novo caminho com sua própria empresa de consultoria em bioinformática, a NullSet Informatics Solutions, entregando dados e analytics, modelagem de dados e Serviços de gerenciamento de projetos de tecnologia.