Quão bem os modelos preveem as funções de autoridade das proteínas?

A previsão da função de proteínas avançou consideravelmente na última década, coincidindo com o surgimento de novos métodos computacionais de aprendizado de máquina e inteligência artificial. Neste artigo, conversamos com Iddo Friedberg, Ph.D., especialista em previsão da função de proteínas e coorganizador do experimento Critical Assessment of Function Annotation (CAFA), sobre o grau de precisão dos modelos que preveem a função de proteínas e como ele imagina o que se seguirá nesse campo.

CAS: Como surgiu seu interesse pela previsão da função de proteínas?

Iddo Friedberg

Professor Associado,

Iowa State University

Foi durante meu pós-doutorado, enquanto fazia bioinformática estrutural. Eu estava tentando encontrar uma maneira diferente de representar estruturas de proteínas utilizando fragmentos ou uma biblioteca de fragmentos e estava começando a relacionar estrutura com função. Comecei a me perguntar: “Como a sequência e a estrutura se relacionam com a função? Como podemos prever melhor a função da proteína a partir da sequência e da estrutura?"

Várias formas de prever a função das proteínas estavam sendo desenvolvidas naquela época e achei que seria bom conversar com mais pessoas sobre isso, mas não consegui encontrar uma conferência em que isso fosse feito especificamente. Então fui em frente e organizei uma por conta própria. Isso foi em 2005, numa conferência satélite na Intelligent Systems for Molecular Biology (ISMB) em Detroit, e depois organizamos nossa própria conferência autônoma na Universidade da Califórnia, em San Diego (UCSD), em 2006. Desde então, organizamos a conferência, a reunião sobre previsão computacional automatizada da função de proteínas, como parte do ISMB.

CAS: Como o campo da previsão automática da função de proteínas evoluiu desde que você começou?

Iddo Friedberg

Professor Associado,

Iowa State University

Definitivamente estamos vendo melhorias com o passar dos anos. Em 2010, Predrag Radivojac, agora na Northeastern University, Sean D. Mooney, da Universidade de Washington, e eu iniciamos a competição CAFA para prever a função de uma proteína a partir de sua sequência ou estrutura. A ideia geral era associar uma sequência de proteína a um conjunto de termos de ontologia que descreverão sua função e procurar maneiras de melhorar a anotação computacional de uma função de proteína. Por ter abordagens e métodos de previsão variados nas inscrições do CAFA, a competição também serve como experimento para avaliar os métodos de previsão da função de proteínas em larga escala.

Na modelagem, usamos uma métrica chamada pontuação Fmax (a média harmônica máxima em uma curva de recuperação de precisão) para descrever a precisão com que um modelo está prevendo, uma escala que vai de 0 a 1, onde 1 é o ideal. Com o CAFA 1, vimos uma pontuação Fmax de algo como ~0,5, talvez um pouco acima, e agora, com o CAFA 4, está em ~0,7. Depende do aspecto da ontologia, um dos aspectos está em ~0,7 e outro em ~0,4/0,5, mas está melhorando.

Com o apoio recente do Kaggle, a CAFA 5 conta com 1.675 equipes competindo para prever a função de um conjunto de proteínas. A avaliação final só estará completa em janeiro de 2024, mas posso dizer que estamos nos aproximando de um Fmax médio de ~0,65 para as três ontologias que temos, o que significa que alguém deve estar próximo a ~0,8, Acho que no aspecto da função molecular da Gene Ontology.

Também vemos uma expansão do tipo de conhecimento necessário para fazer essas previsões de forma confiável: as pessoas por trás dos algoritmos. Nossa comunidade CAFA agora conta com especialistas em bioinformática, biologia experimental, biocuradoria e bio-ontologias. Estamos todos trabalhando juntos para melhorar a maneira como gerenciamos a infinidade de dados aos quais agora temos acesso.

CAS: Algumas abordagens para a previsão da função de proteínas estão funcionando melhor do que outras?

Iddo Friedberg

Professor Associado,

Iowa State University

Tenho um pressentimento sobre o que funciona bem agora na literatura e houve uma pequena mudança. O que funcionou no passado para prever o aspecto da função molecular é a transferência de homologia. Quanto mais sensível for o seu método para detectar homólogos remotos, melhor ele funcionará, e se você puder adicionar informações estruturais, melhor ainda, porque a estrutura vai muito mais longe na evolução do que a sequência. A aplicação desses modelos era relativamente simples, mas mesmo assim, nos bastidores, as pessoas já estavam começando a usar mais o aprendizado de máquina.

Quando a CAFA 3 e a CAFA 4 foram lançadas, tínhamos pessoas representando proteínas e sequências de proteínas como embeddings para prever a função. Embeddings são uma representação multidimensional dos dados que mudou o cenário. Nas previsões clássicas, as proteínas são representadas como cadeias de caracteres e o modelo procura semelhanças entre as cadeias (sequências de proteínas). Com os embeddings, a previsão leva em conta o contexto circundante de cada parte da proteína utilizando um modelo de estilo Word2Vec, ProtVec. Esses tipos de representações são incrivelmente sensíveis e têm poder preditivo muito alto. Podemos até encontrar alguma outra coisa, mas no momento acredito que as pessoas estão se saindo muito bem com os embeddings.

CAS: À medida que as previsões da função molecular melhoram, até que ponto conseguiremos prever processos biológicos e componentes celulares?

Iddo Friedberg

Professor Associado,

Iowa State University

Nos CAFAs iniciais, vimos pontuações mais baixas tentando prever o processo biológico. As pontuações eram inferiores às pontuações de previsão da função molecular em todos os CAFAs. Digamos que você saiba que essa proteína é uma quinase e que, em um camundongo, ela participa da apoptose. Você pode se perguntar: "Isso acontece da mesma forma em humanos?" Um rato e um humano provavelmente estão perto o suficiente para dizer: "Sim, eles estão fazendo a mesma coisa." Mas e quanto a humanos e à drosophila? Ou fermento? É aí que a transferência de homologia pode falhar, porque quanto mais distantes ficamos do ponto de vista evolutivo, mais diferenças vemos.

Nós estamos nos aperfeiçoando. Uma das tentativas que fizemos foi pedir aos preditores que escolhessem entre um conjunto de palavras-chave para descrever seu método de previsão. O que vimos é que coisas como modelos ocultos de Markov e pesquisas remotas de homologia caracterizam os principais métodos para prever a função molecular. Mas para processos biológicos, os principais métodos são a mineração de textos de artigos e o contexto genômico. Então eles estão fazendo previsões de formas muito diferentes.

A previsão do componente celular não está indo muito bem e precisamos descobrir por que isso acontece. Uma coisa é que a própria estrutura da ontologia, a ontologia do componente celular, é difícil de ser trabalhada. Se imaginarmos o gráfico da ontologia da função molecular como uma árvore e a ontologia do processo biológico como um belo gráfico acíclico direcionado e hierárquico, então o componente celular se assemelha a um arbusto. A estrutura é um pouco diferente e não temos uma boa maneira de descrevê-la no momento. Além disso, os preditores de funções são bem menos populares. Acredito que, muitas vezes, não consideram a previsão do componente celular como tendo o mesmo prestígio que a previsão da função molecular ou do processo biológico.

CAS: O que você apontaria como os principais gargalos na área?

Iddo Friedberg

Professor Associado,

Iowa State University

Definitivamente precisamos de mais—mais poder computacional, mais ideias e mais proteínas estudadas. A ideia geral de representar a função como ontologia é diferente, digamos, de representar a estrutura como bolinhas de gude e espaço 3D. Com a estrutura, podemos discutir quantas bolas de gude são necessárias e o grau de precisão delas, mas já é algo tangível. Ontologia é um termo derivado da filosofia e é quase uma representação subjetiva da realidade. Isso muda com o tempo, tanto na forma como entendemos a natureza como também no direcionamento ou foco dos esforços de pesquisa.

No CAFA, tivemos um grupo que realmente disse: "Não vamos tentar prever a função das proteínas, vamos tentar prever o que os biocuradores farão em seguida". Eles previram quais funções estariam nos dados de validação dos biocuradores naquela rodada do CAFA—quais funções eles teriam priorizado na curadoria. O método deles não era o melhor, mas não se saíram tão mal assim. Não podemos prever algo que ainda não tenha sido verificado experimentalmente de alguma forma e, em seguida, inserido no conjunto de dados por um curador, então o que está sendo tratado é realmente importante.

CAS: Claramente, um dos principais gargalos não é computacional, mas que trabalho experimental de laboratório tem sido feito e publicado?

Iddo Friedberg

Professor Associado,

Iowa State University

São os experimentos, mas também a maneira como são publicados. Por que não publicar os resultados diretamente como ontologias? Se você descobrir uma nova sequência de proteína, quando escrever o artigo será necessário depositar a sequência em um repositório como o GenBank. Ou, se descobrir uma nova estrutura de proteína, você depositará a estrutura no banco de dados de proteínas e há regras muito rígidas sobre como representar a sequência e a estrutura quando você as deposita. Também deve haver diretrizes sobre como representar a função da sua proteína como uma ontologia e penso que os investigadores devem saber como fazê-lo.

Os biocuradores, com toda a razão, dizem: “Não, os pesquisadores não deveriam fazer isso. Eles não têm ideia de como usar ontologias”. Mas o gargalo no momento está na biocuradoria. Há dois campos aqui: um é que apenas os biocuradores deveriam fazer o trabalho porque sabem como fazê-lo, e o outro é que todos deveriam fazê-lo, mas isso pode criar erros de anotação. Na verdade, não está claro para mim como resolver isso. Alguns dizem que uma melhor formação para os pesquisadores no uso de ontologias pode ajudar, mas os biocuradores têm uma compreensão muito melhor da seleção dos termos de ontologia apropriados e das relações adequadas.

CAS: Você acha que os avanços recentes nos modelos de processamento de linguagem natural (PLN) podem ser usados para biocuradoria?

Iddo Friedberg

Professor Associado,

Iowa State University

Ainda não vejo isso acontecendo. Acho que precisamos de mais do que um grande modelo de linguagem para fazer isso corretamente. As regras são complexas, por isso usamos humanos para fazer isso. Os humanos são muito bons em tarefas complexas, mas acho que isso ainda é complexo demais para a PLN. Outro problema é que, às vezes, as ontologias são difíceis de associar e nem sempre você tem os termos de ontologia corretos, especialmente para funções recém-descobertas, e você precisa criar novos termos e colocá-los corretamente na ontologia adequada.

Aí você passa a ter o gargalo de alto rendimento. Experimentos de alto rendimento geram muitos dados, mas geram tudo o que aquele ensaio em particular é bom. Isso significa que os dados geralmente têm baixo conteúdo informativo. Analisamos isso em 2013 e concluímos que os bancos de dados de proteínas anotados são incrivelmente desequilibrados em relação aos resultados de experimentos de alto rendimento.

Por exemplo, analisamos uma série de artigos publicados no fim dos anos 2000, que analisavam o desenvolvimento embrionário e o C. elegans. Havia análises completas do genoma para verificar o que estava envolvido no desenvolvimento embrionário e muito poucos outros dados experimentais surgiram de C. elegans na época. Assim, apenas a partir destes dados, o modelo poderia concluir que tudo o que C. elegans faz é o desenvolvimento embrionário, porque isso é tudo o que os dados dizem. Esses tipos de vieses provenientes de experimentos de alto rendimento são um problema e, sem intervenção humana, podem dar ao modelo uma visão de mundo muito tendenciosa.

CAS: Na sua opinião, quais são as grandes oportunidades na previsão da função de proteínas no momento?

Iddo Friedberg

Professor Associado,

Iowa State University

Acho que o aprendizado de máquina definitivamente fará uma grande diferença e também veremos diversas representações de sequências e estruturas de proteínas. Ainda temos um gargalo com relação ao uso da ontologia, então algumas pessoas estão desistindo completamente de usá-la e simplesmente afirmam: “Este é um cluster homogêneo. Para mim é uma função." O fato de termos AlphaFold e ESMFold para nos proporcionar informações estruturais previstas de forma decente vai ajudar muito.

Precisamos também de um esforço deliberado por parte das agências de financiamento para gerar dados mais válidos de alta qualidade e com muitas informações. Deveríamos ter menos bolsas de consórcio, o que é uma espécie de tiro no pé, na verdade, e criar muitas bolsas de pequeno e médio portes para atrair alguns pós-doutorandos e estudantes para caracterizar funções específicas e criar mais diversidade no ecossistema científico.

CAS: Se você tivesse uma varinha mágica para mudar alguma coisa no processo de descoberta de medicamentos, o que mudaria?

Iddo Friedberg

Professor Associado,

Iowa State University

A capacidade de selecionar artigos de forma automática e precisa e colocar essas informações em uma representação computacional que permaneça válida no longo prazo. Mas, como eu disse antes, há um bom motivo para confiarmos em humanos para fazer esse trabalho agora. Não penso necessariamente que a ontologia genética, ou qualquer ontologia, seja a única representação válida no longo prazo, mas não consigo pensar em nada melhor no momento. É difícil porque a nossa representação de coisas utilizando ontologias é um gargalo, mas, novamente, isso é quase como dizer que a linguagem humana é um gargalo. Mas nesse caso estamos entrando no terreno da filosofia e não estou qualificado para falar sobre isso!

Iddo Friedberg é professor associado da Faculdade de Medicina Veterinária da Universidade Estadual de Iowa. Com doutorado em bioinformática, Iddo desenvolveu sua carreira em metagenômica computacional e previsão de função de proteínas. O objetivo de sua pesquisa é usar a grande quantidade de dados ômicos disponíveis para prever a função de proteínas e genes, e ele trabalha para reunir cientistas com ideias semelhantes para discutir a previsão automática da função de proteínas. Como co-organizador do Critical Assessment of Function Annotation (CAFA), experimento projetado para apresentar uma avaliação em larga escala de métodos computacionais dedicados à previsão da função da proteína, Iddo está na vanguarda do futuro da previsão da função da proteína.

Iddo Friedberg, Ph.D., é professor associado da Faculdade de Medicina Veterinária da Iowa State University. Com doutorado em bioinformática, Iddo desenvolveu sua carreira em metagenômica computacional e previsão de função de proteínas. Sua pesquisa visa utilizar a grande quantidade de dados ômicos disponíveis para prever a função de proteínas e genes e ele trabalha para reunir cientistas com ideias semelhantes para discutir a previsão automática da função de proteínas. Como co-organizador do Critical Assessment of Function Annotation (CAFA), um experimento projetado para apresentar uma avaliação em larga escala de métodos computacionais dedicados à previsão da função da proteína, Iddo está na vanguarda do Futuro da previsão da função da proteína.