Os grandes modelos de linguagem são adequados para pesquisas científicas?

Philippe Ayala , Data Science Technical Manager

Senior chemistry professor writing on the board

Por que maior nem sempre é melhor quando se trata de ferramentas de IA e aplicativos especializados

Desde seu lançamento em 2022, o ChatGPT redefiniu a conversa sobre IA. Tendo sido aclamado como um milagre e uma ameaça – desde promessas positivas, como a revolução do trabalho e a revitalização das cidades, até impactos negativos, como a substituição de empregos hoje ocupados por humanos, os grandes modelos de linguagem (LLM) são considerados capazes de fazer tudo e muito mais.

Qual é a diferença entre o ChatGPT e o GPT-3/GPT-4?

Existem diferenças importantes entre o ChatGPT e os próprios LLMs, denominados GPT- com um número (ou seja, GPT-3 ou GPT-4). Muitas vezes, são confundidos ou usados ​​de forma intercambiável, mas o ChatGPT é o aplicativo chatbot com interface “fácil de usar” que roda em cima dos LLMs mais complexos (GPT-3 ou GPT-4).

GPT-3 e GPT-4 são versões diferentes em uma série de modelos de transformadores generativos pré-treinados. Os transformadores são um tipo de rede neural conhecida como modelos de linguagem. Esses modelos podem aprender a reconhecer padrões e contextos em dados pouco estruturados, como palavras em frases. Os transformadores são especialmente bons nisso. Um modelo generativo, quando é fornecido um contexto, pode gerar uma saída arbitrariamente longa a partir de um prompt. Os modelos GPT combinam os dois tipos de modelo.

Por outro lado, ChatGPT é o aplicativo que roda sobre LLMs como GPT-3 ou GPT-4. Possui um módulo de memória para continuar conversas anteriores e possui filtros, classificadores e muito mais módulos integrados para minimizar respostas tóxicas ou inadequadas.

chat-gpt-LLM

O que é necessário para construir um LLM?

Os LLMs são impressionantes. O GPT-3 tem 175 bilhões de parâmetros, ou valores que o modelo pode alterar de forma independente à medida que aprende. O GPT-4, a versão mais recente da série GPT lançada em 2023 é ainda maior, com 1 trilhão de parâmetros. Como qualquer pessoa que os tenha utilizado pode atestar, estes modelos têm um conhecimento incrivelmente amplo e habilidades surpreendentemente boas para produzir informações coerentes.

Porém, essas funcionalidades têm, literalmente falando, custos. Treinar os modelos GPT, cada vez maiores, e implantar aplicativos como o ChatGPT é um tremendo feito de engenharia. Estima-se que o GPT-3 custou US$ 4,6 milhões para ser criado e pelo menos US$ 87.000 ao ano para operar na nuvem. O desenvolvimento do GPT-4 provavelmente custou impressionantes US$ 100 milhões, ou mais.

Além desses números estão os custos significativos do hardware e dos recursos para mantê-lo funcionando e, ao mesmo tempo, garantir que os data centers sejam mantidos refrigerados. Os data centers podem usar bilhões de litros de água e o ar-condicionado consome energia e contribui com as emissões, o que obriga as organizações a avaliar os custos e benefícios destas poderosas ferramentas. Por causa dos custos iniciais e contínuos, os LLMs já são proibitivamente caros para a maioria das empresas privadas, universidades e organizações do setor público, e isto continuará à medida que os modelos se tornarem maiores e mais poderosos.

As limitações dos LLMs

Por contar com componentes estruturais específicos, os modelos dos transformadores capturam a relação entre diferentes entradas e, graças a grandes quantidades de textos de amostra, os LLMs modernos tornaram-se muito bons em extrair a semântica ampla de um trecho de texto e em acompanhar as relações entre os elementos textuais. Os modelos generativos como o GPT-3 foram um passo além e aprenderam a acompanhar essas relações tanto nas perguntas quanto nas respostas. Geralmente, os resultados são convincentes. Podemos pedir ao ChatGPT um número entre 0 e 100, ou perguntar se o colesterol é um esteroide, e ele provavelmente dará a resposta certa.

Para aplicações especializadas, como as pesquisas científicas, no entanto, os grandes modelos de linguagem podem ter dificuldade de ir além da semântica ampla e compreender informações específicas e diferenciadas. Por que isso acontece? Primeiro, porque os LLMs não são imunes ao problema do “entra lixo/sai lixo”. Segundo, mesmo treinados com dados de alta qualidade, as informações de treinamento relevantes podem estar sub-representadas.

Tópicos amplos e descritos com frequência são bem captados pelos LLMs, mas tópicos restritos e especializados são quase sempre sub-representados e tendem a ser tratados com menor exatidão. Por exemplo, um grande modelo de linguagem pode chegar ao nível de abstração correto e determinar se alguma coisa é uma molécula de esteroide. Poderia até reconhecer duas moléculas de esteroides da mesma família, mas não poderia reconhecer de forma consistente se uma é extremamente tóxica e a outra não. A capacidade de um grande modelo de linguagem fazer essa distinção depende dos dados utilizados para o treinamento e se a informação correta foi reconhecida e “memorizada”. Se a informação estiver escondida em um mar de informações ruins ou conflitantes, então não há como o modelo encontrar a resposta correta.

Algumas pessoas podem até argumentar que mais dados, dados mais limpos e modelos maiores resolveriam esse problema. Eles podem estar certos, mas e se pedirmos a um LLM generativo um número aleatório entre 0 e 100? Como podemos ter certeza de que o número fornecido é verdadeiramente aleatório? Para responder a essa pergunta, precisamos ir além da semântica lexical e dos fatos memorizados, além dos LLMs e ir em direção aos agentes de IA. Aqui, o agente cria um trecho de código executável usando procedimentos validados, encaminha-o para outro processo executar, processa o resultado e apresenta a resposta ao usuário.

Desafios específicos com dados científicos

Como os meus colegas do CAS sabem muito bem, os dados científicos são muito mais complexos que textos, e a maioria dos problemas não pode ser expressa em uma ou duas perguntas.

Ao utilizar ferramentas baseadas em IA para pesquisa científica, devemos nos perguntar: que problema estamos tentando resolver? Muitos problemas envolvem linguagem ou sequências pouco estruturadas, portanto os modelos de linguagem são perfeitos. Mas, e quanto aos dados tabulares, dados categóricos, gráficos de conhecimento e séries temporais? Estas formas de dados são necessárias para a pesquisa científica, mas os LLMs nem sempre conseguem aproveitá-las. Isso significa que os LLMs por si só não podem fornecer o nível de especificidade necessário para uma aplicação como a pesquisa molecular. Em vez disso, assim como uma orquestra precisa de vários instrumentos para produzir um som coeso, a ciência precisa de múltiplas ferramentas na caixa de ferramentas de IA para produzir resultados coerentes.

Uma abordagem sistêmica com profundidade e amplitude

Se, por si sós, os LLMs por não são adequados para a pesquisa científica, então o que será? A resposta está em uma abordagem sistêmica que utiliza vários tipos de modelos para gerar resultados especializados. Ao sobrepor modelos de linguagem e redes neurais com ferramentas tradicionais de aprendizado de máquina, gráficos de conhecimento, quimioinformática e bioinformática, bem como métodos estatísticos como o TF-IDF, os pesquisadores podem incluir informações profundas e diferenciadas nos programas orientados por IA.

Estas ferramentas podem fornecer os resultados específicos necessários para tarefas como o desenvolvimento de novas moléculas de medicamentos ou a invenção de um novo composto. Os gráficos de conhecimento são particularmente valiosos porque atuam como uma verdade absoluta - conectam de forma confiável entidades conhecidas: uma molécula, reação, artigo publicado, conceito controlado, etc. Um caso de uso ideal é aproveitar uma rede neural profunda que possa afirmar: “Este é um certo tipo de substância” e junto vem um gráfico de conhecimento que valida a precisão. É assim que chegamos aos fatos confiáveis necessários para a pesquisa científica.

Este tipo de abordagem de sistemas é essencialmente uma função de verificação de fatos, que, além de melhorar a confiabilidade dos dados, está se mostrando eficaz em aplicações especializadas. Por exemplo, a Nvidia lançou recentemente o Prismer, um modelo de linguagem sobre elementos visuais projetado para responder perguntas sobre imagens ou fornecer legendas para elas. Este modelo usa uma abordagem de “mistura de especialistas” que treina vários submodelos menores. A profundidade do conhecimento desse modelo proporcionou resultados de qualidade sem treinamento massivo — seu desempenho se igualou ao de modelos treinados com 10 a 20 vezes mais dados.

O Google também está trabalhando em uma abordagem similar, na qual o conhecimento é extraído de um modelo de linguagem “professor”, de uso geral, para modelos “estudante”, menores. Os modelos alunos apresentam informações melhores que o modelo maior devido ao seu conhecimento mais profundo – um modelo estudante treinado em 770 milhões de parâmetros superou o desempenho de seu professor de 540 bilhões de parâmetros em uma tarefa de raciocínio especializada. Embora o modelo menor demore mais para ser treinado, os ganhos contínuos de eficiência são valiosos, pois é mais barato e mais rápido de ser processado.

Aperfeiçoando a pesquisa científica

Outro exemplo de uma abordagem de sistemas bem-sucedida é o PaSE, ou o Patent Similarity Engine (Mecanismo de similaridade de patente), desenvolvido por meus colegas e eu no CAS, que potencializa recursos exclusivos do CAS STNext e do CAS SciFinder. Desenvolvemos esse modelo como parte de nossa colaboração com o Instituto Nacional de Propriedade Industrial (INPI) do Brasil, o escritório nacional de patentes do país. Ele foi projetado para processar grandes quantidades de informação em alguns minutos, para que os pesquisadores pudessem resolver atrasos persistentes de patentes.

Um dos componentes da solução é um modelo de linguagem que usa as mesmas técnicas críticas de aprendizado de máquina da família GPT, mas contém tipos adicionais de aprendizado, incluindo gráficos de conhecimento, quimioinformática e métodos estatísticos tradicionais de recuperação de informações. Ao treinar o modelo na ciência mundial, como as patentes de texto completo e periódicos dentro do CAS Content CollectionTM, o PaSE alcançou a profundidade e a amplitude necessárias para encontrar a “anterioridade” 50% mais rápido que a pesquisa manual.

Para os escritórios de patentes, é extremamente desafiador provar que algo não existe. Pense no ditado: “Ausência de evidência não é evidência de ausência”. Nossos cientistas de dados treinaram e otimizaram o modelo em conjunto com especialistas em busca de patentes, a equipe brasileira do INPI e uma combinação única de ferramentas de IA que identificaram a anterioridade com 40% menos de buscas manuais. Devido a esse desempenho e à redução dos atrasos de patentes, recebeu o Prêmio Stu Kaback Business Impact do Patent Information Users Group em 2021.

O caminho a ser seguido pelos grandes modelos de linguagem na ciência

Esta experiência mostra que os LLMs continuarão a desempenhar um papel significativo na pesquisa científica no futuro, mas, ao contrário da crença popular, esta ferramenta não é uma panaceia para todos os problemas ou necessidades.

Gosto de pensar nesses modelos em termos de organização de um cômodo bagunçado da sua casa, digamos, um closet ou um quartinho na garagem. Pessoas diferentes organizariam os itens nesses cômodos de maneiras diferentes. Uma pessoa organizaria tudo por cor, enquanto outra poria juntos todos os objetos de valor e outra pessoa os organizaria por função. Nenhuma dessas abordagens está errada, mas pode não ser o tipo de organização que desejada ou necessária. Este é essencialmente o problema dos LLMs que organizam as informações de determinada forma, mas não da forma que um cientista ou pesquisador precisa.

Para aplicações especializadas em que um usuário necessita de determinado resultado, como sequências de proteínas, informações de patentes ou estruturas químicas, os modelos alimentados por IA devem ser treinados para organizar e processar informações de formas específicas. Eles precisam organizar os dados, os resultados e as variáveis da forma que os usuários querem para otimizar o treinamento e as previsões.

Para saber mais sobre o impacto dos dados, sua representação e modelos que estão aperfeiçoando predições na ciência confira nossos estudos de caso com o CAS Custom Services. Quer saber mais sobre o cenário emergente da IA e a química? Leia nosso relatório técnico mais recente sobre as oportunidades que a IA oferece para a química ou explore nossos recursos sobre como a IA pode melhorar a produtividade em escritórios de patentes em todo o mundo.