Por que novos modelos de autoridade são necessários para dados de ciências da vida?
Uma conversa com Nicole Stobart, Jeff Wilson, Ph.D. e Mark Schmidt do CAS
Modelos e identificadores de autoridade têm sido usados pelo CAS no setor químico há quase 100 anos como a pedra angular nossa liderança mundial em curadoria e indexação. Nossa equipe de ciências da vida agora está criando as mesmas ferramentas de indexação para um novo setor. Neste artigo, conversamos com Nicole Stobart, gerente sênior de recursos em Ciências da Vida; Jeff Wilson, Ph.D. diretor assistente de estratégia de Conteúdo e autoridade; e Mark Schmidt, administrador líder de dados sobre como eles estão abrindo esse novo caminho utilizando modelos de autoridade.
CAS: O que são modelos de autoridade e por que são importantes para a pesquisa em ciências biológicas?
Os modelos de autoridade, de nossa perspectiva, são fortemente dedicados à identidade. Em qualquer domínio, sejam proteínas, substâncias químicas ou ácidos nucleicos, você precisa conseguir identificar as entidades de maneira inequívoca. Historicamente, na nossa coleção química, temos o CAS REGISTRY® e ele é nossa autoridade clássica. No CAS REGISTRY queremos descrever exclusivamente diversos produtos químicos e queremos saber que, cada vez que encontramos a mesma coisa em nossa curadoria, ela é identificada dessa forma. Um exemplo simples seria o paracetamol. Quer você o chame de acetaminofeno, Tylenol ou paracetamol, todos são identificados como o mesmo produto químico.
CAS: Como você definiria a curadoria de dados no CAS?
As pessoas tendem a usar o termo curadoria com dois significados diferentes. Primeiro, existe a ingestão e agregação de dados, que normalmente não chamamos de curadoria aqui no CAS. Depois, há o tipo de curadoria com a qual o CAS tem uma longa história, onde os cientistas analisam fontes originais de informação e aplicam esforço intelectual para extrair e melhorar essa informação e disponibilizá-la de forma mais estruturada.
A maioria dos nossos cientistas está envolvida na curadoria descrita por Mark, em que extraem informações importantes de fontes primárias e depois as melhoram, padronizam e conectam a outros pontos de dados. Mas há outra camada além dessa. Temos um grupo independente de pessoas que fazem a curadoria das coleções de autoridade, que observam as novas informações à medida que elas chegam e decidem: trata-se de algo novo? Não é? Como devemos organizar isso? Como estão relacionados? Que terminologia usamos? Não são as pessoas que extraem as informações da literatura primária que tomam essas decisões. Em vez disso, temos pessoas que fazem a curadoria da coleção de autoridades.
O principal é que a autoridade nunca termina. Você está sempre adicionando coisas novas recém-descobertas ou recém-interessantes e também está adicionando novos sinônimos para mantê-lo útil.
CAS: Qual seria a vantagem dos modelos de autoridade por curadoria?
Após começar a agregar identidades e terminologia com modelos de autoridade, a identificação de novas instâncias fica mais simples. Após coletar todos os nomes da entidade, você pode criar um modelo de autoridade para ver e combinar instantaneamente. Os sinônimos facilitam a curadoria.
Os modelos de autoridade ajudam a organizar e agregar todas as informações em volta deles. Então, no caso das proteínas, podemos não chamar essa proteína exatamente da mesma forma que você a chamaria, mas se soubermos como você a chama e como nós a chamamos, poderemos compilar todas as informações sob a mesma identidade. Isso nos permite reunir todas as informações relevantes.
CAS: É possível utilizar a IA para ajudar a criar ou fazer curadoria dos modelos de autoridade?
Precisamos ter certeza de que organizamos e identificamos com autoridade tudo sobre o que estamos falando para viabilizar a curadoria por IA. É realmente difícil confiar em qualquer tipo de aprendizado de máquina ou em dados com curadoria por máquina se não estiver tudo organizado manualmente ou pelo menos idealizado e identificado de forma confiável.
Temos uma filosofia geral sobre a IA e como ela se relaciona com nossos dados, no sentido de que aproveitamos a tecnologia mais avançada possível para aprimorar as capacidades humanas. Temos centenas de cientistas aqui que fazem o trabalho de curadoria, e se você olhar o que eles fazem hoje, é algo muito mais sofisticado do que faziam há 30 anos. Cada vez que adotamos uma nova tecnologia, nós a utilizamos para permitir que os humanos realizem um trabalho mais sofisticado. Aproveitamos a tecnologia de processamento de linguagem natural e de aprendizado de máquina para ajudar a identificar documentos e insights, mas depois tudo isso é apresentado aos humanos, que tomam a decisão final sobre o que é importante ou relevante e como deve ser organizado.
Por outro lado, após criarmos os dados estruturados, fazemos o mesmo com a tecnologia e as soluções de IA. Tentamos aproveitar a melhor tecnologia para mostrar o que você pediu e tudo o que está relacionado. Podemos usar tecnologia preditiva para ajudá-lo a planejar sínteses, temos mecanismos de IA que ajudam a prever qual seria a técnica anterior e você pode fazer pesquisas do tipo booleano e tentar encontrar elementos. Assim pegamos nossos dados, que são altamente estruturados, e acrescentamos tecnologia de IA em camadas. Não usamos a IA para substituir pessoas.
CAS: Como o CAS abordará a definição e identificação de entidades biológicas?
Então é aqui que começamos a falar sobre semântica de identidade. É um problema realmente difícil e complicado nas ciências da vida, e temos plena consciência disso, tratamos caso a caso, todos os dias. Podemos não conseguir alcançar a perfeição, mas faremos o nosso melhor. Faremos escolhas racionais e justificáveis, que serão úteis para as pessoas na área das ciências da vida. Nem sempre agradaremos a todos, mas seremos previsíveis e claros sobre isso, para as pessoas poderem usar o sistema que entregamos de forma confiável.
Quando chegamos a questões como “A diferença de um nucleotídeo é uma nova identidade ou não?”, essa é uma escolha a ser feita. Mas se três polimorfismos diferentes de nucleotídeo único se tornarem uma identidade em vez de três, teremos que descrever todas essas três diferenças e associá-las à única identidade que apresentarmos. Portanto, mesmo quando decidimos que coisas diferentes se enquadram na mesma identidade, todas as informações ainda poderão ser descobertas, conectadas e acessadas.
Inicialmente escolheremos nossa semântica de identidade e a definiremos; depois, à medida que novas informações chegarem, decidiremos: "trata-se de uma nova identidade ou ela se soma a uma identidade existente?" Queremos utilizar o máximo de poder computacional que pudermos, mas em todos os momentos nossa principal fonte de verdade para essas decisões serão os humanos que conhecem melhor a área em questão. É assim que vamos entregar um serviço confiável.
Queremos criar antecipadamente um conjunto de regras claro, consistente e abrangente. Isso pode parecer arbitrário para as pessoas que ainda não tentaram definir entidades e agregar informações, mas descobrimos que quando se está organizando informações, é preferível pecar por excesso de clareza e consistência. Você pode encontrar nuances da ciência em casos específicos, mas implementar regras para tudo faz com que as coisas se espalhem e isso dificulta ainda mais o processo de encontrar e reunir todas as informações. Em vez disso, é melhor criar uma regra que funcione para 99% de tudo. Na área da química, às vezes recebemos correspondências de um cientista que diz: “Vejo que vocês descreveram isso desta forma no CAS REGISTRY e estão errados, tenho dados que dizem que é melhor descrevê-lo de outra forma”, e nossa resposta usual é que nosso conteúdo é organizado em torno da capacidade de descoberta. E esse é o ponto: a curadoria precisa levar você de forma consistente aos dados que você procura, mesmo que faltem algumas nuances científicas pelo caminho.
CAS: Vocês estão utilizando estrutura ou função para criar as identidades para ciências da vida?
Para muitas entidades biológicas, especialmente proteínas, é mais função do que estrutura, mas geralmente é uma combinação de ambas. Na química, é fácil criar modelos de autoridade baseados inteiramente na estrutura, mas não é a mesma coisa com as ciências da vida. Temos várias autoridades diferentes que temos que resolver: proteínas, anticorpos, organismos etc. Cada um deles precisará ser abordado de uma maneira única. Temos que nos afastar das identidades baseadas somente na estrutura à medida que avançamos nas ciências da vida de uma forma que não precisávamos fazer no passado.
CAS: Como vocês pretendem enfrentar a longevidade da definição por função quando a função biológica muda com o tempo e com novas pesquisas?
Sempre tentamos preparar as coisas para o futuro e não acho que possamos prever onde as ciências da vida estarão em dez anos, mas à medida que criamos construções consistentes incorporaremos alguma flexibilidade e extensibilidade no processo. O fundamental será reconhecer quando devemos continuar a usar o modelo atual e quando surgirá um novo ramo da ciência que exija um novo modelo. As pessoas vão continuar tendo que descrever proteínas, mas pode haver uma subcategoria de algum tipo que surgir;a e que precisará da criação de novos modelos de autoridade.
Acho que se você fizer um trabalho eficaz para obter uma semântica de identidade razoável no início, estará preparado para um futuro em que provavelmente os cientistas subdividirão uma identidade em algumas identidades mais específicas. Se pensarmos na nomenclatura de gêneros e espécies de organismos, isso funcionou por muito tempo. A necessidade de subespécies não invalidou completamente o modelo gênero-espécie. Acho que podemos configurar modelos onde podem se tornar mais específicos sobre a identidade do que quando começamos, mas não ficarão completamente desatualizados.
CAS: O que faz do CAS a organização certa para tratar com curadoria esses dados fragmentados?
Há uma natureza autossustentável que surge quando você se torna uma autoridade mundial em algum assunto. Se você considerar as substâncias químicas, ninguém questiona o CAS REGISTRY. É o lugar de autoridade. Há algumas outras coleções de substâncias, mas estamos posicionados como organização de uma maneira que a maioria das outras organizações não está. Fazemos parte da Sociedade Americana de Química, nossa missão não é apenas ser rentável, nossa missão é facilitar a ciência. Temos as pessoas, o conhecimento e o espaço para lidar com os dados da ciência da vida e organizá-los da mesma forma que fizemos com o CAS REGISTRY. Acho que se não formos o espaço de referência para proteínas quando este projeto estiver concluído, será uma falha de nossa parte. É o que vamos fazer.
O desejo de chegar a um acordo sobre um conjunto considerável de identidades nas ciências da vida é bastante universal e é um problema que já resolvemos na química de pequenas moléculas. Os cientistas da vida procuram um conjunto claro de identidades e que as relações entre elas sejam definidas de forma que possam organizar os dados em torno daquela estrutura. Nós nos vemos entrando nessa complexidade e organizando o caos. Quando estivermos nos estágios avançados, as pessoas aceitarão que conhecemos todas as proteínas realmente importantes para a maioria das pessoas e falaremos sobre elas de forma que a maioria das pessoas conseguirá utilizar. Quando não encontram uma proteína em nossa coleção, eles chamam a nossa atenção para podermos adicioná-la em vez de iniciar seu próprio banco de dados totalmente separado. É isso que pretendemos, não apenas ter uma coleção de modelos de autoridade, mas ser uma autoridade no espaço das ciências da vida.
CAS: Como o trabalho que vocês fazem hoje difere do que já foi feito?
Acho que, em muitos espaços científicos, as pessoas resolvem um problema para si mesmas e para os seus colegas, localmente, de uma maneira que funciona para elas. Criam um banco de dados contendo as identidades das coisas interessantes para elas, descritas de uma forma que elas entendem, e as informações sobre elas. Enquanto isso, alguém em uma área ligeiramente sobreposta, que faz parte do mesmo trabalho e parte de um trabalho diferente, está escolhendo maneiras diferentes de falar sobre essas identidades e reunindo informações diferentes. Então, começamos a ver projetos unirem alguns desses espaços menores para sincronizar todas as pessoas e facilitar a descoberta além dessas fronteiras. Então isso já está acontecendo nas ciências da vida, mas não houve uma abordagem para reunir uma grande quantidade disso com um conjunto unificador de identidades.
O objetivo é chegar a um ponto onde seja possível informar seu alvo proteico, sem saber se ele é membro de três ou quatro vias biológicas, mas quando encontrar essa identidade nesse conjunto de informações, você verá agora todas as conexões. Além disso, você também poderá descobrir que ele está sendo usado como um biomarcador para o estado de uma doença ou como resultado de um tratamento. Poder agregar todas as informações de diversos lugares em torno de uma identidade, que depois pode ser encontrada e utilizada, cria um valor que não era acessível anteriormente.
Há muitas pequenas organizações que agregam uma peça do quebra-cabeça. Há a ontologia de doenças, o Uniprot tenta organizar proteínas e o NCBI conta com um banco de dados de organismos. Cada um deles é um modelo de autoridade em si, mas não estão conectados em nenhum lugar de nenhuma maneira útil, é preciso ir até um e depois até o outro. Realmente pretendemos montar um conjunto unificado de dados que você possa acessar e encontrar todos os dados das ciências da vida conectados e harmonizados. Para fazer isso, temos que adotar a visão da proteína do Uniprot, a visão da proteína do Ensemble e a visão da proteína do CAS REGISTRY, e temos que harmonizar tudo em uma visão única e em um único conjunto de identidades. A partir disso, você teria a referência de todas essas coleções menores. É maior que a soma das partes quando estão conectadas, porque revela coisas que você não conseguiria encontrar antes.
Queremos ser o banco de dados de ciências biológicas mais abrangente do mundo. Queremos resolver todos os problemas e desafios que os nossos clientes enfrentam e eles estão enfrentando essa necessidade de modelos de autoridade nas ciências da vida.
CAS: Vocês sofreram alguma resistência por parte dos outros bancos de dados existentes ao entrar nesse espaço?
Não se pode concordar com todos. Em algum momento, surge a necessidade de exercer uma autoridade e fazer algumas escolhas. É difícil discordar de algo bem-estabelecido e arraigado, e tentaremos não fazer isso ao longo do caminho. Não vamos convencer todos a começarem a chamar tudo de algo diferente do que estão acostumados, mas queremos aprimorar isso.
O princípio é fácil: alinharemos os bancos de dados existentes. Mas na prática é certamente mais difícil fazer essas escolhas. Se duas bases de dados utilizam palavras diferentes para a mesma coisa, podemos escolher uma ou outra, ou escolher algo novo e tentar melhorar ambas. Parece muito difícil, eu sei, mas sentimos que a dificuldade de chegar lá é exatamente o valor que vamos agregar ao espaço e exatamente o que queremos entregar aos clientes.
Certamente não queremos alienar as pessoas que usam bancos de dados existentes e encontram valor neles. O que gostaríamos de fazer é agregar mais valor e contribuir com o que já existe. Ainda não conversamos sobre o que outros curadores pensam sobre isso, então ainda não sabemos como eles se sentem sobre isso!
Na verdade, os cientistas envolvidos na curadoria são uma minoria. Então de certa forma não são eles as pessoas com quem precisamos nos preocupar, já que procuramos ajudar a maioria. E o que ouvimos de muitos cientistas é que estão enfrentando problemas para acessar os dados de que precisam.
Com certeza! Conversei recentemente com um cientista que criou um banco de dados de informações sobre anticorpos. Ele disse que fez isso não porque queria organizar os dados de anticorpos, mas porque precisava de dados de anticorpos para poder executar seus modelos preditivos. Acho que essa é a situação de muitos cientistas, um impedimento no caminho da pesquisa, e é isso que pretendemos corrigir.
CAS: Se você tivesse uma varinha mágica para mudar alguma coisa no processo de descoberta de medicamentos, o que mudaria?
Minha solução seria usar as mesmas palavras para significar a mesma coisa. Se conseguíssemos fazer isso, seria muito mais fácil. Grande parte deste exercício consiste em utilizar as palavras que os cientistas usam para descrever algo, encontrar a identidade correta e depois vincular as palavras a essa identidade. Se pudéssemos restringir a linguagem e fazer com que todos concordassem, poderíamos pular essa parte.
Para mim seria ter mais pessoas que entendessem de modelos de autoridade e que tivessem a visão e a paixão para tentar criá-los de maneira útil. Mesmo dentro de uma organização que o apoia, ainda passo muito do meu tempo explicando às pessoas por que são necessários e qual é o valor. Embora seja gratificante defender isso, acaba desviando um pouco do que mais gosto, que é realmente trabalhar com dados e construir coisas.