Desafios e oportunidades na criação de construtos de autoridade nas ciências da vida

CAS Science Team

Especialistas em dados do CAS, Mark Schmidt, Jeff Wilson e Nicole Stobart
Especialistas em dados do CAS, Mark Schmidt, Jeff Wilson e Nicole Stobart

Uma conversa com Nicole Stobart, Jeff Wilson e Mark Schmidt, do CAS

Construtos e identificadores de autoridade têm sido usados pelo CAS no setor químico há quase 100 anos, como a base da nossa curadoria e indexação, as melhores do mundo. Agora, nossa equipe de ciências da vida busca criar as mesmas ferramentas de indexação para uma nova indústria. Neste artigo, conversamos com Nicole Stobart, Gerente de Capacidades Sênior em ciências da vida, e com Jeff Wilson, Ph.D., Gerente Sênior de Ciência de Dados e Mark Schmidt, Líder em Data Steward (Administração de dados), sobre como eles estão abrindo esse novo caminho usando construtos de autoridade.

CAS: Como vocês descreveriam construtos de autoridade?

Jeff: Construtos de autoridade, na nossa perspectiva, estão fortemente focados na identidade. Em qualquer domínio, sejam proteínas, substâncias químicas ou ácidos nucleicos, você precisa conseguir identificar as entidades de maneira inequívoca. Historicamente, na nossa coleção química, nós temos o CAS REGISTRY®, e ele é nossa autoridade clássica. Com o CAS REGISTRY, descrevemos diferentes produtos químicos de forma inequívoca e sabemos que cada vez que encontramos a mesma coisa em nossa curadoria, ela é identificada dessa forma. Um exemplo simples é o acetaminofeno. Se você chamar de acetaminofeno, Tylenol ou paracetamol, todos serão identificados como o mesmo químico.

CAS: Por que os construtos de autoridade são tão importantes para os cientistas da vida?

Nicole: Nossos construtos de autoridade atuais funcionam bem para moléculas pequenas, mas, o que acontece com as proteínas ou enzimas? Sim, existem sequências que podem ser associadas a elas, mas uma sequência com uma alteração de aminoácido é uma entidade diferente? Reconhecemos que os pesquisadores estão tendo dificuldades com isso. Existem diferentes empresas e outras entidades que tentaram organizar isso, mas ninguém fez uma organização completamente oficial dos produtos biológicos. Quando estávamos tentando levar informações biológicas aos clientes, descobrimos que não era possível sem primeiro organizá-las com autoridade real. Não se trata apenas de coletar montanhas e montanhas de dados, mas também de organizá-los com autoridade e garantir que a maneira de organizá-los será a maneira que o resto do mundo gostaria de vê-los organizados.

Mark: No espaço das ciências da vida, estamos tentando identificar todas as coisas importantes e concordar sobre o que são e como chamá-las. Isso é realmente uma autoridade. No nosso negócio tradicional, se eu tiver uma substância química, posso conferir nossa coleção e adicionar novas informações sobre ela. Estamos tentando viabilizar o mesmo processo com as ciências da vida, coisas como proteínas e enzimas, e para fazer isso, precisamos primeiro concordar sobre a identidade delas.

Jeff: Depende do pesquisador e de onde ele está, mas acho que podemos ser muito mais consistentes e muito mais confiáveis nos dados que apresentamos se pudermos descrever as coisas de forma inequívoca. No nível mais simples, isso remonta ao que sempre fizemos: organizar os dados para pesquisa, de modo que quando alguém acessar nossas ferramentas de pesquisa, como o CAS SciFindern, não importa se vai chamá-lo de câncer ou sarcoma, sabemos a relação entre esses termos. Você não precisa pesquisar todos esses termos diferentes para encontrar os dados, tratamos disso em segundo plano e você pode usar apenas um dos termos para encontrar tudo.

Além de apenas pesquisar e acessar, depois que entra em implementações mais sofisticadas, como gráficos de conhecimento, e descobre relacionamentos importantes, é difícil construir um gráfico de conhecimento preciso se as entidades estiverem espalhadas pelos nós. Se eu tiver interesse em uma proteína como alvo, quero que todos os dados dessa proteína sejam armazenados naquele único nó e, em seguida, que outras entidades relacionadas fiquem em nós individuais. Caso contrário, terei um gráfico de conhecimento extremamente complexo, onde haverá 15 nós para esta proteína, 12 para aquela doença e 7 para a mesma substância. Eu crio esse gráfico complexo e não consigo dizer que existem basicamente 3 entidades ali, que estão relacionadas de maneira previsível porque tais identidades não foram definidas antecipadamente.

CAS: Como vocês definiriam a curadoria no CAS?

Mark: As pessoas tendem a usar o termo curadoria com dois significados diferentes. Primeiro, existe a ingestão e agregação de dados, que normalmente não chamamos de curadoria aqui no CAS. Depois, há o tipo de curadoria com a qual o CAS tem uma longa história, onde os cientistas analisam fontes originais de informação e aplicam esforço intelectual para extrair e melhorar essa informação e disponibilizá-la de forma mais estruturada.

Jeff: A maioria dos nossos cientistas está envolvida na curadoria descrita pelo Mark, em que extraem informações importantes de fontes primárias e depois as melhoram, padronizam e conectam a outros pontos de dados. Mas, existe outra camada além dessa . Temos um grupo separado de pessoas que fazem a curadoria das coleções de autoridade, que observam as novas informações à medida que elas chegam e decidem: trata-se de algo novo? Ou não? Como devemos organizar isso? Como as informações estão relacionadas? Que terminologia devemos usar? Não são as pessoas que extraem as informações da literatura primária que tomam essas decisões. Pelo contrário, são pessoas que fazem a curadoria da coleção de autoridade.

Mark: O principal é que a autoridade nunca termina. Estão sempre sendo adicionadas coisas novas, descobertas recentemente, ou coisas interessantes, e também adicionamos novos sinônimos para manter as informações úteis.

CAS: Qual seria a vantagem dos construtos de autoridade por curadoria?

Jeff: Após começar a agregar identidades e terminologia com construtos de autoridade, a identificação de novas instâncias fica mais simples. Após coletar todos os nomes da entidade, você pode criar um construto de autoridade para ver e combinar instantaneamente. Os sinônimos facilitam a curadoria.

Mark: Os construtos de autoridade ajudam a organizar e agregar todas as informações em volta deles. Então, no caso das proteínas, podemos não chamar essa proteína exatamente da mesma forma que você a chamaria, mas se soubermos como você a chama e como nós a chamamos, poderemos compilar todas as informações sob a mesma identidade. Isso nos permite reunir todas as informações pertinentes.

CAS: É possível aproveitar a IA para ajudar a criar ou fazer curadoria dos construtos de autoridade?

Nicole: Precisamos ter certeza de que organizamos e identificamos com autoridade tudo sobre o qual estamos falando para viabilizar a curadoria por IA. É realmente difícil confiar em qualquer tipo de aprendizado de máquina ou em dados com curadoria por máquina se não estiver tudo organizado manualmente ou pelo menos idealizado e identificado de forma confiável.

Jeff: Temos uma filosofia geral sobre a IA e como ela se relaciona com nossos dados, no sentido de que aproveitamos a tecnologia mais avançada possível para aprimorar as capacidades humanas. Temos centenas de cientistas que fazem o trabalho de curadoria, e se você olhar o que eles fazem hoje, é muito mais sofisticado do que faziam há 30 anos. Cada vez que adotamos uma nova tecnologia, nós a usamos para permitir que os humanos realizem um trabalho mais sofisticado. Aproveitamos a tecnologia de processamento de linguagem natural e de aprendizado de máquina para ajudar a identificar documentos e insights, mas, depois, tudo isso é apresentado aos humanos, que tomam a decisão final sobre o que é importante ou relevante e como deve ser organizado.

Por outro lado, após criarmos os dados estruturados, fazemos o mesmo com a tecnologia e as soluções de IA. Tentamos aproveitar a melhor tecnologia para mostrar a você o que você pediu e tudo o que está relacionado. Podemos usar tecnologia preditiva para ajudá-lo a planejar sínteses, temos mecanismos de IA que ajudam a prever qual seria a técnica anterior e você pode fazer pesquisas do tipo booleano e tentar encontrar coisas. Assim, pegamos nossos dados, que são altamente estruturados, e acrescentamos tecnologia de IA em camadas. Não usamos a IA para substituir pessoas.

CAS: Como o CAS abordará a definição e identificação de entidades biológicas?

Mark: Então, é nesse ponto que começamos a falar sobre semântica de identidade. É um problema realmente difícil e complicado nas ciências da vida, e temos plena consciência disso, tratamos caso a caso, todos os dias. Podemos não conseguir alcançar a perfeição, mas faremos o nosso melhor. Faremos escolhas racionais e justificáveis, que serão úteis para as pessoas na área das ciências da vida. Nem sempre agradaremos a todos, mas seremos previsíveis e claros sobre isso, para que as pessoas possam usar o sistema que entregamos de forma confiável.

Quando chegamos a questões como “A diferença de um nucleotídeo é uma nova identidade ou não?”, essa é uma escolha a ser feita. Mas, se três polimorfismos diferentes de nucleotídeo único se tornarem uma identidade em vez de três, precisamos descrever todas essas três diferenças e associá-las à única identidade que apresentarmos. Portanto, mesmo quando decidimos que coisas diferentes se enquadram na mesma identidade, todas as informações ainda poderão ser descobertas, conectadas e acessadas.

Inicialmente, escolheremos a semântica da nossa identidade e a definiremos. Depois, à medida que novas informações chegarem, decidiremos: “Esta é uma nova identidade ou é um acréscimo a uma identidade existente?” Queremos utilizar o máximo de poder computacional possível, mas, em todos os momentos, nossa fonte final de verdade para essas decisões serão os humanos que mais entendem do assunto. É assim que vamos entregar um serviço confiável.

Jeff: Queremos criar antecipadamente um conjunto de regras claro, consistente e abrangente. Isso pode parecer arbitrário para as pessoas que ainda não tentaram definir entidades e agregar informações, mas descobrimos que quando se está organizando informações, é preferível pecar por excesso de clareza e consistência. Você pode encontrar nuances da ciência em casos específicos, mas implementar regras para tudo faz com que as coisas se espalhem e isso dificulta ainda mais o processo de encontrar e coletar todas as informações. Em vez disso, é melhor criar uma regra que funcione para 99% de tudo. Na Química, às vezes algum cientista entra em contato conosco e diz: “Vejo que vocês descreveram isso dessa maneira no CAS REGISTRY, mas vocês estão errados, tenho dados que dizem que é melhor descrever de uma maneira diferente”, e geralmente respondemos que organizamos o conteúdo em torno da descoberta. E esse é o ponto: a curadoria precisa levar você de forma consistente aos dados que você procura, mesmo que faltem algumas nuances científicas ao longo do caminho.

CAS: Vocês estão usando estrutura ou função para criar as identidades para ciências da vida?

Mark: Muitas entidades biológicas, especialmente as proteínas, são mais função que estrutura, mas muitas vezes temos uma combinação de ambas. Na química, é fácil criar construtos de autoridade baseados inteiramente na estrutura, mas não é a mesma coisa para as ciências da vida. Temos várias autoridades diferentes que temos que resolver: proteínas, anticorpos, organismos etc. Cada uma delas terá de ser abordada de maneira única. Temos de nos afastar das identidades baseadas apenas na estrutura à medida que avançamos nas ciências da vida de uma forma que não precisávamos fazer no passado.

CAS: Como vocês planejam enfrentar a longevidade da definição por função quando a função biológica muda com o tempo e com novas pesquisas?

Jeff: Sempre tentamos preparar as coisas para o futuro e não acho que possamos prever onde as ciências biológicas estarão daqui a 10 anos. Mas, à medida que criamos construtos consistentes, incorporamos um pouco de flexibilidade e extensibilidade neles. A chave para isso será reconhecer quando devemos continuar a usar o construto atual e quando devemos criar um novo construto com base em um novo ramo da ciência. As pessoas vão continuar a descrever proteínas, mas pode surgir algum tipo de subcategoria que precise da criação de novos construtos de autoridade.

Mark: Acho que se você fizer um trabalho eficaz para obter uma semântica de identidade razoável no início, então estará preparado para um futuro em que, provavelmente, os cientistas subdividirão uma identidade em algumas identidades mais específicas. Se pensarmos na nomenclatura de gêneros e espécies de organismos, isso funcionou por muito tempo. A necessidade de subespécies não invalidou completamente o modelo gênero-espécie. Acho que podemos definir construtos que possam ser mais específicos sobre identidade do que quando começamos, mas não ficarão completamente desatualizados.

CAS: O que torna o CAS a organização certa para agregar esses construtos de autoridade fragmentados em ciências da vida?

Jeff: Existe uma natureza autossustentável que surge quando você se torna uma autoridade mundial em algum assunto. Se você considerar as substâncias químicas, ninguém questiona o CAS REGISTRY. É o lugar de autoridade. Existem algumas outras coleções de substâncias, mas estamos posicionados como organização de uma maneira que a maioria das outras organizações não está. Fazemos parte da Sociedade Americana de Química, nossa missão não é apenas ser rentável, nossa missão é facilitar a ciência. Temos as pessoas, o conhecimento e o espaço para lidar com os dados da ciência da vida e organizá-los da mesma forma que fizemos com o CAS REGISTRY. Acho que, ao final deste projeto, se não formos a autoridade em proteínas, então teremos falhado. Isso é o que vamos fazer.

Mark: O desejo de chegar a um acordo sobre um conjunto significativo de identidades nas ciências da vida é bastante universal e é um problema que já resolvemos na química de moléculas pequenas. Os cientistas da vida procuram um conjunto claro de identidades e que as relações entre elas sejam definidas de forma que possam organizar os dados em torno daquela estrutura. Nós nos vemos entrando nessa complexidade e organizando o caos. Quando estivermos em estágios avançados disso, as pessoas aceitarão que conhecemos todas as proteínas que são realmente importantes para a maioria das pessoas e falaremos sobre elas de uma forma que a maioria das pessoas conseguirá utilizar. Quando não encontram uma proteína em nossa coleção, chamam a nossa atenção para podermos adicioná-la em vez de iniciar seu próprio banco de dados totalmente separado. É isso que pretendemos, não apenas ter uma coleção de construtos de autoridade, mas ser uma autoridade na área das ciências da vida.

CAS: Como o trabalho que vocês estão fazendo hoje difere do que já foi feito?

Mark: Acho que, em muitos espaços científicos, as pessoas resolvem um problema para si e para os seus colegas, localmente, de uma maneira que funciona para elas. Criam um banco de dados que contém as identidades das coisas interessantes para elas, com as informações de que precisam, descritas de uma forma que elas entendem. Enquanto isso, alguém em uma área similar, que está fazendo um trabalho similar e distinto, está escolhendo maneiras diferentes de falar sobre essas identidades e reunindo informações diferentes. Assim, começamos a ver projetos unirem alguns desses espaços menores para colocar todas as pessoas na mesma página e facilitar a descoberta além das fronteiras. Então, isso já está acontecendo nas ciências da vida, mas não houve uma abordagem para reunir uma grande parte disso em um conjunto de identidades.

O objetivo é chegar a um ponto onde seja possível informar seu alvo proteico, sem saber se ele é membro de três ou quatro vias biológicas, mas quando encontrar essa identidade nesse conjunto de informações, você verá agora todas as conexões. Além disso, você também poderá descobrir que ele está sendo usado como um biomarcador para o estado de uma doença ou como resultado de um tratamento. Ser capaz de agregar todas as informações de diferentes lugares em torno de uma identidade, que depois pode ser encontrada e usada, cria um valor que não era acessível anteriormente.

Jeff: Existem muitas pequenas organizações por aí que agregam uma peça do quebra-cabeça. Existe a ontologia de doenças, o Uniprot tenta organizar proteínas e o NCBI possui um banco de dados de organismos. Cada um deles é um construto de autoridade em si, mas eles não estão conectados em nenhum lugar de nenhuma maneira útil, é preciso ir até um e depois até o outro. Estamos procurando montar um conjunto unificado de dados que você possa acessar e encontrar todos os dados das ciências da vida conectados e harmonizados. Para fazer isso, temos que adotar a visão da proteína do Uniprot, a visão da proteína do Ensemble e a visão da proteína do CAS REGISTRY, e temos que harmonizar isso em uma visão única e em um único conjunto de identidades. A partir disso, todos terão acesso a todas as coleções menores. Conectar tudo gera um resultado maior do que a soma das partes, porque serão reveladas coisas que antes não seria possível descobrir.

Nicole: Queremos ser o banco de dados de ciências biológicas mais abrangente do mundo. Queremos resolver todos os problemas ou desafios que os nossos clientes enfrentam, e eles estão enfrentando a necessidade de construtos de autoridade nas ciências da vida.

CAS: Vocês sofreram alguma resistência por parte dos outros bancos de dados existentes ao entrar nesse espaço?

Mark: Nem sempre podemos concordar com todos. Em algum momento, surge a necessidade de exercer uma autoridade e fazer algumas escolhas. É difícil discordar de algo bem-estabelecido e arraigado, e tentaremos não fazer isso ao longo do caminho. Não vamos convencer todos a começarem a chamar tudo de algo diferente do que estão acostumados, mas queremos aprimorar isso.

O princípio é fácil: alinharemos os bancos de dados existentes. Mas, na prática, é certamente mais difícil fazer essas escolhas. Se duas bases de dados usam palavras diferentes para a mesma coisa, podemos escolher uma ou outra, ou escolher algo novo e tentar melhorar ambas. Parece muito difícil, eu sei, mas sentimos que a dificuldade de chegar lá é exatamente o valor que vamos agregar ao espaço e exatamente o que queremos entregar aos clientes.

Nicole: Certamente não queremos alienar as pessoas que usam bancos de dados existentes e veem valor neles. O que gostaríamos de fazer é agregar mais valor e contribuir com o que já existe. Ainda não falamos com outros curadores para saber o que eles pensam sobre isso, então, veremos como eles se sentem sobre o assunto.

Jeff: Na verdade, os cientistas que estão envolvidos na curadoria são uma minoria. Então, de certa forma, não são eles as pessoas com quem precisamos nos preocupar, já que procuramos ajudar a maioria. E o que ouvimos de muitos cientistas é que eles estão tendo problemas para acessar os dados de que precisam.

Nicole: Com certeza! Conversei recentemente com um cientista que criou um banco de dados de informações sobre anticorpos. Ele disse que fez isso não porque queria organizar os dados de anticorpos, mas porque precisava de dados de anticorpos para poder executar seus modelos preditivos. Acho que esta é a situação de muitos cientistas, é um impedimento no caminho da pesquisa, e é isso que pretendemos corrigir.

CAS: Se vocês pudessem usar uma varinha mágica e consertar algo sobre construtos de autoridade, o que seria e que impacto teria?

Mark: A minha solução seria usar as mesmas palavras para significar a mesma coisa. Se conseguíssemos fazer isso, seria muito mais fácil. Uma grande parte deste exercício consiste em utilizar as palavras que os cientistas usam para descrever algo, encontrar a identidade correta e depois vincular as palavras a essa identidade. Se pudéssemos restringir a linguagem e fazer com que todos concordassem, poderíamos pular essa parte.

Jeff: Para mim, seria ter mais pessoas que entendessem de construtos de autoridade e que tivessem visão e a paixão para tentar criá-los de maneira útil. Mesmo dentro de uma organização que o apoia, ainda passo muito do meu tempo explicando às pessoas por que as coisas são necessárias e o valor delas. Embora seja gratificante promover isso, me distrai um pouco da minha parte favorita, que é trabalhar com dados e desenvolver coisas.