¿Por qué son necesarios nuevos sistemas de autoridades para los datos de las ciencias biológicas?
Conversación con Nicole Stobart, el Dr. Jeff Wilson, y Mark Schmidt de CAS

CAS lleva casi cien años usando los identificadores y sistemas de autoridades en el sector químico como pilar de su liderazgo mundial en el ámbito de la selección y la indexación. Nuestro equipo de ciencias biológicas está creando ahora las mismas herramientas de indexación para una nueva industria. En este artículo, hablamos con Nicole Stobart, directora sénior de Capacidades en Ciencias Biológicas; Dr. Jeff Wilson, subdirector de Estrategia de Contenido y Autoridad; y Mark Schmidt, administrador especializado en Datos, sobre cómo están forjando este nuevo camino utilizando sistemas de autoridades.
CAS: ¿Qué son los sistemas de autoridades y por qué son importantes para la investigación en el ámbito de las ciencias biológicas?
Desde nuestro punto de vista, los sistemas de autoridades se centran esencialmente en la identidad. En cualquier dominio, ya sea el de las proteínas, las sustancias químicas o los ácidos nucleicos, necesitamos identificar las entidades de una forma única. En nuestra recopilación de química, contamos con CAS REGISTRY®, que es nuestra autoridad clásica. En CAS REGISTRY, queremos describir de una forma única diferentes sustancias químicas y tener la seguridad de que cada vez que encontremos lo mismo en nuestra selección se habrá identificado de la misma manera. Un ejemplo sencillo sería el del acetaminofén. Da igual si se denomina acetaminofén, Tylenol o paracetamol: todos están identificados como la misma sustancia química.
CAS: ¿Cómo definiría la catalogación de datos en CAS?
La gente suele usar el término «selección» para dos cosas diferentes. En primer lugar, está el proceso de ingesta y agrupación de los datos, que no solemos denominar «selección» en CAS. Por otra parte, está el tipo de selección con la que CAS tiene una larga experiencia, en la que los científicos estudian las fuentes de información originales y realizan un esfuerzo intelectual para extraer y mejorar esa información y ponerla a disposición de los usuarios de una forma más estructurada.
La mayoría de nuestros científicos participan en la selección que ha descrito Mark, en la que extraen información esencial de fuentes primarias y la mejoran, la estandarizan y la conectan con otros datos. Pero hay otra capa más. Tenemos un grupo de personas independiente que selecciona las recopilaciones de autoridades analizando la nueva información a medida que llega y decidiendo: ¿esto es nuevo o no? ¿Cómo lo organizamos? ¿Qué relación hay entre estos elementos? ¿Qué terminología usamos? Esas decisiones no las toman las personas que se encargan de extraer información de la literatura primaria, sino las que seleccionan la recopilación de autoridades.
La clave del asunto es que la autoridad nunca está completa. Se añaden constantemente cosas nuevas que se acaban de descubrir o que despiertan interés y también se incorporan nuevos sinónimos para que siga siendo útil.
CAS: ¿Cuál dirían que es la ventaja de los sistemas de autoridades para la selección?
Cuando se empieza a añadir identidades y terminología con sistemas de autoridades, se simplifica la identificación de nuevos elementos. Una vez que se han recopilado todos los nombres de una entidad, se puede crear un sistema de autoridades para verla y encontrar coincidencias al instante. Los sinónimos facilitan la selección.
Los sistemas de autoridades ayudan a organizar y agrupar toda la información en torno a ellos. Así, en el caso de las proteínas, es posible que no hayamos dado a la proteína el mismo nombre que el usuario, pero si sabemos qué nombre ha utilizado él y qué nombre hemos usado nosotros, podemos recopilar toda la información en la misma identidad, lo que nos permite agrupar toda la información.
CAS: ¿Se puede usar la IA para crear sistemas de autoridades o para realizar una selección con ellos?
Para que la selección mediante IA sea viable, tenemos que asegurarnos de que hemos organizado e identificado de manera fiable lo que nos interesa. Es muy difícil confiar en cualquier clase de datos seleccionados automáticamente o mediante aprendizaje automático si no se ha organizado todo manualmente o si al menos no se ha analizado e identificado de una manera fiable.
En lo tocante a la IA y a su relación con nuestros datos, tenemos una filosofía general, que es la de usar la tecnología más avanzada para mejorar las capacidades humanas. Contamos con centenares de científicos que llevan a cabo el trabajo de selección y, si se analiza lo que hacen hoy en día, se puede ver que es mucho más sofisticado que lo que hacían treinta años atrás. Cada vez que adoptamos una nueva tecnología, la usamos para ayudar a los humanos a hacer un trabajo más sofisticado. Usamos la tecnología del procesamiento en lenguaje natural y el aprendizaje automático para facilitar la identificación de documentos e informaciones, pero después todo eso se presenta a los expertos humanos, que toman la decisión final sobre lo que es importante o relevante y sobre la manera de organizarlo.
Una vez que hemos creado esos datos estructurados, hacemos lo mismo con la tecnología y las soluciones de IA en el otro extremo. Intentamos aprovechar la mejor tecnología para mostrar a los usuarios lo que han pedido y todo lo relacionado con eso. Podemos usar la tecnología predictiva para ayudar a planificar síntesis, contamos con motores de IA que ayudan a predecir la información ya existente sobre una técnica y se pueden realizar búsquedas booleanas para encontrar lo que se desea. Por tanto, tomamos nuestros datos, muy estructurados, y añadimos una capa de tecnología de IA, pero no usamos la IA para reemplazar a las personas.
CAS: ¿Cómo va a abordar CAS la definición e identificación de entidades biológicas?
Es aquí donde empezamos a hablar de semántica de la identidad. Es un problema muy complejo y difícil en las ciencias biológicas y médicas, y somos totalmente conscientes de eso, así que tratamos ese problema caso por caso cada día. Puede que el resultado no sea perfecto, pero vamos a hacer todo lo posible por conseguirlo. Vamos a tomar decisiones razonables y defendibles que resulten útiles en el espacio de las ciencias biológicas y médicas. No contentaremos a todo el mundo todo el tiempo, pero vamos a ser predecibles y claros para que la gente pueda usar nuestro sistema con confianza.
Cuando llegamos a preguntas como: «¿Una diferencia de un nucleótido es una nueva identidad o no?», tenemos que tomar una decisión. Pero si tres polimorfismos diferentes de un solo nucleótido se consideran una identidad en lugar de tres, es imprescindible describir esas tres diferencias y asociarlas a la identidad única que presentamos. De modo que, incluso cuando decidimos que varias cosas diferentes forman parte de una misma identidad, toda la información se debe poder encontrar, debe estar conectada y debe ser accesible.
Inicialmente, elegiremos la semántica de la identidad y definiremos esas cosas. Después, a medida que vaya llegando nueva información, decidiremos: «¿Esto es una nueva identidad o se debe añadir a una identidad ya existente?». Queremos usar tanta potencia de cálculo como podamos, pero, en todo momento, nuestra fuente de verdad definitiva para esas decisiones serán los humanos que mejor conozcan esa área. Así es como vamos a ofrecer un servicio fiable.
Se trata de crear de antemano un conjunto de reglas claro, coherente y exhaustivo. A las personas que nunca han intentado definir entidades y agrupar información les parece muy arbitrario, pero nosotros hemos llegado a la conclusión de que cuando se organiza información es preferible pecar por exceso en lo tocante a la claridad y la coherencia. Se pueden encontrar matices en la información científica en casos concretos, pero implementar reglas para todo hace que las cosas terminen dispersándose y sean más difíciles de encontrar y recopilar. En lugar de eso, es mejor crear una regla que funcione para el 99 % de los casos. En el espacio químico, a veces recibimos correspondencia de un científico que nos dice: «Veo que han descrito esto de esta forma en CAS REGISTRY, pero es un error. Tengo datos que demuestran que es mejor describirlo de otra forma». Y nuestra respuesta suele ser que nuestro contenido está organizado para facilitar su descubrimiento. Y esa es la clave: la selección debe llevar de manera coherente a los datos que se están buscando, aunque al hacerlo pase por alto algunos matices científicos.
CAS: Al crear estas identidades para las ciencias médicas y biológicas, ¿usan la estructura o la función?
Para muchas entidades biológicas, en especial las proteínas, es más la función que la estructura, pero en muchos casos usamos una combinación de las dos cosas. En el campo de la química, podemos crear fácilmente sistemas de autoridades basados exclusivamente en la estructura, pero no ocurre lo mismo en el ámbito de las ciencias médicas y biológicas. Tenemos que encontrar soluciones para varias autoridades diferentes: proteínas, anticuerpos, organismos, etc. Cada una de ellas se tiene que abordar de una forma distinta. Al entrar en el terreno de las ciencias médicas y biológicas, debemos alejarnos de las identidades basadas en estructuras, algo que nunca habíamos hecho.
CAS: ¿Cómo van a abordar la cuestión de la longevidad de la definición por función, teniendo en cuenta que la función biológica cambia con el tiempo y con las nuevas investigaciones?
Siempre intentamos encontrar soluciones que sigan siendo válidas en el futuro. No creo que podamos predecir dónde estarán las ciencias médicas y biológicas dentro de diez años, pero si creamos sistemas coherentes, tendrán por definición cierto grado de flexibilidad y capacidad de ampliación.Para ello, es esencial reconocer cuándo se debe seguir usando el sistema actual y cuándo aparece una nueva rama de la ciencia que requiere un nuevo sistema. La gente no va a dejar de querer describir proteínas, pero podría surgir una nueva subcategoría de algún tipo que exigiera la creación de nuevos sistemas de autoridades.
Creo que si se hace un trabajo sólido para crear una semántica de identidad razonable al principio, el sistema está preparado para un futuro en el que es muy probable que los científicos subdividan una de las identidades en varias identidades más específicas. El sistema género-especie de nomenclatura de organismos, por ejemplo, funcionó muchísimo tiempo. La necesidad de subespecies no invalidó por completo el modelo género-especie. Creo que podemos definir sistemas que pueden llegar a tener identidades más específicas que las establecidas inicialmente, pero no quedarán totalmente desfasados.
CAS: ¿Qué hace que CAS sea la organización adecuada para catalogar estos datos fragmentados?
Se produce una especie de sostenibilidad automática cuando uno se convierte en una autoridad mundial en un campo. Si se piensa en las sustancias químicas, nadie duda de CAS REGISTRY. Es la referencia acreditada. Hay otras recopilaciones de sustancias, pero la mayoría de las organizaciones no tienen una posición en el sector comparable a la nuestra. Formamos parte de la American Chemical Society y nuestra misión no es únicamente ser rentables, es facilitar el avance de la ciencia. Contamos con el personal, los conocimientos y el espacio necesarios para estudiar los datos de las ciencias médicas y biológicas y organizarlos como lo hicimos con CAS REGISTRY. Creo que si no nos convertimos en el espacio acreditado para las proteínas cuando completemos este proyecto, no habremos cumplido nuestro propósito. Y vamos a cumplirlo.
El deseo de consenso sobre un conjunto de identidades útil para las ciencias médicas y biológicas es bastante universal y es un problema que ya hemos resuelto en el campo de la química de moléculas pequeñas. Los científicos especializados en ciencias médicas y biológicas necesitan que se defina un conjunto claro de identidades y de relaciones entre ellas para poder organizar los datos según esa estructura. Creemos que somos capaces de hacer frente a esa complejidad y poner orden en el caos. Cuando ese proceso esté suficientemente avanzado, los usuarios aceptarán que conocemos todas las proteínas que importan a la mayoría de los científicos y que hablamos de ellas de una manera que puede utilizar la mayoría de la gente. Cuando no encuentren su proteína en nuestra recopilación, nos lo harán saber para que podamos agregarla, en lugar de crear una base de datos independiente. Ese es nuestro objetivo: no solo crear una recopilación de sistemas de autoridades, sino convertirnos en una autoridad en el espacio de las ciencias médicas y biológicas.
CAS: ¿En qué se diferencia lo que están haciendo de lo que ya se ha hecho?
Creo que, en muchos espacios científicos, los investigadores resuelven un problema para ellos y para sus colegas, localmente y de una forma que les resulta útil a ellos. Crean una base de datos que contiene las identidades de las cosas que les importan, descritas de una manera que entienden, junto con información sobre ellas. Mientras tanto, en un área con cierto solapamiento, alguien que trabaja en un tema con elementos parecidos y elementos diferentes elige otras formas de hablar de esas identidades y reúne otra información. A continuación, empezamos a ver proyectos que combinan algunos de esos espacios más pequeños para armonizar el trabajo de toda esa gente y facilitar el descubrimiento más allá de los límites de los distintos campos. Eso ya está ocurriendo en las ciencias médicas y biológicas, pero no se ha puesto en marcha una estrategia para agrupar una buena parte de esa información en un conjunto unificado de identidades.
El objetivo es llegar a un lugar en el que un usuario pueda introducir la proteína que le interesa sin saber que forma parte de tres o cuatro vías biológicas y, al encontrar esa identidad en este conjunto de información, vea todas esas conexiones. Además, podría descubrir que se usa como biomarcador para un estado de una enfermedad o un resultado de un tratamiento. Poder agrupar toda la información de diferentes lugares en torno a una única identidad que se puede encontrar y utilizar crea un valor que en el pasado no estaba a nuestro alcance.
Hay muchas organizaciones pequeñas que resuelven una parte del rompecabezas. La ontología de enfermedades ya existe, Uniprot intenta organizar las proteínas y NCBI dispone de una base de datos de organismos. Cada uno de ellos es un sistema de autoridades en sí mismo, pero no están conectados de ninguna forma útil, de modo que hay que buscar en distintos sitios. Nosotros queremos crear un conjunto de datos unificado que permita encontrar todos los datos de las ciencias médicas y biológicas conectados y armonizados. Para hacerlo, debemos tomar el punto de vista de la proteína de Uniprot, el de Ensemble y el de CAS REGISTRY y unificar todo eso en un único punto de vista y un conjunto único de identidades. Pero, a partir de ahí, volveríamos a tener acceso a todas esas recopilaciones más pequeñas. Una vez conectadas, el resultado es mayor que la suma de las partes porque revela cosas que antes no se podían encontrar.
Queremos convertirnos en la base de datos de ciencias médicas y biológicas más exhaustiva del mundo. Queremos resolver los problemas y desafíos a los que se enfrentan nuestros clientes, que ahora mismo necesitan sistemas de autoridades en el campo de las ciencias médicas y biológicas.
CAS: ¿Ha habido alguna reacción negativa de las otras bases de datos al entrar en este espacio?
Es imposible estar de acuerdo con todo el mundo. En algún momento hay que ejercer cierta autoridad y tomar algunas decisiones. Es difícil discrepar de algo bien establecido y consolidado e intentaremos no hacerlo en el proceso. No vamos a convencer a todo el mundo de que debe empezar a llamar las cosas de otro modo, pero queremos ampliar la información existente.
El principio es sencillo: armonizaremos nuestra información con las bases de datos que ya existen. Pero, en la práctica, tomar esas decisiones es mucho más difícil. Si dos bases de datos usan palabras distintas para la misma cosa, podemos elegir una u otra, u optar por algo nuevo y tratar de mejorar las dos opciones. Sé que parece muy difícil, pero creemos que la dificultad para conseguirlo es precisamente el valor que vamos a aportar al espacio y lo que queremos ofrecer a los clientes.
Desde luego, no queremos contrariar a las personas que usan otras bases de datos y encuentran valor en ellas. Lo que pretendemos es añadir más valor y ampliar lo que ya existe. Todavía no hemos hablado de lo que piensan de esto otros seleccionadores, así que habrá que averiguarlo.
Los científicos que se dedican a la selección son, en realidad, una minoría, así que en cierto sentido no tenemos que preocuparnos por ellos, dado que nuestro objetivo es ayudar a la mayoría. Y lo que nos llega de muchos científicos es que les resulta difícil acceder a los datos que necesitan.
¡Exacto! Hace poco estuve hablando con un científico que ha creado una base de datos de información sobre anticuerpos. Me explicó que lo hizo no porque quisiera organizar los datos de los anticuerpos, sino porque necesitaba esos datos para ejecutar sus modelos predictivos. Creo que es una situación a la que se enfrentan muchos científicos. Es algo que obstaculiza la investigación y es eso lo que queremos resolver.
CAS: Si tuviera una varita mágica para cambiar algo en el proceso de descubrimiento de fármacos, ¿qué cambiaría?
Yo querría conseguir que la gente usara las mismas palabras para describir los mismos conceptos. Si lo lográsemos, esto sería mucho más sencillo. En gran medida, este ejercicio consiste en tomar las palabras que usan los científicos para describir algo, encontrar la identidad adecuada y conectar las palabras a esa identidad. Si pudiéramos acotar el lenguaje y hacer que todo el mundo lo consensuara, podríamos ahorrarnos todo eso.
Yo intentaría que más gente entendiera los sistemas de autoridades y tuviera la visión y la pasión necesarias para intentar crearlos de formas útiles. Incluso estando en una organización que trabaja en ese campo, yo dedico una gran parte de mi tiempo a explicar a la gente por qué son necesarios y qué valor aportan. Aunque defender estos sistemas es gratificante, me distrae un poco de mi parte favorita, que es trabajar con los datos y crear cosas.