Formación y transparencia en el mundo de la IA

Como describimos en nuestro artículo anterior, la IA sin datos de entrenamiento completos y de alta calidad es como un coche sin motor: queda bien, pero no sirve de mucho. La transparencia de la IA es igualmente importante para nuestros usuarios, por lo que nuestro objetivo es informarles con precisión de cuándo y dónde se utiliza la IA para que puedan tomar decisiones fundamentadas.

Un riesgo bien conocido de la IA generativa es la "alucinación", un escenario en el que el modelo crea datos que suenan realistas, a veces con citas falsificadas, pero que son completamente incorrectos. Estas alucinaciones no se pueden tolerar en I+D, por lo que se deben tomar medidas para evitarlas.

En este artículo, analizaremos cómo ocupa CAS una posición única para tender un puente entre la IA y los descubrimientos científicos. Hablaremos de cómo hemos aprovechado estratégicamente la IA, minimizando las alucinaciones y priorizando los datos de entrenamiento de calidad, para proporcionar a nuestros usuarios información crítica que impulse sus investigaciones.

Datos de entrenamiento

Los datos precisos son un requisito en la I+D científica. Los resultados de un experimento o una prueba pueden determinar si un medicamento llega al mercado o si se debe reformular toda una línea de productos.

Los datos de entrenamiento son un corpus seleccionado que se utiliza para entrenar un modelo de IA. Los datos pueden facilitar que el modelo identifique patrones, aprenda tareas o haga predicciones. Los modelos solo son tan buenos como sus datos; si entran malos datos, saldrán malos datos también.

Durante más de 100 años, CAS ha sido la fuente autorizada de información química, con científicos internos que seleccionan la colección de datos químicos más completa del mundo. Ahora, ampliamos nuestros conocimientos en catalogación para desarrollar modelos de IA que contribuyan a los avances científicos. Nuestros clientes dependen de nosotros para ofrecer datos fiables y coherentes. Asegurarnos de que los datos de entrenamiento catalogados por expertos son igualmente fiables contribuye a garantizar que el rendimiento sea coherente y esté en consonancia con las expectativas de nuestros clientes.

Respuestas reales, sin alucinaciones

A muchos de nosotros, lo primero que nos viene a la mente al pensar en la IA son chatbots que generan respuestas, que pueden ser incorrectas en función de la calidad de su fuente. ¿Qué pasa si las respuestas están catalogadas, verificadas y organizadas por expertos en la materia? En este caso, la IA se puede utilizar para explorar y descubrir información de una forma más ágil, que además genera confianza.

Transparencia

A lo largo de nuestro proceso para reinventar la búsqueda y el descubrimiento científicos, hemos incorporado los comentarios de nuestros clientes a nuestra planificación; un tema clave ha sido la confianza. Las nuevas innovaciones con IA son emocionantes, pero ofrecen resultados que a menudo no son reproducibles, cambian de forma abrupta con pequeñas modificaciones de los datos entrantes y funcionan como una «caja negra» sin explicación de lo que se ha hecho o cómo se han generado los resultados. Por esa razón, los usuarios desconfían de los resultados científicos producidos por muchas de las herramientas de IA.

Mantener la confianza de los usuarios en nuestro contenido y nuestras soluciones es fundamental. Aunque podemos tomar medidas para minimizar la falta de fiabilidad en la interacción del LLM entre el usuario y nuestros datos, el modelo es inherentemente propenso a la variabilidad. La reticencia a probar las funciones mejoradas con IA puede mitigarse siendo transparentes sobre dónde se utiliza la IA en el producto y proporcionando vías alternativas obvias para encontrar la información que buscan los usuarios.

SearchSense en CAS SciFinder

Entonces, ¿dónde encaja CAS SciFinder? Al igual que la población en general, los investigadores científicos se beneficiarán de dedicar menos tiempo a buscar entre grandes cantidades de información, lo que supone una gran ineficiencia para la comunidad científica. Hemos creado una serie de mejoras de búsqueda basadas en IA en CAS SciFinder, que hemos denominado SearchSense, para facilitar la tarea y agilizar la búsqueda de información, manteniendo la integridad científica.

Durante los últimos doce meses, CAS ha estado creando el mayor motor de búsqueda de información científica autorizado, completo y fiable, desarrollado por científicos y para científicos. SearchSense combina nuestra colección de química de primera clase con la IA para proporcionar a los investigadores respuestas más rápidas sin comprometer la precisión.

Principios básicos

Cuando comenzamos a incorporar la IA en CAS SciFinder, había una serie de normas fundamentales que no queríamos comprometer, por lo que nuestras soluciones debían cumplir los siguientes principios:

Dar prioridad a la precisión en la entrega de contenidos.
Mantener la velocidad de respuesta de la búsqueda.
Preservar la confidencialidad de los datos de los clientes.

Cómo funciona SearchSense

SearchSense es único porque utiliza la IA para interpretar la intención de la búsqueda en lugar de generar respuestas. Al comprender la intención de la consulta de un usuario, CAS SciFinder puede dirigir a los usuarios a las respuestas pertinentes y a los datos de apoyo que ya se han catalogado con esmero, conforme a los estándares de fiabilidad y corrección de CAS. La precisión en la interpretación de la intención depende en gran medida de un corpus de entrenamiento sólido y de calidad. Nuestro conjunto de datos de entrenamiento de consultas de búsqueda se basa en una colección de más de diez mil puntos de datos creados por expertos de CAS. Abarca todas las diferentes disciplinas científicas cubiertas por nuestro contenido, lo que requiere un gran esfuerzo para mantener el rendimiento en todas las áreas. Sin embargo, hemos visto que añadir más datos, aunque sean unos pocos centenares de puntos de datos, supone un beneficio sinérgico en la precisión general.

Arquitectura y rendimiento del modelo

Los datos de entrenamiento se utilizaron para entrenar un modelo de IA con el fin de determinar la intención de búsqueda de las consultas. La velocidad y la precisión dependen del tamaño del modelo utilizado y, aunque los modelos con más parámetros suelen ser más precisos, las investigaciones han demostrado que los modelos más pequeños con casos de uso específicos y datos de entrenamiento de calidad pueden producir una precisión aceptable¹. Utilizamos un modelo de 7000 millones de parámetros, considerablemente más pequeño que algunos de los modelos más grandes (más de 1 billón de parámetros). Los datos de entrenamiento de alta calidad hicieron que la precisión del modelo pequeño siguiera siendo aceptable y nos permitieron mantener un rendimiento de búsqueda sólido.

CAS SciFinder utiliza un potente algoritmo de búsqueda para encontrar los resultados más pertinentes, pero está diseñado a medida y no utiliza un lenguaje de consulta estándar. Debido a la naturaleza propietaria de nuestra arquitectura de búsqueda, necesitábamos entrenar el modelo de IA para que produjera un lenguaje que nuestro sistema pudiera entender para ejecutar la búsqueda correspondiente. De este modo pudimos lograr el objetivo de combinar la interpretación de consultas habilitada por IA y los complejos resultados del motor de búsqueda propietario. Este enfoque nos permite ofrecer datos pertinentes a los usuarios con menos tiempo y esfuerzo.

Seguridad y privacidad de los datos

Somos conscientes de la naturaleza sensible de las investigaciones de nuestros clientes, por lo que la confidencialidad de los datos es importante para nosotros. Todos los modelos que hemos desarrollado son propietarios y se alojan en nuestras instalaciones, de modo que ningún dato sale de nuestro control. Haga clic aquí para obtener más información sobre el uso ético de la inteligencia artificial en CAS.

Conclusión

CAS SciFinder se compromete a facilitar el éxito de la investigación y los descubrimientos científicos, al tiempo que mantiene la confianza que nuestros clientes valoran. Con el lanzamiento de SearchSense en CAS SciFinder, hemos tomado medidas para garantizar que aprovechamos las nuevas y potentes tecnologías de una manera más inteligente. Nuestros expertos, nuestra colección de contenidos de primera clase y nuestra tecnología trabajan juntos para aportar más beneficios a nuestros usuarios y allanar el camino para un mayor avance en la investigación y el desarrollo científicos.

‍