
Calidad de datos: El ingrediente no tan secreto de la IA y el aprendizaje automático
Si los algoritmos de IA o aprendizaje automático no están a la altura de sus expectativas, ¿pueden los datos ser los culpables?
La adopción de IA está creciendo rápidamente
La promesa de la inteligencia artificial siempre pareció más bien un estado futuro, pero la realidad es que muchas empresas ya están adoptando iniciativas de IA. Particularmente en el ámbito de la I+D científica. En los últimos años, ha habido un enorme aumento de las iniciativas de aprendizaje automático en IA en todo, desde los modelos QSAR hasta la genómica. Según una encuesta de 2018, la adopción de IA aumentó drásticamente del 38 % en 2017 al 61 % en 2018. Esto se reflejó en diversas industrias, entre ellas la de la atención médica, la fabricación y los servicios financieros. Sin embargo, los primeros en adoptarla notaron que uno de los mayores desafíos para lograr una correcta implementación tenía que ver con los datos, específicamente respecto al acceso, la protección, la integración y la preparación de datos para iniciativas de IA.
Peligro: Desafíos futuros relacionados con los datos
Si bien las empresas están realizando fuertes inversiones en el talento necesario para diseñar e implementar algoritmos de IA, el éxito de las iniciativas depende en gran medida de los datos de entrenamiento con los cuales fueron creados y probados. Muchas empresas tienen dificultades para administrar grandes volúmenes de datos sin estructurar que son necesarios para respaldar proyectos y traducirlos en conjuntos de datos de entrenamiento categorizados y utilizables, necesarios para alimentar algoritmos. Algunas empresas están saturadas de datos, pero otras buscan datos científicos especializados que no están disponibles en el dominio público. Por lo general, los conjuntos de datos que están disponibles implican mucho tiempo para obtenerlos y transformarlos para el propósito previsto. Desde taxonomías y clasificaciones hasta la conexión de conjuntos de datos dispares, las iniciativas de IA requieren la preparación de grandes cantidades de datos para alcanzar la promesa del aprendizaje automático.
Descargue nuestro informe técnico sobre la transformación digital rentable en I+D científica-técnica para obtener más información o comuníquese con nosotros para que analicemos sus necesidades específicas.
Pague ahora o pague después
Un científico de datos dedica hasta el 80 % de su tiempo a la preparación y el análisis de datos. Existe una variedad de repositorios públicos de datos científicos, pero todos contienen desafíos inherentes, entre los cuales se incluyen los errores de transcripción, las unidades mal rotuladas y el lenguaje de patentes demasiado complejo. Otro desafío clave es traducir el contenido en otros idiomas. Las patentes, por ejemplo, se publican en más de 60 idiomas. La capacidad de traducir, extraer, conectar y normalizar rápidamente los datos relevantes es invaluable para el éxito de los proyectos de IA. Si las afinidades están desfasadas en 3 o 6 órdenes de magnitud, los algoritmos podrían no generar una predicción precisa. Cuando los científicos de datos usan datos integrales normalizados, de calidad controlada y que tienen una conexión semántica correcta y confiable, pueden destinar su tiempo y energía a optimizar los algoritmos en lugar de destinarlo a preparar los datos.
Desafortunadamente, los equipos que buscan datos por lo general utilizan fuentes públicas o dedican el menor tiempo posible a rotular y preparar los datos. Cuando los equipos trabajan con datos científicos sin estructurar, patentes en 60 idiomas diferentes o esquemas de reacciones complejos, les resulta difícil clasificar y relacionar este tipo de datos de manera significativa. Los costos de oportunidad de la preparación de datos, así como la exactitud e integridad de los datos, deben incluirse en la ecuación cuando se evalúan las oportunidades de mejora del aprendizaje automático. Si las predicciones derivadas de la IA no cumplen las expectativas, existe una gran probabilidad de que los datos mismos deriven en resultados fallidos.
¿Qué son los datos de alta calidad?
Como suele decirse, la calidad importa, ya sean mariscos, salud o datos de entrenamiento. No coman sushi de oferta ni tampoco usen datos de baja calidad para alimentar sus algoritmos. Para que los datos de alta calidad puedan aprovecharse al máximo, deben estar limpios y normalizados con las conexiones y los significados semánticos correctos. Este nivel de calidad no se logra fácilmente. Los científicos expertos de CAS tienen un gran conocimiento sobre el lenguaje de las patentes y las tendencias emergentes en publicaciones, además de conocimientos de lenguas extranjeras para filtrar la información relevante. Su experiencia en taxonomías, conexiones semánticas y categorización de datos son capacidades fundamentales para crear y mantener un conjunto de datos de alta calidad.
El beneficio de invertir en datos de alta calidad
Nuestro equipo de CAS tiene una serie de proyectos activos en los que se usa nuestra recopilación de contenidos para diversas aplicaciones de IA y aprendizaje automático. De hecho, recientemente presentamos una aplicación de patente basada en el trabajo de uno de nuestros talentosos científicos de datos, Jaron Maxson. Él estaba interesado en aprovechar el aprendizaje automático y la recopilación de contenidos de CAS para resolver desafíos en el ámbito de los materiales. Específicamente, quería comprobar si un algoritmo podía predecir con exactitud los usos funcionales de polímeros recientemente desarrollados. Los investigadores están creando nuevos polímeros con propiedades únicas, pero les cuesta encontrar las mejores aplicaciones para estos compuestos. Si lo logra, el algoritmo de Jaron podría aumentar potencialmente el ROI en la investigación de polímeros al maximizar las aplicaciones comerciales del nuevo desarrollo.
Debido a las leyes de combinatoria, los polímeros son inherentemente uno de los grupos que presenta mayores desafíos para cualquiera de los sistemas de clasificación. El otro gran desafío con los polímeros es establecer una definición medible de la función del polímero. No hay una metodología reconocida para asignar funciones a los polímeros. Aquí es donde el sistema de clasificación tradicional de CAS pudo proporcionar un nuevo tipo de definición para una característica bastante desorganizada. La representación de funciones de polímeros mediante campos de la química predeterminados dio lugar a una novedosa aplicación de nuestros datos indexados de manera tradicional.
Hay millones de polímeros existentes y teóricos con cientos de propiedades potenciales, pero Jaron pudo tomar un pequeño conjunto de datos de propiedad de alta calidad que habían sido indexados intelectualmente de la bibliografía por los científicos de CAS y pudo crear un modelo de predicción para aplicaciones. Los resultados son prometedores. El algoritmo demostró una exactitud de predicción estadísticamente significativa del 66 % cuando se utilizaron al menos tres propiedades tomadas de estos polímeros.
A pesar de la validación temprana del concepto, esto demuestra tres puntos importantes:
- La calidad, las clasificaciones únicas y el alcance histórico de los datos de CAS son valiosos para brindarles a los científicos una nueva manera de definir valores antes desorganizados.
- Mediante un conjunto de entrenamiento para modelos diverso e integral se obtendrán mejores predicciones con menos preparación de datos.
- La recopilación integral de datos de CAS se puede personalizar fácilmente para satisfacer las necesidades de algoritmos específicos. Desde datos de propiedad, polímeros, reacciones en publicaciones y patentes hasta disertaciones, las posibilidades son infinitas.
Si sus esfuerzos de IA o de aprendizaje automático no alcanzan sus expectativas y sus equipos enfrentan desafíos relacionados con los datos, nos encantaría hablar con usted para ver cómo podemos aprovechar nuestra experiencia en datos y aprendizaje automático para poder lograr avances rápidos, mayores eficiencias y mejores decisiones. ¡Contáctenos hoy mismo!
Contenido destacado
About CAS
CAS, a division of the American Chemical Society, partners with R&D organizations globally to provide actionable scientific insights that help them plan, innovate, protect their innovations, and predict how new markets and opportunities will evolve. Leverage our unparalleled content, specialized technology, and unmatched human expertise to customize solutions that will give your organization an information advantage.