Los modelos de aprendizaje automático diseñados para las aplicaciones de planificación de síntesis están generalmente limitados a la química que se ha visto en el entrenamiento, y la precisión y la diversidad de sus predicciones suelen ser inferiores en subespacios químicos poco poblados. Medir cómo afectan al rendimiento de los modelos entrenados diferentes conjuntos de datos nos permite realizar deducciones más sólidas sobre la cobertura y la novedad esperables para las soluciones de planificación de síntesis, además de diseñar conjuntos de datos que darán acceso a áreas de la ciencia tradicionalmente difíciles.
En este estudio, los científicos de Bayer demostraron el importante efecto que las reacciones seleccionadas por científicos en la CAS Content Collection puede tener en el poder predictivo de un modelo de planificación de síntesis. La precisión de la predicción de los resultados en clases de reacciones infrecuentes aumentó sustancialmente —un incremento de 32 puntos porcentuales— y contribuyó a mejorar la comprensión de áreas nuevas y útiles de la química.