A IA e o aprendizado de máquina estão mostrando grande potencial para aumentar a produtividade da pesquisa em muitas áreas. No entanto, ainda há muitos desafios bem-documentados sobre a implementação dessas tecnologias em aplicações de P&D e muitas oportunidades para aproveitar os esforços já realizados para ter ainda mais sucesso. Na realidade, um analista do Gartner estima que até 85% dos projetos impulsionados por IA não estejam atendendo a seus objetivos. Como falei em outra publicação, eu e muitos outros acreditamos que uma das principais lacunas que em geral afeta as taxas de sucesso é a qualidade dos dados.
Como medir o impacto da qualidade de dados
A pergunta que a equipe do CAS recentemente se propôs a responder é: podemos medir de forma quantificável o impacto da qualidade dos dados no sucesso das previsões algorítmicas? (Alerta de spoiler) Podemos, e publicamos recentemente dados de um de nossos experimentos iniciais nesse estudo de caso.
Baixe o estudo de caso agora para ver os detalhes e resultados completos do experimento.
Para criar um teste eficaz, nossos cientistas de dados identificaram um artigo publicado recentemente em um periódico que destacava o desafio de classificação do aprendizado de máquina. O objetivo inicial do estudo era prever com algoritmos a atividade biológica de quase 10 mil componentes em relação a cinco alvos diferentes. No artigo original, os autores usaram as impressões digitais de conectividade estendida (ECFP, na sigla em inglês) e estabeleceram um descritor molecular estabelecido e popularmente usado para prever a atividade dos 10 mil componentes. A equipe do CAS olhou a abordagem de aprendizado de máquina específica usada no artigo (SVM) para ver como substituir ECFPs pelas impressões digitais e os descritores aprimorados e patenteados do CAS afetaria a precisão dos resultados. O impacto inicial foi significativo, com um aumento médio no rigor da previsão de mais de 30% em todos os alvos.
Combinar a excelência técnica com dados de alta qualidade para maior sucesso
Já enfrentei desafios de dados na minha carreira de cientista de dados por quase 20 anos que passei trabalhando na aplicação de tecnologias digitais, incluindo o do aprendizado de máquina, à saúde em várias organizações, incluindo NIH, consultorias e duas startups. O atrativo da ciência de dados é a incrível gratificação e orgulho de criar um algoritmo bem-treinado que ofereça previsões que realmente ajudem a tomar decisões melhores, que torne o tempo de comercialização mais rápido e que forneça insights únicos que um humano teria deixado passar despercebido. No entanto, a realidade é que a tecnologia é apenas uma pequena parte da batalha. Ajustar sua estratégia de dados pode, muitas vezes, ter o mesmo impacto, ou até um impacto maior, no sucesso dos seus projetos.
O valor exclusivo da coleção de conteúdo incomparável do CAS
Por essa razão, a coleção de dados do CAS foi um motivador importante que me atraiu quando entrei para a organização. Tenho um ponto de vista único sobre o valor dos dados dessa qualidade e amplitude para impactar o sucesso do projeto de IA e aprendizado de máquina. A coleção de dados do CAS é limpa, normalizada e aprimorada com conexões semânticas que foram desenvolvidas por cientistas há mais de 100 anos. Com reações e substâncias químicas, biossequências, propriedades, palavras-chave e outras informações extraídas de periódicos globais, patentes e muitas outras fontes diárias, nossa coleção atende aos requisitos comuns dos 4 Vs das aplicações de Big Data: volume, variedade, veracidade e velocidade.
É um prazer enorme sermos parceiros dos líderes de pesquisa e tecnologia nos segmentos de P&D pelos engajamentos de serviços do CAS para ajudá-los a superar os desafios de dados para impulsionar o sucesso de projetos. Quer saber mais sobre como podemos ajudar? Entre em contato com minha equipe para discutir as necessidades específicas e desafios de seu projeto.