O volume de conhecimento desenvolvido pelos cientistas explodiu, com publicações científicas dobrando a cada nove anos. Os pesquisadores agora se esforçam para navegar na enorme complexidade da pesquisa disponível. As tecnologias que prometem oferecer maior inovação e insights mais detalhados a partir da literatura científica são o aprendizado de máquina (AM) e a inteligência artificial (IA), mas como as organizações devem entrar nesse mundo novo?
Recentemente, participei de um painel de debates para explorar a descoberta controlada por dados de materiais e produtos químicos. Apresentado conjuntamente pelo CAS e pela Citrine Informatics, o painel também contou com a presença de Erik Sapper, professor assistente especialista em design de materiais computacionais na Universidade Estadual Politécnica da Califórnia e Gustavo Guzman, gerente de engenharia de dados da Citrine Informatics. Falamos sobre como as organizações podem começar a utilizar o AM para ter sucesso real em projetos de P&D.
Combinar a intuição aos dados é muito mais eficaz do que apenas a intuição. Espero que essas recomendações ajudem você a ter sucesso na sua jornada de informática, mesmo que sua organização esteja apenas começando a usar o AM ou já estejam implementando um programa de AM.
Confira a gravação completa do painel de debates para ver informações mais detalhadas e exemplos.
Etapa 1: sintetize o objetivo corporativo
Para alcançar o valor de qualquer iniciativa de informática, é importante definir com clareza o que sua organização está tentando fazer. Por exemplo, de acordo com quais medidas sua empresa tem que ser mais precisa ao prever um resultado específico? É preciso poupar tempo ou dinheiro para ser competitivo em um processo ou uma atividade? Se você definir o objetivo corporativo em termos quantificáveis e precisos, você terá mais chances de aplicar as ferramentas, os métodos e os dados certos para ter sucesso.
Abordagens de AM bem-sucedidas ainda precisam de conhecimento humano significativo e uma base sólida de dados. A AM não tem ideias novas por conta própria. Mas, ele pode ajudar químicos e cientistas de materiais a trabalhar melhor e com mais eficiência pela identificação de padrões de dados subjacentes que seriam complicados ou impossíveis de serem descobertos por uma pessoa. Quando alinhados aos principais motivadores de negócios, o AM pode informar decisões de pesquisa em toda a empresa, validando ou rejeitando ideias, permitindo que cientistas automatizem suas atividades experimentais de design ou determinem quando continuar ou terminar um projeto no laboratório.
Etapa 2: foque na identificação e na coleta de dados em termos do quê e do porquê
Além de ter um entendimento claro do problema comercial, as organizações que mais observam ganhos do AM entendem e preparam seus dados com antecedência, além de criar e avaliar modelos em relação às principais métricas de desempenho. Na previsão e descoberta habilitadas pelo AM, primeiro considere o que você deseja aprender que seja central à questão, seja uma imagem, uma estrutura química ou a formulação de polímero. Depois, pense por que você quer isso, por exemplo, para prever a densidade molecular ou a força tênsil de uma formulação. Para amparar o aprendizado de seu modelo específico, é importante ter dados suficientes para que seu modelo possa alcançar a precisão e os resultados que você busca.
Etapa 3: priorize a qualidade e a variedade de dados
Um modelo depende dos dados que o alimentam. Com a variedade e o volume certos de dados de alta qualidade, cientistas podem obter insights de seus modelos para ajudar a aumentar o sucesso de seus projetos no laboratório. Os dados científicos apresentam desafios particulares, e é preciso ter conhecimento para considerar suas nuances e complexidades. Por exemplo, os dados são frequentemente integrados a partir de várias fontes com diferentes representações e nomenclaturas. Isso causa erros quando diferentes moléculas são indevidamente combinadas em um único registro ou quando a mesma molécula é desagregada em vários registros. Esse desafio pode ser superado pelo desenvolvimento de uma iniciativa de gerenciamento de dados unificada, que englobe planejamento, execução e tarefas, como a normalização de informações. Baixe o estudo de caso para saber como o CAS ajudou uma grande empresa química a desenvolver uma estratégia de gerenciamento de dados unificada.
Além de garantir a qualidade dos dados, é importante verificar se você tem a variedade de dados necessária para alcançar seu objetivo comercial. Treinar um modelo somente com base em dados internos pode limitar o produto do algoritmo a um domínio estreito e impedir a possibilidade de generalizar o modelo para novos dados. Acrescentar mais variedade a um conjunto de recursos oferece a um modelo uma visão abrangente do cenário científico e, em especial, oferece a capacidade de realizar previsões mais inovadoras e valiosas. Baixe o estudo de caso para saber como o CAS organizou de modo personalizado dados para expandir os conjuntos de treinamento e gerar previsões de AM inovadoras.
Etapa 4: repense sua abordagem ao gerenciamento de dados
O aprendizado de máquina exige novas considerações sobre como os dados são coletados e armazenados. Simplesmente aprimorar o local onde os dados são armazenamentos não é o suficiente. Conforme destacou Gustavo no painel de debates, as necessidades de armazenamento de dados do AM podem ter requisitos especiais. Os laboratórios devem garantir que seus dados possam ser lidos pela máquina, computados e armazenados com contexto suficiente para serem interoperáveis. Ao definir um material, por exemplo, é preciso ter contexto suficiente para saber se ele pode ser comparado a outro ou se a fonte comercial é relevante. A modelagem de dados deve capturar todo o contexto. Capturar ligações semânticas entre pontos de dados pode ser útil para seus produtos finais.
Por causa dessa necessidade de ter dados em grande quantidade e bem estruturados, as organizações que cogitam usar o AM em seus fluxos de trabalho devem analisar sua arquitetura de informações e infraestrutura de TI, já que elas podem não ser suficientes para as abordagens modernas de informática. A falta de investimento na preparação, modelagem e governança adequadas de dados será um fardo para seus cientistas de dados, o que pode desacelerar significativamente seus projetos de AM e fazer com que cientistas de dados percam tempo realizando tarefas de engenharia de dados.
Etapa 5: itere conforme o progresso
Seja ambicioso, mas comece aos poucos. Permaneça concentrado no problema comercial que você se propôs a resolver. Você pode perder oportunidades de refinar e solucionar problemas de seus projetos se começar com objetivos de aprendizado extremamente complexos que não são amparados pelos seus dados. Os conjuntos de conteúdos podem ser adicionados e ampliados à medida que você aprimora seu modelo, obtém insights e expande seus recursos de AM. O AM iterativo e sequencial oferece maneiras de atingir os objetivos de design experimental com mais rapidez. Além disso, conforme destaca Gustavo, lembre-se de buscar a ajuda de parceiros especializados e experientes quando necessário: o CAS oferece vários conjuntos de dados organizados e adequados para AM e a Citrine Informatics oferece uma plataforma de IA para informática de materiais e de química.
Conclusão
Em geral, as organizações na área de pesquisa em química e materiais têm muito a ganhar com o AM. Previsões eficazes precisam de dados consistentemente formatados, de alta qualidade e com integridade confiável em um volume suficiente de variabilidade apropriada. Os grupos de pesquisa devem considerar proativamente como criar e armazenar conjuntos de dados e como usar com eficiência o conhecimento disponível para navegar as complexidades dos dados científicos. Gustavo, Erik e eu recorremos a nossa experiência e o nosso conhecimento para debater em detalhes o potencial do AM. Preste atenção nos insights para ajudá-lo na sua jornada de sucesso na informática.
Serviços personalizados do CAS já estão aumentando o sucesso de projetos de AM para muitas organizações. Quer saber mais sobre como podemos ajudar? Entre em contato conosco hoje.