尽管许多机器学习计划的投资不断增加,但却因数据集多样性有限而失败。特别是在某些很少有人涉足的化学领域,其预测的准确性和多样性通常会降低。 通过比较不同的数据集对训练模型的影响,我们可以对合成路线模型的预期覆盖范围和新颖性做出更有力的判断,并设计数据集以探索先前很难进行研究的科学领域。
在这项研究中,拜耳公司的科学家利用美国化学文摘社 (CAS) 人工标引的数据集来提高他们对合成路线模型的预测能力。 对罕见反应类型的预测准确率显著提高了 32%。这一能力的提升将带来对化学全新的认识。
尽管许多机器学习计划的投资不断增加,但却因数据集多样性有限而失败。特别是在某些很少有人涉足的化学领域,其预测的准确性和多样性通常会降低。 通过比较不同的数据集对训练模型的影响,我们可以对合成路线模型的预期覆盖范围和新颖性做出更有力的判断,并设计数据集以探索先前很难进行研究的科学领域。
在这项研究中,拜耳公司的科学家利用美国化学文摘社 (CAS) 人工标引的数据集来提高他们对合成路线模型的预测能力。 对罕见反应类型的预测准确率显著提高了 32%。这一能力的提升将带来对化学全新的认识。