机器之心专栏
机器之心编辑部
继药物研发机器学习平台TorchDrug之后,时隔一年,Mila唐建团队开源了新的蛋白质机器学习平台TorchProtein,这是目前第一个专门针对蛋白质研究的开源机器学习库。
蛋白质是生物体的重要组成成分。理解蛋白质的结构与生化性质,对于药物研发和人类健康有着不可估量的意义。传统基于生物实验的蛋白质研究不仅周期漫长,而且开销巨大。相比之下,机器学习技术则能大幅降低蛋白质研究的周期和开销,为新药的研发带来革命性的影响。然而,基于机器学习的蛋白质研究,涉及到生物领域知识、机器学习算法、并行实现等多个方面,具有较高的入门门槛。市面上也缺少合适的开源库来支持这方面的研究,致使机器学习技术在蛋白质研究中发展受阻。
近日,Mila唐建团队联合英伟达、英特尔、IBM以及蛋白质设计初创公司百奥几何共同开源了蛋白质机器学习平台TorchProtein。TorchProtein在此前开源平台TorchDrug的基础上,为蛋白质打造了一套专用的模块组件。TorchProtein不仅提供了处理蛋白质的数据结构、主流的算法模型,还包括了标准数据集和任务评测接口。其所有接口均有很强的可扩展性,满足各类机器学习算法开发的需要。无论是图机器学习、蛋白质语言模型还是自监督训练,都能轻松基于TorchProtein实现。