机器学习接受合成生物学:革命算法可以为您迅速生物工程
伯克利实验室科学家Tijana Rapojevic(左)和赫克尔科西亚马丁去年努力工作的机械和统计建模,数据可视化和代谢地图。
Berkeley Lab科学家开发了一个可以大大加快设计新生物系统的能力的工具。
如果您在美容常规中享用素食汉堡,那么味道像肉类或使用的合成胶原蛋白 - 这两种产品都在实验室中的“种植” - 那么你就会受益于合成生物学。这是一个具有潜力的领域,因为它允许科学家设计生物系统,例如工程微生物以产生癌症斗争剂。然而,传统的生物工程方法缓慢而艰苦,试验和错误是主要方法。
现在,能源部劳伦斯伯克利国家实验室(Berkeley Lab)的科学家制定了一种新工具,适应机器学习算法,以系统地引导开发的综合生物学需求。创新意味着科学家不必花几年为细胞的每个部分的细致了解以及它所做的事情;相反,通过一组有限的培训数据,算法能够预测细胞的DNA或生物化学中的变化将如何影响其行为,然后对下一个工程周期提出建议以及用于获得所需目标的概率预测。
“这些可能性是革命性的,”伯克利实验室的生物系统和工程(BSE)部门的研究员Hector Garcia Martin表示,他们领导了研究。“现在,生物工程是一个非常缓慢的过程。创造抗疟疾药物的150人患有150人的人青蒿素。如果您能够在几周或几个月内为规范创建新的单元格而不是年份,您可以真正彻底改变与生物工程能做什么。“
与BSE数据科学家Tijana Rapojevic和国际研究人员一起工作,该团队开发并展示了一个名为自动推荐工具(ART)的专利申请算法,在最近发表在自然通信期刊上发表的一对论文中描述。机器学习允许计算机从大量可用的“培训”数据中“学习”后进行预测。
在“艺术:一台机器学习自动推荐工具为合成生物学,“由Rapojevic领导,研究人员呈现了算法,该算法适用于合成生物领域的特殊性:小型训练数据集,需要量化不确定性和递归循环。该工具的功能是通过先前的代谢工程项目的模拟和历史数据来证明,例如改善可再生生物燃料的生产。
在“组合机械和机械学习模型的预测工程和优化色氨酸代谢的优化”中,团队使用艺术来指导代谢工程过程增加色氨酸的生产,氨基酸与各种用途,由酵母种类叫做酿酒酵母酿酒酵母或面包师的酵母。该项目由Jie Zhang of The Novo Nortisk Body of Denmark技术大学德国·Zhang基金会生物大学生物奥斯卡特·斯氏彼得森领导,与伯克利实验室和旧金山的创业公司Teselagen的科学家合作。
为了进行实验,它们选择了五个基因,每个基因由不同的基因启动子和细胞内的其他机制控制,总共代表生物途径的近8,000个潜在组合。然后,丹麦的研究人员在这些途径中获得了250个途径的实验数据,只表示所有可能组合的3%,并且数据用于训练算法。换句话说,艺术学会了与输入(基因表达)相关的输出(氨基酸产生)。
然后,使用统计推断,该工具能够推断剩余的7,000加组合的每个组合将如何影响色氨酸生产。该设计最终推荐的色氨酸产量增加106%,在最先进的参考应变中,超过17%的最佳设计,用于训练模型的最佳设计。
“这是一个明确的演示,即通过机器学习的生物工程是可行的,并且如果可扩展,则破坏性。我们为五个基因做了它,但我们相信它可以为全基因组完成,“Garcia Martin表示,敏捷的生物化学会成员,也是联合生物能源研究所(jbei)的定量代谢建模团队主任,Doe Bioenergy研究中心;两者都支持这项工作的一部分。“这仅仅是开始。有了这一点,我们已经表明,正在进行代谢工程的替代方法。算法可以自动执行研究的常规部分,同时将时间投入到科学努力的更具创造性的部分:决定重要问题,设计实验,并巩固所获得的知识。“
需要更多数据
研究人员表示,他们对获得结果所需的少数人感到惊讶。然而,为了真正实现合成生物学的潜力,他们认为算法需要更多的数据训练。Garcia Martin描述了仅在其婴儿期的合成生物学 - 相当于工业革命在1790年代的地方。“只有通过投资自动化和高吞吐量技术,您可以利用真正彻底改变生物工程所需的数据,”他说。
Rapojevic补充说:“我们提供了一个小型数据集的方法和演示;潜在的应用可能是对大量数据的访问提供革命性的。“
国家实验室的独特能力
除了实验数据的缺乏外,Garcia Martin还表示其他限制是人力资本 - 或机器学习专家。鉴于今天我们世界的数据爆炸,许多领域和公司正在竞争机器学习和人工智能的有限数量的专家。
Garcia Martin指出,如果国家实验室提供的团队环境包围,生物学的知识不是绝对的先决条件。例如,Rapojevic在应用数学和生物学中没有背景的博士学位。他说:“在这里两年来,她能够用我们的多学科生物学家,工程师和计算机科学家的多学科团队努力合作,并在合成生物领域产生差异,”他说。“以传统的方式进行代谢工程,她将不得不花五年或六年,只是在开始自己的独立实验之前学习所需的生物学知识。”
“国家实验室提供了专业化和标准化可以繁荣的环境,并在他们标志的大型多学科团队中结合,”Garcia Martin说。
合成生物学有可能对几乎每个部门产生重大影响:食品,医学,农业,气候,能源和材料。根据各种市场报告,全球合成生物市场目前估计约为40亿美元,预计将增加2025年的超过20亿美元。
“如果我们可以自动化代谢工程,我们可以争取更大的目标。我们可以为治疗或生物修复的术语工程师进行微生物。Garcia Martin表示,我们可以在肠道中工程术来生产用于治疗自闭症的药物以治疗自闭症,或者在环境中将废物转化为生物燃料的微生物体。““机器学习和基于CRISPR的基因编辑的组合使得能够更有效地收敛到所需的规格。”
参考:TijanaRapojević,Zak Costello,Kenneth工人和Hector Garcia Martin,2020年9月25日,TijanaRapojević,Zak Costero,Kenneth工作者和Hector Garcia Martin。
10.1038 / s41467-020-18008-4
该研究是由能源部支持的Agile Biofoundry和Jbei的一部分,并获得了Novo Nordisk基金会和欧洲委员会的支持。艺术可用于GitHub上的许可。