科学家用新的符号系统更容易地传达聚合物
在Bigsmiles中,聚合物片段由由Crly括号包围的重复单元列表表示。使用常规微笑语法编码重复单元的化学结构,但是附加键合描述符,用于指定不同的重复单元如何连接到形成聚合物。这种简单的语法设计将使大分子编码在各种化学中。
具有用于分子结构的紧凑且坚固的结构的基于结构的标识符或表示系统是有效分享和传播研究界内结果的关键能力。这种系统还展示了机器学习和其他数据驱动研究的基本基础。虽然对小分子进行了实质性进展,但聚合物界已经努力提出有效的代表系统。
对于小分子,基本前提是每个不同的化学物质对应于明确定义的化学结构。这不适用于聚合物。聚合物是本例上随机分子,其通常具有化学结构的分布。这种困难限制了对小分子开发的所有确定性表示的适用性。在发布9月12日在ACS中央科学,MIT,Duke大学和西北大学的研究人员报告了一个新的代表系统,能够处理聚合物的随机性质,称为Bigsmiles。
“Bigsmiles在纸上的Connor Coley Phd'19解释说明了聚合物的数字表示中的重大挑战。“聚合物几乎总是通过随机过程产生的多种化学结构的集合,因此我们不能使用与小分子的结构写下相同的策略。”
麻省理工学院的Olsen Lab,与Craig Lab(Duke),Johnson Lab(MIT),Kalow Lab(Northwestern)和Jensen Lab(MIT)一起开发了一个新的线条符号,以扩展到流行的简化分子 - 输入行入口系统(微笑)。
新的线路符号Bigsmiles能够表示具有紧凑型文本字符串的聚合物,可以用作聚合物数据库的标识符。
浏览图Tzyy-Shyang Lin
共同作者是COLEY; MIT化学工程布拉德利D. Olsen副教授; Warren K. Lewis of Chemical Engineering klavs F.Jensen教授MIT;西北大学化学朱莉娅A. Kalow助理教授;化学副教授Jeremiah A. Johnson在麻省理工学院;威廉·米勒化学教授杜克大学斯蒂芬斯蒂芬·克雷格;西北大学的研究生Eliot伍兹;杜克大学研究生Zi Wang;研究生王王麻省理工学院;研究生Haley K. Beech在麻省理工学院;访问研究员Hidenobu Mochigase AT MIT;在麻省理工学院,林林林林研究生。
有几种线条符号来传达分子结构,简化的分子输入排进入系统(微笑)是最受欢迎的。微笑通常被认为是最人性化的变种,到目前为止最广泛的软件支持。在实践中,微笑提供了一种适合作为化学数据的标签的简单表示以及研究人员之间的数据交换的存储器紧凑标识符。作为基于文本的系统,微笑也是一种自然的适合许多基于文本的机器学习算法。这些特性使微笑成为将化学知识转化为机器友好形式的完美工具,并且已经成功地应用于小分子性能预测和计算机辅助合成规划。
然而,聚合物通过这种结构语言具有抵制描述。这是因为诸如微笑的大多数结构语言设计用于描述是定义明确定义的原子图的分子或化学片段。由于聚合物是随机分子,因此它们没有独特的微笑表示。这种缺乏统一的命名或分析剂的聚合物材料公约是减缓聚合物信息技术领域的发展的主要障碍之一。虽然聚合物信息学的开拓努力,例如聚合物基因组项目,但已经证明了微笑在聚合物信息学中的延长的有用性,新化学的快速发展和材料信息学和数据驱动的研究的快速发展使得需要普遍适用聚合物的命名公约重要。
“机器学习提供了加速化学开发和发现的巨大机会,”国家科学基金会(NSF)化学司代表副主任代表副主任。“这种扩展的标签结构的工具,具体设计为解决聚合物固有的独特挑战,大大提高了化学结构数据的可搜索,并为我们带来了一个更接近数据革命的步骤。”
研究人员创造了一种新的基于结构的构建体,作为对高度成功的微笑表示的补充,这可以治疗聚合物材料的随机性。由于聚合物是高摩尔质量分子,因此该构建体被命名为Bigsmiles。在Bigsmiles中,聚合物片段由由Crly括号包围的重复单元列表表示。使用常规微笑语法编码重复单元的化学结构,但是附加键合描述符,用于指定不同的重复单元如何连接到形成聚合物。这种简单的语法设计将使大分子编码在各种不同的化学物质上,包括均聚物,随机共聚物和嵌段共聚物,以及各种分子连通性,从线性聚合物到环聚合物到偶数支链聚合物。如在微笑中,Bigsmiles表示是紧凑的,独立的文本字符串。
“用Bigsmiles标准化聚合物结构的数字表示将鼓励聚合物数据的共享和聚合,随着时间的推移,提高模型质量并加强其使用的好处,”杰森·克拉克表示,可再生化学品和材料开放创新布斯基姆,没有与该研究有关的。“Bigsmiles对该领域来说是一个重要的贡献,因为它解决了灵活的系统来数字地代表复杂的聚合
物结构。”Clark补充说:“塑料行业在循环经济的背景下面临的挑战始于循环经济的来源原料并继续通过寿命终身管理。解决这些挑战需要具有冗长的开发周期的聚合物基材料的创新设计。人工智能和机器学习的进步已经表明了利用金属合金和小型有机分子的应用,激励塑料行业寻求平行方法的应用。“他说,Bigsmiles数字代表促进了对结构性能关系的评估,他说,最终加速了将有助于循环经济的聚合物结构或组合物的收敛性。
“众多复杂的聚合物结构可以通过三个新的基本操作员和原始微笑符号的组成来构建,”奥尔森说,“整个化学,材料科学和工程领域”,包括聚合物科学,生物材料,材料化学,以及许多生物化学,基于具有随机结构的大分子。这基本上可以被认为是如何编写大分子结构的新语言。“
“我兴奋的一件事是数据进入最终如何直接与用于制作特定聚合物的合成方法捆绑在一起,”克雷格说,“因为那样,有机会实际捕获和处理更多关于分子的信息通常可从标准表征中获得。如果可以完成这一点,它将启用各种各样的发现。“
###
这项工作由NSF通过分子优化网络化学中心,成为化学创新的NSF中心的化学中心。
参考:“Bigsmiles:基于基于结构的线条符号,用于描述MacromoLeCules“通过Tzyy-Shyangule,Connor W. CoNey,HateNobu Mochigase,Haley K. Beech,Wencong Wang,Zi Wang,艾略特林,斯蒂芬L.Craig,Jeremiah A. Johnson,Julia A. 。Kalow,Klavs F.Jensen和Bradley D. Olsen,2019年9月12日,ACS Central Science.doi:
10.1021 / ACSCENTSCI.9B00476