机器学习系统使用物理来识别可居住的行星
由其行星成型气体的气体和灰尘环绕的年轻太阳恒星。图像:NASA / JPL-加州理工学院
作为努力识别遥远的行星的努力,美国宇航局建立了一项众包项目,其中志愿者搜索伸缩图像,以证明周围的碎片磁盘,这是外产的良好指标。
使用该项目的结果,麻省理工学院的研究人员现在培训了机器学习系统以搜索碎片磁盘本身。搜索需求的规模自动化:通过NASA广泛的红外测量探险家(WISE)任务累计存在近7.5亿可能的光源。
在测试中,机器学习系统同意碎片盘的人体鉴定97%的时间。研究人员还根据含有可检测的外部产前的可能性训练他们的系统来评估碎片盘。在一个描述天文学和计算中的新工作的论文中,麻省理工学院研究人员报告说,他们的系统确定了367个以前未审查的天体,作为进一步研究的特别有希望的候选人。
这项工作代表了一种不寻常的机器学习方法,这是由MIT Haystack天文台的主要研究科学家的一个纸张的合唱团Victor Pankratius的支持者。通常,机器学习系统将通过大量培训数据梳理,寻找数据的特征与人类分析师应用的一些标签之间的一致相关性 - 在这种情况下,由碎片磁盘盘旋的星星。
但Pankratius认为,在科学中,如果他们明确地纳入了一点科学的理解,机器学习系统将更有用,以帮助指导他们对相关的相关性或识别可能具有科学兴趣的规范的偏差。
“主要愿景是超越A.I.彭拉德斯说,今天是今天的重点。““今天,我们正在收集数据,我们正在尝试在数据中找到功能。您最终结束了数十亿和数十亿个功能。那么你在做什么?作为科学家,您想知道的不是计算机告诉您某些像素是某些功能。你想知道'哦,这是一个物理相关的东西,这里是物理参数。'“
课堂概念
新论文占据了Pangrius与Sara Seager,1941年的班级,大气和行星科学教授共同教授的麻省理工学院研讨会,为她的Exoplanet Research闻名。研讨会,Exoplanets的Astroinformatics,向学生推出了数据科学技术,这对于解释新的天文仪器产生的数据泛滥。掌握技术后,学生被要求将它们应用于出色的天文问题。
对于她的最终项目,航空航天研究生潭阮,选择培训机器学习系统以识别碎片磁盘的问题,新论文是该工作的产物。Nguyen是本文的第一个作者,她加入海杰,Pankratius和Laura Eckman,是电气工程和计算机科学的本科专业。
从美国宇航局众包中项目中,研究人员的光源的天体坐标是人类志愿者已被确定为特色碎片磁盘的光源。磁盘可识别为椭圆形的光线,其中心处具有稍微亮的椭圆形。研究人员还使用了明智的使命产生的原始天文数据。
为了准备机器学习系统的数据,Nguyen将其雕刻成小块,然后使用标准信号处理技术来过滤由成像仪器引起的伪像或通过环境光。接下来,她将这些块识别出具有光源的光源,并使用现有的图像分割算法来消除任何额外的光源。这些类型的程序在任何计算机视觉机器学习项目中都是典型的。
编码的直觉
但是Nguyen使用物理学的基本原则进一步修剪数据。对于一件事,她看着光源跨越四个不同频带发出的光强度的变化。她还使用标准度量来评估光源的位置,对称性和比例,建立包含在其数据集中的阈值。
除了来自美国国家航空航天局的众包的标记的碎片磁盘外,研究人员还有一个短暂的星星名单,即天文学家已被确定为可能托管外产的星球。根据该信息,其系统还推断出与外产上存在相关的碎片盘的特征,以选择367候选者进行进一步研究。
“鉴于大数据的可扩展性挑战,利用众包和公民科学为天文观测和相关对象的机器学习分类器开发培训数据集是一种创新的方式,不仅在天文学中应对挑战,而且是几种不同的数据密集型科学领域,“丹克里克顿说,在美国宇航局的喷气机推进实验室领导了数据科学和技术中心。“使用描述的计算机辅助发现管道来自动化提取,分类和验证过程将有助于系统化这些功能如何汇集在一起。本文确实讨论了这种方法的有效性,适用于应用于碎片磁盘候选者的效果。学到的经验教训将对概括其他天文学和不同纪律应用的技术非常重要。“
“磁盘侦探科学团队一直致力于自己的机器学习项目,现在本文已经出局,我们将要聚在一起并比较笔记,”NASA的戈达德空间的高级天体物理学家Marc Kuchner说被称为磁盘侦探的众包磁盘检测项目的航班中心和领导者。“我很高兴Nguyen正在研究这一点,因为我真的认为这种机器 - 人类合作将对分析未来的大数据集是至关重要的。”
出版物:T.Nguyen等,“计算机辅助发现碎片盘候选人:用宽阔的红外测量探险商(WISE)目录,“天文学和计算,2018年4月23日,第72-82页的案例研究; DOI:10.1016 / J.ASCOM.2018.02.004