天文学家开发了一个编目宇宙的新模式
由Blanco望远镜观察到的星系的码头/贴花图像。遗留调查正在从一组光学和红外成像数据产生天空的推理模型目录,包括从三²个光带和四个红外条带的北半球可见14,000°倍的胶质天空。图像:黑暗能量天空调查
来自伯克利实验室的科学家们创造了一种新的统计分析模型,旨在增强现代天文学最具时间最受测的工具:天空调查。
传统的根源深入天文学。从伽利略和哥内克人到哈勃和霍金,科学家和哲学家一直在思考宇宙的神秘处几个世纪,用方法和模型扫描天空,即大部分地,直到过去二十年直到过去几十年。
现在,伯克利实验室的天体物理学家,统计学家和计算机科学家的研究合作正在寻求与Celeste一起摇动的东西,这是一个新的统计分析模型,旨在增强现代天文学最具时间最受测的工具之一:天空调查。
Stroromer日常活动的核心组成部分,调查用于映射和目录天空区域,燃料统计研究大量物体,并更详细地研究有趣或罕见的物体。但是,今天分析了这些调查的图像数据集的方式仍然被困在,但是,黑暗的年龄。
“劳伦斯伯克利国家实验室(Baryon振荡光谱调查(BOSS)和CDSS的一部分)和CO-PI,劳伦斯·伯克利国家实验室和主要调查员David Schlegel说,有传统的方法可以追溯到摄影盘子。”论德拉姆遗产调查(贴花)。“许多术语也会追溯到这一点。例如,我们仍然谈论有一个盘子并比较板,当然,当我们显然我们已经超越了这一点。“
令人惊讶的是,第一电子调查 - 斯隆数字天空调查(SDSS) - 于1998年开始捕获数据。虽然今天有多次调查和高分辨率仪器在全球24/7运行,但每年收集数百个TB的图像数据,科学家从多种设施轻松访问和分享此数据的能力仍然难以捉摸。此外,始于一百年前或更长的实践继续在天文学中扩散 - 从接近每次调查的习惯,虽然是他们第一次看着天空来陈旧术语,如“幅度系统”和“SexAmeSimal”,可以在天文学外面留下潜在的合作者,抓头。
这是一个像他一样喜欢的公约,他喜欢冒险舒尔格尔。
“有一个历史如何在天文学中使用数据,语言和术语反映了很多问题,”他说。“例如,幅度系统 - 它不是一些亮度的线性系统,这是一个历史数千年的任意标签。但你仍然可以拿起任何天文纸,他们都使用幅度系统。“
谈到从Sky调查的图像数据分析,Schlegel是某些现有方法,也可以改进,特别是鉴于更复杂的计算挑战,预期从下一代调查中出现,如贴花和更高分辨率的仪器,如大型潮天道调查望远镜(LSST)。
“我们在天文学中处理数据分析的方式是通过”减少数据“,”他说。“拍摄图像,将检测算法应用于它,拍摄一些测量,然后在该图像中制作对象的目录。然后你拍摄了一部分天空的另一个形象,你说,'哦,让我假装我不知道这里发生了什么,所以我会首先识别对象,从而测量这些对象然后制作一个这些对象的目录。'这是针对每个图像独立完成的。因此,您将进一步介绍并进一步进入这些数据减少目录,永远不会返回原始图像。“
一个层级模型
这些挑战促使Schlegel与Berkeley Lab的螳螂(庞大加速在于Scalable Algorithms的科学新技术),由Prabhat从国家能源研究和科学计算中心(NERSC),科学用户设施办公室。“为了解决这一大挑战,我们从UC Berkeley,Harvard,Carnegie Mellon和Adobe Research开始了领先的研究人员,”Prabhat说。
该团队在过去的一年中,一个旨在通过下一代望远镜可见的宇宙中宇宙,星系和其他光源的分层模型,解释说,这是一个旨在通过下一代望远镜来看来的分层模型。 UC Berkeley统计系的学生和领导作者在7月份举行的Celeste在第32届机器学习国际会议上举行。他补充说,新模型还将使天文学家确定有前途的星系,用于定位的光谱仪瞄准,定义星系,他们可能希望进一步探索,并帮助他们更好地了解宇宙的黑暗能量和宇宙的几何形状。
“我们想要以基本的方式改变的是天文学家使用这些数据的方式,”Schlegel说。“Celeste将是一个更好的模型,用于识别天空中的天体物理源和每个望远镜的校准参数。我们将能够在数学上定义我们正在解决的内容,这与传统方法不同,这是这套启发式,你得到了这个对象的目录,那么你试图提出问题:数学习惯是什么问题刚刚解决了?“
此外,Celeste有可能显着减少天文学家目前与图像数据一起工作的时间和精力,Schlegel强调。“十到15年前,你会得到天空的形象,你甚至没有知道你在天空上的究竟在哪里。所以你所做的第一件事就是把它拉到电脑上,然后点击星星,并尝试将它们识别到您所在的位置。而且你会用手为每一个图像做这件事。“
应用统计
为了改变这种情况,Celeste使用机器学习和应用统计中的分析技术,但在天文学中并不是那么多。该模型在代码上以称为拖拉机的代码,由Dustin Lang开发,而他是普林斯顿大学的博士后研究员。
“大多数天文图像分析方法看一束像素并运行a
简单的算法基本上是在像素值上算术的算法,“郎,以前是Carnegie Mellon的后医生,现在是多伦多大学的研究助理和Celeste团队的成员。“但是对于拖拉机,而不是在像素值上运行相当简单的食谱,我们创建了一个完整的描述模型,我们可以与实际图像进行比较,然后调整模型,以便其特定明星实际上符合观察的主张。它会对数据存在的对象和预测在数据中的样子上看的内容进行了更明显的陈述。“
Celeste项目进一步提出了这一概念,实现了统计推理,以建立一个完全生成模型来数学地定位和表征天空中的光源。统计模型通常从数据开始,向后查看,以确定导致数据的原因,解释了UC Berkeley统计教授和Celeste团队的另一个成员的统计教授Jon Mcauliffe。但是在天文学中,图像数据分析通常以尚不清楚的方式开始:天空中物体的位置和特征。
“在科学中,我们做了很多东西是难以努力的东西,并试图将其分解成更简单的部件,然后将部件放在一起,”麦拉迪格说。“这就是分层模型正在发生的事情。棘手的部分是,有这些假设或想象量的数量,即使我们没有观察它们,我们也必须推理它们。这是统计推论进来的地方。我们的工作是从图像中的像素强度开始,并向后工作到光源的位置以及它们的特征是什么“。
到目前为止,该组织使用Celeste分析了麦克利迪的NERSC的Edison SuperComputer上的SDSS图像,整个SDS图像和SDSS图像集。这些初始运行有助于他们改进和改进模型,并验证其超出当前最先进方法的性能,以定位天体和测量它们的颜色。
“最终目标是占据现在生成的所有光度数据,并将正在持续生成并运行单个作业,并继续运行时间并连续地改进这种全面的目录,”他说..
第一个主要的里程碑将在NERSC上一次运行整个SDSS DataSet的分析。然后,研究人员将开始添加其他数据集并开始构建目录 - 例如SDS数据,可能会在NERSC的科学网关中进行。总而言之,Celeste团队希望目录收集和处理大约500大的数据,或约1万亿像素。
“据我所知,这是科学中最大的图形模型问题,实际上需要一个用于运行推理算法的超级计算平台,”Prabhat说。“Jon Mcauliffe,Jeff Regier和RyanGiordano(UC Berkeley),Matt Hoffman(Adobe Research)和Ryan Adams和Andy Miller(哈佛大学)开发的核心方法绝对是在此规模上尝试问题的绝对关键。”
Celeste的下一次迭代将包括Quasars,其具有不同的光谱特征,使它们更难以区分其他光源。Quasars的建模对于提高我们对早期宇宙的理解是重要的,但它提出了一个很大的挑战:最重要的是那些远处的物体,但远处的物体是我们最薄弱的信号。Andrew Miller of Harvard University目前正在为模型工作,夫妻将高保真谱测量与调查数据耦合,以改善我们对远程Quasars的估计。
麦克劳德说,这可能有点令人惊讶地尚未建立一个在全世界的许多不同望远镜上成像的所有光源的参考目录。““但我们认为我们可以帮助。这将是一个目录,对未来的天文学家和宇宙学家来说是非常有价值的。“