新的麻省理工学院模型恢复了图像和视频的有价值的“丢失的尺寸”

时间：2021-08-21 09:52:12 来源：

模型可以从运动模糊图像和“角落相机”的视频重新创建视频，可以有一天可以从2D医学图像中检索3D数据。

麻省理工学院研究人员开发了一种模型，该模型恢复了从图像和视频丢失的有价值的数据，这些数据已被“折叠”到较低的维度。

该模型可用于从运动模糊图像或从新型摄像机重新创建视频，或者从捕获角落周围的人的运动，但仅作为模糊的一维线。虽然需要更多测试，研究人员认为这种方法可以用于将2D医学图像转换为更有信息性的 - 但更昂贵的 - 3D身体扫描，这可能会使较贫困国家中的医学成像受益。

“在所有这些情况下，视觉数据有一个维度或空间 - 完全丢失，”计算机科学和人工智能实验室（CSAIL）的博士和人工智能实验室（CSAIL）和第一个作者描述了该模型的第一作者正在下周的计算机愿景会议上提供。“如果我们恢复丢失的维度，它可以有很多重要的应用程序。”

捕获的视觉数据通常折叠多维尺寸的数据和空间的数据到一个或两个尺寸，称为“投影”。例如，X射线折叠有关解剖结构的三维数据，进入平面图像。或者，考虑一下横跨天空的星星的长期曝光：恒星随着时间的推移而变化的星星，仍然在仍然拍摄时出现在模糊的条纹上。

同样，“角落相机”，最近在麻省理工学院发明了，发现了在角落周围的移动人们。这些可能是有用的，例如，消防队员在燃烧的建筑物中找到人们。但相机并不完全是用户友好的。目前，他们只生产类似于模糊，尖锐的线的预测，对应于一个人的轨迹和速度。

研究人员发明了一种“视觉消退”模型，它使用神经网络来“学习”模式，将低维投影与其原始高维图像和视频相匹配。鉴于新的预测，该模型使用它学习的内容来从投影中重新创建所有原始数据。

在实验中，模型通过从类似于由角摄像机产生的那些类似的单位，一维线的信息提取信息来综合准确的视频框架。该模型还从流行的移动Mnist DataSet恢复了从屏幕上移动的单个运动模糊投影的视频帧。

加入Balakrishnan论文是：Amy Zhao是电气工程系和计算机科学系（EEC）和CSAIL系的研究生; EECS教授John Guttag，Fredo Durand和William T. Freeman;哈佛医学院放射学院的教师达尔卡州迪拉卡。

像素的线索

Balakrishnan说，这项工作开始作为在长曝光摄影中产生运动模糊的运动。在投影的像素中，存在关于高维来源的一些线索。

例如，捕获长曝光镜头的数码相机将基本上在每个像素上的一段时间内聚集光子。在捕获对象的移动随时间随着时间的推移时，相机将采用运动捕获像素的平均值。然后，它将那些平均值应用于静止图像的相应高度和宽度，这会产生对象轨迹的签名模糊条纹。通过计算像素强度的一些变型，理论上可以重新创建运动。

随着研究人员的意识到，这个问题在许多领域是相关的：例如，X射线，例如捕获解剖结构的高度，宽度和深度信息，但它们使用类似的像素平均技术来折叠到2D图像中。角落相机 - 由Freeman，Durand和其他研究人员在2017年发明了反射的光信号，围绕隐藏的场景，携带有关人员距离和物体距离的二维信息。然后，像素平均技术然后将数据折叠到一维视频中 - 基本上，在单线中随时间测量不同长度的测量。

研究人员基于卷积神经网络（CNN）-A机器学习模型构建了一般模型，该模型成为用于图像处理任务的强大力库 - 捕获关于平均像素中的任何丢失尺寸的线索。

合成信号

在培训中，研究人员喂养了数千分的预测和它们的高维来源，称为“信号”。CNN学习与信号中匹配的投影中的像素模式。为CNN供电是一个名为“变形AutoEncoder”的框架，它评估CNN输出在某些统计概率上匹配其输入的匹配程度。从那时起，模型就会了解可能产生给定投影的所有可能信号的“空间”。这本质上创建了一种类型的蓝图，用于如何从投影到所有可能的匹配信号。

当示出以前看不见的投影时，模型注意到像素模式，并跟随蓝图，以向所有可能产生该投影的可能信号。然后，它综合将所有数据与来自信号的所有数据组合的新图像。这重新创建了高维信号。

对于一个实验，研究人员收集了35个视频的数据集，其中30人在特定区域行走。它们将所有框架崩溃到他们用于训练和测试模型的投影中。从一套六个看不见的预测，模型准确地重新创建了人的步态的24帧，脚踏实地的位置和人的尺寸，因为他们走向或远离相机。例如，该模型似乎学习了那些越来越宽的像素可能对应于靠近相机的人。

“这几乎就像我们能够恢复这个细节的魔术，”Balakrishnan说。

研究人员没有在医学图像上测试他们的模型。但他们现在与康奈尔大学同事合作，从2D医学图像中恢复3D解剖信息，例如X射线，没有增加的成本 - 可以在较贫困国内实现更详细的医学成像。医生大多喜欢3D扫描，例如用CT扫描捕获的扫描，因为它们包含更有用的医疗信息。但是，CT扫描通常是困难和昂贵的。

“如果我们可以将X射线转换为CT扫描，那将会有些游戏变化，”Balakrishnan说。“你可以拍摄X射线并通过我们的算法推动它，查看所有丢失的信息。”

参考：“视觉取代：Guha Balakrishnan，Adrian V. Dalca，Amy Zhao，John V.Guttag，Fredo Durand和William T.Freeman，2019年9月1日，计算机愿景和模式识别.Arxiv：
1909.00475

郑重声明：文章仅代表原作者观点，不代表本站立场；如有侵权、违规，可直接反馈本站，我们将会作修改或删除处理。