使用人工智能在智能手机上实时生成3D全息图
麻省理工学院研究人员已经开发了一种几乎立即生产全息图的方法。他们说,基于深度的学习方法是如此效率,可以在智能手机上运行。
一种名为Tensor全息术的新方法可以为虚拟现实,3D打印,医学成像和更多创建全息图 - 并且它可以在智能手机上运行。
尽管多年的炒作,虚拟现实耳机尚未将电视或计算机屏幕作为视频观看的转移设备倒顶。一个理由:VR可以让用户感到恶心。虽然用户实际上凝视了固定距离2D显示器,但是VR创造了3D观察的错觉,可能会产生恶心,因为VR创造了3D观察的错觉。更好的3D可视化的解决方案可以位于一个60岁的技术替代数字世界的重点:全息图。
全息图在我们周围提供3D世界的卓越代表。另外,他们很漂亮。(继续 - 查看您的签证卡上全息鸽子。)全息图基于观察者的位置提供换档透视图,它们允许眼睛调整焦深以交替地关注前景和背景。
研究人员长期以来寻求制造电脑生成的全息图,但传统上,该过程传统上需要超级计算机通过物理模拟流失,这是耗时的,并且可以产生较低的质感性的结果。现在,麻省理工学院研究人员几乎立即开发了一种新的方式来生产全息图 - 基于深度学习的方法如此效率,研究人员说,它可以在眨眼间在笔记本电脑上运行。
该P显示了2D和3D全息投影的实验演示。左侧照片专注于更靠近相机的鼠标玩具(在黄色盒子中),右侧照片专注于永久桌面日历(蓝框)。
“以前认为拥有现有的消费者级硬件,实时3D全息计算是不可能进行实时的3D全息计算,”研究的主要作者以及麻省理工学院电气工程系和计算机科学系(EEC)的博士学生说。“经常说,商业上可获得的全息显示将在10年内存在,但该声明已经存在了几十年。”
施认为,该团队称之为“张力全息术”的新方法将终于将在达到范围内带来难以捉摸的10年目标。前进可以将全息术溢出到像VR和3D打印等领域。
施研究了这项研究,于2021年3月10日出版,本质上,与他的顾问和共同作者Wojciech Matusik。其他共同作者包括EECS和MIT计算机科学和人工智能实验室的北辰李,以及前麻省理工学院研究人员昌瓷金(现在在Facebook)和Petr Kellnhofer(现在在斯坦福大学)。
寻求更好的3D
基于典型的镜头的照片编码每个光波的亮度 - 照片可以忠实地再现场景的颜色,但最终产生平面图像。
相反,全息图编码每个光波的亮度和相位。该组合提供了一种替补的识别场景的视差和深度。因此,虽然莫奈的“水百合”的照片可以突出绘画的颜色腭,但是全息图可以将工作带到生命中,渲染每个刷子行程的独特3D纹理。但尽管他们的现实主义,全息图是制造和分享的挑战。
首先在1900年代中期开发,早期全息图是光学记录的。需要分割激光束,其中一半的光束用于照亮主体,另一半用作光波相位的参考。此参考生成全息图是独特的深度感。得到的图像是静态的,所以它们无法捕获运动。他们只是很难抄,让他们难以复制和分享。
通过模拟光学设置,计算机生成的全息术留意这些挑战。但该过程可以是计算的光驱。“因为场景中的每个点都有不同的深度,因此您无法为所有人应用相同的操作,”Shi说。“显着提高了复杂性。”指导群集超级计算机运行这些基于物理的模拟可能需要几秒钟或几分钟的单个全息图像。此外,现有算法不会模拟遮转物质拟理精度。所以史的团队采取了不同的方法:让电脑向自己教授物理。
他们使用深度学习来加速计算机生成的全息术,允许实时全息图产生。该团队设计了一种卷积神经网络 - 一种处理技术,它使用一系列培训张量来粗略模仿人类过程视觉信息。培训一个神经网络通常需要一个大型高质量的数据集,以前没有以前存在3D全息图。
该团队建立了一个4,000对计算机生成的图像的自定义数据库。每对匹配图片 - 包括每个像素的颜色和深度信息 - 其对应的全息图。要在新数据库中创建全息图,研究人员使用具有复杂和可变形状和颜色的场景,从背景中均匀地分布到前景的像素深度,并具有新的基于物理的计算来处理遮挡。这种方法导致了光电型训练数据。接下来,算法必须工作。
通过从每个图像对中学习,张量网络通过逐渐增强其创建全息图的能力来调整其自身计算的参数。完全优化的网络运行的数量级比物理为基础的计算速度快。这效率让球队自己惊讶。
“我们对它的表现有多令人惊讶,”Matusik说。在仅仅毫秒,张量全息术可以通过深度信息从图像制作全息图 - 由典型的计算机生成的图像提供,并且可以从多轨机设置或激光雷达传感器计算(两者都是一些新智能手机)计算。这次提前铺平了实时3D全息术方式。更重要的是,紧凑的张量网络需要不到1 MB的内存。“考虑到最新手机上可用的数十和数百千兆字节,这可以忽略不计,”他说。
该研究“表明,真正的3D全息显示器是实用的,只有适度的计算要求,”微软涉及该研究的主要光学架构师Joel Kollin说。他补充说,“本文表现出在以前的工作中的图像质量显着提高,”这将为观众增添现实主义和舒适“。”Kollin还提出了像这样的全息显示器的可能性,甚至可以定制到观众的眼科处方。“全息显示器可以纠正眼睛中的像差。这使得显示图像比用户可以用触点或眼镜看到的显示图像更清晰,这对于焦点和散光等低阶像差来说。“
“相当大的飞跃”
实时3D全息术将增强一系列系统,从VR到3D打印。该团队称,新系统可以帮助浸入VR观众在更逼真的风景中,同时消除眼睛应变和长期VR使用的其他副作用。该技术可以轻松部署在调制光波阶段的显示器上。目前,最实惠的消费者级显示器仅调制亮度,尽管如果广泛采用,相位调制显示的成本将下降。
研究人员说,三维全息术还可以提高体积3D打印的发展。由于体积3D打印允许全部3D模式的同时投影,该技术可以证明比传统的层3D打印更快,更精确。其他应用包括显微镜,医疗数据的可视化,以及具有独特光学性质的表面的设计。
“这是一个相当大的飞跃,可以完全改变人们对全息术的态度,”Matusik说。“我们觉得神经网络出生了这项任务。”
参考:梁石,北辰李,昌瓷金,佩特尔·凯恩霍尔和Wojciech Matusik,19世纪3月10日,自然。
10.1038 / s41586-020-03152-0
项目网站:张量全息
部分由索尼支持这项工作。