该技术能够实时绘制三维场景。关键词:3D,激光,光场网络
如今的电影院,3D电影票的销售量远远超过了普通电影。人们越来越喜欢手握爆米花,戴上3D眼镜,亲自体验电影中的场景。
人类社会发展到现在,大家已经不满足于生活在三维世界中,看到的却是二维场景。不过你知道吗?虽然现实是个立体的世界,但是影片中看到的场景却是一个“虚像”。
也就是说,所谓的3D场景不过是普通平面图形通过转化,通过人们对2D图像的观察,在脑海中推断出3D场景的属性。这种“虚幻”的转换方式已使用在各行各业,如用来收割庄稼的机器和协助手术的机器人(一台需要与世界的物体交互的机器)。
虽然科学家们早已成功地使用神经网络从图像中推断出3D场景,不过目前这些机器学习方法的速度还不够快,不足以让它们在许多现实世界的应用中可行。
麻省理工学院(MIT)联合其他研究人员设计出了一项新技术,能够以比一些现有模型快1.5万倍的速度从图像中呈现3D场景。
该方法将一个场景表示为一个360度的光场,描述了三维空间中流经每个点和每个方向的所有光线。光场被编码到神经网络中,这使得从图像渲染底层的3D场景更快速。
研究人员开发的光场网络(LFNs)可以在仅对图像进行一次观察后重建光场,并且能够以实时帧率渲染3D场景。
论文联合作者,计算机科学和人工智能实验室的博士后(CSAIL) Vincent Sitzmann如是说:“最终,这些神经场景表示法的最大希望是在视觉任务中使用它们。我给你一个图像,然后从该图像中创建场景表示,然后你想对你在3D场景空间中所做的一切进行推理。”
论文主要作者为Sitzmann、哈佛大学博士后Semon Rezchikov,共同参与项目的有William T. Freeman, Thomas and Gerd Perkins电气工程和计算机科学教授;JoshuaB. Tenenbaum,脑与认知科学系计算认知科学教授;Frédo Durand,电子工程和计算机科学教授。
工作原理:映射射线
在计算机视觉和计算机图形学中,从图像中绘制3D场景涉及到映射数千甚至数百万条照相机射线。把相机射线想象成从相机镜头中射出的激光束击中图像中的每个像素,每像素一束。这些计算机模型必须确定每一个相机射线击中像素的颜色。
目前的许多方法都是在每条相机光线穿过空间时沿其长度选取数百个样本,这是一个计算成本很高的过程,可能会导致渲染缓慢。
相反,LFN学会了表示3D场景的光场,然后直接将光场中的每个相机射线映射到该射线所观察到的颜色。LFN利用了光场的独特属性,这使得仅在一次评估后就可以渲染光线,所以LFN不需要沿着光线的长度停止运行计算。
“用其他方法做这个渲染的话,人必须跟随光线,直到找到表面为止。为了达到这一点,必须做成千上万个样本才能找到一个表面。由于透明或发射等作用,往往完不成这一的任务。不过有了光场后一切将会不一样。因为只需要在图像中取一个样本便可以,渲染单条光线,然后图像直接将光线映射到它的颜色,”Sitzmann说。
给定一个3D场景(左)和一个光线r(蓝色),我们可以沿着包含光线(浅蓝色)的2D平面切片场景,生成一个2D场景(中)。二维平面上所有光线的光场,从360度LFN可以解析计算出Epipolar plane Image (EPI) c(s, t)(右)。
LFN使用其“Plücker坐标”对每条相机射线进行分类,该坐标根据其方向和距离原点的距离在3D空间中展示一条直线。该系统计算每个相机射线在其到达一个像素点处的Plücker坐标来渲染图像。
通过使用Plücker坐标映射每条射线,由于视差效应,LFN还能够计算场景的几何形状。视差是从两种不同的视线观察一个物体时,其明显位置的差异。例如,如果我们转动头部,远的物体似乎比近的物体移动得少。由于视差,LFN可以告诉场景中物体的深度,并使用这一信息来编码场景的几何形状和外观。
但是要重建光场,神经网络必须首先了解光场的结构,所以研究人员用许多汽车和椅子的简单场景的图像训练他们的模型。
“光场有一种固有的几何结构,这正是我们的模型试图学习的。你可能会担心汽车和椅子的光场如此不同,以至于你无法了解它们之间的一些共性。但事实证明,如果你添加更多种类的物体,只要有一些同质性,你就会对一般物体的光场有更好的感觉,所以你可以进行归纳,”Rezchikov说。
一旦模型学习了光场的结构,它就可以只从一个图像作为输入来渲染一个3D场景。
快速渲染
研究人员通过重建几个简单场景的360度光场来测试他们的模型。他们发现,LFNs能够以超过500帧每秒的速度渲染场景,比其他方法快了大约三个数量级。此外,用LFNs渲染的3D物体通常比用其他模型生成的更清晰。
360度光场参数化。左上:一个房间大小的场景的Lumigraph风格的三维切片。左下:一辆汽车的近景,以及垂直(右,红色)和水平(上,绿色)的Epipolar平面图像,取自一个LFN。从训练集重构,分别有50和15个视图。右图:LFNs支持从任意360度的相机视角进行渲染,以及从每条射线的单一样本中稀疏深度图提取。
LFN的内存密集程度也较低,只需要大约1.6兆字节的存储空间,而流行的基线方法则需要146兆字节。
“光场以前就被提出过,但在当时它们是很难处理的。现在,通过我们在这篇论文中使用的这些技术,你第一次可以用这些光场来表示和处理这些光场。我们开发的数学模型和神经网络模型结合在一起,用于表示场景,这样机器就可以对它们进行推理,这是一种有趣的融合。”
在未来,研究人员希望使他们的模型更健壮,这样它就可以有效地用于复杂的现实世界场景。
Sitzmann说,推动LFN向前发展的一种方法是只专注于重建光场的某些补丁,这可以使模型在现实环境中运行得更快,表现得更好。
“神经渲染最近使得仅从稀疏的输入视图集就可以对图像进行逼真的渲染和编辑。不幸的是,所有现有技术在计算上都非常昂贵,阻碍了需要实时处理的应用程序,如视频会议。这个项目朝着新一代计算效率和数学上优雅的神经渲染算法迈出了一大步,”斯坦福大学电气工程副教授Gordon Wetzstein说,“我预计它将在计算机图形学、计算机视觉等方面有广泛的应用。”
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.