看不见的:创新技术让汽车窥视角落

   日期:2024-10-16     来源:本站    作者:admin    浏览:72    

  

  

  PlatoNeRF由麻省理工学院和meta公司共同开发,采用多反射激光雷达和机器学习技术,使自动驾驶汽车能够探测隐藏的障碍物。这项创新技术也有助于AR/VR和机器人技术,它使用阴影来生成精确的环境3D重建。

  这项技术可以使汽车更安全无人驾驶汽车,更高效的AR/VR头盔,或者更快的仓库机器人。

  想象一下,你驾驶着一辆自动驾驶汽车穿过隧道,但你不知道的是,前方发生了车祸,导致交通中断。通常情况下,你需要依靠你前面的车来知道你应该开始刹车。但是,如果你的车可以看到前面的车,并更快地刹车呢?

  麻省理工学院和meta的研究人员开发了一种计算机视觉技术,有朝一日可以让自动驾驶汽车做到这一点。

  他们介绍了一种方法,可以使用单个摄像机位置的图像创建整个场景的物理精确的3D模型,包括被遮挡的区域。他们的技术是利用阴影来确定场景中被遮挡的部分。

  Plato-NeRF是一种计算机视觉系统,它将激光雷达测量与机器学习相结合,通过利用阴影从一个摄像机视图中重建3D场景,包括隐藏的物体。在这里,系统准确地模拟了椅子上的兔子,即使那只兔子被挡在了视线之外。图片来源:研究人员提供,麻省理工学院新闻编辑

  他们将这种方法称为“柏拉图式的洞穴”(PlatoNeRF),基于柏拉图关于洞穴的寓言,这是希腊哲学家《理想国》(Republic)中的一段话,在这段话中,被锁在洞穴里的囚犯通过投在洞穴墙上的阴影来辨别外面世界的现实。

  通过将激光雷达(光探测和测距)技术与机器学习相结合,PlatoneRF可以比现有的一些人工智能技术产生更精确的3D几何重建。此外,PlatoneRF更擅长于平滑地重建阴影难以看到的场景,例如具有高环境光或黑暗背景的场景。

  增强AR/VR和机器人与PlatoNeRF

  除了提高自动驾驶汽车的安全性外,PlatoneRF还可以提高AR/VR头戴设备的效率,让用户无需四处走动就可以对房间的几何形状进行建模。它还可以帮助仓库机器人在杂乱的环境中更快地找到物品。

  “我们的关键想法是将之前在不同学科中完成的两件事——多弹跳激光雷达和机器学习——结合在一起。麻省理工学院媒体艺术与科学专业研究生、麻省理工学院媒体实验室摄影文化小组研究助理、PlatoNeRF一篇论文的主要作者佐菲·克林霍夫(Tzofi Klinghoffer)说:“事实证明,当你把这两者结合在一起时,你就会发现很多新的探索机会,并获得两全之美。”

  Klinghoffer和他的导师Ramesh Raskar共同撰写了这篇论文,Ramesh Raskar是麻省理工学院媒体艺术与科学副教授,也是摄影文化小组的负责人;资深作者、meta Reality Labs人工智能研究主管Rakesh Ranjan;以及相机文化集团的研究助理Siddharth Somasundaram,以及meta的Xiang Xiaoyu, Fan Yuchen和Christian Richardt。这项研究将在计算机视觉和模式识别会议上发表。

  高级3D雷达利用激光雷达和机器学习进行教学

  从一个摄像机视点重建一个完整的3D场景是一个复杂的问题。

  一些机器学习方法采用生成式人工智能模型,试图猜测被遮挡区域的内容,但这些模型可能会产生幻觉,而这些物体实际上并不存在。其他方法试图利用彩色图像中的阴影来推断隐藏物体的形状,但是当阴影很难看到时,这些方法可能会遇到困难。

  对于PlatoNeRF,麻省理工学院的研究人员使用了一种称为单光子激光雷达的新型传感方式来建立这些方法。激光雷达通过发射光脉冲并测量光反射回传感器所需的时间来绘制3D场景。因为单光子激光雷达可以探测到单个光子,所以它们可以提供更高分辨率的数据。

  研究人员使用单光子激光雷达来照亮场景中的目标点。一些光线从那个点反射回来,直接返回到传感器。然而,大部分的光在返回到传感器之前会被其他物体散射和反射。PlatoneRF依赖于光的第二次反弹。

  通过计算光线反弹两次然后返回激光雷达传感器所需的时间,PlatoneRF可以捕获有关场景的其他信息,包括深度。光线的第二次反弹也包含了阴影的信息。

  该系统追踪二次光线——那些从目标点反弹到场景中其他点的光线——以确定哪些点位于阴影中(由于没有光线)。基于这些阴影的位置,PlatoneRF可以推断出隐藏物体的几何形状。

  激光雷达依次照亮16个点,捕获用于重建整个3D场景的多幅图像。

  “每次我们照亮场景中的一个点,我们都在创造新的阴影。因为我们有所有这些不同的照明光源,我们有很多光线射向周围,所以我们正在雕刻被遮挡的区域,位于肉眼之外,”克林霍夫说。

  结合多反射激光雷达和神经辐射场

  PlatoneRF的关键是将多反射激光雷达与一种称为神经辐射场(NeRF)的特殊机器学习模型相结合。NeRF将场景的几何形状编码为神经网络的权重,这使模型具有很强的插值或估计场景新视图的能力。

  Klinghoffer说,当与多反射激光雷达结合使用时,这种插值能力还可以实现高精度的场景重建。

  “最大的挑战是如何将这两者结合起来。我们真的必须考虑光如何用多反射激光雷达传输的物理原理,以及如何用机器学习来建模,”他说。

  他们将PlatoneRF与两种常见的替代方法进行了比较,一种只使用激光雷达,另一种只使用带有彩色图像的NeRF。

  他们发现他们的方法能够优于这两种技术,特别是当激光雷达传感器分辨率较低时。这将使他们的方法在现实世界中更实用,在现实世界中,低分辨率传感器在商业设备中很常见。

  “大约15年前,我们的团队发明了第一台可以‘看到’拐角处的相机,它通过利用多次光线反射或‘光的回声’来工作。这些技术使用了特殊的激光器和传感器,并使用了三次光反射。从那时起,激光雷达技术变得更加主流,这导致了我们对可以看穿雾的相机的研究。这项新工作只使用了两次光反射,这意味着信噪比非常高,3D重建质量令人印象深刻,”Raskar说。

  在未来,研究人员希望尝试跟踪两次以上的光线反射,看看如何改善场景重建。此外,他们有兴趣应用更多的深度学习技术,并将PlatoneRF与彩色图像测量相结合来捕获纹理信息。

  “虽然阴影的相机图像长期以来一直被研究作为3D重建的手段,但这项工作在激光雷达的背景下重新审视了这个问题,展示了重建隐藏几何形状的准确性的显着提高。这项工作表明,当与普通传感器(包括我们许多人现在随身携带的激光雷达系统)结合在一起时,聪明的算法可以实现非凡的能力,”多伦多大学计算机科学系助理教授大卫·林德尔说,他没有参与这项工作。

  参考文献:“PlatoNeRF:通过单视图双反弹激光雷达在柏拉图洞穴中的三维重建”,由Tzofi Klinghoffer, Xiaoyu Xiang, Siddharth Somasundaram,范雨辰,Christian Richardt, Ramesh Raskar, Rakesh Ranjan, 2024, IEEE/CVF计算机视觉和模式识别会议论文集(CVPR)。

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行