在增强现实和自动驾驶汽车等计算机视觉的一些应用中,估计物体与相机之间的距离是一项必不可少的任务。聚焦/散焦深度是利用图像中的模糊作为线索实现这一过程的技术之一。对焦/离焦深度通常需要用不同对焦距离拍摄同一场景的图像堆叠,这种技术称为焦点堆叠。
在过去十年左右的时间里,科学家们提出了许多不同的聚焦/离焦深度方法,其中大多数可以分为两类。
第一类包括基于模型的方法,它使用数学和光学模型来估计基于清晰度或模糊的场景深度。
然而,这种方法的主要问题是,它们无法处理无纹理的表面,这些表面在整个焦点堆栈中看起来几乎是相同的。
第二类包括基于学习的方法,可以训练它有效地从焦点/散焦中执行深度,即使对于无纹理的表面也是如此。
然而,如果用于输入焦点堆栈的相机设置与训练数据集中使用的相机设置不同,这些方法就会失败。
现在,来自日本的一组研究人员克服了这些限制,提出了一种创新的聚焦/散焦深度方法,同时解决了上述问题。
他们的研究发表在《国际计算机视觉杂志》上,由日本奈良科学技术研究所(NAIST)的Yasuhiro Mukaigawa和Yuki Fujimura领导。
所提出的技术被称为焦点堆栈深度(DDFS),将基于模型的深度估计与学习框架相结合,以获得两者的最佳效果。
受立体视觉中使用的策略的启发,DDFS涉及基于输入焦点堆栈、相机设置和镜头散焦模型建立一个“成本体积”。
简单地说,成本体积代表一组深度假设-每个像素的潜在深度值-以及基于焦点堆栈中图像之间的一致性计算的相关成本值。
Mukaigawa解释说:“成本在离焦图像和场景深度之间施加了限制,作为中间表示,可以在训练和测试时使用不同的相机设置进行深度估计。”
DDFS方法还采用了编码器-解码器网络,这是一种常用的机器学习架构。
该网络以从粗到精的方式逐步估计场景深度,在每个阶段使用“成本聚合”自适应地学习图像中的局部结构。
研究人员将DDFS的性能与其他最先进的聚焦/散焦深度方法进行了比较。
值得注意的是,该方法在多个图像数据集的各种指标上优于大多数方法。
研究小组的相机对焦堆进行了额外的实验,进一步证明了DDFS的潜力,与其他技术不同,即使在输入堆中只有很少的输入图像,它也很有用。
总的来说,DDFS可以作为一种有前途的方法,用于需要深度估计的应用,包括机器人、自动驾驶汽车、3D图像重建、虚拟和增强现实以及监控。
Mukaigawa总结道:“我们的相机设置不变性方法可以帮助扩展基于学习的深度估计技术的适用性。”
希望这项研究能为更强大的计算机视觉系统铺平道路。
作者:奈良科学技术研究所
链接:https://www.sciencedaily.com/releases/2024/02/240209134440.htm
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com