学习方法下单幅图像深度估计效果差、深度值获取不准确的问题,提出了一种基于多孔卷积神经网络(ACNN)的深度估计模型。首先,利用卷积神经网络(CNN)逐层提取原始图像的特征图;其次,利用多孔卷积结构,将原始图像中的空间信息与提取到的底层图像特征相互融合,得到初始深度图;最后,将初始深度图送入条件随机场(CRF),联合图像的像素空间位置、灰度及其梯度信息对所得深度图进行优化处理,得到最终深度图。在客观数据集上完成了模型可用性验证及误差估计,实验结果表明,该算法获得了更低的误差值和更高的准确率,均方根误差(RMSE)比基于机器学习的算法平均降低了30.86%,而准确率比基于深度学习的算法提高了14.5%,所提算法在误差数据和视觉效果方面都有较大提升,表明该模型能够在图像深度估计中获得更好的效果。
关键词:多孔卷积;卷积神经网络;条件随机场;深度估计;深度学习
中图分类号: TP391.413
文献标志码:A
Abstract: Focusing on the issues of poor depth estimation and inaccurate depth value acquisition under traditional machine learning methods, a depth estimation model based on Atrous Convolutional Neural Network (ACNN) was proposed. Firstly, the feature map of original image was extracted layer by layer using Convolutional Neural Network (CNN). Secondly, with the atrous convolution structure, the spatial information in original image and the extracted feature map were fused to obtain initial depth map. Finally, the Conditional Random Field (CRF) with combining three constraints, pixel spatial position, grayscale and gradient information were used to optimize initial depth map and obtain final depth map. The model usability verification and error estimation were completed on objective data set. The experimental results show that the proposed algorithm obtains lower error value and higher accuracy. The Root Mean Square Error (RMS) is averagely reduced by 30.86% compared with machine learning based algorithm, and the accuracy is improved by 14.5% compared with deep learning based algorithm. The proposed algorithm has a significant improvement in error reduction and visual effect, indicating that the model can obtain better results in image depth estimation.
Key words: atrous convolution; Convolutional Neural Network (CNN); Conditional Random Field (CRF); depth estimation; deep learning
0 引言
圖像中包含的深度信息能够广泛运用于与图像处理相关的计算机视觉应用场景,在现实生活中具有十分重要的意义,提取图像中的深度信息有利于在三维空间上帮助计算机理解现实场景,而不仅仅是在二维平面的图像维度上进行感知。在此之前,已经有许多科研人员对单幅图像的深度估计及其应用进行了研究[1-2],包括目标检测[3]、目标跟踪[4]、自动驾驶[5]等技术的实现,但是存在准确度较低的问题。能够准确地获取图像的深度信息,既是从二维平面理解三维空间的必要条件,也是未来计算机视觉技术发展的重要基础[6-7]。
受Chen等[8]对图像语义分割的相关研究的启发,本文将多孔卷积运算引入卷积神经网络(Convolutional Neural Network, CNN)[9-10],构建了多孔卷积神经网络(Atrous Convolutional Neural Network, ACNN)模型。该模型能够在底层特征的基础上,加入原始图像中的空间位置信息,使深度图中包含更多的细节特征。在求解网络参数的过程中,本文引入相对熵近似计算,降低了计算复杂度。在条件随机场中加入三个高斯项,分别从像素的位置、灰度以及梯度三个方面对深度图在像素级别上进行优化,从而得到了更好的估计结果。在已有的图像深度估计的方法[11-15]中,与Karsch等[13]
引用至文献10之后,就引用了文献13、15,文献11、12、14未引用,这不符合规范,需按照顺序进行引用。鉴于调整顺序修改工作量较大(因后面的图形、表格中引用了文献13、15),所以此处的修改,建议增加文献11、12、14的引用文字(适当增加几句即可),这样就符合引用规范了。