(1)使用基于无监督方法,对深度估计网络与位姿估计网络联合训练,针对大规模的真 值 数 据 集 难 以 获取 的 问 题 ,提 出 在深 度 估 计 网络 结 构中 使 用 具 有跳 跃 连接的Attention-Unet 网络架构,使深度估计图表现出更为清晰的轮廓信息。通过 Attention Gate模块,对不同空间位置处特征的重要性进行控制,使场景图中的物体特征更具分辨性,从而提升深度估计结果的准确性。
(2)针对基于无监督的单目图像深度估计算法中存在深度图结果轮廓不清晰、边界模糊以及对于图像中一些结构复杂而深度值较为接近的区域,大部分深度估计方法不能给出较为准确的深度估计值的问题。提出在 Attention-Unet 网络的编解码极端处引入自注意力模块。首先,通过 Attention Gate 将自注意力机制引入到 Attention-Unet 网络中,重新对编码器的输出特征进行处理,将编码器得到每个像素点的特征与解码器中相应特征拼接。此外,在 Attention-Unet 网络的编解码极端处通过下一级的特征来监督上一级的特征实现自注意力机制,提高物体边界轮廓的清晰度。
(3)每个像素可能存在多个不正确的深度,以至于最终的深度图出现模糊以及伪影,因此,本文使用最小化光度重投影损失和自动掩蔽损失解决该问题。在每个像素上,采用源图像误差的最小值进行处理,对于模型训练,使用与它在时间上相邻的两帧作为源帧,即在目标图像的前后帧图像中取最小误差值进行匹配,以解决物体被遮挡的问题,并减少物体伪影。
参考文献(略)