5.2 评价指标 ............................... 56
第五章 视觉问答实验设置及结果分析
5.1 数据集
本章节使用的数据集是 FigureQA,在 4.2 小节中已经对 FigureQA 图片部分进行了详细阐述。FigureQA 数据集作为生成数据集,问题-答案对同图片一起生成,FigureQA 提供了十五个问题模板,如表 5-1 所示。
FigureQA 数据集的答案模式为多项选择模式中的 Yes/No 模式。FigureQA 对于一张图片生成问题-答对时,基于 15 个模板分别生成答案为 Yes 和 No 的 30个问题答案对。为了防止模型通过汇总统计问题-答案对分布来回答问题,全部问题-答案对生成后会丢弃部分,并且为了消除偏差也会保证每类问题的数量基本一致。
.........................
第六章 结束语
6.1 全文总结
本文从算法、数据集等方面讨论了视觉问答的现状以及存在的问题,对视觉问答算法进行分类并概括优缺点,特别讨论了现有视觉问答数据集在训练和评价方面的局限性,也描述了视觉问答技术未来的发展前景,为本文研究提供理论依据和研究方向。
在数学图表的视觉问答任务中,为了抽取更加高层次的图像语义信息,帮助视觉问答系统进行推理任务,本文提出了基于对象的视觉问答推理算法,相对于基线模型图像所采用卷积特征表示类似于黑盒技术,本文基于 Bottom-Up Attention 的思想,采用目标检测模型定位到图中对象,并对检测结果解码得到对象更高层次的语义表征。相对于原模型难以理解的特征表示,本文模型抽取的图像特征更易于人类理解并支持中间结果的检查。该模型在微软公开数学图表类数据集 FigureQA 上的性能超过了基线模型。
因为检测对象的特殊,现有目标检测模型直接迁移到本文研究的数据集上效果不够理想,为了解决这个问题,首先基于 FigureQA 制作了数据图表的目标检测数据集,为了降低训练成本,基于微调的思想采用预训练的 VGG 和 ResNet 模型初始化参数。选择目前主流的双阶段模型 Faster-RCNN 作为目标检测模块,根据数据集真实边界框的聚类结果优化模型预设锚框大小;使用 Soft-NMS 替换 NMS算法提升在目标高度重合情景下的检测效果;优化后的 Faster-RCNN 模型检测线图目标和预期有一定差距,训练单阶段目标检测模型 RefineDet 作为线图的补充实验。
参考文献(略)