面向视觉问答的图像处理技术研究 (第2页) - 计算机软件

面向视觉问答的图像处理技术研究

日期：2020年07月22日编辑：ad201107111759308692 作者：无忧论文网点击次数：1488

论文价格：150元/篇论文编号：lw202007141524276836 论文字数：42554 所属栏目：计算机软件论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

......... 55

5.2 评价指标 ............................... 56

第五章视觉问答实验设置及结果分析

5.1 数据集

本章节使用的数据集是 FigureQA，在 4.2 小节中已经对 FigureQA 图片部分进行了详细阐述。FigureQA 数据集作为生成数据集，问题-答案对同图片一起生成，FigureQA 提供了十五个问题模板，如表 5-1 所示。

FigureQA 数据集的答案模式为多项选择模式中的 Yes/No 模式。FigureQA 对于一张图片生成问题-答对时，基于 15 个模板分别生成答案为 Yes 和 No 的 30个问题答案对。为了防止模型通过汇总统计问题-答案对分布来回答问题，全部问题-答案对生成后会丢弃部分，并且为了消除偏差也会保证每类问题的数量基本一致。

.........................

第六章结束语

6.1 全文总结

本文从算法、数据集等方面讨论了视觉问答的现状以及存在的问题，对视觉问答算法进行分类并概括优缺点，特别讨论了现有视觉问答数据集在训练和评价方面的局限性，也描述了视觉问答技术未来的发展前景，为本文研究提供理论依据和研究方向。

在数学图表的视觉问答任务中，为了抽取更加高层次的图像语义信息，帮助视觉问答系统进行推理任务，本文提出了基于对象的视觉问答推理算法，相对于基线模型图像所采用卷积特征表示类似于黑盒技术，本文基于 Bottom-Up Attention 的思想，采用目标检测模型定位到图中对象，并对检测结果解码得到对象更高层次的语义表征。相对于原模型难以理解的特征表示，本文模型抽取的图像特征更易于人类理解并支持中间结果的检查。该模型在微软公开数学图表类数据集 FigureQA 上的性能超过了基线模型。

因为检测对象的特殊，现有目标检测模型直接迁移到本文研究的数据集上效果不够理想，为了解决这个问题，首先基于 FigureQA 制作了数据图表的目标检测数据集，为了降低训练成本，基于微调的思想采用预训练的 VGG 和 ResNet 模型初始化参数。选择目前主流的双阶段模型 Faster-RCNN 作为目标检测模块，根据数据集真实边界框的聚类结果优化模型预设锚框大小；使用 Soft-NMS 替换 NMS算法提升在目标高度重合情景下的检测效果；优化后的 Faster-RCNN 模型检测线图目标和预期有一定差距，训练单阶段目标检测模型 RefineDet 作为线图的补充实验。

参考文献（略）