计算机软件论文栏目提供最新计算机软件论文格式、计算机软件硕士论文范文。详情咨询QQ:1847080343(论文辅导)

面向视觉问答的图像处理技术研究

日期:2020年07月22日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1411
论文价格:150元/篇 论文编号:lw202007141524276836 论文字数:42554 所属栏目:计算机软件论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
......... 55

5.2  评价指标 ............................... 56


第五章  视觉问答实验设置及结果分析


5.1  数据集

本章节使用的数据集是 FigureQA,在 4.2 小节中已经对 FigureQA 图片部分进行了详细阐述。FigureQA 数据集作为生成数据集,问题-答案对同图片一起生成,FigureQA 提供了十五个问题模板,如表 5-1 所示。

FigureQA 数据集的答案模式为多项选择模式中的 Yes/No 模式。FigureQA 对于一张图片生成问题-答对时,基于 15 个模板分别生成答案为 Yes 和 No 的 30个问题答案对。为了防止模型通过汇总统计问题-答案对分布来回答问题,全部问题-答案对生成后会丢弃部分,并且为了消除偏差也会保证每类问题的数量基本一致。

.........................


第六章  结束语


6.1  全文总结

本文从算法、数据集等方面讨论了视觉问答的现状以及存在的问题,对视觉问答算法进行分类并概括优缺点,特别讨论了现有视觉问答数据集在训练和评价方面的局限性,也描述了视觉问答技术未来的发展前景,为本文研究提供理论依据和研究方向。

在数学图表的视觉问答任务中,为了抽取更加高层次的图像语义信息,帮助视觉问答系统进行推理任务,本文提出了基于对象的视觉问答推理算法,相对于基线模型图像所采用卷积特征表示类似于黑盒技术,本文基于 Bottom-Up Attention 的思想,采用目标检测模型定位到图中对象,并对检测结果解码得到对象更高层次的语义表征。相对于原模型难以理解的特征表示,本文模型抽取的图像特征更易于人类理解并支持中间结果的检查。该模型在微软公开数学图表类数据集 FigureQA 上的性能超过了基线模型。

因为检测对象的特殊,现有目标检测模型直接迁移到本文研究的数据集上效果不够理想,为了解决这个问题,首先基于 FigureQA 制作了数据图表的目标检测数据集,为了降低训练成本,基于微调的思想采用预训练的 VGG 和 ResNet 模型初始化参数。选择目前主流的双阶段模型 Faster-RCNN 作为目标检测模块,根据数据集真实边界框的聚类结果优化模型预设锚框大小;使用 Soft-NMS 替换 NMS算法提升在目标高度重合情景下的检测效果;优化后的 Faster-RCNN 模型检测线图目标和预期有一定差距,训练单阶段目标检测模型 RefineDet 作为线图的补充实验。

参考文献(略)