第 1 章 绪论
1.1 课题研究的目的及意义
20 世纪中期,第一台计算机在美国诞生,人类的信息时代拉开了序幕,随后信息革命悄无声息的开始了,到目前为止,计算机已经由原来的仅供军事领域到人们的日常生活中,功能更是不可同日而语了。计算机已经发展成人们生活中不可或缺的一部分,在生活、娱乐、工作中都占据着重要的位置,计算机的功能和性能也在不断的加强,如何使计算机与人之间能更加友好的交互是信息技术研究的重点。人类可以通过视觉、听觉、嗅觉、触觉捕获信息,人与人之间甚至可以通过眼神、动作完成信息传递,人与计算机的交互变成人与人之间交流一样便捷是人机交互的最终目标。人类承载信息的方式主要包括声音、图像、语言和文字,而文字信息的作用是任何一种方式无法取代的。史书上的文字记载让后人更清晰的了解过去,传承文化;日常办公中的合同、发票、文档都是通过文字存储信息[1]。许多人机交互研究学者对文字的研究高度重视,在早期的研究性计算机中采用穿孔卡方式输入,到后来采用键盘鼠标输入方式,再到如今的触摸屏输入以及语音输入,每次人机交互的革新,都是计算机技术的进步。随着计算机以及便携移动设备的普及,如智能手机、平板电脑、多功能手表等等,在当前生活模式下每日的信息产量剧增,人机交互的效率成了信息时代发展的难题,如何能智能的对人类语言、文字以及动作做出快速识别成了学术界和科技企业界的研究热点。
...............
1.2 国内外研究现状
在上个世纪60年代,美国IBM公司开始进行了对印刷体汉字的模式识别研究工作,1996年Casey和Nag用模板匹配法成功的识别出了1000个印刷体汉字,在全球范围内,汉字识别开始展开了。而就在这个时候,研究界对手写汉字识别也掀起了高潮。因为汉字在日语中占有一定的地位,手写体汉字识别在一开始是由日本率先尝试研究的,在80年代,国内开始了对手写汉字的研究,因为汉语作为我们的母语,汉字主要在我国广泛使用,对汉字的种类、内涵、造字原理国内的掌握情况较透彻,所以关于手写汉字识别的深入研究主要集中在国内,国外对英语研究兴趣浓厚,对汉字的研究相对较为单一。脱机手写汉字识别有着广泛的前景,将已经写好的汉字文本,通过仪器扫描生成文本图像,将文档转换成数字信息,利用这些数字信息将图像中的汉字识别出来,这一研究在实际生活中具有非常实用的价值,例如可以应用在邮件分拣、财税、金融等领域,实现自动化识别,减少人工操作,节省时间有节省人力,方便人们的生活。
...............
第 2 章 相关技术概述
2.1 引言
深度学习是机器学习的子领域,交叉了多领域知识,最基本的有神经网络、人工智能,为了实现人工智能,通过模拟人脑,建立神经网络,模拟人的思维方式下对数据的处理机制来解释数据,是基于表征学习的多层次的机器学习算法。表征学习的目标是寻找更好的表示数据方法[21],并这对这种方法创建一个模型来学习数据特征,例如一张图片中,可以用强度值矩阵表示像素,图片就是作为一个观测值,这就是一种表征学习方法,这些方法可以简化学习任务。深度学习可以理解为传统的神经网络的扩展,如图 2-1 所示,深度学习与传统的神经网络有很多相似的地方,深度学习采用了与神经网络相类似的分层次网络结构,包括输入层、隐层、输出层,但是其中隐层可以无限扩展,层与层之间的节点全连接,层内无连接。
...............
2.2 浅层学习和深度学习
在机器学习的发展史中,深度学习经历了两个重要阶段,先后为浅层学习和深度学习。浅层学习是机器学习的第一次浪潮,目前大部分的分类、回归算法都属于浅层结构,一般浅层结构只包含 1 层或者 2 层。典型的浅层学习方法有高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔科夫模型 HMM、条件随机场(Conditional Random Field,CRF)、最大熵(Max Ent)模型、支持向量机SVM、逻辑回归、核回归、多层感知机等。浅层学习都是将原始输入信号或特征转换到特定问题的特征空间中,对于解决一些简单问题或者某些受限问题有很好的效果。但是随着数据量的增多,浅层学习出现了短板,训练方法时需要很多经验和技巧,对一些复杂函数的处理,其建模能力和表征能力有一定的局限性,对于语音处理、自然图像处理的能力较弱。而深层次学习,通过层次逐渐加深,对复杂函数的计算能力被加强,显示出从小样本集中学习数据本质特征的能力。
...............
第 3 章 深度信念网络融合模型对手写汉字的识别............... 20
3.1 引言............... 20
3.2 深度信念网............... 21
第 4 章 基于卷积神经网络的手写汉字的识别............... 30
4.1 引言................ 30
4.2 手写字数据集................. 30
第 4 章 基于卷积神经网络的手写汉字的识别
4.1 引言
卷积神经网络手写字识别的应用,起源于国外,卷积神经网络自从提出后一直应用在手写数字识别问题上进行研究,随后是英文字符[38]。国外著名的实验应用在手写字识别方面就是由Le Cun等人提出的Lenet-5系统,Lenet-5是一个五层的卷积神经网络,该系统在当时大大提高了手写数字识别的准确率,并将该系统应用在对银行票据上的数字进行识别,在商业界获得不小的成功。2012年Pham等人将卷积应用到联机手写英文和手写数字识别上,利用MNIST和UNIPEN数据集,对传统的Lenet-5进行了改进。2011年Ahranjany等人提出一种能识别手写波斯语和阿拉伯数字的系统。国外学者利用卷积神经网络在图像处理方面的优势,先后应用卷积神经网络进行字符识别问题的研究,在手写字符领域进行不断的尝试,这对于国内学者来说是十分具有参考和借鉴价值的。随着深度学习在国内掀起研究的热潮,受国外学者的启发,国内开始应用卷积神经网络对手写汉字识别研究。
...............
4.2 手写字数据集
光学手写字符识别(Optical Character Recognition,OCR)是模式识别中一个重要的分支,通过电子设备将纸质文档转换为图像文件,然后对相应的图像文件进行识别。随着手写汉字识别的不断发展,研究人员开始尝试建立一些大规模标准数据库,一方面为相关研究提供平台,另一方面有助于各类识别方法的性能比较和改进。目前英文数据库的建立已经非常完善了,从MNIST手写数字到字母都在不断升级,国内外有很多著名的字符实验都是在MNIST数据集上完成的。为了便于对手写汉字识别的研究,手写汉字数据集的建立越来越受国内学者的重视。目前国内有几个权威的手写文字数据库,包括中科院自动化所采集的CASIA系列手写字数据集,哈尔滨工业大学采集的HIT-MW手写字数据集和HIT-OR3C手写字数据集,华南理工大学采集的SCUT-COUCH手写字数据集,清华大学电子工程系智能技术与系统国家重点实验室采集的THOCR-HCD手写汉字数据集,北京邮电大学采集的HCL2000手写汉字数据集,这些数据集为汉字研究提供了基础。
...............
结论
本文从手写汉字识别的发展前景和需求出发,分析了当前手写汉字识别方法在特征提取和分类上的不足,应用深度信念网络和卷积神经网络进行改进,提高了脱机手写汉字识别的准确率,本文介绍了深度学习的相关技术及原理,研究并提出了本研究主要涉及到的技术及方法。对深度学习的研究,主要研究工作以及结论主要包括以下几个方面:1.由于 MQDF 分类器具有较高的鲁棒性,设计和实现起来也很方便,已经应用在脱机手写汉字识别问题中。但是汉字中存在一些笔画繁多,难以辨别的汉字,对于这类汉字,MQDF 识别的准确率就会降低。而深度信念网对复杂函数的计算能力强,结合 MQDF,文中提出一种适合脱机手写汉字识别的融合模型分类方法,简单容易辨识的汉字交给 MQDF 进行识别,复杂的文字交给DBN 识别,进而提升识别的准确率。
参考文献(略)