本文是一篇软件工程硕士论文,本文聚焦于卷积神经网络在古籍文档图像增强中的应用,尝试将其融入文档图像的增强过程。
1 绪论
1.1 研究背景与意义
在当今数字化时代,古籍、碑帖和书法作品等历史文档的数字化图像几乎无处不在,且其应用范围极为广泛,这些文档承载着重要的文化及历史信息。然而,这些宝贵的历史文档往往面临各种损坏的风险。如图1-1所示,材料老化、墨迹扩散和颜色渗透,或者在数字化过程中因为不理想的光照条件、阴影效应、相机失真(包括噪声和模糊)等问题降低了文档图像的视觉质量和易读性。低质的文档图像包含很多问题,主要包含字体本身的属性问题:如字体的大小,字体的种类以及字体的撰写等方式;字体图像获取的方式:如扫描,拍摄等。同时,文档图像中字体媒介的材质存在多样性,如石碑、竹简、纸张和布料等,进一步增加了复杂性。随着时间的推移,老旧文档还可能因为各种原因(如湿度、水损、不当存储或使用劣质材料等)而发生退化。因此,利用数字化技术[1]增强并复原这些历史文档的内容具有十分重要的研究意义与实际应用价值。
1.2 国内外研究现状
图像增强[1](Image Enhancement)作为数字图像处理领域的一个基本概念,随着数字图像处理技术不断发展,文档图像增强作为图像增强内的一个重要分支,其理论和方法得到了快速的发展和广泛的应用。 本节主要从以下两个方面对国内外与文档图像增强相关的研究进行分析并总结:1、基于传统方法的文档图像增强方法,2、基于深度学习的文档图像增强方法。
1.2.1 传统文档图像增强方法
传统文档图像增强技术通常根据具体需求,移除或强调图像中的特定信息,从而改进视觉效果,使文档图像更适合进行下一步分析或其他相关操作。这些传统方法主要可分为两种类型:一种是基于空间域的文档图像增强方法[11],另一种是基于频率域的文档图像增强方法[12]。
(1)基于空间域的文档图像增强方法
基于空间域的图像增强方法是直接在图像像素上进行操作,其主要可以分为线性和非线性变换、直方图均衡化[13]处理以及基于Retinex[14]的方法。
线性变换是一种将图像的灰度动态范围通过线性方式扩展至特定或完整的动态范围的方法。这种变换特别适用于图像因光照不足造成对比度较低的情况,可以通过使用分段线性转换函数来增强图像的对比度。非线性变换通过应用特定的非线性函数,比如对数或幂律(伽马)变换,将图像中的窄范围灰度值映射到一个更广泛的输出灰度范围。这种方法特别适用于增强图像中低灰度区域(即图像的暗部)的对比度和细节,使这些原本在被压缩的高灰度值图像中不易察觉的暗部细节变得更为清晰可见。线性和非线性变换能够直观地调节文档图像的对比度和亮度,提升清晰度和可读性,但是可能会导致部分区域出现过度增强,对细节保持不足,特别是在处理严重退化的文档图像时,可能会增加噪声,而且在处理具有大面积同色背景的文档时效果不佳。
2 相关技术及原理
2.1 深度学习相关技术原理
2.1.1 残差网络原理及分析
残差网络ResNet(Residual Network,ResNet)由He等人[56]提出,它有效地解决了深度学习网络模型训练过程中出现的梯度消失和梯度爆炸的问题[57]。该网络引入了“残差学习”的新理念,并设计了一种新的网络结构。该结构通过将前一层的输入与当前层的输出相加,从而更好地学习残差特征。残差网络的主要创新是其专注于学习输入到输出的恒等映射[58](Identity Mapping),这比非线性映射的学习要简单得多。通过引入残差结构,网络模型能更有效地掌握复杂的特征,在文档图像增强任务中,这意味着可以更有效地学习和提取图像中的细微特征,如文本的轮廓、笔画和纹理等。在处理具有不同字号和密度的文档图像时,残差网络可以结合多尺度处理策略,如多尺度特征融合或多尺度内容损失函数,以提高对不同尺度特征的适应能力和处理效果。
(1)残差模块
残差模块(Residual Block)的结构如图2-1所示。其中x表示残差模块的输入,输入x经过两个卷积层得到残差F(x)。残差模块的输出H(x)是输入x与残差F(x)的对应元素相加所得。H(x)的计算原理如公式(2-1)所示:
2.2 注意力机制相关技术原理
注意力机制[61](Attention Mechanism)是一种模仿人类注意力机制的计算机科学原理,主要用于提高神经网络在处理序列数据时的性能。注意力机制被广泛应用于各种图像处理任务,如目标检测、图像分割和图像修复等领域。
注意力机制的主要概念是使网络模型在处理输入数据的过程中,能够动态地聚焦于输入中的各个不同部分,而非对所有输入一视同仁地进行平均处理。通过实施注意力机制,网络模型能够根据输入数据各部分的重要性分配相应的权重,这样可以使网络更有效地专注于与当前任务最相关的信息,从而提升模型的性能和泛化能力。
2.2.1 通道注意力机制
通道注意力机制[62](Channel Attention Mechanism)在文档图像增强中的应用可以显著提升模型对文档中不同内容的处理能力。这种机制通过动态调节每个通道的重要性,使模型能够更有效地处理输入数据。具体在文档图像增强中,通道注意力可以优化模型对文本细节和背景噪声的区分,从而提升图像的清晰度和整体质量。
在文档图像中,不同通道可能包含关于文本边缘、纹理或颜色的独特信息。通过引入通道注意力机制,模型能自动识别哪些通道对恢复文本可读性和增强细节最为关键,并据此调整这些通道的权重。这样的动态调整可以帮助模型更加聚焦于有助于文档图像质量提升的特征,例如在低对比度区域增强文字的可见性,或在高光照区域减少过度曝光效果。
3 基于快速傅里叶卷积和混合注意力的文档图像增强方法 .............. 21
3.1 问题的提出 ................ 21
3.2 算法描述 .............................. 21
4 基于线性交叉注意力的多尺度特征融合网络的文档图像增强方法 ........................ 37
4.1 问题的提出 ............................ 37
4.2 算法描述 ...................................... 37
5 古籍文档图像增强系统设计与实现 ........................... 49
5.1 系统需求分析 ............................... 49
5.1.1 系统功能需求分析 .............................. 49
5.1.2 系统用户用例分析 ................................ 50
5 古籍文档图像增强系统设计与实现
5.1 系统需求分析
5.1.1 系统功能需求分析
本系统旨在创建一个便捷的在线平台,以便用户对低质古籍文档图像进行增强。因此,本系统主要提供以下三个功能:用户登录、管理员系统管理、在线增强图像。本章内容的核心在于将第三章和第四章所研究的文档图像增强方法应用于实际的应用系统开发中,特别是在线增强功能,它由两大子系统组成:一是采用基于快速傅里叶卷积和混合注意力的卷积神经网络进行文档图像增强的子系统;二是采用基于线性交叉注意力的多尺度特征融合网络进行文档图像增强的子系统。接下来将对这些功能进行进一步的详细说明。
(1)用户登录功能
用户登录功能主要管理系统的用户认证过程,其核心功能包括验证用户提供的登录信息(用户名和密码),并分配不同的角色及权限给不同的用户。用户角色分为管理员和普通用户:管理员拥有完全的系统访问权限,包括用户管理、系统监控和访问文档图像增强子系统的权限;而普通用户仅限于使用文档图像增强子系统的权限。
(2)管理员系统管理功能
对于管理员而言,一旦成功登录系统,他们能够管理系统内的用户数据,主要包含编辑、修改用户信息,以及新增和移除用户;同时,管理员有权限监控系统,检查系统的运行状况。
6 总结与展望
6.1 总结
本文首先探讨了古籍文档图像增强技术的研究背景和重要性,明确了研究的价值所在。接着,通过回顾图像增强领域的发展现状,本研究既对比了传统文档图像增强方法和基于深度学习方法的不同,也指出了这些方法在处理古籍文档图像增强任务时存在的限制和挑战。具体而言,传统方法通常针对特定退化场景,这些方法在细节恢复上存在不足,而且计算复杂度相对较高。另一方面,深度学习方法虽然广泛应用于图像增强,但对文档图像的适用性不足,因为文档图像与场景图像不同,它们的关键在于文字内容及其复杂的结构,未加调整直接将其用于文档图像增强任务中,可能导致文本的语义或结构错误。鉴于上述问题,本文主要完成的工作如下:
(1)研究基于快速傅里叶卷积和混合注意力的文档图像增强方法,首先为了保证经过增强后的文档图像中文字结构完整,本方法首先设计了快速傅里叶卷积残差块,其使网络模型在早期网络层中使用全局上下文信息,具有覆盖整个图像的感受野,有助于对文档图像的特征进行充分的提取;其次,设计了混合注意力模块去重点关注文档图像中的文字结构信息,混合注意力模块拥有通道注意力分支和空间注意力分支,可以分别从通道维度和空间维度产生注意力图,在局部拓扑空间注意力模块中引入了动态蛇形卷积来提高文字笔画特征提取的能力;此外,为了改善网络模型增强后的文档图像中的文字出现边缘模糊的问题,在网络训练中,使用重建损失、感知损失、梯度损失和结构相似性损失相结合的方式,使网络重建出的文档图像中的文字边缘清晰。最终通过上述改进,在自制的LQTI-Enhancement古籍文档图像数据集上从定性和定量的角度与现存的一些基于深度学习的图像增强方法进