WPS程序资源中多国文字一致性的智能判定的研究与实现

日期：2018年01月15日编辑：作者：无忧论文网点击次数：960

论文价格：150元/篇论文编号：lw200912291243525006 论文字数：3411 所属栏目：计算机专业论文

论文地区：中国论文语种：中文论文用途：职称论文 Thesis for Title

    摘要:本文针对WPS多国语言版本的语言一致性测试中遇到的问题进行了研究，定义了多国语言一致性判定的概念，将多国语言的一致性分为三个级别：字符、词、语义。在这三个级别中，根据Unicode编码规则结合各种语言独有的多字节字符集的编码规则实现了字符级别一致性的判定；在字符一致性的基础上，利用分词技术将文本分词，然后通过查找词典的方法实现了词级别的一致性判定；在分词的基础上，建立一个N-Gram统计语言模型，将文本分词后与该模型进行匹配实现了语义级别的一致性判定。
    最后，我们根据本文提出的方法实现了一个WPS的中、英文一致性判定的自动化工具。对于英文，本文采用了基于词典查找的拼写检查方法使一致性判定达到了词的级别；对于中文，本文采用统计语言模型进行一致性检查使一致性判定达到了语义级别。利用这个工具在WPS的三个项目中共找出了有效的英文错误33处、中文错误15处。试验结果证明了本文的方法是可行的，统计语言模型是能够应用到多国文字一致性判定中去的。

    目录

    1. 绪论 1

    1.1 课题的背景及目的 1
    1.2 国内外研究状况 1
    1.3 课题研究方法 3
    1.4 论文研究内容 3

    2. 字符编码简介 5

    2.1 从ASCII到Unicode 5
    2.2 Unicode、UCS和UTF 6
    2.3 中日韩统一表意文字 6
    2.3.1. CJK的发展 6
    2.3.2.字源分离原则 7
    2.3.3. CJK编码区间 8
    2.4 Unicode与GB2312在本文中的作用 8

    3. 分词介绍及语言统计模型 10

    3.1 中文分词简介 10
    3.1.1 最大正向匹配法 11
    3.1.2 逆向最大匹配法 12
    3.1.3 最少切分法 12
    3.1.4 双向匹配法 12
    3.1.5 中文分词中的难题 13
    3.2 统计语言模型 14
    3.2.1 统计语言模型简史 14
    3.2.2 统计语言模型的发展 14
    3.2.3 建立一个简单的统计语言模型 15
    3.3 N_Gram统计语言模型 16
    3.3.1 N-Gram语言模型概述[2] 16
    3.3.2 建立一个BiGram模型[6] 16
    3.3.3 N-Gram的数据稀疏问题 18
    3.3.4 N-Gram的数据平滑处理 18

    4. WPS程序资源中多国语言一致性智能判定的实现 22

    4.1 提取资源字符串 22
    4.2 英文一致性判定的实现 23
    4.2.1 英文字符一致性判定的实现 23
    4.2.2 英文词、语法一致性的判定的实现 24
    4.3 中文一致性判定的实现 27
    4.3.1 中文字符一致性判定的实现 27
    4.3.2 中文词、语法一致性的判定的实现 27
    4.4 实验结果与分析 29

    结论与展望 32

    致谢 34

    参考文献 35

    1.绪论

    1.1 课题的背景及目的

    随着国际合作的不断加强，软件国际化发展的趋势愈来愈明显，软件巨头如：微软、谷歌、雅虎等，很对年前就已经发布了他们的多语言版本。如今，历经了18年风风雨雨的WPS OFFICE已不满足于国内市场的争夺，开始在日本、东南亚等地不断的开拓市场，渐渐的走上了软件国际化的发展道路。到目前为之，WPS已经成功的推出了中、英、日等不同语言版本，而且随着时间的推移将会有越来越多的语言版本产生。
在WPS的开发与测试当中，每更新一次资源文件就要进行一次语言一致性的测试。根据统计，在WPS的三个项目（文字、演示、表格）中共有资源字符串10000多个，如果让手工检查需要3-4个小时的工作量，按照每    一......