Topic Quester：一种可交互的不同来源话题的电气可视化分析方法

日期：2018年01月28日编辑：ad201107111759308692 作者：无忧论文网点击次数：1854

论文价格：150元/篇论文编号：lw201708191525458563 论文字数：38516 所属栏目：电气工程论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

第一章简介

现代大量的科学研究表明，全景展示能够为决策支持提供新视角[1,2]。分析和研究国际顶级期刊杂志，可以发现科学领域的主要研究方向以及这些领域之间的关系。然而，这个过程总是会消耗专家学者很多的精力和时间，他们不得不反复地从一个科研语料的来源切换到另一个语料来源，才能建立起对每个科学期刊以及相关话题的综合理解[3]。举例来讲，当一个学者要研究数据挖掘和分析领域的科研成果时，他需要首先从数据库中搜索相关的论文，然后研究相关的话题并理解他们之间的作用关系。同时，这个学者不得不时刻关注最新的相关科研成果，并且不断重复这个过程。在这个分析过程中，为了比较他感兴趣的话题，分析者需要不断来回于不同的科学期刊之间。为了支持这个过程，能够将分散在不同来源的语料中的相关话题集中在一起，从而重建一个全景的分析场景，显得尤为重要。话题建模作为一种广泛使用的方式，常被用来理解大量的文本语料集，并从中发掘感兴趣的信息[4]。这些建模方法既可以用来解释话题之间如何相互作用，同时又能提供一个高效综合的方法去理解话题之间的关系。其中，Correlated Topic Modeling (CTM)[5]是一种探索不同来源语料中的相关话题的一个自然有效的方法。Scalable CTM[6] 是最新的话题建模研究成果，它基于 CTM，同时采用不同的建模分布模型，适用于大规模的运用。因此，本论文首先将Scalable CTM 的话题建模方法运用于不同来源的文本语料，从中抽取出话题以及话题之间的关系。然后，我们开发了一个可交互的，可视化分析工具——Topic Quester，它由三个子视图构成。这个话题可视化方法的特点在于，它不仅展示了不同来源语料中的话题，同时分层次地可视化语料中的关键词在每个话题中的分布，以及话题在不同语料来源的分布。它给用户一个有关每个话题的内容和分布的综合印象。这个工具着眼于一致地将不同来源的文本集通过共同话题或个性话题综合起来，从而提供一个迭代的，渐进的分析综合体。该系统设计并包含了大量的交互方法[7]，去支持话题和文本的分析。
...........

第二章相关工作和技术

2.1 相关工作
话题模型，如 Latent Dirichlet Allocation（LDA）[8]，是对文档集合和其他离散数据进行统计分析的可靠工具。LDA 模型假定每个文档的单词是来源于不同的话题，每个话题都是在词汇上的分布。但是，LDA 的限制是无法建模话题之间的相关性，例如，一个有关基因的文档更有可能是疾病相关的话题，而不是射电天文学。这种局限性源于使用 Dirichlet 分布模型来建模话题之间的比例关系的变化。Correlated Topic Model（CTM）[5] 通过对数正态分布对不同话题比例之间的相关性进行建模。CTM 采用平均场变分推理算法来实现近似后验推断，这个算法由于对数正态分布与多项式分布的不共轭性而变得复杂。CTM 比 LDA 更适合处理来自科学杂志的文本集。此外，CTM 提供了一个可视化和探索科学文章以及其他非结构化数据集的自然方式。基于对数正态分布的话题模型可以有效地发现潜在话题之间的相关结构。然而，它们的推理仍然是一个挑战，因为对数正态分布和多项式话题混合比例之间的非共轭性。以前的算法，或者是限制了平均场的假设，或者是不能扩展到大规模的应用。Scalable CTM 提出 Partially Collapsed Gibbs Sampling 算法，通过探索数据增强思想，证明分布的正确性。为了提高时间效率，该方法还进一步提出了一个并行的实现，可以应用于大规模的场景，并学习和建模数以百万计的文件中成千上万的话题之间的相关结构。本论文采用基于 Correlated Topic Mode (CTM) 的 Scalable Correlated TopicModel (Scalable CTM) 算法。CTM 通过对数正态分布对不同话题之间的相关性进行建模[9]，比 LDA 更适合处理来自科学杂志的文本集。但是该方法限制了平均场的假设，而且求解复杂，难以扩展到大规模的应用。Scalable CTM 算法借助数据增强思想来证明分布的正确性，弥补了 CTM 算法的不足。而且，为了提高时间效率，该方法还进一步提出了一个并行的实现，可以应用于大规模的场景，能有效地学习和建模数以百万计的文档中成百上千的话题。
..........

2.1.2 话题可视化
话题可视化，旨在促进理解和分析基于文本语料库的话题，近年来受到了相当大的关注[10,11]。一般而言，它可以分为两类：动态的话题可视化和静态的话题可视化。大多数现有的动态话题可视化基于河流的隐喻去分析发展的话题[12]。例如，Havre 等人首先采用一个河流的隐喻传达随着时间的推移不断变化的话题。为了帮助分析师更好地探索和分析大量的文献收集，TIARA[13] 将叠图可视化与 LDA[8] 模型结合起来说明随着时间的推移话题演化的模式。灵感来源于同样的隐喻，Backchannel[14] 被用来可视化提取自微博文本的基于关键词的话题。Parallel Topics[15] 采用河流图来说明随着时间的推移话题的演变，采用平行坐标图来表达不同话题的文档的概率分布。Text Flow[16] 和 Roseriver[17]使用桑基图可视化传达随着时间的推移话题合并和分裂的关系。一个 Xu[18] 等人设计的可视化的分析系统，允许分析人员以交互方式探索和理解话题之间的动态竞争关系和主流观点对它们的影响。最近，Sun 等人扩展这项工作来研究话题之间的合作和竞争关系[19]。上述方法的重点是帮助探索单一文本来源的话题发展模式。不同于这些方法，我们的工作旨在提供一个多文本来源的可交互的可视化分析工具，用于分析不同来源中公共的和独有的话题。静态话题可视化使用词汇列表或词云用来可视化话题模型。例如，Chaney和 Blei 使用单词列表来展示由话题模型发现的隐藏结构[20]。这个可视化对于用户了解文本集中的主要话题以及一个文本中的话题分布是有用的。然而，它无法提供话题之间的关系和多个语料库中相关话题的全景。
..........

2.2 相关技术

2.2.1 Mongo DB
Mongo DB 是一个跨平台的、介于关系数据库和非关系数据库之间的产品，是非关系数据库（No Sql）当中功能最丰富的。它支持的数据结构非常松散，是类似 json 的 bson 格式，因此可以存储比较复杂的数据类型。Mongo 最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。Mongo DB 很好的实现了面向对象的思想(OO 思想)，在 Mongo DB 中每一条记录都是一个 Document 对象[25]。Mongo DB 最大的优势在于所有的数据持久操作都无需开发人员手动编写 SQL 语句,直接调用方法就可以轻松的实现CRUD 操作。本小节首先简单介绍关系型数据库，从关系型数据库所遇到的问题讲到 No SQL 的崛起，然后讲述 No SQL 时如何解决这些问题的。Mongo DB 是No SQL中最热门的一种数据库，接下来本小节又介绍了 Mongn DB 的特点、以及数据结构等。通过这些介绍，本论文中数据的存储采用 Mongo DB 而不是传统的关系型数据库的原因就很清晰明白了。
..........

第三章TopicQuester系统原型设计.......20
3.1设计目标....20
3.2系统概述....21
第四章详细设计和实现....24
4.1ScalableCorrelatedTopicModeling算法....24
4.1.1对数正态话题建模.......25
4.1.2GibbsSamplingwithDataAugmentation............26
4.1.3话题建模结果..........2
64.2可视化设计.....26
第五章案例应用与评价....33
5.1应用和过程.....33
5.1.1数据准备.........33
5.1.2话题建模.........35
5.1.3可视化分析.....36
5.2案例分析和系统评估........38
5.2.1案例分析.........39
5.2.2专家反馈.........44

第五章案例应用与评价

5.1 应用和过程

IEEE Transactions on Visualization and Computer Graphics(TVCG) 以及 ACM Transactions on Graphics (TOG) 从 2000 年到 2015 年 10 月发表的所有收录的论文数据，为专家和学者们提供一个科研分析工具。该可视分析方法应用于期刊的特点在于，它不仅展示了不同来源期刊中的话题，同时分层次地可视化语料中的关键词在每个话题中的分布，以及话题在不同期刊来源的分布。它给用户一个有关每个话题的内容和分布的综合印象。这个工具着眼于一致地将不同开源的文本集通过共同的话题或个性话题综合起来，从而提供一个迭代、渐进的分析综合体。该系统同时设计并包含了大量的交互方法，去支持话题和文本的分析。从期刊和引文数据库可以获取到需要分析的数据，但大多数数据库并没有提供批量导出接口。人工检索和下载论文的工作量太大，不具有可行性。为了支持从不同的引文数据库批量自动下载论文，需要设计和实现一个网络爬虫程序[49]。从开发效率和实用性的角度考虑, 选取脚本语言 Python 作为开发语言。由于各个论