这种情况,本文在进行文本结构化处理之前设计了预处理模块,利用Word2vec工具训练得到词向量后计算其余弦相似度,合并余弦值大于某个阈值的词向量,从而消除一义多词现象,规范病理检查报告中的文字表述,提高结构化模块处理的准确性。此外,在消除一义多词后,预处理模块还需要对病理检查报告中的句子结构进行了简化,将长句切分成若干短句,同时为了避免在切分短句的过程中丢失语义信息,在预处理模块中将对每个短句所描述的器官或组织等关键信息进行标注,在保留原始信息描述对象的同时也起到了本文4.2节中提到的简化依存关系树的作用。
2.2结构化模块
关键指标的自动发掘和对应指标值的提取是病理检查报告结构化的关键步骤,也是整个结构化过程的核