一种基于词向量的缩写词歧义消除系统及方法

文档序号:8402774阅读:659来源:国知局
一种基于词向量的缩写词歧义消除系统及方法
【技术领域】
[0001] 本发明涉及一种歧义消除系统及方法,特别是关于一种基于词向量的缩写词歧义 消除系统及方法。
【背景技术】
[0002] 随着科技进步,各领域专业术语快速增长,缩写词多义现象非常普遍。例如, "UPS"至少包含"UPS电源"或"UPS物流公司"两种义项。在国外专门收录缩写词的网站 AcronymFinder. com中,每天平均增加37个人工标注的缩写词定义;平均每个缩写词有12 个不同的定义。缩写词专业性强,更新快,随着新术语不断涌现,缩写词的歧义性不断增加, 这不仅给读者阅读理解造成困扰,也会对现有的信息检索,机器翻译等应用造成障碍,研宄 首字母缩略词的消岐具有实际意义或应用价值。
[0003] 传统语义消岐方法常选取歧义词上下文语境作为特征,用向量空间模型表示文 档,其实质上是根据领域特征划分歧义词所在的文档,缺乏对歧义词语义信息的挖掘或利 用。虽然使用语义网例如WordNet中的语义知识辅助词义消歧效果相对较好,但是对于缩 写词而言,语义网络更新慢,覆盖度低,最重要一点是,针对特定领域的缩写词在消歧义时 候往往需要本领域方面的语义网络,没有一个比较通用的解决方案。

【发明内容】

[0004] 针对上述问题,本发明的目的提供一种基于词向量的缩写词歧义消除系统及方 法。
[0005] 为实现上述目的,本发明采取以下技术方案:一种基于词向量的缩写词歧义消除 系统,其特征在于:它包括预处理模块、关键词选择模块、词向量表示生成模块、缩写词库和 缩写词消歧模块;所述预处理模块将对含有目标缩写词的待检测文档中所有非字母符号及 停用词全部去除,并将预处理后的文档传送给所述关键词选择模块;所述关键词选择模块 针对处理后的文档,选择出现在目标缩写词前后距离小于固定长度以内的词语作为备选关 键词,并对备选关键词通过相对重要性进行筛选得到上下文关键词,并将得到所有目标缩 写词的上下文关键词集合传送给所述词向量表示生成模块;所述缩写词库具有训练数据集 中所有词语对应的词向量集合,并将其传送给所述词向量表示生成模块;还具有训练数据 集中每个目标缩写词的词向量表示,并传送给所述缩写词消歧模块;所述词向量表示生成 模块将所有上下文关键词所对应的词向量进行加和,得到待检测文档中每个目标缩写词的 词向量表示,并将其传送给所述缩写词消歧模块;所述缩写词消歧模块将目标缩写词的词 向量表示与所述缩写词库中的目标缩写词的每个意义的词向量表示做比对,选择选择最相 似的意义作为待检测文档中目标缩写词的意义。
[0006] 目标缩写词包括首字母缩略词。
[0007] 训练数据集是一系列含有至少一个目标缩写词的文档,且每一篇文档中的目标缩 写词意义已知。
[0008] 所述缩写词库包括预处理单元、词向量训练单元、关键词选择单元和词向量表示 生成单元;所述预处理单元包括文本清理机构和缩写词整理机构;所述文本清理机构将包 含目标缩写词的训练数据集中的每一篇文档中所有非字母符号及停用词全部去除,传送给 所述缩写词整理机构;所述缩写词整理机构将训练数据集中目标缩写词的每一个意义及每 一意义对应起来并进行标号,并将预处理后的文档分别传送给所述词向量训练单元和所述 关键词选择单元;所述词向量训练单元针对预处理后的训练数据集,采用词向量工具进行 词向量训练,得到训练数据集中所有词语对应的词向量集合,并将该词向量集合分别传送 给所述词向量表示生成模块和所述词向量表示生成单元;所述关键词选择单元针对训练数 据集中的每一个目标缩写词,从所有含有该目标缩写词的文档中选择目标缩写词前后距离 小于固定长度以内的词语作为备选关键词,并对备选关键词通过在文档中的相对重要性进 行筛选,得到所有目标缩写词的上下文关键词集合,并将该上下文关键词集合传送给所述 词向量表示生成单元;所述词向量表示生成单元将所有上下文关键词集合中的上下文关键 词所对应的词向量进行加和,得到训练数据集中每个目标缩写词的词向量表示,并将其传 送给所述缩写词消歧模块;所述词向量表示生成模块在所述缩写词库传送的上下文关键词 所对应的词向量进行加和,得到待检测文档中每个目标缩写词的词向量表示,并将其传送 给所述缩写词消歧模块。
[0009] 所述词向量训练单元中词向量工具采用Word2Vec,进行词向量训练时的维度为 200 维。
[0010] 所述关键词选择模块和所述关键词选择单元筛选备选关键词 的相对重要性采用TF-IDF方法,并采用R :( ^进行表示其重要性大小:
【主权项】
1. 一种基于词向量的缩写词歧义消除系统,其特征在于:它包括预处理模块、关键词 选择模块、词向量表示生成模块、缩写词库和缩写词消歧模块; 所述预处理模块将对含有目标缩写词的待检测文档中所有非字母符号及停用词全部 去除,并将预处理后的文档传送给所述关键词选择模块; 所述关键词选择模块针对处理后的文档,选择出现在目标缩写词前后距离小于固定长 度以内的词语作为备选关键词,并对备选关键词通过相对重要性进行筛选得到上下文关键 词,并将得到所有目标缩写词的上下文关键词集合传送给所述词向量表示生成模块; 所述缩写词库具有训练数据集中所有词语对应的词向量集合,并将其传送给所述词向 量表示生成模块;还具有训练数据集中每个目标缩写词的词向量表示,并传送给所述缩写 词消歧模块; 所述词向量表示生成模块将所有上下文关键词所对应的词向量进行加和,得到待检测 文档中每个目标缩写词的词向量表示,并将其传送给所述缩写词消歧模块; 所述缩写词消歧模块将目标缩写词的词向量表示与所述缩写词库中的目标缩写词的 每个意义的词向量表示做比对,选择选择最相似的意义作为待检测文档中目标缩写词的意 义。
2. 如权利要求1所述的一种基于词向量的缩写词歧义消除系统,其特征在于:目标缩 写词包括首字母缩略词。
3. 如权利要求1所述的一种基于词向量的缩写词歧义消除系统,其特征在于:训练数 据集是一系列含有至少一个目标缩写词的文档,且每一篇文档中的目标缩写词意义已知。
4. 如权利要求2所述的一种基于词向量的缩写词歧义消除系统,其特征在于:训练数 据集是一系列含有至少一个目标缩写词的文档,且每一篇文档中的目标缩写词意义已知。
5. 如权利要求1或2或3或4所述的一种基于词向量的缩写词歧义消除系统,其特征 在于:所述缩写词库包括预处理单元、词向量训练单元、关键词选择单元和词向量表示生成 单元; 所述预处理单元包括文本清理机构和缩写词整理机构;所述文本清理机构将包含目标 缩写词的训练数据集中的每一篇文档中所有非字母符号及停用词全部去除,传送给所述缩 写词整理机构;所述缩写词整理机构将训练数据
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1