基于语义图谱的短文本特征扩展方法

文档序号:6635701阅读:359来源:国知局
基于语义图谱的短文本特征扩展方法
【专利摘要】本发明公开了一种基于语义图谱的短文本特征扩展方法,包括以下步骤:利用短文本训练数据集进行主题建模,抽取主题词分布;对主题词分布进行重排序;构建候选关键词词典和主题-关键词语义图谱;基于链接分析的方法计算候选关键词和种子关键词的综合相似度评价,选择最相似的候选关键词完成对短文本的扩展。本发明方法较基于语言模型的短文本特征表示方法操作简单,执行效率高,而且充分利用关键词之间的语义关联信息,较传统的基于词袋模型的短文本特征表示方法,有效缓解了数据稀疏性问题和语义敏感性问题,不依赖于外部大规模辅助训练语料或者搜索引擎。
【专利说明】基于语义图谱的短文本特征扩展方法

【技术领域】
[0001] 本发明涉及文本挖掘【技术领域】,是一种基于主题-关键词语义图谱和链接分析的 短文本特征扩展方法,可应用于短文本分类、聚类任务中的特征表示,并最终应用于知识问 答,用户意图理解和智能检索等子领域。

【背景技术】
[0002] 随着大数据时代的到来,互联网以及各种移动终端都产生了大量的短文本信息, 比如网页检索片段、微博、产品评论、新闻标题以及各种微信息等,而特定用户所关注的有 用信息也被海量的资源所湮没。如何让系统智能管理和更好的使用这些海量的数据资源, 面临着巨大的挑战。因此一种高精度的短文本分类方法可以帮助系统加深对短文本内容的 理解,对于构建智能网络和智能系统有重要作用。短文本特征扩展是实现短文本特征有效 表示的一种必要手段,短文本的高精度自动分类是文本挖掘领域中一个重要的子问题。与 其紧密相关的【技术领域】包括:知识问答、用户意图理解、智能信息检索等。目前,短文本分类 任务的一个显著特征是总体数据量巨大,但是由于短文本长度的限制,其包含的词共现和 上下文信息不足。传统的特征表示方法和分类模型面临严重的数据稀疏性问题,同时由于 受到同义词和多义词的影响,快速准确的进行短文本的自动分类,仍然是一项极具挑战性 的技术。因此,如何获得短文本特征的有效表示并改善其分类性能是一个亟待解决的问题。
[0003] 针对海量短文本的自动分类技术展开的各项研究,主要是集中在如何选取更好的 特征表达上,以解决由于短文本自身特性所造成的稀疏性和歧义性问题。目前,短文本特征 的表示方法大体上可分为两种,一种是使用语言模型将短文本在特征空间中映射为有效的 特征向量;另一种是对短文本内容进行信息扩展,然后基于词袋模型对短文本特征进行表 /Jn 〇
[0004] 基于语言模型的短文本特征表示,主要是利用深度学习算法先对词进行向量表 示,然后再合成句子,或者直接对句子进行向量表示。但是该方法模型繁琐,执行复杂度较 高,而且在句子层面的特征表示尚不能满足应用需求。传统的词袋模型在对短文本进行特 征表示时,简单易操作,而且时间复杂度较低,但是存在严重的数据稀疏性问题,而且忽略 了词语之间的语义信息。此外,主题上很相关的短文本可能含有非常少的重叠关键词,导致 短文本之间的相似度难以有效计算,将直接影响分类任务的性能。目前针对该问题,主流的 技术主要是使用潜在的语义信息或者相关的关键词对短文本进行信息扩展。而这些扩展信 息的获得往往需要大规模的外部辅助语料或者借助搜索引擎,其中辅助训练语料和目标短 文本数据集要求具有语义一致性。然而这些大规模训练语料的收集是很耗时耗力的。基于 搜索引擎的特征扩展方法,首先是提取短文本中出现的关键词作为Query,通过搜索引擎进 行检索,然后将返回的结果作为扩展信息。但是这种方法的时间复杂度很大,特别是在处理 海量短文本时,是不可取的。
[0005] 综上所述,基于传统词袋模型的短文本特征表示技术主要存在以下两个问题:一 是短文本中词共现不足,以及关键词出现在不同的上下文环境中表达不同的语义,即短文 本在特征表示时存在数据稀疏性和语义敏感性问题;二是依赖外部大规模的辅助训练语料 或者搜索引擎,而外部训练语料要求与目标数据集具有语义一致性,这一点使其难以搜集。 基于搜索引擎的方法时间复杂度较大,难以适应海量数据或者在线数据的处理。这些问题 都使得短文本的相似度计算面临着巨大困难,严重影响分类任务的性能。本发明提出一种 短文本特征的扩展方法,可以在很大程度上弥补传统词袋模型的缺点,并进一步改善短文 本分类的性能。


【发明内容】

[0006] 针对上述两个主要问题,本发明提出了一种基于语义图谱的短文本特征扩展方 法,解决了传统词袋模型对短文本特征表示中的数据稀疏性问题和语义敏感性问题,并最 终改善短文本的分类性能。
[0007] 本发明所提出的一种基于语义图谱的短文本特征扩展方法包括以下步骤:
[0008] 步骤1,使用短文本训练数据集进行主题建模,提取每一个主题下的关键词概率分 布;
[0009] 步骤2,采用基于主题概率分布的指数变换排序方法,对每一个主题下的关键词分 布进行重排序,获得重排序的主题表示;
[0010] 步骤3,基于重排序的主题表示,对于每一个主题,选择前N个关键词生成由候选 关键词构成的候选关键词词典,并构建主题-关键词语义图谱;
[0011] 步骤4,采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文 本进行过滤,将匹配到的短语作为种子关键词,利用主题-关键词语义图谱,候选关键词词 典中所有元素的相似度,提取前V个最相似的候选关键词对所述种子关键词进行扩展。
[0012] 优选的,步骤2中基于主题概率分布的指数变换排序方法,其评分计算方法是对 每一个主题下关键词的分布进行指数变换?£/〃',然后对每一个关键词估计一个显著度值 SAS,公式为
[0013]

【权利要求】
1. 一种基于语义图谱的短文本特征扩展方法,其特征在于,包括以下步骤: 步骤1,使用短文本训练数据集进行主题建模,提取每一个主题下的关键词概率分布; 步骤2,采用基于主题概率分布的指数变换排序方法,对每一个主题下的关键词分布进 行重排序,获得重排序的主题表示; 步骤3,基于重排序的主题表示,对于每一个主题,选择前N个关键词生成由候选关键 词构成的候选关键词词典,并构建主题-关键词语义图谱; 步骤4,采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文本进 行过滤,将匹配到的短语作为种子关键词,利用主题-关键词语义图谱,候选关键词词典中 所有元素的相似度,提取前V个最相似的候选关键词对所述种子关键词进行扩展。
2. 根据权利要求1所述的方法,其特征在于,步骤2中基于主题概率分布的指数变换排 序方法,其评分计算方法是对每一个主题下关键词的分布进行指数变换e%·1,然后对每一 个关键词估计一个显著度值SAS,公式为
其中,是主题Z下第i个关键词的概率分布值,K是总的主题个数。
3. 根据权利要求2所述的方法,其特征在于,步骤3中主题-关键词语义图谱构建方法 为: 步骤3. 1 :对于每一个重排序的主题,选择前N个关键词作为候选关键词,所有主题的 候选关键词构成候选关键词词典; 步骤3. 2,将每一个主题选取的候选关键词作为叶子节点,相应的主题索引作为父亲节 点,生成一个有向二分图的团簇,所有的主题构成一个主题-关键词语义图谱; 步骤3. 3,将步骤2中计算所得显著度值,设置为主题-关键词语义图谱中父亲节点指 向叶子节点的连接边上的权值。
4. 根据权利要求2或3中任一项所述的方法,其特征在于,种子关键词和候选关键词的 相似度的计算包括以下步骤: 步骤4. 1 :计算种子关键词和候选关键词词典中所有元素的结构相似度,公式为 SR (Swi,CWj.) = SAS (Swi) SAS (CWj) s (Swi,CWj.) 其中,SWi是目标短文本中第i个种子关键词,是候选关键词词典中第j个候选关 键词,SAS(SWi)为SWi的显著度值,SAS(CWj)为CWj的显著度值,s (SWi, CWj)是传统基于链 接分析的结构相似度计算方法计算的Swi与CWj的相似度的值,SR(sWi,CW j)是计算出的Swi 与CWj结构相似度的值。 步骤4.2 :计算种子关键词和候选关键词词典中所有元素的语义相似度,包括如下步 骤: a、 提取Swi对应的主题分布向量,提取c%对应的主题分布向量; b、 利用计算种子关键词和候选关键词的K-L散度,并以该值作为语义相似 度; 步骤4. 3 :综合结构相似度和语义相似度对关键词进行综合评分,公式为
其中,KL (Swi, CWj)是种子关键词Swi和候选关键词CWj之间的K-L散度,CScore (Swi, CWj)是计算出的SWi与CWj结构相似度和语义相似度的综合评分。
5. 根据权利要求4所述的方法,其特征在于,选取种子关键词时,对种子关键词所属主 题数目进行统计,如果所属主题数目大于一定阈值,应将种子关键词剔除。
6. 根据权利要求5所述的方法,其特征在于,步骤1中的建模方法为采用基于二元词组 的主题模型直接对短文本数据集中的词共现进行建模。
【文档编号】G06F17/30GK104391942SQ201410686237
【公开日】2015年3月4日 申请日期:2014年11月25日 优先权日:2014年11月25日
【发明者】徐博, 王鹏, 王方圆, 张恒, 郝红卫 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1