针对社交媒体的观点检索系统及方法与流程

文档序号:14444336阅读:954来源:国知局

本发明涉及观点检索领域,更具体地,涉及一种针对社交媒体的观点检索系统及方法,能够结合知识图谱,高效地从社交媒体等文档集中检索出与给定查询相关,同时带有对查询的观点的相关文档列表。



背景技术:

当前,有很多技术方法可用于观点检索。传统的观点检索方法将观点检索分为两个阶段,首先利用传统的信息检索模型或者语言模型得到主题相关的文档集合,接着利用观点分类器从主题相关文档中得到带有观点的文档,该类方法工作重点在于第二个阶段,但用于观点检索中缺少理论依据,效果也不够理想。

当前,存在着一些线性组合观点检索方法。利用传统的信息检索模型或者语言模型得到主题相关度得分,通过观点分析模型计算得到观点相关度得分,使用线性组合公式将两种相关度得分结合为一个得分,并根据得分高低进行排序。但该类方法结合方式过于简单,若主题相关度得分或者观点相关度得分中某一项得分比另一项大的多时,不能很好的反映真实的情况,结果也不够准确。

当前,还存在着一些统一观点检索模型。将主题相关度和观点得分结合到统一的检索模型中,从传统的基于统计的检索模型出发,推导出统一的检索模型,模型包含了主题相关部分和观点相关部分。该类模型拥有较好的理论支持,是目前效果较好的一类方法。

然而,在社交媒体中,用户的查询输入通常较短,往往只是一个简单的词语,很难准确表达用户查询的信息需求,而目前的观点检索系统和方法往往对该问题没有足够的重视。随着近年来互联网的高速发展,微博、论坛等社交媒体消息的不断产生,这就对观点检索技术提出了一个挑战:如何构建一个能充分理解用户查询信息需求的观点检索原型系统来检索出符合用户查询需求的观点文档。因此,人们迫切希望有一种高效准确的观点检索方法,该方法能够理解用户查询信息需求,检索出社交媒体中与用户查询相关的观点文档。



技术实现要素:

本发明的目的在于提供一种针对社交媒体的观点检索系统及方法,能够高效准确地理解用户查询的信息需求,检索出与用户查询相关并带有对查询观点的文档。

为实现上述目的,本发明的技术方案是:一种针对社交媒体的观点检索系统,包括:

一文本实体链接模块,用于将用户查询和待查询文档进行分词处理,同时链接到指定的知识图谱,利用知识图谱中的实体间关系,增加系统对用户查询和文档的理解程度;

一查询扩展模块,用于根据用户的查询,结合知识图谱实体描述文本,通过分类得到查询扩展词;

一观点检索得分计算模块,用于结合用户查询和查询扩展词,分别计算用户查询与文档间的主题相关度得分、观点相关度得分以及文档类别得分,并根据三个部分得分得到该文档的综合得分;

一文档排序输出模块,根据文档综合得分从高到低排序,得到查询的观点检索结果并输出。

优选的,所述系统还包括:

一数据预处理模块,用于去除文本中的链接、特殊字符及标点符号,对英文数据进行词干还原处理,过滤文本中的停用词。

优选的,所述查询扩展模块的分类器包括扩展词分布、共现频率、邻近关系、文档集频率四类特征,以及一个标注候选扩展词类别的公式。

优选的,所述观点检索得分计算模块包括一带有扩展词的产生式观点检索模型,该模型通过查询和文档之间的关系计算文档综合评分。

优选的,所述观点相关度得分部分的观点词是带有权重的,不同查询中的观点词权重不同。

本发明还提供了一种针对社交媒体的观点检索方法,实现如下,

由文本实体链接模块将分词后的用户查询和待查询文档链接到指定的知识图谱,通过知识图谱中的实体间关系,增加系统对用户查询和文档的理解程度;以及

由查询扩展模块根据用户的查询,结合知识图谱中的实体描述文本,通过分类得到用户查询的扩展词;以及

由观点检索得分计算模块结合原始用户查询和查询扩展词,计算用户查询与文档间的主题相关度得分、观点相关度得分、以及文档类别得分,并根据三个部分得分得到文档的综合得分;以及

由文档排序输出模块根据文档综合得分从高到低排序,输出排序后的文档列表。

优选的,所述方法还包括如下步骤,

由数据预处理模块去除文本中的链接、特殊字符及标点符号,对英文数据进行词干还原处理,过滤文本中的停用词。

优选的,所述查询扩展模块的分类器使用扩展词分布、共现频率、邻近关系、文档集频率四类特征作为分类依据,同时使用一个标注候选扩展词类别的公式对候选词类别进行标注。

优选的,所述观点检索得分计算模块用一带有扩展词的产生式观点检索模型通过查询和文档之间的关系计算文档综合评分。

优选的,所述观点相关度得分部分的观点词是带有权重的,不同查询中的观点词权重不同。

相较于现有技术,本发明具有以下有益效果:本发明能够高效准确地理解用户查询的信息需求,检索出与用户查询相关并带有对查询观点的文档。

附图说明

图1为本发明在社交媒体文档集中的观点检索系统的示意配置图。

具体实施方式

下面结合附图,对本发明的技术方案进行具体说明。

本发明的一种针对社交媒体的观点检索系统,包括:

一文本实体链接模块,用于将用户查询和待查询文档进行分词处理,同时链接到指定的知识图谱,利用知识图谱中的实体间关系,增加系统对用户查询和文档的理解程度;

一查询扩展模块,用于根据用户的查询,结合知识图谱实体描述文本,通过分类得到查询扩展词;

一观点检索得分计算模块,用于结合用户查询和查询扩展词,分别计算用户查询与文档间的主题相关度得分、观点相关度得分以及文档类别得分,并根据三个部分得分得到该文档的综合得分;

一文档排序输出模块,根据文档综合得分从高到低排序,得到查询的观点检索结果并输出;

一数据预处理模块,用于去除文本中的链接、特殊字符及标点符号,对英文数据进行词干还原处理,过滤文本中的停用词。

所述查询扩展模块的分类器包括扩展词分布、共现频率、邻近关系、文档集频率四类特征,以及一个标注候选扩展词类别的公式。

所述观点检索得分计算模块包括一带有扩展词的产生式观点检索模型,该模型通过查询和文档之间的关系计算文档综合评分。

所述观点相关度得分部分的观点词是带有权重的,不同查询中的观点词权重不同。

本发明还提供了一种针对社交媒体的观点检索方法,实现如下,

由文本实体链接模块将分词后的用户查询和待查询文档链接到指定的知识图谱,通过知识图谱中的实体间关系,增加系统对用户查询和文档的理解程度;以及

由查询扩展模块根据用户的查询,结合知识图谱中的实体描述文本,通过分类得到用户查询的扩展词;以及

由观点检索得分计算模块结合原始用户查询和查询扩展词,计算用户查询与文档间的主题相关度得分、观点相关度得分、以及文档类别得分,并根据三个部分得分得到文档的综合得分;以及

由文档排序输出模块根据文档综合得分从高到低排序,输出排序后的文档列表;

该方法还包括一步骤,即:

由数据预处理模块去除文本中的链接、特殊字符及标点符号,对英文数据进行词干还原处理,过滤文本中的停用词。

所述查询扩展模块的分类器使用扩展词分布、共现频率、邻近关系、文档集频率四类特征作为分类依据,同时使用一个标注候选扩展词类别的公式对候选词类别进行标注。

所述观点检索得分计算模块用一带有扩展词的产生式观点检索模型通过查询和文档之间的关系计算文档综合评分。

所述观点相关度得分部分的观点词是带有权重的,不同查询中的观点词权重不同。

以下为本发明的具体实施例。

如图1所示,根据本发明实施例在社交媒体中所采用的观点检索系统包括:数据预处理模块1对数据进行预先处理;知识图谱实体链接模块2,用于将查询和文档与知识图谱中的相关实体链接起来,增加查询和文档的维度;查询扩展模块3,用于利用知识图谱实体描述文本,通过分类器得到查询的扩展词;观点检索得分计算模块4,用于结合原始查询和查询扩展词,计算用户查询与某一文档间的文档综合得分;排序输出模块5,用于根据文档综合得分排序并输出结果。下面分别详细描述各模块的配置。

1)数据预处理模块1

首先,描述数据预处理模块如何进行数据的预处理。

社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声,因此对数据集进行预处理,主要进行以下几个方面的操作:

1.去除文档中的网页链接,特殊字符,标点符号等;

2.对文档进行分词处理;

3.对英文数据进行词干还原处理;

4.根据中英文的停用词表分别过滤掉数据集中包含的停用词。

2)知识图谱实体链接模块2

其次,介绍如何将用户查询和文档链接到知识图谱的相关实体。选用目前的大型开放通用知识图谱dbpedia作为要链接的知识图谱,利用实体链接算法将用户的查询词或者文档中的词链接到与其相关的某个实体上,使用原有的内容和链接的实体共同表示用户的查询或者文档,丰富知识维度,提高系统对查询和文档的理解程度。

3)查询扩展模块3

再次,简述查询扩展模块如何计算得到用户查询的扩展词。在进行检索时,用户的查询通常是一个词或者短语,长度很短,并不能很好的表示用户的信息需求。知识图谱旨在表示现实世界中的人物,事件,概念等等实体,试图阐述与实体有关的内容和属性,一个看似很小的实体,却包含了许多与其相关的内容。把用户的查询看作一个实体,那么就可以利用知识图谱来理解用户的信息需求,得到候选的扩展词,从中选取合适的词来表示信息需求,可以提高查询效果;同时,选择的词语如果不合适,可能不能提高,甚至降低查询效果,本发明采用分类来解决查询扩展问题。

本发明选取知识图谱描述文本及文档集的扩展词分布、共现频率、邻近关系、文档集频率等4类特征作为分类器特征输入,并根据标注公式标注候选词的类别属性,训练支持向量机分类器,利用分类器获取查询扩展词。

4)观点检索得分计算模块4

接着,描述观点检索得分计算模块如何计算文档的综合得分。本发明提出融合实体类别的观点词赋权观点检索模型,包含了主题相关度得分部分,观点相关度得分部分,实体类别得分部分。同时,模型中既包含了原始查询,也融入了查询扩展词。观点相关度得分部分的观点词也赋予了权值,不同查询时的权重不同。

5)排序输出模块5

最后,描述排序输出模块。根据观点检索得分计算得到在某一查询下的各个文档的得分,根据文档的得分由高到低排序,并依次输出文档列表,得到最终观点检索的结果。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1