一种基于图模型的中文微博客倾向性检索方法

文档序号:6628613阅读:235来源:国知局
一种基于图模型的中文微博客倾向性检索方法
【专利摘要】本发明涉及一种基于图模型的中文微博客倾向性检索方法,包括以下步骤:(1)对微博进行预处理,包括去噪声、分词、停用词处理,得到预处理后的微博;(2)根据预先收集的并经过预处理的倾向性微博集,并基于图模型方法计算倾向词典中每个倾向词的倾向性权重,反映每一个倾向词不同的倾向性强度;(3)根据微博和给定的查询主题,计算每条微博的相关性得分,然后对微博进行倾向性得分计算,得到每条微博的倾向性得分,最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分,并基于所述排名得分对微博进行排名,得到最终的微博列表。该方法检索速度快,准确度高,适用范围广,应用性强。
【专利说明】一种基于图模型的中文微博客倾向性检索方法

【技术领域】
[0001] 本发明涉及观点挖掘和倾向性分析【技术领域】,更具体地,涉及一种基于图模型的 中文微博客倾向性检索方法,能应用于市场调研、投票预测、广告分析、网络观点挖掘等,适 用于中文微博客,包括新浪微博、腾讯微博、网易微博等。

【背景技术】
[0002] 微博的倾向性检索旨在微博客上检索大众对热点话题的观点看法,要求被检索出 的文档除了与给定查询主题相关以外,还必须具有对给定查询主题的主观性评论。因此,它 是了解人们对热点话题、组织等各种实体的真实观点和看法的一种有效手段,可应用于市 场调研、投票预测、广告分析、网络观点挖掘等项目,具有广阔的应用前景。由于倾向性检索 具有重大的研究价值与意义,因而受到国内外众多学者和研究机构的广泛关注。其中,以国 内外的顶级评测会议最具代表性:国际检索评测会议(TREC)举办的博客倾向性检索评测 (Blog Opinion Retrieval);日本 NTCIR 评测(Nil Test Collection for IR Systems)的 举办多语言倾向性分析评测(Multilingual Opinion Analysis Task, MOAT);国内中文倾 向性分析评测会议(C0AE )和中文微博情感分析评测。
[0003] 在现有技术中,有很多技术方法可用于倾向性检索,传统的检索方法采用两阶段 模型方法,在第一阶段首先检索出与给定查询话题相关的文档,然后识别出这些与给定查 询相关文档的倾向性,最后综合相关性和倾向性对文档进行排序。该模型结构简单,容易理 解,但是缺乏合理的理论解释。该方法第一阶段通常采用语言模型、BM25等经典检索模型, 而将研究重点放在第二阶段,即文档的倾向性识别。国内外对于文档的倾向性识别方法主 要有基于倾向词典的统计方法和基于机器学习的倾向性识别方法等。但是微博客中的文本 一般比较短、表达不规范,因此,直接采用传统的倾向性检索方法可能难以适应微博客倾向 性检索的需求。
[0004] 在现有技术中,还有借助当前信息检索和文本挖掘领域的最新模型,直接挖掘描 述主题的倾向性对文档进行排序的方法。该方法相对于两阶段模型,具有在理论上易解释、 对信息需求表达更直接有效等优点,但是该方法可能没有充分考虑微博客中丰富的上下文 信息,导致最终的信息需求有所偏差,影响最终的检索结果。
[0005] 微博经过几年的快速发展,渐渐成为最流行的网络社交媒介,人们越来越倾向于 在微博上分享个人对于热点话题、组织等实体的看法、意见及评价。微博成为了网络主观性 信息的重要载体,对微博的倾向性进行检索有助于了解人们对于热点话题、组织等实体的 真实观点看法,有很好的现实的应用价值和广阔的应用前景。因此,迫切需要一种高效准确 的中文微博倾向性检索方法,该方法应该能够快速地发现微博中的倾向性信息,并对微博 按照倾向性强度进行排序。


【发明内容】

[0006] 本发明的目的在于提供一种基于图模型的中文微博客倾向性检索方法,该方法检 索速度快,准确度高,适用范围广,应用性强。
[0007] 为实现上述目的,本发明的技术方案是:一种基于图模型的中文微博客倾向性检 索方法,包括以下步骤: (1) 对微博进行预处理,包括去噪声、分词、停用词处理,得到预处理后的微博; (2) 根据预先收集的并经过预处理的倾向性微博集,并基于图模型方法计算倾向词典 中每个倾向词的倾向性权重,反映每一个倾向词不同的倾向性强度; (3) 根据微博和给定的查询主题,计算每条微博的相关性得分,然后对微博进行倾向 性得分计算,得到每条微博的倾向性得分,最后将每条微博的相关性得分与倾向性得分的 乘积作为每条微博最终的排名得分,并基于所述排名得分对微博进行排名,得到最终的微 博列表。
[0008] 进一步的,在步骤(1)中,所述去噪声处理为去除微博中的以下内容: a)网页链接;b)特殊字符;c)推广相关的字符;d)表情相关的符号;e)标点符 号; 所述停用词处理为根据中文停用词表删除分词后微博中的中文停用词。
[0009] 进一步的,所述步骤(2)中,所述倾向性微博集是从微博采集并经过人工标注倾 向性的微博集合,所述倾向词典由相关知识库中的中文正面情感词语、中文负面情感词语、 中文正面评价词语和中文负面评价词语组成,并通过如下的图模型方法计算每个倾向词的 倾向性权重: 在由倾向性微博集和倾向词典组成的二分连接图中,尽=U,.}为倾向词典,{?//}为倾 向性微博集,当一个倾向词出现在一条倾向性微博中,便有一条边连接该倾向词与倾向性 微博,所对应的连接边由= e尽,来表示,每条连接边的权重由如下公 式计算:

【权利要求】
1. 一种基于图模型的中文微博客倾向性检索方法,其特征在于,包括以下步骤: (1) 对微博进行预处理,包括去噪声、分词、停用词处理,得到预处理后的微博; (2) 根据预先收集的并经过预处理的倾向性微博集,并基于图模型方法计算倾向词典 中每个倾向词的倾向性权重,反映每一个倾向词不同的倾向性强度; (3) 根据微博和给定的查询主题,计算每条微博的相关性得分,然后对微博进行倾向 性得分计算,得到每条微博的倾向性得分,最后将每条微博的相关性得分与倾向性得分的 乘积作为每条微博最终的排名得分,并基于所述排名得分对微博进行排名,得到最终的微 博列表。
2. 根据权利要求1所述的一种基于图模型的中文微博客倾向性检索方法,其特征在 于,在步骤(1)中,所述去噪声处理为去除微博中的以下内容: a)网页链接;b)特殊字符;c)推广相关的字符;d)表情相关的符号;e)标点符 号; 所述停用词处理为根据中文停用词表删除分词后微博中的中文停用词。
3. 根据权利要求1所述的一种基于图模型的中文微博客倾向性检索方法,其特征在 于:所述步骤(2)中,所述倾向性微博集是从微博采集并经过人工标注倾向性的微博集合, 所述倾向词典由相关知识库中的中文正面情感词语、中文负面情感词语、中文正面评价词 语和中文负面评价词语组成,并通过如下的图模型方法计算每个倾向词的倾向性权重: 在由倾向性微博集和倾向词典组成的二分连接图中,尽=U,.}为倾向词典,{?//}为倾 向性微博集,当一个倾向词出现在一条倾向性微博中,便有一条边连接该倾向词与倾向性 微博,所对应的连接边由= e尽,来表示,每条连接边的权重由如下公 式计算:
其4
表示倾向词匕在倾向性微博沁中出现的次数,7m (4)为倾向性微博 沁的长度;首先每条倾向性微博的初始得分设置为
每个倾向词的得分设置为
?和分别为所有倾向性微博的条数和所有倾向词的个数,并根据如下的迭代公 式计算倾向性微博和倾向词每步迭代的得分:
其中(L.)表示第Γ步倾向词G的得分,如(?)表示第Γ步倾向 性微博< 的得分;当连续两步迭代的倾向词得分和倾向性微博得分误差小于某一阀值0, 迭代计算结束,得到最终的每个倾向词得分即为每个倾向词的倾向性权重。
4.根据权利要求1所述的一种基于图模型的中文微博客倾向性检索方法,其特征在 于:所述步骤(3)中,根据给定查询7使用BM25检索模型计算每条微博的相关性得分,计算 出的待检索微博¢/的相关性得分表示为(¢/, <7),所述倾向性得分(¢/, <7)的计 算公式为:
其中,?,.表示倾向词,〇,.表示倾向词的倾向性权重,^为平滑参数,co (?,.,<7)表示倾向 词?,.和查询<7在微博?/中共现的次数,c (<7, 〇0表示查询<7在微博?/中出现的次数,Α?/? (〇〇 为微博的长度;根据微博的相关性得分5bor6^e7 (¢/, <7)和倾向性得分(¢/, <7)计算最 终的排名得分(¢/, <7):
最终根据该排名得分对待检索微博进行排序,得到最终的微博列表。
【文档编号】G06F17/30GK104217026SQ201410504180
【公开日】2014年12月17日 申请日期:2014年9月28日 优先权日:2014年9月28日
【发明者】陈国龙, 廖祥文, 陈胡 申请人:福州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1