基于文本相似度和微博频道特征的博文排重方法

文档序号:8299140阅读:1276来源:国知局
基于文本相似度和微博频道特征的博文排重方法
【技术领域】
[0001] 本发明涉及一种博文排重方法,具体讲涉及一种基于文本相似度和微博频道特征 的博文排重方法。
【背景技术】
[0002] 在这个互联网的时代,信息量爆发。同时,互联网上重复信息泛滥,也造成了不好 的用户使用体验;浪费大量搜索引擎存储资源,用户需要在众多返回结果中进行人工判重 和内容筛选以寻找更有价值的信息,浪费了大量的时间和精力。尤其是以140字为特色的 微博诞生以来,人们随时随地都可以织围脖,对同一件事情发表言论,出现很多内容相似的 博文。微博的转发功能,更是让一条微博,一下就转发出成千上万条一样的博文。因此,海 量短文本的去重处理有着重要的实用价值。
[0003]典型的文本去重方法采用指纹算法(流程图如图2),先对文本分词,计算文档的 TF-IDF,根据TF-IDF排序,提取排序靠前的几个词作为特征词,利用HASH函数或别的规则 形成指纹,最后比较每篇文档的指纹,如果指纹相同,就判断这两篇文档重复。另外,还有应 用字符串匹配算法,在两篇文档中查找最大匹配字符串,分析匹配字符串完成重复性检测。
[0004] 微博实时、简短、快捷、互动方便、转发传播迅速,促使微博频道热点高峰时,内容 相似博文泛滥。指纹算法见长于长文本排重,面对短小的微博排重,缺点就显而易见。微博 简短,特征词少,两篇微博只要稍稍一个特征词不同,便会形成不同的指纹,达不到排重效 果。字符串匹配算法,对文本结构、用词规范依赖性高,其一变化都会影响检测效果,而微博 最大的特点便是语言个性、非规范化。可见,单一的字符串匹配算法不适合千姿百态的微 博。

【发明内容】

[0005] 针对现有技术的不足,本发明提出一种频道内微博排重的方法。针对指纹算法和 字符串匹配算法的不足,根据不同频道特点,采用不同的特征提取方法,综合决策相似度算 法;对于微博的用词网络化,采取扩展同义词特征的策略。
[0006] 本发明的目的是采用下述技术方案实现的:
[0007] 一种基于文本相似度和微博频道特征的博文排重方法,其改进之处在于,所述方 法包括
[0008] (1)加载词库;
[0009] (2)根据标识的频道类型,判断博文所属频道;
[0010] (3)去噪;
[0011] (4)计算特征向量;
[0012] (5)分频道计算相似度;
[0013] (6)重复检测。
[0014] 优选的,所述步骤(1)包括
[0015] 准备同义词库,词库格式包括表示词和编号,编号相同的为同义词,发现新的同义 词,按照词库格式添加到词库,将词库加载到hash表中,供查询使用;
[0016] 准备禁用词词库,格式包括禁用的话题和唯一标识,将词库加载到hash表中,供 查询使用。
[0017] 优选的,所述步骤(2)中频道类型包括热门博文、热门话题、搞笑、神回复、美食、 电影、旅游、星座、购物和动漫频道,每个频道都带有唯一的标识;属于热门话题频道,则去 禁用词库的hash里查找,找到,则直接排除。
[0018] 优选的,所述步骤(3)包括不分频道种类,对博文进行去噪,根据该博文所属频道 特征去除该频道噪声。
[0019] 优选的,所述步骤(4)包括对去噪后博文,进行分词,去除停用词,按照主谓宾,提 取特征,并查找同义词库,合并特征,统计计算特征向量;和根据不同频道的特点,按照不同 的方法提取特征向量。
[0020] 优选的,所述步骤(5)包括
[0021] (5. 1)基于热门博文频道,根据主题特征向量计算相似度,记为siml;
[0022] (5. 2)电影频道,根据电影名特征N,计算最大匹配度,记为sim2 ;
[0023] (5. 3)其它频道,根据频道特征向量计算相似度,记为sim3。
[0024] 优选的,所述步骤(6)包括
[0025] (6.l)siml>T,则排重,否则根据热门博文特征向量计算相似度siml' ;siml'〉T, 则排重。
[0026] (6. 2)sim2>T,则排重,否则根据电影博文特征向量计算相似度sim2' ;sim2'〉T, 则排重。
[0027] (6. 3)sim3>T,则排重;
[0028] 其中,T为阈值。
[0029] 与现有技术比,本发明的有益效果为:
[0030] 采用本发明进行微博频道排重,效果良好。这里给出测试数据,如表1。抽取200 条博文数据,分别采用本发明(Ml)、相似度算法(M2),指纹算法(M3)测试。比较结果,可以 明显看出本发明的优势。具体体现在以下几点:
[0031] 1、扩展同义词特征,提高了相似度,弥补了传统排重对于特征敏感度高,排重力度 小的缺点。
[0032] 2、在一般去噪处理的基础上,针对不同频道的噪声特点,进一步去噪,降低了干扰 性。
[0033] 3、根据不同频道不同特点,采用不同的特征提取方法,提高了特征的准确性和有 效度。
[0034] 4、综合决策相似度计算方法,相对于单一方法,漏排率低。
【附图说明】
[0035]图1为本发明提供的一种基于文本相似度和微博频道特征的博文排重方法流程 图。
[0036]图2为本发明提供的典型的文本去重方法采用指纹算法流程图。
【具体实施方式】
[0037] 下面结合附图对本发明的【具体实施方式】作进一步的详细说明。
[0038] 针对微博的短小、用词网络化、频道各具特色等特征,结合LCS算法和余弦相似度 对微博内容排重。对于海量数据,可以利用MapReduce分布式处理的高效性能,提高排重性 能,实施步骤如下(如图1):
[0039] 1、加载词库
[0040] 准备同义词库,词库格式如下
[0041] A##i
[0042] B##i
[0043] "前面的字母表不词,后面的"i"表不编号,若编号相同,表不A和B是同义词。 发现新的同义词,按照词库格式添加到词库。将词库加载到has
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1