一种基于增量聚类的新闻话题挖掘方法及其装置的制造方法_4

文档序号：9564573阅读：来源：国知局

类，统计排名前列的话题报道数，得出新闻的热度排名。
[0125] 对于英文新闻报道，除在预处理时使用的开源分词软件不同外，还应对英文新闻报道进行机器翻译，得到对应的中文新闻，然后对中文新闻应用相同的话题检测方法，得出新闻的热度排名。
[0126] 两个话题结果还要通过关键词的匹配，加权得到最终的话题热度排名。
[0127] 实验对6000篇新闻报道按照其发布时间从前到后进行排序，分别使用原始增量聚类方法以及改进的增量聚类算法对新闻报道文档进行聚类，由人工标注的数据计算检测结果的准确率、召回率、F值。
[0128] 通过准确率、召回率、F值互相比较，可以得出结论，在算法效率要求不高领域上，本方法在准确率、召回率和F值上都有一定程度提升。虽然使实验中算法效率有所降低，但是由于研究重点在于以天为时间单位的离线话题检测，时间跨度选择天为单位时，显然加入文档选择器和待排队列模型的增量聚类算法在算法效率上完全可以满足需要，因此本方法在提尚算法准确率、召回率和F值的做法是有一定意义的。
[0129] 表1所示为使用原始增量聚类算法的聚类结果，表2中则为使用改进的增量聚类算法所得到的结果。
[0130] 表1传统增量聚类算法实验结果
[0132] 表2本方法实验结果
[0133]
[0136] 可以看到通过对聚类算法的改进，本方法加入更新选择器和待排队列以后，五个话题的准确率和召回率都有一定程度的改进，关于乌克兰局势的话题聚类准确率由〇. 8876 提高到〇. 9484,关于冬奥的话题聚类准确率由0. 4966提高到0. 8688,其余选取的三个话题，CBA、雾霾、打车软件在准确率召回率两个方面均有不同程度的提高。
[0137] 本发明实施例又对五个话题的准确率和召回率平均值做计算，得出准确率的平均值由0. 6148提高到0. 8217.召回率平均值由0. 8123提高到0. 8524。比较F值，五个话题集合的F值都有不同程度的提高。
[0138] 实施例4
[0139] -种基于增量聚类的新闻话题挖掘装置，参见图5,该挖掘装置包括：
[0140] 建立模块1，用于对输入文本进行预处理；对预处理后文本进行特征提取，建立文本表不模型；
[0141] 聚类模块2,用于计算文本表示模型之间的相似度大小，通过相似度进行话题聚类；
[0142] 第一获取模块3,用于对聚类结果进行排名，得到热点话题的中文排名结果；
[0143] 第二获取模块4,用于结合英文到中文的机器翻译，获取热点话题的英文排名结果；
[0144] 第三获取模块5,用于对中文排名结果和英文排名结果进行加权，获取热点话题的最终排名。
[0145] 该聚类模块2,用于以文档为单位，计算文档向量与话题向量的夹角及其相似度，如果话题集合不为空，计算这篇报道与话题集合中所有话题之间的夹角，取夹角的最小值记做Smax ;
[0146] 若Smax小于阈值T2,加入该话题并用这篇报道来更新该话题的特征词与权重；或，
[0147] 若Smax不小于阈值T2,大于阈值T1，在话题集合中创建一个新话题；或，
[0148] 若Smax介于阈值T2与Tl之间，则把报道加入Smax对应的话题中。
[0149] 综上所述，本发明实施例结合已有的挖掘装置并在此基础上进行改进，使得热点话题的聚类结果更加的准确。然后本发明实施例又对抓取的外文新闻网站对国内热点新闻事件的报道进行机器翻译，同时把两个聚类结果结合，得到一个较为客观的话题热度排名，满足了实际应用中的需要。
[0150] 本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。
[0151] 本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0152] 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种基于增量聚类的新闻话题挖掘方法，其特征在于，所述挖掘方法包括以下步骤：对输入文本进行预处理；对预处理后文本进行特征提取，建立文本表示模型；计算文本表示模型之间的相似度大小，通过相似度进行话题聚类；对聚类结果进行排名，得到热点话题的中文排名结果；结合英文到中文的机器翻译，获取热点话题的英文排名结果；对中文排名结果和英文排名结果进行加权，获取热点话题的最终排名。2. 根据权利要求1所述的一种基于增量聚类的新闻话题挖掘方法，其特征在于，所述对预处理后文本进行特征提取，建立文本表示模型的步骤具体为：将预处理后文本表示成计算机能够处理、且能够体现出文档特征的表示形式；使用空间向量模型方法来建立预处理后的文本表示模型。3. 根据权利要求1所述的一种基于增量聚类的新闻话题挖掘方法，其特征在于，所述计算文本表示模型之间的相似度大小，通过相似度进行话题聚类的步骤具体为：以文档为单位，计算文档向量与话题向量的夹角及其相似度，如果话题集合不为空，计算这篇报道与话题集合中所有话题之间的夹角，取夹角的最小值记做Smax; 若Smax小于阈值T2,加入该话题并用这篇报道来更新该话题的特征词与权重；或，若Smax不小于阈值T2,大于阈值T1，在话题集合中创建一个新话题；或，若Smax介于阈值T2与T1之间，则把报道加入Smax对应的话题中。4. 一种基于增量聚类的新闻话题挖掘装置，其特征在于，所述挖掘装置包括：建立模块，用于对输入文本进行预处理；对预处理后文本进行特征提取，建立文本表示丰旲型；聚类模块，用于计算文本表示模型之间的相似度大小，通过相似度进行话题聚类；第一获取模块，用于对聚类结果进行排名，得到热点话题的中文排名结果；第二获取模块，用于结合英文到中文的机器翻译，获取热点话题的英文排名结果；第三获取模块，用于对中文排名结果和英文排名结果进行加权，获取热点话题的最终排名。
【专利摘要】本发明公开了一种基于增量聚类的新闻话题挖掘方法及其装置，所述挖掘方法包括：对输入文本进行预处理；对预处理后文本进行特征提取，建立文本表示模型；计算文本表示模型之间的相似度大小，通过相似度进行话题聚类；对聚类结果进行排名，得到热点话题的中文排名结果；结合英文到中文的机器翻译，获取热点话题的英文排名结果；对中文排名结果和英文排名结果进行加权，获取热点话题的最终排名。所述挖掘装置包括：建立模块、聚类模块、第一获取模块、第二获取模块和第三获取模块。本发明可以用于帮助网络新闻用户解决信息过载问题，为互联网监管部门的安全决策提供信息依据，有利于推动社会的长足发展和进步。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105320646
【申请号】CN201510788690
【发明人】于瑞国, 喻梅, 谢晓东, 杨龙, 赵满坤, 徐天一
【申请人】天津大学
【公开日】2016年2月10日
【申请日】2015年11月17日

完整全部详细技术资料下载

当前第4页1 2 3 4