一种基于增量聚类的新闻话题挖掘方法及其装置的制造方法_3

文档序号:9564573阅读:来源:国知局
量之间的相似度的衡量方法是聚类的重要部分,相 似度计算方法的选择直接影响着聚类结果的准确性;
[0080] 假设有两个向量Cl1= (a D a2, · · ·,an)和d2= (b D b2, · · ·,bn),其中,η表示两个向 量的维数,a、b分别表示山和(12的各维度数值;相似度计算方法有以下三种,本发明实施 例采取第二种方法来计算相似度,具体实现时,本发明实施例对此不做限制:
[0081] 1)内积相似度:
[0083] 2)余弦相似度:
[0085] 3) Jaccard 相似度:
[0087] 其中,Bpb1为对应向量的每一个维度。
[0088] 205 :具有更新选择器和循环队列的增量聚类算法:即ICCQ算法;
[0089] 本发明实施例采用了设置阈值判定的方式:即给定两个选择阈值夹角T1、 T2 (TDT2),对应的阈值余弦值为ClusterS、ClusterT。这样两个选择阈值就构成了一个选 择区间,报道与话题集合的夹角存在三种情况,夹角大于T1、夹角在ΤΙ、T2区间中、夹角小 于T2。
[0090] 1)需要计算每一篇新闻报道中的特征词的TF*IDF,取排名前100的特征词以及他 们的TF*IDF值,按照特征词和权重值,把每一篇报道文档看作一个向量。
[0091] 本发明实施例是以前100为例进行说明,具体实现时,本发明实施例对此不做限 制。
[0092] 2)以文档为单位,计算文档向量与话题向量的夹角及其相似度,如果话题集合为 空,就把第一篇报道看作是一个话题,如果话题集合不为空,就计算这篇报道与话题集合中 所有话题之间的夹角,取这篇报道与所有话题夹角的最小值,同时也是话题间余弦相似度 最大值,记做Smax。
[0093] 3)判断第2)步得到的最小值与给定的阈值之间的大小:
[0094] 如果计算得出的最小夹角小于给定的阈值T2, 即,Smax大于阈值ClusterTjPA 该话题并用这篇报道来更新该话题的特征词与权重。
[0095] 如果计算得出的最小夹角不小于给定的阈值T2,那么比较这个夹角与阈值Tl的 关系,如果计算得出的最小夹角大于给定的阈值Tl,即,Smax小于阈值Clusters,说明这篇 文档和话题集合中已有话题的差异性都比较大,这篇报道就会作为一个新话题,在话题集 合中创建一个新话题出来。
[0096] 如果计算得出的最小夹角介于阈值T2与Tl之间,即,Smax大于阈值Clusters且 小于阈值ClusterT,则把这一篇报道加入这个最小夹角的话题中,但是不会更新该话题的 特征词与权重。
[0097] 4)循环以上步骤,直到不存在未聚类的文档为止。
[0098] 循环队列的概念:即符合一定条件的文档报道,暂时把它们存入到一个队列中,等 待其它文档的聚类结果。由于其它文档在加入到某一个话题之后要更新该话题的特征词与 权重,因而同一篇文档再次计算与同一个话题的相似度时,得到的结果会有不同。本发明 实施例引入循环队列的概念,既可以一定程度上消除文档的输入顺序对增量聚类结果的影 响,又能使得聚类的准确率和召回率一定程度提高。
[0099] 206 :基于短语的统计机器翻译模型。
[0100] (1)实验数据的预处理
[0101] 机器翻译需要的实验数据:机器翻译训练集、开发集和测试集。机器翻译还需要用 到语言模型训练文件,本发明实施例采用搜狗全网新闻语料库加上训练集所有中文单语语 料。
[0102] 数据预处理是统计机器翻译系统的第一步,训练集,开发集,测试集,语言模型文 件都需要通过数据预处理。数据的预处理主要包括:乱码过滤,泛化一些数词、时间词、日期 词,翻译数词、时间词、日期词等。
[0103] (2)分词
[0104] 英文分词工具使用的是开源分词软件Lucene。中文分词使用改进的CRF中文分词 系统。
[0105] (3)词对齐
[0106] 训练集词语对齐采用的是开源工具:GIZA++1. 0. 7
[0107] (4)训练语言模型
[0108] 本发明实施例采用黄牛翻译(NiuTrans)官方模型训练模块。
[0109] (5)解码
[0110] 所谓解码,即是指给定模型参数和待翻译句子,搜索使概率最大(或代价最小)的 翻译结果的过程。同许多序列标注问题,例如中文分词问题类似,解码搜索可以采用分支 定界或启发式深度优先搜索(A*)方法。一般来说,搜索算法首先构造搜索网络,也就是将 待翻译句子与可能的翻译结果融合为一个加权有限状态转换机(Weighted Finite State Transducer),而后在此网络上搜索最优路径。
[0111] 实验中用的解码器为Niutrans提供的翻译解码器,使用该解码器对对抓取的英 文新闻网站中关于中国的报道进行解码翻译。
[0112] 其中,上述步骤(1)至步骤(5)为本领域技术人员所公知,也可以采用其他的短语 机器翻译模型,具体实现时,本发明实施例对此不做赘述。
[0113] (6)话题检测
[0114] 得到外文新闻的翻译结果,本方法使用改进的增量聚类算法对新闻报道聚类,得 出报道量高的话题集合。
[0115] 综上所述,本发明实施例结合已有的挖掘方法并在此基础上进行改进,使得热点 话题的聚类结果更加的准确。然后本发明实施例又对抓取的外文新闻网站对国内热点新闻 事件的报道进行机器翻译,同时把两个聚类结果结合,得到一个较为客观的话题热度排名, 满足了实际应用中的需要。
[0116] 实施例3
[0117] 本方法(改进算法)相比较传统的增量聚类算法有两点改进:一是加入到某一话 题的文本分为了两种情况,更新话题的特征词与权重和直接加入不更新;二是待分类文档 不再只计算一次与话题集合的夹角就分类,对于满足条件的文档进入队列中,进行下一步 的计算。
[0118] 准确率、召回率和F值是广泛用于信息检索和统计学分类领域的常见度量值,被 广泛用来评价结果的质量。一般来说,准确率就是检索出来的条目(比如:文档、网页等) 有多少是准确的,召回率就是所有准确的条目有多少被检索出来。
[0119] 准确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标。准确 率、召回率和F值各自的定义如下:
[0120] 1.准确率=提取出的正确信息条数/提取出的信息条数
[0121] 2.召回率=提取出的正确信息条数/样本中的信息条数
[0122] 两者取值在0和1之间,数值越接近1,查准率或查全率就越高。
[0123] 3. F值=正确率*召回率*2八正确率+召回率),F值即为正确率和召回率的调 和平均值,结果越大,表明实验结果越好。
[0124] 对于中文新闻报道,首先要对报道进行文档预处理,其中最关键的是中文分词,为 使最终的结果更加符合网络新闻的话题检测领域,实验中用到的中文分词技术为改进的基 于CRF的统计中文分词技术。然后是新闻文档的文本向量化,把每一篇新闻报道看作一个 向量,计算向量之间的夹角来确定新闻报道之间的距离。利用改进的增量聚类算法对新闻 报道聚
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1