一种基于增量聚类的新闻话题挖掘方法及其装置的制造方法_3

文档序号：9564573阅读：来源：国知局

量之间的相似度的衡量方法是聚类的重要部分，相似度计算方法的选择直接影响着聚类结果的准确性；
[0080] 假设有两个向量Cl1= (a D a2, · · ·，an)和d2= (b D b2, · · ·，bn)，其中，η表示两个向量的维数，a、b分别表示山和(12的各维度数值；相似度计算方法有以下三种，本发明实施例采取第二种方法来计算相似度，具体实现时，本发明实施例对此不做限制：
[0081] 1)内积相似度：
[0083] 2)余弦相似度：
[0085] 3) Jaccard 相似度：
[0087] 其中，Bpb1为对应向量的每一个维度。
[0088] 205 :具有更新选择器和循环队列的增量聚类算法：即ICCQ算法；
[0089] 本发明实施例采用了设置阈值判定的方式：即给定两个选择阈值夹角T1、 T2 (TDT2)，对应的阈值余弦值为ClusterS、ClusterT。这样两个选择阈值就构成了一个选择区间，报道与话题集合的夹角存在三种情况，夹角大于T1、夹角在ΤΙ、T2区间中、夹角小于T2。
[0090] 1)需要计算每一篇新闻报道中的特征词的TF*IDF，取排名前100的特征词以及他们的TF*IDF值，按照特征词和权重值，把每一篇报道文档看作一个向量。
[0091] 本发明实施例是以前100为例进行说明，具体实现时，本发明实施例对此不做限制。
[0092] 2)以文档为单位，计算文档向量与话题向量的夹角及其相似度，如果话题集合为空，就把第一篇报道看作是一个话题，如果话题集合不为空，就计算这篇报道与话题集合中所有话题之间的夹角，取这篇报道与所有话题夹角的最小值，同时也是话题间余弦相似度最大值，记做Smax。
[0093] 3)判断第2)步得到的最小值与给定的阈值之间的大小：
[0094] 如果计算得出的最小夹角小于给定的阈值T2, 即，Smax大于阈值ClusterTjPA 该话题并用这篇报道来更新该话题的特征词与权重。
[0095] 如果计算得出的最小夹角不小于给定的阈值T2,那么比较这个夹角与阈值Tl的关系，如果计算得出的最小夹角大于给定的阈值Tl，即，Smax小于阈值Clusters，说明这篇文档和话题集合中已有话题的差异性都比较大，这篇报道就会作为一个新话题，在话题集合中创建一个新话题出来。
[0096] 如果计算得出的最小夹角介于阈值T2与Tl之间，即，Smax大于阈值Clusters且小于阈值ClusterT，则把这一篇报道加入这个最小夹角的话题中，但是不会更新该话题的特征词与权重。
[0097] 4)循环以上步骤，直到不存在未聚类的文档为止。
[0098] 循环队列的概念：即符合一定条件的文档报道，暂时把它们存入到一个队列中，等待其它文档的聚类结果。由于其它文档在加入到某一个话题之后要更新该话题的特征词与权重，因而同一篇文档再次计算与同一个话题的相似度时，得到的结果会有不同。本发明实施例引入循环队列的概念，既可以一定程度上消除文档的输入顺序对增量聚类结果的影响，又能使得聚类的准确率和召回率一定程度提高。
[0099] 206 :基于短语的统计机器翻译模型。
[0100] (1)实验数据的预处理
[0101] 机器翻译需要的实验数据：机器翻译训练集、开发集和测试集。机器翻译还需要用到语言模型训练文件，本发明实施例采用搜狗全网新闻语料库加上训练集所有中文单语语料。
[0102] 数据预处理是统计机器翻译系统的第一步，训练集，开发集，测试集，语言模型文件都需要通过数据预处理。数据的预处理主要包括：乱码过滤，泛化一些数词、时间词、日期词，翻译数词、时间词、日期词等。
[0103] (2)分词
[0104] 英文分词工具使用的是开源分词软件Lucene。中文分词使用改进的CRF中文分词系统。
[0105] (3)词对齐
[0106] 训练集词语对齐采用的是开源工具：GIZA++1. 0. 7
[0107] (4)训练语言模型
[0108] 本发明实施例采用黄牛翻译（NiuTrans)官方模型训练模块。
[0109] (5)解码
[0110] 所谓解码，即是指给定模型参数和待翻译句子，搜索使概率最大（或代价最小）的翻译结果的过程。同许多序列标注问题，例如中文分词问题类似，解码搜索可以采用分支定界或启发式深度优先搜索（A*)方法。一般来说，搜索算法首先构造搜索网络，也就是将待翻译句子与可能的翻译结果融合为一个加权有限状态转换机（Weighted Finite State Transducer)，而后在此网络上搜索最优路径。
[0111] 实验中用的解码器为Niutrans提供的翻译解码器，使用该解码器对对抓取的英文新闻网站中关于中国的报道进行解码翻译。
[0112] 其中，上述步骤（1)至步骤（5)为本领域技术人员所公知，也可以采用其他的短语机器翻译模型，具体实现时，本发明实施例对此不做赘述。
[0113] (6)话题检测
[0114] 得到外文新闻的翻译结果，本方法使用改进的增量聚类算法对新闻报道聚类，得出报道量高的话题集合。
[0115] 综上所述，本发明实施例结合已有的挖掘方法并在此基础上进行改进，使得热点话题的聚类结果更加的准确。然后本发明实施例又对抓取的外文新闻网站对国内热点新闻事件的报道进行机器翻译，同时把两个聚类结果结合，得到一个较为客观的话题热度排名，满足了实际应用中的需要。
[0116] 实施例3
[0117] 本方法（改进算法）相比较传统的增量聚类算法有两点改进：一是加入到某一话题的文本分为了两种情况，更新话题的特征词与权重和直接加入不更新；二是待分类文档不再只计算一次与话题集合的夹角就分类，对于满足条件的文档进入队列中，进行下一步的计算。
[0118] 准确率、召回率和F值是广泛用于信息检索和统计学分类领域的常见度量值，被广泛用来评价结果的质量。一般来说，准确率就是检索出来的条目（比如：文档、网页等）有多少是准确的，召回率就是所有准确的条目有多少被检索出来。
[0119] 准确率、召回率和F值是在鱼龙混杂的环境中，选出目标的重要评价指标。准确率、召回率和F值各自的定义如下：
[0120] 1.准确率=提取出的正确信息条数/提取出的信息条数
[0121] 2.召回率=提取出的正确信息条数/样本中的信息条数
[0122] 两者取值在0和1之间，数值越接近1，查准率或查全率就越高。
[0123] 3. F值=正确率*召回率*2八正确率+召回率），F值即为正确率和召回率的调和平均值，结果越大，表明实验结果越好。
[0124] 对于中文新闻报道，首先要对报道进行文档预处理，其中最关键的是中文分词，为使最终的结果更加符合网络新闻的话题检测领域，实验中用到的中文分词技术为改进的基于CRF的统计中文分词技术。然后是新闻文档的文本向量化，把每一篇新闻报道看作一个向量，计算向量之间的夹角来确定新闻报道之间的距离。利用改进的增量聚类算法对新闻报道聚

完整全部详细技术资料下载

当前第3页1 2 3 4