一种基于增量聚类的新闻话题挖掘方法及其装置的制造方法_2

文档序号:9564573阅读:来源:国知局
值,其中,Top i代表中文话题i的报道量,Topic 表话题i 在英文媒体中的报道量,Topj代表中文话题j的报道量,Topic ^代表话题j在英文媒体中 的报道量。本发明实施例中的α和β取值为1/2。
[0044] 实施例1
[0045] 本发明实施例提供了一种基于增量聚类的新闻话题挖掘方法,参见图1,该方法包 括以下步骤:
[0046] 101 :对输入文本进行预处理;
[0047] 其中,该预处理步骤为对输入文本进行中文分词,具体操作步骤如下:通过条件随 机场(CRF)分词法与新兴词典分词法相结合的方法,使用条件随机场(CRF)分词法对汉字 进行标注,即由字构词(组词),不仅考虑文字词语出现的频率信息,同时考虑上下文语境, 再通过一个新兴词汇词典,将CRF分词结果中分开的、但在新兴词汇词典中出现的专有名 词合并起来。
[0048] 102 :对预处理后文本进行特征提取,建立预处理后文本表示模型;
[0049] 该预处理后文本表示模型具体为:将预处理后文本表示成计算机能够处理、且能 够体现出文档特征的表示形式,并计算数据对象之间的相似度。
[0050] 该步骤具体为:使用空间向量模型方法来建立预处理后文本的表示模型;
[0051] V(d) = Ct11W1(Cl) ;t2, w2(d) ;. . . tm, wm (d))
[0052] 其中,V (d)表示空间向量模型AiQ = I, 2, 3, "'m)为文档d中的特征词!Wi(Cl) (i =1,2, 3,…,m)为特征词ti的权重。预处理后文本是使用由特征词构成的加权向量来表 示的,每篇文档都被表示成一个向量,确定特征词权重的方法有很多,比如:词频法(TF)、 TF-IDF 等。
[0053] 103 :通过计算预处理后文本表示模型之间的相似度大小,一般方法是使用经典单 遍法(Single-Pass)进行话题聚类,将一个集合划分为不同的类簇,即,处于同一类簇内的 对象之间相似度较高,不同类簇之间的对象相似度很低;
[0054] 然而,本发明实施例通过更新选择器改进增量聚类算法,即ICCQ算法,改进了 single-pass聚类关于出错的"蝴蝶效应" :即,提取在已有算法角度看来完全确认的结果, 只用这些数据来更新话题的特征词与权重,加入带排队列,使准确率得到大幅度提升。
[0055] 104 :对聚类结果进行排名,得到热点话题的中文排名结果;
[0056] 105 :通过机器翻译解决选取报道角度的单一性问题。
[0057] 由于上一步骤最后得到只是热点话题中文排名结果,为了解决选取报道角度的单 一性问题,结合现有的机器翻译软件,自动翻译外文新闻聚类成热点话题,提取出关键词与 中文新闻话题关键词匹配,综合得出一个更加新颖多角度的热点话题排名。
[0058] 综上所述,本发明实施例通过上述步骤101-步骤105提高了新闻挖掘的准确率, 帮助网络新闻用户解决了信息过载问题,为互联网监管部门的安全决策提供了信息依据, 有利于推动社会的长足发展和进步。
[0059] 实施例2
[0060] 下面结合具体的计算公式、例子对实施例1中的方案进行详细描述:
[0061] 201 :对输入文本进行分词处理;
[0062] 实际应用时,从CRF分词的中文分词结果中可以看到,CRF分词只是会把专有新兴 名词分开,本发明实施例通过一个新兴词汇词典,把分词结果中分开的、但在新兴词汇词典 中出现的专有名词合并起来,就能很大程度上提高中文分词的准确率。
[0063] 202 :从分词结果中删除停用词;
[0064] 文档中通常含有这样一些词,如指示代词"你"、"他"、语气助词"啊"、介词"在"等, 它们的出现频率非常高,是语句中常用的辅助词,这些词的信息含量通常都非常小,这一类 词被称为停用词。实际去除停用词的过程中一般选取合适的停用词词典,把指示代词、虚词 和一些没用的介词过滤掉,因为这些词对文档的代表性差,且出现频率高,过滤掉这些停用 词不仅可以提升整体的运行效率,也可以改善后续的文本特征提取的效果。
[0065] 通过上述步骤201和步骤202实现了对输入文本的预处理过程,上述预处理过程 还可以采用其他的处理方法,本发明实施例对此不做限制。
[0066] 203 :对上述预处理后的文本进行特征提取,建立文本表示模型;
[0067] 即使用向量空间模型(VSM)表示文本特征,将预处理后的文本表示成计算机能够 处理并且能够恰当地体现出文档特征的表示形式。向量空间模型(VSM)使用非二元值来表 示特征词的权重。在向量空间模型中,文本是使用由特征词构成的加权向量来表示的,每篇 文档都被表示成一个向量。
[0068] 词频-逆文本频率(TF-IDF)来计算特征词的加权值,使用TF-IDF来重新对文 档进行向量化。TF-IDF实际上是:TF*IDF,TF词频(Term Frequency),IDF逆向文件频率 (Inverse Document Frequency)。TF表示词语在文档d中出现的频率。IDF的主要思想 是:如果包含词语t的文档越少,也就是文档η越小,IDF越大,则说明词语t具有很好的类 别区分能力。
[0069] 如果某一类文档C中包含词语t的文档数为m,而其它类包含t的文档总数为w, 显然所有包含t的文档数n = m+w,当m大的时候,η也大,按照IDF公式得到的IDF的值会 小,就说明该词语t类别区分能力不强。但是实际上,如果一个词语在一个类的文档中频繁 出现,则说明该词语能够很好代表这个类的文本特征,这样的词语应该给它们赋予较高的 权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处。
[0070] 在一份给定的文件里,词频指的是某一个给定的词语在该文件中出现的频率。这 个数字是对词数(term count)的归一化,以防止它偏向长的文件。对于在某一特定文件里 的词语来说,它的重要性可表示为公式(1):
[0072] 其中,η、,是词语i在文本j中出现的次数,而分母则是文本j中所有词语出现次 数之和;TF li,为词语在文本j中出现的频率;k表示文本j的任意一个词。
[0073] 逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度 量。某一特定词语的IDF,可以由总文件数目除以包含该词语的文档数目,再将得到的商取 对数得到公式(2):
[0075] 其中,IDF1S逆文本频率;|dI指的是语料库中的文本总数;I Uit1G d J I指的是 包含词语i的文本数目A为特征词;(!,为包含特征词语的文本。最后,词的权重(TFIDF 值)可以表示为公式(3):
[0076] TFIDF1= TF1^IDF1 (3)
[0077] 其中,TFIDF1S逆文本频率;TF i为特征词语频率。
[0078] 某一特定文档内的高词语频率,以及该词语在整个文件集合中的低文档频率,可 以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
[0079] 204 :计算相似度,文本特征向
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1