舆情热点自动监测系统的制作方法_4

文档序号:8922598阅读:来源:国知局
决定。第一遍扫描是所有不存在于停用词表中且拥有足够出现频度的 单字被收入到特征词串表集中。对于长度为2到最大词串长度的词串利用多个筛选标准来 抽取。在每一遍扫描中,所有的文档均利用一个窗口队列来逐个单字地进行检查以便获得 一个个的词串,每个文档中的符号若要进入该窗口,必须满足它是一个正确的单字(而非一 个数字或特殊的符号),它不存在于停用词表中且属于当前的字串集;否则该窗口被清空复 位。
[0153]文本经过分词程序分词后,首先去除停用词,合并数字和人名等词汇,然后统计词 频,最终表示为上面描述的向量。
[0154] 特征提取:
[0155]经过以上步骤得到的特征向量的维数是非常高的,如此高维的特征对即将进行的 分类学习未必全是重要、有益的,而且高维的特征将会大大增加机器的学习时间,而产生与 小得多的特征子集的学习分类结果。这便是特征提取所要完成的工作,特征提取一般是构 造一个评价函数,对每个特征进行评估,选取评估分值高的,预定数目的最佳特征作为特征 子集。经实验证明,前30项(按权值从高到底排序)的模值一般占特征项模值的80%以上, 第80项以后的项对整个向量的影响很小,因此,考虑到运行效率,在系统中简单地选取了 权值前50位的特征项组成最终的特征向量。
[0156] 特征抽取在文本分类中起着重要的作用,能够起到降低向量空间维数、简化计算、 防止过分拟合等作用。由于特征子集的数量和特征数量之间是指数的关系,枚举几乎是不 可能的,因此我们假设特征之间是独立的,这样特征子集的抽取就转化为特征项的抽取,及 根据某个特征评估函数计算各个特征的评分值,然后按评分值排序,选取若干个评分最高 的作为特征词。这就是特征提取。
[0157] 特征选择的主要功能是在不损伤分类精度的情况下尽量减少要处理的单词数,以 此来降低向量空间维数,从而提高分类工作的速度和效率。因此,特征选择对提高分类精度 来说,即使是有帮助,对不同的分类器所起的效果不同。
[0158] 在文本处理中,一些常用于特征提取的评估函数有文档频数(Document Frequency)、信息增益(informationGain)、期望交叉熵(ExpectedCrossEntropy)、互 信息(MutualInformation)、x2 统计(CHI)、文本证据权(TheWeightOfevidenceFor Text)和几率比(OddRatio)等。
[0159] 1、文档频数DF
[0160] 它是最简单的评估函数,其值为训练集合中该单词发生的文本数。DF评估函数的 理论假设稀有单词可能不含有用信息,也可能太少而不足以对分类产生影响,也可能是噪 音,因此可以删去。显然它在计算量上比其它评估函数小得多,但在实际运用中它的效果却 很好。DF的缺点是稀有单词可能在某一类文本中并不稀有,也可能包含着重要的判断信息, 简单地舍弃,可能影响分类器的精度。因此,在实际运用中一般并不直接使用DF。
[0161] 2、信息增益IG
[0162] 信息增益常被应用于机器学习领域中,它通过文本特征在文本中出现与不出现的 情况来推算该特征的信息量。定义为某一特征在文本中出现前后的信息熵之差。
[0163] 3、文本中单词t的期望交叉熵
[0164] 它与信息增益唯一的不同之处在于没有考虑单词未发生的情况。
[0165] 4、互信息MI
[0166] 在统计学中,互信息用于表征两个变量的相关性,常被用来作为文本特征相关的 统计模型及其相关应用的标准。
[0167] 5、乂2估计(011)
[0168] 与互信息相同,x2估计也用于表征两个变量的相关性。对特征进行打分时,计算 的是特征t与类c之间的依赖关系。x2估计对文本特征的测度比互信息要好,因为它同时 考虑了特征存在与不存在的情况。
[0169] 如果t与c之间相互独立,那么文本特征t的X2估计值为零。X2估计与互信息 的主要区别是X2为标准值,因此同类中的特征的x2值是可比的。但x2估计对于低频特 征的打分是不够准确的,所以,采用X2估计进行文本特征抽取时,应先根据特征的文本频 数排除一部分低频词,再对剩下的特征进行打分,这样会获得比较好的效果。
[0170] 6、文本证据权(WeightOfEvidTxt)
[0171] 这是一种较新的评估函数,它衡量类的概率和给定特征时类的条件概率之间的差 另IJ。文本处理中,不需要计算t的所有可能值,而只考虑t在文本中出现的情况。
[0172] 7、优势率(OddsRatio)
[0173] 优势率只适用于二元分类的情况,其特点只是关心文本特征对于目标类的分值。 公式中,pos表示目标类,neg表示非目标类。
[0174] 经过对几种评估函数进行比较,本文系统选择了效果较好的CHI方法进行文本特 征提取。
[0175] 由于现有主题监测技术主要考虑在固定的小数据集合上的错检率和漏检率,在实 际应用于舆情热点的自动监测时,存在着主题排序、主题相似性、报道淘汰和主题描述等缺 陷。针对这些问题,本文提出了 一种新的舆情热点监测方法,该方法利用舆情热点本身的特 点,通过引入主题排序、主题合并与调整、报道淘汰以及主题描述等步骤,实现对持续新闻 流进行动态、高效的热点监测,如流程图1。
[0176] 系统要维护主题信息列表和新闻报道信息列表:
[0177] 主题信息列表维护一定数量的新闻主题信息,每一个主题信息的结构如下:
[0178]typedefstructstruTopicInfo{
[0179]intsequence;// 主题序号;
[0180]intparent;// 所属专题序号;
[0181]intfirstDoc;// 第一篇报道序号;
[0182]intlastDoc;//最后一篇报道序号;
[0183]intdocsCount;//报道数目;
[0184]DocumentFeaturefeature[FeatureWordsNum] ;// 主题特征向量;
[0185]Chartitle[TopicTitleLength] ;//标题;
[0186]Charsummary[TopicSummaryLength] ;// 摘要;
[0187] }TDTTopicInfo;
[0188] 此外,系统要设定主题窗口和文档窗口的大小以及聚类阈值和创新阈值,其中聚 类阈值要大于创新阈值。
[0189]constRecentTopicsNnm=25 ;//加窗策略中主题窗口大小;
[0190]constWindowSize=1000 ;//加窗策略中窗口的大小,S卩窗口中文档的数目;
[0191]constdoubleTDTClusterThreshold=0. 10 ;// 聚类阈值;
[0192]constdoubleTDTNoveltyThreshold=0. 095 ;//创新阈值;
[0193] 新闻报道信息列表则维护最近的若干报道信息,每一篇报道信息的结构如下:
[0194]typedefstructstruDocumentlnfo{
[0195]intsequence;// 报道序号;
[0196]intparent;// 所属主题序号;
[0197]floatscore;// 得分值;
[0198]charURI[URI_Length] ;// 具体文件存放路径;
[0199]DocumentFeaturefeature[featureWordsNum] ;//词特征向量;
[0200] intnextDoc;//同主题中下一篇报道序号;
[0201] 丨TDTDocumentlnfo;
[0202] 系统初始化读取已有的主题信息的报道信息,建立主题信息列表和报道信息列 表,最后将主题信息列表和报道信息列表的所有内容与到文件中。
[0203] 系统还能够将监测结果导出,形成XML文件。主题信息的DTD为:
[0204]
[0205] 基于上述,本发明的优点为:该系统热点自动监测技术是关键环节。舆情热点的自 动发现可以使得政府用户对互联网上的当前热点有及时快捷的了解和掌握,为全面掌握网 络舆情都将起到了很大的推动作用。
[0206] 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术 人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本 发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变 化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其 等同物界定。
【主权项】
1.舆情热点自动监测系统,其特征在于,该系统包括有汉语自动分词模块、特征提取模 块; 汉语自动分词模块包括有自动分词的基本算法单元、未登陆词的识别单元、汉语自动 分词的切分歧义及其消除单元; 特提提取模块包括有特征表示单元、向量空间模型单元; 该系统的自动监测方法的步骤如下: 1) 、从数据源读入一篇报道,对多个网络新闻数据源进行不间断地监测,从网络中自动 抓取新闻报道,解析出新闻报道的时间、标题和正文信息等,如果没有从报道中找到时间, 则以抓取时间为准; 由于多个数据源之间存在相当的重复,对新抓取的新闻报道,根据报道的文本内容进 行消重处理;如果新报道和之前已经处理的新闻报道重复度大于重复阈值Θ d,则认为是 重复的新闻报道,本实施例中设定的重复阈值Θ d为0. 9 ; 由于新闻报道的范围过于宽泛,采用基于来源的规则分类以及基于内容的自动分类相 结合的方法,对新闻报道进行分类,
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1