一种新闻在线话题检测方法

文档序号:8395934阅读:1475来源:国知局
一种新闻在线话题检测方法
【技术领域】
[0001] 本发明涉及计算机科学与技术领域,更具体地,涉及一种网络新闻在线话题检测 方法。
【背景技术】
[0002] 话题检测(TopicDetection,TD)是话题检测与跟踪(TopicDetectionand Tracking,TDT)中的五项基础性研宄任务之一,它主要是对检测和组织系统预先未知话 题进行检测。TDT(TopicDetectionandTracking)项目是由美国国防部高级研宄规划 署(DARPA)资助,马萨诸塞大学(UniversityofMassachusetts)、卡耐基-梅隆大学 (CarnegieMellonUniversity)和DragonSystems公司联合参与的一个项目。这一项目 主要是对连续的新闻媒体信息进行自动化分析,检测其中所存在的话题,并对已检测到的 话题进行跟踪。话题检测的研宄是在TDT(TopicDetectionandTracking)项目的背景下 开展起来的。对于话题检测这一任务而言,Single-Pass算法应用较为广泛。Single-Pass 是一种增量式聚类算法,主要是对文本流进行聚类分析。该算法依次将所到达的文本与已 存在的簇质心进行相似度计算,若最大的相似度值大于或等于某一阈值,则将该文本聚合 到相似度最大的簇中,并重新计算该簇的质心;若最大的相似度值小于某一阈值,则创建一 个新的簇,并将该文本聚合到新创建的簇中。
[0003] 洪宇(洪宇,张宇,刘挺.话题检测与跟踪的评测及研宄综述[J].中文信 息学报.2007,(06) :71-87.)等人对话题检测与跟踪的评测及研宄进行了综述,介绍了 话题检测与跟踪的主要任务和关键技术,及其主要语料和评测方法。贾自艳等(贾自 艳,何清,张俊海.一种基于动态进化模型的事件探测和追踪算法[J].计算机研宄 与发展.2004,41(7):1273-1280.)对文本中出现的人名、地名等命名实体进行了识别, 并根据其类别的不同,给予不同的权重,最后借鉴Single-Pass聚类思想设计出动态 进化模型的事件探测和追踪算法。张阔(ZhangK,ZiJ,WuLG.Neweventdetection basedonindexing-treeandnamedentity[C].Proceedingsofthe30thannual internationalACMSIGIRconferenceonResearchanddevelopmentininformation retrieval. 2007:215-22.)则是基于x2分布对语料集中各实体类别与各话题类别的关联 性进行统计,并根据特征的关联性,为各个特征赋予不同的权重。赵华(赵华,赵铁军,于 浩.面向动态演化的话题检测研宄[J].高技术通讯.2006, 12(16) : 1230-1235.)则将时序 的因素考虑进来,对话题演化的边界进行识别。金珠(金珠,林鸿飞,赵晶.基于HowNet 的话题跟踪及倾向性分类研宄[J].情报学报.2005, 5 (24) : 555-561.)则是利用HowNet建 立结构化话题模型,从不同的侧面来对话题进行描述。
[0004] 综合已有研宄分析,目前主要是利用Single-Pass算法进行聚类从而发现话题。 Single-Pass算法是一个经典的增量式聚类算法,该算法是按照新闻到达的时间序列,一次 读取一篇新闻来进行增量式聚类分析。但是,这样的处理会带来一个问题:动态聚类阶段由 于在特征提取时没有任何其它的文本作为参照,文本处理显得过于单一,进而使得各话题 的质心会因文本读入的顺序不同而产生很大的差异,影响聚类效果。同时,Single-Pass算 法在文本与话题聚合的过程中是根据事先规定的一个单一阈值来划分文本所属的话题,很 容易导致话题的漂移。

【发明内容】

[0005] 本发明旨在提出一种更有效的新闻在线话题检测方法,通过引入聚类缓冲区来对 一定数量或一段时间内所到达的文本使用X-means算法进行初始聚类,引入双阈值思想 (建立话题聚合阈值、话题质心更新阈值),有效控制话题的漂移及提高聚类的效果。该方 法取得的效果在各个评价指标上均优于经典的Single-Pass算法,能更准确地识别出某一 领域的新闻相关话题。
[0006] 为了实现上述目的,本发明的技术方案为:
[0007] -种新闻在线话题检测方法,是用于检测新闻的在线话题,具体包括:
[0008] 初始化:预设最大聚类簇maxNumClusters和最小聚类簇minNumClusters,话 题聚合阈值lowTX,话题质心更新阈值highTX,初始类集合ClusterSet,初步类质心列表 CentroidList_Cluster,话题集合TopicSet,话题质心列表CentroidList_Topic
[0009] 阶段一、初始静态聚类:
[0010]S1.预处理:根据新闻发布的时间顺序,读取单位时间段内所发布的新闻或单位 数量的新闻,并对这些新闻文本进行预处理,将新闻文本向量化;
[0011]S2.对新读入的新闻文本使用x-means算法进行初始静态聚类;
[0012] S3.将静态聚类所得到的初始类存入初始类集合ClusterSet中,并计算各个初始 类的质心,将其加入到初始类质心列表CentroidList_Cluster中;
[0013] 阶段二、动态聚类:
[0014]S4.取出初始类质心列表CentroidList_Cluster中的一个初始类质心,与话题质 心列表CentroidList_Topic中的每一个话题质心进行相似度计算,记录最大相似度值及 其所对应的话题;
[0015]S5.当所得出的最大相似度值小于话题聚合阈值lowTX,则创建新的话题,将该初 始类聚合到新建的话题中,并将该初始类的质心当作新建话题的质心加入到话题质心列 表CentroidList_Topic中;当所得出的相似度值大于或等于话题聚合阈值lowTX,则将该 初始类聚合到相似度最大的话题中;当所得出的相似度值大于或等于话题质心更新阈值 highTX,则更新聚合后的话题质心;
[0016] S6.将该初始类及其所对应的类质心分别从初始类集合ClusterSet以及初始类 质心列表CentroidList_Cluster中删除;
[0017]S7.转步骤S4,直至初始类质心列表CentroidList_Cluster为空,完成一次聚类 分析;
[0018]S8.等待下一单位时间或单位数量的新闻文本,转步骤S1。
[0019] 优选地,所述步骤S1的预处理具体过程为:对单位时间段内所发布的新闻或单位 数量的新闻进行分词和词性标注后,提取新闻元素和领域命名实体,并依据新闻元素和领 域命名实体出现的不同位置赋予不同的权值wn,i表示新闻元素和领域命名实体集合中第 i个个体;将权值wn乘以对应新闻元素或领域命名实体在网络新闻中出现的次数,获取各 个新闻元素或领域命名实体在文本中的权重,将新闻文本向量化;其中领域命名实体是指 需要话题检测域内的专用名词,新闻元素一般是指新闻的来源、时间、地点、事件等人物。
[0020] 优选地,所述步骤S1的预处理还包括将同时在新闻标题和新闻正文中出现的新 闻元素或领域命名实体进行识别,重新赋予权值W2i,分别权值Wn、W2i分别乘以对应新闻元 素或领域命名实体在网络新闻中出现的次数,获取各个新闻元素或领域命名实体在文本中 的权重,将新闻文本向量化,其中Wn〈W2i。
[0021] 优选地,所述步骤S1的预处理还包括特征的选择,将所有权值wn、w2i按大小进行 排序,选择权值大的T个特征,将这T个特征的权值分别乘以对应新闻元素或领域命名实体 在网络新闻中出现的次数,获取各个新闻元素或领域命名实体在文本中的权重,将新闻文 本向量化。
[0022] 优选地,步骤S4中对初始类质心和话题质心进行相似度计算的方式为:求初始类 质心和话题质心两个向量之间夹角的余弦值,余弦值越大,证明则相似度也越大。
[0023] 与现有技术相比,本发明技术方案的有益效果是:
[0024] (1)传统的话题检测方法中,文本预处理部分仅仅只是一个通用的文本处理方式, 并未对某一特定领域或特定形式的文本加以区分从而挖掘其中所存在的某些特殊的性质, 造成文本语义表示的缺失。本发明对新闻文本进行预处理,挖掘新闻的主要元素(时间、地 点、事件、人物)以及该领域类中的专用名词(即领域命名实体),对新闻中的各个特征(新 闻元素和领域命名实体)依据重要程度赋予相应的权重,提高特征提取的准确度,有效地 提高文本预处理的质量。
[0025] (2)传统的聚类方法对于话题事件检测易于造成话题漂移及聚类效果不佳问题。 传统的Single-Pass算法是一个经典的增量式聚类算法,该算法是按照新闻到达的时间 序列,一次读取一篇新闻来进行增量式聚类分析。但是,这样的处理会带来一个问题:动 态聚类阶段由于在特征提取时没有任何其它的文本作为参照,文本处理显得过于单一,进 而使得各话题的质心会因文本读入的顺序不同而产生很大的差异,影响聚类效果。同时, Single-Pass算法在文本与话题聚合的过程中是根据事先规定的一个单一阈值来划分文本 所属的话题,很容易导致话题的漂移。本发明旨在提出一种更有效的话题检测方法,通过引 入聚类缓冲区来对一定数量或一段时间内所到达的文本使用X-means算法进行初始聚类, 引入双阈值思想(建立话题聚合阈值、话题质心更新阈值),有效控制话题的漂移及提高聚 类的效果。该方法取得的效果在各个评价指标上均优于经典的Single-Pass算法,更准确 地识别出食品安全相关话题。
【附图说明】
[0026] 图1是本发明基于XMSP二阶聚类的在线话题检测流程图。
【具体实施方式】
[0027] 下面结合附图对本发明做进一步的说明,在本实施方式中以食品安全的新闻话题 检测为例。
[0028] 如图1,一种新闻在线话题检测方法,首先进行新闻文本的预处理阶段,经过分词 和词性标注以后,识别新闻元素和话题检测领域相关的领域命名实体,赋予相应的权值,再 进行特征的筛选和加权后将文本向量化表示,最后送入聚类阶段。在聚类阶段
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1