一种基于互联网海量信息的随机事件演化即时跟踪方法

文档序号:6377481阅读:239来源:国知局
专利名称:一种基于互联网海量信息的随机事件演化即时跟踪方法
技术领域
本发明属于信息处理领域,涉及一种信息提取方法,具体涉及一种基于互联网海量信息的随机事件演化即时跟踪方法,实现海量数据的快速提取、分析、研判。
背景技术
近年来,众多研究人员对基于互联网文本处理的事件演化跟踪方法开展深入研究工作。话题发现与追踪技术研究是这一领域中的热点,一方面基于TDT(Topic Detectionand Tracking)语料的话题研究仍在继续,另一方面新应用背景下的话题研究也得到了积极的开展,文献分别探讨了在普通网页、网络搜索结果中的话题组织和发现问题。随着TDT研究的发展和深入,一些新的研究动向也为TDT带来了新的问题和研究思路,例如数据流挖掘、热点话题发现、基于话题的多文档摘要等。数据流挖掘,主要指对实时、动态、按时间排序的信息流进行的一系列相关研究。TDT的研究对象也是一种动态数据流,两个领域的发展是相互促进的。热点话题发现、基于话题的多文档摘要稍有不同,是对数据流经过TDT相关技术处理后所得结果的进一步整理,以更方便人们对信息的使用。热点话题发现对话题的受关注度进一步分析,进而过滤出热点话题。国内TDT研究起步较晚,多在评测之后,主要集中在层次化话题发现、话题追踪、和新事件发现几个研究内容上,热点话题发现也是较多关注的焦点。上述的文本处理研究工作,为海量互联网信息中事件演化跟踪提供了一定的技术基础。然而,事件的跟踪过程中,信息处理活动需要以事件特征为分析的基本出发点,将事件自身的演化过程作为研究分析的对象。事件演化过程受各种自然与社会环境因素影响,而非人的主观因素。因此,上述的一些研究成果存在一定的不足之处。多数情况下,事件是客观发展的事务对象,对其的发展跟踪需要结合相关要素开展分析。神经网络因具有较强的学习能力,其能够逼近复杂非线性函数等特点在事件演化跟踪分析研究中得到广泛应用。神经网络以有限集为基本输入,围绕有限集情况下单隐藏层前馈神经网络(SLFN, Single-hidden Layer Feedforward Neural Network)的学习能力问题,Huang和Babri等开展了研究工作。基于以上研究,Huang为SLFN提出了 ELM(Extreme Learning Machine)学习方法通过隐藏层结点数设置,输入权和隐藏层偏差进行随机赋值获得输出结果。与BP (Back Propagation)相比,其在效率方面具有显著的优势。邓万宇等借鉴ELM的一次学习思想并基于结构风险最小化理论提出一种快速学习方法(RELM, Regularized Extreme Learning Machine), RELM 打破了传统 BP 算法的参数迭代调整的思想,从而获得了快速学习的能力,RELM比BP、SVM (Support Vector Machine)速度提高很多倍,提高泛化性能,为神经网络应用到实时环境提供了有效途径,为神经网络技术在事件演化跟踪领域的应用提供了基础(参考文件I :邓万宇,郑庆华,陈琳,许学斌.神经网络极速学习方法研究[J]计算机学报,2010, 33(2) :279-287.)。为了便于对大规模数据进行归纳处理,传统的(Knowledge Discovery in Databases)研究人员提出了对数据进行采样处理,将数据分割后分布并行处理的逐步放大(Scaling up)学习方法。然而这类方法在面临处理算法过于复杂的难题,同时也面临因数量大导致的欠处理难题。针对这一问题,田大新等提出了基于Hebb规则的分布神经网络学习方法,Hebb规则的局部特征使被分割到各个子集的部分知识能够在分布处理阶段得到保留,并在集中处理阶段被提取出来。这一方法以神经网络为基础,解决了大规模数据知识提取与信息处理的基本难题(参考文件2:田大新,刘衍珩,李宾,吴静.基于Hebb规则的分布神经网络学习算法.计算机学报,2007,30 (8) : 1379-1388.)。神经网络技术通过预制的信息框架建立学习的基本路径。然而,多数情况下事件往往具有随机性的特点,同时在事件的跟踪过程中要求在较短的时间内完成信息的处理并向有关决策部门提供参考依据。因此,多数事件信息处理工作需要在有限的信息基础上迅速开展自适应的分析活动。传统的神经网络技术在这一应用背景下,其自身实现机制的局限性就突显出来。现有技术中缺乏用有效的定量分析工具对灾害事件的发展演化进行分析的研究。针对这一不足,陈伟珂提出用熵理论和耗散结构理论对公共安全突发事件的过程进行了分析,但是没有从更一般的角度对事件的发展演化进行抽象建模(参考文件3 :陈伟珂,向兰兰.基于熵及耗散结构的公共安全突发事件的过程分析研究[J],中国软科学,2007 (10) :149-154.)。刘铁民分析了重大事故孕育、发生、发展和急变的动力学特征,阐述了重大事故形成和发展主要具备的四个基本要素(参考文件4 :刘铁民.重大事故动力学演化[J].中国安全生产科学技术.2006,2^):3-6.)。这一研究成果仅是从突发事件爆发的角度对于突发事件进行了说明,但是没有建立突发事件的系统状态方程,从定量的角度进行深层次的分析。Seeger从定性的角度分析,从混沛理论(Chaos Theory)基础上阐释危机信息传播中的深层复杂性问题,系统构建了危机信息传播的复杂性研究的普适理论问题(参考文件 5:P. R. Monge, N. S. Contractor, “Theories of Communication Networks”,NY Oxford University Press, 2003.),对于从本质层面理解危机信息传播具有极为重要的研究价值。Monge和Contracto更为详尽地从复杂适应系统(Complex Adaptive System, CAS)理论入手,借助他们研究提出的“多理论、多层次框架”(Multi-Theoretical Multi-Level,MTML)模型,应用数学建模及计算机模拟的方法系统地研究危机传播网络中各变量参数之间的协同演化(CO-evolution)问题,并探索混沌衍生的结构性涌现机制(参考文件6:D.Keith, “Situation Theory and Situation Semantics [J],,,In Logic and the Modalitiesin the Twentieth Century,2006,7:601-664.)。如前所述,事件是客观发展的,对其发展过程的分析需要紧密结合各种事件诱导要素。通过对事件诱导要素进行捕捉、判别、以及计算确定事件的表征与发展阶段。多数情况下事件的发生与发展具有高度的随机性。而传统的结构化、半结构化过程,分析方法无法针对这一随机过程建立全面的信息框架,从而导致事件演化跟踪存在漏洞。同时,在信息处理活动中,通过互联网搜索系统获取的信息具有在短时间内爆发性增长的特点,因此对分析演化过程对大数据量的吞吐与处理效率提出较高的要求。需要将事件演化跟踪过程与信息的提取活动紧密结合在一起,根据事件阶段性表征以及可能的发展趋势随态确定数据生产方式,从而满足信息处理领域的要求。

发明内容
本发明针对现有存在的信息滞后造成的事件识别困难,非确定性事件演化跟踪精度较低,海量信息混乱造成的随机事件演化过程跟踪的时效性较低等问题,提出了一种基于互联网海量信息的随机事件演化即时跟踪方法。本发明提出的一种基于互联网海量信息的随机事件演化即时跟踪方法,首先为事件构建事件空间,事件空间向量构成事件空间结构,事件空间向量由一组特征向量组成,每个特征向量中包含有事件的主题词,然后进行如下步骤步骤I :从当前互联网搜索引擎采集第i篇页面文本对象Ti,计算事件空间的增长。具体是提取当前事件空间的全部特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第j个特征向量I的主题词的词频大于0,则更新该特征向量' 的命中篇频,并存储当前文本对象Ti对该主题词的词频。步骤2 :从当前文本对象Ti中删除当前事件空间的全部主题词,然后计算信息增量向量。计算信息增量向量的方法是提取当前历史特征集合的全部历史特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第k个历史特征向量hk的某个主题词的词频大于0,则更新该历史特征向量hk的命中篇频,并存储当前文本对象Ti对该主题词的词频;所述的历史特征词集合初始为空。步骤3:从当前文本对象Ti中删除当前历史特征集合中的全部主题词,然后从当前文本对象Ti中提取新特征向量;从当前文本对象Ti中提取新特征向量的方法是判断当前文本对象Ti中是否存在词频超过阈值A的新词,若不存在,执行步骤4 ;若存在,则将所有词频超过阈值A的新词作为主题词生成一个历史特征向量,并将生成的历史特征向量存储在历史特征集合中,然后执行步骤4。步骤4:在历史特征集合中提取命中篇频最大的历史特征向量NV,提取历史特征向量NV中词频最大的前m个文本对象,在所提取的m个文本对象中,统计历史特征向量NV的每个主题词的词频,判断所统计的各主题词的词频是否均大于阈值B,若是,则将当前历史特征向量NV作为有效特征向量添加到当前事件空间中;否则,放弃当前步骤的操作,执行步骤5。步骤5 :从当前事件空间中提取命中篇频最大的特征向量Vmax与命中篇频最小的特征向量Vmin,计算两个特征向量Vmax与Vmin的命中篇频的差值,判断所得差值是否超过阈值C,若是,则将当前事件空间判定为临界裂解状态,执行步骤6,否则,转步骤7执行。步骤6 :将特征向量Vmax作为裂解向量,提取命中特征向量Vmax的全部文本对象集合S2,统计当前事件空间中除去特征向量Vmax以外的特征向量,在文本对象集合S2中的命中篇频,所得到的命中篇频称为与特征向量Vmax的相关度,然后判断是否能够在当前事件空间中提取相关度高于阈值D的特征向量,若否,当前事件空间为不可裂解空间,执行步骤7;若是,相关度高于阈值D的特征向量与特征向量Vmax共同组成新的事件空间,并删除当前事件空间中对应的特征向量,完成裂解。步骤7 :以事件空间中特征向量主题词更新互联网搜索引擎的主题词,进行后续文本处理工作。本发明在互联网中产生的海量、异构、实时感知数据的基础上,实现对动态事件的非确定性演变过程分析,继而实现事件的预测与预警服务。本发明的优点和积极效果在于I.提高对随机事件动态跟踪的精度在信息动力的基础上,实现随机事件演化过程非结构化分析方法,在演变过程中,利用信息动力实现事件空间的自适应演化,实现事件特征空间的动态重构,通过对历史特征词的词频统计以及关联度量化判别方式确定事件演化过程中阶段性结构变化,实现事件演化过程中结构化缺损的自动弥补,从而解决非确定性事件演化跟踪精度较低的基本问题;2.提高对随机事件演化过程跟踪的时效性通过统计文本对象中新高频词,实现随机事件不可测因素的监控与识别;对事件空间中特征向量、历史特征词以及当前文本中新增高频词进行提取、计算与统计,确定了增量信息对当前事件空间已有特征向量的增长贡献动力、事件随机表征因素的提取、监控与识别;随着事件的发展及时捕捉、识别随机出现的阶段性要素,从而解决信息处理活动中演化跟踪的时效性的基本问题;3.提高海量信息中数据处理的专题性事件空间中特征向量的构成随着演化过程不断变化,互联网搜索引擎根据事件空间中的特征向量组织网页文本对象的采集与提取;通过寻找裂解向量Vmax并判断当前事件空间其他向量与裂解向量的相关度,来确定事件空间的裂解,继而实现事件空间的稳定裂解,满足事件衍生/次生变化跟踪的基本要求;实现了互联网搜索引擎随时以事件当前发展的焦点与趋势作为主题并实现数据采集的动态组织,提高了信息的主题性,降低了系统对数据的吞吐与处理负载。


图I为本发明随机事件演化即时跟踪方法的系统架构图;图2为本发明随机事件演化即时跟踪方法的系统组成图;图3为本发明随机事件演化即时跟踪方法的步骤流程图。
具体实施例方式下面将结合附图和实施例对本发明作进一步的详细说明。本发明方法以基本特征要素构成事件的初始空间向量。在跟踪过程中,以初始空间为基础,对互联网增量信息的熵值进行计算与统计,将这一熵值作为事件演化动力,利用演化算法确定事件空间特征向量的增长与结构性变化。在演化过程中根据事件空间中向量增长度的对比确定事件裂解临界状态。当空间结构畸形达到一定状态后,利用增量信息熵值统计与事件临界空间向量的对比实现新事件空间的稳定裂解,实现衍生/次生事件的识别与跟踪。本发明提供的方法以增量信息的熵值作为事件演化的动力,能够有效满足突发性、随机性事件跟踪、预警/预测等工作的需要。同时,具有高度的专题性,避免海量信息处理活动中计算节点与网络负载较重的普遍现象,具有良好的可靠性与可扩展性。本发明一种基于互联网海量信息的随机事件演化即时跟踪方法的运行平台为一个基于分布式架构的系统,如图I所示系统由三个基本层次构成搜索层、处理层以及分析层,其中搜索层主要利用搜索引擎实现互联网搜索、网页内容提取、主题词维护以及搜索模板管理等工作。搜索层以综合信息网站、BBS、专业搜索引擎接口、微博、RSS订阅等为目标,提取有关事件信息的网页内容,经过初步处理后提交处理层进行信息的后续处理工作;处理层主要实现对搜索引擎采集的网页内容进行信息提取、过滤、分拣以及统计等工作。这一层中包括两个主要组成部分一方面,搜索层采集的页面经过格式清洁与时序处理后存入数据库中;另一方面根据时序系统对入库的页面文本信息,阶段性开展高频词分析、提取与统计工作。经过这些处理后将增量信息的高频词词频以及对应的主题词篇频统计信息存入数据库中,在后续的分析中,以这些信息作为事件演化发展的动力因素开展跟踪与研判活动。时序组织时序组织主要是在主题词篇频统计数据和增量信息历史特征词词频统计数据的基础上,计算信息密集发布的事件特征和时间范围,结合文本聚合统计工作,实现事件时序分析统计。高频词提取对信息文本中新高频词进行提取,当新词在文本中的词频超过设定阈值时,将该新词作为新的增量向量特征。最后以全部新增量向量构成当前世间发展趋势动力。分析层根据增量信息词频统计的增长,对事件空间中向量的长度以及空间结构进行更新与维护。在此基础上通过量化判别方法,实现事件空间的稳定裂解,从而满足对随机事件演化过程的前兆捕捉-跟踪-研判-预警/预测等服务的要求。事件空间增长维护通过对信息文本中新高频词的提取,判断新词在文本中的词频是否超过设定阈值,如果超过设定阈值,将新词作为新的增量向量特征。最后以全部新增量向量构成当前世间发展趋势动力。事件空间结构维护计算当前信息文本对已有的信息增量历史向量的增长贡献,并依次计算全部信息增量历史向量在当前文本中的词频统计。事件空间裂解事件在发展的过程中,随着信息增量统计的增长,空间中各个向量的增长趋势会产生差异。这一差异会导致事件空间产生畸变,当这一畸变发展到一定阶段后,就形成事件阶段性表征。在这一表征的基础上,经过裂解处理,事件空间形成两个新的事件空间,从而实现事件的衍生/次生。系统的构成如图2所示整个系统主要包括了搜索引擎服务器、文本处理服务器、信息分析服务器、信息发布服务器以及备份服务器。搜索引擎服务器部署系统的互联网网页搜索引擎部分,在运行中,搜索引擎首先通过互联网提取新闻网站、专业搜索引擎接口、普通网站以及微博等页面的文本信息,根据当前搜索引擎主题词过滤、筛选相关信息。经过处理后的页面信息提交文本服务器做后续处理;文本处理服务器主要负责搜索引擎提取的页面文本格式清洁、存储以及词频提取、统计的工作。文本处理服务器接收到搜索引擎提取的网页内容后,经过格式清洗形成统一的文本内容存入页面文本数据库。在文本处理的过程中,提取当前文本中的高频词,并对照增量信息历史特征词词频统计数据库中的内容更新各种词频与篇频统计信息。同时,向这一数据库中添加当前文本中新发现的高频词。完成以上工作后,通知信息分析服务器做进一步的事件演化分析工作;信息分析服务器接收到这一请求后计算增量信息中信息熵值对当前事件空间中已有特征向量增长贡献度,以及事件空间结构变化情况。通过这一活动实现事件随态跟踪。在跟踪的过程中,利用裂解诱导因素量化判别方法以及稳定裂解方法实现事件的衍生/次生,满足事件演化跟踪的要求;
信息发布服务器通过各种专题信息服务对外发布当前事件演化跟踪过程中的研判、预警/预测等信息;备份服务器则根据备份策略对系统中各个数据库中的内容进行备份。首先,对本发明中所述的事件进行说明。事件是开展信息处理与分析的基本对象,对事件的定义如下事件基本空间模型
EventMocIeS = Class {
String indentification;
String description;vectorFeatures vectorFeature * ;
Childrens Event*;vecOpts op;i;eventOpt}下面对各参数进行说明(I) Indentification 为事件的标识;(2) description为事件的基本描述信息,通过这一描述信息实现事件的基本检索;(3) vectorFeatures为事件空间向量,其由一组特征向量定义构成vectorFeatures= (VectorFeaturei | i=l, 2,......n}, VectorFeaturei 表不第 i 个
特征向量。空间中的特征向量具有互斥性,不同特征向量之间的语义不存在交叉或者覆盖关系,特征向量的定义如下vectorFeature= {ID, baseKey, expandKeyCollection, length};特征向量定义中的各参数为(3. I) ID为特征向量的标识;(3. 2)baseKey为基本语义的主题词,利用基本语义实现事件识别过程中的关联判别、事件跟踪中的信息过滤与筛选等;baseKey= {concept, value},其中concept为定义域,value为取值;(3. 3)expandKeyCollection为扩展语义集合。在事件演化过程中,通过对扩展语义中的内容的添加与删除实现语义的随态漂移;扩展语义集合由一组扩展语义定义构成,如下expandKeyCol lection= {kj | i=l, 2,......n} 表示第 i 个扩展语义;每个扩展语义的定义为k= {value, factor}, value为扩展语义的对应词,factor为该扩展语义与基本语义主题词的关联度。(3. 4)length为该特征向量的取值,在事件的跟踪过程中,其值随着该特征向量在文本内容中的出现频率更新,指统计的命中篇频的量。利用这一特征向量取值实现空间形CN 102929927 A



7/15 页
变诱导要素、裂解要素等判别。(4) childrens为当前事件衍生/次生、共生/促生的子事件集合childrens= (Eventi | i=l, 2,......n} !Eventi 表不第 i 个子事件;(5)vec0pts为特征向量映射关系定义集合,其通过虚拟化实现特征向量映射关系的高阶定义。vecOpts的定义如下vecOpts= (Opi | i=l, 2,.....n};0Pi表示第i个特征向量映射关系;各映射关系的
定义为op= {requester, target, condition, mapOp}其中,requester为映射操作请求方定义,其为空间中某个特征向量构成;target为映射操作对象方定义,其为空间中某个特征向量构成condition为映射操作启动条件定义;map0p为映射操作定义集合,其由一组映射操作定义构成
mapOp=clearAH deieteExpand 0iipdaieLengthValue ;cIearAlI为清除目标扩展语义操作;deleteExpand为清除某一特定扩展语义操作;updateLengthValue为更新目标向量取值操作表示异或运算操作。(6) eventOpt为事件空间操作定义集合
eventOpt = Indentification 十 Update VectorFeature Split Couple其中,Indentification为事件标识;UpdateVectorFeature 为更新向量特征;Split为事件空间裂解操作;Couple为多事件空间耦合操作。例如,为事件“北京2011年12月10日大雪”创建事件对象,其基本内容如下
权利要求
1.一种基于互联网海量信息的随机事件演化即时跟踪方法,其特征在于,首先为事件构建事件空间,事件空间中包含有一组特征向量,每个特征向量中包含有一组主题词,然后进行如下步骤步骤I:从当前互联网搜索引擎采集第i篇页面文本对象Ti,进行事件空间的增长;进行事件空间的增长的方法是提取当前事件空间的全部特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第j个特征向量I的某个主题词的词频大于0,则更新该特征向量' 的命中篇频,并存储当前文本对象Ti对该主题词的词频;步骤2 :从当前文本对象Ti中删除当前事件空间的全部主题词,然后计算信息增量向量;计算信息增量向量的方法是提取当前历史特征集合的全部历史特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第k个历史特征向量hk的某个主题词的词频大于0,则更新该历史特征向量hk的命中篇频,并存储当前文本对象Ti对该主题词的词频;所述的历史特征集合初始为空;步骤3 :从当前文本对象Ti中删除当前历史特征集合中的全部主题词,然后从当前文本对象Ti中提取新特征向量;从当前文本对象Ti中提取新特征向量的方法是判断当前文本对象Ti中是否存在词频超过阈值A的新词,若不存在,执行步骤4 ;若存在,则将所有词频超过阈值A的新词作为主题词生成一个历史特征向量,并将生成的历史特征向量存储在历史特征集合中,然后执行步骤4 ;步骤4 :在历史特征集合中提取命中篇频最大的历史特征向量NV,提取历史特征向量NV中词频最大的前m个文本对象,在所提取的m个文本对象中,统计历史特征向量NV的每个主题词的词频,然后判断所统计的各主题词的词频是否均大于阈值B,若是,则将当前历史特征向量NV作为有效特征向量添加到当前事件空间中;否则,放弃当前步骤的操作,执行步骤5 ;步骤5 :从当前事件空间中提取命中篇频最大的特征向量Vmax与命中篇频最小的特征向量Vmin,计算两个特征向量Vmax与Vmin的命中篇频的差值,判断所得差值是否超过阈值C,若是,则将当前事件空间判定为临界裂解状态,执行步骤6,否则,转步骤7执行;步骤6 :将特征向量Vmax作为裂解向量,提取命中特征向量Vmax的全部文本对象集合S2,统计当前事件空间中除去特征向量Vmax以外的特征向量,在文本对象集合S2中的命中篇频,所得到的命中篇频称为与特征向量Vmax的相关度,然后判断是否能够在当前事件空间中提取相关度高于阈值D的特征向量,若否,当前事件空间为不可裂解空间,执行步骤7 ;若是,相关度高于阈值D的特征向量与特征向量Vmax共同组成新的事件空间,并删除当前事件空间中对应的特征向量,完成裂解;步骤7:以事件空间中特征向量主题词更新互联网搜索引擎的主题词,进行后续文本处理工作。
2.根据权利要求I所述的随机事件演化即时跟踪方法,其特征在于,步骤3中所述的阈值A为0.3。
3.根据权利要求I所述的随机事件演化即时跟踪方法,其特征在于,步骤4中所述的m,其值的确定方法是设历史特征向量NV的命中篇频为S1,则m通过对30%取整得到。
4.根据权利要求I所述的随机事件演化即时跟踪方法,其特征在于,步骤5中所述的阈值C大于O. 34。
5.根据权利要求I所述的随机事件演化即时跟踪方法,其特征在于,步骤6中所述的阈值D大于O. 29。
全文摘要
本发明提出了一种基于互联网海量信息的随机事件演化即时跟踪方法。该方法以基本特征要素构成事件的初始空间向量,在跟踪过程中,以这一初始空间向量为基础,对互联网增量信息的高频词熵值进行计算与统计,将这一熵值作为事件演化动力,确定事件空间特征向量的增长与结构性变化,利用增量信息向量与事件临界空间向量的熵值对比实现新事件空间的稳定裂解,实现衍生/次生事件的识别与跟踪。本发明提供的方法以增量信息的熵值作为事件演化的动力,能够有效满足具有突发性、随机性事件的跟踪、预警/预测等工作的需要;同时,具有高度的专题性,避免海量信息处理活动中计算节点与网络负载较重的普遍现象,具有良好的可靠性与可扩展性。
文档编号G06F17/30GK102929927SQ201210353440
公开日2013年2月13日 申请日期2012年9月20日 优先权日2012年9月20日
发明者郭皓明, 武群惠, 张秀红, 刘允桢, 刘海, 梁峰 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1