一种面向即时交互文本的事件识别与跟踪方法

文档序号:6568296阅读:147来源:国知局
专利名称:一种面向即时交互文本的事件识别与跟踪方法
技术领域
本发明涉及一种信息检索、抽取与管理以及自然语言处理技术,特别是涉及一种面向在线即时交互文本的事件识别与跟踪。
背景技术
随着互联网技术应用的日趋广泛,基于交互式文本的网络应用不断发展,已经成为人们获取和发布信息的主要手段之一,例如网络聊天室、微博等典型的交互文本应用。这些文本中蕴含着大量丰富的信息资源,如何实现对这些交互文本应用中发生的事件按主题类别查找、组织和利用,成为当务之急。比如自动识别网络学习者的情感变化事件,从而调节其学习效率;识别各种社会敏感的突发事件或者新事件等。申请人经过查新,未检索本发明相关的专利。但是找相似的几篇文章,分别是1)基于频繁模式的消息文本聚类研究。胡吉祥,中国科学院研究生院(计算技术研究所)。2)用于聊天词汇的权重计算方法⑶TF_IDF。高鹏,曹先彬,计算机仿真,2007. 12。文章1)的作者发现了频繁模式(称之为关键频繁模式)包含了词序和邻近上下文等更多的语义信息对交互文本特征抽取的关键性,提出了一种无指导的基于频繁模式的特征选择算法,应用于文本分类和聚类。文章2)主要针对聊天室的内容监控应用,通过分别离线计算词汇在不同数据源中的权值并汇总、并对重点词汇提高权重等方式来计算聊天数据的词汇权重,从而达到识别聊天室主题的目的。根据上述查新,现有相似技术与本发明方法主要有以下几方面的不同1.现有技术的研究对象为以整个新闻(事件)或者段落,而本方法针对话轮级别。2.现有技术为离线主题识别方法,而本方法为在线事件识别方法。3.现有技术识别的结果仅为整个新闻(事件)或段落是否属于哪一类主题,以及相关的新闻(事件)发生,即主题级的识别与跟踪;而本方法主要是发现在线交互双方讨论的事件是否一致,该事件是否完整(开始和结束),参与的人有那些,即对单一、具体事件的识别与跟踪。4.在交互文本的特征表示方面,现有技术离线收集仅为当前新闻(事件)的词频特征进行计算,而本方法发现了时间依赖特性,引入时间阈值内的所有话轮特征的聚集来进行主题分类。5.现有方法以无监督的概率潜在语义分析方法为主,而本方法针对主题的分层模型,提出了有监督的、分层PLSA主题模型训练方法,并定时更新主题模型。

发明内容
针对前述相关技术与本发明比较中所存在的问题,本发明提供了一种面向在线即时交互文本的事件识别与跟踪方法,包括如下步骤
第一步话轮级主题类别分类阶段(1)在即时交互文本中,以用户一次输入的发言Speech为一个话轮Turn,用五元组表示为Ti = (i, id, role, stamp, content)其中,Ti表示第i个话轮,且i e z,Z是正整数集合;id表示区分说话人的唯一标示符;role表示说话人的角色,它分两个类别说话人Speaker和接受者recipient ;stamp 表示话轮发生的时间戳;content表示一次话轮中发言的所有文本;那么Ti. stamp就表示第i个话轮发生的时间,Ti. content就表示第i个话轮的内容,所述的交互文本是来自于同一个聊天室或者讨论群组内的话轮;(2)对当前话轮Ti的内容Ti. content进行文本预处理,按照特征词典提取其中的
特征词,计算语言特征向量 =(1^1,化2”",1^,".1^),其中 ,0<11彡11表示第h个特征词在Ti. content中出现的次数,η表示特征词的个数;所述的特征词典,是从训练数据中提取的;(3)如果话轮凡是系统中出现的首次话轮,也即T1,转至IJ (5);否则,执行(4);(4)计算话轮Ti的自适应语言特征聚集向量W^ = (^1,14^2,...,^1.,...^1),其中 ,0<h'彡 n 表示第
h'个特征词在该语言特征聚集中出现的次数,η表示特征词的个数;(5)利用有监督分层概率潜在语义分析模型进行话轮级主题类别分类;第二步,话轮级事件识别与跟踪阶段(1)依据话轮所属主题类别,前后话轮发生的时间差以及前后话轮说话人在社会网络级上的紧度来判断当前话轮Ti是否是事件的开始、延续与结束;(2)如果话轮Ti是事件结束语句,也就是形成了一个完整的事件,那么标记Ti为已结束事件的话轮,否则标记为未结束事件的话轮;(3)判断是否到达定期更新时间;如果到达,则对有监督分层概率潜在语义分析模型进行模型更新;否则,结束算法,所述的定期更新是指每一个月末将新识别的完整事件加入到训练集中,对模型重新训练;第一步的步骤(4)所述的自适应语言特征聚集向量的计算过程是Stepl 计算当前话轮Ti发生后,在时间间隔[Ti. stamp-Δ T, Ti. stamp]内话轮发生的频次V (Ti)
权利要求
1. 一种面向即时交互文本的事件识别与跟踪方法,其特征在于包括如下步骤 第一步话轮级主题类别分类阶段(1)在即时交互文本中,以用户一次输入的发言Speech为一个话轮Turn,用五元组表示为Ti = (i, id, role, stamp, content)其中,Ti表示第i个话轮,且i e Z,Z是正整数集合;id表示区分说话人的唯一标示符;role表示说话人的角色,它分两个类别说话人Speaker和接受者recipient ;stamp表示话轮发生的时间戳;content表示一次话轮中发言的所有文本;那么Ti. stamp就表示第i个话轮发生的时间,Ti. content就表示第i个话轮的内容, 所述的交互文本是来自于同一个聊天室或者讨论群组内的话轮;(2)对当前话轮Ti的内容Ti.content进行文本预处理,按照特征词典提取其中的特征词,计算语言特征向量
2.如权利要求1所述的一种面向即时交互文本的事件识别与跟踪方法,其特征在于 第一步中步骤( 利用有监督分层概率潜在语义分析模型进行话轮级主题类别分类的过程为Mepl:计算当前话轮Ti的语言特征聚集向量『%,利用有监督分层概率潜在语义分析算法学习得到的WZ将H7t^映射到潜在语义空间Z上,也就是利用潜在语义空间Z表示 Ti的语言特征聚集的内容,即
3.如权利要求1所述的一种面向即时交互文本的事件识别与跟踪方法,其特征在于 所述的第二步中步骤(1)的具体过程如下Stepl 查找并获得[Ti. Stamp-Th5Ti. stamp]时间间隔内发生的、并且不是事件结束的话轮集合 ^ = {rg,...,r,|0<g</};Step2 如果U只含有元素Ti,那么标记Ti为一个新的事件的起始句,算法结束;否则, 令1 = i_l,执行乂印3 ;St印3 判断Ti与T1的主题类别是否相同;Step4 如果Ti与T1的主题类别相同,那么将Ti归属到T1所属的事件中,算法结束;否则令1 = 1-1,执行乂印5 ;St印5 如果1彡g,那么,转到St印3 ;否则,转到St印6 ;St印6 如果Ti的所属的事件为空,那么令Γ = i_l,转到St印7 ;否则,结束算法; St印7 计算Ti. id与T1' .id在社会网络级上的紧度d ;乂印8:如果d>0. 5,那么将Ti归属到T1,所属事件中,算法结束;否则令1' =1' -1, 执行乂印9 ;St印9 如果Γ ^ g,那么,转到St印7 ;否则,标记Ti为一个新事件的起始句,结束算法。
4.如权利要求3所述的一种面向即时交互文本的事件识别与跟踪方法,其特征在于所述的社会网络紧度的计算方法为IO(TiMJ1^id)d(TJd, Ti , .id)=-! 1 I (T1 id) + O (T1 id) +1 (Tll id) + O (Tll id)其中IdV id)表示Ti. id的入度之和,0(Ti. id)表示Ti. id的出度之和,Th. id类似;IO(Ti. id,Th. id)表示Ti. id对IV1. id谈话次数以及Th. id对Ti. id说话的次数之和,出度、入度的统计是历史数据的总和,社会网络的紧度每月更新一次。
全文摘要
本发明公开了一种面向即时交互文本的事件识别与跟踪方法,按照两个大步骤实施I、在话轮级主题类别分类阶段,利用自适应语言特征聚集表示模型来表示话轮内容以及训练所得的有监督分层概率潜在语义分析模型来进行话轮主题类别的分类;II、在话轮级事件识别与跟踪阶段,依据话轮所属主题类别,前后话轮发生的时间差以及前后话轮说话人在社会网络级上的紧度来判断事件的开始、延续与结束。其中,(1)提出依据当前话轮发生后时间序列数据波动的大小来自适应调整话轮紧密程度阈值Th的思想,进而进行自适应语言特征聚集计算;(2)在实施中定时更新有监督分层概率潜在语义分析模型。所提方法是一个在线识别与跟踪算法。
文档编号G06F17/30GK102411611SQ201110312540
公开日2012年4月11日 申请日期2011年10月15日 优先权日2011年10月15日
发明者张惠三, 田锋, 郑庆华 申请人:西安交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1