概率回顾性事件检测的制作方法

文档序号:6568507阅读:297来源:国知局
专利名称:概率回顾性事件检测的制作方法
概率回顾性事件检测北旦 冃牙、诸如新闻事件等事件是在特定时间或地点已经发生或将要发生的特定事情。诸如新闻文章等许多文档会随着时间的推移而报道事件。回顾性事件检测(RED) 是一种用于发现先前未在历史新闻语料库中标识的事件的技术。虽然研究RED已 经有很多年了,但是可以改进RED。概述提供本概述以用简化的形式介绍在以下详细描述中进一步描述的一系列概 念。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于 协助确定所要求保护的主题的范围。考虑到上述内容,描述了概率回顾性事件检测。在一方面,初始化事件参数 以标识来自文档语料库的多个事件。使用生成模型,确定各文档与一事件相关联, 以从经标识的多个事件中检测代表性事件。附图简述在附图中,组件参考标号的最左位标识组件在其中首次出现的特定附图。

图1示出了作为时间的函数的、由第一新闻源(底部)和第二新闻源(顶部)张贴的有关标题"万圣节"(语义标题)的新闻故事的计数。图2示出了依照一个实施例的概率回顾性事件检测的示例性系统。图3示出了依照一个实施例的新闻文章的生成模型的示例性图形模型表示。图4示出了示例性地使用显著得分来确定多个事件,用于回顾性地建模和检测新事件。图5示出了依照一个实施例的概率回顾性事件检测的过程。 图6示出了依照一个实施例的其中可部分或完全实现概率回顾性事件检测的 示例性环境。详细描述 概述新闻文章通常对应于事件。新闻文章包含两种信息内容和时戳。两种类型的信息对RED任务都非常有用。然而,用于RED的常规系统和技术通常集中在找 出对新的文章内容的更好的利用。即,这些常规的RED系统和技术通常不使用时 间信息,如果它们的确使用时间信息, 一般该使用也是不能令人满意的。与这种常规技术形成对比,以下参考图1-6描述了用于概率回顾性事件检测的 系统和方法。这些系统和方法提供了用于对客观地确定数目的事件明确地评估文档 (例如新闻文章)内容和时间信息的统一框架。客观地确定数目的事件是根据随着 时间分布的文档计数来确定的。该框架解决了多个文章在多个新闻源上报告相同的 事件(通常是冗余的)的问题。图1示出了作为时间的函数、由第一新闻源(底部)和第二新闻源(顶部) 张贴的有关标题"万圣节"(语义标题)的新闻故事的计数。横轴是时间,纵轴是 故事数。在该示例中,横轴的单位是周。如所示的,报道"万圣节"的新闻故事趋 向于仅出现在万圣节周围。在该示例中,"万圣节"是话题,它通常包括许多事件 (例如,每年万圣节是一个事件)。该图示出了新闻文章和事件的两个重要特性。 *新闻报道通常由事件产生,而事件文章计数随着时间而改变。映射到文章 计数一时间分布曲线图上,事件是峰值(如图1中所示)。然而,在某些 情况下,若干个事件可以在时间上重叠,即观察到的峰值和事件可能不是 完全对应的,或峰值可能是不明显的。 *在不同的新闻站点上,报道相同事件的文章内容和时间(例如发布时间、 事件持续时间等)通常是相似的,特别是关于报道重要事件的文章。在不 同网站上事件报道的开始和结束时间也往往非常相似,尽管在各种网站上 的新闻文章的数目会不同。例如,如图1中所示,每年,第一新闻源和第 二新闻源都从十月初开始报道"万圣节",并在十二月初停止这种报道。 用于回顾性事件检测的概率模型考虑了新闻文章和事件的这各种特性。例如, 由于新闻报道通常由事件产生,且由于事件文章计数随着时间而改变,因此用于回 顾性事件检测的概率模型使用潜变量(latentvariable)模型来对文章和新闻事件建 模。在潜变量模型中,事件是潜变量而文章是观察结果。第二特性使得能够通过混 合来自不同源的文章而收集关于相同事件的许多新闻故事。由于张贴到网站上的新 闻故事易于获得,且网站通常被用于发布新闻,因此用于回顾性事件检测的概率模型的一个实施例检测来自这些源的新闻事件,虽然应该理解可以从其他源检测事件 (例如历史数据库等)。现在更详细地描述概率回顾性事件检测的这些和其他方面。新闻文章和新闻事件的表示在该实现中,新闻文章(文档内容)由四种信息中的一种或多种来表示谁 (人物)、何时(时间)、哪里(地点)以及什么(关键词)。此外,新闻事件由 人物、时间(定义为第一篇文章和最后一篇文章之间的时间段)、地点和关键词中 的一个或多个来表示。对于新闻文章,时戳是离散值。对于新闻事件,时间由定义一闭联集(continuum)的两个值组成开始时间和结束时间(持续时间)。因此,新闻文章和时间如下表示,簟二{乂激,邀A关鑌z眾,好A7),伊={乂欽邀点,关^河,好顺 关键词表示从文章中删除命名实体和无用词之后的剩余内容。新闻文章的内容被分 成三种类型的信息一人物、地点和关键词。为了简化该模型,新闻文章的四种信息 是独立的p(文萄^)p(邀^); (关獰竭p(好/劲。通常,在新闻文章中由许多命名实体和关键词。出于讨论的目的,每个实体 和关键词被称为相应的"实体"。结果,有三种类型的实体,每种实体具有其自己 的术语空间。示例性系统虽然不是必须的,但概率回顾性新闻事件检测的实施例可在由诸如个人计算 机等计算设备执行的计算机程序指令的一般上下文中描述。通常,程序模块包括执 行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。虽 然在上述上下文中描述了各系统和方法,但是下文中所描述的动作和操作也可以用 硬件实现。图2示出了依照一个实施例的概率回顾性新闻事件检测的示例性系统200。在 该实现中,系统200包括通用计算设备202。计算设备202表示诸如个人计算机、 膝上型电脑、服务器、手持式或移动计算设备(例如小形状因子设备)等任一类型 的计算设备。计算设备202包括用于语义话题的自动丰富呈现的程序模块204和程序数据206。程序模块204包括例如概率回顾性事件检测模块208 (下文中通常称 为"事件检测模块208")以及诸如操作系统、web爬寻器(crawler)应用程序等 其他程序模块210。事件检测模块208实现用于回顾性事件检测的统一概率框架。该统一概率框 架使用生成212模型来检测新的文章。识别出文章内容和时戳是不同种类的特征之 后,该生成模块使用四种不同类型的混合模型来对文章内容和时戳进行建模三个 一元(unigram)混合模型以及一个高斯混合模型(GMM)。事件检测模块208使 用一元模型的混合来分别对包括有关人物、地点和关键词的信息的文章内容建模。 事件检测模块208使用GMM来对时戳建模。更具体地,有关文章内容,词汇袋模型是文档的有效表示,而基于该模型的 单纯贝叶斯(NB)分类器很好地适用于许多文本分类和聚集任务。考虑到此,事 件检测模型208实现一元模型的混合,以便对文章内容建模。人物和地点实体提供 重要的新闻文章信息。然而,人物和地点实体通常只占据内容的一小部分。如果要 使用一个模型对全部内容建模,那么人物和地点信息会被关键词淹没。为了解决这 个问题,事件检测模型208使用三个一元混合模型分别对人物、地点和关键词建模。对于时戳,每个事件对应于文章计数一时间分布上的峰值,无论该峰值能否 被观察到。换言之,分布是许多事件分布的混合。峰值是通过高斯函数来建模的, 其中均值是峰值的位置,而方差是事件的持续时间。因此,事件检测模型208使用 高斯混合模型(GMM)来对时戳建模。考虑到上述,由事件检测模块208实现的生成模型包括四个混合模型的组合 三个一元模型和一个GMM的混合。在说明生成模型之前,首先描述所使用的符号。新文章x,.由三个向量乂氛.、巡点,和关楚河,,以及一个时戳好席,来表示。 向量义乾是列表<乂氛1,...,乂欽^>,每个元素是相应的实体在x,中的发生计数。 类似定义的是巡/^和关鑌河,的向量。第y'个事件由ey来表示。新闻文章生成(即编写)可以被描述为两个步骤的生成过程。当编写有关计 算机科学的文章时,文章将可能包括有关计算机科学的单词(例如软件、算法)。 然而,有关地理学的文章将可能包括诸如地图、岩石、矿等单词。考虑到这些概率, 给定一话题,将通常选择话题相关单词来生成有关该话题的文章。这是称为"生成 模型"的过程。在生成模型中,生成过程被分成两个步骤选择话题和基于选定的 话题生成样本。由此,两个步骤的新闻文章生成过程描述如下。 选择事件力多艰^:力 生成新闻文章X" p(X,l力)。对于其每个实体,依照当前实体的类型 。选择人物乂激^多^W式(《)。选择地点邀,^^:多艰式(《)。选择关键词关锾^一多艰式(。。对于其时戳画出时戳好席"A^/,c/')。向量夕表示混合比例,或事件的先验值(prior);《、《和《表示给定事件力的情况下条件多项式分布的参数;t/'和c/'是给定事件力的情况下条件高斯分布的 参数。图3示出了该模型的图形表示。图3示出了依照一个实施例的新闻文章的生成模型的示例性图形模型表示。 在该附图中,N表示三种实体(A^, ^和Ag的术语空间大小。£、尸、丄、〖和r 分别表示事件、人物、地点、关键词和时间。阴影节点是可观察到的或隐藏的。 在右下角处的(实体)和M (文章)表示板块。学习模型参数为了将文档分组到不同的事件中,事件检测模块208计算一文档属于一事件 的概率,即/ (力lx,),其中x,是第/个获得的文档,而力是第y个事件。为了计算该 概率值,事件检测模块208基于使用生成模型212的贝叶斯准则来确定似然性 p(x,l力)。事件检测模块208将与相应的事件相关联的文档分组(聚集)到事件聚类 218中。在该实现中,使用最大似然运算来估算生成模型212的参数。如图3中所示, 模型参数估算是通过引入作为潜变量的事件来实现的。联合分布的对数似然表示如 下/(义;0二 1og(/7(义10) = log(f[ pO, I 。)M k (1)/=1 户l参考公式(1) , Z表示新闻文章的语料库214; M和X分别表示新闻文章的数目 和事件的数目。在一个实现中,语料库214表示来自一个或多个基于web的数据库(例如新 闻网站、多媒体数据库等)的数据。在一个实现中,事件检测模块208或诸如web 爬寻器应用程序等"其他程序模块"210预先评估来自这些网站的文档,用于构建 全文索引,以供事件检测模块208用于获得与事件相关的文档(例如与语义话题相关联的事件)。这些爬寻操作使得系统200能够使用一个或多个诸如搜索査询扩展 等常规的信息检索技术来移除査询多义性,并由此标识和索引与语义话题有较大潜 在相关性的文档(多峰信息)。给定事件y,第/篇文章的四种信息是条件无关的户(x,le,)了(踏OX乂激,le》p(蔬^,le》; (关^W^》 (2)事件分布模块208应用期望值最大化(EM)算法来最大化对数似然。在一个 实现中,通过可选地运行E步骤和M步骤来估算参数。通过使用在(2)中表达的 詹恩逊(Jensen)不等式和独立假设,在M步骤中,把公式(1)断开成四个项的 总和。在这些四个项的每个中,只有一个模型的参数。因此,四种混合模型的参数 (时间、人物、地点和关键词)是独立估算的。在E步骤中,事件分布模型208 通过以下公式计算后验值p(e I x,):* lx,') = —(3)参考公式(3),上标(0指示第f次迭代。在M步骤中,事件分布模块208更新四 个模型的参数。由于人物、地点和关键词是使用独立的一元模型的混合来建模的, 因此它们的更新公式是相同的。标记vv"用于表示第"个实体。对于三个一元模型 的混合,参数被例如如下更新1 + 5>(化,)('+')"/(/,") P(w | )('+') = ~~^-^- (4)iV + |>(e,|x,;T)*J>(")),=1 "参考公式(4) , ^/,")是x,中实体v^的计数,W是词汇量大小。对于每种类型的 实体,W是对应的术语空间的大小。由于共生矩阵(co-occurrence matrix)是非常 稀疏的,因此事件分布模块208应用拉普拉斯(Laplace)平滑来防止(4)中不频 繁发生实体的0概率。事件分布模型208依照以下公式来更新GMM参数ir ,)('+')*,,-/r))2因为高斯函数的平均值和方差随着生成模型212 —致地改变,所以高斯函数 如同时间线上的滑动窗一样工作。这样,事件分布模块208克服了由传统新闻事件检测算法中使用的固定窗或固定参数衰减函数造成的缺点。最后,事件分布模块 208更新混合比例公式(5)和(6)是与GMM中一样的M步骤更新公式。EM算法一致地增加对 数似然,而它在极大值处停止。事件的数目(事件数)的确定在该实现中,从文章计数一时间分布来估算用于RED的事件的数目(事件数)。 如图1中所示,基本上,每个峰值对应于一个事件(在没有重叠的情况下)。因此, 在一个实现中,对事件数的初始估算被设置为峰值的数目。然而,由于噪声会干扰 分布,可能会在分布曲线图上有太多的峰值。为了解决这个问题,事件检测模块 208确定在分布上仅显著(salient)峰值对应于事件。为了检测显著峰值,在该实 现中峰值的显著得分定义如下獰M鏔徵=萄^t) +衣》袭徵 (7)图4示出了示例性地使用显著得分来确定多个事件,用于回顾性地建模和检 测新事件。参考图4,示出了峰值的左和右算子的定义。中间峰值的显著得分是左 侧和右侧的总和。左(右)被定义为当前峰值到左(右)手第一个更高的峰值的距 离。算子^S1^)I每距离返回最邻近的较高的峰值。在初始化步骤的一个实现中,事件检测模块208使用爬山(hill-climbing)方 法来检测所有的峰值,并接着计算每个检测到的峰值的显著得分。可配置数目的峰 值被确定为显著峰值。例如,在一个实现中,前20%的峰值被用作显著峰值,显 著峰值的数目是对k (事件数)的初始估算。或者,用户可以指定k的初始值(例 如,如果用户仅对前IO个事件感兴趣,那么k二10)。 一旦确定了k的初始估算 和显著峰值的位置,那么事件检测模块208相应地初始化事件参数。在另一实现中, 通过分割/合并初始显著峰值来获得k的若干个不同的初始值。通常,表示许多新 闻文章或具有重尾(heavy tail)的峰值可能是多个事件的混合。在这种情况下,峰 值被分割以增加k并重新训练模型。在一个实现中,使用对数似然来选择实质上最优的事件数。给定该指示符, 应用着V、^^述长度(MDL)原理来在A的值之间选择6 = argmax (log f log(M》 (g )3卜1 + &( -1) + W1) + -1) 参考公式8, /og(p(J^))在(l)中表达,m&是生成模型212所需的自由参数的数目。 作为该原理的结果,当具有不同A值的模型能同样好地适合数据时,就选择最简单 的模型。事件总结在一个实现中,事件生成模型208通过总结由事件聚类218表示的新闻事件 来生成事件总结220。这是使用一种或多种技术实现的。在一个实现中,通过选择 具有最大概率的一些特征以表示事件来总结新闻事件。例如,对于事件j,'主角' 是具有最大的p(义激ph)的人物。类似地选择地点和关键词。然而,这种总结可能 会难以阅读。因此,作为替换,选择单个新闻文章作为每个新闻事件的代表性新闻 文章。一旦确定了取决于事件的人物、地点、关键词和时间的概率分布,就根据最大后验概率(MAP)原理将新闻文章分配给事件,如下少,-wg羅x(P(化,)) (9)乂参考等式9, 乂是新闻文章;c,的标签。在分配给第乂个事件的文章中具有最大 的^(x,l )的新闻文章x,是事件j'的较好的表示,或者每个事件的第一篇文章也是较好的表示。 示例性过程依照一个实施例,表l中示出了用于多峰概率RED的示例性过程。该过程是 多模的原因是新闻文章是用四个子模型来建模的人物、地点、时间和关键词。生 成模型212是四个子模型的组合。最大和最小事件数是可配置的,因为它们可以被主观地指定或预置。_表l示例性多峰RED操作 多峰RED算法1. 初始化事件参数*使用爬山算法来找出所有峰值*使用显著得分来确定前20%的峰值,并相应地初始化事件2. 学习模型参数a. E步骤用(2)计算后验值b. M步骤用(4) 、 (5)和(6)更新参数3. 增加/减少初始事件数直至达到最小/最大事件数&.分割/合并当前大/小峰值,并重新初始化事件 到步骤2—一直至达到最大事件数4. 依照公式(8)用MDL执行模型选择5 总结____图5示出了依照一个实施例的概率回顾性事件检测的过程500。出于示例性说 明的目的,参考图2的系统200的组件描述该过程的操作。在框502处,事件检测 模块208 (图l)初始化事件参数。在一个实现中,事件检测模块208使用爬山算 法在文档的语料库214中找到事件峰值,来执行这些参数初始化操作。这些参数初 始化操作包括使用显著得分来标识客观代表性峰值集。在框504处,事件检测模块 208估算生成模块212参数。在一个实现中,这些模块估算操作包括期望值最大化 操作(请见公式(3到6))。在框506处,事件检测模块208使用生成模型212 来聚集由文档表示的事件(事件聚类218)。这些事件聚类提供取决于事件的人物、 地点、关键词和时间的分布的概率确定。在框508处,事件检测模块208确定各个事件聚类218的事件数。这些操作 包括使用模型选择操作来增加或减少特定事件的数目。在框510处,事件检测模块 208确定是否达到了事件聚类218中相应的几个中的可配置的最小或最大事件数。 如果没有,则过程500的操作继续到框504处,如上所述,其中使用由先前框504 到508的操作确定的事件参数。否则,事件检测模块208总结特定的事件以便将一 个或多个文档分配给各个事件。示例性操作环境图6示出了其中可全部或部分地实现概率回顾性新闻事件检测的合适的计算 环境的示例。示例性计算环境600只是用于图2的示例性系统200的合适的计算环 境的一个示例,它并非旨在对此处所描述的系统和方法的使用范围和功能提出任何 限制。计算环境600也不应该被解释为具有与计算环境600中所示的任一组件或它 们的组合有关的任何依赖或要求此处所描述的方法和系统可以使用多种其他通用或专用计算系统、环境或配 置来操作。适于使用的众所周知的计算系统、环境和/或配置的示例包含但不限于 个人计算机、服务器计算机、多处理器系统、基于微处理器的系统、网络PC、微 型计算机、大型计算机以及包括任何以上系统或设备的分布式计算环境,等等。该 框架的紧凑或子集形式也可以用诸如手持式计算机或其他计算设备等有限资源的客户机来实现。本发明可以在网络化计算环境中实现,其中使用通过通信网络链接 的远程处理设备来执行任务。参考图6,提供概率回顾性新闻事件检测体系结构的示例性系统包括计算机610形式的通用计算设备,它实现例如与图2的计算设备202相关联的概率回顾性 事件检测操作。计算机610的组件可包括但不限于,处理单元618、系统存储器630 以及将包括系统存储器的各类系统组件耦合至处理单元618的系统总线621。系统 总线621可以是若干种总线结构的任一种,包括存储器总线或存储器控制器、外围 总线以及使用各类总线体系结构的任一种的局部总线。作为示例而非局限,这类体 系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强 ISA (EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连 (PCI)总线(也称为背板(Mezzanine)总线)。计算机610通常包括各种计算机可读介质。计算机可读介质可以是可由计算 机610访问的任一可用介质,包括易失性和非易失性介质、可移动和不可移动介质。 作为示例而非局限,计算机可读介质包括计算机存储介质和通信介质。计算机存储 介质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息 的任一方法或技术实现的易失性和非易失性,可移动和不可移动介质。计算机存储 介质包括但不限于RAM、 ROM、 EEPROM、闪存或其它存储器技术、CD-ROM、 数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设 备、或可以用来储存所期望的信息并可由计算机610访问的任一其它介质。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可 读指令、数据结构、程序模块或其它数据,并包括任一信息传送介质。术语"已调 制数据信号"指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的 信号。作为示例而非局限,通信介质包括有线介质,如有线网络或直接连线连接,以及无线介质,如声学、RF、红外线和其它无线介质。以上任一的组合也包括在 计算机可读介质的范围内。系统存储器630包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM) 631和随机存取存储器(RAM) 632。基本输入/输出系统633 (BIOS)包括如在启动时帮助在计算机610内的元件之间传输信息的基本例程, 它通常储存在ROM 631中。RAM 632通常包含处理单元618立即可访问和/或当 前正在操作的数据和/或程序模块。作为示例而非局限,图6示出了操作系统634、 应用程序635、其它程序模块636和程序数据637。计算机610也可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。 仅作示例,图6示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器641, 对可移动、非易失性磁盘652进行读写的磁盘驱动器651,以及对可移动、非易失 性光盘656,如CD ROM、 DVD或其它光介质进行读写的光盘驱动器655。可以 在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介 质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固 态ROM等等。硬盘驱动器641通常通过不可移动存储器接口 ,如接口 640连接到 系统总线621,磁盘驱动器651和光盘驱动器655通常通过可移动存储器接口,如 接口 650连接到系统总线621。上文讨论并在图6示出的驱动器及其相关联的计算机存储介质为计算机610 提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图6 中,示出硬盘驱动器641储存操作系统644、应用程序645、其它程序模块646和 程序数据647。注意,这些组件可以各自与操作系统634、应用程序635、其它程 序模块636和程序数据637相同,也可以与它们不同。这里对操作系统644、应用 程序645、其它程序模块646和程序数据647给予不同的标号来说明至少它们是不 同的副本。用户可以通过输入设备,如键盘662以及定点设备661 (通常指鼠标、跟踪球 或触摸垫)向计算机610输入命令和信息。其它输入设备(未示出)可包括话筒、 操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦 合至系统总线621的用户输入接口 660连接至处理单元618,但是也可以通过其它 接口和总线结构连接,如并行端口、游戏端口、通用串行总线(USB)。在该实现 中,监视器191或其它类型的用户接口设备也经由接口,如视频接口 6卯连接至系 统总线621。计算机610可以使用到一个或多个远程计算机,如远程计算机680的逻辑连 接在网络化环境中操作。远程计算机680可以是个人计算机、服务器、路由器、网 络PC、对等设备或其它常见的网络节点,并根据其具体实现可以包括许多或所有相对于计算机610所描述的元件,尽管在图6中仅示出了存储器存储设备681。图 6描述的逻辑连接包括局域网(LAN) 671和广域网(WAN) 673,但也可以包括 其它网络。这类网络环境常见于家庭、办公室、企业范围计算机网络、内联网以及 因特网。当在LAN网络环境中使用时,计算机610通过网络接口或适配器670耦合到 LAN 671。当在WAN网络环境中使用时,计算机610通常包括调制解调器672或 用于通过WAN 673,如因特网建立通信的其它设备。调制解调器672可以是内置 或外置的,它通过用户输入接口 660或其它适当的机制连接至系统总线621。在网 络化环境中,相对于计算机610所描述的程序模块或其部分可储存在远程存储器存 储设备中。作为示例而非局限,图6示出远程应用程序685驻留在存储器设备681 上。示出的网络连接是示例性的,可以使用在计算机之间建立通信链路的其它手段。总结虽然以上各节使用专用于结构特征和/或方法操作或动作的语言描述了概率回 顾性事件检测体系结构,但是所附权利要求书中定义的本发明不必限于所描述的具 体特征和步骤。相反地,概率回顾性事件检测的具体特征和操作是作为实现所作权利要求的主题的示例性形式来公开的。
权利要求
1.一种计算机实现的方法,包括初始化事件参数以标识来自文档语料库的多个事件;以及使用生成模型概率性地确定文档是否与一事件相关联,以检测所述多个事件中的代表性事件。
2. 如权利要求1所述的方法,其特征在于,所述生成模型确定取决于事件的人物、地点、关键词和时间的概率分布,以将文档聚集到事件。
3. 如权利要求l所述的方法,其特征在于,所述生成模型使用不同的贝叶斯 混合模型来对与事件相关联的文档内容和时戳建模。
4. 如权利要求1所述的方法,其特征在于,初始化所述事件参数还包括标识 显著事件。
5. 如权利要求l所述的方法,其特征在于,初始化所述事件参数还包括 选择由所述文档中的一个或多个报道的事件;以及 对于与所述事件相关联的每个实体为所述事件生成代表性新闻文章;以及 为所述相应新闻文章确定时间。
6. 如权利要求5所述的方法,其特征在于,与所述选择、生成和确定相关联 的操作使用事件的混合比例、事件的先验值、给定所述事件的条件多峰分布以及给 定所述事件的条件高斯分布的参数中的一个或多个。
7. 如权利要求1所述的方法,其特征在于,与所述相应事件的事件相关联的 文档内容包括与人物、地点和关键词相关联的一个和多个信息,其中概率性地确定 还包括以不同的相应一元模型的混合对文档内容建模;以及 以不是不同的相应一元模型之一的混合模型对时戳建模。
8. 如权利要求l所述的方法,其特征在于,概率性地确定还包括 使用所述事件参数估算用于所述生成模型的参数;使用所估算的生成模型参数生成事件聚类,以聚集由所述文档报道的事件; 对于每个事件聚类增加或减少事件数以标识相应的事件;如果所述事件数不是最小或最大事件数(a)再次执行与初始化所述事 件参数相关联的操作以生成重新初始化的事件参数;以及(b)使用所述生成模型来使用所述重新初始化的事件参数从所述文档中的显著文档中概率性地检测事件;以及如果所述事件数是最小或最大事件数,则总结与所述事件聚类相关联的 事件,以便将一个或多个文档的内容分配给相应的事件。
9. 如权利要求8所述的方法,其特征在于,估算所述参数还包括使用期望值 最大化来迭代地最大化对数似然以估算模型参数。
10. 如权利要求8所述的方法,其特征在于,生成所述事件聚类还包括 根据所述文档的日期是与所述事件的开始阶段相关联还是与所述事件的结束阶段相关联来表示与时间相关联的概率;以及所述开始阶段和所述结束阶段表示所述事件的持续时间。
11. 如权利要求8所述的方法,其特征在于,生成所述事件聚类还包括 对于各个人物、地点和关键词模型,通过迭代地确定期望值和最大化概率来独立地估算模型参数,所述模型参数是文档数和事件数;以及考虑到所述事件的时间连续性以及两个或多个所述事件的任何重叠,使用所 述模型来计算所述概率。
12. —种计算机实现的方法,包括初始化事件参数,以从文档语料库中标识显著事件的数目; 估算生成模型的参数,用于从所述显著的事件数目进行的概率回顾性检测, 所述生成模型包括人物、事件、地点和关键词的各个模型; 使用所述生成模型的参数来聚集由文档表示的事件;增加或减少与聚集的事件中的相应事件相关联的多个事件,以重新初始化事件;对于各个事件聚类,如果未达到最小或最大事件数,则再次执行所述估算、 聚集以及增加或减少的操作;以及对于各个事件聚类,如果达到最小或最大事件数,则在所得的事件聚类中总 结事件。
13. 如权利要求12所述的方法,其特征在于,初始化所述事件参数还包括 选择由一个或多个文档报道的事件;以及 对于与所述事件相关联的每个实体;为所述事件生成相应的新闻文章;以及 为各个新闻文章确定时间。
14. 如权利要求13所述的方法,其特征在于,与所述选择、生成和确定相关联的操作使用事件的混合比例、事件的先验值、给定所述事件的条件多峰分布、以 及给定所述事件的条件高斯分布的参数中的一个或多个。
15. 如权利要求12所述的方法,其特征在于,所述生成模型用不同的贝叶斯 模型来对与事件相关联的文档内容和时戳建模。
16. 如权利要求12所述的方法,其特征在于,所述生成模型用不同的贝叶斯 模型来对与事件相关联的文档内容和时戳建模,其中所述文档内容包括与人物、地点和关键词相关联的一个或多个信息,以及其中估算所述参数还包括用不同的相应一元模型的混合对人物、地点和关键词建模。
17. 如权利要求12所述的方法,其特征在于,估算所述参数还包括使用特定 的混合模型对时间建模,所述特定混合模型不同于用于对与事件相关联的文档内容 建模的相应混合模型。
18. 如权利要求12所述的方法,其特征在于,估算所述参数还包括使用期望 值最大化来迭代地最大化对数似然来估算模型参数。
19. 如权利要求12所述的方法,其特征在于,生成所述事件聚类还包括 对于各个人物、地点和关键词模型,通过迭代地确定期望值和最大化概率来独立地估算模型参数,所述模型参数是文档数和事件数;以及考虑到所述事件的时间连续性以及两个或多个所述事件的任何重叠,使用所 述模型来计算所述概率。
20. —种计算机设备,包括处理装置,用于 设置事件参数以标识包括相应事件的文档;使用多峰生成模型从文档中概率性地检测事件,所述生成模型包括独立的混 合模型,用于对与事件相关联的文档和与事件相关联的时间建模,所述文档包括对 应于人物、地点和关键词中的一个或多个的信息;以及所述处理装置迭代地实现用于设置所述事件参数并概率性地检测所述事件, 直至检测到与一个或多个显著事件中的相应事件相关联的可配置的最小或最大事 件数的操作。
全文摘要
描述了概率回顾性事件检测。在一方面,初始化事件参数以从文档语料库中标识出多个事件。使用生成模型,确定文档与事件相关联,以从标识出的多个事件中检测代表性事件。
文档编号G06F17/00GK101243425SQ200680029297
公开日2008年8月13日 申请日期2006年8月10日 优先权日2005年8月10日
发明者W-Y·马, 李志伟, 李明敬 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1