通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法

文档序号:6538281阅读:136来源:国知局
专利名称:通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法
技术领域
本发明一般地涉及计算机系统,尤其涉及通过信息动态学(Dynamics)自动化分析来个性化诸如新闻之类的信息时间流的系统和方法。
(2)背景技术就在十年以前,诸如新闻馈送(news feeds)的大规模信息流动被专门进行信息供应的组织所拥有、监控和过滤。万维网Web给所有有兴趣的用户带来了管理和吸取新闻馈送的挑战和机遇。识别“重要”信息成为了Web搜索和文本归纳概括的研究中一个基本的方面。搜索方法关注于最大程度满足用户亟需需求的文档集。归纳概括工作努力地将大数量的文本压缩成更加简洁的程式。在缺少与文本相关联的识别深层语义的自动化方法的情况下,以前的归纳概括工作一般是在完整句子的级别上操作,把最具有代表性的句子交织在一起以创建一篇摘要。对搜索和概括的研究一般忽视了情报内容随时间持续到达的动态学方面(Dynamics)。
(3)发明内容以下是本发明的一个简要概括,以便提供对本发明中一些方面的基本理解。这个部分不是本发明的规范纵览。它并不是要确定出本发明中的重要/关键元素或者描绘其范围。它唯一的目的是用一种简化的形式给出本发明的一些概念,作为后续更详尽说明的序幕。
本发明提供了识别信息新颖性的系统和方法,以及这些方法如何被应用于管理随时间变化的信息内容的系统和方法。提供了一个一般框架用来比较文档集,借此框架可假定文档能按照它们的内容或来源来编组,并可分析出组间和组内的差异与共性。例如,将两组属于相同主题但得自不同来源的文档并列起来,诸如,在世界不同区域的对某一个事件的消息覆盖能揭示对情势的观点和总体阐述方面的差异。从静态文集过渡到随时间产生的稿件集,可以对内容的演化进行研究。例如,可以研究在一个时期就同一个故事形成的一系列新闻稿件,以期凸显真正有内容的信息更新并滤除大量的在很大程度重复“炒冷饭”的稿件。
可以搜集有关诸文档集中的词频(word occurence)的详细统计数据,以表征这些文档集之间的差异性和相似性。各种的字词模型可以通过提取表示人物、组织和地理位置的名称的命名实体来增强。由于缺少充足的统计数据,词组和搭配的区别性语义属性往往被胜出(outweighed),与此形成对比的是,命名实体识别那些相对固定的被许多作者在一个特定主题中以一种普遍的方式使用的记号(token),因此他们的使用贡献了相当数量的消息。例如,所提供的一种类型的分析用在其中发现的命名实体来表示这些稿件。分析可以关注于当前的新闻流或其它主题。当前新闻流形成对研究急切的挑战和机遇。新闻馈送涵盖大量的信息、给出丰富的想法和观点、也包含有丰富多彩形式和内容,从即时新闻的简短的最新消息、到故事展开的重要的摘要、再到单纯的对一再报到的“陈年旧事”的喋喋不休。
可以开发确定所追踪的故事的重要更新的算法,把用户们从必须详审一长串从不同的来源到达的相似稿件中解放出来。根据本发明所提供的方法提供了个性化新闻门户和新闻快报服务的基础,它们寻求对需要跟踪演化中的新闻报道的用户最大限度地减少时间和中断。
本发明提供各种为用户分析信息和过滤内容的体系结构组件。首先,提供了一个框架,用于通过分析字词和已识别的命名实体的分布来标识文档集中的差异。该框架可被应用于比较单个的文档、文档集、或一个文档和一个文档集。(例如,一篇新稿件对一个有关该主题的先前评审过的新闻稿件集)。其次,在当前新闻流(或其他时间演化流)上进行操作的一个算法集向用户提供个性化新闻经历。这些算法已经在一个把最有内容的信息更新呈现给用户的叫做NewsJunkie的示例系统中实现了。用户可以每隔一段用户定义的时间或每到有关故事的报道突发的时候请求更新。用户也可以调节这些更新与核心报道的相关性到所需程度,以允许递送与相关或相似故事的衍生性稿件。而且,提供了一种评估方法,该方法向用户提供单个种子报道以及和多组根据不同新颖性评估度量(metrics)排列的稿件,且该方法寻求理解参与者是如何感知在种子报道的上下文环境中的这些文档集的新颖性的。
为达到前述的和相关的目标,本发明的特定说明性方面结合下列描述和附图来进行描述。这些方面指示了本发明可被实践的各种方式,所有这些方式都由本发明所涵盖。结合附图阅读以下本发明的详细描述,本发明的其他优点和新颖性特征会变得更清楚。
(4)


图1是一个示意图,例示了根据本发明的一个方面的信息动态学系统。
图2是一个框图,例示了根据本发明的一个方面的用于比较文本集的框架。
图3是一个流程图,例示了根据本发明的一个方面的信息新颖性过程。
图4是一个图表,例示了根据本发明的一个方面的结果排序。
图5例示了根据本发明的一个方面的个性化的更新过程。
图6例示了根据本发明的一个方面的新颖性信号。
图7例示了根据本发明的一个方面的示例稿件关系。
图8-11例示了根据本发明的一个方面的示例用户接口。
图12是一个示意性框图,例示了根据本发明的一个方面的合适的操作环境。
图13是一个本发明能可与其交互的样品计算环境的示意框图。
(5)具体实施方式
本发明涉及识别信息的新颖性并在信息随时间而演化的时候对其内容进行管理的系统和方法。在一个方面,提供了一种系统用于分配个性化信息。该系统包括确定两个或更多信息项目之间的差异的组件。部分地基于所确定的差异并随着与信息项目有关的数据随时间而演化,一分析器确定出信息项目的一个子集。还提供了各种不同的方法。在一个方面,用于创建个性化信息的方法包括自动分析来自不同信息源的文档并自动确定文档的新颖性。然后,基于文档的新颖性向用户提供个性化的信息馈送。
本发明的系统和方法可被应用于多个不同的应用上。这些应用包括有助于对有关某一个主题的尚未看过的新闻报道以理想的阅读序列或路径进行设计的应用,指的是在从现在起的不同的时间范围里面未读的。为了设计赶上新闻潮流(catch up on news)的序列,诸应用考虑最近的新闻报道而且同时考虑一定时间上的新闻猝发,以帮助人们理解新闻报道的来龙去脉并按主要的事件/更新来导航故事的历史。其他的应用包括开发不同类型的显示设计和隐喻(metaphor),比如时间线视图(time-line view)的使用或其他的方面诸如时间群概念。涉及到在一个主题里面在即时新闻报道(breaking news story)的桌面和移动设定的理想快报,一个应用允许用户指定主题或关键字,但是只有当给用户所读的有足够的新颖性时才给出快报。对于以关键字为基础的方法,如果信息新颖性足够,当一个新闻报道中有关键字出现的时候,才提供快报,因此这一方法比简单的关键字为中心的快报方案更为有用。
如在本申请中所用,术语“组件”、“对象”、“分析器”、“系统”等等是用来指代与计算机相关的实体,或者是硬件、硬件与软件相结合、软件、或者是正在运行中的软件。例如,一个组件可以是, 但并不限于是,在一个处理器上运行的进程、一个处理器、一个对象、可执行的一条执行线程、一个程序、和/或一部计算机。作为一个例示,在服务器上运行的应用程序与服务器都可以是一个组件。一个或更多的组件可以驻留于一个进程和/或执行的的一条线程,而且一个组件可以在一部计算机上被局域化和/或在两个或更多的计算机之间分布。同时,这些组件能在其上存储有各种数据结构的计算机可读媒质上执行。这些组件可以经由局部的和/或远程的进程进行通信,诸如根据一个拥有一个或多个数据分组的信号(例如,来自通过该信号与在一本地系统、分布式系统中的另一组件交互的一个组件的、和/或通过因特网等网络与其他系统交互的一个组件的数据)。
参照图1,根据明本发明的一个方面例示了一个信息动态学系统100。本发明提供了系统和方法,用于识别信息新颖性,以及这些方法是如何被用于管理那些随时间推移而变化的信息内容。提供了一个一般的框架100用于通过比较器114来比较诸文档集110,借助比较器114,根据其各自的内容或来源120,诸文档被分成组,并由分析器130来进行组内与组间差异性与共性的分析。例如,将两个或多个关于相同主题但来源不同的两组或多组文档或文件进行并置,例如,世界不同地区对于同一件事件的新闻报道,可以显示出各地之间对于这一事件的观点和总体诠释方面有趣的差异。从静态的收集过渡到随时间的变迁而产生的各种文章的集合,可以对内容的演化加以研究。例如,可以对同一个故事在不同的时间所发的一系列新闻稿件加以研究,目的是凸显那些真正具启示性内容的更新,并藉由与分析器130协作的信息过滤器140滤除大量的文章,以在150处递传出个性化的信息。
可以对诸文档集中的词频收集详细的统计数据,以便表征这些文档集之间的差异性和相似性。例如,基于字的模型可藉由提取表示人物、组织和地理位置名称的命名实体而被增强。与片语和搭配相反—其区别性语意属性通常由于统计不足而被忽略—命名实体标识相对较稳定的记号(token),这些记号是许多作者在一给定主题上以一种通用的方式使用是,因此它们的使用就贡献相当数量的信息。所提供的一种分析类型使用在文章中发现的命名实体来代表文章。分析可以把重心集中在新闻的当前流或其它数据时间流上。在一个例子中,新闻馈送中涵盖了大量的信息,呈现出多个意见和观点,而且包括丰富多彩格式和内容,从有关即时新闻的简短快讯,到故事发展的重要的摘要,再到旧的事实的一再重复。
可以在比较器114、分析器130、和/或过滤器140中提供在下面将被更详细地描述的算法,该算法标识有关报道或追踪中的流的更新,从而把用户从必须筛选一大串来自不同新闻来源的相似的文章的困扰中解放出来。在150,各种不同的方法提供基础给个性化的新闻门户和新闻快报服务,其目的是能够最大限度地减少希望要追踪一个故事的发展过程的用户在时间和中断方面的麻烦。需要了解的是,虽然本发明的一个方面可以适用于分析和过滤信息,例如新闻,但实质上任何在时间上演化的信息流都可以根据本发明来处理。同时,可以从不同的信息来源收集信息,例如从用户的膝上型电脑、移动装置、台式计算机,其中此类信息可以被高速缓存(例如,集中性的服务器)并依照用户先前已观察的信息加以分析。同样地,信息可以从多个来源中生成,例如因特网,或在一个公司局域网之类的局部环境中生成。
现在参照图2,根据本发明的一个方面示出了用于比较文本集的框架210。如果有两个或更多的文本内容的集合,要确定是如何表征诸集合之间的差异的。确定差异在多中应用方面都是有用的,包括文本集的自动简介与比较、文本所反映的不同观点、范围与兴趣的自动标示以及新信息的自动标识。一般而言,“差异”的若干方面可以调查如下在220,内容的差异可反映一个特别的人或事件在诸文档集中被描述的不同方式。例如,考虑分析预定分区中的差异,例如,比较美国和欧洲的关于各种不同的政治议题的报告,或比较美国东海岸和西海岸的新闻来源对于东海岸的停电的报导。
在230,结构性组织上的差异可能不止于在文本内容,还要考虑网站的链接结构,例如,比较IBM网站和Intel网站。
在240,在时间上的差异(即,内容差异的时间方面)能揭示在一系列文档的主题上的有趣改变。这种类型的分析可用于将一个月或一年以前的新闻与今天的新闻相比较,以便追踪搜索引擎的询问日值随时间的改变,或者以便识别在用户的个人电子邮件的主题方面随时间的改变。
时间上的差异包括自动评估来自当前新闻馈送的询问稿件的新颖性(或其他类型的信息)随时间的变化。具体地,考虑下列各方面在250,在新闻报道中表征新颖性,允许将新闻稿件排序以便每个稿件向先前阅读的或呈现的项目(集合)添加最多的信息。
在260,随时间的变化分析主题的演化,这使得能够对新闻更新的重要性及相关性进行定量化、授予用户对这些参数的控制而且提供他们一种个性化的新闻体验。
图3是一种方法学300,举例说明根据本发明的一个方面来表征新颖性的过程。尽管为了解释的简洁起见,这种方法是通过一系列动作来表示并加以描述的,但应该理解的是本发明不受动作顺序的限制,根据本发明,某些动作可以不同顺序进行,和/或同时与这里描述的其他动作同时进行。例如,本领域技术人员会懂得,方法学可以另外以一系列相关状态或事件的形式来加以表达,例如作为状态图表。而且,不是所有的动作都要用在实现根据本发明的方法之中。
进行到310,开发了各种工具来实现并测试算法的性能。一个这样的软件工具集被命名为“NewsJunkie”,它实现了一个算法集和众多可视化选项用于对文本集进行比较。NewsJunkie将文档表现为一组字词,这些字词被从文本中提取出的命名实体所加强(augmented)。普通的提取工具也应用于此目的,可以标识人物、组织以及地理位置的名称。
在320,确定要在文档里比较的元素。一般而言,文档组包括有共同属性的文档,而且构成比较的基本单位。共同属性的例子可以是新闻的特定主题或来源(例如,来自东海岸新闻机构的停电报道)。通过为每一组建立一个模型来对文档组之间的差异作出推论,然后用如下所述的相似性度量来对这些模型进行比较。为了方便探究多种模型,NewsJunkie将文档要么描述为对于所有特征(字词+命名实体)的修匀几率分布,要么描述为加权特征的矢量扮演重要角色(在同一特征空间)。权重可以按照流行的TF.IDF函数族来赋值,TF.IDF函数是用分量(component)来代表一个文档中的词频以及在文档间词频的反数(inverse frequency of term occurrence)。也可以用几率加权函数。不同的修匀选项可被实现以改善词语项的估算。例如,拉普拉斯连续性定律(Laplace′s lawof succesion),或者与整个文本集中的字词几率进行线性修匀;后一选项在下面描述的实验都用了。注意,不止一个修匀选项可在此系统中实施。
在图3中的330,确定了相似性度量以确定信息项目之间的差异。一种通常的情形就是在世界的某个地方有有趣的事发生,该事件就被新闻媒体所报道。如果事件能够引起充分的民众兴趣,那么其接踵而来的发展也在新闻中被追踪。假如读到了开始的报导,稍后,用户就会有兴趣跟上故事的发展。因为有了汇集数以千计新闻来源的因特网,用户敏锐的寻求信息的目标有多种方式可以满足,而且其更新之多甚至最热望的新闻读者都没有时间一一过目。从大量文档中筛选有关某一个问题的真正最新信息的自动工具也就具有很大的价值。
因此,避免冗余和重叠能帮助将与追踪新闻报道相关联的开销减到最少。通常,新闻报道中充斥着冗余。例如,当预期有新的发展或调查结果,但是尚未获得新的信息时,新闻机构时常用早期发展的摘要来填补这一空白直到有了新的信息。有一个现实使情形被进一步恶化许多新闻机构的部分内容通常从一些主要的跨国新闻机构诸如路透社或美联社获得的。新闻网站的用户不想反反复复地阅读每一条信息。用户主要对新的东西感兴趣。因此,按照新颖性来对新闻稿件进行排序一定会是有用的。
在330,许多的文档相似性度量可以被用来识别与一给定的文档集(例如,先前已读过的文档集)差异最大的诸文档,其中,定义了一个术语“距离”度量来强调这样一个事实,即所要搜寻的是与一个文档集在最大程度上不相似的文档。
以下各项距离度量可被实现·Kullback-Leibler(KL)发散,一个经典的不对称信息论尺度。假定计算文档d和一文档集R之间的距离。用pd和pR来分别表示在d(一个文档)和R(一组文档)中字词(以及命名实体,如果有的话)的几率分布。那么,distKL(pd;pR)=Σw∈words({d}∪R)pd(w)logpd(w)pR(w)·]]>注意算式logpd(w)pR(w)]]>的计算需要把两个分布都进行修匀以减少零值(对应于在d中出现但是不在R中出现的字词,反之亦然)。
·Jensen-Shannon(JS)发散,KL发散的一个对称变体。使用先前的项目定义,distJS(pd,pR)=distKL(pd,q)+distKL(pR,q)2,]]>其中q=pd+pR2·]]>·原始几率矢量的余弦(计算不需要修匀的几率)。
·TF.IDF特征权重矢量的余弦。
·一个定制度量,制定来测量一个稿件(称为NE)中先前未见过的命名实体的密度。对于这个度量的直感是基于这样一个的猜想新信息时常是通过引入新命名实体来传达的,诸如人物、组织和地点的名称。NE度量可定义如下令NE(R)为一组文档R中有的一组命名实体。令NEu(R1;R2)是一组在一组文档R1中出现并且在组R2中没有出现的独特的命名实体。即, 则distNE(d;R)=NEu({d},R)/length(d)。
用文档长度进行标准化通常是必要的,因为如果不进行标准化,NE的得分往往随长度而增加,由于长度对于观察到另外的命名实体的几率是有影响的文档越长,它包含较多命名实体的几率就越大。
在图3中的340,距离度量可被利用来为向用户呈现而识别新信息内容。在NewsJunkie应用中,以迭代方式应用一个新颖性排序算法以产生一小组一个读者可能感兴趣的稿件。采用一项希望、递分析法。该算法最初实质上把所有可得更新与用户已读的种子(seed)报道进行比较,且选择与它相似性最小的稿件。该稿件然后被添加到种子报道(形成一个包括两个文档的组),该算法寻找与这些被组合的稿件最不相似的下一个更新,等等。该排序算法的伪码被概略说明在以下的算法RANKNEWSBYNOVELTY中。
算法RANKNEWSBYNOVELTY(dist,seed,D,n)R←seed//initializationfor i=1 to min(n,|D|)dod←argmaxdi∈D{dist(di,R)}]]>R←R∪{d);D←D\{d}其中dist是距离度量,seed是种子报道,D是一组相关的更新,n是要选择的期望更新的数量,R是按新颖性排序的稿件列表。
为了验证以上给出的算法和距离度量,做了一个实验,要求对象对按许多距离度量排序的询问报道集进行评估。
对于在此处描述的实验,使用了一个聚集来自超过4000个英特网源的新闻稿件的当前新闻馈送。采用了一个来自Moreover Technologies公司的新闻馈送(newsfeed),尽管任何其他新闻或RSS馈送都能使用。使用一个聚类算法使报道分成讨论相同事件(以下称为“主题”)的小组。用了十二个组群来对应于在2003年九月中旬的新闻中报导过的主题。这12个主题涵盖了跨越了2到9天的新闻报道,且代表36到328份稿件。主题包括了新加坡爆发的SARS、加州州长的罢免、教皇对斯洛文尼亚的访问、等等。
一般,判断新颖性是一个主观性的工作。要获得统计学上有意义的结果的一种方式是把一组用户的判断取平均值。为了要比较不同的新颖性排序度量,参加者被要求阅读按交替度量排序的若干组稿件并确定哪些组承载最新颖性的信息。注意,该场景通常要求评估者一直紧记他们读过的稿件集直到对它们做出等级估价。因为难以牢记若干组有关一个不熟悉的主题的稿件,实验就被限制到评估下列三个度量1.KL发散由于它的信息论基础(KL)吸引人而被选中。
2.计数命名实体的度量被选中作为一个语言学动机的替代选择(NE)。
3.稿件的按年代排序被当作基线使用(ORG)。
就这12个主题中的每个而言,第一个报道被选作种子报道(seed story),使用以上描述的三个度量通过RANKNEWSBYNOVELTY算法按新颖性对其余稿件做出排序。这个算法首先选择对于种子报道为最新颖的稿件。该稿件然后被添加到种子报道以形成一个用户所熟悉情况的新模型,然后是选择下一个最新颖性的稿件。有三个稿件以该方式为三个度量中的每一个和12个主题中的每一个选择。对于每个主题,对象首先被要求阅读种子报道来得到有关主题的背景。然后向他们显示稿件的三个组合(每个组合按度量之一选择),而且要求他们按照从最新颖性的组合到最不新颖性的组合做出分级估价。给他们的指令是要求把任务考虑成他们要为一个审查过种子报道而现在需要了解有什么新东西的朋友确定选择的稿件组。从按三个度量生成的呈现顺序在参与者之间进行随机化处理。
图4是一个曲线图400,举例说明了根据本发明的一个方面的结果排序。总体上,得到了12个主题的111个用户判断,平均每主题9-10个判断。图4显示了每个度量被估价为最新颖、中等新颖、最不新颖的次数。从曲线图400可看出,由KL和NE度量产生的组合按比基线度量(ORG)产生的组合被更多地估价出为新颖。
表1按主题排列的结果表1表示每一主题的结果。三个倒数第二栏显示了每个度量被估价为每个主题的最新颖的次数。最后三栏显示了度量的平均等级,假定最新颖的为1,中等新颖的为2,和最不新颖性的为3。用Wilcoxon Signed Ranks Test(威尔考克森符号等级测试法)来估定实验结果的统计学意义。就所有主题对度量的平均等级(如图4所所归纳)进行比较,发现KL和NE优于ORG,p<0.001。考虑个别的分主题结果,度量ORG没有达到所有三个度量的最低(=最好)等级。在六种情况下(主题2,4,5,6,9,12),在ORG和得分最低的度量之间的平均等级的差异在p<0.05时是具有统计学重要性的,在一个附加的情形中,有重要意义的是在p=0.068(主题8)的边界线。比较两个最好的度量(KL对NE),有利于KL的差异是在p<0.05上对主题4和6有统计学重要性,对主题9的有边界线重要性(p=0.083)。在平均等级上有利于NE的差异对主题2和3有边界线重要性(分别为p=0.096和p=0.057)。
图5举例说明了根据本发明一个方面的个性化更新过程500。在先前部分中呈现且评估的算法RANKNEWSBYNOVELTY往往是在一个假定下工作,即用户是希望在最初读过某篇报道之后要跟上最新的故事发展。在这种情况下,算法按照与种子报道相比较的新颖性排序最近的稿件,然后用户根据他或她能为阅读分派多少空余时间来阅读而选择一定数量的得分最高的稿件。
然而,如果用户想要随着新发展的实际发生而连续地得到更新又会怎样?诸如文档集服务器的后方支持要追踪用户阅读的稿件,以便对在新闻或信息馈送中流传送的新根据进行新颖性评估。基于用户的个人偏爱,例如,用户多久会对得到故事的更新感兴趣,服务器确定显示哪些稿件。因此,可提供一个在线确定机制,确定是否一个稿件包含有充足的新信息来保证向用户的递送。在一个对快报的成本效益较为一般的分析中,有机会基于他们的环境用中断用户的代价去平衡特定稿件或稿件组的信息价值。
以下讨论用当前新闻更新用户的不同场景。在510的单一场景更新中,系统假设用户对得到周期性更新感兴趣,而第二个场景通过在520监控新到达的新闻寻找新颖信息的猝发来持续不断地更新用户。同时,可提供一个机制,允许用户控制期望被更新的稿件的新颖性(更详细地在下面描述)的类型且在530阐述为用类型表征稿件。
关于在510的单一更新,考虑当用户希望看到的不超过故事的周期性更新的情形。达成这一个目标的一个方式是使用类似于RANKNEWSBYNOVELTY的一个算法,亦即,累积在过去的几天内内收到的报道,通过计算今天到达的每个新报道对于所累积的报道集的距离来评估每一报道的新颖性。这种方式的一个问题就是集中的报道越多,从任何的新报道到累积集的距离的重要性越差。在稿件几天的稿件被累积之后,甚至是主要的更新也将会被看到几乎不是是新的了。
为了要避免这个缺陷,原始的新颖性算法被修正如下,提取一个周期性的更新。作为一个具体的例子,用的时间段是一天,因此,算法为用户识别每日的更新。在给定了用户和他们的选择追踪的主题后,算法PICKDAILYUPDATE把今天收到的稿件和一天以前收到的稿件全集做比较。该算法尝试选择与昨天已经知道的东西相比最具情报性的更新并且将它展示给用户看,条件是该更新传达出充足的新信息(即,它估计的新颖性高于用户个性化的阈值)。如此调节赋予了系统向用户提供情报性的更新而滤除那些对先前熟知的细节只做摘要的稿件的能力。该算法可以推而广之以识别一天n个最具情报性的更新。
可能有人会争辩,通过忽略在前一天之前的所有各天,算法PICKDAILYUPDATE也可能把那些摘要几天之前已说过的内容的稿件考虑为新颖性的。在实践中很少发生这样的事情,因为大部份稿件的撰写方式是把新信息与之前发展的一些背景穿插在一起。可以理解的是,可以提供更精细的距离度量,考虑与主题相关的所有在前稿件但是其权重随时间而减损。
算法PICKDAILYUPDATE(dist,Bg,D,thresh)
d←argmaxdi∈D{dist(di,Bg)}]]>If dist(d,Bg)>thresh then display(d)Bg←D其中dist是距离度量,Bg是背景参考组(在前一天收到的有关稿件的全集),D是在今天收到的一组新稿件,thresh是用户定义的敏感性阈值。
以上在510呈现的算法可能主要地是“脱机”程序,因为它以预定的时间间隔更新用户。铁杆新闻迷可能会认为等候每日预定新闻更新是让人感到沮丧的。对于一些人来说,可能期望一项更具反应性的分析形式。
在极端情形中,比较每个稿件和一个在前的稿件可能无法很好地工作,因为系统有可能会把几乎每个稿件预期成新颖的。相反地,可在图5的520处理即时新闻事件,其中使用了一个涵盖一定数量的先前稿件的滑动窗口来估计当前稿件的新颖性。需要留意的是,比较稿件和固定长度的前一窗口之间的距离促进方便了得分的比较,对窗口长度在20-60个稿件的不同窗户进行了评估。结果发现,长度为40左右的在实践中一般效果好些。
与算法PICKDAILYUPDATE相反,现在的背景参考组变得短多了,即,40个稿件代替了一整天的内容。这增加了一种可能性,即窗口不够长,无法包括在故事被最初报导之后很长时间后的延迟报告和摘要。为了要滤除此类重复,应当了解新闻报告的性质。
当出现一个事件或有关一个重要事件的信息更新时,许多新闻机构看到此新发展并且在一个相当短的时间内报导它。如果一个人连续地用图标出每份稿件和在前窗口之间的距离,会发现这种新信息的抵达将产生一个曲线图的峰值。此类峰值被称为新颖性的猝发。在每个猝发的开始处,附加稿件往往增加新细节,引起曲线图上升。随时间的推移,滑动窗口覆盖越来越多的传达该最新发展的稿件,且随后的各稿件不具有相同的新颖性;结果是,被计算的新颖性方向向下,象征着猝发的结束。
延迟的事件报告以及有关故事的摘要在不同来源之间不太可能会在时间上的有相关性。此类报告和之前的窗口比较可能显示出新颖性,但是,因为它们通常是孤立的,他们通常引起新颖性上的尖峰。为了要丢弃此类孤立的失峰而且接收它们作为真正的更新,新颖性信号应该适当地过滤。
中值过滤器通过减少信号的噪音而提供该功能性。过滤器连续地考虑信号中的每一信息点而且使它做出适应以更好地仿造(resemble)它的环境,有效地修匀(smoothing)原始信号并去除异常值。特别地,一个宽度为w的中值过滤器首先对在以当前点为中心的窗口里的w个数据点进行分类(sort),且然后用这些点的中值代替后者。
在计算了稿件和覆盖了之前稿件的滑动窗口之间的距离之后,使所得信号通过一个中值过滤器。所考虑过的过滤器包括3-7的宽度;宽度为5的过滤器似乎在大多数情形中工作良好。
算法IDENTIFYBREAKINGNEWS(dist;D;l;fw;thresh)Window←∪li=1di∈Dfor i=l+1 to |D| doScoresi←dist(di,Window)Window←(Window\di-1)∪diScoresfilt←MedianFilter(Scores,fw)For j=1 to |Scoresfilt| doif Scoresfiltj>thresh thendisplay(dj+1)skip to the beginning of the next burst其中dist是距离度量,D是有关稿件的序列,l是滑动窗口长度,fw是中值过滤器宽度,thresh是用户定义的敏感性阈值。
注意,中值过滤器的使用可能会延迟向用户路由新颖性的稿件,因为会需要考虑随后的若干个稿件以便可靠地探测出新猝发的开始。然而,发现这样的延迟是相当小的(所使用的中值过滤器宽度的一半),过滤器的效益远超过这一不便。如果用户乐意容忍附加的延迟,那么该算法可以从猝发开始的时刻向前扫描几十个稿件,以便选择最具情报性的更新而不只是捡取使猝发开始的那一个。不同方法的组合也是可行的,诸如提供即时新闻的早期更新,然后等待一项信息量更大的猝发分析以发送有关发展的最佳稿件。以上的算法显示了用于实现新闻快报猝发分析的IDENTIFYBREAKINGNEWS算法的伪代码。
图6所示是将算法IDENTIFYBREAKINGNEWS应用于一个样本主题。所涉及的主题是发生在美国宾夕法尼亚州伊利湖的银行抢劫案,在那里,一群罪犯抓住了一个送比萨饼的男子,把一个炸弹装置锁在他的脖子上,并且,依照该男子的陈述,强迫他抢劫了一个当地银行。该男子迅即被警方逮捕,但不久之后该装置引爆而且杀死了他。该异乎寻常的初始报道及随之发生的调查从2003年九月开始连续几个星期受到诸多新闻机构的追踪。图中x轴对应于稿件到达的时间序列,y轴上标的是(原始的和经中值过滤的)在给定之前的滑动窗口时每个稿件的距离值。原始距离得分用一条虚线表示,而经过滤后得分用一条实线。附图6中的文本框是在对应于所确定的新猝发的真实事件的注释,并表示出了哪一个潜在的假峰被过滤器丢弃了。修匀后的新颖性得分,是考虑了中值过滤器的,捕获到了这一故事的主要进展(对朋友的采访、有关武器的细节、对两个嫌疑犯的联邦调查局公告,和一个盲目模仿案例),而同时滤除了新颖性的假峰。
回到图5中的530,考虑稿件类型的表征和用户控制。在一些情形中,不应当仅仅依靠新颖性得分作为唯一的选择标准;一些稿件因主题上的改变而被确认为新颖的。为了更进一步地改善情报性新颖性的分析,制定了新颖性类型的分类体系,基础是一个稿件和一个种子报道或感兴趣的主题之间的不同关系。关系的类的例子包括1.摘要(recap)稿是那些相关的,但是通常只提供已经报导的内容的回顾并且很少有新信息的稿件。
2.详述(elaboration)稿向种子报道所描述主题增加新的相关信息。
3.衍生(offshoot)稿也是与主流讨论有关的,但是它们所增加的新信息和在种子报道中报导的有很大差异,足以保证展开一个新的相关主题。
4.不相关(irrelevant)稿件是那些远离所关注的主题的稿件。它们可能会因为聚类或剖析等问题而产生。注意,可定义和处理四个以上的类。
在这些类中,关系类型2和3或许是用户在跟踪一个主题的时候大多数用户想看到的。为了达成这一目标,可以提供一种新的文档分析类型,细查文档内动态学。和早先在整个文档之间进行比较的分析的类型相反,这项技术“放大进入(zoom into)”文档内部,评估它们部份之间的相关性。
一般而言,为每个文档构造一个模型,使用固定的距离度量,例如,KL发散。然后,对于每个文档,计算在文档中的字词滑动窗口(sliding window)相对于种子报道的距离得分。字词窗口的得分可被解释为窗口中的每个单词相对于种子报道的点态得分和,就象由使用所选度量比较文档内窗口模型与种子报道模型而确定的。考虑了一些不同的窗口长度,20被发现在实践中工作良好。
这项技术的一个有益属性是它超越了众所周知的“大量字词(bag ofwords)”的概念且在它们最初的上下文环境里考虑这些文档字词。选择使用滑动文本窗口而非表面上更吸引人的段落单元,因为使用固定长度的窗户使得距离得分可直接用于比较。比较单位的另外一个明显选择会是个别的句子。然而,在句子水平上进行这项分析考虑的信息会太少,可能的得分范围会因为太大而无用。
图7表示的是文档内分析的样本结果。这项分析的种子报道是关于在新加坡新发现了一例SARS的报告。对已被描述过的内容进行摘要的稿件通常的动态范围有限、绝对得分低。详述稿通常绝对得分较高,反映出他们承载的新信息。该故事的一个详述稿报导该病患的妻子正处于隔离之下。沿着这一思路,那些可定性为衍生稿但是仍与种子报道中描述的事件关联的稿件动态范围更宽些。一个衍生稿件是一篇把重心集中在亚洲股市受SARS影响的报道,另一篇是有关SARS疫苗的进展的报道。这两篇衍生稿件都把最近的案例作为出发点,但却实际上都是关于一个相关主题的。分析文档内动态学,比如新颖性得分的动态范围和模式对于标识读者想要跟踪的信息的不同类型方面是有用的。
万维网已经向用户提供一组丰富的信息源。对于在英特网上冲浪的人们而言,一个假相是,为了追求新闻更新而浏览众多来源是简那么地单,然而,在大量新闻中做筛选可能涉及要阅读大量的冗余材料。已经呈现了一系列算法,用来分析新闻馈送且在假定用户以前已经看过的内容的模型的情况下标识出承载最多新颖性信息的稿件。为此目的,用从文本中提取的命名实体来扩展基于字词的表示。使用这个表示,采用了多种距离度量来估计每个新闻稿件和一个稿件集合(例如,先前读过的报道)之间的差异。作为该算法基础的技术通过研究信息递送从稿件到稿件、以及在上下文字词窗口的水平上在每篇个别稿件内是是如何随时间进展的,对文档间动态学和文档内动态学进行分析。
新闻浏览器或纳入了这些算法的基于服务器的服务可向用户提供一种个性化的新闻体验,给用户调节所需新闻更新的频率以及调节这些更新与种子报道应当有多大程度的类似性的能力,途径是在新颖性约束上施加控制。可以提供更加复杂的距离度量,以引入在此描述的基本度量中的一部分,以及文档内模式的更详细的轮廓。
图8-11所示是根据本发明一个方面的示例性用户接口。图8在810例示了一连串的新闻报道,其中在810从新闻报道中选择出了一个特别主题并在820显示出来(例如,调查员探查(Investigators Probe)……)。当在810选择了一个主题,显示820即显示与挑选的主题有关的感兴趣的新闻。在830,一个在820处的列表里被选择的具体新闻被显示。图9所示是在一个主题被选择之后,它可以被列在910处已读部分之下。图10所示是后续新稿件是如何出现在1010处然后在1020被检查或阅读的。图11表示的是1020的被读新闻是如何随后被放置到1110的已读位置的。
参照图12,用于实现本发明各种方面的示例性环境1210包括一计算机1212。计算机1212包括一个处理单元1214、系统存储器1216、系统总线1218。系统总线1218将包括—但不限于—系统存储器1216在内的系统组件连接到处理器单元1214。处理器单元1214可以是各种可用处理器中的任何一种。双微处理器和其它多重微处理器架构都可用做处理单元1214。
系统总线1218可以是几种类型总线结构中的任意一个,包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用各种可用总线架构中的任何架构的本地总线,这种架构包括但不限于,16-位总线、工业标准结构(“ISA”)总线、微信道体系结构(“MCA”)总线、扩展的ISA(“EISA”)总线、集成驱动器电子电路(IDE)总线、VESA局部总线(VLB)、外设组件互连(PCI)总线、通用串行总线(USB)、加速图形端口(AGP)总线、个人计算机存储卡国际协会(PCMCIA)总线、小型计算机系统接口(SCSI)总线。
系统存储器1216包括易失性存储器1210和非易失性存储器1222。基本输入/输出系统(BIOS)存储在非易失性存储器1212中,它包含帮助在比如启动过程中在计算机1212内的部件之间传输信息的基本例程。作为例子而非限制,非易失性存储器1222包括只读存储器(ROM)、可编程只读存储器(PROM)、电子可编程只读存储器(EPROM)、电子可擦除只读存储器(EEPROM)或闪存。易失性存储器1220包括随机存取存储器(RAM)、它起到外部高速缓存存储器的作用。作为例示而非限制,RAM有多种形式,诸如同步随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双数据速率同步动态随机存取存储器(DDR SDRAM)、增强同步动态随机存取存储器(ESDRAM)、同步链动态随机存取存储器(SLDRAM)直接存储器总线式随机存取存储器(DRRAM)。
计算机1212也可以包括可移动/不可移动、易失/非易失性的计算机存储介质。例如,图12例示了盘存储器1224。盘存储器1224包括但不限于以下设备磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡、或记忆棒。此外,盘存储器1224包括独立于或结合于其它存储介质的存储介质,所谓其它出介质包括但不限于诸如CD-ROM设备、CD-R驱动器、CD-RW驱动器或DVD-ROM的光盘驱动器。为了方便盘存储器设备1224连接至系统总线1218,通常使用可移动或不可移动的接口,比如接口1226。
应当理解,图12描述了在用户和以适当的运行环境1210的形式叙述的计算机资源之间充当中介的软件。此类软件包括操作系统1228。可以存储在盘存储器1224上的操作系统1228控制并分配计算机系统1212的资源。系统应用1230通过程序模块1232和程序数据1234来利用操作系统1228对资源的管理,程序模块和程序数据存储在系统存储器1216中或者存储在盘存储器1224中。应当理解,本发明在以在各种操作系统或者操作系统的组合中实现。
用户可以通过(一个或多个)输入设备1236把命令或信息输入到计算机1212。输入设备1236包括但不限于鼠标、跟踪球等定位设备、输入笔、触摸板、键盘、麦克风、操纵杆、游戏垫、卫星天线、扫描仪、电视调谐卡、数码相机、数码录像机、web照相机、等等。这些和其它输入设备通过系统总线1218经由(诸)接口端口1238连接到处理单元1214。接口端口1238包括,例如,串行口、并行口、游戏口、通用串行口(USB)。输出设备1240使用与输入设备1236相同类型的部分端口。由此,例如,USB端口可以用来向计算机1212提供输入,也可以用来从计算机1212向输出设备1240输出信息。设置输出适配器1242是为了说明有部分的输出设备1240,像监视器、扬声器、打印机以及其它输出设备1240等会要求特殊的适配器。输出适配器1242,作为例子而非限制,包括在输出设备1240和相同总线1218之间提供连接手段的声像卡。应当注意,其它设备和/或设备体系既提供输入能力也提供输出能力,比如远程计算机1244。
计算机1212可以工作在使用到一个或多个远程计算机如远程计算机1244的逻辑连接的网络化环境中。远程计算机1244可以是个人计算机、服务器、路由器、网络计算机、工作站、基于微处理器的家用电器、对等设备或其它公共网络节点和类似设备,通常可包括与计算机1212相关来描述的许多或所有的要素。为了简洁起见,远程计算机1244只例示了一个存储器装置1246。远程计算机1244通过网络接口1248逻辑逻辑到计算机1212,然后经由通信连接1250进行物理连接。网络接口1248囊括了局域网(LAN)和广域网(WAN)等通信网络。LAN技术包括光纤分布式数据接口(FDDI)、铜线分布式数据接口(CDDI)、以太网/IEEE1102.3、令牌环/IEEE1102.5、综合业务数字网络(ISDN)等回路交换网络以及其变型、分组交换网络、数字用户线(DSL)。
通信连接1250是指用来把网络接口1248连接到总线1218的软件/硬件。尽管为了清楚起见把通信1250连接例示在计算机1212之中,它也可以是在计算机1212之外。连接到网络接口1248所必须的软件/硬件包括—仅为示例性目的—内设技术和外设技术,诸如调制解调器,包括常规电话级调制解调器、电缆式调制解调器、DSL调制解调器、ISDN适配器、以太网卡。
图13是样本计算环境1300的一个示意框图,本发明可与其交互。系统1300包括一个或多个的客户1310。客户1310可以是硬件和/或软件(,线程、进程、计算装置)。系统1300也包括一个或多个服务器1330。服务器1330也可是硬件和/或软件(如,线程、进程、计算装置)。服务器1330可容纳线程以采用本发明来执行变换。客户1310和服务器1330之间可能的一种通信形式是适应于在两个或多个计算机进程之间传输的数据分组。系统1300包括一通信框架1350,它可被用来促进客户1310和服务器1330之间的通信。客户1310被可操作性地连接到一个或多个用来储存本地信息给客户1310的客户信息存储器1360。类似地,服务器1330被可操作性地连接到一个或多个用来储存本地信息给服务器1330的服务器数据存储器1340。
以上所述包括有本发明的例子。当然,为了描述本发明的目的,描述每个可以想见的组件或方法的组合是不现实的,但是,本领域技术人员会认识到,许多进一步的组合和轮换对本发明来说是可能的。因此,本发明旨在包含所有这样的落在所附潜力要求书的精神和范围之内的变更、改进和变化。此外,以本说明书和权利要求书为限,术语“具有”类似于术语“包括”。
权利要求
1.一种用于分布个性化信息的系统,其特征在于,它包括一比较器,其确定两个或多个信息项目之间的差异;以及一分析器,其自动地、部分地基于所述差异并随着与所述信息项目有关的数据随时间的演化来确定所述信息项目的子集作为个性化信息。
2.如权利要求1所述的系统,其特征在于还包括一过滤器,以丢弃在前观测的信息。
3.如权利要求1所述的系统,其特征在于所述信息项目涉及新闻流。
4.如权利要求1所述的系统,其特征在于还包括至少一个服务器,以收集所述信息项目用于由所述分析器进一步处理。
5.如权利要求1所述的系统,其特征在于,所述比较器处理就各组文档中的词频所搜集的详细统计数据以表征各文档组间的差异和相似性。
6.如权利要求1所述的系统,其特征在于还包括一字词模型,其采用表示人物、组织或地理位置的命名实体。
7.如权利要求1所述的系统,其特征在于还包括一个性化新闻门户或新闻资料快报,其寻求将用户的时间和中断最小化。
8.如权利要求1所述的系统,其特征在于还包括一框架,用于确定众多应用中的差异,包括文本集的自动扼要描述和比较、不同新闻的自动标识、文本中反映出的范围和兴趣、或新信息的自动标识。
9.如权利要求1所述的系统,其特征在于,所述比较器确定在内容上的差异、结构组织上的差异和时间上的差异中的至少一个。
10.如权利要求9所述的系统,其特征在于还包括一组件,用于表征新闻故事的新颖性并用于将新闻稿排序,使得每篇新闻稿向先前已阅稿中添加最多信息。
11.如权利要求9所述的系统,其特征在于还包括一组件,用于分析话题随时间的演化,以便能够将新闻更新的重要性和相关性定量化。
12.如权利要求11所述的系统,其特征在于还包括提供话题参数的用户控制,以便提供个性化新闻经验。
13.一种在其上存储有用于实现如权利要求1所述的组件的计算机可读指令。
14.一种创建个性化信息的方法,其特征在于,它包括自动分析来自不同信息源的文档;自动确定所述文档的新颖性;以及基于所述文档的新颖性创建个性化信息馈送。
15.如权利要求14所述的方法,其特征在于还包括通过为每个文档组建立一模型以推断文档组之间的差异,且随后用相似性度量来比较所述模型。
16.如权利要求15所述的方法,其特征在于,所述模型采用在字词特征上的修匀几率分布或在同一特征空间内的权重矢量。
17.如权利要求15所述的方法,其特征在于,相似性度量还包括KL发散、JS发散、矢量计算的余弦、特征权重矢量的余弦和对先前未见过的命名实体的密度衡量中的至少一种。
18.如权利要求17所述的方法,还包括提供一新颖性排序算法,该算法被迭代式地应用以产生一个读者可能会感兴趣的稿件小集。
19.如权利要求18所述的方法,还包括以下至少之一提供一希望递增分析和将实际可用的更新与用户已阅的种子报道进行比较,选择与种子报道最不相似的稿件。
20.如权利要求19所述的方法,还包括下列算法算法RANKNEWSBYNOVELTY(dist,seed,D,n)R←seed//initializationfor i=1 to min(n,|D|)dod←argmaxdi∈D{dist(di,R)}]]>R←R∪{d};D←D\{d}其中dist是距离度量,seed是种子报道,D是一组相关更新,n是所期望选择的更新数量,R是根据新颖性排序的稿件集。
21.如权利要求19所述的方法,还包括提供用户快报的效益对于成本的一般分析以基于用户的上下文考虑而用中断用户的代价平衡特定稿件或稿件组的信息价值。
22.如权利要求19所述的方法,还包括将在一个时期中收到稿件与定期收到的稿件集合进行比较。
23.如权利要求22所述的方法,还包括确定考虑了与主题相关的先前稿件但按时间减损其度量权重的距离度量。
24.如权利要求19所述的方法,还包括下列算法算法PICKDAILYUPDATE(dist,Bg,D,thresh)d←argmaxdi∈D{dist(di,Bg)}]]>If dist(d,Bg)>thresh then display(d)Bg←D其中dist是距离度量,Bg是背景参考集,包括在前一天收到的有关稿件的集合,D是在今天收到的一组新稿件,thresh是用户定义的敏感性阈值。
25.如权利要求19所述的方法,还包括确定新颖性的猝发。
26.如权利要求25所述的方法,还包括确定一宽度为w的中值过滤器,其对以当前点为中心的窗口内的w个数据点进行分类。
27.如权利要求26所述的方法,还包括下列算法算法IDENTIFYBREAKINGNEWS(dist;D;l;fw;thresh)Window←∪li=1di∈Dfor i=l+1 to|D|doScoresi←dist(di,Window)Window←(Window\di-1)UdiScoresfilt←MedianFilter(Scores,fw)For j=1 to |Scoresfilt|doIf Scoresfiltj>thresh thendisplay(dj+1)skip to the beginning of the next burst其中dist是距离度量,D是有关稿件的序列,l是滑动窗口长度,fw是中值过滤器宽度,thresh是用户定义的敏感性阈值。
28.如权利要求19所述的方法,还包括确定摘要稿件、详述稿件、衍生稿件和无关稿件中的至少一个。
29.一种进行文档分析的方法,包括为一组文档中的每份文档构造一个语言模型;确定一固定距离度量以分析所述文档;和在文档中的字词上至少滑动一个窗口。
30.如权利要求29所述的方法,还包括将所述窗口的距离得分相对于种子报道做图。
31.如权利要求29所述的方法,还包括按照通过使用选定的度量比较当前文档的语言模型与种子报道的语言模型而规定的,来确定每个字词相对于种子报道的点态得分和。
32.如权利要求31所述的方法,还包括采用约为20的窗口长度参数。
33.如权利要求29所述的方法,还包括在从现在时间起算的不同的新时间范围内,协助对当前未读的有关主题的新闻报道的理想阅读顺序或路径的设计。
34.如权利要求29所述的方法,还包括为跟上新闻而设计顺序,考虑最近的新闻和一段时间内的新闻猝发,以帮助人们认识新闻报道的演化并通过主要事件或更新来导航报道的历史。
35.如权利要求29所述的方法,还包括开发不同类型的显示设计和隐喻。
36.如权利要求35所述的方法,所述类型包括使用时间线视图或者时间上的组群。
37.如权利要求29所述的方法,还包括在桌面设定或者移动设定中提供一个主题的即时新闻报道的理想化快报。
38.如权利要求37所述的方法,还包括允许用户指定主题或关键字,当给定用户已经阅读的内容有充足新颖性时,则向用户做快报。
39.如权利要求37所述的方法,还包括当带有关键字的新闻报道出现时,如果该信息的新颖性高于预定新颖性阈值,则向用户做快报。
40.一种创建个性化信息的系统,包括用于分析多个来自不同信息源的文档的装置;用于确定所述文档相似性的装置;和用于基于所确定的文档相似性上的差异提供信息的个性化馈送的装置。
全文摘要
提供了一种系统和方法,用于根据信息新颖性的统计测量来过滤诸如新闻报道等时间性信息流。各种不同的技术可以被应用来基于一个用户已经评审过的信息因人而异地定制新闻馈送或者其他类型的信息。提供了分析信息新颖性的方法和通过标识在他们已经评审过的报道的上下文环境中各报道的新颖性为用户个性化并过滤信息的系统。该系统采用了把稿件表示成大量字词和命名实体的新颖性分析算法。这个算法通过考虑信息如何从一篇稿件到另一篇稿件以及在个别稿件内部是如何随时间进展而演化的来分析文档内和文档间动态学。
文档编号G06F17/30GK1664819SQ20051005318
公开日2005年9月7日 申请日期2005年3月2日 优先权日2004年3月2日
发明者E·J·霍维兹, E·加布里洛维奇, S·T·杜梅斯 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1