便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统的制作方法

文档序号:6593620阅读:154来源:国知局
专利名称:便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统的制作方法
技术领域
本发明涉及检索内容(包括具有音轨的视频文件)来识别与检索查询词和短语相 关的内容部分,并且具体地涉及内容检索服务系统的信息汇聚和分类组件,其采用本体和 副本以对内容检索服务的检索服务组件用于向内容检索服务系统客户端呈递检索结果的 副本进行评分。
背景技术
在早期的计算中,信息一般被编码为格式化的字母数字字符串,或者编码为信息 储存单元(通常是字节)的未格式化有序序列。随着计算硬件、操作系统和计算机应用一齐 演进,开发了很多不同类型的信息编码,并且现在大量不同类型的信息惯常以电子方式编 码、储存、交换和呈递以供用户访问,包括文本文件、特殊格式的专用文件、音频记录、视频 记录以及多媒体呈现。尽管在早期的计算中数据曾主要是被呈递为显示于单色M行终端 上的字符串,但是当前电子编码并通过计算机系统发布的很多不同类型信息通过各种不同 的应用程序被呈递以向人类用户呈现,所述应用程序包括文本和图像编辑器、视频播放器、 音频播放器和网络浏览器。一种重要类别的信息包括被编码为依序被呈递以向人类用户显示或呈现的有序 信息单元序列。MPEG编码的视频文件是顺序信息编码的一种例子。MPEG编码采用多种着 实复杂的多层不同类型编码方法来压缩编码一个或多个视频流和/或音频流。一般来说, 视频帧是按次序从MPEG编码视频文件逐帧重构的。对MPEG编码视频文件的呈递提供视频 帧流和音频流。呈递应用和设备一般允许用户开始或继续视频文件的呈递,停止视频文件 的呈递,以及快进或快退到视频流中的选定位置。在很多情况下,用户可能仅对视频呈现中的某部分感兴趣。例如,特定用户可能仅 对本地电视新闻广播中包括的天气预报感兴趣,而所述本地电视新闻广播除了天气预报以 外还包括对当前本地和全国事件的评论、对体育事件的评论以及对人们趣味故事的呈现。 在很多情况下,视频呈现可能并未按段索引以便利对用户感兴趣的视频呈现部分进行直接 访问,或者可能以非常粗略的话题粒度进行索引,需要用户采用通过相对粗糙的技术开始、 停止、前进和后退视频流的不定(hit-or-miss)策略来定位感兴趣的部分。除了编码的视 频外,存在很多其他类型的顺序信息编码,它们被依序呈递给人们的感官,包括纯音频记 录、各种类型的多媒体呈现、书籍和文本文档中页的图像以及其他这样的信息编码。在很多 情况下,当前检索人类用户感兴趣的编码信息部分被限于视频呈递应用和很多视频信号呈 递设备的用户所熟悉的上述停止/开始/前进/和后退操作。呈递顺序信息编码来向人类用户、设计师、实施者、供应商以及信息呈递应用(包括媒体播放器、网络浏览器和控制程序)用户,以及很多其他涉足记录、传播和呈递信息的 人进行呈现的计算机和其他电子设备的设计师及制造商已经认识到对于更有效的检索工 具的需求,以允许用户识别和高效地访问这些信息的受众所感兴趣的信息编码部分。响应 于这些需求,已经开发了内容检索服务系统。本发明的各个实施例包括该内容检索服务系 统的组件和子系统。内容检索服务系统接收和/或定位并获取内容检索服务系统客户端电 子可获得的各内容项,并且准备这些内容项或这些内容项的部分的内部表示,以使得内容 检索服务能够以图形方式呈递内容检索服务系统响应于内容检索服务系统客户端所作检 索请求而生成的检索结果。内容检索服务系统的设计师、开发者和制造商,以及内容检索服 务提供商和内容检索服务系统与内容检索服务所提供服务的用户,均已经认识到对高效和 准确的内容检索服务组件的需求,以便利快速而准确地响应从采用内容检索服务系统的内 容检索服务客户端接收的指向内容项的检索请求。

发明内容
本发明的各个实施例包括内容检索服务系统的信息汇聚和分类组件,该信息汇聚 和分类组件从信息源得到信息,汇聚并标准化所得到的信息,并且分类所得到的信息,之后 将经标准化和分类的信息进行储存以供内容检索服务系统的语言模型构建器组件和本体 构建器组件使用。本发明另外的实施例包括本体构建器组件,该本体构建器组件针对特定 日期、日期/时间、日期范围或日期/时间范围并且针对特定种类从经标准化和分类的信息 来建立本体。


图1说明内容检索服务系统向客户端提供检索服务。图2说明内容呈递应用界面。图3根据本发明的实施例说明添加到图2所示内容呈递应用界面的热图 (heat-map)检索结果显示。图4提供代表本发明一个实施例的内容检索服务系统的框图表示。图5根据本发明一个实施例说明本体。图6根据本发明一个实施例示出“动物”种类的示例性词汇表的一部分。图7根据本发明一个实施例说明本体的mXm表示。图8根据本发明一个实施例示出本体的列表表示。图9示出本发明一个实施例中使用的本体表示的一部分。图10根据本发明一个实施例说明副本的一种实现。图11根据本发明一个实施例说明副本的替换性表示。图12说明代表本发明一个实施例的CSS的概念服务组件(图4中的408)的操作。图13根据本发明一个实施例说明被评分的副本的一个实施例。图14提供代表本发明一个实施例的CSS系统的信息汇聚器和分类组件的高层框 图。图15说明网络抓取器(web crawler)的操作。图16A-B说明本发明一个实施例中采用的文档过滤和标准化方法。
6
图17示出从图16B示出的标准化文本文档生成的词语向量(term vector)。图18示出一种倒排关键词索引的逻辑结构。图19根据本发明一个实施例说明累积词语分布。图20说明IAC组件的文档分类器子组件的功能。图21说明IAC组件的信息汇聚器子组件的操作。图22说明IAC组件的分档分类器构造器子组件的操作。图23提供CSS系统的本体构建器组件的控制流程图。
具体实施例方式在用于向客户端提供内容检索服务的内容检索服务系统内采用本发明的实施例。 图1说明内容检索服务系统向客户端提供检索服务。客户端102 —般是用户用来通过内容 呈递应用(例如网络浏览器所调用的视频呈递程序)查看内容提供商系统106所提供的内 容104的个人计算机或工作站。为了便于高效地查看内容,用户向显示于客户端计算机上 的文本键入特征108键入包括检索词或检索短语的检索查询,并且调用针对内容相关部分 所呈递的内容检索。在本发明的某些实施例中,检索查询可以可替换地由用户预定义或者 针对用户预定义以便利用户检索。检索词或者短语被传输110到内容检索服务系统112并 且被内容检索服务系统处理,以便返回114内容116特定部分与检索词或检索短语相关性 的图形呈递。客户端计算机的用户可以通过额外的检索事务118-119针对额外的检索词或 者短语进行额外的检索。一般来说,呈递给用户的内容是这样一种内容,其不像文本文件,不能使用普遍可 用的检索工具(例如文本编辑器中提供的检索设施)被容易地检索以便于找到用户尤其感 兴趣的内容部分。在下面的讨论中,假设内容是具有伴音轨道的视频文件,例如新闻服务或 体育服务通过因特网提供给访问用户的新闻广播或体育广播。然而,其中可以实现和采用 本发明实施例的内容检索服务系统可以为各种不同类型的内容(包括各种类型的音频内 容)提供检索服务,服务范围从多媒体呈现到各种类型的图像、图形和音乐选择。一般来说,内容提供商106向内容检索服务系统112提供内容项进行预处理,以便 于对指向该内容项的后续客户端检索请求进行快速响应。然而,在可替换的实现中,内容检 索服务系统可以并发地接收内容项和从客户端接收检索短语或检索词,处理内容项以准备 检索内容,进行检索请求,以及实时地向用户呈递结果。一般来说,客户端系统不同于内容 提供商系统和内容检索服务系统二者,但是内容提供商、客户端和内容检索服务有可能可 以全部并发或同时在单个计算机系统或分布式计算机系统内进行执行。图2说明内容呈递应用界面。视频显示在基于网页的视频剪辑查看界面或便携式 设备图形用户界面(“GUI”)212所提供的视频屏幕210内。该设备界面或网页提供文本 键入窗214,该文本键入窗214允许用户输入充当检索准则的文本,以找到期望的视频来观 看、将每个检索的结果显示在结果窗216中,所述结果窗216可以通过向上滚动按钮218和 向下滚动按钮220滚动,并且可以从该结果窗216选择视频进行显示。此外,进度显示222 在呈递视频剪辑期间向用户显示对正被显示的视频剪辑中当前位置的指示,其中视频剪辑 的整个长度由水平条2M表示而视频剪辑内的当前位置由位置指示器2 相对于水平条的 位置来指示。在图2中,位置指示器2 指示当前显示的视频帧在整个该视频剪辑的25%位置处。用户界面提供用于开始和停止视频剪辑显示的开始/停止按钮228,以及允许用户 查找视频剪辑内不同位置而无需观看中间帧的快退按钮230和快进按钮232。图3根据本发明的实施例说明添加到图2中所示内容呈递应用界面的热图检索结 果显示。该热图检索结果显示可以由从内容检索服务系统下载的客户端侧检索结果呈递应 用提供。图3示出图2所示视频剪辑查看界面的导航按钮和进度显示,以及额外的检索结 果显示特征。快退按钮130、快进按钮132和开始/停止按钮1 在该可视界面中具有与 针对图2所示视频剪辑查看界面的这些界面特征所描述功能等同的功能。进度显示IM和 126也具有与图2所示视频剪辑查看界面的进度显示等同的功能,只是其不是如图2中那 样示出简单的纯色水平条来表示视频剪辑的长度,而是在进度显示的水平条124内叠加相 关性功能的热图类表示。在该热图类表示中,较深的阴影表示较大量的相关性度量或者评 分。该可视界面还包括两个参数指明特征302和304,它们允许用户通过分别沿柱310和 312滑动指示器按钮306和308来指明在相对于用户在检索准则键入窗316中指明的检索 准则314为信息编码内的位置计算相关性度量或评分时要采用的阈值和平滑程度。在图3 所示的实例中,进度显示组件的水平条1 表示视频剪辑的长度,并且人们可以通过对叠 加于水平条124的热图的可视检视容易地确定与当前指明检索准则相关的内容最可能在 位置320、322和324找到。更简单的可视界面可以仅包括相关性功能的热图类表示,并且 可以依赖于现有GUI的选择特征来输入检索准则。更复杂的可视界面可以包括额外的选择 特征来允许用户指明额外的参数,所述参数控制可视界面的显示以及相关性功能的计算, 包括例如主题域。当然,对于所有可视界面,存在可以用来提供对参数、检索准则和其他输 入数据的用户输入的很多不同方式和类型的选择与输入特征。另外,可视界面可以支持多 种方法来输入任何特定输入数据。例如,在图3所示的可视界面中,用户能够通过使用快退 和快进按钮、通过移动位置指示器或者通过在将指针移动到进度显示组件水平条内一位置 所表示的位置后输入鼠标点击,来选择开始或继续信息编码呈递的位置。图4提供代表本发明一个实施例的内容检索服务系统的框图表示。内容检索服 务系统(“CSS系统”)402包括检索服务组件404,其从客户端接收检索请求,并且以运行 于客户端计算机上的检索结果呈递应用所呈递的检索结果进行响应。在本发明的一个实 施例中,检索请求和对检索请求的响应是根据网络服务协议通过因特网在可扩展标记语言 (“XML”)消息中被接收406和发送407的。检索请求包括内容标识符(“内容ID”)以 及包括检索词或检索短语的检索查询。这些项均被检索服务组件404传给概念服务组件 ("CS组件”)408进行处理。CS组件408向检索服务组件404返回评分的副本412或副本 的评分部分,该检索服务组件404使用所述评分的副本以及可选地使用概念服务组件返回 的词汇表产生在客户端计算机上呈递给用户的检索结果信息。在所描述的本发明的实施例 中,评分的副本或部分评分的副本是元组的时间排序列表,每个元组包含词语或短语的指 示、呈递媒体内容项期间出现该词语或短语所经过的时间,以及指示该词语或短语与CS组 件所接收的检索查询相关度的评分。CS组件访问本体储存器414、提取内容数据组件416 和媒体数据服务418,以便于获得本体、副本,以及CS组件对返回给检索服务组件404的副 本进行评分所需的其他信息。在所描述的本发明的实施例中,本体是词语和短语的全连通 图。该图的每个节点代表词语或短语,并且该图的每条边代表在收集的信息中观察到的由 该边连接的节点所代表词语或短语的同现(co-occurrence)关系,所述收集的信息被分析来产生所述本体。为每条边指派一权重,该权重反映该边所代表的同现关系的强度,并且权 重是从被分析来产生本体的所述收集信息得出的。本体储存器414包括例如本体422的多 个本体,其描述各个主题种类的词之间的同现关系。本体还是加有日期戳或者日期/时间 戳的,因为本体随着时间针对任何特定主题而改变,并且对于准备检索结果来说,日期/时 间戳指示自内容项数据被检索起合理时间偏离量内日期的本体是最有用的。提取内容数据 组件416为CSS系统已经预处理过的每个内容项储存一个或多个副本426。媒体数据服务 418储存与每个预处理的内容项相关的信息,包括该内容项所属主题的种类,以及该内容创 建或接收的日期或者日期和时间。CSS服务还包括内容服务组件430,该内容服务组件430从远程内容提供商接收内 容项,或者检索、找到并且获取内容提供商提供的内容项,并且将所述内容项供应给内容处 理器组件432,该内容处理器组件432准备每个已处理内容项的一个或多个副本似6并在 提取内容数据组件416中储存每个已处理内容项的一个或多个副本426。内容处理器432 访问储存于语言模型储存器436中的语言模型(例如语言模型434),以便于处理给定内容 项。内容处理器组件432还将关于内容项的另外的信息存放在媒体内容服务组件418中。 在所描述的本发明的实施例中,副本是音轨或者音频文件的基于文本的副本,这是由内容 处理器组件的自动语音识别子组件进行的。在本发明的可替换实施例中,文本副本可以从 其他类型的媒体内容来准备,包括内容处理器组件的计算机视觉子组件准备的静止或运动 图像的描述性副本。信息汇聚器和分类器组件440连续或者间隔地抓取因特网和文档、文本文件的其 他信息源上可获得的信息,以及与内容项可以被指派的各种不同种类相关的其他信息项。 信息汇聚器和分类器组件440将认为对CSS系统有用的那些信息项按种类分类,并且将每 个种类和特定日期与时间范围的信息项储存到归类信息储存组件442中。这些信息项被信 息汇聚器和分类器组件处理,以移除不必要信息,在语言上对词语和短语进行标准化,并且 计算与信息项相关联的各个参数和值,所述各个参数和值既被信息汇聚器和分类器组件用 来分类所述项又被语言模型构建器组件444和本体构建器组件446使用,所述语言模型构 建器组件444和本体构建器组件446使用储存于归类信息储存组件442中的信息项来分别 建立语言模型和本体。图5根据本发明一个实施例说明本体。图5是仅包含很少项的简化本体。实际针 对有用信息种类准备的本体可以包含数百、数千或者数百万个词语和短语。在图5中,六个 项中的每一个由椭圆节点表示,例如椭圆节点502表示词语“蛇”。每个可能的词语对,例如 词语对“蛇” 502和“皮肤” 504,通过两道弧线互连,例如弧线506和508将词语502和504 互连。这两道弧线形成双向对,该对的一道弧线从第一词语或短语(该道弧线的源词语或 源短语)指向第二词语或短语(该道弧线的目标词语或目标短语),而该对的第二道弧线 从第二词语或短语指向第一词语或短语。每道弧线被标以范围W.0,1.0]内的数值。该数 值是归一化的同现度量,指示该弧线的目标词语或短语与该弧线的源词语或短语同现的频 率。因此,在图5中,弧线506指示词语“蛇”以相对低的频率与词语“皮肤”同现,而词语 “皮肤”以稍高的频率与词语“蛇”同现。互连两个词语或短语的双向弧线对中两道弧线的同 现度量并不相等的事实,反映出所述词语或短语的不同分布以及所述词语或短语在从其准 备本体的很多信息项中不同的出现次数,以及这两个词语或短语的不同标准化。回头参照图4,本体(例如图5中所示的简单本体)是由CSS系统的本体构建器组件446通过分析大 量与特定种类相关并且在特定时间间隔上收集的信息项来准备的。因此,每个本体,例如图 5说明的本体,是与特定信息种类相关联的,并且带有与被本体构建器组件用来建立本体的 信息项被CSS系统402的信息汇聚器和分类器组件440收集时的日期或日期时间分别对应 的日期戳和/或日期/时间戳。每个本体在物理或者概念上与一词汇表相关联。该词汇表也是从CSS系统的信息 汇聚器和分类器组件(图4中的440)收集的信息项准备的。在某些实施例中,一个信息种 类的词汇表是由CSS系统的语言模型构建器组件(图4中的444)准备的,并且被储存在语 言模型储存器(图4中的436)中。在本发明的其他实施例中,词汇表可以由本体构建器组 件(图4中的446)构造并且储存在本体储存器(图4中的414)中,而在可替换的实施例 中,词汇表可以由CSS另外的组件构造。在本发明的一个实施例中,词汇表包括在与特定信息种类相关的信息项中常出现 的名词或名词性短语的列表。例如,可以预期体育种类的内容项包括诸如“球棒”、“垒”、“投 手”、“四分卫” “门柱”、“橄榄球”、“标枪”、“轮滑”的名词以及其他这样的名词和名词性短 语。由于程序方式处理诸如字符串的符号串是效率低下的,因此在实现CSS系统的组件时, 词汇表中的每个词语或短语以整数值来表示。图6根据本发明一个实施例示出种类“动物” 的示例性词汇表的部分。如从图6中可以看到的,每种动物名称的字符串表示(例如字符串 “食蚁兽”602)与构成信息种类“动物”的词汇表的表606中一小整数值(例如值“96”604) 相关联。使用该表,字符串“短吻鳄”608通过表查找操作被容易地翻译为整数“462”610。 对于任何计算处理并电子储存的数据,可以以字母表顺序和/或数字顺序对词汇表排序, 并且可以额外地与索引或其他额外信息相关联,以允许在表中快速地定位和访问词语和短 语。尽管将本体表示为如图5所示包括由弧线互连的词语和短语节点的图是方便的, 但是当将本体表示为mXm的阵列时,可以更容易地计算处理本体,其中m是特定词汇表中 词语和短语的数量。图7根据本发明一个实施例说明本体的mXm表示。mXm阵列702包 括m2个单元,每个单元(例如单元704)包含标示弧线的一个或多个同现度量,所述弧线例 如图5中从第一本体节点(例如图5中的节点502)始发并指向第二本体节点(例如图5 中的节点504)的弧线508。单元的行索引指示与弧线始发的第一节点对应的整数值,而单 元的列索引指示该弧线指向的第二节点。单元704具有阵列索引(5,m-1),指示该单元中 包括的同现度量(例如图7中的度量“0,20” 706),标示从整数“5”指明的词汇表词或短语 指向整数m-1指明的词汇表词或短语的弧线。图7中所示本体的mXm表示是一种有用的抽象,但是一般来说还是计算上效率低 下的。该表示效率低下的一个原因是,对于实际本体来说,低于阈值的同现度量被视为是无 意义的,并且均被指派以诸如值“0. 0”的最小值。因此,图7中所示mXm阵列一般是非常 稀疏的。为此,并且为了便于快速访问词汇表特定词和短语的特定同现度量,通常将本体表 示为列表。图8根据本发明一个实施例示出本体的列表表示。在图8中,列表802的每个 元素(例如元素804)被表示为包含三个单元的行。行804的第一单元806是本体图形表 示中弧线的目标的数字表示,而第二单元808是本体图形表示中弧线的源,而第三单元810 包含对该弧线所标示的同现度量。列表802中仅包括具有非零度量的条目,解决了与本体mXm阵列表示相关联的稀疏问题。列表中的每个条目表示本体的单个弧线。如通过图8中 条目第一单元中的值容易看出的,在图8中,条目以相对于储存于每个条目第一单元中值 的升序而储存。这种组织便利了对与本体图形表示中弧线指向的特定词语或短语相关联条 目的访问。在某些实施例中,可以另外相对于储存于每个条目第二单元中的值而储存,并且 在再另外的实施例中,本体的列表表示可以伴随有一个或多个参考表或索引表,以便利对 本体特定条目的快速访问。在实践中,即使是图8中所示的本体列表表示也可能是稍抽象的。在本发明的一 个实施例中,本体包括针对每个条目的用于计算同现度量的原始数据,而非计算出的同现 度量。图9示出在本发明一个实施例中使用的本体表示的部分。该本体被表示为列表902, 类似于图8中说明的列表表示。然而,取代于如图8中包括单个计算出的同现度量,在本发 明一个实施例中,图9中列表的每个条目包括三个数值904-906,所述数值对储存于条目第 一元素908中值所表示的词或短语在与该条目第二单元910中所储存值表示的词或短语所 在大量收集并处理的信息项的相同信息项内或这些信息项的子单元或子段内出现的次数 进行编码,所述大量收集并处理的信息项对应于准备该本体所针对的信息种类。在当前的讨论中,内容项是包括音轨的视频文件。在本发明的一个实施例中,检 索是由CSS系统在视频文件音轨上使用用户输入的词语和短语排他地进行的,以找到在音 轨的时间点上出现的这些词语或短语或者相关的词语或短语。因此,音轨的部分可以被识 别为与检索词相关并且是用户特别感兴趣的。音轨的这些部分又可以与这样的视频图像 相关,在通过视频文件呈递应用向用户呈现视频文件时,所述视频图像在音轨的所述部分 被呈递的时间间隔内显示。在这些实施例中,副本(图4中的426)实质上是与词语或词语 短语在向用户呈递音轨期间在所述音轨中出现的时间或时间间隔相关联的词语或短语出 现的列表。图10根据本发明一个实施例说明副本的一种实现。在图10中,一维阵列1002 中的每个单元(例如单元1004)要么是空白的,指示在该时间间隔期间未识别出词或短语, 要么包含从与内容项种类相关联的词汇表选择的词或短语的数字表示,所述副本是根据所 述内容项而准备的。在副本的该实施例中,每个单元代表固定的短时间间隔,从而一维阵列 1002代表呈递视频文件音轨的时间线(time line)。图11根据本发明一个实施例说明副 本的替换性表示。在图11中,副本被表示为列表或二维阵列,其每个条目或者行包含指示 来自词汇表的词或短语的数值(例如数值1102),以及所述词或短语在音轨中出现的相关 联时间(例如时间1104),这两者均在条目1106中。很多替换性的副本表示是可能的。图12说明代表本发明一个实施例的CSS的CS组件(图4中的408)的操作。CS 组件从代表本发明一个实施例的CSS的检索服务组件(图4中的404)接收内容ID 1202 和检索查询1203。该内容ID —般是数字标识符,或者字母数字串,其唯一地标识特定的内 容项。在本发明的一个实施例中,特定的内容项是这样的逻辑内容项,其可以封装多个不同 的分立内容编码,包括例如特定视频的多种不同MPEG编码,每种编码具有根据编码信号的 带宽或每秒千比特数所指明的不同分辨率。所有不同的编码均是视频的替换性表示,并且 因此通过单个公共内容ID标识。CS组件使用内容ID 1202来访问媒体数据服务组件(图 4中的418),以获得该内容项的种类ID 1204以及该内容项的日期/时间1206。CS组件另 外访问本体储存器(图4中的414),并且在某些实施例中,访问语言模型储存器(图4中 的436),以便于获得该内容项适当的本体1208和词汇表1210。使用该本体和词汇表1208和1210,并且使用各种语言处理规则和例程,CS组件随后处理所接收的检索查询1203,以 生成一个或多个词语或短语列表1212和1214。首先,使用语言例程,针对拼写错误纠正检 索查询,并且标准化该检索查询来产生修改的检索词语或短语1216,所述语言例程也被本 体构建器用来从收集的信息构造本体。随后处理修改的检索查询1216,以提取在内容ID 1202所标识内容项所属种类的词汇表中出现的那些词。该种类由从媒体数据服务组件获 得的种类ID 1204标识。每个列表1212和1214包括检索词语或短语,以及另外如从本体 1208获得的相关检索词语或短语。该列表中的每个词语或短语与从本体提取的同现度量值 相关联。在图12所示的实例中,在本体中找到词语“汽油”、“汽车”、“蛇”和“皮肤”与检索 词语“石油”相关,并且因此把它们包括在针对检索词语“石油”的列表1212中。类似地,列 表1214包含检索词语“汽车”,并且另外包含相关词语“汽油”和“石油”。所述相关词语或 短语是从本体从其中检索查询词语或短语作为本体条目中第一值出现的那些条目(参见 图8和9)获得的。一旦已经准备了列表,CS组件随后访问提取内容数据组件(图4中的 416)以获得内容项的副本1218。CS组件随后使用列表1212和1214向副本1218的在该内 容项所属种类的词汇表中出现的那些词语和短语指派同现度量,以产生评分的副本1220。 在本发明一个实施例中,CS服务随后将评分的副本和内容ID,以及可选地将修改的检索短 语1216和对词汇表的参考返回给CSS系统的检索服务组件(图4中的404)。检索服务组 件随后进一步处理该评分的副本,以将检索结果呈递给用户。图13根据本发明一个实施例说明评分的副本的一个实施例。该评分的副本为元 组的列表,在图13中其每个元组以行表示,例如行1304。每个元组,例如元组1304,包括词 或短语的数字表示、所述词或短语在音频副本中出现时所经过时间指示,以及针对所述词 或短语计算的评分。一般来说,所述评分是从用于对该副本进行评分的本体获得的一个或 多个同现度量的函数。在本发明一个实施例中,所述评分例如简单地是从本体获得的同现 度量,除非针对其计算评分的词语或短语在多个列表(例如在图12的实例中的列表1212 和1214两者)中出现,在这种情况下,评分可以被计算为与该词语或短语出现在的任何列 表中的该词语相关联的同现度量的均值或加权均值。图14提供代表本发明一个实施例的CSS系统的信息汇聚器和分类组件的高层框 图。该信息汇聚器和分类器(图4中的440)负责从各种信息源(包括因特网)收集信息, 所述信息随后被语言模型构建器(图4中的444)用来构造种类专用的语言模型(图4中 的434),所述种类专用的语言模型被内容处理器(图4中的432)用来准备副本(图4中 的似6),并且所述信息被本体构建器(图4中的446)用来构造种类专用的本体(图4中 的42 ,该种类专用的本体被CS组件(图4中的408)用来如上面讨论那样准备评分的副 本。IAC组件1402包括两个主要的子组件(1)文档分类器构造器子组件1404和信息汇聚 器子组件1406。该文档分类器构造器子组件构造或训练文档分类器1408,所述信息汇聚器 子组件使用所述文档分类器1408通过将每个文档指派到一个种类来分类从信息源获得的 文档,并且随后逐种类地汇聚从文档收集的信息。如图4所示,IAC组件使用归类信息储存 组件(图4中的442) 1410来临时储存文档并最终储存本体构建器和语言模型构建器所使 用的经处理文档包。IAC组件从因特网并且潜在地从其他信息源(包括在线数据库、简易信 息聚合(“RSS”)种子和另外类型的电子编码信息源)请求信息1412并且接收请求的信息 1414。在描述IAC组件的信息汇聚器子组件和文档分类器构造器子组件之前,首先描述这些子组件所采用的各种模块和功能。图15说明网络抓取器的操作。如熟知因特网和因特网浏览的人们所公知的,被编 码为超文本标记(“HTML”)文件的网页(例如网页1502)通过包括于网页中引用其他网 页的超链接组织为复杂的图。当前,通过普遍可获得的网络浏览器访问因特网的用户可以 潜在地访问数亿或数十亿不同的网页。正常地,用户使用搜索引擎检索感兴趣的话题,所述 搜索引擎返回该搜索引擎确定与用户感兴趣话题相关的网页通用资源定位符(“URL”)列 表,并且随后开始访问初始URL列表所标识的网页,通常是通过被包括在所显示网页中的 超链接从初始查看的网页导航到另外的网页。图15示出因特网非常小的部分,其中链接网 页的超链接被示为箭头(例如箭头1504),而网页示为该图的方形节点。第一网站1506可 以包括网页1502和1508-1510,其中网页1508-1510链接自该网站的首页1502。网站1506 的网页1509可以包含去往第二网站1514首页1512的超链接1504。该第二网站内的网页 1516-1517又可以分别包含去往另外的网站1520和1522的超链接1518和1519。因特网 的图太过复杂而不能表示任何一种可视显示,其中很多网站包含数百个网页以及成百上千 个内部超链接和去往外部网站的超链接。网络抓取器是一种自动软件程序,其被设计来访问因特网,以多个种子URL指明 的多个网页开始,并且随后从所述URL全面向外导航,以收集通过从初始的种子URL开始遍 历超链接直到某链接深度所能访问的所有网页。例如,在图15中,网络抓取器可以以地址 分别为两个种子URL1530和1532的两个网页1502和1534开始。在图15中,各个超链接 (例如超链接1504)被标记有该超链接相对于从以两个种子URL 1530和1532为地址的两 个网页1502和1534开始的检索的深度。因此,例如,在深度1找到网页1508,其从抓取的 初始网页1502直接链接,而网页1517出现在从初始种子URL 1530和1532起深度为5之 处。由于该图的复杂性,很多网页(例如网页1502)在抓取期间可能被多次访问。由于因 特网网页结构的复杂性、密度和数量,包括在每个连续抓取深度中的网页数量可能超指数 地增加。可以将网络抓取器设计为按照附加参数指明的那样进行各种类型的定向检索。一 般来说,网络抓取器将与所访问网页对应的HTML文件存放在大数据文件或数据库中。可替 换地,网络抓取器可以在未提供种子URL时在网络空间中以随机选择点开始检索。本发明的实施例采用过滤和标准化方法来将从因特网获得的HTML文件和其他文 档处理成可以用来建立语言模型和本体的压缩的、语言标准化的文档。图16A-B说明在本 发明一个实施例中采用的文档过滤和标准化方法。在图16A中,示出对HTML编码的网页 1602的呈递。该网页包括文本1604、. jpg图像1606,以及各种非文本的图形和符号,例如 项目符号1608和水平线1610。图16A中示出的网页1602是非常简单的网页。现今,很多 网页包含各种不同类型的特征、控制、图像和非本文项,并且可以另外包括可执行的脚本和 例程。在初始的一系列步骤中,代表本发明一个实施例的过滤器将网页的HTML编码转 变1612为简单得多的段句分界的文本文件1614。如图16A中可以看到的,已经从初始HTML 文件移除了所有非文本项,以产生段句分界的文本文件1614,并且保留文本已经被分块为 段落1616-1618,其中每个段落又分块为句子,例如段落1616的句子1620-1621。在图16A
中,段落被标记为“P1”、“P2”和“P3”,而每个段落中的句子被标记为“S1”、“S2”.......接
下来,如图16B所示,段句分界的文本文件随后通过一系列语言例程被转变1620,以识别所有词的词性(part of speech),并且移除不是名词的词,以产生仅有名词的文本文档1630。 在该仅有名词的文本文档中维持所述段句分界的文本文件(图16A中的1614)的段落和句 子结构。接下来,该仅有名词的文本文档1630通过一系列过滤和语言标准化步骤被转变 1632为标准化文档1634。使用被认为对语言模型构建器和本体构建器无用的词的大列表 来从该仅有名词的文本文档1630移除这些词的出现。该应当移除的词的列表可以根据各 种统计和其他考虑来准备。例如,已知在多种内容中相对高频出现的词一般不能提供与用 户相关的媒体内容的这些部分的显著区分。另外,可以针对用户查询收集统计数据,并且可 以从被收集来建立一种类的本体的仅有名词的文本文档中移除在指向特定查询媒体内容 的检索查询中一般不会遇到的词和短语。另外,采用语言例程通过例如将所有大写字符变 为小写字符、将任何复数名词变为其单数形式以及在某些情况下以衍生名词的词根替代衍 生名词来标准化每个名词。如在图16B中可以看到的,标准化文本文档远比图16A中呈递 为网页1602的初始HTML文件更结构化、更简单。标准化文本文件1634包含的恰是对于在 所描述的本发明实施例中的语言模型构建器和本体构建器有用的信息。可以向标准化文本文档应用索引器来生成额外的有用信息。图17示出从图16B所 示标准化文本文档生成的词语向量。在图17中,标准化文本文档1702被示出在词语向量 的二维阵列1704表示之上。该词语向量针对在标准化文本文档中出现的每个唯一词语包 括一个条目,例如针对词语“chart(图表)”的条目1706。如上面讨论的,词语向量中的每 个条目包括词语的符号表示(例如符号串“chart”),或者从词汇表选择的词语的整数值。 每个条目还包括该词语在文档中出现的次数。通过某些索引器从标准化文本文档编制并且提供的另一信息编制物是倒排关键 词索引。图18示出一种倒排关键词索引的逻辑结构。倒排关键词索引可以包含一个标准 化文本文档或者标准化文本文档集中词语的出现频率相关的信息。图18示出文本文档集 的倒排关键词索引。该倒排关键词索引包括哈希表1802,该哈希表可以被用来快速识别针 对在该文档集中遇到的每个词语编制的出现频率信息。可以从词“armadillo (犰狳)”计算 哈希值1804,或者可以使用从词汇表选择的词“armadillo”的数值来计算哈希表1806中的 数值或对条目的引用。该条目包含指向哈希为特定哈希表条目或者容器(bin)的一个或多 个词语的一个出现频率信息或出现频率信息列表的指针。在图18所示的实例中,哈希表条 目1806对应于词“armadillo”1808和词“piano (钢琴)” 1810。从哈希表引用的对应于词 语“armadillo”的第一词语节点1808又引用包括词语“armadillo”的文档节点1812-1815 的列表。每个文档节点又引用段落列表,例如与文档1815相关联的段落节点1818-1819, 该段落列表代表给定文档中出现该词语的所有段落。所述段落节点然后又可以引用句子节 点或链接的句子节点列表,所述句子节点指示段落中出现该词语的那些句子。从词语节点 1808起始并包括该词语节点的分层节点树中的每个节点可以包括表示该词语在该分层结 构的每一级中出现的总次数的整数值。例如,词语节点1808可以包括词语“armadillo”在 整个文档集中出现次数的整数值。文档节点1812可以包含指示词语“armadillo”在该文 档节点所代表文档中出现次数的整数值。存在很多不同类型的倒排关键词索引。图18中的倒排关键词索引意图示出可以 被包含在倒排关键词索引中的信息类型。一般来说,尽管哈希表提供快速查找,但是图19 的分层节点树中储存的数据通常被储存为比特串或存储器块中的字段,而不是储存为节点树,以便于比可以通过遍历复杂的树获得信息更快速地获取信息。应当注意,当索引器准备 每个标准化文本文档的倒排关键词索引时,可以通过在概念上将文档节点为头部的树附加 到从词语节点始发的文档列表来相对直接地合并文本文档集中所有文本文档的倒排关键 词索引。在本发明某些实施例中可以使用倒排关键词索引,但是在本发明的很多实施例中 不使用倒排关键词索引。如上面参照图17讨论的,索引器可以为每个标准化文本文档准备词语向量。可以 通过将每个词语在该集合所有标准化文本文档中的出现次数进行合计来汇聚相关标准化 文本文档集的大量词语向量,以产生每个词语在词语向量中的累积出现次数。所有词语的 累积出现次数构成该相关标准化文本文档集的累积词语分布。图19根据本发明一个实施 例说明累积词语分布。该累积词语分布实质上是直方图,其中相对于纵轴1802绘制沿横轴 1804绘制的词语的出现次数。特定柱(例如柱1806)的高度表示该柱之下词语1808的出 现次数。累积词语分布可以在计算上被表示为二维阵列,其具有与上面参照图17讨论的词 语向量中条目等同的条目。接下来描述IAC组件的文档分类器子组件(图14中的1408)。图20说明IAC组 件的文档分类器子组件的功能。词语向量2002输入到文档分类器子组件2004,并且该文档 分类器子组件应用各种规则、习得的概率或其他内部储存的信息,以便于产生有可能代表 与该词语向量相关联文档种类的种类ID 2006。换言之,在如上面参照图17讨论的那样构 造标准化文本文档的词语向量之后,与标准化文本文档相关联的词语向量可以被输入到文 档分类器子组件,以确定该文档所属种类的种类ID。存在很多不同类型的文档分类器。在本发明的一个实施例中,采用朴素贝叶斯文档分类器。在贝叶斯方案中,根据种 类Ci的文档将生成各种可测量的量F1, F2, ...,Fn的概率来计算文档是特定种类Ci的成员 的似然性,所述可测量的量是从之前观测的数据估计的。使用来自词语向量T1, T2, . . . , Tn 的元素的出现值作为可测量的量,朴素贝叶斯分类器通过尝试找到种类Ci来分类文档,即, 在一组种类C的所有种类中,考虑词语向量分量T1, T2, ...,Tn的值,所述文档属于种类Ci 的概率最高。因此,朴素贝叶斯分类器寻找
权利要求
1.一种内容检索服务系统的信息汇聚和分类组件,所述信息汇聚和分类组件包括 文档分类器;文档分类器构造器子组件,所述文档分类器构造器子组件使用经归类和处理的文档集 来构造所述文档分类器;以及信息汇聚器子组件,所述信息汇聚器子组件 从电子信息源获得未归类文档, 过滤所述未归类文档以产生一组标准化文本文档,向所述标准化文本文档应用索引器以生成每个标准化文本文档的词语向量; 输入针对所述一组标准化文本文档中每个标准化文本文档计算的所述词语向量,以向 所述标准化文本文档指派种类;以及将每个不同种类的标准化文本文档汇聚在一起以产生每个种类的标准化文本文档包。
2.如权利要求1所述的信息汇聚和分类组件,其中所述文档分类器是朴素贝叶斯文档 分类器。
3.如权利要求1所述的信息汇聚和分类组件,其中所述文档分类器构造器子组件 从电子信息源获得文档,每个所述文档被指派了种类,过滤所述文档以产生一组标准化文本文档,向所述标准化文本文档应用索引器以生成每个标准化文本文档的词语向量; 为每个种类的文档计算累积词语分布;以及将每个标准化文本文档,与针对所述标准化文本文档计算的词语向量和被指派给所述 文本文档的种类,以及每个种类的文档的所述累积词语分布一起输入到所述文档分类器, 以训练所述文档分类器识别要指派给输入的标准化文本文档/词语向量对的种类。
4.如权利要求1所述的信息汇聚和分类组件,其中所述信息汇聚器子组件使用网络抓 取器来从电子信息源获得未归类文档。
5.如权利要求1所述的信息汇聚和分类组件,其中,对于每个文档,所述信息汇聚器子 组件通过以下操作来过滤所述未归类文档以产生一组标准化文本文档从所述文档移除非文本项和符号以产生文本文档;解析所述文本以将所述文本文档的所述文本组织为段落和段落中的句子,从而产生段 句分界的文本文档;向所述段句分界的文本文档应用语言解析例程,以从所述文本移除非名词词语,从而 产生仅有名词和名词性短语的文本文档;以及应用语言例程来标准化所述仅有名词和名词性短语的文本文档中的词语,并从经标准 化的词语中过滤无用词语以产生标准化文本文档。
6.如权利要求1所述的信息汇聚和分类组件,其中每个词语向量包含每个词语在标准 化文本文档中的出现计数。
7.如权利要求1所述的信息汇聚和分类组件,其中每个标准化文本文档包是带日期戳 或日期/时间戳的,以指示所述标准化文本文档包被准备的日期或日期和时间。
8.一种内容检索服务系统的本体构建器组件,所述本体构建器组件 接收日期或日期/时间以及对种类的指示;从归类文本文档储存组件请求标准化文本文档的包,所述标准化文本文档的包具有的日期或日期/时间戳的值接近所接收的日期或日期时间,并且与所接收的种类相关联; 为所述种类的文本文档的词汇表内每个有向词语对计算多个同现值; 归一化所述有向词语对中每个第一词语的同现值; 计算每个词语的权重;将所计算的每个词语的权重应用到有向词语对的经归一化的同现值,在所述有向词语 对中,所述词语作为所述有向词语对中的第一词语出现;以及将一组应用有权重、标准化的同现值作为本体储存在本体储存组件中。
9.如权利要求8所述的本体构建器组件,其中同现值是为每个有向词语对、针对所述 词语一起出现在所述标准化文本文档的句子中、在所述标准化文本文档的段落中以及在整 个标准化文本文档中的频率而计算的。
10.如权利要求8所述的本体构建器组件,其中词语的所述权重与所述词语在所述标 准化文本文档中的总出现成反比。
11.如权利要求8所述的本体构建器组件,其中归一化所述有向词语对中每个第一词 语的同现值还包括计算每个有向词语对相对于所述有向词语对的总同现次数的比例性同 现。
12.—种准备标准化文本文档包的方法,所述方法包括 使用经归类和处理的文档集来构造文档分类器;从电子信息源获得未归类文档, 过滤所述未归类文档以产生一组标准化文本文档,向所述标准化文本文档应用索引器以生成每个标准化文本文档的词语向量; 输入针对所述一组标准化文本文档中每个标准化文本文档计算的所述词语向量,以向 所述标准化文本文档指派种类;以及将每个不同种类的标准化文本文档汇聚在一起以产生每个种类的标准化文本文档包。
13.如权利要求12所述的方法,其中所述文档分类器是朴素贝叶斯文档分类器。
14.如权利要求12所述的方法,其中构造所述文档分类器还包括 从电子信息源获得文档,每个所述文档被指派了种类,过滤所述文档以产生一组标准化文本文档,向所述标准化文本文档应用索引器以生成每个标准化文本文档的词语向量; 为每个种类的文档计算累积词语分布;以及将每个标准化文本文档,与针对所述标准化文本文档计算的词语向量和指派给所述文 本文档的种类,以及每个种类的文档的所述累积词语分布一起输入到所述文档分类器,以 训练所述文档分类器识别要指派给输入的标准化文本文档/词语向量对的种类。
15.如权利要求12所述的方法,其中从电子信息源获得未归类文档还包括使用网络 抓取器。
16.如权利要求12所述的方法,其中过滤所述未归类文档以产生一组标准化文本文档 还包括对于每个文档从所述文档移除非文本项和符号以产生文本文档;解析所述文本以将所述文本文档的所述文本组织为段落和段落中的句子,从而产生段 句分界的文本文档;向所述段句分界的文本文档应用语言解析例程,以从所述文本移除非名词词语,从而 产生仅有名词和名词性短语的文本文档;以及应用语言例程来标准化所述仅有名词和名词性短语的文本文档中的词语,并从经标准 化的词语中过滤无用词语以产生标准化文本文档。
17.如权利要求12所述的方法,其中每个词语向量包含每个词语在标准化文本文档中 的出现计数。
18.如权利要求21所述的方法,其中每个标准化文本文档包是带日期戳或日期/时间 戳的,以指示所述标准化文本文档包被准备的日期或日期和时间。
全文摘要
本发明的各个实施例包括内容检索服务系统的信息汇聚和分类组件,该信息汇聚和分类组件从信息源得到信息,汇聚并标准化所得到的信息,并且分类所得到的信息,之后将经标准化和分类的信息进行储存以供内容检索服务系统的语言模型构建器组件和本体构建器组件使用。本发明另外的实施例包括本体构建器组件,该本体构建器组件针对特定日期、日期/时间、日期范围或日期/时间范围并且针对特定种类从经标准化和分类的信息来建立本体。
文档编号G06F17/21GK102119383SQ200980118218
公开日2011年7月6日 申请日期2009年3月19日 优先权日2008年3月19日
发明者D·巴杰伦, J·汤普森, N·C·斯蒂洛, V·舍梅布尔卡尔 申请人:德尔夫网络有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1