通过分析内容确定上下文并且基于该上下文提供相关内容的制作方法

文档序号:6570576阅读:243来源:国知局
专利名称:通过分析内容确定上下文并且基于该上下文提供相关内容的制作方法
技术领域
别广告或者其它相关的或有价值的内容,并且进一步,本发明还涉及一种用 于多域知识管理的语义内容路由器。
背景技术
供广告和其它内容的方法的多样性,导致在基于互联网用户搜索的或者在 线阅读的信息为用户提供有关或者相关广告和有关或者相关内容时,持续 存在根本性的困难。
0004分类法可以被用来对互联网的电子内容进行分类或归类来建 立上下文的相关性。典型地,用于对多个电子内容归类的分类法通常针对 一个单一域。但是,表示多个不同域的电子内容可能需要归类。可以开发 出一个包括针对所有域的分类规则的单一分类法。但是,对所有域有效的 分类法通常要求大量规则而基于大量规则来对内容进行分类可能会异常 緩慢。此外,用于一个域的单一分类法中的分类规则可能会与用于另一个 域的单一分类法的分类规则相冲突或者抵触。可选择地,可以开发出多个 专用域的分类法来避免分类规则的沖突。但是,使用多个分类法中的每一 个分类法来分类内容也可能会异常緩慢。

发明内容
0005上下文分析引擎对可能包括在所发布的电子内容中且根据上 下文有价值的有关和/或相关内容(以下称为"相关内容")进行识别。典 型地,该相关内容由编辑者手工进行识别,编辑者使用单独的软件系统使 用的有意义的标志对基本内容进行标识,或者手工地对嵌入在基本内容中 的相关内容进行选择。上下文分析引擎自动对电子基本内容中的关键语义 概念进行识别,然后将之与相关的高价值的数据或者其它相关内容进行匹 配。当发布者认为适当时则将此数据嵌入到内容中。例如,上下文分析引 擎可能会识别语义上相关的内容作为每点击成本(CPC)广告、千人成本 (CPM)横幅广告、企业联合内容或其它有价值的内容导航的形式。该内 容可能会包括网页、由RSS文件(RSS feed)识别的文章、用于形成搜索查 询的关键词、搜索查询的搜索结果,或者任何可以转换为纯文本的其它电 子内容。
0006词汇语义分析(LSA)可以用于识别包含在一段电子内容中 的概念。基于文档的属性,例如包含在文档中的词汇,可以将一大组文档 分离为多个集群。可以从集群中每一个文档中提取出概念,在集群中出现 最频繁的或者被认为对于所述集群重要的概念可以被识别为该集群的概 念。当从文档中提取概念时,所述文档对应的集群被识别。之前所识别的 集群概念可以被标识为所述文档的概念。
0007执行语义衡量过程的语义内容路由器可以被更有效地用于对 文档中提取的所述概念进行归类。所述语义内容路由器(或简称"路由器") 可以从多个可以合适地归类概念的可用分类法中识别出一个子集,并且随 后由概念路由到合适的分类法。语义衡量过程分析所述概念以快速确定概 念或者一组词汇可能属于的域。从此分析产生的信息可以被多个分类法中 的一个或者多个分类法使用,来有效地归类所述概念。使用一组概念训练 所述路由器,所述概念是被多个分类法中的那些应该被用来归类所述概念 的指示来标记。对多个分类法中的每一个分类法中概念的权重进行识别, 使用其识别出的权重超过阀值的分类法对概念进行分类。
0008此上下文分析引擎可以被用于在网站上实现有价值的货币化 和导航功能。这种类型的导航应用的一个例子是"赞助导航"。此过程的
工作方式如下。使用形成上下文分析引擎的各种软件模块来分析发布者的 整个网站,对所有页面上的所有概念使用一个或多个分类法来进行提取和 索引。对网站的每个页面上的概念和与所述概念相关联的相关内容(基于 分类法)做超链接处理。这些"超链接"以能够被广告商赞助的广告单元 的形式显示(例如"赞助导航")。在广告单元内点击这些超链接中的任何 一个将能够"触发"多个广告递送选择,例如关于主题的"转换广告"、"直 线"文本广告或者图形广告。转换之后,用户可以浏览所述广告或者被链 接到显示所述概念附加"内容"的网站部分。
0009使用上下文分析引擎实现货币化应用的另一个例子是"网賺" (TM ) (ClickSense (TM))应用。此应用可以分析搜索查询、URL (例如, 网页)、RSS文件、博客或者任何文本块,并且通过使用语义内容路由器 和可用的广告清单,定位与所述搜索查询、URL、 RSS文件、博客或者任 何文本块高度相关并且具有较高价值的广告,然后将这些广告发布到互联 网用户所请求的页面上。
0010根据本发明的一个总的方面, 一种向输入内容中补充相关内容 的方法,包括接收将为其识别相关内容的输入内容,提取与所述输入内容相 关的文本,在所提取的文本中识别概念。所述方法还包括识别至少一个和所 述概念相关的分类法,以及使用所述至少 一个分类法来分析所述概念从而产 生和所述至少一个分类法的一个或者多个分类相关的一组已经分类的概念。 所述方法还包括向数据库提交所述已分类的概念。所述数据库存储基于其类 别进行了索引的数据。所述方法也包括从数据库请求与所述已分类概念关联 的相关内容,响应所述请求从数据库接收所述相关内容,补充所述相关内容 到输入内容,以及使得用户可以浏览所述相关内容。
0011以上本发明的总的方面的实施例可以包括一个或者多个以下特 征。例如,所述输入内容可以包括用于获取搜索结果的搜索查询,提取和输 入内容相关的文本可以包括提取包含所述搜索查询的关4建字。可替换地或者 附加地,提取和输入内容相关的文本还可以包括获取所述搜索结果并且从所 获取的搜索结果中提取所述文本。
0012在本发明的另一个实施例中,接收输入内容可以包括接收统一
资源定位符,提取和所述输入内容相关的文本包括获取位于所述统一资源定 位符的网页以及^是取和所述网页相关的文本。可替换地或者附加地,接收输
入内容可以包括接收RSS文件,提取和所述输入内容相关的文本可以包括提 取包含在所述RSS文件中的文本。可替换地或者附加地,接收输入内容可以 包括接收博客内的入口 ,提取和输入内容相关的文本可以包括提取所述博客 内的所述入口 。
0013相关内容可以包括广告或赞助链接,所述广告和赞助链接对应 于与输入内容相关的一个或多个每点击成本、每次印象费用或者每行动成 本。识别所提取文本中的概念可以包括识别包含在所述文本中的一个名词 短语或者恰当的名词。接收相关内容还可以包括识别已分类概念的种类, 以及将数据库中显示的并且与所识别类别相关的内容标识为相关内容。
0014根据本发明的另一个总的方面, 一种基于一个用户接口来补充 文档的方法,所述用户接口包括与所述文档中出现的一个或者多个概念关联 的相关内容,所述方法包括提取存储器中存储的文档中出现的概念,并且识 别和所提取的概念关联的分类法。所述方法还包括使用所述分类法分析所提 取的概念来产生一组分类概念,并且使用所述分类法或者另 一个相关分类法 从存储于相同或者不同存储器中的多个其它文档中识别和所述已分类概念 关联的相关内容。所述方法还包括对所提取的概念和相关内容进行超链接处 理,在用户接口中显示经过超链接处理的概念和相关内容,其中所述用户接 口由内容提供商提供赞助。
0015上述总的方面的实施例可以包括一个或者多个以下特征。例如,
中的一个名词短语或恰当的名词。恰当的名词可以包括人名、机构名称、公 司名称或者产品名称。可替代地或者附加地,提取概念可以包括提取出现在 网站的网页中的概念。
0016上述总的方面的实施例还可以包括接收一个选择所显示超链接 中的一个超链接的指示,对所述接收到的指示进行响应,显示和所选择的超 链接相关联的网页,其中,所述网页包括和所提取概念相关的附加内容。赞 助的内容提供商可以和发布者为同一实体。可替代地或者附加地,赞助的内
容提供商可以为不同于发布者的实体。
0017使用所述分类法或者另 一相关分类法可以包括使用分类法在存 储在同 一或者不同存储器中的多个其它文档中识别和所述已分类概念关联 的相关内容,其中,所述相关内容和所述已分类概念属于同一类别。附加地, 使用所述分类法或者另一相关分类法也可以包括确定所述分类法是否和另 一分类法相关,如果确定所述分类法和另一分类法相关,则使用其它相关分 类法在同 一或者不同存储器中的多个其它文档中识别和所述已分类概念关 联的相关内容。所述相关内容可以属于和所述已分类概念的类别不同但相关 的一个类别。
0018所述方法还可以包括,通过参照与另一分类法互相链接的分类 法的列表,对其它相关分类法进行识别,从而对与所提取概念的分类法相关 联的其它相关分类法进行识别。所述相关内容可以与所述已分类概念属于同 一类别。可替代地或者附加地,所述相关内容可以属于和所述已分类概念的 类别不同但相关的类别。
0019根据本发明的另一个总的方面, 一种从多个用于分类输入短语 的分类法中对分类法进行识别的方法,包括提供多个分类法,该多个分类法 的每一个分类法对应于知识的一特定域,接收将由所述多个分类法的至少一 个分类法进行分类的输入短语,并且将所接收到的输入短语表征为 一个或者 多个单词。所述方法还包括从所述多个分类法中选择第一分类法;对于所 选择的第一分类法,识别出所存储的与所述一个或者多个单词中的每一个单 词相关联的权重;对于所选择的第一分类法,累计所存储的与所述一个或者 多个单词中的每一个单词相关联的权重,从而识别与所述输入短语相关联的
第一权重。所述方法还包括从所述多个分类法中选择第二分类法;对于所选 择的第二分类法,识别出所存储的与所述一个或者多个单词中的每一个单词 相关联的权重;对于所选择的第二分类法,累计所存储的与所述一个或者多 个单词中的每一个单词相关联的权重,从而识别与所述输入短语相关联的第 二权重。所述方法还包括,将与所述输入短语相关联的第一权重和第二权重 与一阈值进行比较,并且基于比较结果,将所述输入短语路由到所述第一分 类法或者第二分类法进行分类。0020上述总的方面的实施例可以包括一个或者多个以下特征。例如, 接收所述输入短语,可以包括接收包含在电子内容中的概念,所述电子内 容的补充的和相关的电子内容将被识别。表征所述输入短语,可以包括将 输入短语划分为单个的单词。
0021对于所选择的第一分类法和第二分类法,对所存储的与每个所 述的一个或者多个单词相关联的权重进行识别,可以包括通过参照包含有与 所述一个或者多个单词相关联的权重的列表来识别所存储的权重。所述列表 中可以包括对应于字典中的每个单词的行、对应多个分类法中的每一个分类 法的列和位于每个行列交叉点处的分值。每个交叉点上的分值可以显示出一 种可能性,即包括对应于每个交叉点的单词的输入短语可以通过对应于此交 叉点的列的特定分类法进行分类。对输入短语进行路由可以包括将所述输入 短语路由至所述- 一分类法和第二分类法进行分类。
0022所述技术的实现可以包括硬件、方法或者过程、或者存储于计 算机可存取介质上的计算机软件。
0023结合附图和以下说明提出一个或者多个实施例的详细说明。通 过以下说明和附图,以及权利要求书,本发明的其它特征将得到更清晰的说 明。


图1为示例性网络计算环境的框图2为用于提供与发布的电子内容相关的、根据上下文有价值的相关内
容或者广告的过程的流程图3为用于识别和电子内容相关的高价值数据的过程的流程图4为用于识别包括在相关电子文档集群中的概念的过程的流程图5为用于识别包括在电子文档中的概念的过程的流程图6为包括路由器的概念分类器的框图7为表示特定概念对应于特定概念类别的可能性的表格;
图8为用于识别 一个短语对应于一个或者多个分类法的可能性的过程的
流程图9为用于训练扭无念分类器的路由器以将概念路由至一个或多个相关分 类法进行分类的过程的流程图10为用于路由短语到一个或者多个相关分类法以进行分类的过程的 流程图11为赞助导航应用所使用的示例性过程的流程图,所述过程用于分 析与发布者的网站相关联的网页以及使用 一个或者多个分类法提取和索引 出现在其中的概念;
图12为一网页的屏幕截图,该网页已经采用超链接至发布者网站中其 它页面上的信息的概念短语进行了补充。
具体实施例
0024参见图1,网络计算环境100能够识别包含在发布的电子内容 中的高价值数据。网络计算环境包括上下文分析引擎105,所述上下文分析 引擎105识别内容提供商110提供的有关和/或相关高价值数据以将其包括 在内容发布者115发布的内容中。上下文分析引擎105包括文本提取器120、 概念提取器125、概念滤波器130、概念分类器135和相关性识别模块140。 上下文分析引擎105、内容提供商110和内容发布者115使用网络(例如, 互联网)145通信。
0025上下文分析引擎105对将被包括在由内容发布者115提供的内 容中的适当高价值数据进行识别。上下文分析引擎105对所述内容进行处理 以此识别包括在所述内容中的概念,并且识别将被包括在所述内容中的补充 内容,诸如根据上下文有价值的有关和/或相关内容或者提议。上下文分析 引擎105可以间接从外部资源请求补充内容,所述外部资源诸如使用包括在 电子内容中的概念或概念的类别的内容提供商110。
供的内容中。内容提供商IIO可以直接将内容提供给内容发布者115,或者 提供给上下文分析引擎105,上下文分析引擎105将会提供补充内容给内容 发布者110。内容提供商IIO可以对来自上下文分析引擎105的请求做出响 应来提供补充内容。例如,所述请求可以包括一个或者多个每点击成本
(CPC)、每次印象费用(CPM)或者每行动成本(CPA)条件和/或多段 内容。CPM内容可以是文本、图形横幅或者语义上相关的内容。每点击成 本条件是一个已经拍卖给企业的条件,其使得与该企业相关的补充内容显 示在与每点击成本条件相关的电子内容中。每当浏览所显示的补充内容的 最终用户确实点击所显示的补充内容时,企业将向内容提供商110或者内 容发布者115支付费用。为响应一个包含每点击成本条件的请求,内容提 供商110识别并且返回有价值的或者相关的内容给竟拍得每点击成本条件 的企业。在每次印象费用模型中,企业在其补充内容被显示给最终用户每 一千次时进行支付。在每行动成本模型中,针对补充内容被显示给最终用 户的每一次动作,企业进行支付。上下文分析引擎105的特征可以应用于 CPC、 CPM或者CPA以外的广告模型。
0027内容发布者115为可以包括补充内容的电子内容的发布者。例 如,内容发布者115可以为提供包括可以显示根据上下文有价值的有关和/ 或相关内容的空间的网页的网络服务器。内容发布者115可以出售网页上的 显示空间,使得有关和/或相关的根据上下文有价值的内容可以被包括在空 间中。内容发布者115可以对将其根据上下文有价值的有关和/或相关内容 包括在网页中的企业进行限制。内容发布者115可以接收来自内容提供商 110的有关和/或相关的根据上下文有价值的内容,并且可以是电子内容中根 据上下文有价值的。
0028在一个实施例中,上下文分析引擎105分析文本段(从内容中 提取出来的)并且将已感知为高"价值"的内容返回。所述价值可以基于多 种计价模型,包括但不限于CPC和CPM。文本提取器120从将要包括补充电 子内容的电子内容中提取文本。例如,文本提取器120可以接收一个可以获 取电子内容的URL。该URL可以从RSS文件获得。除了获取位于RSS文件中 被识别的URL上的所有文本,文本提取器120还可以^是取包括在RSS文件中 的其它文本,诸如标题或者描述位于URL上的项目的其它文本。
0029概念提取器125从由文本提取器120提取的文本中提取概念。 在一个实施例中,文本中的才既念为出现在文本中的名词短语。在此实施例中, 包含在文本中的每一个词可以使用 一部分语音进行标记,语音部分可用于识
别包含在文本中的名词短语。可替代地或者附加地,包含在文本中的适当名 词可以被识别为概念。由适当名词构成的列表可被用于从文本中识别出适当 的的名词。适当的名词可以包括人名(例如,名人、政治家、运动员和作家)、 地名(例如,城市、州、国家和地区)、企业名称、<^司名称和产品名称。 用户能够修改适当名词列表从而使其仅包括那些用户所感兴趣的企业对应
的适当名词。在另一个实施例中,语汇语义分析(LSA)可被用于对包含在 提取文本中的概念进行识别。随后将参照图4和图5对LSA进行更为详细的 描述。
0030概念提取器125也可以加权从文本提取的概念,例如,使用 TF. IDF加权算法或者另 一合适的加权算法。概念的权重可以基于文本中概念 出现的频率。具有低权重或者在文本中不像其它概念那样频繁出现的概念可 以被认为与上下文非相关而被排除。
0031概念滤波器130过滤由概念提取器125识别的概念。在一个实 施例中,扭无念滤波器130可以移除不会进一步处理的和克念,使得涉及不能采 用的或者不期望的主题的概念从这组提取的概念中被移除。例如,概念滤波 器130可以过滤涉及成人内容、赌博或者已注册商标的内容的概念。概念滤 波器130也可以特别强调感兴趣的或者重要的其它概念。
0032积克念分类器135对所提取的还没有被概念滤波器130过滤掉的 概念进行分类。概念分类器135可以将每一个提取出的概念传送到一个或者 多个分类法进行分类。将参照附图6-10对概念分类器135做详细描述。
0033相关性识别模块140可以识别一个或多个根据上下文有价值的 有关和/或相关内容,以便根据概念提取器125和概念分类器135识别的概 念和分类将其包括在内容发布者110的电子内容中。在一个实施例中,通过 向内容提供商110提供与所识别的类别相关的每点击成本条件,相关性识别 模块140从内容提供商110请求根据上下文有价值的有关和/或相关内容。 由相关性识别模块140识别的每点击成本条件可能是能够使得上下文分析引 擎105、内容提供商110或者内容发布者115获得最大收益的每点击成本条 件。
0034参见图2,过程200用于识别一个或多个根据上下文有价值的 有关和/或相关内容,以将其包括在将要显示给最终用户的 一段发布的电子
内容中。过程200可以由上下文分析引擎执行,例如图1中的上下文分析引 擎105。当发布内容时执行过程200 —次,从而使得根据上下文有价值的有 关和/或相关内容能够在发布内容显示之前被包括在发布内容中。可选择地 或附加地,过程200可以在每次将发布的电子内容显示给最终用户时执行一 次,从而使得显示时根据上下文有价值的有关和/或相关内容能够被包括在内 容中。
0035上下文分析引擎105接收内容发布者,如图1中的内容发布者 115,所发布的内容标识(步骤205 )。发布内容的标识可以从内容发布者或 者显示发布内容的计算机系统上接收。该标识可以包括能够获得所述内容的 URL的标识。在 一 个实施例中,电子内容可以为从搜索查询获得的搜索结果, 电子内容的标识可以是构成搜索查询的关键词。可替代地或附加地,电子内
容的标识可以是电子内容自身。该标识还可以包括一个或多个描述可能包括 在内容中的有价值内容的参数,例如可能会包括在内容中的内容大小或内容 类型(例如,纯文本,图形,flash, ^L频)。
0036上下文分析引擎105对将要包括在内容中的4艮据上下文有价值 的有关和/或相关内容进行识别(步骤210)。在一个实施例中,上下文分析 引擎105识别对应于与内容有关和/或相关的一个或多个每点击成本条件的 广告或赞助链接。所述上下文分析引擎识别根据上下文有价值的有关和/或 相关内容的方式将参照图3进一步进行描述。
0037上下文分析引擎105从内容提供商,例如图1中的内容提供商 110,请求所识别出的根据上下文有价值的有关和/或相关内容(步骤215)。 例如,上下文分析引擎105可以将CPC条件提供给内容提供商110,该内容 提供商可以提供与购买CPC条件的企业有关的根据上下文有价值的有关和/ 或相关内容。上下文分析引擎105从内容提供商IIO接收所请求的根据上下 文有价值的有关和/或相关内容,并且将所请求的根据上下文有价值的有关 和/或相关内容提供给发出内容标识的系统(步骤220 )。例如,如果内容标 识是从内容发布者115接收的,则上下文分析引擎105可以将根据上下文有 价值的有关和/或相关内容提供给内容发布者115。可替换地或附加地,内容
提供商110可以将根据上下文有价值的有关和/或相关内容直接提供给发出 内容标识的系统。
0038参照图3,过程300用于识别将要包括在发布的电子内容中的 根据上下文有价值的有关和/或相关内容或其它补充内容。过程300可以由 上下文分析引擎执行,例如图1中的上下文分析引擎105。过程300可以表 示图2中的步骤210的一个实施例。过程300可以在发布内容的同时执行一 次,从而使得根据上下文有价值的有关和/或相关内容可以在发布的内容被 显示之前被包括在发布内容中。可替换地或附加地,过程300可以在每次显 示发布的电子内容时执行从而使得显示时根据上下文有价值的有关和/或 相关内容被包括在内容中。
0039上下文分析引擎105接收到将要进行处理的内容标识(步骤 305 )。例如,上下文分析引擎105可以接收一个URL,该URL标识了可能包 括一个或多个根据上下文有价值的有关和/或相关内容的电子内容。该URL 可以被包括在一个RSS文件中。可替换地或附加地,内容标识可以是为获得 搜索结果所使用的搜索查询的标识(例如,实际使用的关键词)。可替换地 或附加地,内容标识可以是用户生成网站中的一个入口标识,例如博客。上 下文分析引擎105从电子内容提取文本(步骤310)。例如,上下文分析引擎 105可以使用文本提取器,例如图1中的文本提取器120,来提取文本。提 取文本的步骤可以包括获得URL处的文本以及其它描述所获取文本的其它文 本,例如包括在RSS文件中的其它文本。如果内容标识是搜索查询,则文本 提取器可以从所述搜索查询产生的搜索结果中提取文本,或者简单地,可以 将形成搜索查询的关键词标识为所提取文本。如果内容标识是用户生成网站 中的一个入口标识(例如博客),则文本提取器可以提取博客中的该入口。
0040上下文分析引擎105对包括在所提取文本中的积无念进行识另'J(步 骤315)。更具体地,上下文分析引擎可以使用概念提取器,例如图1中的概 念提取器125,来提取文本。概念提取器125可以将包括在所提取文本中的 名词短语和适当名词标识为所提取文本的概念,如前所述。可替换地或附加 地,概念提取器可以使用LSA来识别概念,以下将参照图4和图5对此进行 更加详细地描述。如果所提取文本是一个或多个构成;l叟索查询的关键词,则
的多个概念)。
0041上下文分析引擎105对识别出的概念进行过滤(步骤320 )。更 具体地,上下文分析引擎可以使用概念过滤器,如图1中的概念滤波器130, 来过滤概念。概念滤波器130可以滤除涉及不能采用的或者不期望的主题的 概念,例如,由所述根据上下文有价值的有关和/或相关内容将要插入的电 子内容的发布者定义的概念。概念滤波器130还可以特别强调对于内容特别 有关和/或相关或非常重要的一些概念。
0042上下文分析引擎105对过滤后的概念的类别进行识别(步骤 325 )。例如,上下文分析引擎可以使用概念分类器,例如图l中的概念分类 器135,来对概念进行分类。概念分类器135包括用于将每个概念路由到一 个或多个知识域的语义内容路由器,所述一个或多个知识域由包括在概念分 类器中用于分类的分类法或其它表示方式表示。概念分类器的路由器中的语 义内容路由功能可以在多个知识域中识别出用于分类所述概念的知识域。语 义内容路由器还可以简单地确定在分类过程中应当使用的分类法的顺序。语 义内容路由器还可以用于快速猜测一具体文本属于哪个域。
0043上下文分析引擎105对与所识别类别有关的高价值或高相关性 的数据进行识别(步骤330 )。更具体地,上下文分析引擎105可以使用相关 性识别模块,例如图1中的相关性识别模块140,来对高价值或高相关性数 据进行识别。高价值数据可以包括用来请求对应的根据上下文有价值的有关 和/或有相关内容或赞助链接的一个或多个CPC条件,所述请求可以来自例 如图1的内容提供商110。可替换地或附加地,高价值数据可以包括根据上 下文有价值的有关和/或相关内容或赞助链接自身。
0044例如,搜索引擎用户可以输入一系列形成互联网搜索查询基础 的关键词,并且通过单击"Enter"键将搜索查询发送给搜索引擎。搜索引 擎根据关键词完成搜索,并以URL列表或互联网页链接列表的形式返回可能 与关键词有关和/或相关的搜索结果网页。搜索引擎还可以将关键词转发给 上下文分析引擎105,上下文分析引擎105对关键词进行分析并将其识别为 一个或多个概念。上下文分析引擎105随后通过在此描述的一个或多个分类
法对概念进行处理,并返回或生成与所述一个或多个分类法相关联的 一组分
类概念。然后由上下文分析引擎105将分类后的概念提交给数据库。数据库 可以位于上下文分析引擎105内或者远离上下文分析引擎105,例如,位于 内容提供商110内。在任何一种情况下,数据库存储基于其类别进行了索引 的数据。
0045上下文分析引擎105从数据库请求与所分类积无念相关联的相关 内容,并且响应于所述请求,上下文分析引擎105从数据库接收相关内容。 具体地,响应于所述请求,搜索模块可以对已分类概念的类别进行识别,并 且可以将数据库内与所识别类别相关联的内容识别为相关内容。在一个例子 中,所述相关内容包括具有高相关性和/或高价值的数据。
0046相关内容可以在搜索结果网页的指定区域显示。具体地,相关 内容可以在网页上显示并且可以表示为链接,该链接可链接到一个将要列出 一系列与概念短语有关和/或相关的赞助URL或根据上下文有价值的有关和 /或相关内容的新的网页。广告商可以支付款项以便拥有他们特定的赞助链接 或者其它与所显示的概念短语相关联的适当的广告。
0047在一个实施例中,上下文分析引擎105可以识别出多个相关内 容。每个相关内容可具有与其相关联的价值。相关内容的价值可以位于数据 库或另一个远程存储单元中,并且该价值可以基于内容提供商(例如,广告 商)为每个相关内容支付的价格。可替换地或附加地,相关内容的价值可以 基于每个相关内容可能产生或在过去已经产生的收益。上下文分析引擎105 使用该信息来从多个相关内容中进行选择或者对多个相关内容进行排序。在 一个具体例子中,上下文分析引擎105仅显示具有最高价值的相关内容。在 另一个例子中,上下文分析引擎105仅显示具有最高价值的两个相关内容块。 在又一个例子中,上下文分析引擎105显示所有的多个相关内容,并且根据 它们的价值对它们进行排序,从而将具有最高价值的相关内容排在第 一位而 将最有最4氐fK直的相关内容排在最后。
0048参照图4,过程400用于识别通常映射于相关文档集中的概念 集。概念集是通过LSA分析大量的电子文档来进行识别的,LSA是一种最小 二乘算法,该算法通过降低训练集的维度来分析概念是如何相关的。该维度
的降低聚类了在高维度空间中相靠近的具有相近语义的文档。当对与该文档 集中的文档相关的 一个文档中所包括的概念进行识别时,可以使用识别出的
一个相关文档集的概念。当要对文档的概念进行识别时,过程400可以由概 念提取器执行,例如图1中的概念提取器125。
0049概念提取器125通过所有文档的文档矩阵创建一个词典(步骤 405 )。可以根据带有标记的新闻稿的一个大的集合,例如路透社21578文本 分类测试集,生成该矩阵。当对应于元素行的单词包括在对应于元素列的文 档中时,该矩阵包括一个非零元素。在一个实施例中,非零元素可以表示相 应单词出现在对应文档中的频率。
0050概念提取器125使用奇异值分解(SVD)生成LSA矩阵(步骤 410)。 SVD在原有矩阵上进行。SVD是可选择的,就识别有关和/或相关程度 更高的概念而言,其提高了识别性能。SVD将通过文档矩阵创建的词典表示 的空间的维度减少到大约150。概念提取器将通过文档矩阵创建的原词典与 LSA矩阵相乘(步骤415 ),并且将文档聚类在结果矩阵中(步骤420 )。在一 个实施例中,可以使用例如K-均值算法的标准聚类算法来聚类文档。
0051概念^是取器125选择一个结果聚类(步骤425 ),并且从该结果 聚类中的每个文档中提取出概念(步骤430 )。在一个实施例中,从文档中提 取出概念可以包括从文档提取名词短语和适当的名词,如前所述。可以对从 文档提取出的概念进行过滤从而产生一个简化的提取概念集,如前所述。概 念提取器根据所提取出的概念对于聚类的重要性以及其在聚类中出现的频 率,对所提取出的积克念进行加权,例如,使用TF. IDF加权算法(步骤435 )。 概念提取器将一个或多个具有最高权重的概念作为聚类的代表加以緩存(步 骤440 )。
0052概念提取器125对是否要对更多的文档聚类提取概念进行判断 (步骤445 )。如果是,则概念提取器选择一个不同的聚类(步骤425 )并且 提取(步骤430 )、加权(步骤435 )以及緩存包括在不同聚类中的文档的概 念(步骤440 )。在对每个聚类依次提取概念和緩存之后,过程400完成(步 骤450 )。
0053参照图5,过程500用于对包括在电子文档中的概念进行识别。
所识别概念是包括在与电子文档相关的文档中的概念。更具体地,LSA用于 识别与电子文档最接近的文档聚类。所识别的聚类可能具有可用于更好描述 文档的相关联的概念缓存。过程500由概念提取器执行,例如图1中的概念 提取器125。过程500的执行需要事先执行图4的过程400。
0054概念提取器125为要被提取概念的文档计算出稀疏向量(步骤 505 )。稀疏向量中的每个元素对应于可能出现在文档中的词典中的一个单 词。当文档包括对应于所述元素的单词时,稀疏向量中的一元素为非零。
0055概念提取器125将稀疏向量与LSA矩阵相乘,该LSA矩阵为例 如在之前执行图4的过程400期间生成的LSA矩阵(步骤515 )。结果向量代 表位于由LSA矩阵代表的高维度空间中的一个位置。概念提取器识别出最接 近于结果向量的聚类(步骤515 ),并且对为所识别聚类緩存的;f既念进行识别 (步骤520 )。概念提取器针对所识别概念扫描文档(步骤525 )并且判断文 档是否包括所识别概念(步骤530 )。如果是,则概念提取器将包括在文档中 的緩存概念识别为文档的概念(步骤535 )。否则,概念提取器从文档提取概 念,例如,通过从文档识别出名词短语和适当的名词来提取概念(步骤540 )。 概念提取器还根据所提取概念对聚类的重要性对其进行加权(步骤545 )。在 一些实施例中,所识别概念可以作为聚类的代表被緩存。在其它的实施例中, 可以执行上述两个过程,即识别緩存概念和提取新概念。
0056在过程500的一些实施例中,可以进一步分析文档来识别哪些 概念使得文档与包括在所识别聚类中的其它文档产生了最大不同。例如,来 自没有包括在所识别聚类的文档中的文档的概念,可以使得该文档与所识别 聚类中的文档产生最大不同。这样的概念可以被识别为与该文档高度相关的 概念。
0057参照图6,概念分类器600用于从多个分类法605a-605n中识 别出哪个分类法可以用于对短语进行分类。例如,概念分类器600可用于从 分类法605a-605n中识别出哪个分类法可以用于分类包含在其附加相关电子 内容正在被识别的电子内容中的一个概念。所识别的分类法可以是对应于与 将要进行分类的短语相关的域的分类法。扭无念分类器600包括一个语义内容 路由器610,该路由器用于识别出要分类的短语将被路由至分类法605a-605n
中的哪一个分类法。概念分类器600可以为图1中的概念分类器135的一个 实施例。
0058分类法610a-610n中的每一个都用于对^是供至分类法的短语进 行分类。分类法610a-610n中的每一个都可以对应于一个具体的域,并且分 类法可以对输入短语进行分类,将其作为与具体域相关的分类的代表。例如, 分类法610a可以对应于一个计算机域,在这种情况下分类法610a可以识别 出输入短语是否标识了某种计算机类型、某种计算机部件类型或者某种计算 机软件类型。然而,分类法610a可能不能够识别出输入短语是否标识了一 家酒店,因为酒店与计算机域没有关联。但是,另一个分类法,例如分类法 610b可能与旅游领域相关,从而使得分类法610b可以确定输入短语是否标 识了一家酒店。
0059分类法610a-610n中的每一个都包括与相应域相关的分类层次。 每个分类与 一个或多个钩子规则有关。每个钩子规则对代表相应分类的典型 短语中包含的一个或多个单词进行识别。当输入短语或其一部分与一个钩子 规则相匹配时,该输入短语便被识别为所匹配钩子规则对应的分类代表。当 钩子规则的所有单词均包含在输入短语中时,无论单词出现在输入短语中的 顺序如何,该短语可能与该钩子规则相匹配。例如, 一个对应于个人金融的 分类法可能会包括用于信托基金的分类。信托基金分类可以包括用于可以购 买的每个信托基金的钩子规则。如果输入短语包含一个信托基金的名称,则 输入短语可能被识别为对应于该信托基金分类的短语,这是因为该输入短语 与信托基金分类的一个钩子规则(例如,识别信托基金名称的钩子规则)相 匹配。
0060分类法中分类的分层结构是专用于域的知识表示,也是一个学 习数据集。另外,其用于对相关性判定中有帮助的分类进行加权。更特别地, 层次结构可以提供更多用于加权分类的信息。例如,如果具有相同亲代分类 的几个分类锁定了一个文件,则该亲代分类也应当作为更一般的分类被返 回。
0061在一些实施例中, 一个分类可以包括否定钩子规则。 一个否定 钩子规则对没有包含在代表相应分类的典型短语中的一个或多个单词进行识别。当输入短语与一个分类的否定钩子规则相匹配时,输入短语不被分类 为属于该相应的分类。这样,否定钩子规则也称为排除规则,用于在某些情
况下代替钩子失见则。例如,对"Barry Bonds"的排除可能会位于"证券和 债券"分类中,从而防止棒球运动员被锁定向金融相关的分类。
0062在一些实施例中,可以在匹配钩子规则之前对输入短语进行处 理。例如,可以纠正输入短语中存在拼写错误的单词。输入短语的单词可以 用其基本形式或词干形式代替。例如,名词可以变为其单数形式,动词可以 变为其不定式形式。另外,可以根据一个或多个替换规则来替换输入短语的 单词。 一种替换规则可以识别出一个第一单词和一个第二单词,当第一单词 出现在输入短语中时对该第一单词进行替换。所述的第一单词和第二单词可 以是同义单词,或者是可以相互替换的。根据替换规则替换输入短语中的单 词减少了分类法610a-610n需要的钩子规则的数量。在一个实施例中,在修 改输入短语之前可能会需要用户确认。
0063语义内容路由器610根据图10所示的过程识别出分类法 610a-610n中哪个分类法适合对输入短语进行分类。在一个实施例中,语义 内容路由器610是一种简单的线性结合子,其使用图9所示的Widrow-Hoff 误差修正算法来学习决定哪个分类法最可能对输入短语进行适当的处理。语 义内容路由器610根据图8所示的过程针对分类法610a-61 On中的每个分类 法给输入短语赋值。如果根据一个具体的分类法,输入短语的分值超过一个 阀值,则该具体的分类法被识别为适合用于该输入短语。语义内容路由器610 根据分值表给输入短语赋值,所述分值表表明了输入短语的每个单词代表分 类法610a-610n中的每个分类法所对应的域的可能性。
0064参照图7,表700被概念分类器的语义内容路由器,例如图6 的语义内容路由器610,用来给输入短语赋值,从而使得该输入短语能够被 路由至适当的分类法进行分类。表700包括用于列出路由器词典中每个单词 的行,其中包含了可能出现在输入短语中的单词。例如,表700包括行 705a-705d,分别用于单词"fund"、 "laptop"、 "asthma"和"text"。另夕卜, 所述表包括用于列出输入短语为进行分类可能会路由至的每个分类法的列。 例如,所述表包括列710a-710d,分别用于对应于计算4几、个人金融、健康
和旅游领域的分类法。
0065在具体的行和列的交点处的分值表示,包含对应于一具体行的 单词的输入短语可能通过一相应于一具体列的分类法被分类的可能性。换句
高分值可能表示高的可能性,低分值可能表示低的可能性。例如,单词"fund" 具有对应于个人金融领域的高可能性,以及对应于计算才几、健康或旅游领域 的相对低的可能性,如行705a所示。
0066参照图8,语义加权过程800用于针对多个分类法中的每个分 类法,识别出输入短语作为可能被该分类法分类的短语域的代表的可能性的 分值。针对输入短语中的每个单词以及多个分类法中的每个分类法,通过一
性的分值。例如,过程800可以使用图7的表700来执行。例如,当要对短 语的分值进行识别时,当对短语应当被路由至的一个或多个分类法进行识别 时,或者当对路由器进行训练从而正确地识别一个或多个分类法时,过程800 可以由概念分类器的路由器来执行,例如图6的语义内容路由器610。
0067路由器首先接收到一个短语(步骤805 )。短语可能是一个将要 被分类的短语或者正在用来训练路由器的短语。例如,短语可能是电子内容 的概念。路由器将接受到的短语表征为单词(步骤810)。在一个实施例中, 路由器可以简单地将接收到的短语表征为单个单词。在另一个实施例中,路 由器可以对所接收到的短语进行处理从而识别出是否有任何组成单词构成 一个不可分吝j的4豆i吾。侈寸^口, ^口果專t人^豆i吾为"buy personal computer", 则路由器可以表明输入短语具有三个组成部分(例如,"buy"、 "personal" 和"computer")或两个纟且成4卩分(侈'B口, "buy"和"personal computer").
0068路由器同时针对每个分类法给输入短语计算单个权重。单个权
重的计算基于输入短语中每个单词的权重的加权之和。对于每个分类法(步 骤815)和短语中的单词(步骤820 ),路由器确定所选择的单词是否包括在 路由器的一个词典中(步骤825 )。换句话说,路由器确定表中的一个行是否 对应于所选择的单词。如果不是,则路由器丟弃所选择的单词(步骤830 ), 因为对于所选择的分类法,所选择的单词不能对所接收到的短语的分值有所
贡献。如果所选择的单词包括在表中,则路由器针对所选择的分类法识别出
所选择单词的存储分值(步骤835)。例如,路由器可以在表中根据所选择的 单词对应的行和所选择的分类法对应的列识别出一个元素。对于所选择的分 类法,路由器将识别出的权权重添加到短语的权重中(步骤840 )。
0069路由器判断输入短语是否包括更多的单词(步骤845 )。如果是, 则路由器从短语中选择一个不同的单词(步骤820 )并且判断该不同的单词 是否在路由器的词典中(步骤825 )。如果不是,则丟弃该单词(步骤830 )。 如果是,则识别出该不同单词的存储权重(步骤835 )并且将该存储权重添 加到针对所选择分类法的短语权重中(步骤840 )。通过这种方式,针对所选 择分类法的短语的总权重被识别。在针对每个分类法识别出短语的分值之 后,将该分值与所定义的阀值进行比较。然后文档被发送给所有加权分值超 过阀值的分类法。如果没有一个分类法的分值超过阀值,则将该文档发送给 具有最高加权分值的分类法。这个步骤之后过程800结束(步骤855 )。
0070举例而言,过程800使用图7的表700来识别出短语"laptop text"的权重。这个短语包括两个单词("laptop"和"text")。对于计算 机分类法,单词"laptop"具有权重O. 68,单词"text"具有权重-0. 03, 从而整个短语的权重为0.65。对于个人金融分类法,单词"laptop"具有权 重-O. 30,单词"text"具有权重-0. 17,从而整个短语的权重为-O. 47。对 于健康分类法,单词"laptop"具有权重-O. 32,单词"text"具有权重-0. 19, 从而整个短语的权重为-0. 51。对于旅游分类法,单词"laptop"具有权重 -0.07,单词"text"具有权重O. 39,从而整个短语的权重为0. 32。因此, 短语"laptop text"对于计算机分类法具有最高权重,而对于其它分类法 具有相对低的权重。
0071在过程800的一些实施例中,当针对每个分类法对输入短语的 分值进行识别时,语义内容路由器可能不仅要考虑独立出现在输入短语中的 单词,而且要考虑这些单词如何分布在输入短语中。为此,语义内容路由器 可能在其中神经网络中包括一个非线性的附加层。例如,在对输入短语的单 词分别进行分析之后,可以使用S形函数。
0072参照图9,过程900用于训练与概念分类器相关联的路由器,
例如图6的语义内容路由器610,从而使得路由器可以正确地识别可以对输 入短语进行分类的一个或多个分类法。在这个短语学习过程中,路由器被提 供了 一系列作为对应于分类法的短语代表的经标记的短语。对于每个短语, 路由器对对应于每个分类法的域的可能性的分值进行识别。然后路由器修改 所述分值以使得这些分值更清楚地表明电子短语与分类法的一个具体域的 相关性。当路由器610和概念分类法125被初始配置后,可以执行过程900。 可替换地或附加地,可以周期性重现的方式执行过程900,从而对路由器610 进行更新。路由器的短语学习通过提供专用于域的附加单词的过程来增强。
0073针对每个可能的分类法,路由器610将路由器的词典中的每个 单词的权重初始化为零(步骤905 )。例如,路由器可以生成一个表,例如图 7中的表700,其中所有的分值均为零。如果之前已经执行了过程900,则路 由器可以不将权重初始化为零。
0074路由器识别出一个将要用来训练路由器的短语集(步骤910)。 例如,该短语集可以由正在训练路由器的用户提供。短语集可以列在文件中 或者从可以由路由器存取的数据库获取。短语集可以从电子内容段识别,所 述电子内容段对于与路由器相应的域是典型的。路由器选择一个短语(步骤 915),并且将短语的稀疏向量与当前的权重矩阵相乘(步骤920 )。路由器可 以使用图8的过程800针对每个分类法识别出所选择短语的权重。
0075路由器针对每个分类法识别出所选择短语的目标权重(步骤 925 )。目标权重可以识别应当与所选择短语相对应的一个分类法。所选择短 语的目标权重可以由所选择短语自身提供。例如,从中选择出短语的文件或 数据库可以包括所选择短语的目标权重的标识。在一个实施例中,短语集中 的所有短语的目标权重可以是相同的。
0076路由器调整当前的权重矩阵,从而使得它能够生成更接近于期 望结果的结果(步骤930 )。换句话说,根据所存储权重是否正确地表明了所 选择短语应当被路由至的由目标权重所表明的分类法,路由器可以从每个存 储的权重上增加或减去一个预定的数值。例如,针对目标权重所指示的分类 法,路由器可以向包括在所选择短语中的一个或多个单词的所存储的权重上 增加一个预定的数值。另外,路由器可以针对其它每个分类法从所选择短语
的一个或多个单词的所存储的权重上减去一个预定的勒:值。路由器可以调整 所存储的权重,从而使得所识别的权重更加接近目标权重。
0077路由器判断路由器是否将通过所述短语集中的更多的短语进行 训练(步骤935 )。如果是,则路由器选择一个不同的短语(步骤915),将 短语的稀疏向量与当前的权重矩阵相乘(步骤920 ),针对每个分类法识别出 不同短语的目标权重(步骤925 ),并且调整当前的权重矩阵使得它生成一个 更加接近于期望结果的结果(步骤930 )。通过这种方式,路由器通过短语集 中的每个短语进行训练,直至路由器已经通过短语集中的所有短语进行了训 练,这种情况下过程900结束(步骤940 )。
0078在每次重复步骤915-940的过程中,表的一个或多个元素得到 调整,从而使得表的至少一个元素具有非零值。在对足够大量的充分代表了 对应于分类法的不同域的短语进行训练之后,表中的权重将能够正确地标识 出包括对应单词的电子内容的各个域。
0079参照图10,过程1000用于将短语路由至适当的分类法以便进 行分类。适当的分类法被识别为对应于可能代表短语的域的分类法。过程 1000由概念分类器的路由器执行,例如图6的语义内容路由器610。
0080路由器接收到将要进行分类的短语(步骤1005 )。短语可以在 路由器正在被训练时被接收,或者当与包括短语的电子内容相关的高价值数 据正在被识别时被接收,例如当语义加权过程800输出时(例如,从步骤 855 )。路由器针对多个可用分类法中的每个分类法对短语的权重进行识别 (步骤1010 )。针对分类法的短语的权重可以使用图8的过程800进行识别。
0081路由器将针对分类法的短语的权重与一个阀值进行比较(步骤 1015)。阀值可以由用户进行配置。在将权重与阀值进行比较之前,可以将 权重标准化。例如,最高的权重可以被设为1. 0,而其它权重则进行相应的 依比例调整。
0082然后3各由器可以将针对分类法的短语权重返回到一个外部应用 (步骤1020 )。外部应用可以使用所返回的权重来识别出哪个分类法应当被 用于分类短语,或者用于与分类短语无关的其它目的。在一些实施例中,权 重可以被直接返回到外部应用,而不用先进行标准化或与阀值进行比较。
0083在另一个实施例中,路由器去除没有超出阀值的短语权重(步 骤1030 )。因此,对应于被去除的权重的分类法将不被用于分类短语。路由 器可以对剩余的权重进行排序,例如,使得最大的权重位于最前面(步骤 1035 )。然后路由器将对应于剩余权重的分类法标识符列表返回到外部应用 (步骤1040 )。作为结果,外部应用并未被提供权重的标识,而是被提供了 应当用于分类短语的分类法的标识。外部应用可以将短语发送到被标识的分 类法进行分类。在权重被排序的实施例中,第一个被标识的分类法可以表示 短语具有最高分值的分类法,该分类法可能是具有正确分类所述短语的最大 可能性的分类法。
0084上下文分析引擎105可用于在网站上实现有伯、值的货币化和导 航应用。在一个例子中,货币化的应用可以包括一个网賺TM应用。在一个例 子中,网賺TM应用在网页上显示广告,这些广告与网页的内容或者用于获得 网页的搜索查询的内容具有很高的相关性。举例来说,网賺""应用对搜索查 询、URL(例如,网页)、RSS文件、博客或任何文本块进行分析,并且使用 语义内容路由器和可用的广告目录,网賺1"应用定位与搜索查询、URL、 RSS 文件、博客或文本块有关和/或相关的内容(例如,广告),并且将这些内容 (例如,广告)^C到互^:网用户所请求的网页上。
0085货币化和导航应用的另一个可以使用上下文分析引擎105实现
的例子是赞助导航应用。赞助导航应用使用上下文分析引擎105来分析或搜 索与发布者网站相关联的文档(例如,网页),并且使用一个或多个分类法
来提取和分类出现在其中的概念。为此,赞助导力元应用识别出与所提取出的 概念相关联的分类法,并且使用该分类法来分析所提取的概念以及生成一个 分类后的概念集。然后该分类后的概念集被用于与所述分类法或另一个相关
别所提取概念的相关内容时,赞助导航应用对所提取的概念和相关内容(使 用分类法被识别)进行超链接处理,并且在网页中以广告单元的形式显示所 述超链接。该广告单元可以由广告商进行赞助,因此其名称为"赞助导航"。
"内容"的网页。上面描述的过程将在下面参照图ll进行更加详细的描述,
并且稍后会以图12中所示的例子中进行说明。
0086图11描述了一个赞助导航应用使用的示例性的过程1100,该 过程能够分析与发布者的网站相关联的网页以及使用一个或多个分类法对 出现在其中的概念进行提取和分类。使用上下文分析引擎105中的各个软件 模块,过程1100首先在网页中提取与发布者网站相关联的概念(步骤1110 )。 在一个例子中,提取概念包括提取与网页相关联的文本并且提取出现在文本 中的名词短语。可替换地或附加地,提取概念可以包括提取与网页相关联的 文本并且提取出现在文本中的适当名词。适当名词的列表可用于从文本中识 别出适当的名词。适当名词可以包括人名(例如,名人、政治家、运动员和 作家)、地名(例如,城市、州、国家和地区)、企业名称、公司名称以及产 品名称。用户可以修改适当名词列表来仅包括那些与用户感兴趣的企业相关 的适当名词。在另一个实施例中,LSA可用于识别包括在所提取文本中的概 念。这个实施例已经在前面参照图4和图5进行了详细的描述,在此不再进 一步描述。
0087在从网页提取概念之后,赞助导4元应用识别出至少一个分类法 来对提取出的概念进行分析并且生成一组分类后的概念集(步骤1120)。分 类法可以对应于与所提取出的概念相关的域。在一个实施例中,赞助导航应 用可以使用例如过程800、 900和1000之类的过程来对与所提取出的概念相 关的分类法进行识别,这些过程已经参照图8-10进行了详细地描述,所以 在此不再进一步进行描述。
0088赞助导航应用使用分类法来生成一组分类后的概念集。在一个 例子中,经分类的概念可以包括与一个或多个类别或信道特别地相关联的提 取概念,所述类别或信道为例如体育、信托基金和/或计算机类别。生成一 组分类后的概念集之后,赞助导航应用使用分类法来识别与所提取出的概念 相关联的出现在发布者网站上的其它网页中的其它相关内容和/或有关数据 (步骤1130)。可替换地或附加地,赞助导航应用使用分类法来识别出现在 其它网站的网页中的相关内容和/或有关数据。
0089为了识别相关内容,在一个实施例中,赞助导航应用引用一个 数据库。该数据库可以位于上下文分析引擎105中或可以远离上下文分析引
擎105,例如,位于内容提供商110中。在任何一种情况下,该数据库存储 有基于类别进行索?I的数据。该数据可以包括出现在发布者网站或其它网站 的网页中并与所提取出的概念相关联的相关内容。该相关内容使用分类法进 行分类。
0090赞助导航应用访问所述数据库并对与所分类概念具有相同类别 的相关内容进行识别。可替换地或附加地,赞助导航应用可以对类别类似或 相关于与所分类概念相关联的类别的内容进行识别。在一个例子中,赞助导 航应用可以参照一个将一个或多个类别与一个或多个其它类别相联系(例 如,将健康类别与体育类别相联系)的表,用于判断属于其它类别的其它内 容是否应当被识别为所分类内容的相关内容。如果是,则赞助导航应用在数 据库中识别出该内容并且在网页上显示该内容。用 一个特定的例子进行说 明,当所分类概念属于健康类别时,赞助导航应用访问数据库来识别属于健 康类别的相关内容。可替换地或附加地,赞助导航应用可以参照上述表,从 而认识到健康类别是与体育类别(或其它不同于健康类别的类别)相关联的。 在这种情况下,赞助导航应用在数据库中识别出属于体育类别的相关内容。
0091在另一个实施例中,不访问事先存储有与发布者网站或其它网 站的网页相关联的相关内容的数据库,取而代之的是,赞助导航应用可以使 用分类法来直接搜索发布者网站或其它网站的网页,以识别出与所分类内容 具有相同或近似类别的内容。在任一种情况下,赞助导航应用对所提取的概 念和相关内容进行超链接处理,并且在发布者网站的网页中以广告单元的形 式显示这个信息(步骤1140)。所述广告单元可以由广告商赞助(例如,"赞 助导航")。在一个稍有不同的情况下,赞助导航应用可以在与发布者有合同 关系的其它内容提供商的网页中显示广告单元。
0092在该广告单元中选择(例如,"点击")任何超链接将会"触发" 多个广告递送选择,例如有关主题的"转换广告"、"直线"文本广告或图形 广告。转换之后,用户可以浏览到广告或者被链接到所述概念的附加"内容" 净皮显示的网站的相应部分。
0093图12所示为补充有由HypraveTM提供赞助的广告单元的网页屏 幕截图1200。该广告单元包括超链接至出现在发布者网站的其它网页上的相
关内容的概念短语。具体地,发布者的网站被分析,并且使用精确确定的分
类法对概念进行^是:取和分类。例如,如图所示,使用过程iioo识别出现在 网页1200上的例如"高血压性心脏病,,之类的概念以及例如出现在同一网 页或发布者网站的其它网页上的诸如"缺血性心脏病"之类的其它相关内容,
将他们做超链接处理并在得到赞助的广告单元1210中显示。同样地,网页 1200的浏览者可以容易地浏览与"高血压性心脏病,,相关联的出现在发布者
网站的其它网页中的其它相关内容。
0094其它实施例也落入本发明权利要求书的范围中。例如,虽然前
有出现在其中的概念,但是赞助导航应用也可以容易地对出现在其它数据库 中的其它文档进行相同的操作。
权利要求
1、一种用相关内容补充输入内容的方法,所述方法包括:接收将要为其识别相关内容的输入内容;提取与所述输入内容相关联的文本;在所述所提取的文本中识别出概念;识别至少一个与所述概念相关联的分类法;使用所述至少一个分类法来分析所述概念,从而生成一组与所述至少一个分类法的一个或多个类别相关联的经过分类的概念集;将所述经过分类的概念递交给一数据库,其中,所述数据库存储有基于其类别进行索引的数据;请求所述数据库找出与所述经过分类的概念相关联的所述相关内容;从所述数据库接收在响应于所述请求后找出的所述相关内容;将所述相关内容补充给所述输入内容;以及使用户能够浏览所述相关内容。
2、 根据权利要求1所述的方法,其中,所述输入内容包括用于获得 搜索结果的搜索查询。
3、 根据权利要求2所述的方法,其中,提取与所述输入内容相关联 的文本的步骤包括提取构成所述搜索查询的关键词。
4、 根据权利要求2所述的方法,其中,提取与所述输入内容相关联 的文本的步骤还包括获取所述搜索结果;以及 从所述获取的搜索结果中提取出所述文本。
5、 根据权利要求1所述的方法,其中 接收所述输入内容的步骤包括接收URL;以及 提取与所述输入内容相关的文本的步骤包括 获取一位于所述URL的网页;以及 提取与所述网页相关的文本。
6、 根据权利要求1所述的方法,其中接收所述输入内容的步骤包括接收RSS文件;以及文件中的文本。
7、 根据权利要求1所述的方法,其中 接收所述输入内容的步骤包括接收一博客中的入口 ;以及提取与所述输入内容相关联的文本包括提取所述博客中的所述入口 。
8、 根据权利要求1所述的方法,其中,所述相关内容包括对应于一个或多个与所述输入内容有关或相关的每点击成本、每次印象费用或者每 行动成本条件的广告或赞助链接。
9、 根据权利要求1所述的方法,其中,在所述提取文本中识别所述概 念包括识别包括在所述文本中的 一个名词短语或适当名词。
10、 根据权利要求1所述的方法,其中,接收所述相关内容还包括 识别所述经过分类的^l既念的类别;以及所述数据库内出现的与所识别类别相关联的内容识别为所述相关内容。
11、 一种用于向输入内容补充相关内容的系统,所述系统包括 一上下文分析处理装置;以及一存储装置,存储用于使得所述上下文分析处理装置进行以下操作的 指令接收将为其识别相关内容的输入内容; 提取与所述输入内容相关的文本; 在所述所提取的文本中识别概念; 识别出至少 一 个与所述概念相关联的分类法;使用所述至少一个分类法对所述概念进行分析,从而生成一组与所述 至少一个分类法的一个或多个类别相关联的经过分类的概念集;将所述经过分类的概念递交至一数据库,其中所述数据库存储基于其 类別进行索引的数据;请求所述数据库找出与所述经过分类的概念相关联的相关内容;从所述数据库接收在响应于所述请求后找出的所述相关内容;将所述相关内容补充至所述输入内容;以及使用户能够浏览所述相关内容。
12、 根据权利要求11所述的系统,其中,所述输入内容包括用于获 得搜索结果的搜索查询。
13、 根据权利要求12所述的系统,其中,为了提取出与所述输入内 容相关的文本,所述指令包括用于提取构成所述搜索查询的关键词的指 令。
14、 根据权利要求12所述的系统,其中,为了提取出与所述输入内 容相关联的文本,所述指令还包括用于进行以下操作的指令获得所述搜索结果;以及从所述获得的搜索结果中提取出所述文本。
15、 根据权利要求11所述的系统,其中为了接收所述输入内容,所述指令包括用于接收URL的指令;以及 为了提取与所述输入内容相关联的文本,所述指令包括用于进行以下 操作的指令获取位于所述URL上的网页;以及 提取与所述网页相关联的文本。
16、 根据权利要求11所述的系统,其中为了接收所述输入内容,所述指令包括用于接收RSS文件的指令;以及为了提取出与所述输入内容相关联的文本,所述指令包括用于提取包 括在所述RSS文件中的文本的指令。
17、 根据权利要求11所述的系统,其中为了接收所述输入内容,所述指令包括用于接收博客中的入口的指 令;以及为了提取出与所述输入内容相关联的文本,所述指令包括用于提取包 括在所述博客中的所述入口的指令。
18、 根据权利要求11所述的系统,其中,所述相关内容包括对应于一个或多个与所述输入内容有关或相关的每点击成本、每次印象费用、每 行动成本条件的 一 广告或赞助链接。
19、 根据权利要求11所述的系统,其中,为了识别出所述所提取文本 中的概念,所述指令包括用于识别包括在所述文本中的一个名词短语或适当 名词的指令。
20、 根据权利要求11所述的系统,其中,为了接收所述相关内容,所 述指令还包括用于进行以下操作的指令识别出所述经过分类的;f既念的类别;以及将所述数据库中并且与所识别出的类别相关联的内容识别为所述相关 内容。
21、 一种通过一个用户界面补充文档的方法,所述用户界面包括与一个 或多个出现在所述文档中的概念相关联的相关内容,所述方法包括提取出现在被存储于存储器中的文档中的概念; 识别出与所述提取出的概念相关联的一个分类法; 使用所述分类法分析所述提取出的概念来生成一组经过分类的概念集; 使用所述分类法或另一个相关分类法,在存储在相同或不同存储器中的 多个其它文档中,识别出与所述经过分类的概念相关联的相关内容; 对所述提取的概念和相关内容进行超链接处理;以及述用户界面由内容提供商提供赞助。
22、 根据权利要求21所述的方法,其中,所述提取概念包括 提取与所述文档相关联的文本;以及提取出包括在所述文本中的一个名词短语或适当名词。
23、 根据权利要求22所述的方法,其中,所述适当名词包括人名、企 业名称、公司名称或产品名称。
24、 根据权利要求21所述的方法,其中,所述提取概念包括提取出现 在网站的网页中的概念。
25、 根据权利要求21所述的方法,所述方法还包括 从所显示的超链接中接收超链接选择标识;以及 响应于所述接收到的标识,显示与所选择的超链接相关联的网页,其中,所述网页包括与所述提取的概念相关的附加内容。
26、 根据权利要求21所述的方法,其中,赞助的内容提供商与所述发 布者为同一实体。
27、 根据权利要求21所述的方法,其中,赞助的内容提供商与所述发 布者为不同实体。
28、 根据权利要求21所述的方法,其中,使用所述分类法或另一个相档中识别出与经过分类的概念相关联的相关内容,其中,所述相关内容与所 述经过分类的概念属于相同的类别。
29、 根据权利要求28所述的方法,其中,使用所述分类法或另一个相 关分类法的步骤还包括判断所述分类法是否与另一个分类法相关;以及如果判断结果是所述分类法与另 一个分类法相关,则使用其它相关的分 类法在相同或不同存储器中的多个其它文档中识别出与所述经过分类的概 念相关联的相关内容。
30、 根据权利要求29所述的方法,其中,所述相关内容属于与所述经 过分类的概念的类别不同但相关的类别。
31、 根据权利要求21所述的方法,所迷方法还包括通过参照列出了相 互关联的分类法的表来识别所述其它相关分类法,从而识别出与所述提取出 的概念的分类法相关联的所述其它相关分类法。
32、 才艮据权利要求21所述的方法,其中,所述相关内容与所述经过分 类的概念属于相同的类别。
33、 根据权利要求21所述的方法,其中,所述相关内容属于与所述经 过分类的概念的类别不同但相关的类别。
34、 一种用于从多个对一输入短语进行分类的分类法中识别出 一个分类 法的方法,所述方法包括提供多个分类法,其中每个所述分类法对应于一特定的知识域; 接收一输入短语,所述输入短语将由所述多个分类法中的至少 一个分类 法进行分类;将所述接收到的输入短语表征为 一个或多个单词; 从所述多个分类法中选择出一第一分类法; 对于选择的所述第一分类法,识别出与所述一个或多个单词中的每个单词相关联的存储权重;对于选择的所述第一分类法,对与所述一个或多个单词中的每个单词相 关联的存储权重进行累加,从而识别出与所述输入短语相关联的第一权重;从所迷多个分类法中选择出一第二分类法;对于选择的所述第二分类法,识别出与所述一个或多个单词中的每个单 词相关联的存储权重;对于选择的所述第二分类法,对与所述一个或多个单词中的每个单词相 关联的存储权重进行累加,从而识别出与所述输入短语相关联的第二权重;将与所述输入短语相关联的所述第 一权重和第二权重与 一个阀值进行 比较;根据比较的结果,将所述输入短语路由到所述第 一分类法或第二分类法 进行分类。
35、 根据权利要求34所述的方法,其中,接收所述输入短语包括接收 概念,所述概念包括在正在为其识别补充的相关电子内容的电子内容中。
36、 根据权利要求34所述的方法,其中,表征所述输入短语包括将所 述输入短语分割为个别的单词。
37、 根据权利要求34所述的方法,其中,对于所述第一分类法和第二 分类法,识别出与所述一个或多个单词中的每个单词相关联的存储权重包括 通过参照一个表来对所存储的权重进行识别,所述表包括与所述一个或多个 单词相关^t的权重。
38、 根据权利要求37所述的方法,其中,所述表包括 一用于列出词典中的每个单词的行;一用于列出所述多个分类法中的每个分类法的列; 位于每个行和列交叉处的分值,其中,每个交叉处的所述分值表示包括定分类法进行分类的可能性。
39、 根据权利要求34所述的方法,其中,对所述输入短语进行路由包 括将所述输入短语路由至所述第 一分类法和第二分类法进行分类。
全文摘要
根据一个总的方面,本发明涉及一种用于向输入内容补充相关内容的方法,所述方法包括接收所述输入内容以及从所述输入内容中识别出概念。所述方法还包括对与所述概念相关联的分类法进行识别,并且使用该分类法对所述概念进行分析来生成一组经过分类的概念集。所述方法还包括将经过分类的概念发送至一数据库来对所述相关内容进行识别,以及将所述相关内容补充至所述输入内容。
文档编号G06Q30/00GK101385025SQ200680053223
公开日2009年3月11日 申请日期2006年12月22日 优先权日2005年12月22日
发明者塞勒·迪旺德, 拉维·卡拉普塔普, 迈克尔·布朗·萨特勒, 阿杰·斯拉瓦纳普蒂, 阿沙沃·布莱克威尔 申请人:清晰传媒广告有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1