电子内容分类的制作方法

文档序号:6568588阅读:126来源:国知局
专利名称:电子内容分类的制作方法
技术领域
本申请涉及计算系统中的电子内容分类。
背景技术
随着计算机和计算机网络变得越来越能够访问信息,因此人们要 求有更多的方式来获取信息。特别地,人们现在希望在路上、在家里、 或者在办公室中访问信息,而这些信息原来只能从连在适当配置的网 络上的固定连接的个人计算机获得。人们可能想要从他们的蜂窝电话
中得到股票报价和天气预报,从他们的个人数字助理(PDA)中得到 电子邮件,从他们的掌上电脑得到最新的文件,以及从他们的所有装 置中得到及时准确的查找结果。人们还可能在旅行时,无论是本地的、 国内的还是国际的,想要从易于使用的移动装置上得到所有的这些信 息。
某些文档不适于在移动装置上使用。移动装置并不一定要与他们 的对手台式机相同。移动装置的用户想要看到他们认为是好的移动内 容,而在他们的装置上提供的移动内容经常是不实际的甚至是无法显 示的内容。在一些情况下,用户可以接收由中间源提供的转换后的内 容,例如,中间源可以将网页内容从HTML (超文本标示语言)格式 转换为WML (无线标示语言)格式,并将转换后的内容提供给移动装 置。根据该转换过程的性质和/或质量,该转换后的内容可能在语义上 等同于或者不等同于原始文档,或者该格式仍旧很难在移动装置上导 航。
对于该文档的简易的分析可以釆用通过对该页是否含有HTML标 记来对页面或文档进行分类的形式,其中该HTML标记清楚地表示某一特定类型的装置是适合显示该页的装置。这种分析也可以关注页面 大小,页面上的文件的后缀,文档类型声明,或者网页中其它的此类
直观内容。例如,文档类型(doctype)声明就是其中之一,其中网页
的作者应明确地标示出标记语言的类型和标准。
这种简易的方法虽然易于实现,但存在限制。例如,他们可能对 文档作出错误的假定,因为他们依靠明确的识别信息。例如,涉及搜
索特定标记例如文档类型(doctype)的方法可能要求来自页面的作者 的密切合作。但是,作者有可能没有正确地对该文档进行编码或者没 有遵循适当的标准。还有,为其所提供的文档提供明确的内容标识的 服务器也有可能被错误地配置并且给出不准确的数据。虽然这种错误 的应答可能只是少量累积,但是从整体上考虑时它们仍旧会削弱搜索 引擎的正确性。结果,就需要对电子内容进行更灵活和更复杂的分类, 以在特定的装置或特定种类的装置上进行显示。

发明内容
这里提供了各种实施方式。 一种实施方式提供了对电子内容进行 分类的方法,其中采用的方式至少部分取决于由文档特征所暗示的格 式,因此并不依赖于文档作者遵守特定习惯或规则。这种隐含的特征 不同于明确的特征,它是主要目的为指示文档格式的在文档中的指示。 这种明确定特征包括文档的内容类型标签,文档类型(doctype)标记, 以及文件名称的扩展名。
在一种实施方式中,描述了对电子内容进行分类的方法。该方法 包括从计算系统中获得电子文档,识别该电子文档的一个或多个文档 特征,对所识别的文档特征进行分析以确定包含在该电子文档中的电 子内容的格式(该确定的格式由所识别的文档特征所提供的一个或多 个指示符暗示),以及根据所确定的格式来指定包含在该电子文档中 的电子内容是否可以显示在被识别类型的计算装置上。该指定可以包 括分析基于内容的文档特征,并且可以由机器学习系统来分析所识别的文档特征。另外,该方法可以根据包含在该电子文档中的电子内容 可显示在预定类型的计算装置上的置信度来确定是否将与电子文档相 关的已索引的表目插入到可查找的索引中,并且该已索引的表目可以 指示电子文档被确定的格式。
在该方法的某些实施方式中,包含在电子文档中的电子内容可以 包括可显示的网页内容。还有,该电子文档的至少一个文档特征可以 包括标记特征,其中该标记特征可以被解释以在计算装置上显示电子 内容。另外,该文档分析可以包括将预定规则集应用于所识别的文档 特征,并且该预定规则集可以将一个或多个决定应用于多个文档特征。 对该内容是否可以被显示的指定可以包括将一个或多个探试规则应用 于所确定的格式和所识别的文档特征,并且还可以包括计算置信等级, 其中该置信等级基于包含在该电子文档中的电子内容可显示在预定类 型的计算装置上的确定的置信度。
在本发明的其它实施方式中,该方法还可以包括创建与电子内容 相关联的已索引的表目,该已索引的表目指示包含在电子文档中的电 子内容是否可以显示在已识别类型的计算装置上,并且将该已索引的 表目插入到可査找索引中,其中该已索引的表目被归类在该可查找的 索引中。另外,该已识别类型的计算装置可以包括能够显示具有一个 或多个预定格式的电子内容的计算装置,并且在一些情况下可以包括 无线装置或者预定品牌或型号的计算装置。并且,所确定的格式可以
从包括XHTML (可扩展超文本标示语言)格式、HTML (超文本标示 语言)格式、WML (无线标示语言)以及cHTML (压縮HTML)格式 的组中选出。
在再另一种实施方式中,披露了一种有形地嵌入在信息载体中的 计算机程序产品。该产品包括指令,当执行该指令时执行对电子内容 进行分类的方法,其中该方法包括获得存储在计算系统中的电子文档, 该电子文档具有电子内容,解析该电子文档并识别该电子文档的一个或多个文档特征,对所识别的文档特征进行分析以确定包含在该电子 文档中的电子内容的格式(该确定的格式是基于由被所识别的文档特 征所提供的一个或多个指示符),以及根据所确定的格式和所识别的 文档特征来指定包含在该电子文档中的电子内容是否可以显示在预定 类型的计算装置上。
在另一种实施方式中,提供了一种对电子内容进行分类的系统。 该系统可以包括用于接收电子文档的装置,用于确定包含在该电子 文档中的电子内容的格式的装置,以及用于根据所确定的格式来指定 包含在该电子文档中的电子内容是否可以显示在预定类型的计算装置 上的装置。
在再另一种实施方式中,提供了一种对电子内容进行分类的方法。 该方法可以包括从计算系统中获取电子文档,使用与该文档相关联的 明确的文档类型标识符来识别文档类型,对一个或多个文档特征以及 所识别的文档类型进行分析以确定包含在该电子文档中的电子内容的 格式,所确定的格式由所识别的文档特征所提供的一个或多个指示符 暗示,以及根据所确定的格式来指定包含在该电子文档中的电子内容 是否可以显示在已识别类型的计算装置上。
在再另一种实施方式中,提供了另一种方法,其包括从计算系统 中获取具有电子内容的电子文档,识别出该电子文档的多个文档特征, 根据该多个文档特征来计算文档分值,以及根据该文档分值来指定包 含在该电子文档中的电子内容是否可以显示在已识别类型的计算装置 上。该文档特征可以包括隐含文档特征,并且也可以包括基于内容的 文档特征。
各种实施方式可以提供某些优点。例如,内容分类模块可以自动 地将电子文档分类为不同的与移动相关的类别。这就有助于将例如网 页归类为适合或者不适合在移动装置上显示。该内容分类模块能够评
9估是否可以使包含在单个文档中的内容能够被用于在移动装置上的显 示目的,以及确定最适合显示该内容的特定装置(或装置类型)。
在下面的附图和说明中将详细地阐述一个或多个实施方式。从说 明书及附图以及权利要求中可以清晰地看到其它特征、目的以及优点。


图1A为显示内容分类系统的部件的概念图。
图1B为根据一种实施方式可以被用于对电子内容进行分类的系
统的方框图。
图1C示出了根据一种实施方式在图1B所示的系统中对电子内容 进行的处理。
图2A为根据一种实施方式对电子内容进行分类的方法的流程图。 图2B为根据一种实施方式对电子内容进行分类的另一方法的流 程图。
图2C为根据一种实施方式对电子内容进行分类的另一方法的流 程图。
图3A为根据一种实施方式与可以被存储在图1B所示的索引中的 电子内容相关联的表目的图表。
图3B为与可以存储在索引中的电子内容相关联的表目的图表。 图4为根据一种实施方式可以提供给用户用于在图1B所示的系统
中查找电子内容的图形用户界面的屏幕图。
图5为可以用在图1B所示的各种部件中的计算装置的方框图。
具体实施例方式
图1A为显示内容分类系统2的部件的概念图。 一般地,系统2 提供了对于被显示文档4的分析,以确定该文档4是否可以显示在特 定装置例如个人数字助理和移动电话,以及可以显示到什么程度。该 系统可以通过多种方法来对该文档4进行推断,其中这些方法不需要 文档作者的任何协助。特别地,该系统2可以通过文档4中的暗示来得出结论,并且不需要文档作者对文档4的类型或者要在其上显示该 文档4的装置或装置类型进行明确地标识。
对文档进行分类的两个方面可以由系统2来解决。首先,确定电
子文档4的格式或类型。接着,为特殊装置例如个人数字助理(PDA)、 台式计算机或移动电话确定电子文档的可用性和/或可显示性的程度。 可用性的程度可以指向潜在地与在装置上执行的软件(例如浏览器) 结合在一起的特定型号的装置,或者指向一类装置(例如具有某一屏 幕尺寸的装置)。在文档格式的第一方面,在确定文档类型时可以提 取出各种文档特征予以考虑。在第二方面,所确定的电子文档类型可 以被用作在特定装置上进行显示的技术可行性的因素。但是,特定的 文档有可能没有隐含着它在该装置上的可用性。因此,在对该分类的 第二方面进行判断时可以考虑其它因素。
还有,满足标准并且在技术上可以进行显示的文档有可能无法在 特定装置上使用,并且结果有可能被分类为缺少可显示性。例如,一 文档可以按照XHTML Mobile进行编码,并且在技术上可以显示在相 应的装置上,因为它与该标准相匹配。但是尽管如此它也有可能无法 使用,例如,如果它宽度过大。这样,就可以提供系统2,其可将此种 文档分类为无法显示,即使它在技术上符合标准并且能够被显示在该 装置或该类装置上,可是结果很差并且可用性很低。这种文档无法被 显示的原因就在于它对于该装置上的用户来说是没用的。
电子文档的特征可以是文档、元信息(包括例如文档的HTTP报 头或统一资源定位(URL)地址)、文档内容和标记、以及由其它文 档和数据源暗示的信息(例如,相关的或所链接的文档的特征)的任 意属性。可以通过布尔逻辑结构来将特征合并成其本身即为特征的其 它组合特征。例如,〈html〉标记和文档长度的存在即为两个特征。 〈html〉标记和文档长度的同时存在也可以被认为是一个特征。
11文档可以兼有基于内容的特征以及非基于内容的特征。基于内容 的特征涉及文档的实际内容,例如图像、表格、文档中的特殊语言、 以及从这些特征导出的信息(例如,文档中图像的总数)的存在。基 于内容的特征还包括文档中的各种标记。非基于内容的特征包括关于 文档的其它数据以及元数据,例如文档的长度以及HTTP报头。
特征也可以是明确的或隐含的。明确特征的主要目的就是识别文 档的类型。此种明确特征包括例如从网页服务器返回的内容类型报头,
文档内部声明的文档类型(doctype),明确地识别文档类型的其它某 些基于内容的特征,以及在一些情况下,电子文档的扩展文件名。明 确地标识出特征并不必然地表明了正确的文件类型。例如,网页服务 器经常盲目地将非html的文档返回为text/html的内容类型,并没有要 求html文档名称须带有".htm"或".html"的扩展名,并且,网页浏 览器经常正确地显示html,即使缺少文档类型(doctype)声明。
隐含标识的特征为文档的一部分或者涉及该文档,其中所述特征 与该文件类型具有一些关联,但是没有被包括在内以明确地标识文档 类型。所述特征可以包括,例如,功能性标记"wml〉以及〈html〉标记, 例如,用于标准兼容性而非标识用途)。另一个例子为访问键 (accesskey)标记属性,其可以被用于按键快捷方式,并且可以在缺 少指示装置例如鼠标的移动装置上更具有实用性。其它的隐含特征可 以包括文档中某些要素的数量,要素(例如,图像,文本,或活动内 容)的类型,以及从一个文档到其它文档的链接。
与被显示文档4相关的就是文档源6,其中该文档源6可以仅仅为 与该文档相关联的文本,或者例如HTML或其它标示语言格式的底层 文档。该被显示的文档4和文档源6也可以被认为是单一文档一一个 被显示而另一个没被显示。另外,多个网页也可以一起被看作是一个 文档。该例子中的文档源6为文本文件,其中该文本文件根据标准标示 语言含有多个特征例如标记。
一些特征对于文档分类是不重要的,而
其它特征(特征6a, 6b, 6c)可以是些微相关的或者非常相关的。这 样,就可以査找该文档中是否存在特定的相关特征。另外,也可以识 别出这些特征的组合或其它模式。
对于文档中的每个被识别的特征或特征模式,可以从文档源6中 提取出或者分析出来一个或多个文档特征8a, 8b, 8c,或者文档参数。 例如,文档特征8a可以为将要在文档中显示的特定文件类型,例如jpeg 图像。特征8a还可以将文档中的所有文件类型作为一种组合来表示。 作为另一个例子,特征8b可以表示文档与特定标准之间的匹配程度。 例如,可以按照标准来审阅以及检查文档源6的各个部分,并且对该 文档给出一个对应于匹配程度的分值。
还可以用另一种方式来对照标准检查文档。例如,能够按多个标 准解析或者参照一个或多个标准宽松地进行分析的词法分析器/解析
器,可以按特定标准对文档进行解析和解释。作为一个例子,因为文 档作者经常创建可在浏览器中工作的内容,因此可能希望通过商业网 页浏览器尽可能宽松地对文档进行解析,但是不一定与特定标准相容。 在该过程中,可以根据多个不同标准中的每一个来反复或并行地对文 档进行解析,直到该解析成功并且可以按照特定格式来解释该文档。 这样,该文档可被认为是属于类型,其中该文档是能够以该类型来解 释的。在这个匹配过程之后,其它特征可以被考虑以进一步确定该文 档的分类,例如为该文档生成复合分值。
作为另一个例子,特征8c可以表示文档4的结构性成份或特征。 例如,如果文档具有某一数量的图像、活动内容例如Flash动画、表格 等,则特征8c可以显示每种类型特征的数量,并且也可以反映出每个 特征的类型或复杂度。这样,在将文档分类为可以显示或者不可以显 示在特定装置上时就可以考虑特征8c,其中更多数量的特定特征或更复杂的特征将倾向于表示文档无法在特定装置或特定类型的装置上进 行显示。该各种特征也可以包括各种标示标记,关于页面的其它元数
据例如页面大小和字数,页面的网页标准(例如,WML, HTML, XHTML,等等)以及该标准的变型(例如,EZWeb XHTML)。
在另一个例子中,可以对不同版本的文档、或者来自不同版本文
档的特征或成分进行分析。例如,网页服务器可以被配置为按照不同
方式来发送特定内容。在这种情况下,系统2可以获得每种形式的文
档,并且可以对各种形式进行比较,以得到关于每个形式的可显示性
的信息。例如,当以一种具有多个"富"内容特征例如Flash动画等的
形式存储文档,以及用另一种除了额外的富内容以外相同的或者实质
上相同的形式存储文档时,则该系统可能推断后面的形式是作者想要 在具有有限的显示能力的装置上进行显示的。例如,通过表示不同装
置请求该文档的不同的用户-代理(User-Agent)禾卩/或接收(Accept) 报头向网页服务器发送请求就可以获得这些不同的版本。
一旦从文档中提取出或者计算得出描述该文档的适当特征或参 数,就可以通过多种方式,或者通过对多个技术进行组合来对可显示 性进行分类。在一种分类方法中,特定分类规则IO可以被应用于提取 出来的特征8a, 8b, 8c。由图中的流程图表示的规则IO可以是一系列 判断,例如如果/则(if/then)判断,该判断按照如下方式依照特定顺序 被应用于特征,其中这种方式已经被确定为对该文档的可显示性提供 了相当准确的评估。该规则IO可以是例如已经被组合在一起的多个探 试法,以便于创建文档4可以显示在特定装置上的组合分值或可能性。 该规则也可以包括对各个特征的分析,以生成这些特征的分值,接着 以加权的方式对得分进行组合,以生成文档4的复合分值。
可以从多个不同特征中生成文档分值,其中这些不同的特征是从 文档中解析、提取或者形成的(例如,通过组合多个解析后的特征)。 例如,表格数量、图像数量、字数、或者文档类型中的每一个都可以改变该分值(例如,对于每个图像,该分值增加或者减少一定数量, 并且如果图像很大,则变化量也很大)。在计算分值时,可以给与明 确特征例如文档类型比某些隐含特征更高的权重。还有,在文档作者 遵照适当标准的前提下,可以对明确特征(例如,文档类型)进行假 定性的分类,并且可以对隐含特征进行评估以创建分值,如果该分值 足够高或足够低,就可以否定该假设。
模式也可以被用于对文档进行分类,例如通过模式的预定集合或 顺序。该模式可以被用于按照特征的潜在顺序或次序将所识别的文档 特征与基线模式进行匹配。这些模式可以与预定内容格式(例如,
XHTML、 HTML、 WML、 cHTML)相关。在试图确定该文档中所含内 容的格式时,对该文档进行解析后的输出可以与这些模式的一个或多 个中的记号进行匹配。可以有多个与一个预定内容格式相关联的多个 不同基线模式。举一个例子来说,内容分类器可以使用模式来将该文 档特征与给定文档类型的已知数据型定义进行匹配。 一种典型的模式 可以指定普通移动标记(例如,href: tel "单击呼叫(click to call)" 标记),并且另一个典型模式可以指定某些日语编码和字符。
在一个例子中,可以通过机器学习算法来生成规则。在这种方法 中,可以提供初始规则。可以通过手动地对多个文档进行分类来提供 一个预先标记的文档集。该算法可以导致创建一组新的用于分类的规 则,其中该规则在例如确定初始文档集中的文档的分类时提供很小或 者最小的误差。该算法可以在例如该训练集中的文档的被提取出来的 特征上应用。可以对后续的文档进行分析,并将规则应用于它们以对 它们进行分类。当提取出各种特征并对它们进行分析以为文档生成复 合分值时,该系统可以调整每个分值、要考虑的特征、要给予的权重、 以及任何其它合适的因素。任何适用于机器学习的方法都可以被用于 改进用于使用合成数据对文档进行分类的规则或算法,其中该合成数 据包括连接网、判断树、神经网络、贝叶斯学习、基于样例的学习、 以及遗传算法。作为机器学习或者其它适当过程的一部分,分类的结果,例如按 照聚合特征14的形式,可以被反馈给用于进行分类的探试法,如箭头
16所示。该聚合特征14可以简单地是所提取的特征8a-8c的格式化组 合,或者可以采取任何其它适当的形式例如一组预定特征,其中表示 文档4的值被放置在该预定特征中。也可以采用其它方法。例如,有 时可以对所增加的文档进行采样,并且在装置上显示得特别好或者特 别差的文档可以被识别出来,这可由手工或电子来确定,并且可以给 予导致了对这些文档进行正确或不正确分类的特征更大或更小的重要 性,或者可以给予这些特征值不同的权重,用于以后对文档分类。还 有,随着时间的推移可以添加新的探试法,特别是当标准或使用模式 演化时。
还可以提供模块12,用于分类为规范。在这种实施方式中,该规 范可以用多个规范性文档12a或者来自规范性文档的特征来表示。规范 性文档是被选到一组规范性文档中的文档,或者是包括表示特定形式 文档的特征轮廓。每个规范性文档可以与装置列表12b相关联,其中 该装置列表12b可以与可以显示该文档的装置或装置类别(例如,装 置类型)相对应。该规范性文档12a可以包括例如预先选出的一组测试
文档,该组测试文档已经被选中来表示一定范围的文档风格,其中该 文档风格具有各种不同的特征或特征值。
接着可以将要显示的文档的聚合特征14与每个规范性文档的特征 相比较,对规范性文档12a中的相应特征与聚合特征14之间的匹配程 度赋予分值。对于具有最高分值的规范性文档12a或者分值相当高的文 档(例如,对于单个文档有多个装置时),接着,与特定规范性文档 12a相关联的装置列表就会变得直接或间接地与特定文档6相关联。通 过这种方式,当装置请求文档时,可以对照装置列表来检査该装置的 类型,以确定该文档是否可以被显示。另外,可以建立一个文档集合,作为文档训练集合的一部分或者 在其之外另外建立。接着,可以对分类系统作出改变(例如,通过改 变分类规则),并且可以将改变后的系统应用于这些文档。该应用的 结果可以与被认为是提供适当分类的标准结果进行比较,由此可以确 定对该系统所作的改变的适当程度。
可以使用特征来确定文档的格式或类型,以及确定文档的可显示 性。例如,在确定文档类型时可以提取以及考虑某些特征一例如通过
关注与公知标准例如WML1.2的匹配程度。如果该文档的所有部分都
与该标准匹配,则可以对其与该标准相匹配给予完全的信用量,而如 果一小部分缺乏匹配,则可以给予其部分的信用量(即,低分值)。 接着该文档类型被用作用于确定文档是否可显示的多个因素之一,例 如通过给予它以及其它特征加权后的分值。
接着可以测试文档是否真的可以显示,例如可以通过将它们提供 给特定装置或被编程为模拟特定装置的机器,并接着确定该文档的显 示是否令人满意。可以自动地或者手动地进行此种确定,例如通过让 用户来表示该显示是否适当。成功的显示可以使得该系统重新确认用 于对文档进行分类的规则,包括例如,通过给予这些规则更高的权重 以用于将来的分类。不成功的显示将导致相关的规则在将来的分类中 的重要性降低。
刚才在概念上讨论的技术和特征可以在任何适当的环境中实现, 在该环境中所关切的是对文档的正确显示,包括在以下讨论的系统和 方法中。
图1B为根据一种实施方式能够被用于对电子内容进行分类的系 统100的方框图。在该实施方式中,系统100包括数据处理系统50、 网络58、服务器60、便携式移动(无线)装置62以及客户端计算机 64。该数据处理系统50、服务器60、便携式移动(无线)装置62以及客户端计算机64均与网络58相连。移动装置62与网络58进行无 线通信。网络58可以包括LAN (局域网)或WAN (广域网),例如 互联网。数据处理系统50能够对服务器60上存储的电子内容进行索 引,根据内容指示符来确定该内容的格式,以及指定该内容是否与客 户端计算机64或移动装置62上的显示目的相兼容。
系统100中的每个服务器60都可以含有广泛类别的电子内容。例 如,其中一个服务器可以存储电子新闻内容,而其中另一个服务器可 以存储电子股票或游戏内容。服务器60还可以以各种不同的内容格式 来存储电子内容。例如,服务器60可以存储用XHTML (可扩展超文 本标示语言)、HTML (超文本标示语言)、WML (无线标示语言)、 cHTML (压縮HTML)或者使用另一种格式的语言编写的电子文档中 的电子内容。计算装置,例如移动装置62或客户端计算机64,可以对 这些电子文档进行处理,以将相应的电子内容显示在显示装置上。例 如,如果移动装置62包括与WAP(无线应用协议)标准兼容的浏览器, 则该移动装置就能够解释用WML或XHTML编写的电子文档。一旦移 动装置62解释了这些格式的文档,则该移动装置62就能够将相应的 电子内容(例如,新闻或股票信息)显示在它的显示装置上。客户端 计算机64就能够解释用XHTML或HTML编写的电子文档,并将相应 的内容显示在它的显示装置上。
为数据处理系统50提供了接口 52,用于允许通过各种方式进行通 信。例如,数据处理系统50可以通过网络58与服务器60进行通信, 以对存储在这些服务器60上的电子内容进行处理。数据处理系统50 包括爬行器76、内容分类器82以及可搜索的索引72。爬行器76自动 地对网络58进行遍历,并从服务器60请求电子文档。在一种实施方 式中,爬行器76通过使用服务器60的URL (统一资源定位地址)来 访问服务器60上的这些文档。爬行器76可以使用初始URL集并且从 由这些URL指向的服务器60中提取所指涉的文档。爬行器76典型地 跟踪它之前访问过的URL。每当爬行器76识别到存储在服务器60中的其中一个上的新电子文档时,它就提取该文档并将其传送给内容分 类器82。
接着,内容分类器82对该文档的电子内容进行分类,这在上下文 中进行了更详细的描述。例如,内容分类器82可以确定该电子文档是 使用WML编写的,并且它的内容可以在移动装置62上进行显示。(图 1A中所示的移动装置62包括蜂窝电话手机,但是可以采用任何适当 的形式,例如个人数字助理、语音驱动个人通信装置或者任何其它形 式的移动装置。)
在一种实施方式中,内容分类器82确定与该电子文档相关联的已 索引的表目应该被插入到索引72中,如果满足预定条件的话。例如, 内容分类器82可以确定,如果电子文档的内容能够被显示在移动装置 例如移动装置62上,就应该插入一个表目,如果索引72含有对应于 一般移动内容的表目。图3A和3B示出了能够被插入到索引72中的表 目的例子。
内容分类器82还可以确定爬行器76是否应该跟踪包含在单个电 子文档中的地址链接。例如,如果该电子文档是用XHTML编写的, 则它可能包含提供了地址或者嵌入的URL的标记,这些地址或者嵌入 的URL指向存储在服务器60上的其它电子文档。如果内容分类器82 是在对移动内容进行分类,则它可以确定爬行器76应该继续爬行并且 跟踪电子文档中含有的任何地址链接,如果内容分类器82已经确定了 该电子文档含有能够在移动装置(例如移动装置62)上进行显示的移 动内容。在这种情况下,该文档中的链接可以指向具有移动内容的附 加文档。但是,如果内容分类器82确定该电子内容不含有移动内容, 则它可以表示爬行器76不应该跟踪该地址链接。在另一个实施方式中, 内容分类器82在爬行期间没有被使用,而是在该爬行完成之后被使用 以确定应该添加到索引72的文档。在一种实施方式中,内容分类器82可以确定不将用于电子文档的 表目插入到索引72中去,但是仍旧请求爬行器76跟踪指向存储在服 务器60上的其它电子文档的链接。例如,内容分类器82可以确定, 在60%的置信度下,该电子文档为具有移动内容的XHTML文档。在 该例子中,内容分类器82可以决定该文档的表目不应该包括在索引72 中,因为该置信度低于第一预置阈值(例如,75%)。内容分类器82 可以仅仅想要将表目插入到索引72中,如果它至少75%确认该对应文 档含有能够在移动装置上显示的移动内容。但是,内容分类器82可以 决定爬行器76应该跟踪该文档中含有的任何链接,如果该置信度高于 第二预置阈值(例如,50%)。该第一预置阈值和第二预置阈值可以 具有不同的值。
内容分类器也可以实现为模块化的子系统。在此种子系统中,提 供了中央内容分类器82,其包括用于识别、交互以及解析文档的必须 功能。也可以提供单个分类模块80a、 80b、 80c以及80d,作为内容分 类器82的插件。每个模块可以为特定类型的文档内容提供特定的规则, 例如探试规则。例如,模块80a可以含有对多个文档特征进行操作的规 则,其中这些文档特征单独地被内容服务器82识别,并且可以根据这 些特征生成文档的可显示性参数。同样地,模块80b可以含有关注文 档中的特定结构特征例如样本和表格的规则,并且可以生成关于文档 可显示性的参数。接着按照预定的格式将该参数传送给内容分类器82, 使得该文档被传送或者不被传送给特定装置。内容分类器82可以实现 为具有标准应用编程接口 (API),其中程序员可以根据该API创建附
加分类模块。
系统中采用插件形式的模块可以执行各种任务。例如, 一个插件 可以提取文档特征,而另一个插件可以对提取出的特征进行分析,以 确定该文档是否为特定格式(例如, 一个插件用于WML,另一个用于 XHTML)。还有,可以为每个装置或装置类别提供单独的模块,用于 确定装置的可显示性。每个插件也可以具有单独API。例如,为了增加新特征,开发人员可以添加特征插件(FeaturePlugin),当他们想要识 别新标准时,他们可以实现格式插件(ForaiatPlugin),而当他们要确 定新装置的可用性时,他们可以实现装置插件(DevicePlugin)。
通过对各种文档特征进行识别和处理而生成的信息可以按照任何 适当的格式来存储。例如,可以使用可扩展的结构化格式例如XML。
一旦来自服务器60的电子内容在索引72中被索引,移动装置62 以及客户端计算机64就可以发送搜索请求给数据处理系统50。请求处 理器66对这些搜索请求进行处理。请求可以包括一个或多个关键字。 例如,如果移动装置62的用户想要查找与狗相关的每个网页,则该用 户可以提交一个包括关键字"狗"的搜索请求。还可以接到除了搜索 查询以外的其它请求,并且可以采用各种提供请求的模式。例如,语 音输入以及其它适当形式的输入都可以被处理。
在一种实施方式中,移动装置62和客户端计算机64还可以将附 加信息提供给数据处理系统50,例如装置识别信息或者显示性能信息。 在处理由移动装置62和客户端计算机64发出的搜索请求时,该附加 信息可以被数据处理系统50使用。例如,移动装置62可以将附加信 息提供给数据处理系统50,以指定移动装置62为带有浏览器Z装置的 "品牌X型号1",其中该浏览器Z装置能够显示XHTML或WML 文档中含有的电子内容。当移动装置62第一次通过网络58与数据处 理系统50相连时,该信息可以被提供给数据处理系统50。
请求处理器66对进来的搜索请求进行处理,并将它们提供给搜索 引擎70。接着,搜索引擎70访问索引72以查找匹配表目。搜索引擎 70使用包含在搜索请求中的信息(例如搜索项)来查找匹配表目。搜 索引擎70在查找匹配表目时也可以使用由请求发起者所提供的任何附 加信息。例如,如果移动装置62已经提供了附加信息,其中该附加信 息用于指定该移动装置能够显示XHTML或WML文档中所含的电子内
21容,则搜索引擎70能够筛选出索引72中与具有不同格式的文档相关 的表目。该搜索引擎70还可以例如根据该搜索请求中指定的条件、通 过请求发起者提供的附加信息或者通过置信度来对所提取的表目或搜 索结果进行进一步排名。
搜索引擎70将搜索结果提供给应答处理器68。应答处理器68对 结果进行格式化,并且创建反馈给请求发起者(例如移动装置62或客 户端计算机64)的应答消息。请求发起者接着可以分析或者显示该搜 索结果给用户。用户可以选择这些结果中的一个或多个,以从服务器 60中检索相应的电子文档并将它们的电子内容显示给用户。
图1C示出了根据一种实施方式在图1B所示的系统IOO中对电子 内容进行的处理。在图1C所示的例子中,系统100包括4个服务器60A、 60B、 60C和60D。每个服务器60A-D都存储了含有电子内容的各种电 子文档。爬行器76能够通过网络58下载一个或多个这种电子文档。 内容分类器82接着能够对这些电子文档中所含的内容进行分类。
每个服务器60A-D都存储有具有各种格式的内容的电子文档。例 如,如图1C中所示,服务器60A存储了 HTML文档,例如文档102A-C。 服务器60B存储了 XHTML文档,例如文档104A-C。服务器60C存储 了 WML文档,例如文档106A-C。服务器60D存储了 cHTML文档, 例如文档108A-C。在一种实施方式中,任何给定的服务器60A-D都能 存储多种不同格式的电子内容。例如,服务器60B可以存储XHTML 以及WML文档。
每个文档102A-C、 104A-C、 106A-C以及108A-C都包括一个或 多个文档特征。例如,对于包含在文档内的各种不同的HTML标记, HTML文档102C可以含有各种不同文档特征。根据一种实施方式,这 些特征被用于确定如何显示包含在该文档中的电子内容。某些文档特 征可以包括地址链接信息。例如,某些HTML标记可以提供关于指向存储在单独服务器上的其它文档的URL (统一资源定位地址)链接信 息。当搜索存储在多个不同文档中的内容时,爬行器76可以跟踪这些 链接。
图2A为根据一种实施方式对电子内容进行分类的方法200的流程 图。图2A的流程图可以釆用刚刚所述的图1C中所示的系统。但是, 对图1C中所示系统的使用仅是说明性的,可以使用任何合适的系统。
方法200包括过程202、 204、 206以及208。在过程202中,爬行 器76从计算系统,例如从服务器60A-D之一获得电子文档。爬行器 76将该文档提供给内容分类器82。在过程204中,内容分类器82对 该电子内容进行解析,并识别出该文档中包含的一个或多个文档特征。 可以使用多个不同的解析机制。在一种实施方式中,内容分类器82使 用解析器框架,以通过对文档的单次迭代来实现多个潜在解析。在该 实施方式中,解析器能够在单次传递中识别出各种不同格式的文档特 征,例如XHTML、 HTML、 cHTML或WML。所识别的特征可以包括 特定文档标记,例如HTML类型的标记。
在另一实施方式中,可以使用通用的解析器框架来管理单独的解 析器,其中这些解析器能够对特定格式的文档进行解析。例如,该通 用解析器框架可以对电子内容的格式进行评估。该框架可以使用内容 类型、文件扩展名以及文件名来进行评估。在一种实施方式中,该框 架可以识别多个不同的解析器个体(例如,WML解析器以及XHTML 解析器),其中这些解析器可以潜在地被用于对分档进行解析。例如, 该框架可以确定给定的电子文档是XHTML还是WML文档。根据文档 的文件扩展名/文件名/等,该框架可以评估该文档更可能是XHTML文 档。在这种情况下,该框架可以调用XHTML解析器。如果该XHTML 解析器不能够对该文档进行充分的解析,或者如果它认为另一个解析
器将更成功,则它可以通知该框架。此时,该框架可以调用WML解析 器。以这种方式,该框架能够按照某种预定的顺序调用解析器。
23在过程206中,内容分类器82对给定电子文档的被识别的文档特 征进行解析,以确定该文档中所含电子内容的格式(例如,XHTML、 HTML、 cHTML或WML,有可能甚至是标准版本例如WML1.2)。
还可以通过许多其它方式对内容进行分析。例如,可以使用机器 学习来分析多个文档,因此对于某些文档所作的决定可以改进对后续 文档的决定。
还有,如上面详细所述,也可以通过对多个文档的分析来开发出 用于文档分类的探试规则。
在过程28中,内容分类器82指定包含在给定文档中的电子内容 是否可以显示在预定型号的计算装置(例如, 一般的移动装置,和/或 特定品牌或型号的装置)上。内容分类器82可以使用应用于被提取出 的特征上的一个或多个探试规则,以试图确定该文档的内容是否可以 显示在预定类型的计算装置上。 一些采样探试法可以包括使用文档大 小、包括在文档中的图像数量和大小、文档中表格的数量和表格属性、 以及合法/非法标记的使用。
根据一种实施方式,内容分类器82可以使用探试规则来确定文档 是否包括移动内容。这些规则可以指定,例如,文档中特定标记的重 复出现表示,且该表示具有更高的置信度,该文档含有可以显示在一 般的移动装置(或者,根据一些实施方式,能够显示在特定品牌/型号 的装置)上的移动内容。内容分类器82可以跟踪文档内的多个特征(例 如,链接、图像、表格、标记类型等),并使用探试规则来确定能够 显示文档内容的装置类型。另外,内容分类器可以注意是否使用了 stylesheet,或者是否使用了 Flash, applets (Java程序),以及脚本。
在一种实施方式中,内容分类器82在确定计算装置类型(例如,移动装置)时计算置信等级,其中在该计算装置上可以显示电子内容。
例如,内容分类器82可以使用模式和/或探试规则来以80%的置信度 确定给定的文档中含有可以显示在移动装置上的移动内容(例如WML 内容)。接着,内容分类器82可以将0.8的置信度赋予与该文档相关 的表目(其中,该表目也可以被存储在图1B所示的索引72中)。置 信等级也可以与特定品牌/型号的移动装置相关。例如,内容分类器82 可以以80X置信度确定给定的文档中含有可以显示在"品牌X型号1" 类型的移动装置上的内容,浏览器版本也有可能包括在内。
图2B为根据一种实施方式对电子内容进行分类的另一方法的流 程图212。在该过程中,例如通过上述的方法识别出了各种文档,并且 通过分析多个文档特征来推断文档的可显示性。在过程214,获得具有 电子内容的电子文档,以及在过程216,识别出该文档的多个特征。该 特征可以包括例如文档类型、文档大小、文档中的对象类型(图像、 表格、样板本件等)、该文档是否为特定格式(例如,EXWEB XHTML) 的变体以及上述其它特征。
在过程218,确定是否获得了足够的文档。有可能只需要一次获得 一个文档并接着对该文档进行分类。也有可能需要获得一个初始文档 集,建立一套基本规则,接着获得额外的文档并将该规则应用于这些 文档(以及有可能根据在使用较早的规则对文档进行分类时得到的经 验来对规则进行调整)。接着,的后续对文档进行的收集和分类有可 能在滚动的基础上出现,例如当爬行器识别并提取文档时。对文档的 处理也可以以批量的方式出现。
在余下的过程中,分类规则得到更新,并且如果文档的显示看起 来是可接受的,则该文档得到显示。在过程220,为一种或多种装置或 装置类型确定一个或多个文档的可显示性。这种确定可以包括例如根 据文档的各种特征来初步确定文档类型,如上面所详细描述的。接着 可以包括确定可显示性,该确定一同考虑了所确定的文档类型以及其它因素。如过程222中所示,在确定了文档的可显示性时,可以按照 与文档有关的方式对数据库进行更新(例如,如果从特定装置或装置 类型接收到对于文档的请求,使得可以很容易地确定可显示性)。确
定可显示性的规则也可以被更新(过程224),例如通过上述的机器学
习技术。
在某个时候,可以接收到对于文档的请求,如在过程226。如果己 经对文档进行了定位和处理,则可以通过检查数据库来确定它在请求 装置上被显示的能力。如果该文档还没有被处理,则可以按照刚刚所 述的方式对其进行处理以提供对于可显示性的确定,例如组合分值。 如果该文档是可显示的,如在过程228所确定的,则它可以被显示到 远程装置上(例如通过传输该文档或者与该文档有关的链接)。如果 该文档按照其原来的形式无法被显示,则该系统可以确定是否可以在 某些方面改变该文档而仍能实现足够的可显示性,如过程232所示。 例如,在传输文档之前,可以从文档中去除掉阻碍可显示性的特定特 征。如果该文档能够按照改变后的形式进行显示,则对其进行显示(过 程234),而如果不能,则阻止其显示(过程236)。例如,即使以改
变后的形式也无法显示该文档时,可以阻止指向该文档的链接,或者 将其传输,但是是以显示在远程装置上的方式,以表明无法对其进行
显示(例如,用特殊对比色)。当为了对一个文档进行充分的显示而 要求进行改变时,可以使得系统能够找出特定特征例如标记,由此作 者可以表示该文档只能以其未被改变的形式进行显示的愿望。
这样,通过该过程,根据其特征收集了多个文档并对其进行了分 类。获得或收集了后续的文档,并根据从初始文档集所生成的分类规 则、或者根据对文档进行分类的进一步的经验而生成的规则来对这些 文档进行分类。接着每个所识别的特征都可以在允许系统对文档的可 显示性进行有依据的假设中扮演一个角色。
图2C为根据一种实施方式对电子内容进行分类的另一方法的流程图240。在该方法中,对被分析文档进行分类包括明确的和隐含的分
类,并且也允许对文档的分类进行后续的变动。在过程242,获得了电 子文档,例如通过上述的特征。在过程244,系统对文档进行检查,以 确定它是否含有任何明确的标识符。例如,该文档可以含有HTML或 其它的标示标记,例如WML内容类型报头以及WML文档类型声明。 如果该文档具有明确的标识符,则该过程可以向前推进,因为不需要 去推断文件类型。当然,也可以对文档类型进行推断作为对任何明确 的文档标识符的检查。
如果不存在明确的文档标识符,则在过程246的过程对文档特征 进行解析。当然也可能已经进行了该解析,作为确定是否还存在明确 的标识符的过程的一部分。对于从该文档中获得的相关特征, 一个或 多个规则集可以被应用于一个或多个所述特征,如在过程248中。例 如,可以首先对文档进行检查,以确定文档格式,接着确定文档在装 置或装置类型上的可显示性。为了确定可显示性,例如,系统可以将 该文档视为具有XHTML Basic概要、没有表格或图像、很小的页面大 小以及存在密钥数字快捷方式(即,允许通过使用移动电话的有限的 键区进行更简单的操作)。
如果文档含有明确的标识符或已经应用了规则集来推断文档类 型,则可以确定文档的可显示性,并且就在特定装置或装置类型上显 示文档的能力更新了数据库(过程250)。也可以记录文档的特定特征, 由此,当已经识别出了要显示文档的装置时,就可以很容易地确定该 装置的可显示性。通过根据装置类别对文档进行分类或者通过请求文 档之后的分类,系统可以使得装置能对文档进行分类,即使该装置还 没有被开发出来。
在稍后时候,包括已经对许多文档进行分类之后,在过程252可 以接收到文档请求。作为选择,可以在接收到请求之后对文档进行分 类,例如在实时分类系统中或该特定文档在这之前完全没有被该系统
27找到过。在过程254,该系统使用它从请求中接收到的信息来确定在其 上做出请求的装置,并且检查该文档的相关信息,以确定该文档是否 可以显示,是未经处理的形式还是修改后的形式。
如果该文档是可显示的,则进行显示。如果不可以显示,则该系 统发出表示该文档无法显示的消息,或者可以简单地拒绝发送该文档 或关于该文档的标识符一有效地阻止该文档的显示。例如,当用户提 出搜索请求时,就可以检查每个搜索结果的可显示性。如果该文档不 可显示,则它的存在就根本不会显示给用户。作为选择,关于文档的
信息(例如,标题、片断以及URL)可以被显示给用户,但是采用如
下方式,即表示该文档无法在该装置上进行显示(例如,通过阴影、 着色或者附加文本)。通过这种方式,可以通知用户该装置无法准确 地显示文档,但是如果该文档看上去非常相关,仍然可以选择提取该 文档。接着,该用户去查看被显示的文档,以及它能够被显示。该系 统也可以为用户提供一种方式,用于查看该文档修改后的版本,其中 该文档被故意改变,以使其能够在该装置上进行显示。
在过程256,该系统还可以接收关于该文档的反馈。该反馈可以被 用于对该文档的可显示性进行重新分类。例如,可以给用户显示一个 图标,用于识别该文档是否被正确地显示,并且用户关于文档的选择 可以与其它用户的选择聚合在一起,以获致关于该文档的可显示性的 推断。也可以例如通过监视文档的显示与文档的用户从该文档移出之 间的时间量来推断可显示性。如果许多用户都在该文档上花费了非常 少的时间,则可以推断该文档没有正确显示或者不是很有用。在任何 一种情况下,因为还没有证明该文档对用户来说是有用的,因此可以 降低它的重要性。
图3A为根据一种实施方式与电子内容相关的表目图表,其中该电 子内容可以被存储在图1B所示的索引72中。索引72可以采取任何适 当的形式,这根据特定实施方式的需要而定。图3A示出了可以包括在索引72中的用于所述表目的信息300A的一部分。当对存储在服务器 60上的文档中所含内容进行分类时,内容分类器82能够存储和/或分 类在索引72中的该信息300A。当处理从移动装置62或客户端计算机 64发出的搜索请求以及获得搜索结果时,搜索引擎70也能够搜索索引 72中的信息300A。
图3A中所示的信息300A被排为三列302、 304和306。列302 包括己索引的表目的识别信息。图3A示出了三个表目的例子,名为"表 目1","表目2"和"表目3"。每个表目都与存储在外部服务器60 之一上的特定电子文档相关。列302中的表目信息也可以含有关于每 个相应表目的其它信息,包括关于相关电子内容的元信息。
列304含有与相应表目以及存储在一个或多个服务器60上的电子 内容相关联的各种关键字。在内容分类过程中这些关键字被插入到索 引72中。该关键字涉及包含在电子文档中的电子内容,其中该电子文 档的表目包括在索引72中。
列306表示相应的表目是否与含有移动内容的电子文档相关联, 其中该移动内容能够被显示在移动装置,例如移动装置62上。如上所 述,内容分类器82能够确定存储在服务器60之一中的给定的电子文 档是否可能包括移动内容。在一种实施方式中,如果内容分类器82以 一定量的置信度能够确定文档包括移动内容,则内容分类器82就指定 该电子文档包括移动内容。如图13B中所示,内容分类器82还可以指 定包括在索引72中的特定置信度。
当搜索引擎70处理搜索请求时,在搜索匹配表目时可以使用列 306中提供的信息。如果该搜索引擎70已经从移动装置,例如移动装 置62接收到了搜索请求,则它可以通过查找这些表目来筛选索引72 中的表目,其中这些表目满足搜索请求并且与具有移动内容的文档相 关联,如同列306中所含信息所指定的那样。
29在一种实施方式中,图3A中的表目还包括文档位置信息(例如 URL位置信息)。该位置信息可以包括在每个已索引的表目的单独列
中,并且可以指定相应电子文档在服务器60之一中的位置。搜索引擎 70接着提供每个表目的位置信息,其中所述每个表目包括在被反馈给 移动装置62或客户端计算机64的搜索结果集中。
图3B为与可以存储在中的电子内容相关联的表目的图表。图3B 示出了可以包括在这些表目的索引72中的信息300B的一部分。信息 300B包括来自列302、304和306的信息(包括在图3A所示的信息300A 中)附加信息包括在列305、 308以及310中。列305表示包含在与给 定的已索引的表目相关联的文档中的电子内容的格式。内容分类器82 能够在分类过程期间确定电子内容的内容格式。内容格式的例子可以 包括XHTML格式、HTML格式、WML格式或者cHTML格式。搜索 引擎70能够通过使用包含在列305中的信息来识别出搜索结果。当搜 索引擎70从请求发起者例如移动装置62接收到请求时,就能够就该 发起者支持的内容格式作出确定。还可以根据之前从发起者接收到的 信息来这么做,其中该发起者指定了其所支持的格式,或者可以使用 预先配置的信息。搜索引擎70接着可以使用列305中所含信息,用以 识别出匹配表目。例如,如果移动装置62只支持WML内容,则搜索 引擎70就能够识别出那些与具有WML内容的文档相关联的表目。
列308包括关于装置的信息,其中该装置与列305中所列的内容 格式兼容。如图3B所示,列308可以包括兼容装置的品牌和型号信息。 在一种实施方式中,列308可以包括与内容分类器82所知的与列305 中所列的内容格式兼容的每个装置有关的信息。可以预先配置关于兼 容装置的信息。当搜索引擎70处理搜索请求时,它可以访问与发出了 所述请求的特定装置(例如移动装置62)有关的信息。在一种情况下, 搜索引擎70可以仅仅根据列305和/或306中提供的信息就能够获得搜 索结果。但是,在另一种情况下,搜索引擎70可以选择使用包含在列308中的信息来仅仅识别与启动了该请求的特定装置有关的匹配表目
(搜索结果)。例如,移动装置62可以为"品牌X"的"型号1"装 置。如果搜索引擎70可以访问该信息,则它可以选择使用包含在列308 中的信息来识别具有移动内容的文档的那些表目,其中所述文档与"品 牌X"的"型号1"的装置兼容,并且有可能是与浏览器及其特定版本 兼容。
列310包括置信等级。在图3B的例子中,置信等级可以是"O.O" (意味着0%的置信度)与"1.0"(意味着100%的置信度)之间的数 字。内容分类器82指定一个置信度,通过该置信度可以确定给定文档 的内容格式(列305中所示)和/或该文档是否含有一般的移动内容(列 306中所示)。内容分类器82能够在一完成对给定文档的分类就计算 置信等级。可以根据列310中所列的置信等级来将包含在索引72中的 表目排序,使得具有较高置信等级的表目被列得越高。搜索引擎70还 可以使用置信等级来对被提供回给搜索请求发起者例如移动装置62或 客户端计算机64的搜索结果进行分级。
图4为根据一种实施方式可以提供给用户用于在图1B所示的系统 100中查找电子内容的图形用户界面的屏幕图。该图形用户界面包括能 够被显示给用户的窗口 400。例如,窗口 400可以被显示给移动装置 62或客户端计算机64上的用户。根据一种实施方式,窗口 400中显示 的信息由数据处理系统50提供。
如果用户希望对电子内容进行搜索,则用户可以发出搜索请求。 例如,如果用户正在使用移动装置62,则移动装置62可以将窗口 400 显示给用户。用户可以在文本输入域内输入一个或多个搜索项或关键 字,并接着选择按钮414。 一旦用户这样做了,则移动装置62将该搜 索请求发给数据处理系统50。该搜索请求包括由用户输入的搜索项。 接着,搜索引擎70在索引72内查找匹配的表目。在图4所示的例子中,假设用户的计算装置例如移动装置62支持
WML(移动)内容。这样,搜索引擎70将查找与搜索请求有关并与具 有移动内容的电子文档相关联的表目。在一种实施方式中,搜索引擎 700也可以査找与具有特别是WML内容的电子文档相关联的表目。该 匹配表目或搜索结果被提供回给用户的装置,以在窗口 400的区域420 中进行显示。如图4的例子中所示,区域420中包括4个匹配搜索结 果424、 426、 428以及430。用户可以选择任意结果424、 426、 428或 430来从图1B所示的一个或多个服务器60中提取相应的文档。
在一种实施方式中,数据处理系统50还可以查找对应于来自注册 赞助商广告的广告表目。数据处理系统50根据一些实施方式査找与具 有移动内容甚至是特定的WML内容的广告相关联的表目。接着将匹配 的表目提供给用户,并在窗口 400的区域422内显示给用户。如图4 的例子中所示,在区域422中将两个表目430和432显示给了用户。
在一种实施方式中,数据处理系统50可以根据用户正在使用的特 定类型的装置来过滤窗口 400的区域420和422中显示的结果。例如, 数据处理系统50可以被告知,或者可以确定该用户正在使用"品牌X 型号1"的移动装置。在这种情况下,搜索引擎70可以査找与能够在 该特定类型装置上显示的移动内容相关的索引72中的表目。在一种实 施方式中,搜索引擎70可以使用配置参数来根据移动装置的类型来确 定是否特别地对搜索结果进行过滤,或者仅仅根据内容的类型(例如, 移动WML内容、移动XHTMLBasic内容等)来确定是否更一般地对 搜索结果进行过滤。
在一种实施方式中,可以根据与结果表目相关联的置信等级来对 结果424、 426、 428以及430,或者结果430和432进行分级(例如从 上到下的等级)。(图3B中所示的列310包括可以与存储在索引72 中的表目相关联的置信等级的例子)。如果例如搜索引擎70更加确信 搜索结果424和426而不是结果428和430包括移动(或WML)内容,
32则可以指定结果424和426应该比结果428和430在区域420内等级更高。
图5为根据一种实施方式可以用在图IB所示的任何部件50、 60、 62或64中的计算装置500的方框图。该计算装置500包括处理器502、 存储器504、存储装置506、输入/输出控制器508以及网络适配器510。 每个部件502、 504、 506、 508以及510都使用系统总线相连。处理器 502能够处理指令,用于在计算装置500内执行。处理器502能够处理 存储在存储器504中或存储装置506上的指令,以将用于GUI的图形 信息显示在与输入/输出控制器508相连的外部输入/输出装置上。在其 它实施方式中,可以根据需要使用多个处理器和/或多个总线。还有, 多个计算装置500可以连接在一起,其中每个装置都提供所需操作的 部分。
存储器504存储计算装置500内的信息。在一种实施方式中,存 储器504为计算机可读介质。在一种实施方式中,存储器504为易失 性存储器单元。在另一种实施方式中,存储器504为非易失性存储器 单元。
存储装置506能够为计算装置500提供海量存储。在一种实施方 式中,存储装置506为计算机可读介质。在各种不同的实施方式中, 存储装置506可以为软盘装置、硬盘装置、光盘装置或磁带装置。
在一种实施方式中,计算机程序产品被有形地嵌入在信息载体中。 该计算机程序产品含有指令,当执行该指令时执行一个或多个方法, 例如上面所描述的。该信息载体为计算机或机器可读介质,例如存储 器504、存储装置506或者传播信号。
输入/输出控制器508管理计算装置500的输入/输出操作。在一种 实施方式中,输入/输出控制器58与外部输入/输出装置相连,例如键盘、指示装置或者显示单元,其中该显示单元能够将各种GUI例如图 4中所示的GUI显示给用户。
计算装置500还包括网络适配器510。计算装置500使用网络适配 器510与其它网络装置进行通信。
这里描述的系统和技术的各种实施方式能够在数字电路、集成电 路、特别设计的ASIC (专用集成电路)、计算机硬件、固件、软件和 /或它们的组合之中实现。这些各种实施方式可以包括在一个或多个计 算机程序中的实施方式,其中该计算机程序可以在可编程系统中执行 和/或解释,该可编程系统包括至少一个可编程处理器、至少一个输入 装置以及至少一个输出装置,其中该可编程处理器可以是专用的或通 用的,其被连接以用于从存储系统中接收数据和指令以及向其发送数 据和指令。
这些计算机程序(也是通常所说的程序、软件、软件应用程序或 代码)包括用于可编程处理器的机器指令,并且可以用高级的过程编 程语言和/或面向对象的编程语言,和/或汇编/机器语言来实现。如这里 使用的,术语"机器可读介质""计算机可读介质"是指任何计算机 程序产品、设备和/或装置(例如磁盘、光盘、存储器、可编程逻辑装 置(PLD)),用于将机器指令和/或数据提供给可编程处理器,包括 机器可读介质,用于接收机器指令作为机器可读信号。术语"机器可
读信号"是指任何用于将机器指令和/或数据提供给可编程处理器的机 器指令。
为了与用户进行交互,这里描述的系统和技术可以在计算机上实 现,该计算机具有显示装置(例如,CRT (阴极射线管)或LCD (液 晶显示器)显示器),用于将信息显示给用户,以及键盘和指示装置 (例如,鼠标或跟踪球),用于使得用户能够提供输入给计算机。其 它种类的装置也可以被用于提供与用户之间的交互;例如,提供给用户的反馈可以为任何形式的感官反馈(例如,视觉反馈、听觉反馈或 者触觉反馈);并且来自用户的输入可以以任何形式来接收,包括声 音、语音、或触觉输入。
这里描述的系统和技术能够在计算系统上实现,其中该计算系统 包括后端部件(例如数据服务器),或者包括中间件部件(例如应用 服务器),或者包括前端部件(例如客户端计算机,具有图形用户界 面或网页浏览器,通过它们用户能够与这里所述的系统和技术的实施 方式进行交互),或者该后端、中间件或前端部件的任意组合。该系 统的部件可以通过任何形式或数字数据通信的介质(例如通信网络) 来互联。通信网络的例子包括局域网("LAN")、广域网("WAN") 以及互联网。
该计算系统可以包括客户端和服务器。客户端和服务器一般地都 彼此相距甚远,并且一般地都通过通信网络进行交互。客户端与服务 器的关系是由在各个计算机上运行的计算机程序而引发的,并且彼此 之间具有客户端-服务器的关系。
已经描述了多个实施方式。尽管如此,可以理解的是,在不脱离 这些实施方式的精神和范畴的情况下可以进行各种修改。因此,其它 实施方式也落在权利要求的范围内。
3权利要求
1.一种对电子内容进行分类的方法,该方法包括从计算系统中获得电子文档;识别所述电子文档的一个或多个文档特征;对所识别的文档特征进行分析以确定包含在所述电子文档中的电子内容的格式,所确定的格式由所识别的文档特征提供的一个或多个指示符暗示;以及根据所确定的格式来指定包含在所述电子文档中的电子内容是否可以显示在被识别类型的计算装置上。
2. 如权利要求l所述的方法,其中指定包含在所述电子文档中的 电子内容是否可以显示在被识别类型的计算装置上包括对基于内容的 文档特征进行分析。
3. 如权利要求l所述的方法,其中所识别的文档特征由机器学习 系统来分析。
4. 如权利要求l所述的方法,还包括根据包含在所述电子文档中的电子内容可显示在所述预定类型的 计算装置上的置信度来确定是否将与所述电子文档相关联的已索引的 表目插入到可搜索的索引中。
5. 如权利要求4所述的方法, 子文档的被确定的格式。
6. 如权利要求1所述的方法, 内容包括可显示的网页内容。
7. 如权利要求1所述的方法,其中所述已索引的表目表示所述电其中包含在所述电子文档中的电子其中所述电子文档的至少一个文档特征包括被标记的特征,其中该被标记的特征可以被解释以在计算装 置上显示电子内容。
8. 如权利要求l所述的方法,其中对所识别的文档进行分析包括 将预定规则集应用于所识别的文档特征。
9. 如权利要求8所述的方法,其中所述预定规则集将一个或多个 决定应用于多个文档特征。
10. 如权利要求1所述的方法,其中指定包含在所述电子文档中 的电子内容是否可以被显示在已识别类型的计算装置上包括将一个或 多个探试规则应用于所确定的格式和所识别的文档特征。
11. 如权利要求1所述的方法,其中指定包含在所述电子文档中 的电子内容是否可以被显示在已识别类型的计算装置上包括计算置信 等级,其中该置信等级是基于包含在所述电子文档中的电子内容可显 示在所述被识别类型的计算装置上的确定的置信度。
12. 如权利要求ll所述的方法,还包括创建与所述电子文档相关联的己索引的表目,该已索引的表目表 示包含在所述电子文档中的电子内容是否可以显示在所述被识别类型的计算装置上;以及将该己索引的表目插入到可搜索的索引中,其中该已索引的表目 在所述可搜索的索引中被分级。
13. 如权利要求1所述的方法,其中所述被识别类型的计算装置 包括能够显示具有一个或多个预定格式的电子内容的计算装置。
14. 如权利要求13所述的方法,其中所述计算装置包括无线装置。
15. 如权利要求1所述的方法,其中所述被识别类型的计算装置 包括预定品牌或型号的计算装置。
16. 如权利要求1所述的方法,其中所述所确定的格式从下述组 中选择,其中该组由XHTML (可扩展超文本标示语言)格式、HTML(超文本标示语言)格式、WML (无线标示语言)以及cHTML (压縮 HTML)格式组成。
17. —种有形地嵌入在信息载体中的计算机程序产品,该计算机 程序产品包括有指令,当执行该指令时执行对电子内容进行分类的方 法,其中该方法包括获得存储在计算系统中的电子文档,所述电子文档具有电子内容;解析所述电子文档并识别所述电子文档的一个或多个文档特征;对所识别的文档特征进行分析以确定包含在所述电子文档中的电子内容的格式,所确定的格式基于由所识别的文档特征提供的一个或多个指示符;以及根据所确定的格式和所识别的文档特征,指定包含在所述电子文档中的电子内容是否可以显示在预定类型的计算装置上。
18. —种对电子内容进行分类的系统,该系统包括 用于接收电子文档的装置;用于确定包含在所述电子文档中的电子内容的格式的装置;以及 用于根据所确定的格式来指定包含在所述电子文档中的电子内容 是否可以显示在预定类型的计算装置上的装置。
19. 一种对电子内容进行分类的方法,该方法包括 从计算系统中获得电子文档;使用与所述文档相关联的明确的文档类型标识符来识别所述文档 的文档类型;对一个或多个文档特征以及所识别的文档类型进行分析以确定包含在所述电子文档中的电子内容的格式,所确定的格式由所识别的文 档特征提供的一个或多个指示符暗示;以及根据所确定的格式,指定包含在所述电子文档中的电子内容是否 可以显示在被识别类型的计算装置上。
20. —种对电子内容进行分类的方法,该方法包括 从计算系统中获取具有电子内容的电子文档; 识别所述电子文档的多个文档特征; 根据所述多个文档特征来计算文档分值;以及 根据所述文档分值,指定包含在所述电子文档中的电子内容是否 可以显示在被识别类型的计算装置上。
21.如权利要求20所述的方法,其中所述文档特征包括暗示的文 档特征。
22.如权利要求21所述的方法,其中所述文档特征包括基于内容 的文档特征。
全文摘要
讨论了一种用于对电子内容进行分类的方法。该方法包括从计算系统中获得电子文档,识别该电子文档的一个或多个文档特征,对所识别的文档特征进行分析以确定包含在该电子文档中的电子内容的格式(该确定的格式由所识别的文档特征提供的一个或多个指示符暗示),以及根据所确定的格式来指定包含在该电子文档中的电子内容是否可以显示在被识别类型的计算装置上。
文档编号G06F7/00GK101622598SQ200680029731
公开日2010年1月6日 申请日期2006年6月15日 优先权日2005年6月15日
发明者原田昌纪, 史蒂文·R·斯基里帕 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1