一种用于对网站进行片段式搜索的系统和过程的制作方法

文档序号:6477046阅读:164来源:国知局
专利名称:一种用于对网站进行片段式搜索的系统和过程的制作方法
技术领域
本发明领域总体上涉及到有关计算机的信息搜索和检索,具体而言,涉及到片段式搜索网上的内容。
作为理解本发明的背景,因特网(也称为万维网或者Web)在其普及方面作出的贡献使得用户可以利用的多媒体和流媒体文件供过于求。然而,查找淹没于Web上的数以万计的文件之中的具体多媒体或流媒体文件却常常是一件极其困难的任务。可从Web上获得的信息内容的容量和种类可能在以相当可观的速度持续增加。这样的增长结合Web的高度分散性使得在定位特定信息内容方面会产生相当大的困难。
流媒体是指这样的音频、视频、多媒体、文本以及交互式数据文件,它们通过因特网或者其它网络环境传送到用户的计算机,并在整个文件都传送完毕之前就开始在用户的计算机上播放。流媒体的一个优点在于在整个文件都被下载之前,流媒体文件就开始播放,从而免去用户长久等待,这种长久等待通常是与下载整个文件相关联的。以数字方式记录的音乐、电影、预告片、新闻报道、无线广播以及事件实况都有助于增加Web上的流内容。此外,不怎么昂贵的高带宽连接(诸如电缆、DSL以及Tl)使因特网用户能更加快速、更加可靠地访问新闻机构、好莱坞电影制片商、独立生产商、记录标记、甚至家庭用户的流媒体内容。
用户通常使用搜索引擎搜索因特网上的具体信息。搜索引擎包括一组在网络(例如局域网(LAN)或者因特网以及万维网)中的网络站点上可被访问的程序。一种被称为“机器人”或“蜘蛛”的程序在搜索文档(例如网页)以及其它程序时预先遍历网络,并建立在所述文档中发现的关键字的大型索引文件。典型地,用户形成包含一个或多个搜索词的查询,并将该查询提交给搜索引擎的另一个程序。在响应时,所述搜索引擎检查自己的索引文件,并且显示与搜索查询相匹配的文档列表(通常作为超链接)。然后,用户可以激活一个超链接来查看在所述文档中包含的信息。
然而,搜索引擎存在有缺陷。例如,许多典型的搜索引擎是适用于仅仅发现文本信息的。具体而言,它们并不能很好地用于对包含在结构化的数据库(例如关系数据库)中的信息、与语音有关的信息、与音频有关的信息、多媒体以及流媒体等等作索引。此外,混合来自不相兼容的数据源的数据对于常规搜索引擎是很困难的。
而且,当搜索引擎搜索网络时,它典型地通过跟踪它所遇到的Web链路以一种随机的方式来进行搜索。因此,就与查询相关的信息而言,每一个网站都要作为单一的实体而加以搜索。这种低效率的搜索常常产生大量的数据,对于产生可搜索的索引,这些数据是没用的。此外,将每一个网站作为单一的实体进行搜索需要相当大量的存储器和处理资源。这尤其适用于像流媒体这样的对象。
概括地说,本发明是一种用于搜索网络上的目标内容的系统和方法,其中所述网络包括网页,将所遇到的每一个网页分解成片段并搜索每一个片段中与目标内容有关的内容。


对于本发明,通过结合附图阅读以下详细的描述能够得到最好的理解。附图的各种技术特征可以是不按照比例的。包括在附图中的是以下的图图1是互联的计算机系统网络的系统的形式化概要说明;以及图2是本发明实施例的用于搜索基于网络的网页中的目标内容的示范性过程的流程图。
因特网是世界范围的计算机网络系统,它是其中一台计算机的用户能够从任何其他计算机中获得信息以及与其他计算机的用户进行通信的网络的网络。因特网最广泛应用的部分是万维网(常缩写为“WWW”或者称为“Web”)。Web的突出特征是它使用超文本,它是一种交叉引用的方法。在大多数的网站中,某些单词或者短语是以不同于周围文本颜色的文本出现的。这种文本常常还有下划线。有时,是“可点击”的按钮、图像或者部分图像。使用Web可以访问数以万计的信息页。网上“冲浪”是通过网页浏览器(诸如NETSCAPE NAVIGATOR以及MICROSOFT INTERNET EXPLORER)实现的。特定网站的外观可以有些许变化,这取决于所使用的特定浏览器。最近版本的浏览器带有“插件(plugins)”,它们提供动画、虚拟现实、声音和音乐。
本发明是这样一种系统和方法,所述系统和方法用于通过搜索系统使用元数据在计算机网络上检索基于网络的内容,包括媒体文件和与媒体文件有关的数据。在此所使用的术语“媒体文件”包括音频、视频、文本、多媒体数据文件以及流媒体文件。多媒体文件包括文本、图像、视频以及音频数据的任意组合。流媒体包括音频、视频、多媒体、文本以及交互式数据文件,它们是通过因特网或者其它通信网络环境传送到用户的计算机的,并且在整个文件都传送完毕之前就开始在用户的计算机/设备上播放。流媒体的一个优点在于在整个文件都被下载之前,流媒体文件就开始播放,从而免去了用户长久等待,这种长久等待通常是与下载整个文件相关联的。数字记录的音乐、电影、预告片、新闻报道、无线广播以及事件实况都有助于增加Web上的流内容。此外,通过使用高带宽连接(诸如电缆、DSL、Tl线以及无线网络(例如基于2.5G或者3G的蜂窝网络))而在通信网络成本上的降低会使因特网用户能更加快速、更加可靠地访问新闻机构、好莱坞电影制片商、独立生产商、记录标记、甚至家居用户他们自己的流媒体内容。
流媒体的例子包括歌曲、政治演讲、新闻广播、电影预告片、实况广播、无线广播、财政新闻发布会、现场音乐厅、网络摄像机(web-cam)的连续镜头以及其他特殊事件。流媒体的编码采用各种格式,包括REALAUDIO,REALVIDEO,REALMEDIA,APPLE QUICKTIME,MICROSOFT WINDOWSMEDIA FORMAT,QUICKTIME,MPEG-2 LAYERIII AUDIO以及MP3。通常,媒体文件指定有扩展名(后缀),用于指示与具体格式的兼容性。例如,以扩展名.ram,.rm,.rpm之一结尾的媒体文件(例如音频和视频文件)与REALMEDIA格式相兼容。在下表中列出了文件扩展名以及与它们相兼容的格式的一些例子。更详尽的媒体类型、扩展名以及兼容格式的列表可以在http://www.bowers.cc/extensions2.htm中查找到。
表1

作为描述性数据的元数据字面意思是“关于数据的数据”。元数据是这样的数据,它包括描述其他数据(例如媒体文件)的内容或者属性的信息。例如,标题为“用于资源发现的都柏林核心元数据”(http://www.ietf.org/rfc/rfc2413.txt)的文档将元数据分为三组,它们概略地指示在其中所包含的信息的类别或者范围。这三个组是(1)主要与资源的内容有关系的元素,(2)按知识产权观看时主要与资源有关系的元素,以及(3)主要与资源的实例化有关系的元素。落在这些组的元数据的例子表示在下表中。
表2

元数据的来源包括网页内容、统一资源指示符(URI)、媒体文件以及用于传送媒体文件的传输流。网页内容包括HTML、XML、元标记以及在网页上的任何其它文本。如在此更加详细的解释,元数据还可以从URL、网页、媒体文件以及其它元数据中获得。在媒体文件之中的元数据可能包括在媒体文件中所包含的信息,例如多媒体或者流文件的诸如头标和尾标.元数据还可以从例如媒体/元数据的传输流诸如TCP/IP(例如包)、ATM、帧中继、基于蜂窝的传输模式(例如基于蜂窝的电话模式)、MPEG传输、HDTV广播以及基于无线的传输中获得。元数据还可以在流中并行地传输或者作为用于传输媒体文件的流的一部分传输(高清晰度电视广播在一个流上传输,元数据则采用电子可编程向导的形式在第二流上传输)。
参考图1,它表示互联的计算机系统网络102和112的系统100的形式化的概要说明。每个计算机系统网络102和112包括至少一个对应的本地计算机处理器单元104(例如服务器)以及本地网络用户108,其中所述本地计算机处理器单元104与至少一个对应的本地数据存储单元106(例如数据库)相连。例如,作为通信网络的计算机系统网络可以是局域网(LAN)102或者是广域网(WAN)112。本地计算机处理器单元104通过所述网络(例如因特网)114选择性地连到多个媒体设备110。多个本地计算机处理器单元104中的每一个、网络用户处理器108和/或媒体设备110具有与其本地计算机系统相连接的各种设备,诸如扫描仪、条形码读取器、打印机以及其它接口设备。为了访问网页的内容,本地计算机处理器104、网络用户处理器108和/或媒体设备110(与WEB浏览器一起被编程)(例如通过使用鼠标点击)定位和选择特定网页,所述特定网页的内容位于计算机系统网络102,112的本地数据存储单元106中。网页可以包含至其它计算机系统和其它网页的链接。
本地计算机处理器104、网络用户处理器108和/或媒体设备110可以是计算机终端、能够使用网际协议(IP)通过因特网进行通信的寻呼机、具有因特网接入的公用电话亭、相连接的电子规划器(planner)(例如Palm公司所制造的掌上(Palm)设备)或者能够通过网络进行交互式通信的其它设备(诸如电子个人规划器)。本地计算机处理器104,网络用户处理器108和/或媒体设备110也可以是使用无线访问协议(WAP)连接到因特网以及通过因特网进行通信的无线设备,诸如手持式装置(例如蜂窝电话)。网络102和112可以通过调制解调器连接、局域网(LAN)、电缆调制解调器、数字用户线(DSL)、双绞线、基于无线的接口(蜂窝,红外,无线电波)或者利用数据信号的等效的连接与网络114相连接。数据库106可以通过本领域已知的任何装置与本地计算机处理器单元104相连接。数据库106可以采用任何类型合适的存储器形式(例如磁、光等等)。数据库106可以是外部存储器或者位于本地计算机处理器104、网络用户处理器108和/或媒体设备110之中。
计算机还可以包括嵌入在消费产品之中的计算机以及其它计算机。例如,本发明的实施例可以包括嵌入在电视机、机顶盒、音频/视频接收机、CD播放器、VCR、DVD播放器、多媒体使能设备(例如电话)以及因特网使能的设备中的计算机(充当处理器)。
在本发明的示范性实施例中,网络用户处理器108和/或媒体设备110包括通过网络114使用户处理器108和/或媒体设备110能与本地处理器104相互通信并且彼此相通信的一个或多个程序模块以及一个或多个数据库。程序模块包括程序代码,所述程序代码是用PERL、扩展标记语言(XML)、Java、超文本标记语言(HTML)或者使网络用户处理器108能够通过存储在网络用户处理器108之中的浏览器程序访问本地处理器104的程序模块的任何其它等效的语言编写的。
网站和网页位于网络(诸如因特网)中,信息(内容)驻留在所述网络中。网站可以包括单一的或者若干个网页。网页作为媒体对象是通过统一资源定位符(URL)来标识的,所述统一资源定位符包括网络上的网页的位置(地址)。URI的例子是统一资源定位符(URL)、因特网地址以及其它在本领域周知的标识用的标记。网站以及网页可以位于局域网102、广域网112、网络114、处理单元(例如服务器)104、用户处理器108和/或媒体设备110之中。信息或者内容可以存储在例如任何存储设备(诸如硬盘、光盘以及主机设备)之中。内容可以采用各种格式存储,所述格式可以随网站的不同,甚至是网页的不同而不同。
当向本发明系统提供搜索查询时,就搜索网页中的目标内容。更具体而言,搜索已经由搜索引擎代理器(诸如“蜘蛛”)进行预编译了(即在输入搜索查询之前进行编译)的数据库中的有关目标内容的词和其它网页。目标内容是与搜索查询有关的内容。例如,假设用户提供包括关于“Elvis Presley”的请求的搜索查询。由系统所生成的目标内容的示例性类型包括流媒体文件、多媒体文件、音频文件、图像文件、至其它网页的链接、有关搜索查询和/或目标内容的元数据以及它们的任意组合。而且,当处理搜索查询时,系统利用元数据来辅助搜索。以前,当搜索网页上的内容时,将整个网页作为单一的实体进行搜索。这常常要求过量的存储器和处理资源来维护在网页上发现的用于搜索所需要的所有数据(例如元数据)。这种情况在搜索查询和/或目标内容包括多媒体和/或流媒体时会更加严重,原因在于,多媒体和流媒体典型地包括大量的元数据。
本发明人已经发现了一种有效地搜索网络的技术。简而言之,将所遇到的网页(例如Web页)分解成片段。在每一个片断中都搜索字符模式,它们涉及到目标内容(例如流媒体、媒体文件、元数据、链接)。在每一个片段中递归地搜索其它片段,这些片段又依次被搜索。对每一个片段搜索的结果进行组合,其中所发现的与目标内容有关的内容(例如流媒体链接、其它页)被用来辅助搜索过程。
图2是本发明实施例用于搜索基于网络的网页中的目标内容的示范性过程的流程图。搜索查询由用户、系统或者代理器提供。目标内容根据搜索查询来生成。在本发明的一个实施例中,目标内容是根据有关搜索查询和/或目标内容的元数据而生成的。利用元数据生成目标内容的搜索过程的描述可参见于2001年6月8日提交的相关的美国专利申请09/867,941,标题为“因特网流媒体工作流体系结构”(Internet Streaming Media Workflow Architecture”),或者如位于http://www.singingfish.com的多媒体搜索引擎所示范的那样。目标内容的例子包括多媒体对象、多媒体文件、流媒体文件、图像文件、音频文件、有关搜索查询和/或目标内容的元数据、有关搜索查询和/或目标内容的历史数据以及它们的任意组合.
在以下示出的表3中,进一步说明了利用元数据的搜索过程。表3所示的工作流过程具有四个部分爬行、提取、增强以及分组。爬行段(例如由网上爬行器来实现)爬行作为因特网的通信网络,以便定位网页以及包括目标内容的数据存储文档(如上所述)。网上爬行器然后提取有关目标内容的元数据,它通常结束于将所提取的元数据传送到数据库。工作流过程前进到使用诸如通过来自其它数据库的元数据和有效元数据项的源来注解所提取的数据之类的过程而增强在数据库中所存储的提取的元数据。分组步骤完成这样的过程通过诸如取消重复性的元数据项之类的过程将所增强的元数据处理为组,并且将所增强的元数据与相似的域分在一组。
表3工作流程 在网络中(例如因特网)搜索有关目标内容的内容。对网络的搜索可以根据在常规搜索引擎和代理器中所使用的过程来进行。对于网络的搜索还可以利用与搜索查询和/或目标内容有关的元数据、与搜索查询和/或目标内容有关的历史数据以及它们的任意组合来进行。对利用与搜索查询和/或目标内容有关的元数据或历史数据搜索网络的过程的描述可参见于2001年6月8日提交的相关的美国专利申请09/867,941,标题为“因特网流媒体工作流体系结构”(InternetStreaming Media Workflow Architecture”),或者如位置在http://www.singingfish.com的多媒体搜索引擎所示范的那样。
在搜索过程期间,网页是在步骤214遇到的。在步骤218,将每个所遇到的网页分解成段。片段分解包括比较在网页中所包含的文本数据与预定的或动态确定的文本模式。所述模式涉及目标内容。在本发明的示范实施例中,模式涉及流媒体、多媒体、与流媒体有关的元数据、与多媒体有关的元数据、至其它网页的链接以及它们的任意组合。预定的模式是根据目标内容的类型探试性地被确定的。动态确定的模式源于在正被搜索的所遇的网页上发现的元素。因此,对于不同类型的目标内容而言,模式可以是不同的。例如,适用于流媒体文件的模式集可以不同于适用于图像文件的模式集。模式包括与目标内容有关的至少一个字符。模式的例子包括诸如符号“<”和“>”这样的字符;诸如“area”、“param”以及“meta”这样的标记;词“http”以及“function play clip”以及它们的各种组合。
在各种确定的模式中所包含的字符数是不相同的。模式的字符数(长度)是根据探试性地确定的终止条件而确定的。例如,模式可以包括以标记“area”开头的并以在字符串中所遇到的第一个右尖括号“>”结尾的字符串中的所有字符。另一个例子是这样的模式,它包括以标记“param”开头的并以在字符串中所遇到的第一个右尖括号“>”结尾的字符串中的所有字符。
根据本发明,为在网页中所见到的每一种模式生成片段(步骤222)。也就是说,在步骤220,网页的内容与预定的模式的集合相比较,并且,为在网页上所见到的匹配于预定模式的每一种模式,在步骤222形成相应的片段。片段可以包括在网页上所见到的单一的模式或者多个模式。如前所速的,模式的长度是不相同的。因此,任意特定的模式可以包括另外的模式。因此,在步骤224,将每一种片段与预定模式进行比较。如果在所述片段中查找到了任一模式匹配(步骤220),则生成更多的相应片段。这一过程一直重复到不再有匹配的模式为止。
如果可以应用,比较结果然后在步骤226进行组合。片段搜索的所有比较结果并非都需要组合,不过,对于搜索结果包括至URL(它是URI的例子)的冗余链接以及至相同的URL的多个链接却并非不是常见的,其中,所述URL的不同仅仅是一个词(例如像比特率)。因此,组合比较结果可以包括去除冗余的URL、添加和/或删除至/来自URL的词、识别URL中的词或者它们的任一组合。在本发明的一个实施例中,与搜索查询和/或目标内容有关的元素数据被利用来组合比较结果。利用与搜索查询和/或目标内容有关的元数据的组合过程的描述可参见于2001年6月8日提交的相关的美国专利申请09/867,941,标题为“因特网流媒体工作流体系结构”(Internet Streaming MediaWorkflow Architecture”),或者如位置在http://www.singingfish.com的多媒体搜索引擎所示范的那样。此外,根据本发明,组合比较结果包括形成重构的链接或者重构的网页。重构的链接是至另一个网页的链接,它是根据在片段中所包含的模式和/或模式的一部分而形成的。重构的页是这样的页,它是根据在片断中所包含的模式和/或模式的一部分而形成的。形成重构的链接/页的规则是探试性地生成的。示例性的规则包括使用逗号分界的值的数目来确定几个可能的变体中的哪些将用于生成媒体链接;以及,使用用于描述可能的回放速度(以该速度可以获得媒体链接)的另一个片段的存在与否来生成媒体链接集,其中,如果所述片段缺少,则使用速度的缺省集。在步骤228,片段/网页搜索的结果可用于其它系统、用户、代理器或者它们的任意组合。在本发明的一个实施例中,所述结果被提供给存储器,其中,所述存储器是可以被其它系统/用户/代理器所访问。
为了实践上述过程,本发明可以按用计算机实现的过程和设备的形式来加以实现。本发明也可以按计算机程序代码的形式来加以实现,所述计算机程序代码包括在实际的媒体中,所述媒体例如是软盘、只读存储器(ROM)、CD-ROM、硬盘、高密度盘或者任何其它的计算机可读存储媒体,其中,当计算机程序代码加载到计算机中并由计算机执行时,计算机就成为实施本发明的设备。本发明还可以按计算机程序代码的形式来加以实现,例如,所述计算机程序代码或者是存储到存储媒体中,或者是加载到计算机中并由计算机执行,或者是通过某些传输媒体(诸如通过电线或者电缆、通过光纤,通过电磁辐射)进行传输,其中,当计算机程序代码被加载到计算机中并由计算机执行时,计算机就变成实施本发明的设备。当在通用计算机上实施时,计算机程序代码段就配置处理器以便建立具体的逻辑电路。
与现有技术的搜索引擎和/或代理器相比较,本发明的系统100能以更加有效的方式搜索网络中的目标内容,并且使用了更少的存储器和处理资源。通过将网页分解为片段并对片段进行搜索,模式是非常容易检测到的,原因在于片段已经是(根据预定和/或动态确定的模式)进行了分类。因此,所述系统可以包括页链接的更小的集合以及媒体链接检测器以便为每一片段而进行搜索。此外,对于大多数情况,不再需要维护处于处理中的每一网页的上下文环境,这样就进一步降低系统的复杂性。再者,通过将网页(以及片段)分解为片段,常规地在多个选定网站的每一个中所执行的许多相似的任务被组合为应用到所有网站的单一例程。这些优点尤其适合用于包括流媒体、多媒体、以及与它们相关的元数据的目标内容,原因在于大量的数据要被处理。
权利要求
1.一种用于搜索网络中的目标内容的方法,所述网络包括网页,所述方法包括如下步骤将每个遇到的网页分解为片段;以及搜索每个片段中与所述目标内容有关的内容。
2.权利要求1的方法,其中所述搜索步骤是递归执行的以便进一步搜索每个所述片段中的与所述目标内容有关的内容。
3.权利要求1的方法,其中所述分解步骤包括如下步骤将在每一网页中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行比较;为在与一种模式相匹配的每个网页上所包含的文本内容的每个模式生成相应的片段;将在每一相应片段中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行递归地比较;以及为在与一种模式相匹配的每个片段中所包含的文本内容的每个模式生成相应的片段。
4.权利要求3的方法,还包括如下步骤形成重构的链接,其中,重构的链接包括在一个片段中所包含的匹配的模式和匹配的模式的一部分中的至少之一。
5.权利要求3的方法,其中所述模式包括与在流媒体、多媒体、与流媒体有关的元数据、与多媒体有关的元数据以及其它网页中的至少一个有关的文本数据。
6.权利要求1的方法,还包括如下步骤组合所述搜索每一片段的结果,所述结果包括至统一资源指示符(URI)的至少一个链接,其中,所述组合步骤包括添加、删除以及识别在至少一个URI中所包含的词中的至少之一。
7.一种用于搜索网络中的目标内容的计算机系统,所述网络包括网页,所述计算机系统包括至少一台计算机,在所述系统中的所有计算机都是能通信的方式相互连接的,其中所述至少一台计算机中的每一台均包括在其中存储的至少一个程序,所述至少一个程序用于实现所述至少一台计算机中的每一台计算机之间的通信,所述至少一个程序中的每一个均结合另一个运行以使所述至少一台计算机执行如下步骤将每个遇到的网页分解为片段(218);以及搜索每个片段中与所述目标内容有关的内容。
8.权利要求7的计算机系统,其中所述搜索步骤是由所述至少一台计算机递归地执行的,以便进一步搜索每个所述片段中的与所述目标内容有关的内容。
9.权利要求7的计算机系统,其中所述至少一个程序使所述至少一台计算机执行如下步骤将在每一网页中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行比较(220);为在与一种模式相匹配的每个网页上所包含的文本内容的每个模式生成相应的片段;将在每一相应片段中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行递归比较;以及为在与一种模式相匹配的每个片段中所包含的文本内容的每个模式生成相应的片段。
10.权利要求9的计算机系统,其中所述至少一个程序使所述至少一台计算机执行如下步骤形成重构的链接,其中,重构的链接包括在一个片段中所包含的匹配的模式和匹配的模式的一部分中的至少之一。
11.权利要求9的计算机系统,其中所述模式包括与在流媒体、多媒体、与流媒体有关的元数据、与多媒体有关的元数据以及其它网页中的至少一个有关的文本数据。
12.权利要求7的计算机系统,其中所述至少一个程序使所述至少一台计算机执行如下步骤组合所述搜索每一片段的结果,所述结果包括至统一资源指示符(URI)的至少一个链接,其中,所述组合步骤包括添加、删除以及识别在至少一个URI中所包含的词中的至少之一。
13.一种在其上包括了用于使处理器搜索基于网络的内容中的目标内容的程序可读媒体,所述网络包括网页,所述程序可读媒体包括用于使所述处理器将每个遇到的网页分解为片段的装置;以及用于使所述处理器搜索每个片段中与所述目标内容有关的内容的装置。
14.权利要求13的程序可读媒体,其中所述用于使处理器搜索每个片段的装置是递归执行的,以便进一步搜索每个所述片段中的与所述目标内容有关的内容。
15.权利要求13的程序可读媒体,其中所述程序可读媒体还包括用于使所述处理器将在每一网页中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行比较的装置;用于使所述处理器为在与一种模式相匹配的每个网页上所包含的文本内容的每个模式生成相应的片段的装置;用于使所述处理器将在每一相应片段中所包含的文本内容与预定的和动态地确定的文本模式中至少之一进行递归比较的装置;以及用于使所述处理器为在与一种模式相匹配的每个片段中所包含的文本内容的每个模式生成相应的片段的装置。
16.权利要求15的程序可读媒体,其中所述程序可读媒体还包括用于使所述处理器形成重构的链接的装置,其中,重构的链接包括在一个片段中所包含的匹配的模式和匹配的模式的一部分中的至少之一。
17.权利要求15的程序可读媒体,其中所述模式包括与在流媒体、多媒体、与流媒体有关的元数据、与多媒体有关的元数据以及其它网页中的至少一个有关的文本数据。
18.权利要求13的程序可读媒体,其中所述程序可读媒体还包括用于使所述处理器组合所述搜索每一片段的结果的装置,所述结果包括至统一资源指示符(URI)的至少一个链接,其中,所述组合步骤包括添加、删除以及识别在至少一个URI中所包含的词中的至少之一。
19.一种体现为载波的数据信号,包括用于搜索网络中的目标内容的分解网页代码段,所述网络包括网页,其中所述分解网页代码段将每个遇到的网页分解为片段;以及用于搜索每个片段中与所述目标内容有关的内容的搜索片段代码段。
20.权利要求19的数据信号,其中用于搜索的所述搜索片段代码段是递归执行的,以便进一步搜索每个所述片段中的与所述目标内容有关的内容。
21.权利要求19的数据信号,还包括用于将在每一网页中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行比较的比较网页代码段;用于为在与一种模式相匹配的每个网页上所包含的文本内容的每个模式生成相应的片段的生成片断代码段;用于将在每一相应片段中所包含的文本内容与预定的和动态地确定的文本模式中至少之一进行递归比较的比较片断代码段;以及用于为在与一种模式相匹配的每个片段中所包含的文本内容的每个模式生成相应的片段的所述生成片断代码段。
22.权利要求21的数据信号,还包括用于形成重构的链接的形成重构链接代码段,其中,重构的链接包括在一个片段中所包含的匹配的模式和匹配的模式的一部分中的至少之一。
23.权利要求21的数据信号,其中所述模式包括与在流媒体、多媒体、与流媒体有关的元数据、与多媒体有关的元数据以及其它网页中的至少一个有关的文本数据。
24.权利要求19的数据信号,还包括用于组合所述搜索每一片段的结果的组合代码段,所述结果包括至统一资源指示符(URI)的至少一个链接,其中,所述组合步骤包括添加、删除以及识别在至少一个URI中所包含的词中的至少之一。
全文摘要
一种用于搜索网络中的目标内容(诸如媒体文件)的系统和方法将所遇到的网页分解为片段(218)。对于字符模式,对每一片段进行搜索,所述字符模式涉及到目标内容(220)。对每一片段搜索的结果进行组合(226),以便将基于网络的搜索结果提供给用户、代理器和/或系统(228)。与现有技术搜索引擎和/或代理器相比,所述系统和方法能以更加有效的方式搜索网络,并且使用了更少的存储器和处理资源。这尤其适合用于包括流媒体、多媒体、以及与它们有关的元数据的目标内容,原因在于有大量的数据要被处理。
文档编号G06F17/30GK1809827SQ01822162
公开日2006年7月26日 申请日期2001年11月20日 优先权日2000年11月21日
发明者P·T·桑农, B·S·米勒, S·C·-C·李, J·L·科拉 申请人:汤姆森许可公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1