统一地提取媒体对象的系统的制作方法

文档序号:6477048阅读:137来源:国知局
专利名称:统一地提取媒体对象的系统的制作方法
技术领域
本发明领域总体上涉及到有关计算机的信息搜索和检索,具体而言,涉及到从媒体对象中提取元数据。
作为理解本发明的背景,因特网(也称为万维网或者Web)在其普及方面作出的贡献使得用户可以利用的多媒体和流媒体文件供过于求。然而,查找淹没于web上的数以万计的文件之中的具体多媒体或流媒体文件却常常是一件极其困难的任务。可从web上获得的信息内容的容量和种类可能在以相当可观的速度持续增加。这样的增长结合web的高度分散性使得在定位特定信息内容方面会产生相当大的困难。
流媒体是指这样的音频、视频、多媒体、文本以及交互式数据文件,它们通过因特网或者其它网络环境传送到用户的计算机,并在整个文件都传送完毕之前就开始在用户的计算机上播放。流媒体的一个优点在于在整个文件都被下载之前,流媒体文件就开始播放,从而免去用户长久等待,这种长久等待通常是与下载整个文件相关联的。以数字方式记录的音乐、电影、预告片、新闻报道、无线广播以及事件实况都有助于增加web上的流内容。此外,不怎么昂贵的高带宽连接(诸如电缆、DSL以及T1)使因特网用户能更加快速、更加可靠地访问新闻机构、好莱坞电影制片商、独立生产商、记录标记、甚至家庭用户的流媒体内容。
用户通常使用搜索引擎搜索因特网上的具体信息。搜索引擎包括一组在网络(例如局域网(LAN)、因特网、以及万维网)中的网络站点上可被访问的程序。被称为“机器人”或“蜘蛛”的程序在搜索文档(例如网页)时预先遍历网络,然后其他用户可以激活一个超链接来查看在所述文档中包含的信息。
当搜索媒体文件(诸如多媒体以及流媒体)时,利用提取器来提取属于媒体文件的信息。媒体文件,也称为媒体对象,是以多种格式(诸如WINDOW MEDIA PLAYER以及REAL AUDIO)存在的。通常,使用专用提取器(只与专用媒体格式相兼容)。例如,与WINDOW MEDIAPLAYER格式相兼容的提取器就与采用REAL AUDIO格式的媒体对象不兼容。再者,在各种媒体对象中所包含的元数据的结构随着格式的不同而不同。在常规的搜索系统中,每种媒体格式均需要不同的提取器来从该媒体对象中提取相关信息。然后,为了形成搜索索引,所提取的输出被独立地处理。独立地处理所提取的每个输出需要相当多的系统资源。因此,需要一种不受前述缺陷和劣势所限制的搜索系统。
本发明是一种用于从媒体对象中提取信息的系统,所述系统包括媒体对象分类器、提取器分配代理器、多格式提取器以及编译器。媒体对象分类器确定媒体对象的格式。提取器分配代理器选择与所确定的格式兼容的格式兼容提取器。多格式提取器包括多个提取器,每一个提取器都是格式兼容提取器。格式兼容提取器从媒体对象中提取信息。编译器根据通用数据结构编译所提取的信息,其中通用数据结构的格式与多种媒体对象格式相兼容。


对于本发明,通过结合附图阅读以下详细的描述能够得到最好的理解。附图的各种技术特征可以是不按照比例的。包括在附图中的是以下的图图1是互联的计算机系统网络的系统的形式化概要说明;图2是用于执行本发明的通用提取过程的流程图;图3是本发明的通用提取器的功能框图。
因特网是世界范围的计算机网络系统,它是其中一台计算机的用户能够从任何其他计算机中获得信息以及与其他计算机的用户进行通信的网络的网络。因特网最广泛应用的部分是万维网(常缩写为“WWW”或者称为“Web”)。Web的突出特征是使用超文本,它是一种交叉引用的方法。在大多数的网站中,某些单词或者短语是以不同于周围文本颜色的文本出现的。这种文本常常还有下划线。有时,是“可点击”的按钮、图像或者部分图像。使用Web可以访问数以万计的信息页。网上“冲浪”是通过Web浏览器(诸如NETSCAPE NAVI GATOR以及MICROSOFT INTERNET EXPLORER)实现的。特定网站的外观可以有少量变化,这取决于所使用的特定浏览器。最近版本的浏览器带有“插件(plugins)”,它们提供动画、虚拟现实、声音和音乐。
在此所使用的术语“媒体文件”以及“媒体对象”包括音频、视频、文本、多媒体数据文件以及流媒体文件。多媒体文件包括文本、图像、视频以及音频数据的任意组合。流媒体包括音频、视频、多媒体、文本以及交互式数据文件,它们是通过因特网或者其它通信网络环境传送到用户的计算机的,并且在整个文件都传送完毕之前就开始在用户的计算机/设备上播放。流媒体的一个优点在于在整个文件都被下载之前,流媒体文件就开始播放,从而免去了用户长久等待,这种长久等待通常是与下载整个文件相关联的。以数字方式记录的音乐、电影、预告片、新闻报道、无线广播以及事件实况都有助于增加Web上的流内容。此外,通过使用高带宽连接(诸如电缆、DSL、T1线以及无线网络(例如基于2.5G或者3G的蜂窝网络))而在通信网络成本上的降低会使因特网用户能更加快速、更加可靠地访问新闻机构、好莱坞电影制片商、独立生产商、记录标记、甚至家居用户他们自己的流媒体内容。
流媒体的例子包括歌曲、政治演讲、新闻广播、电影预告片、实况广播、无线广播、财政新闻发布会、现场音乐厅、网络摄像机(web-cam)的连续镜头以及其他特殊事件。流媒体的编码采用各种格式,包括REALAUDIO、REALVIDEO、REALMEDIA、APPLE QUICKTIME、MICROSOFT WINDOWSMEDIA FORMAT、QUICKTIME、MPEG-2 LAYER IIIAUDIO以及MP3。通常,媒体文件指定有扩展名(后缀),用于指示与具体格式的兼容性。例如,以扩展名.ram,.rm,.rpm之一结尾的媒体文件(例如音频和视频文件)与REALMEDIA格式相兼容。在下表中列出了文件扩展名以及与它们相兼容的格式的一些例子。更详尽的媒体类型、扩展名以及兼容格式的列表可以在http//www.bowers.cc/extensions2.htm中查找到。
表1

作为描述性数据的元数据字面意思是“关于数据的数据”。元数据是这样的数据,它包括描述其他数据(例如媒体文件)的内容或者属性的信息。例如,标题为“用于资源发现的都柏林核心元数据”(http//www.ietf.org/rfc/rfc2413.txt)的文档将元数据分为三组,它们概略地指示在其中所包含的信息的类别或者范围。这三个组是(1)主要与资源内容有关系的元素,(2)按知识产权观看时主要与资源有关系的元素,以及(3)主要与资源的实例化有关系的元素。落在这些组的元数据的例子表示在下表中。
表2

元数据的来源包括网页内容、统一资源指示符(URI)、媒体文件以及用于传送媒体文件的传输流。网页内容包括HTML、XML、元标记以及在网页上的任何其它文本。如在此更加详细的解释,元数据还可以从网页的URI、媒体文件以及其它元数据中获得。在媒体文件之中的元数据可能包括媒体文件中所包含的信息,例如多媒体或者流文件的诸如头标和尾标。元数据还可以从例如媒体/元数据的传输流诸如TCP/IP(例如包)、ATM、帧中继、基于蜂窝的传输模式(例如基于蜂窝的电话模式)、MPEG传输、HDTV广播以及基于无线的传输中获得。元数据还可以在流中并行地传输或者作为用于传输媒体文件的流的一部分传输(高清晰度电视广播在一个流上传输,元数据则采用电子可编程向导的形式在第二流上传输)。
参考图1,它表示互联的计算机系统网络102和112的系统100的形式化的概要说明。每个计算机系统网络102和112包括至少一个对应的本地计算机处理器单元104(例如服务器)以及本地网络用户108,其中所述本地计算机处理器单元104与至少一个对应的本地数据存储单元106(例如数据库)相连。例如,计算机系统网络可以是局域网(LAN)102或者是广域网(WAN)112。本地计算机处理器单元104通过网络(例如因特网)114选择性地连到多个媒体设备110。多个本地计算机处理器单元104中的每一个、网络用户处理器108和/或媒体设备110具有与其本地计算机系统相连接的各种设备,诸如扫描仪、条形码读取器、打印机以及其它接口设备。为了访问网页的内容,本地计算机处理器104、网络用户处理器108和/或媒体设备110(与WEB浏览器一起被编程)(例如通过使用鼠标点击)定位和选择特定网页,所述特定网页的内容位于计算机系统网络102,112的本地数据存储单元106中。网页可以包含至其它计算机系统和其它网页的链接。
本地计算机处理器104、网络用户处理器108和/或媒体设备110可以是计算机终端、能够使用网际协议(IP)通过因特网进行通信的寻呼机、具有因特网接入的公用电话亭、相连接的电子规划器(planner)(例如Palm公司所制造的掌上(Palm)设备)或者能够通过网络进行交互式通信的其它设备(诸如电子个人规划器)。本地计算机处理器104、网络用户处理器108和/或媒体设备110也可以是使用无线访问协议(WAP)连接到因特网以及通过因特网进行通信的无线设备,诸如手持式装置(例如蜂窝电话)。网络102和112可以通过调制解调器连接、局域网(LAN)、电缆调制解调器、数字用户线(DSL)、双绞线、基于无线的接口(蜂窝,红外,无线电波)或者利用数据信号的等效的连接与网络114相连接。数据库106可以通过本领域已知的任何装置与本地计算机处理器单元104相连接。数据库106可以采用任何类型合适的存储器形式(例如磁、光等等)。数据库106可以是外部存储器或者位于本地计算机处理器104、网络用户处理器108和/或媒体设备110之中。
计算机还可以包括嵌入在消费产品之中的计算机以及其它计算机。例如,本发明的实施例可以包括嵌入在电视机、机顶盒、音频/视频接收机、CD播放器、VCR、DVD播放器、多媒体使能设备(例如电话)以及因特网使能的设备中的计算机(充当处理器)。
在本发明的示范性实施例中,网络用户处理器108和/或媒体设备110包括通过网络114使用户处理器108和/或媒体设备110能与本地处理器104相互通信并且彼此相通信的一个或多个程序模块以及一个或多个数据库。程序模块包括程序代码,所述程序代码是用PERL、扩展标记语言(XML)、Java、超文本标记语言(HTML)或者使网络用户处理器108能够通过存储在网络用户处理器108之中的浏览器程序访问本地处理器104的程序模块的任何其它等效的语言编写的。
网站和网页位于网络(诸如因特网)中,信息(内容)驻留在所述网络中。网站可以包括单一的或者若干个网页。网页是通过统一资源定位符(URL)来标识的,所述统一资源定位符包括网络上的网页的位置(地址)。网站以及网页可以位于局域网102、广域网112、网络114、处理单元(例如服务器)104、用户处理器108和/或媒体设备110之中。信息或者内容可以存储在例如任何存储设备(诸如硬盘、光盘以及主机设备)之中。内容可以采用各种格式存储,所述格式可以随网站的不同,甚至是网页的不同而不同。
根据本发明,对媒体对象(诸如多媒体和流媒体对象)进行搜索,以便利用与媒体对象有关的元数据。为了实现这一目的,用提取器(也称为提取代理器)从媒体对象中提取元数据。提取器包括处理器和/或能够从媒体对象中提取具体信息的软件。例如,提取器可以是从与基于MP3的音乐文件相关联的ID3标记中提取元数据的网上爬行器(webcrawler)。在本发明的一个实施例中,使用了通用提取器;其中,通用提取器包括从多个媒体格式中提取信息的功能并且采用单一的公共输出表示形式来提供所述信息。
图2是用于执行本发明的通用提取过程的流程图。图3是本发明的通用提取器的功能框图。参考图2和图3,在步骤22,接收媒体对象和/或对媒体对象的链接。媒体对象和/或对媒体对象的链接可以从任何合适的源(诸如因特网上的网页)或者从数据库中接收。例如,搜索媒体对象(例如多媒体、流媒体)的搜索系统可以定位包含有涉及到所搜索的媒体对象的信息的网页。根据本发明,对这些网页的链接通过搜索系统提供给通用提取器。在步骤24,媒体对象类型和格式分类器40分析所链接的网页以便确定媒体对象类型和格式。媒体对象类型和格式分类器40可以是能够确定所接收的媒体对象的类型和格式的任何处理器或软件实体。因此,媒体对象类型和格式分类器40可以包括个人计算机、服务器处理器、大型计算机、微处理器、软件代码段或者它们的组合。媒体对象可以包括与都柏林核心、MPEG-7、XML或者其它已形成的定义了表示性元数据的关系标准相兼容的媒体对象的任意组合。(所支持的元数据形式并不受本发明操作的约束)。媒体对象类型的例子包括音频、视频、文本、多媒体以及流媒体。媒体对象格式的例子包括REALAUDIO、REALVIDEO、REALMEDIA、APPLEQUICKTIME、MICROSOFT WINDOWSMEDIA FORMAT、QUICKTIME、MPEG-2 LAYER III AUDIO以及MP3。在本发明的一个实施例中,例如,媒体对象的类型和格式是通过评估媒体对象的扩展名、MIME类型、识别媒体对象的URI中的模式、分析包括有媒体对象的元文件以及它们的组合而确定的。MIME(多功能因特网邮件扩展)是指在因特网上所公共使用的标准,它指定用于邮件通信的格式。MIME格式标准也充当超文本传输协议(HTTP)的一部分,超文本传输协议是因特网上由处理器(诸如Web服务器和Web浏览器)最普遍使用的用于互相通信的协议。对媒体对象的URI(最好是完全的URI)的模式的识别有助于确定包括媒体对象的媒体元文件的结构以及对应于所述结构的元类型。元文件是包括有相当于具体媒体类型的结构的文本可读文件(ASCII、XML)(例如REAL NETWORKS使用RAM或SMIL元文件来描述并且包括至少一个REAL媒体对象)。同步多媒体整合语言(SMIL)文件是类HTML的文件,它们使用XML语法来捆绑视频、音频、文本、图形图像以及超链接。来自上述所列出的源的信息有助于对媒体对象(例如REALMEDIA、WINDOWS MEDIA PLAYER、MP3)的编码系列以及媒体对象的流格式(REAL G2VIDEO、WINDOWSAUDIO4、MP3PRO)进行分类。
在步骤26,一旦对媒体对象的类型和格式进行了分类,提取器分配代理器42就选择所分类的媒体对象并将其分配给多格式提取器44中的一个提取器。提取器分配代理器42可以是能够确定所接收的媒体对象的类型和格式的软件实体的任何处理器。因此,提取器分配代理器42可以包括个人计算机、服务器处理器、大型计算机、微处理器、软件代码段或者它们的组合。多格式提取器44包括多个提取器(最好是位于单一的设备和程序之中)以便从每个媒体对象中提取信息(诸如元数据)。包括在多格式提取器4 4中的提取器的例子包括与EALAUDIO、REALVIDEO、REALMEDIA、APPLE QUICKTIME、MICROSOFTWINDOWSMEDIA FORMAT、QUICKTIME、MPEG-2 LAYER III AUDIO以及MP3格式相兼容的提取器。多格式提取器44可以是能够确定所接收的媒体对象的类型和格式的软件实体的任何处理器。因此,多格式提取器44可以包括个人计算机、服务器处理器、大型计算机、微处理器、软件代码段或者它们的组合。在步骤28,所分配的提取器根据媒体对象的媒体格式从媒体对象中提取信息(诸如元数据)。
在步骤30,所提取的信息通过编译器46编译成通用数据结构,从而使通用数据结构的格式与多种媒体对象格式相兼容。也就是说,不管正被提取的媒体对象是什么类型和格式,所提取的信息均被编译成与所有后续处理相兼容的单一格式,因此就不需要为每种媒体对象类型和格式提供单独的接口和处理器。编译器46可以是能够确定所接收的媒体对象的类型和格式的软件实体的任何处理器。因此,编译器46可以包括个人计算机、服务器处理器、大型计算机、微处理器、软件代码段或者它们的组合。
在本发明的一个实施例中,提取命令被分派到多格式提取器44,并且所提取的信息是使用Java本地接口(JNI)通过Java进程编译成通用数据格式的。JavaTM是公共用于编写嵌入在因特网网页中的程序的众所周知的编程语言。JavaTM程序使用流。JavaTM流作为提供给JavaTM程序或从其接收的数据是可视化的。JNI是一个编程接口,用于提供JavaTM应用程序与采用其它语言编写的应用程序之间的接口。术语“本地”是指本地方法。本地方法例如是采用除Java以外的语言(诸如C、C++、汇编语言)所编写的函数。因此,JNI是一个用于提供JavaTM应用程序与本地方法之间的接口的编程接口。根据本发明,多格式提取器44包括相应于每个可能的流类型(即媒体类型和格式)的提取器对象(即提取器),Java进程将其提交给多格式提取器44以便提取元数据。此外,所提取的元数据由编译器46并入到单一的流类型中。所提取的元数据被编译成与媒体对象标准(诸如都柏林核心、MPEG-7、XML)或者其它已形成的定义了表示性元数据的关系标准相兼容。在本发明的另一个实施例中,所提取的元数据通过使用样式表格式化成与媒体对象标准相兼容。样式表是一种编程工具,它使用户/程序员能够控制网页样式的各方面,诸如字体、颜色、边界以及字形。
在步骤32,所提取的信息可用于搜索系统、用户或者这两者。在本发明的一个实施例中,所提取的信息排在数据队列中,并且对搜索系统中的所有代理器(诸如处理器、代码段)都是可以利用的。可选地,在步骤34,将所提取的信息存储在数据库48中。数据库48可以包括任何类型的存储装置、用于存储和管理数据库的关系数据库管理系统(DBMS)或者它们的组合。因此,在数据库48中所存储的信息对于系统是可以访问的,以便进行后续处理。
为了实践上述步骤,本发明可以按用计算机实现的过程和设备的形式来加以实现。本发明也可以按计算机程序代码的形式来加以实现,所述计算机程序代码包括在实际的媒体中,所述媒体例如是软盘、只读存储器(ROM)、CD-ROM、硬盘、高密度盘或者任何其它的计算机可读存储媒体,其中,当计算机程序代码加载到计算机中并由计算机执行时,计算机就成为实践本发明的设备。本发明还可以按计算机程序代码的形式来加以实现,例如,或者是存储到存储媒体中,或者是加载到计算机中并由计算机执行,或者是通过某些传输媒体(诸如通过电线或者电缆、通过光纤、通过电磁辐射)进行传输,其中,当计算机程序代码被加载到计算机中并由计算机执行时,计算机就变成实践本发明的设备。当在通用计算机上实现时,计算机程序代码段就配置处理器以便产生具体的逻辑电路。
权利要求
1.一种用于从媒体对象中提取信息的方法,所述方法包括如下步骤确定媒体对象的格式;选择与所述确定的格式相兼容的格式兼容提取器;通过所述格式兼容提取器从所述媒体对象中提取信息;以及根据通用数据结构编译所述提取的信息,其中所述通用数据结构的格式与多种媒体对象格式相兼容。
2.权利要求1的方法,其中所述媒体对象包括多媒体和流媒体中的至少一种。
3.权利要求1的方法,其中所述提取的信息包括与所述媒体对象有关的元数据。
4.权利要求1的方法,其中所述确定所述媒体对象的格式的步骤包括评估所述媒体对象的文件扩展名、所述媒体对象的多功能因特网邮件扩展(MIME)类型中的至少一种;识别所述媒体对象的URI中的模式;以及分析包括有所述媒体对象的元文件。
5.权利要求1的方法,其中所述媒体对象格式与从下列组中选择的至少一种标准相兼容,所述组包括都柏林核心、MPEG-7、XML以及已形成的定义了表示性元数据的关系标准。
6.一种用于从媒体对象中提取信息的系统,所述系统包括用于确定媒体对象的格式的媒体对象分类器(40);用于选择与所述确定的格式相兼容的格式兼容提取器的提取器分配代理器(42);包括多个提取器的多格式提取器(40),所述多个提取器中的至少一个是所述格式兼容提取器,其中所述格式兼容提取器从所述媒体对象中提取信息;以及用于根据通用数据结构编译所述提取的信息的编译器(46),其中所述通用数据结构的格式与多种媒体对象格式相兼容。
7.权利要求6的系统,还包括存储所述提取的信息的数据库(48)。
8.权利要求6的系统,其中所述媒体对象包括多媒体和流媒体中的至少一种。
9.权利要求6的系统,其中所述提取的信息包括与所述媒体对象有关的元数据。
10.权利要求6的系统,其中所述媒体对象分类器(40)进行如下操作评估所述媒体对象的文件扩展名、所述媒体对象的多功能因特网邮件扩展(MIME)类型中的至少一种,以便确定所述媒体对象的格式;识别所述媒体对象的URI中的模式;以及分析包括有所述媒体对象的元文件。
11.权利要求6的系统,其中所述提取的信息包括与所述媒体对象有关的元数据。
12.一种在其上包括了用于使处理器从媒体对象中提取信息的程序的程序可读媒体,所述程序可读媒体包括用于使所述处理器来确定媒体对象的格式的装置;用于使所述处理器来选择与所述确定的格式相兼容的格式兼容提取器的装置;用于使所述处理器来通过所述格式兼容提取器从所述媒体对象中提取信息的装置;以及用于使所述处理器来根据通用数据结构编译所述提取的信息的装置,其中所述通用数据结构的格式与多种媒体对象格式相兼容。
13.权利要求12的程序可读媒体,其中所述媒体对象包括多媒体和流媒体中的至少一种。
14.权利要求12的程序可读媒体,其中所述提取的信息包括与所述媒体对象有关的元数据。
15.权利要求12的程序可读媒体,其中用于使所述处理器来确定所述媒体对象的格式的所述装置包括评估所述媒体对象的文件扩展名、所述媒体对象的多功能因特网邮件扩展(MIME)类型中的至少一种;识别所述媒体对象的URI中的模式;以及分析包括有所述媒体对象的元文件。
16.权利要求12的程序可读媒体,其中所述媒体对象格式与从下列组中选择的至少一种标准相兼容,所述组包括都柏林核心、MPEG-7、XML以及已形成的定义了表示性元数据的关系标准。
17.一种体现为载波的数据信号,包括用于确定媒体对象的格式的确定格式代码段;用于选择与所述确定的格式相兼容的格式兼容提取器的选择提取器代码段;用于通过所述格式兼容提取器从所述媒体对象中提取信息的提取代码段;以及用于根据通用数据结构编译所述提取的信息的编译代码段,其中所述通用数据结构的格式与多种媒体对象格式相兼容。
18.权利要求17的数据信号,其中所述媒体对象包括多媒体和流媒体中的至少一种。
19.权利要求17的数据信号,其中所述提取的信息包括与所述媒体对象有关的元数据。
20.权利要求17的数据信号,其中所述确定格式代码段评估所述媒体对象的文件扩展名、所述媒体对象的多功能因特网邮件扩展(MIME)类型中的至少一种;识别所述媒体对象的URI中的模式;以及分析包括有所述媒体对象的元文件。
21.权利要求17的数据信号,其中所述媒体对象格式与从下列组中选择的至少一种标准相兼容,所述组包括都柏林核心、MPEG-7、XML以及已形成的定义了表示性元数据的关系标准。
全文摘要
一种从媒体对象(诸如多媒体对象或者流媒体对象)中提取信息(诸如元数据)的系统和方法利用单一的设备(44)从具有不同格式的多个媒体对象中提取信息。检查所述媒体对象以便确定其格式(40)。然后,将所述媒体对象提供给多格式提取器(44),其中信息是根据对应的格式从所述媒体对象中提取的。所述提取的信息被编译(46)成单一的数据格式,从而使通用数据结构的格式与多种媒体对象的格式相兼容。
文档编号G06F17/30GK1486467SQ01822164
公开日2004年3月31日 申请日期2001年11月20日 优先权日2000年11月21日
发明者J·L·科拉, J L 科拉, B·S·米勒, 米勒, -C 李, S·C·-C·李 申请人:汤姆森许可公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1