一种多媒体元数据统一描述及检索方法

文档序号:6613686阅读:182来源:国知局
专利名称:一种多媒体元数据统一描述及检索方法
技术领域
本发明属于计算机技术领域,是一种面向海量多媒体信息资源管理的、 可扩展、可维护的,支持大规模部署应用的面向索引的数字多媒体元数据
(Metadata)统一描述及其检索方法。本发明可应用于对多媒体信息资源进 行编目、上载、检索、交换等处理的系统或平台。
背景技术
网络上多媒体信息资源的种类繁多,主要可分为图像,视频,文本,音 频四个方面。这四个方面根据格式、特点、应用目的不同,分别有其资源描 述形式,并且不同资源之间存在联系和交互,能够将其进行合理统一的描述 和定义是对资源进行管理与应用开发的基础。另外,对于应用了元数据统一 描述的资源进行检索和交换将变得更加有效、快捷、精确。
目前,已有的关于元数据描述的相关技术有
(1) RSU3 Collection Descriptions;
RSUP是The Research Support Libraries Program的简禾尔,其 Collection Descriptions为建立描述资源集合的元数据,对资源集合 的生成、描述和管理中可能涉及到的实体及其相互管理进行分析,定义 了 collection描述的四个大类,分别是Unitary Finding-Aid、 Hierarchic Finding—Aid (主要面向档案资源)、Analytic Finding—Aid
(主要面向图书书目)、Indexing Finding-Aid 。 RSLP Collection Descriptions描述的对象有图书馆、博物馆、档案馆、和互联网上的 收藏品(Collection)、目录(Catalogue) 、 Finding-Aid 、 Index等 物理或数字资源。资源格式有文本(Text)、图像(Image)、声音(Sound)、 数据集(Dataset)、软件(Software)、交互的资源(Interactive Resource)、事件(Event)、物理对象(Physical Object)。RSLP Collection Descriptions采用XML/RDF来编码资源集合描述。它的元数据集分别从 DC (Dublin Core) 、 DCQ (DC Qualifiers) 、 vCard元数据集中复用相 关元素,并自定义了若干集合层描述元数据(命名域为cld""Collection Level Description)。整个元数据集分为资源集合(Collection)、资 源地址(Location)及与收集或管理资源集合相关的人或机构(Agent) 三个元素区,每个元素区内含若干个元素,元素可能有若干属性。
(2) DC CD;
DC CD (The Dublin Core Collection Description Working Group), 即都柏林核心资源集合描述工作组为现有资源集合描述活动提供了一个 信息交流和共享的讨论平台,开发出了一个基于DC的资源集合描述应用 纲要,该纲要定义了一系列用于资源集合描述的属性及其语义,定义了 资源集合类型及其可能的取值,给出了RDF Schema和XML Schemas。
(3) EAD;
EAD的起源是从1993年加州伯克利图书馆的伯克利指引计划 (Berkeley Finding Aids Project)而来。该计划的目标是要以电子形 式的finding aids,来盘点、清查档案资料,并为其做索引。EAD目前是 由美国国会图书馆的网络发展与MARC标准小组(Library of Congress, Network Development and MARC Standards Office)所维护,并由美国 档案学会(Society of American Archivists)协助管理及发展。EAD利 用层级性的构架,完整的描述档案及手稿,希望能由描述性资料来协助档 案专家做深入的研究。
(4) ZCollection;
ZCollection是Z39. 50 Profile for Access to Digital Collections 的简称。Zcollection认为, 一个资源集合(Collection)包含多个子集 合(Child collections),每个子集合又包含多个对象(Objects),这 些子集合和对象都可能有自己的描述性记录(Descriptive Record/Desc Rec)和关联描述(Associated Description/AD);这些子集合和对象或 它们的描述记录/关联记录在物理上可能是存放于分布在不同服务器上的 数据库里。另一方面, 一个资源集合可能隶属于不同的父资源集合(Parent collections),这些父资源集合组成上层资源集合(Superior collections),可能还有其它关耳关资源集合(Related collections), 它们与上层资源集合一起组成关联资源集合(Context collections)。
此外,在多媒体资源描述方面我国做了许多相关工作,并制定了一些规 范。简述如下
我国国家广播电影电视总局根据我国广播电视行业实际情况及媒体资产 管理应用的需要,参考国际上以电子资源为主要著录对象的DC元数据标准, 确定了广播、电视音像资料编目规范。确定编目的基本元数据项以及统一的 编目结构、层次及著录项目,实现广播资料编目和应用的标准化。
我国数字图书馆与标准规范建设项目中的"专门元数据"子项目组起草 制定了电子图书元数据规范。实现了对电子图书内容及形式特征的规范描述。
我国数字图书馆与标准规范建设项目"专门数字对象元数据规范"子项 目组为保证网络资源元数据规范与其他元数据规范在功能、数据结构、格式、 语义语法等方面的一致性和整体性,同时为了实现更大范围内的数字图书馆 之间的互操作和数据共享,制订了网络资源元数据规范。
这些规范针对不同形式的多媒体信息资源,分别进行了详细而明确的规 定。但是,这些规范都存在着一些局限性,具体表现在
(1) 没有一个确定成型的框架,难以对各种不同类型的多媒体资 源做统一描述。
(2) 如果一个多媒体资源,分别属于不同的类型,那么在做统一 描述的时候,会遇到编目规范不一致,并可能产生同义词和一词多义现 象,导致管理上的紊乱。
(3) 在编目规范的各项之间,缺乏语义关联,产生的编目项基本 都是孤立的,无法进一步进行语义査询。
(4) 如果我们对多媒体信息资源做整合管理,为了分别符合各项 不同的规范会导致子项增多,检索比较麻烦,不利于节省资源,提高性 能。
(5) 对一项多媒体资源,可能需要以视频,音频,图片,文本等 几种方式按照其不同的规范分别予以存储,导致资源空间的浪费与管理 的艰难。"
随着计算机与网络技术的发展,多媒体信息资源呈几何级数增长,类型 繁多,用户寻找与利用信息的难度大大增加。媒体内容的管理面临着业务多 样化,资源复杂化等挑战。而旧的媒体资源信息的组织和应用形式比较混乱, 逻辑性弱,可扩展性不强,对于多种多样的多媒体资源缺乏必要的组织框架, 鉴别和管理能力较弱。

发明内容
.本发明的目的是能够采用统一的元数据描述标准统一描述视频、音频、 图片、文本等多媒体资料,分别依据基础元数据和扩展元数据生成基础索引 和扩展索引。不仅能够支持不同系统之间的元数据交换,而且基础索引和扩 展索引相结合,能够实现多媒体数据的快速和精确检索,提高检索的精度。 本发明提供了一种多媒体信息资源的元数据统一描述方法,其特征在于:
基于本体论的理念,通过资源描述框架(Resource Description
Framework,简称RDF,下同)和XML结合,为媒体资源进行统一的元数据描
述,并在此基础上,加入一定的逻辑和推理,以此来组织和利用多媒体资源 自 -
1 Fl 'K、 o
该元数据标准在柏林核心集(DC)的基础上,引入基础元数据(Basic Metadata)和扩展元数据(Expand Metadata)的思想,建立多媒体资源描述 本体,对其进行统一描述。 一方面能够满足绝大多数多媒体资源的现有元数 据形式,另一方面方便根据应用的不同进行自定义和扩展。基础元数据以DC 定义的15个基本元素(见附图)为基础,可以生成基础索引;扩展元数据可 以是用户自行扩展或者是非结构化多媒体数据的特征描述数据,可以生成扩 展索引。
首先,基础元数据复用都柏林核心集的15个基本元素,作为必选项,无 论视频、音频、图像、文本,都用它们进行描述,作为资源的基本标识。基 础元数据为多媒体资源的基本应用提供定义,支持基本的管理、査询等操作。
然后,定义扩展元数据。它们是对于不同类型的资源做的元数据的细分 和定义的扩展。可根据业务或操作侧重的不同进行选择使用。扩展元数据分 为三大类,具体说明如下
(1) 资源本体扩展元数据
本体(ontology)能够以一种显式、形式化的方式来表示语义,提高 异构系统之间的互操作性,促进知识共享。它可应用在人与组织间的信 息交流、系统间的互操作、软件工程等。本发明应用本体的理念,定义 四类资源本体元数据,综合了视频、音频、图片、文本资源的特点,将 基础元数据予以展开,根据不同资源类型的特点增加个性的内容,以元 数据子项的形式保存,并定义资源标识之间的联系。
例如,为'了说明文本资源中包含的插图和图标(在其他类型的资源中 不需要说明),可以设定annotations属性。为了更好的描述某个视频 资源,可以提取一组关键帧图片,使用视频资源的扩展元数据进行描述。 .总之,通过建立标识项,定义标识项属性,并建立属性之间关系。
(2) 管理信息扩展元数据. 定义了元数据存储管理的内容,对媒体资源在资源库中的保存和利用
形式予以统一描述和定义。包括访问权限,更新方法,更新周期,资源大小, 获取途径等元素。
(3) 交换信息扩展元数据定义了元数据交换管理的内容、规则、关键字,实现元数据信息的交 换,以达到知识的重用与共享。 最后,对基础元数据与扩展元数据之间的关系也进行了标识和定义,将 几类元数据有效的整合在一起,清晰、完整、 一致、可扩展,从而达到资源 的统一有序描述,最大限度的利用现有的海量多媒体资源,并支持在其上面 的不同类型业务系统的开发。
所述的多媒体信息资源的元数据统一描述方法进行检索的方法,其特征 在于
对于进行了上述元数据统一描述的多媒体信息资源,能够实现快速、有 效的检索。如前所述,使用基础元数据和扩展元数据对资源进行统一描述。 可基于基础元数据生成文本索引,基于扩展元数据生成扩展索引。
在检索的时候,首先对基础索引进行检索。由于文本索引的搜索速度很 快,所以能够快速的定位和縮小资源的范围,甚至对于一般应用便可以找到 目标资源。然后,可以对扩展索引进行检索。例如在关键帧库中检索对应的 视频。这样便能够实现在己经縮小的范围内精确的定位到目标资源。
另外,可以方便地实现对基于元数据统一描述的资源的数据交换。 统一描述的方法可以有效地实现资源的整合,在数据交换时能够方便的被交 换双方识别、处理。
本发明的优点不仅解决了多媒体元数据的统一描述问题,而且在快速 检索的基础上实现了多媒体数据的精确检索。
对四大类多媒体信息资源实现了语义化的整合描述框架,便于保存,节 省系统空间,结果清晰,语义明确,最大程度上避免了由于定义不一致性所 产生的误解, 一词多义等现象。
能够为内容索引与搜索服务提供支撑,极大的提高了检索速度和精确性, 并能够在一定程度上支持智能化的语义检索,与逻辑推理。
架构的开放性强,扩展性好。在未来新兴媒体内容纷纷出现的情况下, 能够适应新情况,解决新问题,能够以比较小的代价进行整合。


.
图1 DC基本元素示意图 图2多媒体资源描述的框架 阁3多媒体资源统一描述模型
图4多媒体资源元数据统一描述在媒资管理信息检索中的应用 图5具体实施的系统架构图
具体实施例方式
本发明在《基于IPv6的广播影视资料P2P内容存取中间件系统》项目中 得到了有效应用。本实施例中开发计算机为"DELL GX520, Intel (R) Pentium(R)4CPU 3. OOGHz, 2GB内存,80G硬盘"。开发环境为Microsoft Visual Studio 2003,编程语言为Ctt。系统运行环境为Windows XP以上版本的操作 系统(安装Microsoft .NET Frameworkl. 1)。
首先,多媒体信息资源元数据统一描述方法为数字多媒体内容提供了定 义与规范信息,对广播影视资料的元数据进行了统一组织管理,为海量资源 的存储提供了基础支持。
其次,在本体库的基础上建立了基础索引和扩展索引库,通过对标识项
之间属性联系的归纳与推理,支持对多媒休资源信息一定程度的语义杏询。
并且,在元数据信息交换方面,实现安全,合理,扩展性强的数据交换 系统。避免了传统元数据交换形式容易导致的误解,规则不统一,需要二次 归纳等缺点。
在实现本体建立的时候选用了斯坦福大学开发的prot6g6作为本体生成 器。prot6g6是一个斯坦福大学开发的本体论编辑和知识获取软件。开发语言 为Java,为开放源码软件.由于其优秀的设计和众多的插件,Prot6g6是目 前使用最广泛的本体论编辑器。在保存方面采用了基于xml形式的owl语言。 同时采用了 Racer pro作为推理机以验证本体语法的正确性。最终用owl语 言以xml的形式实现本体描述。
权利要求
1、一种多媒体信息资源的元数据统一描述方法,其特征在于基于本体论的理念,通过资源描述框架和XML结合,为媒体资源进行统一的元数据描述标准;该元数据描述标准在柏林核心集的基础上,引入基础元数据和扩展元数据,建立多媒体资源描述本体,对其进行统一描述;基础元数据以柏林核心集DC定义的15个基本元素为基础,生成基础索引;扩展元数据是用户自行扩展或者是非结构化多媒体数据的特征描述数据,生成扩展索引;首先,基础元数据复用都柏林核心集的15个基本元素,作为必选项,无论视频、音频、图像、文本,都用它们进行描述,作为资源的基本标识;基础元数据为多媒体资源的基本应用提供定义,支持基本的管理、查询等操作;然后,定义扩展元数据;它们是对于不同类型的资源做的元数据的细分和定义的扩展;可根据业务或操作侧重的不同进行选择使用;扩展元数据分为三大类,具体说明如下资源本体扩展元数据定义四类资源本体元数据,综合了视频、音频、图片、文本资源的特点,将基础元数据予以展开,根据不同资源类型的特点增加个性的内容,以元数据子项的形式保存,并定义资源标识之间的联系;通过建立标识项,定义标识项属性,并建立属性之间关系;管理信息扩展元数据定义了元数据存储管理的内容,对媒体资源在资源库中的保存和利用形式予以统一描述和定义;包括访问权限,更新方法,更新周期,资源大小,获取途径元素;交换信息扩展元数据定义了元数据交换管理的内容、规则、关键字;最后,对基础元数据与扩展元数据之间的关系也进行了标识和定义。
2、 根据权利要求1所述的多媒体信息资源的元数据统一描述方法进行检 索的方法,其特征在于对于进行了多媒体信息资源使用基础元数据和扩展元数据对资源进行上 述统一描述,基于基础元数据生成文本索引,基于扩展元数据生成扩展索引; 在检索的时候,首先对基础索引进行检索;然后,对扩展索引进行检索。
全文摘要
本发明属于计算机技术领域,是一种面向海量多媒体信息资源管理的、可扩展、可维护的,支持大规模部署应用的面向索引的数字多媒体元数据统一描述及其检索方法。统一描述方法基于本体论的理念,通过资源描述框架和XML结合,为媒体资源进行统一的元数据描述标准;基础元数据以柏林核心集DC定义的15个基本元素为基础,生成基础索引;扩展元数据是用户自行扩展或者是非结构化多媒体数据的特征描述数据,生成扩展索引。在检索的时候,首先对基础索引进行检索;然后,对扩展索引进行检索。本发明可应用于对多媒体信息资源进行编目、上载、检索、交换等处理的系统或平台。
文档编号G06F17/30GK101187938SQ20071017706
公开日2008年5月28日 申请日期2007年11月9日 优先权日2007年11月9日
发明者锐 吕, 卿 宋, 弛 张, 张鹏洲, 温宇俊, 龚隽鹏 申请人:中国传媒大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1