针对数据类型依赖处理、自动检测数据类型的方法和装置的制作方法

文档序号:6434162阅读:163来源:国知局
专利名称:针对数据类型依赖处理、自动检测数据类型的方法和装置的制作方法
技术领域
本发明涉及一种用于不同类型数据的分类、组织和构造的方法和装置,例如,可以将其用于数据分类、数据存储和数据检索。
背景技术
对于视频和其他数据的个人记录,类似硬盘和可重写光盘之类的数字存储介质的容量在持续地发展。这导致了类似所谓的家庭服务器之类的新概念,所述家庭服务器是具有大容量的中央存储设备,用于记录家庭中任何种类的数据。这种应用还需要新的方式,以便组织所记录的数据、搜索内容并访问特定的记录。
出于此目的,可以使用有关通常被称为元数据的数据。不同的工业集团和标准化组织已开发了用于不同用途和应用的元数据标准。在多媒体应用中,典型地,元数据是有关视听(AV)数据的数据,通常将这些AV数据称作“本质(essence)”。然而,应当能够正确处理多种数据类型的数据的数据库管理系统(DBMS)需要数据类型的定义以及区分其的方法。

发明内容
本发明基于对下述事实的认知在提供用于处理包括元数据在内的输入数据的DBMS的设备中,由于不同种类的元数据需要不同的处理,因此有必要对所述输入数据进行分类,尤其是输入元数据。例如,在中,文本查询就不适于包括公知的图形交换格式(GIF)的图片的元数据。
本发明要解决的问题在于自动对数据进行分类,从而DBMS能够将分类的结果用于正确的数据处理。权利要求1公开的方法和权利要求5公开的装置解决了该问题。例如,可以将这种装置的输出直接送到DBMS。
根据本发明,将元数据定义为由两部分构成的数据集,即,第一部分是指向参考数据集的链接,而第二部分是涉及所述链接的任意数据。下文中,将所述第一部分称作MD_LINK,而将所述第二部分称作MD_LOAD。将不包含至少一个MD_LINK和相关MD_LOAD的数据项定义为本质。例如,元数据通常会结合类似硬盘上的文件等逻辑实体,和其他元数据或本质一起出现。下文中将这种不同种类的本质和元数据的混合称作“容器”。这种容器的常见示例是超文本标示语言(HTML)文件,或可移植文档格式(PDF)文件。
此外,根据本发明,存在其他类型的分类可能。在能够被使用之前,数据需要通过设备进行解译。在这种情况下,如果该设备具有用于所定义的解译的方法,则将数据定义为物理数据,否则,将其定义为抽象数据。例如,如果将图片存储为GIF格式,且设备能够解译GIF格式并将其作为图片显示,则将其分类为物理数据。如果设备不能解译GIF格式,则将数据分类为抽象数据。抽象数据的另一个示例是文本文件,以及设备不能解译的其他文件。
之前定义的两种分类类型不是排他的,而是彼此相互补充。此外,所述数据的分类不是绝对的,而是系统依赖的,因此只是本地相关的。
有利地,该分类允许设备正确地处理不同的数据种类,元数据、本质、容器、物理数据和抽象数据之间彼此不同,因此允许基于所述数据类型的通用访问方法。利用此知识,例如,设备能够确定使用何种类型的数据查询,如何解译数据,以及对于某一查询是否可以放弃某些数据。
以下文本以及各个从属权利要求中公开了本发明的其他优选实施例。


参考附图,对本发明的典型实施例进行说明,其中图1数据分类的两个系统或两个维度;
图2包含本质和元数据的容器示例;图3抽象数据的示例;图4物理数据的示例;以及图5根据本发明的方法的典型流程图。
具体实施例方式
如图1所示,根据本发明,可以将分类的两种类型或系统理解为两个维度。数据项可以是本质E或元数据M,以及物理数据PD或抽象数据AD。因此,可能的数据类型是物理本质PE、物理元数据PM、抽象本质AE或抽象元数据AM。此外,如果包含其他数据项,则数据项还可以是容器C。
数据的分类不是绝对的,而是从设备角度出发的主观分类,因此,例如只在DBMS系统内是相关的。例如,可能会出现一个系统能够解译一个链接,而另一个系统不能解译同样链接的情况。因此,例如可能会出现一个系统将一定数据分类为由MD_LOAD和MD_LINK构成的元数据,而另一个系统将同样的数据分类为本质,因为其不能解译该链接。例如,另一个示例是一个系统可以再现MPEG音频层3或MP3已编码文件,而另一个系统不能解译MP3格式。在这种情况下,第一个系统将MP3已编码文件分类为物理数据,而第二个系统将同样的文件分类为抽象数据。
由于文本始终是用于保存数据的格式,因此认为文本是抽象数据。已格式化文本能够表示数据的直接物理表述,例如PDF格式。格式信息只表示支持信息,即,如果从PDF文件中提取出格式信息,则剩余的是作为主要信息的纯文本。如果提取出文本,则会丢失主要信息。由于文本表示了主要信息这一事实,因此也将已格式化文本认为是抽象数据。
当在其输入接收到数据时,权利要求5所公开的设备执行以下过程如果数据包含多于一个数据项,则输出是“数据是容器”。下面将给出更多细节。分类可以在这里停止,或延伸到容器中按分级构造的数据树的部分或全部枝叶。
如果数据是元数据,则输出是“数据是元数据”。
否则输出是“数据是本质”。
如果数据是物理数据,则另外的输出是“数据是物理数据”。
否则,如果数据是抽象数据,则另外的输出是“数据是抽象数据”。
有利地,设备能够检测并输出物理数据的类型,例如“数据是分辨率为x=200象素,y=400象素的彩色图片(24比特)”。
如果数据格式对于设备是未知的,因此设备不能将数据分类为容器、元数据、本质、抽象数据或物理数据,则输出可以是任意默认类型的输出,例如“数据类型未知”或“数据是本质和抽象数据”。
此外,有利地,如果设备检测数据是否是文本如果数据是抽象数据和文本,则还可以附加输出“数据是文本”。
例如,这可以通过从电子词典中搜索已知词汇或搜索由空格分开的字符组来实现。
如果输入数据是容器,附加的输出可以是“数据是容器,即,包含更多的元数据或本质”。可选地,可以包括准确的细节“容器包含至少一个元数据和一个本质”,或“容器根本不包含元数据”,甚或“容器正好包含N个元数据项”,其中N是包含在容器中的元数据的数量。
如果设备能够检测出已分析数据的格式,则附加地将其输出“数据格式是X”。“X”是格式。例如,“X”的示例可以是“HTML”或“JPEG”。
图2示出了包含有公知的HTML格式的本质和元数据的组合的数据文件的示例。在下文中,说明根据本发明的、对所有元素的分类。
首先,设备检测到第一行是<html>,因此,数据文件应当是HTML格式的。假设设备能够解译HTML格式,因此将HTML文件中具有“href”属性的项解译为链接。由于HTML格式文件通常包含分级结构,因此首先分析分级树的叶元素。由于没有链接附于该元素,因此将图2中的第一元素<title>This is the title</title>
分类为本质。
将元素<a href=http//www.w3c.org>W3C HOME</a>
分类为元数据,其中字符串“W3C HOME是本质或MD_LOAD,而字符串“href=http//w3c.org”是相关链接或MD_LINK。
下一个叶元素<p>This is a paragraph</p>
不包含链接,因此将其分类为本质。
由于下一个叶元素<img src=“image.gif”>
只有一个链接,即不包含与MD_LOAD相关的MD_LINK,因此将其也分类为本质。因此其不可能是元数据。该链接的用途是参考其他本质,即图片数据。
当分析了分级的第一层的所有元素时,研究下一层。将元素<head>
<title>This is the title</title>
</head>
分类为本质,这是由于其不包含链接,而且只有一个元素,该元素是本质。
将元素<a href=http//www.w3c.org>
<img src=”image.gif”>
</a>
分类为元数据,其中<img src=“image.gif”>是MD_LOAD部分,而“href”属性是相关的链接。
将下一个元素<body>
…</body>
分类为容器,因为其将元数据项和本质项组合在一起。
最后,将元素
<html>
…</html>
也分类为容器。其将本质项,即<head>元素,和容器,即<body>元素组合在一起。
图3示出了抽象元数据的示例。将单个数据项3R、3M分组在数据单元3C中。例如,数据单元3C可以是HTML文件。对于所述数据项之一,设备检测到其包含链接3L,当指向文本3E时,由从箭头转换为手的光标象征。由于文本3E和链接3L属于一起,且文本3E是本质,因此它们构成了元数据项3M,且链接3L是指向数据单元3C外部的参考3REF的元数据链接。由于元数据项3M的本质3E是文本,且文本是抽象数据,因此,元数据项3M是抽象数据项。数据单元3C中剩余的数据项3R是任意文本和图片。由于其包含至少一个元数据项3M及其他,因此数据单元3C是保留了数据项3R的容器。
图4示出了物理元数据的示例。数据单元4C中包含多个数据项4R和4M,例如,单元4C是HTML文件。在这种情况下,设备检测到图片4E与链接4L相关,由从箭头转换为手的光标象征。链接4L指向数据单元4C外部的参考4REF。由于图片4E和链接4L属于一起,因此其构成了元数据项4M,其中图片4E是该元数据的本质。例如,所述本质4E是JPEG格式图片,例如在HTML文件中,将其称为<img src=Anton.jpg width=108 height=73>。由于设备能够将其显示,因此其是物理数据,而元数据项4M是物理元数据。由于其包含至少一个元数据项4M和其他项4R,因此数据单元4C是容器。
图5示出了本发明方法的典型流程图。本发明的目的是对不同类型的输入数据IN进行分类。分析输入数据IN,并且第一决策单元确定是否能够检测输入数据的格式。如果不能,则显示“未知”,作为输出,并且在结束状态EX处分类结束。如果格式已知,例如是HTML,则第二决策模块D2确定输入数据是否包含未分类元素。如果答案为“是”,则选取下一个未分类数据项,并将其转送到第三决策模块D3。该第三决策模块D3确定所述数据项是容器C、元数据M还是本质E。如果数据项包含已经被分类为元数据的另一个数据项,则决策是“容器”。如果数据项包含具有与该链接相关的本质的链接,则决策是“元数据”。在其他所有情况下,决策是“本质”。在输出处显示第三决策模块所作出的决策。如果所分析的数据项是容器C,则过程再次返回第二决策模块D2,否则进入第四决策模块D4。所述第四决策模块D4确定设备是否能够解译该数据项,从而能够向用户公开更多的信息,例如,可显示的图片。如果答案为“是”,则在输出处显示所述数据项是物理数据PD,否则为抽象数据AD。在所述数据项是物理数据PD的情况下,在所述第四决策模块D4中隐含地完成格式检测。然后,第五决策模块D5可以检测格式细节,并确定是否应当指示检测到的格式,如果是,则可以在输出处显示格式F1,…,F3。在所述数据项是抽象数据AD的情况下,第六决策模块D6确定该数据是否包含文本。如果包含,则在输出处指示。如果数据项是抽象数据AD且不是文本,则不产生进一步的指示。然后,过程从第二决策模块D2重复,确定是否包含其他未分类元素。如果不是这种情况,则数据项分类完成并进入结束状态EX。本发明的该实施例分析了容器的所有分级层和叶元素,而其他实施例可以只分析容器的某些分级层或叶元素。
有利地,可以在用于数据分类、例如DBMS的数据存储或例如浏览器的数据检索的设备中使用所述数据分类的方法。当不同类别的数据需要不同的处理,例如不同的搜索算法、不同的存储方法或区域、不同的压缩方法或不同的显示方法时,可以使用所述方法。
可以在独立设备中实现本发明,相对于其格式、内容和与其他数据的关系,例如链接等,来分类输入数据,并且提供了有关数据的信息。当识别这些数据是否包含链接或这些数据是否需要特定的查询方法时,这些数据尤其必要。
该设备可以是其他设备的一部分或可以由硬件或软件实现,例如作为PC的应用程序或插件程序。此外,例如,通过因特网或其他数据源,可以对其进行更新,从而能够识别越来越多的格式,因此该设备能够自我更新并且越来越有效。
权利要求
1.一种技术设备针对数据类型依赖处理、自动检测数据类型的方法,其特征在于a)接收不同数据类型的数据(IN),b)分析所述接收到的数据,c)检测(D1)接收到的数据的格式,d)使用所述检测到的格式,用于评价(D3)所述数据是否包含-至少一个机器可解译链接和关联数据(M)-除所述第一类型的数据(M)以外的任意其他数据(E),例如文本、图片数据、链接,或-所述机器可解译链接和关联数据(M)与所述其他数据(E)的结合,e)评价(D4)所述技术设备是否能够解译所述数据,以再现所述数据的物理表述,以及f)将所述第一评价的结果(M,E,C)以及所述第二评价的结果(PD,AD)提供给设备或处理,用于所述数据(IN)的数据类型依赖处理。
2.根据权利要求1所述的方法,其特征在于对于所述技术设备可解译的数据(PD),还指示了所述数据的格式类型是否是多个指定格式类型(F1,…F3)之一。
3.根据权利要求1或2所述的方法,其特征在于对于所述技术设备不可解译的数据(AD),还指示了其是否是文本。
4.根据权利要求1到3之一所述的方法,其特征在于所述技术设备是数据分类设备、数据库管理系统或数据内容浏览器。
5.一种针对数据类型依赖处理、自动检测数据类型的装置,其特征在于使用了根据权利要求1到4之一所述的方法。
全文摘要
一种针对数据类型依赖处理、自动检测数据类型的方法,具有已定义的两个正交分类系统,并且对于输入数据项,依照第一分类系统确定一个数据类型,并依照第二分类系统确定另一数据类型。第一分类系统包括数据类型本质(E)、元数据(M)和容器(C)。第二分类系统包括数据类型物理数据(PD)和抽象数据(AD)。将不能唯一分类的数据项定义为默认数据类型。有利地,当不同类别的数据项需要不同的处理方法时,例如内容搜索,则能够使用本发明的方法。
文档编号G06F17/30GK1610905SQ02826415
公开日2005年4月27日 申请日期2002年12月14日 优先权日2001年12月28日
发明者马尔科·温特, 迪尔克·阿道夫, 约布斯特·霍伦特鲁普 申请人:汤姆森许可贸易公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1