非结构化数据四面体数据模型的系统、实现、应用和查询语言的制作方法

文档序号:6357843阅读:439来源:国知局
专利名称:非结构化数据四面体数据模型的系统、实现、应用和查询语言的制作方法
技术领域
本公开总体上涉及数字内容领域,具体地涉及非结构化数据的表示。
背景技术
随着信息技术的快速发展,非结构化数据的数量急剧增加。现在,非结构化数据占据了世界上所有数据的大部分。非结构化数据(也称为非结构化信息)是指不具有统一结构的数据。非结构化数据的示例包括文本、图形、图像、音频和视频数据。与利用显式语义数据模型描述的结构化数据不同,非结构化数据缺少计算机化解释所必需的上述显式语义结构。参见2008年5月、0ASIS,“非结构化信息管理架构(UIMA) 1. 0版”,工作草案05,通过参考将其全部内容并入。因此,非结构化数据经常需要人工或自动化注释,以便由计算机应用/设备正确解释和/或处理。已经开发出了各种内容管理系统和数据库管理系统以用于管理非结构化数据。然而,由于由这些系统使用的数据模型通过描述性文本或者低层特征来描述非结构化数据, 所以这些系统只能提供有限的数据检索方法,并且不具有支持通常为管理和操纵大量非结构化数据所必需的智能数据服务的能力(例如,基于多个检索方法、数据分析、数据挖掘的检索)。因此,需要一种数据模型,其可以提供不同种类非结构化数据的特征和文本描述的整体表示,并且还需要一种利用该数据模型来在非结构化数据上提供高效智能数据操作的系统和应用。

发明内容
本公开的实施方式包括用于非结构化数据四面体数据模型的系统、实现、应用和
查询语言。本公开的一个方面是用于非结构化数据的四面体数据模型。四面体数据模型的实例(也称为四面体)包括顶点、四个刻面以及刻面之间的连线。顶点表示底层非结构化数据的唯一性标识。四个刻面表示底层非结构化数据的四个方面基本属性、语义特征、低层特征和原始数据。连接刻面的连线表示不同刻面的连接元素之间的关系。本公开的另一方面是非结构化数据的数据管理系统(Unstructured data Base Management System) (UDBMS)中四面体数据模型的实现。UDBMS生成顶点,并且将基本属性和语义特征存储在可扩展标记语言(XML)文件中。低层特征和原始数据使用在运行时可扩展的三维(“3D”)宽表进行组织和存储。不同刻面上元素之间的关联存储在邻接矩阵中。本公开的第三方面是用于使用四面体数据模型来表示非结构化数据的四面体注释模块(以及相应的过程和计算机程序产品)。四面体注释模块可以集成至非结构化数据处理装置中,诸如,数码相机、数字音频记录器、数字视频记录器、音频/视频(A/V)数据生成设备,和文档/视频/音频/图像/图形编辑应用。四面体注释模块针对由该装置生成的非结构化数据创建四面体,并且使用与该非结构化数据有关的信息来填入该四面体。本公开的第四方面是一种非结构化数据查询语言(UDQL),其被开发以用于提供针对UDBMS中的由四面体数据模型所表示的非结构化数据的全面查询操作。针对由UDQL支持的非结构化数据的示例查询操作包括基本数据检索(例如,针对四面体单个刻面的查询)、关联检索(例如,使用四面体的两个或三个刻面的查询,在多个四面体中的查询)以及智能检索(例如,实现面向主题的多维数据分析、根据指定条件的数据聚类和分类)。UDQL 还通过支持基于这三种不同种类的查询操作的嵌套结构而支持更复杂的查询。在本说明书中描述的特征和优势不是全包含的,并且具体地,对于阅读了附图、说明书和权利要求书的本领域普通技术人员而言,很多附加特征和优势将是明显的。而且,应当注意,在本说明书中使用的语言主要是针对易读性和指令性的目的而选取的,而不是为了勾勒或限制所公开主题而选择的。


图1是根据本公开一个实施方式的非结构化数据四面体数据模型的可视表示的示意图。图2是示出了根据本公开一个实施方式的、图1中所示四面体数据模型的实现的高层框图。图3是示出了根据本公开一个实施方式的四面体数据模型注释系统内的模块的高层框图。图4是示出了根据本公开一个实施方式的、用于实现图3中所示四面体数据模型的计算机示例的高层框图。图5A-图5E是示出了根据本公开一个实施方式的、集成有图3中所示四面体数据模型的示例系统的高层框图。图6是示出了根据本公开一个实施方式的、用于使用四面体数据模型来描述非结构化数据以及使用四面体数据模型来进行搜索的过程的流程图。
具体实施例方式附图和下文描述仅通过示例方式描述了某些实施方式。本领域技术人员将从下述描述理解到,在不脱离此处所描述原理的情况下,可以采用此处所示结构和方法的备选实施方式。现在将详细参考若干实施方式,其示例在附图中示出。注意,在附图中可以使用可行的类似或相同附图标记,并且这些附图标记可以指示类似或相同的功能。四面体数据模型图1包括根据本公开一个实施方式的非结构化数据四面体数据模型的可视表示。 如所示,四面体数据模型的实例(也称为四面体)包括顶点、四个刻面以及刻面之间的连线。顶点(由V表示)表示底层非结构化数据的唯一性标识。四个刻面表示底层非结构化数据的四个方面基本属性、语义特征、低层特征和原始数据。具体地,底部刻面(与顶点相对)表示原始数据,并且被称为原始数据刻面(或“RDF”),三个侧刻面(与顶点邻接)分别表示基本属性、语义特征和低层特征,并且被分别称为基本属性刻面(“BAF”)、语义特征刻面(“SFF”)和低层特征刻面(“LFF”)。连接刻面的连线表示不同刻面的连接元素之间的关系。基本属性是指所有种类非结构化数据的通用属性,诸如名称、类型、创建者和创建时间。基本属性不包括数据的语义。基本属性集合由基本属性刻面上的点(也称为“元素”) 表示,其可以通过以下4元组表达BASIC_ATTRIBUTE(V,BA_id,BA_set,BA_content),(1)其中V 表示此基本属性集合所属于的四面体的标识,BA_id表示基本属性集合的标识,BA_set表示基本属性项集合 (例如,类型、创建者和创建日期),以及BA_COntent表示BA_set中项的值。语义特征是指文本表达的语义特性,诸如,创作意图、主题说明、非结构化数据的对象和内容的描述、低层特征的含义、关键词的形式或自由文本形式描述的注释以及使用本体描述的数据对象的概念。语义特征由语义特征刻面上的点表示,并且可以通过以下6 元组表达SEMANTIC_FEATURE(V, SF_id, SF_class, SF_name, SF_keyword, SF_content), (2)其中V表示包含此语义特征的四面体的标识,SF_id表示语义特征的标识,SF_ class表示语义特征的类型(例如,音频特征、视频特征),SF_name表示语义特征的名称 (例如,主题、创作意图、情节、关键帧的文本描述),SF_keyWOrd表示语义特征的一个或多个关键词的集合,以及SF_COntent表示语义特征的内容(例如,一段说明性或描述性文本)。低层特征(也称为“感知特征”)是指特定于通过使用适当特征提取技术获得的一种或若干种种类非结构化数据的特性,诸如针对图像的颜色、纹理和形状,针对音频的音频音高,以及针对视频的关键帧。低层特征由低层特征刻面上的点表示,并且可以由以下6元组表达LOff_LEVEL_FEATURE (V, LF_id, LF_class, LF_name, LF_rep_type, LF_id_content ), (3)其中V表示包含此低层特征的四面体的标识,LF_id表示低层特征的标识,LF_ class表示低层特征所描述的数据类型,并且LF_claSS e {文本、图像、视频、音频、图形}, LF_name表示低层特征的名称(例如颜色、纹理、形状、音频、关键帧),LF_Mp_type表示低层特征的数据结构(例如,用于颜色的直方图、用于纹理的共生矩阵、用于形状的傅立叶描述符),LF_id_content表示低层特征的值。原始数据是指底层非结构化数据的存储文件。一个视频、音频或图像数据可以包含若干个存储文件(也称为“原始数据文件”、“数据对象”),并且每个文件由原始数据刻面上的一个点表示。原始数据文件可以由以下4元组表达DATA(V, DATA_id, DATA_File_id, DATA_File_Name), (4)其中V表示包含原始数据刻面的四面体的标识,DATA_id表示原始数据的数据文件集合的标识,DATA_File_id表示数据文件集合中的数据文件的标识,以及DATA_File_ Name表示数据文件的名称。四面体可以使用下述6元组描述Tetrahedron = (V, BA_FACET, SF_FACET, LF_FACET, RD_FACET, CONJS), (5)
其中V表示关联所属于的四面体的标识,BA_FACET表示基本属性刻面,并且包括非结构化数据的基本属性集合,SF_FACET表示语义特征刻面,并且包括纹理语义信息集合, LF_FACET表示低层特征刻面,并且包括使用多媒体特征提取技术从非结构化数据获得的特征集合,RD_FACET表示原始数据刻面,并且包括原始数据文件集合,以及CONJS表示连接不同刻面上对象的所有连线的集合,其表示已连接对象之间的关联。进一步使用如下等式来描述 BA_FACET、SF_FACET、LF_FACET、RD_FACET 和 CONJS。BA_FACET = {Basic_Attribute},(6)SF_FACET = {Semantic_Featurej j e [l,m]}, (7)其中m是指示语义特征总数的正整数,LF_FACET = {Low_Level_Featurek k e [l,n]},(8)其中η是指示低层特征总数的正整数,RD_FACET = (Data11 1 e [1,ρ]},(9)其中ρ是指示数据文件总数的正整数,以及CONJS = {BA_FACETXSF_FACET U BA_FACET X LF_FACET UBA_FACETXRD_FACET U SF_FACET X LF_FACET USF_FACETXRD_FACET U LF_FACET X RD_FACET},(10)指示CONJS包括来自不同刻面的元素的关联。由四个刻面上的点表示的原始数据文件、基本属性、语义特征和低层特征(统称为“对象”)之间通常存在关系(也称为“关联”)。例如,低层特征及其语义描述是相关的。这种关系在视觉上利用连接不同刻面中相关对象的连线表示,并且在等式5中统称为 C0NJS,以及在等式10中进行了定义。在一个四面体内的两个对象之间的关联可以由以下 3元组表达ASSOCIATION(V,Object1Jd, 0bject2_id),(11)其中V表示关联所属于的四面体的标识,以及Object1Jd和0bject2_id分别表示已连接的两个对象 Object1 和 Object2 的标识,Object1, Object2 e {BA_FACET V SF_ FACET V LF_FACET V RD_FACET},且 Objec、和 Object2 属于不同的刻面。关系也可以位于不同的四面体之间。例如,具有相同主题的不同非结构化数据的四面体彼此有关。多个四面体之间的关联可以通过使用这些四面体的标识来建立。k个四面体的关联可以由以下二元组来表达ASS0CIATI0N_0F_TETRAHEDR0NS(Subject, {Vu|u e [l,w]}),(12)其中=Subject表示主题的描述,以及{Vu|u e [1,w]}是与一个主题有关的w个四面体的集合。关联可以支持涉及一个或多个四面体的多个刻面的关联检索。关联检索可以基于四面体内的关联或者多个四面体之间的关联来实现。例如,按照基本属性、语义特征和低层特征之间关联的检索可以快速缩小搜索范围,并更高效且准确地找到匹配的非结构化数据。另外,多个四面体的关联可以支持面向主题的检索。例如,通过使用ASS0CIATI0N_of_ TETRAHEDRONS中的Subject元素,与主题有关的所有数据均可被检索,并且从集合中的任何Vu,可以找到与Vu有关的、并且与Vu具有相同主题的数据。四面体数据模型实现
图2示出了根据本描述一个实施方式的、非结构化数据的数据管理系统(UDBMS) 中的四面体数据模型的实现。在此示例实现中,用于唯一性标识四面体的顶点可以由UDBMS生成。基本属性和语义特征可以使用各种结构化语言进行描述。在一个示例中,可扩展标记语言(XML)因其自描述特征、强大的链接能力以及描述复杂语义和结构的能力而被用来表示和存储基本属性和语义特征。低层特征和/或原始数据可以使用三维(“3D”)宽表来组织和存储。如图2所示,3D宽表的三个维度分别表示数据对象、低层特征(或原始数据)和时间。3D宽表中的每行表示数据对象,而每列表示低层特征(或原始数据)。此外,不同的数据对象可以具有不同的低层特征集合。低层特征的值可以是任何基本数据类型值(例如,数字,字符串)或特征向量。数据对象的低层特征值/原始数据可以随时间改变,并且低层特征/原始数据的每次修订形成新的数据版本。这些版本序列可以通过使用3D宽表的第三维度(即,时间) 来存储。与关系数据库中的常规2D表不同,3D宽表的三个维度在运行时都是可扩展的,并且由此3D宽表对于存储其结构和形式多种多样的非结构化数据而言很灵活。此外,3D宽表允许原始数据与其低层特征的统一存储。不同刻面上对象之间的关联存储在邻接矩阵中,其是指3D宽表中存储的原始数据和低层特征以及XML文件中存储的基本属性和语义特征。在一个实施方式中,为了实现数据独立性,在数据库管理系统的三级模式架构中的逻辑模式中实现四面体数据模型。参见 Codd E. F. , "A Relational Model of Data for Large Shared Data Banks,,, Communication of ACM,Vol. 13,No. 6,1970年6月,通过参考而并入其全部内容。四面体数据模型注释系统的架构图3是示出了根据本描述一个实施方式的四面体数据模型注释系统(也称为“四面体注释系统”或“四面体注释模块”)300内的模块的示意图,该系统用于使用四面体数据模型来表示非结构化数据。系统300的某些实施方式具有除此处描述之外的不同和/或其他模块。类似地,功能可以根据其他实施方式、以与此处描述的不同方式分布在模块间。如所示,系统300包括注释引擎310、用户接口(UI)模块320、基本属性模块330、语义特征模块340、低层特征模块350、原始数据模块360、关联模块370和数据存储380。注释引擎310针对一个未注释的非结构化数据创建四面体。另外,注释引擎310 与四面体注释系统300内的其他模块一起工作以填入该四面体,并且将结果四面体存储在数据存储380中。UI模块320提供用于绘制(例如,显示)与一个非结构化数据有关的信息(例如, 原始数据文件、基本属性、语义特征、低层特征)和/或接收用户输入的UI。例如,用户可以通过UI模块320为四面体提供基本属性和语义特征(例如,基于显示的原始数据文件),或者编辑已有的属性/特征。基本属性模块330利用基于接收自UI模块320或其他来源(例如,与四面体注释系统300连接的设备或应用)的信息创建的基本属性来填入四面体的基本属性刻面。类似地,语义特征模块340利用基于接收的信息(例如,来自UI模块320或其他来源)创建的语义特征来填入四面体的语义特征刻面。在一个实施方式中,基本属性模块330和语义特征模块340使用XML来描述基本属性(例如,公式1中的4元组)和语义特征(例如,公式2中的6元组),并且将结果XML文件存储在数据存储380中。低层特征模块350利用基于接收的信息创建的低层特征来填入四面体的低层特征刻面。原始数据模块360使用底层非结构化数据的原始数据文件来填入四面体的原始数据刻面。在一个实施方式中,低层特征模块350和原始数据模块360将低层特征(例如,公式3中的6元组)和原始数据文件(例如,公式4中的4元组)存储在数据存储380中的 3D宽表中。关联模块370基于四面体内的元素(例如,基本属性、语义特征、低层特征、原始数据文件)的内在关系和所接收信息中指示的关系在这些元素之中创建关联。在一个实施方式中,关联模块370将关联(例如,公式11中的3元组)存储在邻接矩阵中。数据存储380存储由四面体注释系统300创建的四面体。在一个实施方式中,数据存储380包括UDBMS,并且其被配置用于针对每个四面体生成顶点,以在UDBMS中唯一性标识四面体。计算机架构图3中所示模块使用一个或多个计算机实现。图4是示出了示例计算机400的高层框图。计算机400包括耦合至芯片集404的至少一个处理器402。芯片集404包括存储器控制器集线器420和输入/输出(I/O)控制器集线器422。存储器406和图形适配器412 耦合至存储器控制器集线器420,并且显示器418耦合至图形适配器412。存储设备408、键盘410、指点设备414和网络适配器416耦合至I/O控制器集线器422。计算机400的其他实施方式具有不同的架构。存储设备408是非瞬态计算机可读存储介质,诸如,硬盘驱动器、压缩盘只读存储器(⑶-ROM)、DVD或固态存储器器件。存储器406保有由处理器402使用的指令和数据。指点设备414是鼠标、跟踪球或其他类型的指点设备,并且结合键盘410使用以向计算机系统 400内输入数据。图形适配器412在显示器418上显示图像和其他信息。网络适配器416 将计算机系统400耦合到一个或多个计算机网络。计算机400适用于执行用以提供此处所描述功能的计算机程序模块。此处使用的术语“模块”是指用来提供指定功能的计算机程序逻辑。由此,模块可以利用硬件、固件和/ 或软件实现。在一个实施方式中,程序模块存储在存储设备408上,加载至存储器406中, 并且由处理器402执行。由图3的模块所使用的计算机400的类型可以因实施方式以及实体所需的处理功率而发生变化,并且可以不具有上述组件的某些组件,诸如键盘210、图形适配器212和显
不器218 ο四面体注释系统的示例应用四面体注释系统300可以集成至各种系统,用于表示该系统可访问的非结构化数据。这种系统的示例在图5Α-图5Ε中示出并在下文进行描述。图5Α是示出了图像生成设备510的高层框图。图像生成设备510的示例包括数字相机和数字图像生成设备(例如,数字扫描仪)。如所示,图像生成设备510包括四面体注释模块515,用于自动为由图像生成设备510所生成的数字图像生成四面体。四面体注释模块515可选地使用由图像生成设备510提供的信息(诸如,图像创建时间(基本属性)和图像文件(原始数据))来填入四面体。图像生成设备510的用户可以通过四面体注释模块515向四面体中提供附加文本描述(基本属性或语义特征)。图像分析应用可以生成低层特征(诸如,图像的物理/光特征)并将其添加至四面体中。结果四面体继而可以存储在UDBMS中,其转而将指派标识(例如,四面体的顶点)并且使图像可用于高级查询操作。图5B是示出了音频生成设备530的高层框图。音频生成设备530的示例包括数字音频记录器和音频编辑设备/应用(例如,音频同步器)。如所示,音频生成设备530包括四面体注释模块535,用于自动为由音频生成设备530所生成的音频数据生成四面体。四面体注释模块535可选地使用由音频生成设备530提供的信息(诸如,音频创建时间(基本属性)和音频文件(原始数据))来填入四面体。音频生成设备的用户可以通过四面体注释模块535向四面体中提供附加文本描述。音频分析应用可以生成低层特征(诸如,音频数据的物理/声特征)并将其添加至四面体中。结果四面体继而可以存储在UDBMS中, 其转而将指派标识并且使音频数据可用于高级查询操作。图5C是示出了视频生成设备550的高层框图。视频生成设备550的示例包括数字视频记录器和视频编辑设备/应用。如所示,视频生成设备550包括四面体注释模块555, 用于自动为由视频生成设备550所生成的视频数据生成四面体。四面体注释模块555可选地使用由视频生成设备550提供的信息(诸如,视频创建时间(基本属性)和视频文件(原始数据))来填入四面体。视频生成设备550的用户可以通过四面体注释模块555向四面体中提供附加文本描述。视频分析应用可以生成低层特征(诸如,视频数据的物理/光特征)并将其添加至四面体中。结果四面体继而可以存储在UDBMS中,其转而将指派标识并且使视频数据可用于高级查询操作。图5D是示出了音频/视频(“A/V”)生成设备570的高层框图。A/V生成设备570 的示例包括数字摄录机和A/V编辑设备/应用。如所示,A/V生成设备570包括四面体注释模块575,用于自动为由A/V生成设备570所生成的A/V数据生成四面体。四面体注释模块575可选地使用由A/V生成设备570提供的信息(诸如,创建时间(基本属性)和视频文件(原始数据))来填入四面体。A/V生成设备570的用户可以通过四面体注释模块575 向四面体中提供附加文本描述。A/V分析应用可以生成低层特征(诸如,A/V数据的物理/ 声/光特征)并将其添加至四面体中。结果四面体继而可以存储在UDBMS中,其转而可以指派标识并且使A/V数据可用于高级查询操作。图5E是示出了文档/视频/音频/图像/图形编辑应用(也称为“编辑应用”)590 的高层框图。如所示,编辑应用590包括四面体注释模块595,用于为包含非结构化数据的文档、视频数据、音频数据、图像和/或图形数据创建和/或编辑四面体数据模型。四面体注释模块595可以提供wiki功能,以用于管理和跟踪对底层非结构化数据的文本描述(例如,基本属性和语义特征)所作的编辑。结果四面体继而可以存储(或更新)在UDBMS中, 其转而将指派标识(如果还未指派的话)并且使文档、视频数据、音频数据、图像和/或图形数据可用于高级查询操作。四面体注释模块515、535、555、575和595包括上述四面体注释系统300的某些或所有模块,并且可以实现为软件、固件或硬件。四面体注释模块还可以包括附加模块,诸如支持操作者在生成/编辑非结构化数据时提供口头注释的语音识别模块(未示出)。语音识别模块将口头注释转换成文本,并且添加至对应的四面体中(例如,作为语义特征)。针对四面体数据模型的非结构化数据查询语言
非结构化数据查询语言(UDQL)被开发以提供针对由UDBMS中的四面体数据模型所表示的非结构化数据的全面查询操作。由UDQL所支持的针对非结构化数据的示例查询操作包括基本数据检索、关联检索和智能检索。基本数据检索是指针对四面体的单个刻面 (例如,基本属性刻面、语义特征刻面、低层特征刻面)的查询。这些查询利用关键词搜索或者低层特征匹配(例如,基于样本的特征匹配)。关联检索是指使用四面体的两个或三个刻面(例如,基本属性刻面、语义特征刻面、低层特征刻面)的查询,以及基于多个四面体的语义特征刻面(或其他刻面)在该多个四面体中进行的面向主题的查询。智能检索是指根据指定条件实现面向主题的多维数据分析、数据聚类和分类的查询。UDQL还通过支持基于这三种不同查询操作的嵌套结构而支持更复杂的查询。UDQL中的查询语句支持上述所有三种查询操作。由于在一个示例中,四面体数据模型的基本属性和语义特征是使用XML描述的,所以通过扩展XML的查询语言(例如, XQuery)来定义UDQL。XQuery中的查询语句利用FLWOR表达式来描述。FLffOR由R)r,Let, Where, Order by和Return的首字母组成的。FLWOR表达式定义了查询的基本结构,并且该表达式可以支持多个查询条件,从而为数据重构提供了灵活的途径。示例UDQL查询语句0_ UD具有以下FLWOR结构
QUD= for <object_list> let <var_def_list> where〈condition〉 order by <order_spec_list> return <return_list>在上述语句中,for子句创建循环,并且在let子句中定义局部变量。针对for循环的<object_list>中的每个对象,检查where子句中的〈condition〉。如果结果为真,则将通过调用return子句来输出对象。Q_UD的各子句中的每个参数进一步详细定义如下参数<0njeCt_list>表示要包括在查询中的数据对象。如下述等式所示,该集合中的元素可以是四面体的单个刻面上的对象、另一Q_UD查询的结果,或者是两个(或更多) Q_UD查询结果的并、差、交或笛卡尔积< object list〉= BA FACET
ISFFACET |LF—FACET IQ—UD
|Union(Q_UDl,Q_UD2) |Difference(Q_UDl,Q_UD2) |Intersection(Q_UD 1 ,QUD2) |CartesianProduct(Q_UD 1 ,QUD2) 参数<Var_def_liSt>表示要在Q_UD中使用的局部变量列表,并且可以使用以下等式来描述 参数〈condition〉表示查询条件,并且被定义为一个表达式。如在下述等式中所示,〈condition〉可以是简单条件或复杂条件。复杂条件是通过使用与、或、非之类的逻辑运算符构成的。简单条件包括精确匹配和非精确匹配两种类型 <complex_condition> = condition (and | or | not) condition ,其中<preCiSe_COmpariSOn>定义了基于常规比较运算的精确比较条件,而 <imprecise_comparison>定义了用于低层特征查询的非精确比较条件。基本属性或语义属性中用于关键词、字符串、数字型数值的精确比较的运算数为=、<、< =、>、> =和! =。对基本属性和语义属性的查询可以使用〈precisejomparison〉条件进行构造。为了构造非精确比较表达式,可能必需通过添加运算符match和低层特征比较函数similarity, degree ()来对XQuery进行扩展。运算符match使用以下表达式进行定义lf_vl match lf_v2, (degree),这意味着将特征lf_vl与特征lf_v2进行比较,并且两个特征的相似度不应低于 degree。匹配表达式的结果类型是布尔型。特征比较函数similarity—degree ()定义为similarity_degree(lf_vl, lf_v2) :LF_FACETXLF_FACET — W,1],其中将函数 similarity_degree(lf_vl, lf_v2)的两个参数进行比较,返回值是
区间中的实数。参数<0rder_SpeC_l i st>使用下述等式进行定义其中,〈expression〉指定如何对查询结果进行排序,而〈orderModif ier>指定排序是升序还是降序。<retUrn_liSt>参数是指定了选定数据对象的返回内容的表达式。可以在 <return_list>表达式中定义和使用诸如数据分析运算符、数据聚类和数据分类运算符的<var_def_list> = <VarName> = 〈expression〉(,<VarName> =〈expression *
〈condition〉 = <simple_condition>|<complex_condition>, <simple_condition> = <prec i se_compari son>
I<imprecise_comparison>, 〈order—spec—list> = <expression><orderModifier>智能运算符,以在指定数据集上实施智能数据处理。一类上述运算符是多维数据分析运算符集,其包括根据特定的维度或主题将数据切片和切块,并支持进一步对切片和切块后的数据执行统计分析。数据切片运算符、数据切块运算符和统计分析使用以下表达式进行定义数据切片运算符slicedon(Cl1, d2)其中CliG = 1,2)表示维度,数据切块运算符diced on(屯,d2,d3)其中CliG = 1,2,3)表示维度,以及统计分析:statisical_analysis with<stat_model>,其中<stat_model>表示某种统计模型。另一类可以在〈returrulist〉参数中使用的运算符是数据挖掘运算符,诸如使用以下表达式定义的数据聚类运算符和数据分类运算符数据聚类 cluster by<expression>,以及数据分类:classify on<expression>,其中,〈expression〉指定了数据聚类和分类的规则,并且其可以是FLWOR表达式、 布尔表达式、条件表达式、分支表达式或这些表达式的组合。通过Q_UD语句,可以实现对非结构化数据的操作,包括基本数据检索、关联检索和智能检索。对于基本数据检索,在<objeCt_list>中指定与查询相关的四面体的刻面,并可以在〈condition〉中定义查询条件。对于四面体的多个刻面间的关联检索可以通过构造嵌套查询语句予以实现。例如,查询语句可以将刻面的9_皿放入将在其他刻面查询的另一个 Q_UD 的〈condition〉或 <object_list> 中。通过在 <object_list> 中使用 Union(Q_ UD1,Q_UD2)、Difference (Q_UD1, Q_UD2)或 Intersection (Q_UD1, Q_UD2),并在这些参数 Q_ UD中使用相同的主题相关条件,便可构造用于实现面向主题的多个四面体之间关联检索的 Q_UD。通过在<return_list>的〈expression〉中使用智能查询运算符,可以对特定范围的数据进行智能检索。方法总览图6是示出了根据一个实施方式的、用于使用四面体数据模型来描述非结构化数据以及使用四面体数据模型来进行搜索的过程600的流程图。其他实施方式可以按照不同顺序执行方法600的步骤。此外,其他实施方式可以包括与此处所述步骤不同的步骤和/ 或附加步骤。最初,四面体注释模块接收610非结构化数据。例如,四面体注释模块可以嵌入到数字摄录机中,并且接收由数字摄录机捕获的视频剪辑。四面体注释模块创建620四面体以表示非结构化数据、确定630关于非结构化数据的各个方面(基本属性、语义特征、低层特征和/或原始数据)及其内在关系的信息,并使用所确定的信息来填入640四面体。继续上述示例,四面体注释模块创建620用于视频剪辑的四面体,并确定630该视频剪辑的基本属性、语义特征、低层特征和/或原始数据文件, 以及属性、特征和原始数据文件间的关系。基本属性的示例包括数据类型(例如,视频)、题目和创建者。语义特征的示例包括流派、描述、主题和长度。低层特征的示例包括关键帧、 纹理和颜色直方图。属性和特征可以由数字摄录机或用户(例如,通过语音识别)来提供。
14四面体注释模块利用所确定的基本属性、语义特征、低层特征和原始数据文件(统称为元素)来填入640四面体,并且基于所确定的关系来创建所填入元素之间的关联。四面体注释模块将四面体存储650在UDBMS中。UDBMS生成在UDBMS中唯一性标识四面体的标识、将基本属性和语义特征存储在一个或多个XML文件中、将低层特征和原始数据文件(或其代表元组)存储在3D宽表中,并且将关联存储在邻接矩阵中。UDBMS接收660UDQL中的用户查询,并检索670表示了满足用户查询中的条件的非结构化数据的四面体。用户查询包括FLWOR结构,其支持基本数据检索、关联检索和智能检索。上述描述的某些部分在算法处理和操作方面描述了实施方式。这些算法描述和表示是数据处理领域的技术人员通常所使用的将其工作的本质有效地传达给本领域其他技术人员的方式。这些在功能上、计算上和逻辑上被描述的操作应被理解为通过计算机程序实现,这些程序包括供处理器或等同电子电路、微代码等执行的指令。此外,已经证明在不失一般性的前提下将这些功能操作的布置当作模块有时是方便的。所描述的操作及其关联模块可以利用软件、固件、硬件或其任何组合实现。此处对“一个实施方式”或“实施方式”的任何使用意味着结合该实施方式描述的特定元素、特征、结构或特性包括在至少一个实施方式中。在说明书各处出现的短语“在一个实施方式中”并不必须是指相同的实施方式。某些实施方式可以使用表述“耦合”和“连接”及其衍生物进行描述。应当理解, 这些术语并不试图作为彼此的同义词。例如,可以使用术语“连接”描述某些实施方式来指示两个或更多元素彼此处于直接物理或电连接。在另一示例中,可以使用术语“耦合”描述某些实施方式来指示两个或更多元件直接物理或电接触。然而,术语“耦合”也可以意味着两个或更多元件未彼此直接接触,但仍能彼此合作或交互。实施方式并不限于此上下文。此处使用的术语“包括”、“包含”、“涵盖”、“囊括”、“具有”、“有”或其任何其他变体意在覆盖非穷尽性包括。例如,包括元素列表的过程、方法、制品或装置并不必然仅限于那些元素,而是可以包括未明确列出或者对于这种过程、方法、制品或装置而言并不是内在具有的其他元素。此外,除非有显式相反说明,否则“或”是指包括性的“或”而非排除性的 “或”。例如,以下任一满足条件A或B :A为真(或存在)且B为假(或不存在),A为假(或不存在)且B为真(或存在),以及A和B都为真(或存在)。此外,使用“ 一个”或“一,,来描述此处实施方式的元素和部件。这仅仅是为了方便以及给出本公开的一般性概念。此描述应当理解为包括一个或至少一个,并且单数也可以包括复数,除非显然具有其他含义。在阅读了本公开之后,本领域技术人员将会理解使用四面体数据模型来描述非结构化数据和/或使用四面体数据模型来进行搜索的附加备选实现、系统和过程。由此,尽管已经示出和描述了特定实施方式和应用,但是应当理解,本发明不限于此处公开的特定构造和部件,并且对于本领域技术人员而言,在不脱离所附权利要求所定义的精神和范围的前提下,可以对在此处公开的方法和装置的布置、操作和细节中做出各种修改、改变和变化。
权利要求
1.一种非结构化数据处理装置,包括四面体注释模块,用于使用四面体数据模型来表示由所述装置生成的非结构化数据, 包括注释模块,用于自动为所述装置生成的非结构化数据创建所述四面体数据模型(“四面体”)的实例,其中所述四面体包括基本属性集合、语义特征集合、低层特征集合和原始数据集合;原始数据模块,用于利用所述非结构化数据的一个或多个原始数据文件来填入所述原始数据集合;低层特征模块,用于利用特定于所述非结构化数据一个类型的一个或多个特性来填入所述低层特征集合;语义特征模块,用于利用所述非结构化数据的一个或多个语义特性来填入所述语义特征集合;基本属性模块,用于利用非结构化数据通用的一个或多个属性来填入所述基本属性集合;关联模块,用于利用不同集合的元素之间的关联来填入所述四面体;以及非瞬态计算机可读存储介质,用于将得以填入的四面体存储在非瞬态计算机可读存储介质中。
2.如权利要求1的装置,其中所述装置包括数码相机,以及所述非结构化数据包括图像。
3.如权利要求1的装置,其中所述装置包括数字音频记录器,并且所述非结构化数据包括音频数据。
4.如权利要求1的装置,其中所述装置包括数字视频记录器,并且所述非结构化数据包括视频数据。
5.如权利要求1的装置,其中所述装置包括音频/视频(A/V)数据生成设备,并且所述非结构化数据包括音频数据和视频数据。
6.如权利要求1的装置,其中所述装置包括文档/视频/音频/图像/图形编辑应用, 并且所述非结构化数据包括以下中的一个或多个非结构化文档、视频数据、音频数据、图像和图形数据。
7.如权利要求1的装置,其中所述非瞬态计算机可读存储介质包括非结构化数据的数据管理系统(UDBMS),所述UDBMS配置用于向所述得以填入的四面体指派唯一标识。
8.如权利要求7的装置,其中所述UDBMS将所述原始数据集合和所述低层特征集合中的元素存储在可扩展三维(3D)宽表中。
9.如权利要求7的装置,其中所述UDBMS将不同集合中元素之间的关联存储在邻接矩阵中。
10.如权利要求7的装置,其中所述UDBMS将所述基本属性集合和所述语义特征集合中的元素存储在一个或多个可扩展标记语言(XML)文件中。
11.一种用于处理非结构化数据的计算机实现的方法,包括创建用于表示非结构化数据的四面体数据模型(“四面体”)的实例,其中所述四面体包括基本属性集合、语义特征集合、低层特征集合和原始数据集合;使用与所述非结构化数据有关的信息来填入所述四面体,包括以下中的一个或多个 利用所述非结构化数据的一个或多个原始数据文件来填入所述原始数据集合; 利用特定于所述非结构化数据一个类型的一个或多个特性来填入所述低层特征集合;利用所述非结构化数据的一个或多个语义特性来填入所述语义特征集合; 利用非结构化数据通用的一个或多个属性来填入所述基本属性集合;以及利用不同集合的元素之间的关联来填入所述四面体;以及将得以填入的四面体存储在非瞬态计算机可读存储介质中。
12.如权利要求11的方法,其中存储所述得以填入的四面体进一步包括 向所述四面体指派唯一标识;以及将所述四面体与所述唯一标识一起存储在非结构化数据的数据管理系统(UDBMS)中。
13.如权利要求12的方法,其中所述存储步骤进一步包括将所述原始数据集合和所述低层特征集合中的元素存储在所述UDBMS中的可扩展三维(3D)宽表中。
14.如权利要求12的方法,其中所述存储步骤进一步包括 将不同集合中元素之间的关联存储在所述UDBMS中的邻接矩阵中。
15.如权利要求12的方法,其中所述基本属性集合和所述语义特征集合中的元素存储在一个或多个可扩展标记语言(XML)文件中。
16.一种非瞬态计算机可读存储介质,其存储有用于处理非结构化数据的可执行计算机程序指令,所述计算机程序指令包括用于下述操作的指令创建用于表示非结构化数据的四面体数据模型(“四面体”)的实例,其中所述四面体包括基本属性集合、语义特征集合、低层特征集合和原始数据集合;使用与所述非结构化数据有关的信息来填入所述四面体,包括以下中的一个或多个 利用所述非结构化数据的一个或多个原始数据文件来填入所述原始数据集合; 利用特定于所述非结构化数据一个类型的一个或多个特性来填入所述低层特征集合;利用所述非结构化数据的一个或多个语义特性来填入所述语义特征集合; 利用非结构化数据通用的一个或多个属性来填入所述基本属性集合;以及利用不同集合的元素之间的关联来填入所述四面体;以及将得以填入的四面体存储在非瞬态计算机可读存储介质中。
17.如权利要求16的存储介质,其中存储得以填入的四面体进一步包括 向所述四面体指派唯一标识;以及将所述四面体与所述唯一标识一起存储在非结构化数据的数据管理系统(UDBMS)中。
18.如权利要求17的存储介质,其中所述存储步骤进一步包括将所述原始数据集合和所述低层特征集合中的元素存储在所述UDBMS中的可扩展三维(3D)宽表中。
19.如权利要求17的存储介质,其中所述存储步骤进一步包括 将不同集合中元素之间的关联存储在所述UDBMS中的邻接矩阵中。
20.如权利要求17的存储介质,其中所述基本属性集合和所述语义特征集合中的元素存储在一个或多个可扩展标记语言(XML)文件中。
全文摘要
本发明公开了用于非结构化数据四面体数据模型的系统、实现、应用和查询语言。四面体数据模型包括顶点、四个刻面以及刻面之间的连线。顶点表示底层非结构化数据的唯一性标识。四个刻面表示基本属性、语义特征、低层特征和原始数据。连线表示连接元素之间的关系。四面体数据模型在非结构化数据的数据管理系统(UDBMS)中的逻辑模式中实现,该UDBMS将基本属性和语义特征存储在XML文件中,使用三维宽表来存储低层特征和原始数据,以及将关联存储在邻接矩阵中。创建和填入四面体的四面体注释模块可以集成至非结构化数据处理装置中。非结构化数据查询语言提供针对由UDBMS中的四面体数据模型表示的非结构化数据的全面查询操作。
文档编号G06F17/30GK102591896SQ201110089509
公开日2012年7月18日 申请日期2011年4月11日 优先权日2011年1月5日
发明者李晓耕, 李未, 郎波 申请人:北京大用科技有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1