特征矢量数据空间的索引方法

文档序号:6552896阅读:330来源:国知局
专利名称:特征矢量数据空间的索引方法
技术领域
本发明涉及一种特征矢量数据空间的索引方法,尤其涉及通过依它们在特征矢量数据空间中的分布分层近似求出特征矢量,细致地索引特征矢量高度集中的小区的索引方法。
当处理大量多媒体数据时,快速有效地访问数据库总是人们所关心的。目前,随着产生多媒体数据的能力迅速提高,管理这样的数据库并提供访问多媒体内容的方法已经变成重要的课题。举例来说,典型的图像集合的范围可以从数十万到数百万甚至更多个项。对于数据库中的每个对象(或记录),其程度(属性的维数)要比传统数据库高得多。
为了访问具有这样特性的数据库,必须仔细地设计有效的索引方法。索引方法的有效性可以通过将焦点集中在索引方法上来正确评价。举例来说,一些索引方法旨在使存储额外开销最小,而另一些则集中在有效支持查询范围上。
多年来,多维数据的索引一直是人们的研究课题。但对于多媒体数据,由于它们对特定域的需要,还没有一种令人满意的数据结构能有效地支持最邻近(NN)搜索。
为了解决这个问题,传统的索引方法使用了矢量近似(VA)-文件。但是,这样的传统索引方法可能会受到特征矢量分布的影响。根据这种传统索引方法,当特征矢量均匀分布时,对复杂性会大幅度降低的期待是合理的。但是,当特征矢量不均匀分布时,有效的索引就可能得不到实现。
为了解决上述问题,本发明的第一个目的是提供一种特征矢量数据空间的索引方法,通过这种索引方法可以细致地索引特征矢量高度集中的小区。
本发明的第二个目的是提供一种用于存储执行特征矢量数据空间索引方法的程序代码的计算机可读记录介质。
本发明的第三个目的是提供一种在已经执行了特征矢量数据空间索引方法的特征矢量数据空间中进行相似性搜索的相似性搜索方法。
因此,为了实现本发明的第一个目的,本发明提供了一种特征矢量数据空间的索引方法。该方法包括下列步骤(a)确定是否至少存在一个特征矢量集中在上面的小区;和(b)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,分层索引特征矢量数据空间。
该索引方法最好还包括下列步骤(pa-1)在步骤(a)之前,将特征矢量数据空间划分成若干个尺寸相同的小区。
步骤(a)最好包括下列步骤(a-1)在每个小区中构造显示特征矢量数量的直方图;和(a-2)利用该直方图分析特征矢量的分布,并确定是否至少存在一个特征矢量集中在上面的小区。
最好,步骤(b)包括下列步骤利用矢量近似文件索引特征矢量数据空间。
步骤(b)包括下列步骤(b-1)在特征矢量集中在上面的每个小区上构造子矢量近似文件;和(b-2)利用矢量近似文件和相应的子矢量近似文件,在特征矢量集中在上面的每个小区中近似求出特征矢量。
步骤(b)包括下列步骤(b-1)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,将相应小区划分成子小区;和(b-2)利用这些子小区,在每个相应小区近似求出特征矢量,从而分层索引特征矢量数据空间。
为了实现本发明的第二个目的,本发明提供了一种用于存储执行特征矢量数据空间索引方法的程序代码的计算机可读记录介质。该索引方法包括下列步骤(a)确定是否至少存在一个特征矢量集中在上面的小区;和(b)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,分层索引特征矢量数据空间。
为了实现本发明的第三个目的,本发明提供了一种进行相似性搜索的方法,包括下列步骤通过确定是否存在特征矢量集中在上面的小区,和根据预定的索引方法在已经确定存在特征矢量集中在上面的小区中分层索引特征矢量数据,在已经索引过的特征矢量数据空间中进行相似性搜索。
通过结合附图对本发明的优选实施例进行详细描述,本发明的上面目的和优点将更加清楚,在附图中

图1是显示根据本发明实施例的特征矢量数据空间索引方法的流程图;图2是显示在上面构造了矢量近似(VA)文件的特征矢量数据空间的示例图;和图3A和3B是显示定义为吸引子(attractor)的小区被划分成若干个子小区的示例图。
下文将参照附图详细描述本发明的实施例。
参照图1,在根据本发明实施例的索引方法中,在步骤102,在整个特征矢量数据空间上构造矢量近似(VA)文件。为了构造VA文件,将特征矢量数据空间划分成若干个尺寸相同的小区。在本说明书中,为了解释本发明能起有效作用的情况,假定特征矢量集中在若干个划分的小区中的一些任意小区上。
图2显示了在上面构造了VA文件的特征矢量数据空间的示例。参照图2,特征矢量集中在特征矢量近似01 01的小区20上和特征矢量近似10 11的小区22上。下文将特征矢量集中在上面的小区称为吸引子。
接着,在步骤104,获取显示特征矢量在整个特征矢量数据空间上分布的直方图。在步骤106,根据此直方图确定是否存在一些吸引子。举例来说,从直方图中,可以将至少含有预定数量特征矢量的小区定义为吸引子。在本实施例中,将含有10个或更多个特征矢量的小区定义为吸引子。例如,可明显看出,在图2中,小区20和22含有多于10个的特征矢量,因此,将小区20和22定义为吸引子。
在步骤108,当确认存在吸引子时,在定义为吸引子的小区上构造子VA文件。将定义为吸引子的小区划分成若干个子小区。根据子小区中特征矢量的位置构造子VA文件。
图3A和3B是显示定义为吸引子(attractor)的小区被划分成若干个子小区的示例图。在图3A中,图2中01 01的小区20被划分成若干个子小区。在图3B中,图2中10 11的小区被22划分成若干个子小区。根据子小区中特征矢量的位置构造子VA文件。
另一方面,如果不存在吸引子,即意味着至少大体上保持矢量空间的均匀性,那么将使用一般VA文件。换言之,以划分的小区为单位,通过近似求出在特征矢量数据空间中的特征矢量构造VA文件。
在步骤110,利用VA文件和子VA文件近似求出在定义为吸引子的小区中的特征矢量。例如,将01 01的小区20中的特征矢量302和特征矢量304分别近似取为01 01 01 10和01 01 01 11。将01 11的小区22中的特征矢量322和特征矢量324分别近似取为10 11 00 01和10 11 10 10。因此,根据合并了VA文件和子VA文件的文件索引小区。可以将合并了VA文件和子VA文件的文件称为分层矢量近似(HVA)文件。
按照本发明的索引方法,根据特征矢量的分布分层近似求出特征矢量数据空间以索引小区。分层索引使特征矢量高度集中的小区能够被细致地索引。尤其是,按照本发明,当特征矢量在高维矢量空间中不均匀分布时,可以实现更有效的特征矢量索引。换言之,依特征矢量数据在特征矢量数据空间中的分布调整近似结构以处理特征矢量数据的集中。
下面将描述对已经按照参照图1描述的特征矢量数据空间索引方法分层索引过的特征矢量数据空间进行相似性搜索的方法。在特征矢量数据空间中特征矢量集中在上面的每个小区中的特征矢量都已经利用子VA文件作了近似。例如,当对近似为01、01、01、10的查询点进行相似性搜索时,选择特征矢量数据空间中坐标为01、01的小区为搜索小区,并确定在所选的小区中是否存在近似为10、10的小区。当确定在所选的小区中存在近似为10、10的小区时,将所选的小区确定为搜索小区。
即使特征矢量在高维矢量空间中不是均匀分布的,这样的相似性搜索方法也能使具有与查询点相似特征的特征点在特征矢量数据空间中得到细致精确的搜索。对于搜索方法来说,可以利用包括最邻近(NN)搜索的各种搜索方法。
在参照图1所描述的实施例中,执行了2一步分层索引,但是,也可以执行更多步的分层索引。在参照图1所描述的实施例中,直方图用于确定是否存在吸引子,但是,本领域技术人员可以对这种分析方法进行调整或改变。换言之,由所附权利要求书所限定的本发明的范围并不局限于上面的实施例。
可以将根据本发明的索引方法编写成能够在个人计算机或服务器计算机上执行的程序。构成程序的程序代码和代码段可由本领域计算机编程人员容易地推导出来。程序可存储在计算机可读记录介质中。计算机可读介质可以是磁记录介质、光记录介质或载波。
如上所述,使用根据本发明的特征矢量数据空间索引方法,当特征矢量在高维矢量空间中不是均匀分布时,可以细致地索引特征矢量数据空间。
另外,即使特征矢量在高维矢量空间中不是均匀分布的,根据本发明的相似性搜索方法也能使具有与查询点相似特征的特征点在特征矢量数据空间中得到细致精确的搜索。
权利要求
1.一种特征矢量数据空间的索引方法,在该特征矢量数据空间中特征矢量被索引,该索引方法包括下列步骤(a)确定是否至少存在一个特征矢量集中在上面的小区;和(b)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,分层索引特征矢量数据空间。
2.根据权利要求1所述的索引方法,还包括下列步骤(pa-1)在步骤(a)之前,将特征矢量数据空间划分成若干个尺寸相同的小区。
3.根据权利要求1所述的索引方法,其中步骤(a)包括下列步骤(a-1)在每个小区中构造显示特征矢量数量的直方图;和(a-2)利用该直方图分析特征矢量的分布,并确定是否至少存在一个特征矢量集中在上面的小区。
4.根据权利要求1所述的索引方法,其中步骤(b)包括下列步骤利用矢量近似文件索引特征矢量数据空间。
5.根据权利要求4所述的索引方法,其中步骤(b)包括下列步骤(b-1)在特征矢量集中在上面的每个小区上构造子矢量近似文件;和(b-2)利用矢量近似文件和相应的子矢量近似文件,在特征矢量集中在上面的每个小区上近似求出特征矢量。
6.根据权利要求1所述的索引方法,其中步骤(b)包括下列步骤(b-1)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,将相应小区划分成子小区;和(b-2)利用这些子小区,在每个相应小区近似求出特征矢量,从而分层索引特征矢量数据空间。
7.一种用于存储执行特征矢量数据空间索引方法的程序代码的计算机可读记录介质,该索引方法包括下列步骤(a)确定是否至少存在一个特征矢量集中在上面的小区;和(b)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,分层索引特征矢量数据空间。
8.根据权利要求7所述的计算机可读记录介质,其中步骤(b)包括下列步骤利用矢量近似文件索引特征矢量数据空间。
9.根据权利要求8所述的计算机可读记录介质,其中步骤(a)包括下列步骤(a-1)在每个小区中构造显示特征矢量数量的直方图;和(a-2)利用该直方图分析特征矢量的分布,并确定是否至少存在一个特征矢量集中在上面的小区,和步骤(b)包括下列步骤(b-1)在特征矢量集中在上面的每个小区上构造子矢量近似文件;和(b-2)利用矢量近似文件和相应的子矢量近似文件,在特征矢量集中在上面的每个小区上近似求出特征矢量。
10.一种在特征矢量数据空间中进行相似性搜索的方法,在该特征矢量数据空间中特征矢量被索引,该方法包括下列步骤(a)通过确定是否存在特征矢量集中在上面的小区,和根据预定的索引方法在已经确定存在特征矢量集中在上面的小区中分层索引特征矢量数据,在已经索引过的特征矢量数据空间中进行相似性搜索。
11.根据权利要求10所述的方法,其中步骤(a)是根据最邻近搜索执行的。
全文摘要
本发明提供了一种特征矢量数据空间的索引方法,可以用于在多维矢量空间中进行相似性搜索。该索引方法包括下列步骤:(a)确定是否至少存在一个特征矢量集中在上面的小区;和(b)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,分层索引特征矢量数据空间。因此,当特征矢量在高维矢量空间中不均匀分布时,可以细致地索引特征矢量数据空间。
文档编号G06F17/30GK1326159SQ0111211
公开日2001年12月12日 申请日期2001年3月28日 优先权日2000年5月31日
发明者申铉枓, 崔良林, 吴澎, 班加洛尔·S·曼朱纳思 申请人:三星电子株式会社, 加利福尼亚大学董事会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1