信息处理设备、信息处理方法和程序的制作方法

文档序号:6424246阅读:104来源:国知局
专利名称:信息处理设备、信息处理方法和程序的制作方法
技术领域
本发明涉及信息处理设备、信息处理方法和程序。
背景技术
近年来,各种信息已被数字化和存储,数字化信息的量持续增大。在这些情况下, 需要一种从所存储信息的源有效地取得必需信息的方法。最近发明了对原始信息的源进行编码的各种方法。因此,近似字符串匹配不仅被应用于文档的搜索和分析,而且应用于广范围领域中的信息,包括诸如语音、音乐、图像和视频之类的编码多媒体的搜索和分析。在编码信息的搜索和分析中,近似字符串匹配中使用的字符串距离度量极大地影响搜索处理的效率和获得的搜索结果的适当性。广泛使用的字符串距离度量的示例包括适应用于具有相同长度的两个字符串的汉明距离和适用于具有不同长度的字符串的来文史特距离(也可被称为“编辑距离”)。在这种情况下,在近似字符串匹配中引入了反映不匹配部分的分散和位置的另一度量,以改进距离的精度和有效地分离字符串。这种度量的其它示例包括熵度量和 N-gram(N 元语法)法(W0 2009/085555)。

发明内容
然而,在WO 2009/085555中描述的熵度量和N-gram法存在以下问题即使提供非常精确的距离度量,它们的计算负荷也是沉重的。鉴于上述情况,希望提供一种能够在抑制计算负荷的同时提高非常精确的距离度量的信息处理设备、信息处理方法和程序。根据本发明的一个实施例,提供一种信息处理设备,该设备包括数据取得单元, 其用于获得至少两个元素数据;相异度计算单元,其用于计算数据取得单元获得的元素数据之间的相异度;转变成本计算单元,其用于计算从数据取得单元获得的元素数据中的一个元素数据转变到所述元素数据中的另一个元素数据的成本,所述另一个元素数据不同于所述一个元素数据;以及距离计算单元,其用于通过利用相异度计算单元计算的相异度和转变成本计算单元计算的成本,来计算表示元素数据之间的相异程度的元素距离。转变成本计算单元可基于构成元素数据的单元元素的相异度,来计算从具有较小值的相异度转变到具有较大值的相异度的第一转变成本、或者从具有较大值的相异度转变到具有较小值的相异度的第二转变成本。距离计算单元可计算由相异度计算单元计算的相异度与由转变成本计算单元计算的第一转变成本和第二转变成本的和,并采用该和作为元素距离。信息处理设备还可包括数据预处理单元,其用于对数据取得单元获得的元素数据进行预定预处理。当元素数据是结构化数据时,数据预处理单元可将结构化数据分成多个结构化元素,并且相异度计算单元、转变成本计算单元和距离计算单元可对每个结构化元素进行处理。根据本发明的另一个实施例,提供一种信息处理方法,该方法包括获得至少两个元素数据的步骤;计算所获得的元素数据之间的相异度的步骤;计算从获得的元素数据中的一个元素数据转变成所述元素数据中的另一个元素数据的成本的步骤,所述另一个元素数据不同于所述一个元素数据;以及通过利用计算的相异度和计算的成本,来计算表示元素数据之间的相异程度的元素距离的步骤。根据本发明的另一个实施例,提供一种使计算机实现下述功能的程序获得至少两个元素数据的数据取得功能;计算用数据取得功能获得的元素数据之间的相异度的相异度计算功能;计算从用数据取得功能获得的元素数据中的一个元素数据转变成所述元素数据中的另一个元素数据的成本的转变成本计算功能,所述另一个元素数据不同于所述一个元素数据;以及通过利用由相异度计算功能计算的相异度和由转变成本计算功能计算的成本,来计算表示元素数据之间的相异程度的元素距离的距离计算功能。如上所述,根据本发明,能够在抑制计算负荷的同时,提供非常精确的距离。


图1是图示了根据本发明的实施例的信息处理方法的说明图;图2是图示了根据本发明的实施例的信息处理方法的说明图;图3是图示了根据本发明的第一实施例的信息处理设备的配置的方框图;图4是图示了根据第一实施例的信息处理方法的说明图;图5是图示了根据第一实施例的信息处理方法的流程的流程图;图6是图示了根据第一实施例的信息处理方法的流程的流程图;图7是图示了根据第一实施例的信息处理方法的流程的流程图;图8是图示了根据第一实施例的信息处理方法的具体示例的说明图;图9是图示了根据第一实施例的信息处理方法的第一变型的说明图;图10是图示了根据第一实施例的信息处理方法的第一变型的流程的流程图;图11是图示了根据第一实施例的信息处理方法的第二变型的说明图;图12是图示了根据第一实施例的信息处理方法的第二变型的流程的流程图;图13是图示了根据第一实施例的信息处理方法的第二变型的流程的流程图;图14是图示了根据第一实施例的信息处理方法的第二变型的流程的流程图;图15是图示了根据第一实施例的信息处理方法的第二变型的流程的流程图;图16是图示了根据第一实施例的信息处理方法的第三变型的说明图;图17是图示了根据第一实施例的信息处理方法的第三变型的流程的流程图;图18是图示了根据第一实施例的信息处理方法的应用示例的流程图;图19是图示了根据第一实施例的信息处理方法的应用结果的图表;图20是图示了根据第一实施例的信息处理方法的应用结果的图表;图21是图示了根据第一实施例的信息处理方法的应用示例的流程图;图22是图示了根据第一实施例的信息处理方法的应用结果的说明图;图23是图示了根据第一实施例的信息处理方法的应用结果的图表;图M是图示了根据本发明的第二实施例的信息处理方法的说明图25是图示了根据第二实施例的信息处理方法的说明图;图沈是图示了根据第二实施例的信息处理方法的应用示例的流程图;图27是图示了根据第二实施例的信息处理方法的应用结果的说明图;图观是图示了根据第二实施例的信息处理方法的应用结果的说明图;图四是图示了根据本发明的实施例的信息处理设备的硬件配置的方框图。
具体实施例方式下面参考附图,详细说明本发明的优选实施例。注意,在说明书和附图中,用相同的附图标记来表示具有基本相同的功能和结构的结构元件,并且省略了这些结构元件的重复说明。将按照下述顺序进行下面的说明。(1)转变敏感字符串距离度量(1-1)基本技术(1-2)与基本技术相关联的问题(1-3)转变敏感字符串距离度量的概述(1-4)转变敏感字符串距离的公式化(2)第一实施例(2-1)信息处理设备的配置(2-2)信息处理方法(2-3)第一变型(2-4)第二变型(2-5)第三变型(2-6)转变敏感字符串距离度量的应用示例(3)转变敏感矩阵度量(3-1)与之相关联的基本技术和问题(3-2)转变敏感矩阵度量的概述(3-3)转变敏感矩阵距离的公式化(4)第二实施例(4-1)信息处理设备的配置(4-2)信息处理方法(4-3)转变敏感矩阵度量的应用示例(5)根据本发明的各个实施例的信息处理设备的硬件配置(转变敏感字符串距离度量)在详细说明根据本发明的第一实施例的信息处理设备和信息处理方法之前,将简要说明根据本发明的实施例的转变敏感字符串度量。<基本技术>首先,简要说明在近似字符串匹配中使用的距离度量,以作为用作本发明的基础的技术(基本技术)。[汉明距离]
近似字符串匹配中使用的距离度量之一是汉明距离(HammingDistance :HD)。汉明距离表示具有相同长度的两个字符串之间的距离度量,并被定义为将一个字符串转换成另一个字符串所需的字符替换的最小数目。例如,考虑字符串〃 form〃和字符串〃 farm〃之间的汉明距离。在这种情况下, 通过用〃 a〃替换第二个字符〃 ο",可将字符串〃 form"转换成字符串〃 farm"。因此在这种情况下,汉明距离为1。[来文史特距离]汉明距离是为长度相同的字符串定义的距离度量。另一方面,关于长度不同的两个字符串的距离度量之一为来文史特距离(LevenshteinDistance :LD)。来文史特距离也被称为编辑距离,并被定义成将一个字符串转换成另一个字符串所需的删除、插入和替换的最小总数。现在,用下面的表达式11定义构成字符串的两个元素X、y之间的相异度(即,规范化距离)d(x,y)。
θ ^ X=^yd(x,y) = \ * (表达式 11)现在,当给出具有长度M的字符串X和具有长度N的字符串Y时,用下面的表达式 12定义字符串X和字符串Y之间的来文史特距离LD(X,Y)。LD (X,Y) = D [M, N](表达式 12)在表达式12中,D[i,j]是如下定义的距离矩阵。 D[i,0] = 0(0 彡 i 彡 Μ)(表达式 13) D
= j(0 彡 j 彡 N)(表达式 14)
'D[i-l,j] + l (删除)’
D[i,j-1] + 1 (插入)>(表达式 15)
D[i-i,j-i] + d(Xi,rj)(替换)在表达式15中,0彡i彡M和0彡j彡N,其中Xi表示字符串X的第i个字符,Yj 表示字符串Y的第j个字符。例如,通过在字符串〃 form"中分别插入一个字符(即〃 s 〃和〃 u〃),获得两个字符串〃 forms"和〃 forum"。因此,这两个字符串中的任一个的来文史特距离是相同值(距离1)。基于诸如插入、删除和替换的不同,每个字符串被分成匹配字符串部分和不匹配字符串部分。在上面的示例中,字符串"forms〃被分成"form-s",即,长度为4的字符串"form"和长度为1的字符〃 s〃。字符串〃 forum"被分成〃 for-u-m",其包括三个部分,即,长度为3的字符串、长度为1的一个字符和长度为1的一个字符。不论插入是在尾部还是在中间,或者不论不匹配部分是在一个位置,还是不匹配部分是分散的,来文史特距离都被确定成为1的相同长度,只要不匹配字符的数目相同,即1。<与基本技术相关联的问题>在使用近似字符串匹配的许多应用领域中,当要检查的字符串的前缀或后缀不同于查询字符串时,查询字符串通常被估计成与要检查的字符串具有高关联度。同样地,当一个不同的字符被插入要检查的字符串的中部时,或者当不同的字符串分散在要检查的整个
] D[i,j] = min-字符串中时,查询字符串通常被估计成是与要检查的字符串具有低关联度的独立字符串。例如,“forms"(form-s)是字〃 form"的变体,“forum" (for-u-m)是独立的字。在自然语言处理中,非常需要容易地将字的这种变体与独立字分开的方法。为了如上所述地区分字,重要的是,改进通过近似字符串匹配计算出的距离的精确度。过去,在近似字符串匹配中引入了反映不匹配部分的分散和位置的另一种度量, 以改进距离的精确度并且分离位于某种距离度量(例如,来文史特距离度量)中的相同距离处的字符串。这种度量的其它示例包括如上所述的熵度量和N-gram法。在这种情况下,熵H是用如下的表达式16定义的值,并被广泛用作表示字符串的分割程度的度量。熵H与来文史特距离结合使用。在下面的表达式16中,Pi表示第i个片段的占有度。H = -E PiIogPi (表达式 16)在N-gram法中,沿着字符串移动长度为N的帧。N-gram法被广泛用作捕获不匹配部分的位置的方法,并与来文史特距离结合使用。在这种情况下,通过收集所讨论的字符串中的所有长度的片段的频度来计算熵度量。在N-gram法中,需要测量所讨论的字符串中的匹配帧的频度。在上面的方法中,随着所讨论的字符串的大小的增大,识别这种频度的计算成本增大。于是,虽然上面的方法提供非常精确的距离,但是上面的方法存在计算负荷重的问题。<转变敏感字符串距离度量的概述>发明人专心研究了这个问题,以便解决该问题。结果,发明人构想出能够计算非常精确的距离、同时抑制计算成本的字符串距离度量(转变敏感字符串距离度量)。下面参考图1和2,说明根据本发明的实施例的转变敏感字符串距离度量的概况。根据本发明的实施例的转变敏感字符串距离度量是用于确定两个字符串之间的距离的字符串距离度量。除了这两个字符串之外,使用至少两个环境变量来计算距离度量。所讨论的字符串可以是能够被量化比较的一串符号元素。符号元素可以是单个元素或者复合元素。在这种情况下,单个元素包括所有种类的符号,比如字符和代码。另一方面,复合元素是包括两个或更多个单个元素的元素,比如字和代码块。如下计算字符串距离度量。首先,比较两个元素,以确定这两个元素之间的相异度 (元素相异度)。通常,这是由在0到1的范围中的实数来表示的。精确匹配方法或模糊匹配方法可被用作元素的匹配方法。在精确匹配方法中,当两个元素相互匹配时,输出0,当两个元素相互不匹配时,输出1。在模糊匹配方法中,输出在0到1的范围中的实数作为元素相异度。为0的输出表示精确匹配。为1的输出表示完全不匹配。在根据本发明的实施例的转变敏感字符串距离度量中,不仅考虑了与元素的删除、插入和替换对应的元素相异度,而且考虑了在相邻元素之间测量的元素相异度的转变, 并作为距离的一部分,被加到元素相异度中。元素相异度的转变包括上升转变(简单地说, 上升)和下降转变(简单地说,下降)。这种情况下,上升转变是指从元素相异度为(相对)较小值的状态到元素相异度为(相对)较大值的状态的转变。这种情况下,下降转变是指从元素相异度为(相对)较大值的状态到元素相异度为(相对)较小值的状态的转变。换句话说,根据本发明的实施例的两个字符串之间的转变敏感字符串距离(TD)被定义为与用于将一个字符串转换成另一个字符串的元素的删除、插入和替换对应的元素相异度和元素相异度的转变成本的和的最小值。随后,参考图1和2,简要说明根据本发明的实施例的转变敏感字符串距离度量。 图1和2是图示了根据本发明的实施例的信息处理方法的说明图。图1图示了利用四种距离度量(即,离散LD、模糊LD、离散TD和模糊TD)来计算两个字符串(即"form"和"Forums")之间的距离的原则。如上所述,通过使图1中表示成矩形的元素相异度相加,来获得LD度量(来文史特距离度量)。另一方面,通过不仅使由矩形表示的元素相异度相加,而且使表示成位于代表元素相异度的矩形的侧面的三角形的上升转变和下降转变相加,来获得根据本发明的实施例的TD度量(转变敏感字符串距离度量)。换句话说,现有技术中的LD对应于矩形的总面积,而根据本发明的实施例的TD对应于梯形的总面积。这种情况下,在图1中,用A表示上升转变的成本(上升转变成本),并用B表示下降转变的成本(下降转变成本)。距离度量是离散的还是模糊的仅仅意味着是否使元素相异度变成二进制值,所述二进制值被表示成矩形的高度。例如,在离散度量中,"form"的前缀"f"和"Forums" 的前缀"F"之间的相异度被认为是1。例如,在模糊度量中,该相异度被认为是0.4。如图1中所示,字符串〃 form 〃和字符串〃 Forums “之间的离散LD度量为3, 不过它们之间的离散TD度量为4. 8。这些值大不相同。同样地,字符串"form"和字符串"Forums"之间的模糊LD度量为2. 4,不过它们之间的模糊TD度量为3. 9。这些值大不相同。在两个字符串(即〃 form〃和〃 forums")的情况下,字符串〃 forms"关于字符串〃 form"的距离如下所示D = 1+A = 1.4。字符串"forum"关于字符串"form" 的距离如下所示D = 1+A+B = 1. 9。在这种情况下,对于这两个字符串可给出不同的距离。如上所述,根据本发明的实施例的转变敏感字符串距离(TD)度量的特征在于即使当字符串具有相同数目的不匹配字符(即1)时,根据不匹配的字符是位于字符串的开头、结尾还是中间,对字符串也给出不同的距离。当存在多个不匹配字符时,根据不匹配字符是集中在某一位置还是分散在整个字符串之中,距离极大地变化。图2图示了六个字符串⑴至(6)的转变敏感字符串距离(TD),其中这六个字符串关于长度M= 10的字符串具有相同的长度,但是在比例、位置和分散度方面不同。在这种情况下,当上升转变成本A和下降转变成本B都为0时,该距离等同于现有技术中的来文史特距离。如从图2可看出,转变敏感字符串距离(TD)均根据上升转变成本A和下降转变成本B极大地变化。随着上升转变成本A和下降转变成本B的和A+B变得更接近于1,不匹配部分的一半分散在整个字符串之中的字符串(4)和( 的距离更接近于所有字符彼此不同的字符串(6)的距离,即最大距离10,并且甚至会变得等于最大距离10。如上所述,根据与本发明的实施例相应的转变敏感字符串距离度量,不同的部分分散在整个字符串之中的字符串可被看作根本没有任何关联的字符串,比如所有字符彼此不同的字符串。<转变敏感字符串距离的公式化>如下用公式表示具有如上所述特征的转变敏感字符串距离(TD)。
当给出具有长度M的字符串X和具有长度N的字符串Y时,用如下所示的表达式 101定义这两个字符串之间的转变敏感字符串距离(TD)。TD (X,Y,A,B) =D [M,N](表达式 101)在上面的表达式101中,A表示代表上升转变成本的环境变量,B表示代表下降转变成本的环境变量。在上面的表达式101中,D[i,j] (0彡i彡M,0彡j彡N)是字符串距离矩阵,并由如下的表达式102至104来定义。
权利要求
1.一种信息处理设备,包括数据取得单元,其用于获得至少两个元素数据;相异度计算单元,其用于计算所述数据取得单元获得的所述元素数据之间的相异度; 转变成本计算单元,其用于计算从所述数据取得单元获得的所述元素数据中的一个元素数据转变到所述元素数据中的另一个元素数据的成本,所述另一个元素数据不同于所述一个元素数据;以及距离计算单元,其用于通过利用所述相异度计算单元计算的所述相异度和所述转变成本计算单元计算的所述成本,来计算表示所述元素数据之间的相异程度的元素距离。
2.根据权利要求1所述的信息处理设备,其中所述转变成本计算单元基于构成所述元素数据的单元元素的相异度,来计算从具有相对小值的相异度转变到具有相对大值的相异度的第一转变成本,或者从具有相对大值的相异度转变到具有相对小值的相异度的第二转变成本。
3.根据权利要求2所述的信息处理设备,其中所述距离计算单元计算由所述相异度计算单元计算的所述相异度与由所述转变成本计算单元计算的第一转变成本和第二转变成本的和,并采用所述和作为所述元素距离。
4.根据权利要求1所述的信息处理设备,还包括数据预处理单元,其用于对所述数据取得单元获得的所述元素数据进行预定预处理。
5.根据权利要求4所述的信息处理设备,其中当所述元素数据是结构化数据时,所述数据预处理单元将所述结构化数据分成多个结构化元素,并且所述相异度计算单元、所述转变成本计算单元和所述距离计算单元对每个所述结构化元素进行处理。
6.根据权利要求1所述的信息处理设备,还包括元素距离计算单元,其用于通过使用从所述数据取得单元输出的所述元素数据来计算表示所述元素数据之间的相异程度的所述元素距离,其中所述元素距离计算单元包括 数据预处理单元,其用于对所述数据取得单元获得的所述元素数据进行预定预处理; 所述距离计算单元; 所述相异度计算单元;以及所述转变成本计算单元。
7.根据权利要求1所述的信息处理设备,其中所述数据取得单元是用中央处理单元、 只读存储器、随机存取存储器、输入装置或通信装置来实现的,所述相异度计算单元是用中央处理单元、只读存储器或随机存取存储器来实现的,所述转变成本计算单元是用中央处理单元、只读存储器或随机存取存储器来实现的。
8.一种信息处理方法,包括步骤 获得至少两个元素数据;计算所获得的所述元素数据之间的相异度;计算从所获得的元素数据中的一个元素数据转变成所述元素数据中的另一个元素数据的成本,所述另一个元素数据不同于所述一个元素数据;以及通过利用所计算的相异度和所计算的转变成本,来计算表示所述元素数据之间的所述相异程度的元素距离。
9.一种信息处理方法,包括步骤利用数据取得单元,获得至少两个元素数据;以及利用元素距离计算单元,通过使用从所述数据取得单元输出的所述元素数据来计算表示所述元素数据之间的相异程度的元素距离; 其中所述计算包括利用数据预处理单元对所述数据取得单元获得的所述元素数据进行预定预处理; 利用相异度计算单元计算所述数据取得单元获得的所述元素数据之间的相异度; 利用转变成本计算单元计算从所述数据取得单元获得的所述元素数据中的一个元素数据转变成所述元素数据中的另一个元素数据的成本,所述另一个元素数据不同于所述一个元素数据;以及利用距离计算单元,通过利用所述相异度计算单元计算的所述相异度和所述转变成本计算单元计算的所述成本,来计算表示所述元素数据之间的所述相异程度的元素距离。
10.一种使计算机实现以下功能的程序数据取得功能,用于获得至少两个元素数据;相异度计算功能,用于计算通过所述数据取得功能获得的所述元素数据之间的相异度;转变成本计算功能,用于计算从通过所述数据取得功能获得的所述元素数据中的一个元素数据转变成所述元素数据中的另一个元素数据的成本,所述另一个元素数据不同于所述一个元素数据;以及距离计算功能,用于通过利用由所述相异度计算功能计算的所述相异度和由所述转变成本计算功能计算的所述成本,来计算表示所述元素数据之间的相异程度的元素距离。
全文摘要
本发明公开了信息处理设备、信息处理方法和程序。根据本发明的信息处理设备包括数据取得单元,其用于获得至少两个元素数据;相异度计算单元,其用于计算数据取得单元获得的元素数据之间的相异度;转变成本计算单元,其用于计算从数据取得单元获得的元素数据中的一个元素数据转变到所述元素数据中的另一个元素数据的成本,所述另一个元素数据不同于所述一个元素数据;以及距离计算单元,其用于通过利用相异度计算单元计算的相异度和转变成本计算单元计算的转变成本,来计算表示元素数据之间的相异程度的元素距离。
文档编号G06F17/30GK102253960SQ20111012693
公开日2011年11月23日 申请日期2011年5月13日 优先权日2010年5月21日
发明者吉田芳 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1