用于确定字符串信息间相似度信息的方法、装置和设备的制作方法

文档序号:6358461阅读:181来源:国知局
专利名称:用于确定字符串信息间相似度信息的方法、装置和设备的制作方法
技术领域
本发明涉及计算机技术领域,尤其涉及用于确定字符串信息间相似度信息的方法、装置和设备。
背景技术
确定字符串信息间的相似度一直是自然语言处理中重要的一部分。现有技术中, 往往仅基于一个方面来确定字符串信息间的相似度,例如,仅基于编辑距离来确定两个字符串信息间的字形相似度,又例如,往往仅基于同义词词典来判断两个字符串信息间的语义相似度等,该等确定字符串信息间相似度的方法往往难以全面地反映两个字符串间的相似度。

发明内容
本发明的目的是提供一种用于确定字符串信息间相似度信息的方法、装置和设备。根据本发明的一个方面,提供一种计算机实现的用于基于多种类型来确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤a获取待处理的两个字符串信息;b根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。根据本发明的另一个方面,还提供了一种用于确定字符串信息间相似度信息的相似度确定装置,其中,该相似度确定装置包括第一获取装置、用于获取待处理的两个字符串信息;第一确定装置、用于根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。根据本发明的再一个方面,还提供了一种计算机设备,其中,该计算机设备包括前述相似度确定装置。与现有技术相比,本发明具有以下优点1)能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/或字义等方面的相似度,所得的相似度判断结果更为准确;2)通过结合各个类型对应的权重信息,使得所获得的最终相似度信息更符合应用场合的需求;进一步地,能够根据应用环境信息自动调整各个类型对应的权重信息;更近一步地,能够根据应用环境来选择所需处理的类型,以使本实施例的方案能够自适应地适用于多种场合;3)能够通过划分子串信息来提高获取所述最终相似度信息的速度,减少系统资源消耗;进一步地,能够根据子串信息间的匹配组合方式,提高获取所述最终相似度信息的速度,减少系统资源消耗, 或者,能够根据历史子串组合对的相似度信息,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗;4)能够通过综合考虑整体相似度信息和分串相似度信息来获得最终相似度信息,提高了获取待处理的两个字符串信息间的最终相似度信息的准确度;5)能够适用于各种需要进行相似度判断的场合;例如,在搜索场合中用于来自用户的输入序列与文本候选项所包含的关键词间的相似度判断;又例如,在纠错场合中用于来自用户的输入序列与纠错词库中所包含的关键词间的相似度判断;再例如,在同义词挖掘过程中,用于两个待判断的字符串间的相似度判断等。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显图1为本发明一个方面用于获取字符串信息间相似度信息的方法流程图;图2为本发明一个优选实施例的用于获取字符串信息间相似度信息的方法流程图;图3为本发明另一个优选实施例的用于获取字符串信息间相似度信息的方法流程图;图4为本发明一个方面用于获取字符串信息间相似度信息的相似度确定装置的结构示意图;图5为本发明一个优选实施例的用于获取字符串信息间相似度信息的相似度确定装置的结构示意图;图6为本发明另一个优选实施例的用于获取字符串信息间相似度信息的相似度确定装置的结构示意图;附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1为本发明一个方面用于获取字符串信息间相似度信息的方法流程图。其中, 根据本发明的方法可通过计算机设备中的操作系统或处理控制器来完成,为简明起见,以下将所述操作系统或处理控制器统称为相似度确定装置。其中,该计算机设备包括但不限于1)用户设备;2)网络设备。其中,所述用户设备包括但不限于个人电脑、智能手机、 PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在步骤Sl中,相似度确定装置获取待处理的两个字符串信息。其中,相似度确定装置获取所述待处理的两个字符串信息的方式包括但不限于1)获取预存储的需要进行相似度判断的两个字符串信息;2)获取相似度确定装置所属计算机设备或其他计算机设备当前需要进行相似度判断处理的两个字符串信息。例如,两个字符串信息中的一个字符串信息来自用户当前输入的输入序列,另一个字符串信息来自计算机设备根据前述一个字符串信息来进行检索的文本信息,相似度确定装置所属计算机设备或其他计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将该文本信息所属资源提供给用户,则相似度确定装置获取其所属计算机设备或其他计算机设备提供的两个字符串信息。又例如,两个字符串信息中的一个字符串信息来自用户在应用程序中输入的输入序列,另一个字符串信息来自该应用程序所属计算机设备的纠错词库,该应用程序所属计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将前述另一个字符串信息作为纠错提示信息提供给用户,则相似度确定装置获取该应用程序所属计算机设备提供的两个字符串信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取待处理的两个字符串信息的实现方式,均应包含在本发明的范围内。接着,在步骤S2中,相似度确定装置根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,所述相似度信息包括以下两项中的至少一项1)所述两个字符串信息间的相似度信息;2)所述两个字符串信息所包含的部分字符间的相似度信息。所述相似度信息包括但不限于1)相似度等级;2)相似度值。其中,所述至少两种类型的相似度信息包括基于至少两种字符串相似度处理方式来获得的至少两种相似度信息。具体地,相似度确定装置分别根据各种类型的相似度处理方式来获得所述至少两种类型的相似度信息,并直接根据所获得的各个类型的相似度信息来获得所述最终相似度信息;例如,将各个相似度信息的平均值、乘积、平方和、倒数和、对数和等作为所述最终相似度信息;或者,相似度确定装置先对各个相似度信息进行归一化处理,再根据归一化所得的各项值来来获得所述最终相似度信息;或者,相似度确定装置由所获得的各个相似度信息中选择部分相似度信息,并根据所选择的该部分相似度信息来获得所述最终相似度信息寸。例如,相似度确定装置通过对字符串信息A和字符串信息B进行Metaphone注音, 来获得两者的注音信息分别为“KRM”和“KRL”,则相似度确定装置通过获取两个注音信息中同一字符位置的两个字符相同的次数与两个注音信息包含的总字符数之比,来确定字符串信息A和B间的读音相似度信息=2/(3+4) = 2/7,并且,相似度确定装置通过查询预定的同义词词典获得两者为同义词;则相似度确定装置根据预定的当待处理的两个字符串信息为同义词时,将两者的读音相似度信息乘以2所得的值作为所述最终相似度信息的规则,将2*2/7 = 4/7作为字符串信息A和B间的最终相似度信息。又例如,字符串信息A包括子串信息Al和A2,相似度确定装置通过将子串信息Al 转换为字符串信息B来获得子串信息Al和字符串信息B间的编辑距离为2,并通过将子串信息A2转换为字符串信息B来获得子串信息A2和字符串信息B间的编辑距离为1 ;并且, 相似度确定装置获取与存储的子串信息Al、子串信息A2和字符串信息B的短文本扩展向量,并获得子串信息Al和字符串信息B的短文本扩展向量间的向量距离为1.755,子串信息 A2和字符串信息B的短文本扩展向量间的向量距离为1. 025,则相似度确定装置将所得的各项值之和的倒数=1/(2+1+1. 755+1. 025) = 0. 173作为字符串信息A和B间的最终相似度{曰息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息的实现方式,均应包含在本发明的范围内。优选地,所述至少两种类型包括以下各项中的至少两种1)编辑距离类型;具体地,编辑距离类型的相似度信息通过获取两个字符串信息间的编辑距离来获得。更优选地,该编辑距离类型的相似度信息根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息来获得。例如,两个字符串信息分别为“bai,,和“bei ”,将“bai,,转换为“bei ”的过程中所执行的编辑操作分别为“复制字符b”、“将字符a替换为字符e”和“复制字符i”,则所获得的字符变化信息为“a — e”,且查询预定代价库获得“a — e”的变化代价为0. 2,则确定 “bai”和“bei”间的编辑距离类型的相似度为1-0.2 = 0.8。2)读音类型;具体地,读音类型的相似度信息通过获取两个字符串信息的注音或拼音,并通过确定所述注音或拼音的相似度来获得。例如,获得待处理的两个字符串信息的拼音分别为 “baidu”和“paidu”,则根据同一排序位置下相同的辅音和元音数量占总辅音和元音数量的比例来确定该待处理的两个字符串信息的读音类型的相似度信息为0. 75。3)同义词匹配类型;具体地,同义词匹配类型的相似度信息通过判断两个字符串信息是否为同义词, 或者,判断两个字符串信息的同义词可能性来获得。4)短文本扩展类型;具体地,短文本扩展类型的相似度信息通过获取两个字符串信息的短文本扩展信息间的相似度来获得。5)字符串特征向量类型;具体地,字符串特征向量类型的相似度信息根据分别基于所述两个字符串信息的检索结果所得的两个字符串特征向量来获得。例如,基于字符串信息A进行检索来获得多个网页,并对该多个网页中的文本信息进行切词、去除无效关键词以及统计重复出现的关键词数量等处理后,获得字符串信息A 的字符串特征向量;接着,对于字符串信息B,重复上述处理以获得字符串信息B的字符串特征向量;接着,通过获取字符串信息A和B的字符串特征向量间的向量距离来获得字符串信息A和B间的字符串特征向量类型的相似度信息。6)主题分布类型;具体地,主题分布类型的相似度信息根据分别与所述两个字符串信息相关的多个资源信息的主题来获得。例如,基于字符串信息A进行检索来获得三个网页,并获得该三个网页的预定主题分别为“新闻”、“娱乐”、“新闻”,则确定字符串信息A的主题分布包括“新闻2/3,娱乐 1/3”;对于字符串信息B,重复上述操作获得其主题分布包括“新闻1/2,娱乐1/4,游戏1/4”;接着,将字符串信息A和B相同主题的平均值之和=(2/3+1/2)/2+(1/3+1/4)/2 = 7/8作为字符串信息A和B间的主题分布类型的相似度信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于至少两种字符串相似度处理方式来获得的至少两种相似度信息,均应包含在本发明所述至少两种类型的相似度信息的范围内。根据本发明的方法能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/或字义等方面的相似度,所得的相似度判断结果更为准确。图2为本发明一个优选实施例的用于获取字符串信息间相似度信息的方法流程图。根据本实施例的方法包括步骤Si、步骤S3和步骤S2’。步骤Sl已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。在步骤S3中,相似度确定装置获取所述至少两种类型中每种类型所对应的权重信息。其中,该权重信息包括但不限于1)权重等级;2)权重值。具体地,相似度确定装置获取所述权重信息的方式包括但不限于1)相似度确定装置根据预定的权重信息和类型间的对应关系,来获取所述至少两种类型中每种类型对应的权重信息;2)相似度确定装置获取所述最终相似度信息的应用环境信息,并根据所述应用环境信息,确定所述每种类型对应的权重信息。其中,相似度确定装置获取所述最终相似度信息的应用环境信息的方式包括但不限于a)相似度确定装置获取由其他设备或其他装置提供的应用环境信息;例如,所述计算机设备中的另一个装置请求相似度确定装置确定两个字符串信息间的最终相似度信息,并向相似度确定装置提供其API (Application Programming Interface),则相似度确定装置将该另一个装置提供的API作为所述应用环境信息;b)相似度确定装置检测与所获得的待处理的两个字符串信息相关的应用程序, 以获得所述应用环境信息;例如,当检测到所获得的待处理的两个字符串信息中的一个由 word中获取,则确定所述应用环境信息包括word程序的标识信息等。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取所述最终相似度信息的应用环境信息的实现方式, 均应包含在本发明的范围内。其中,相似度确定装置根据所述应用环境信息,确定所述每种类型所对应的权重信息的方式包括但不限于a)当所述至少两种类型包括相似度确定装置所能够采用的所有类型时,相似度确定装置根据所述应用环境信息,确定所有类型分别对应的权重信息。具体地,相似度确定装置根据预定的应用环境信息与各个类型的权重信息间的对应关系,来确定所有类型分别对应的权重信息。例如,当所述所有类型包括编辑距离类型和主题分布类型,且所述应用环境信息包括word程序的标识信息时,相似度确定装置根据所述对应关系确定当应用环境信息包括word程序的标识信息时,编辑距离类型对应的权重等级为第一等级,主题分布类型对应的权重等级为第三等级等。b)相似度确定装置根据所述应用环境信息,由所有类型中选择所述至少两种类型,并根据所述应用环境信息,获取所选择的所述至少两种类型中每种类型所对应的权重 fn息ο具体地,相似度确定装置根据预定的各应用环境下需要采用的类型,来由所有类型中选择所述至少两种类型;接着,相似度确定装置根据所述应用环境信息,获取所选择的所述至少两种类型中每种类型对应的权重信息。例如,相似度确定装置所能够采用的所有类型包括读音类型、同义词匹配类型、短文本扩展类型、字符串特征向量类型和主题分布类型,且相似度确定装置根据所获得的应用环境信息中包含的API判断当前的应用环境为搜索环境,则相似度确定装置根据预定的搜索环境下需要采用短文本扩展类型、字符串特征向量类型和主题分布类型的规则,由读音类型、同义词匹配类型、短文本扩展类型、字符串特征向量类型和主题分布类型中选择短文本扩展类型、字符串特征向量类型和主题分布类型;接着,相似度确定装置根据预定的搜索环境下各个类型分别对应的权重信息,获取所选择的短文本扩展类型、字符串特征向量类型和主题分布类型分别所对应的权重信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述应用环境信息,确定所述每种类型所对应的权重信息的实现方式,均应包含在本发明的范围内。需要说明的是,当无需根据待处理的两个字符串信息来获取权重信息时,步骤Sl 与步骤S3之间并无先后顺序。接着,在步骤S2 ’中,相似度确定装置根据所述基于两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息。其中,相似度确定装置获得所述至少两种类型的相似度信息的方式已在前述步骤S2中予以详述,并以引用的方式包含于此,不再赘述。具体地,相似度确定装置根据所述权重信息来对所获得的所述至少两种类型的相似度信息进行加权,以根据加权后的相似度信息来获得最终相似度信息。例如,相似度确定装置获得字符串信息A和B间的读音相似度信息为0.45,同义词匹配类型的相似度信息为0. 26,且相似度确定装置在前述步骤S3中获得读音相似度类型对应的权重值为0. 4,同义词匹配类型对应的权重值为0. 5 ;则相似度确定装置将各个类型对应的权重值乘以该类型的相似度信息,并将所获得的各个乘积相加,以获得所述最终相似度信息=0. 4*0. 45+0. 5*0. 26 = 0. 31。又例如,字符串信息A包括子串信息Al和A2,相似度确定装置获得子串信息Al和字符串信息B间的编辑距离为2,子串信息A2和字符串信息B间的编辑距离为1,子串信息 Al和字符串信息B的短文本扩展向量间的向量距离为1. 755,子串信息A2和字符串信息B 的短文本扩展向量间的向量距离为1.025,并且,相似度确定装置在步骤S3中获得编辑距离类型对应的权重值为0. 8,短文本扩展向量类型对应的权重值为0. 5 ;则相似度确定装置将各项相似度信息的加权和的倒数=1/(0. 8*2+0. 8*1+0. 5*1. 755+0. 5*1. 025) = 0. 2639 作为字符串信息A和B间的最终相似度信息。
11
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述基于两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息的实现方式,例如,将各项相似度信息加权后的对数和、平方和、乘积等作为最终相似度信息,又例如,先对各项相似度信息进行归一化处理,再对归一化处理所得的值求取加权和以获得最终相似度信息等,均应包含在本发明的范围内。根据本实施例的方法,通过结合各个类型对应的权重信息,使得所获得的最终相似度信息更符合应用场合的需求;例如,当根据本实施例的方法应用于纠错系统时,赋予编辑距离类型和读音类型较高的权重信息,当根据本实施例的方法应用于搜索系统时,赋予短文本扩展类型、字符串特征向量类型和主体分部类型较高的权重信息等。进一步地,根据本实施例的方法还能根据应用环境信息自动调整各个类型对应的权重信息,并能够根据应用环境来选择所需处理的类型,以使本实施例的方法能够自适应地适用于多种场合。图3为本发明另一个优选实施例的用于获取字符串信息间相似度信息的方法流程图。根据本实施例的方法包括步骤Sl及步骤S2,其中,步骤S2进一步包括步骤S21和步马聚S22 ο步骤Sl已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。在步骤S21中,相似度确定装置对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息包含的多个子串信息。具体地,相似度确定装置根据诸如音节、字符编码类型、字符所属语言和/或词典中包含的关键词等一种或多种因素,来对所述两个字符串信息中的至少一者进行划分,以获得该至少一个字符串信息包含的多个子串信息。例如,对于字符串信息“二次λ d < ”,相似度确定装置根据字符串“二次”和字符串“λ >9 L < ”的字符编码类型不同,并根据“λ 0”和“>9 L < ”分别为词典中的两个词汇,来将字符串信息“二次λ >9 /i < ”划分为子串信息“二次”、“ λ ”和“ >9九< ”。 为简洁起见,下述内容中将采用标识符号来表示子串信息,例如,对于字符串信息“二次λ 3 m < ”,以字符串信息A来表示;对于子串信息“二次”,以子串信息Al来表示;对于子串信息“λ 0”,以子串信息A2来表示;对于子串信息“ ”、< ”,以子串信息A3来表示等。 需要说明的是,前述举例仅为例示,而非对标志符号“Α”、“Α1”、“Α2”、“Α3”等所代表的具体字符串进行限定。接着,在步骤S22中,相似度确定装置根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,相似度确定装置获得两个子串信息间的相似度信息的方式与前述步骤S2中相似度确定装置获得两个字符串信息间的相似度信息的方式相同或相似,在此不再赘述。具体地,相似度确定装置对所获得的各个相似度信息进行处理,以确定所述两个字符串信息间的最终相似度信息。例如,在步骤S21中,相似度确定装置获得字符串信息A包括子串信息Al和Α2,字符串信息B包括子串信息Bl和Β2 ;在本步骤中,相似度确定装置获得子串信息Al和Bl间的读音类型的相似度信息为0. 6,子串信息Al和B2间的读音类型的相似度信息为0. 1,子串信息A2和Bl间的编辑距离类型的相似度信息为0. 2,子串信息A2和Bl间的编辑距离类型的相似度信息为0. 8 ;则相似度确定装置将各个相似度信息的平均值作为所述最终相似度信息,以获得所述最终相似度信息=(0. 6+0. 1+0. 2+0. 8)/4 = 0. 425。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息, 确定所述两个字符串信息间的最终相似度信息的实现方式,例如,选择由高至低排序后位于前2位的相似度信息来获得最终相似度信息等,均应包含在本发明的范围内。根据本实施例的方法,能够通过划分子串信息来提高获取所述最终相似度信息的速度,减少系统资源消耗。作为本实施例的优选方案之一,所述步骤S22进一步包括步骤S2211 (图未示)、步骤S2212 (图未示)及步骤S2213 (图未示)。在步骤S2211中,相似度确定装置获取所述包含于一个字符串信息中的所有子串信息与包含于另一个字符串信息中的所有子串信息间所有的匹配组合方式。例如,在步骤S21中,相似度确定装置获得相似度确定装置获得字符串信息A包括子串信息Al、A2和A3,字符串信息B包括子串信息B 1和B2,则相似度确定装置获得字符串信息A包含的所有子串信息和字符串信息B包含的所有子串信息间的所有匹配组合方式如下所示
匹配组合方式一匹配组合方式二Al匹酉己BlAl和A2匹酉己Bl A2和A3匹酉己B2 A3匹酉己B2接着,在步骤S2212中,相似度确定装置根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息。具体地,相似度确定装置获取各个匹配组合方式中相匹配的子串信息或子串组合间的至少两种类型的相似度信息,以获得该匹配组合方式下该两个字符串信息间的至少两种类型的相似度信息。其中,相似度确定装置获得两个子串信息间、两个子串组合间或一个子串信息和一个子串组合间至少两种类型的相似度信息的方式与前述步骤S2中相似度确定装置获得两个字符串信息间至少两种类型的相似度信息的方式相同或相似,在此不再赘述。例如,以前述步骤S2211中所示匹配组合方式一和匹配组合方式二为例,相似度确定装置获得匹配组合方式一中相匹配的子串信息Al和Bl间的编辑距离类型的相似度信息为0. 8,读音类型的相似度信息为0. 3,子串组合A2A3与子串信息B2间的编辑距离类型的相似度信息为0. 05,读音类型的相似度信息为0. 88,匹配组合方式二中相匹配的子串组合A1A2与Bl间的编辑距离类型的相似度信息为0. 3,读音类型的相似度信息为0. 2,子串信息A3与子串信息B2间的编辑距离类型的相似度信息为0. 07,读音类型的相似度信息为0. 25 ;则相似度确定装置通过求取各个类型的相似度信息的平均值,来获得字符串信息 A和B间的编辑距离类型的相似度信息=(0. 8+0. 05+0. 3+0. 07)/4 = 0. 305,读音类型的相似度信息=(0. 3+0. 88+0. 2+0. 25)/4 = 0. 4075。又例如,匹配组合方式一和匹配组合方式二中各个子串信息或子串组合间的编辑距离类型和读音类型的相似度信息如前述举例所示,则相似度确定装置根据子串信息Al 和Bl间的编辑距离的相似度信息0. 8高于预定编辑距离阈值0. 7,子串组合A2A3与子串信息B2间的读音类型的相似度信息0. 88高于预定读音阈值0. 75,确定根据匹配组合方式一来获得字符串信息A和B间的编辑距离类型和读音类型的相似度信息,则相似度确定装置获得字符串信息A和B间的编辑距离类型的相似度信息=(0. 8+0. 05)/2 = 0. 425,读音类型的相似度信息=(0. 3+0. 88)/2 = 0. 59。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息的实现方式,均应包含在本发明的范围内。接着,在步骤S2213中,相似度确定装置根据所述两个字符串信息间的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,相似度确定装置根据所述两个字符串信息间的至少两种类型的相似度信息来确定所述两个字符串信息间的最终相似度信息的方式,与前述步骤S2中相似度确定装置根据基于两个字符串信息来获得的至少两种类型的相似度信息确定所述两个字符串信息间的最终相似度信息的方式相同或相似,在此不再赘述。根据本优选方案的方法,能够根据子串信息间的匹配组合方式,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗。作为本实施例的优选方案之一,所述步骤S22进一步包括步骤S2221 (图未示)、步骤S2222(图未示)、步骤S2223(图未示)及步骤S2224(图未示)。在步骤S221中,相似度确定装置由所述两个字符串信息中获取当前子串组合对信息。其中,所述当前子串组合对信息中包括分别属于两个字符串信息的子串信息和/或子串组合。 具体地,相似度确定装置根据两个字符串信息所包含的子串信息在各自所属的字符串信息中的排序位置,并结合已执行的获取所述当前子串组合对信息的操作记录,来获取所述当前子串组合对信息。其中,所述操作记录包括但不限于以下至少一项1)已执行的获取操作次数;2)前一次获取的当前子串组合对信息;3)前一次获取的当前子串组合对信息中包含的属于一个字符串信息的子串信息数量以及属于另一个字符串信息的子串信息数量。例如,在步骤S21中,相似度确定装置获得相似度确定装置获得字符串信息A包括子串信息Al、A2和A3,字符串信息B包括子串信息B 1和B2,并由所述操作记录中获得前一次获取的当前子串组合对信息中包括子串组合A1A2以及子串信息Bi。则相似度确定装置随机选择子串组合A1A2A3以及子串信息Bi,或者,子串组合A1A2以及子串组合B1B2作为当前子串组合对信息。需要说明的是,相似度确定装置可根据多种次序获取当前子串组合对信息及包含于该当前子串组合对信息中的两个待处理子串信息;例如,当待处理的字符串信息A包括子串信息Al、A2和A3,其中,子串信息Al、A2和A3在字符串信息A中由左至右排列,字符串信息B包括子串信息Bl和B2,其中,子串信息Bl和B2在字符串信息B中由左至右排列, 则相似度确定装置以如下任一次序来获取当前子串组合对信息1)A1_B1、A1A2_B1、A1A2A3_B1、A1_B1B2、A1A2_B1B2、A1A2A3_B1B2 ;2) A1_B1、A1_B1B2、A1A2_B1、A1A2_B1B2、A1A2A3_B1、A1A2A3_B1B2 ;3) A3_B2、A2A3_B2、A1A2A3_B2、A3_B1B2、A2A3_B1B2、A1A2A3_B1B2 ;4) A3_B2、A3_B1B2、A2A3_B2、A2A3_B1B2、A1A2A3_B2、A1A2A3_B1B2 ;5) A1_B1、A1A2_B1、A1_B1B2、A1A2A3_B1、A1A2_B1B2、A1A2A3_B1B2 ;6) A3_B2、A2A3_B2、A3_B1B2、A1A2A3_B2、A2A3_B1B2、A1A2A3_B1B2 ;需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由所述两个字符串信息中获取当前子串组合对信息及包含于该当前子串组合对信息中的两个待处理子串信息的实现方式,均应包含在本发明的范围内。接着,在步骤S2222中,相似度确定装置获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息。其中,每个待处理子串信息对包括分别属于两个字符串信息的子串信息和/或子串组合,该待处理子串信息对的相似度信息即为其包含的子串信息和/或子串组合间的相似度信息。其中,相似度确定装置获取待处理子串信息对的至少两种类型的相似度信息的方式与步骤S2中相似度确定装置获取待处理的两个字符串信息间至少两种类型的相似度信息方式相同或相似,在此不再赘述。例如,字符串信息A包括由左至右排列的子串信息Al、A2和A3,字符串信息B包括由左至右排列的子串信息子串信息Bl和B2 ;在步骤S2221中,相似度确定装置所获得的当前子串组合对信息为“A1A2A3B_1B2” ;则相似度确定装置根据当前子串组合对信息中的两个子串组合“A1A2A3”和“B1B2”间所有可能的子串信息的匹配组合方式,获得两个待处理子串信息对“A2A3_B2”和“A3_B2”,并获得“A2A3_B2”的编辑距离类型和读音类型的相似度信息分别为0. 45和0. 576,“A3_B2”的编辑距离类型和读音类型的相似度信息分别为 0. 61 和 0. 5。接着,在步骤S2223中,相似度确定装置根据所述各个待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信肩、ο例如,所述各个待处理子串信息对的至少两种类型的相似度信息如前述步骤 S2222中的举例所示,且相似度确定装置已获得的历史相似度记录如下所示子串组合对信息相似度信息
AlBl0.6
A1A2B10.3
A1A2A3B10.1
A1B1B20.2 相似度确定装置确定待处理子串信息对“A2A3_B2”的相似度信息=(0. 45+0. 576)/2 = 0. 513,待处理子串信息对“A3_B2”的相似度信息=(0. 61+0. 5)/2 = 0. 555 ;则相似度确定装置根据子串组合对信息“A1_B1”的相似度信息为0. 6,确定在匹配组合方式“Al匹配Bi,Α2和A3匹配Β2”下当前子串组合对信息“Α1Α2Α3_Β1Β2”的相似度信息=0. 6*0.513 = 0. 3078,在匹配组合方式“Al和Α2匹配Bi,A3匹配Β2”下当前子串组合对信息“Α1Α2Α3_Β1Β2”的相似度信息=0. 3*0. 555 = 0. 1665 ;则相似度确定装置选择较大的值0. 3078作为当前子串组合对信息“Α1Α2Α3_Β1Β2”的相似度信息。接着,在步骤S2224中,相似度确定装置将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,重复步骤S2221至步骤S2223以及前述将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一的步骤,直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。根据本优选方案的方法,能够根据历史子串组合对的相似度信息,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗。作为本实施例的优选方案之一,根据本实施例的方法还包括步骤S4,前述步骤S2 包括步骤S22,。

在步骤S4中,相似度确定装置获取所述两个字符串信息间至少一种类型的整体相似度信息。其中,所述整体相似度信息为根据两个未划分的字符串信息直接获得的相似度信息。相似度确定装置获取一种类型的整体相似度信息的方式与步骤S2中相似度确定装置获取待处理的两个字符串信息间的一种类型的相似度信息的方式相同或相似,在此不再赘述。在步骤S22 ’中,相似度确定装置根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,并结合所述至少一种类型的整体相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,相似度确定装置获取所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息的方式已在前述步骤S22中予以详述,并以引用的方式包含于此,不再赘述。具体地,相似度确定装置根据所述整体相似度信息和所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,来确定所述最终相似度信息的方式包括但不限于1)根据所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息,获得待处理的两个字符串信息间的分串相似度信息,并选择该分串相似度信息和所述整体相似度信息中相似度值或相似度等级较高的一者作为所述最终相似度信息;其中,相似度确定装置获得所述分串相似度信息的方式,与前述步骤S22中相似度确定装置获得所述最终相似度信息的方式相同或相似,在此不再赘述。例如,在前述步骤S4中,相似度确定装置获得字符串信息A和B间一种类型的整体相似度信息为0. 6,且相似度确定装置采用前述步骤S22中所述的方式,获得字符串信息 A和B间的分串相似度信息为0. 83,则相似度确定装置选择相似度值较高的分串相似度信息作为所述最终相似度信息。2)对所述分串相似度信息以及所述至少一种类型整体相似度信息进行处理,以获
16得所述最终相似度信息。例如,在前述步骤S4中,相似度确定装置获得字符串信息A和B间字符串特征向量类型的整体相似度信息为0. 6,主题分布类型的整体相似度信息为0. 4,且相似度确定装置采用前述步骤S22中所述的方式,获得字符串信息A和B间的分串相似度信息为0. 83, 则相似度确定装置根据预定的字符串特征向量类型的整体相似度信息的权重值为0. 45,主题分布类型的整体相似度信息的权重值为0. 47,分串相似度信息的权重值为0. 86,来对所述两种类型的整体相似度信息以及分串相似度信息求取加权和,以获得最终相似度信息= 0. 45*0. 6+0. 47*0. 4+0. 86*0. 83 = 1. 1718。需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述整体相似度信息和所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息来确定所述最终相似度信息的实现方式,均应包含在本发明的范围内。根据本优选方案的方法,能够通过综合考虑整体相似度信息和分串相似度信息来获得最终相似度信息,提高了获取待处理的两个字符串信息间的最终相似度信息的准确度。图4为本发明一个方面用于获取字符串信息间相似度信息的相似度确定装置的结构示意图。根据本发明的相似度确定装置包括第一获取装置1和第一确定装置2。第一获取装置1获取待处理的两个字符串信息。其中,第一获取装置1获取所述待处理的两个字符串信息的方式包括但不限于1)获取预存储的需要进行相似度判断的两个字符串信息;2)获取相似度确定装置所属计算机设备或其他计算机设备当前需要进行相似度判断处理的两个字符串信息。例如,两个字符串信息中的一个字符串信息来自用户当前输入的输入序列,另一个字符串信息来自计算机设备根据前述一个字符串信息来进行检索的文本信息,第一获取装置1所属计算机设备或其他计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将该文本信息所属资源提供给用户,则第一获取装置1获取其所属计算机设备或其他计算机设备提供的两个字符串信息。又例如,两个字符串信息中的一个字符串信息来自用户在应用程序中输入的输入序列,另一个字符串信息来自该应用程序所属计算机设备的纠错词库,该应用程序所属计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将前述另一个字符串信息作为纠错提示信息提供给用户,则第一获取装置1获取该应用程序所属计算机设备提供的两个字符串信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取待处理的两个字符串信息的实现方式,均应包含在本发明的范围内。接着,第一确定装置2根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,所述相似度信息包括以下两项中的至少一项1)所述两个字符串信息间的相似度信息;2)所述两个字符串信息所包含的部分字符间的相似度信息。所述相似度信息包括但不限于1)相似度等级;2)相似度值。其中,所述至少两种类型的相似度信息包括基于至少两种字符串相似度处理方式来获得的至少两种相似度信息。具体地,第一确定装置2分别根据各种类型的相似度处理方式来获得所述至少两种类型的相似度信息,并直接根据所获得的各个类型的相似度信息来获得所述最终相似度信息;例如,将各个相似度信息的平均值、乘积、平方和、倒数和、对数和等作为所述最终相似度信息;或者,第一确定装置2先对各个相似度信息进行归一化处理,再根据归一化所得的各项值来来获得所述最终相似度信息;或者,第一确定装置2由所获得的各个相似度信息中选择部分相似度信息,并根据所选择的该部分相似度信息来获得所述最终相似度信息等。例如,第一确定装置2通过对字符串信息A和字符串信息B进行Metaphone注音, 来获得两者的注音信息分别为“KRM”和“KRL”,第一确定装置2通过获取两个注音信息中同一字符位置的两个字符相同的次数与两个注音信息包含的总字符数之比,来确定字符串信息A和B间的读音相似度信息=2/(3+4) = 2/7,并且,第一确定装置2通过查询预定的同义词词典获得两者为同义词;则第一确定装置2根据预定的当待处理的两个字符串信息为同义词时,将两者的读音相似度信息乘以2所得的值作为所述最终相似度信息的规则,将 2*2/7 = 4/7作为字符串信息A和B间的最终相似度信息。又例如,字符串信息A包括子串信息Al和A2,第一确定装置2通过将子串信息Al 转换为字符串信息B来获得子串信息Al和字符串信息B间的编辑距离为2,并通过将子串信息A2转换为字符串信息B来获得子串信息A2和字符串信息B间的编辑距离为1 ;并且, 第一确定装置2获取与存储的子串信息Al、子串信息A2和字符串信息B的短文本扩展向量,并获得子串信息Al和字符串信息B的短文本扩展向量间的向量距离为1.755,子串信息 A2和字符串信息B的短文本扩展向量间的向量距离为1. 025,则第一确定装置2将所得的各项值之和的倒数=1/(2+1+1. 755+1. 025) = 0. 173作为字符串信息A和B间的最终相似度{曰息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息的实现方式,均应包含在本发明的范围内。优选地,所述至少两种类型包括以下各项中的至少两种1)编辑距离类型;具体地,编辑距离类型的相似度信息通过获取两个字符串信息间的编辑距离来获得。更优选地,包含于相似度确定装置中的第一类型相似度确定装置(图未示)根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息来获得该编辑距离类型的相似度信息。例如,两个字符串信息分别为“bai”和“bei”,第一类型相似度确定装置将“bai” 转换为“bei”的过程中所执行的编辑操作分别为“复制字符b”、“将字符a替换为字符e” 和“复制字符i”,则第一类型相似度确定装置所获得的字符变化信息为“a— e”,且查询预定代价库获得“a — e”的变化代价为0. 2,则确定“bai”和“bei”间的编辑距离类型的相似度为 1-0. 2 = 0. 8。2)读音类型;具体地,读音类型的相似度信息通过获取两个字符串信息的注音或拼音,并通过确定所述注音或拼音的相似度来获得。例如,获得待处理的两个字符串信息的拼音分别为 “baidu”和“paidu”,则根据同一排序位置下相同的辅音和元音数量占总辅音和元音数量的比例来确定该待处理的两个字符串信息的读音类型的相似度信息为0. 75。3)同义词匹配类型;具体地,同义词匹配类型的相似度信息通过判断两个字符串信息是否为同义词, 或者,判断两个字符串信息的同义词可能性来获得。4)短文本扩展类型;具体地,包含于相似度确定装置中的短文本扩展类型的相似度信息通过获取两个字符串信息的短文本扩展信息间的相似度来获得。5)字符串特征向量类型;具体地,包含于相似度确定装置中的第二类型相似度确定装置(图未示)根据分别基于所述两个字符串信息的检索结果所得的两个字符串特征向量来获得字符串特征向量类型的相似度信息。例如,第二类型相似度确定装置基于字符串信息A进行检索来获得多个网页,并对该多个网页中的文本信息进行切词、去除无效关键词以及统计重复出现的关键词数量等处理后,获得字符串信息A的字符串特征向量;接着,对于字符串信息B,第二类型相似度确定装置重复上述处理以获得字符串信息B的字符串特征向量;接着,第二类型相似度确定装置通过获取字符串信息A和B的字符串特征向量间的向量距离来获得字符串信息A和B 间的字符串特征向量类型的相似度信息。6)主题分布类型;具体地,包含于相似度确定装置中的第三类型相似度确定装置(图未示)根据分别与所述两个字符串信息相关的多个资源信息的主题来获得主题分布类型的相似度信息。例如,第三类型相似度确定装置基于字符串信息A进行检索来获得三个网页, 并获得该三个网页的预定主题分别为“新闻”、“娱乐”、“新闻”,则第三类型相似度确定装置确定字符串信息A的主题分布包括“新闻2/3,娱乐1/3”;对于字符串信息B,第三类型相似度确定装置重复上述操作获得其主题分布包括“新闻1/2,娱乐1/4,游戏 1/4”;接着,第三类型相似度确定装置将字符串信息A和B相同主题的平均值之和= (2/3+1/2)/2+(1/3+1/4)/2 = 7/8作为字符串信息A和B间的主题分布类型的相似度信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于至少两种字符串相似度处理方式来获得的至少两种相似度信息,均应包含在本发明所述至少两种类型的相似度信息的范围内。根据本发明的相似度确定装置能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/ 或字义等方面的相似度,所得的相似度判断结果更为准确。图5为本发明一个优选实施例的用于获取字符串信息间相似度信息的相似度确定装置的结构示意图。根据本实施例的相似度确定装置包括第一获取装置1、权重获取装置 3以及包含于第一确定装置中的第一子确定装置23。第一获取装置1已在参照图4所示实施例中予以详述,并以引用的方式包含于此, 不再赘述。权重获取装置3获取所述至少两种类型中每种类型所对应的权重信息。其中,该权重信息包括但不限于1)权重等级;2)权重值。具体地,权重获取装置3获取所述权重信息的方式包括但不限于1)权重获取装置3根据预定的权重信息和类型间的对应关系,来获取所述至少两种类型中每种类型对应的权重信息;2)权重获取装置3通过其所包含的第一子获取装置(图未示)以及权重确定装置(图未示)来获得所述至少两种类型中每种类型对应的权重信息。其中,第一子获取装置获取所述最终相似度信息的应用环境信息;权重确定装置根据第一子获取装置所获得的所述应用环境信息,确定所述每种类型对应的权重信息。其中,第一子获取装置获取所述最终相似度信息的应用环境信息的方式包括但不限于a)第一子获取装置获取由其他设备或其他装置提供的应用环境信息;例如,所述计算机设备中的另一个装置请求相似度确定装置确定两个字符串信息间的最终相似度信息,并向相似度确定装置提供其API (Application Programming Interface),则第一子获取装置获取该另一个装置提供给相似度确定装置的API,并将该API作为所述应用环境信息;b)第一子获取装置检测与所获得的待处理的两个字符串信息相关的应用程序, 以获得所述应用环境信息;例如,当检测到所获得的待处理的两个字符串信息中的一个由 word中获取,则第一子获取装置3确定所述应用环境信息包括word程序的标识信息等。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取所述最终相似度信息的应用环境信息的实现方式, 均应包含在本发明的范围内。其中,权重确定装置根据第一子获取装置所获得的所述应用环境信息,确定所述每种类型所对应的权重信息的方式包括但不限于;a)当所述至少两种类型包括相似度确定装置所能够采用的所有类型时,权重确定装置根据所述应用环境信息,确定所有类型分别对应的权重信息。具体地,权重确定装置根据预定的应用环境信息与各个类型的权重信息间的对应关系,来确定所有类型分别对应的权重信息。例如,当所述所有类型包括编辑距离类型和主题分布类型,且所述应用环境信息包括word程序的标识信息时,权重确定装置根据所述对应关系确定当应用环境信息包括 word程序的标识信息时,编辑距离类型对应的权重等级为第一等级,主题分布类型对应的权重等级为第三等级等。b)权重确定装置根据其所包含的选择装置(图未示)和子权重确定装置(图未示)来获得所述至少两种类型中每种类型所对应的权重信息。其中,选择装置根据所述应用环境信息,由所有类型中选择所述至少两种类型;子权重确定装置根据所述应用环境信息,获取选择装置所选择的所述至少两种类型中每种类型所对应的权重信息。具体地,选择装置根据预定的各应用环境下需要采用的类型,来由所有类型中选择所述至少两种类型;接着,子权重确定装置根据所述应用环境信息,获取选择装置所选择的所述至少两种类型中每种类型对应的权重信息。例如,相似度确定装置所能够采用的所有类型包括读音类型、同义词匹配类型、短文本扩展类型、字符串特征向量类型和主题分布类型,子权重确定装置根据选择装置所获得的应用环境信息中包含的API判断当前的应用环境为搜索环境,则子权重确定装置根据预定的搜索环境下需要采用短文本扩展类型、字符串特征向量类型和主题分布类型的规则,由读音类型、同义词匹配类型、短文本扩展类型、字符串特征向量类型和主题分布类型中选择短文本扩展类型、字符串特征向量类型和主题分布类型;接着,子权重确定装置根据预定的搜索环境下各个类型分别对应的权重信息,获取所选择的短文本扩展类型、字符串特征向量类型和主题分布类型分别所对应的权重信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述应用环境信息,确定所述每种类型所对应的权重信息的实现方式,均应包含在本发明的范围内。需要说明的是,当无需根据待处理的两个字符串信息来获取权重信息时,第一获取装置1与权重获取装置3所执行的操作并无先后顺序。第一字确定装置23根据所述基于两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息。其中,第一子确定装置23获得所述至少两种类型的相似度信息的方式与第一确定装置获得所述至少两种类型的相似度信息的方式相同或相似,并以引用的方式包含于此, 不再赘述。具体地,第一字确定装置23根据所述权重信息来对所获得的所述至少两种类型的相似度信息进行加权,以根据加权后的相似度信息来获得最终相似度信息。例如,第一字确定装置23获得字符串信息A和B间的读音相似度信息为0. 45,同义词匹配类型的相似度信息为0. 26,且权重获取装置3获得读音相似度类型对应的权重值为0. 4,同义词匹配类型对应的权重值为0. 5 ;则第一字确定装置23将各个类型对应的权重值乘以该类型的相似度信息,并将所获得的各个乘积相加,以获得所述最终相似度信息= 0. 4*0. 45+0. 5*0. 26 = 0. 31。又例如,字符串信息A包括子串信息Al和A2,第一字确定装置23获得子串信息 Al和字符串信息B间的编辑距离为2,子串信息A2和字符串信息B间的编辑距离为1,子串信息Al和字符串信息B的短文本扩展向量间的向量距离为1. 755,子串信息A2和字符串信息B的短文本扩展向量间的向量距离为1. 025,并且,权重获取装置3获得编辑距离类型对应的权重值为0. 8,短文本扩展向量类型对应的权重值为0. 5 ;则第一字确定装置23将各项相似度信息的加权和的倒数=1/(0. 8*2+0. 8*1+0. 5*1. 755+0. 5*1. 025) = 0. 2639作为字符串信息A和B间的最终相似度信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述基于两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息的实现方式,例如,将各项相似度信息加权后的对数和、平方和、乘积等作为最终相似度信息,又例如,先对各项相似度信息进行归一化处理,再对归一化处理所得的值求取加权和以获得最终相似度信息等,均应包含在本发明的范围内。根据本实施例的相似度确定装置,通过结合各个类型对应的权重信息,使得所获得的最终相似度信息更符合应用场合的需求;例如,当根据本实施例的相似度确定装置应用于纠错系统时,赋予编辑距离类型和读音类型较高的权重信息,当根据本实施例的相似度确定装置应用于搜索系统时,赋予短文本扩展类型、字符串特征向量类型和主体分部类型较高的权重信息等。进一步地,根据本实施例的相似度确定装置还能根据应用环境信息自动调整各个类型对应的权重信息,并能够根据应用环境来选择所需处理的类型,以使本实施例的相似度确定装置能够自适应地适用于多种场合。图6为本发明另一个优选实施例的用于获取字符串信息间相似度信息的相似度确定装置的结构示意图。根据本实施例的相似度确定装置包括第一获取装置1、包含于第一确定装置中的划分装置21及第二子确定装置22。第一获取装置1已在参照图4所示实施例中予以详述,并以引用的方式包含于此, 不再赘述。划分装置21对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息包含的多个子串信息。具体地,划分装置21根据诸如音节、字符编码类型、字符所属语言和/或词典中包含的关键词等一种或多种因素,来对所述两个字符串信息中的至少一者进行划分,以获得该至少一个字符串信息包含的多个子串信息。例如,对于字符串信息“二次λ 6 W、”,划分装置21根据字符串“二次”和字符串“λ >9 L < ”的字符编码类型不同,并根据“λ 0”和“>9 L < ”分别为词典中的两个词汇,来将字符串信息“二次无^ ^ < ”划分为子串信息“二次”、“λ 0”和“ d〈”。为简洁起见,下述内容中将采用标识符号来表示子串信息,例如,对于字符串信息“二次λ、>9 ^ < ”,以字符串信息A来表示;对于子串信息“二次”,以子串信息Al来表示;对于子串信息“λ 0”,以子串信息Α2来表示;对于子串信息“ >9 L < ”,以子串信息A3来表示等。需要说明的是,前述举例仅为例示,而非对标志符号“Α”、“Α1”、“Α2”、“Α3”等所代表的具体字符串进行限定。第二子确定装置22根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,第二子确定装置22获得两个子串信息间的相似度信息的方式与第一确定装置获得两个字符串信息间的相似度信息的方式相同或相似,在此不再赘述。具体地,第二子确定装置22对所获得的各个相似度信息进行处理,以确定所述两个字符串信息间的最终相似度信息。例如,划分装置21获得字符串信息A包括子串信息Al和Α2,字符串信息B包括子串信息Bl和Β2 ;第二子确定装置22获得子串信息Al和Bl间的读音类型的相似度信息为0. 6,子串信息Al和Β2间的读音类型的相似度信息为0. 1,子串信息Α2和Bl间的编辑距离类型的相似度信息为0. 2,子串信息Α2和Bl间的编辑距离类型的相似度信息为0. 8 ;则第二子确定装置22将各个相似度信息的平均值作为所述最终相似度信息,以获得所述最终相似度信息=(0. 6+0. 1+0. 2+0. 8)/4 = 0. 425。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息, 确定所述两个字符串信息间的最终相似度信息的实现方式,例如,选择由高至低排序后位于前2位的相似度信息来获得最终相似度信息等,均应包含在本发明的范围内。根据本实施例的相似度确定装置,能够通过划分子串信息来提高获取所述最终相似度信息的速度,减少系统资源消耗。作为本实施例的优选方案之一,第二子确定装置22进一步包括匹配获取装置(图未示)、第二获取装置(图未示)及第三子确定装置(图未示)。匹配获取装置获取所述包含于一个字符串信息中的所有子串信息与包含于另一个字符串信息中的所有子串信息间所有的匹配组合方式。例如,划分装置21获得相似度确定装置获得字符串信息A包括子串信息A1、A2和 A3,字符串信息B包括子串信息Bl和B2,则匹配获取装置获得字符串信息A包含的所有子串信息和字符串信息B包含的所有子串信息间的所有匹配组合方式如下所示
匹配组合方式一匹配组合方式二Al 匹配 BlAl 和 A2 匹配 Bl A2和A3匹@己B2 A3匹酉己B2接着,第二获取装置根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息。具体地,第二获取装置获取各个匹配组合方式中相匹配的子串信息或子串组合间的至少两种类型的相似度信息,以获得该匹配组合方式下该两个字符串信息间的至少两种类型的相似度信息。其中,第二获取装置获得两个子串信息间、两个子串组合间或一个子串信息和一个子串组合间至少两种类型的相似度信息的方式与前述第一确定装置获得两个字符串信息间至少两种类型的相似度信息的方式相同或相似,在此不再赘述。例如,以前述匹配获取装置所获得的匹配组合方式一和匹配组合方式二为例,第二获取装置获得匹配组合方式一中相匹配的子串信息Al和Bl间的编辑距离类型的相似度信息为0. 8,读音类型的相似度信息为0. 3,子串组合A2A3与子串信息B2间的编辑距离类型的相似度信息为0. 05,读音类型的相似度信息为0. 88,匹配组合方式二中相匹配的子串组合A1A2与Bl间的编辑距离类型的相似度信息为0. 3,读音类型的相似度信息为0. 2,子串信息A3与子串信息B2间的编辑距离类型的相似度信息为0. 07,读音类型的相似度信息为0. 25 ;则第二获取装置通过求取各个类型的相似度信息的平均值,来获得字符串信息A 和B间的编辑距离类型的相似度信息=(0. 8+0. 05+0. 3+0. 07)/4 = 0. 305,读音类型的相似度信息=(0. 3+0. 88+0. 2+0. 25)/4 = 0. 4075。又例如,匹配组合方式一和匹配组合方式二中各个子串信息或子串组合间的编辑距离类型和读音类型的相似度信息如前述举例所示,则第二获取装置根据子串信息Al和 Bl间的编辑距离的相似度信息0. 8高于预定编辑距离阈值0. 7,子串组合A2A3与子串信息B2间的读音类型的相似度信息0. 88高于预定读音阈值0. 75,来确定根据匹配组合方式一来获得字符串信息A和B间的编辑距离类型和读音类型的相似度信息,则第二获取装置获得字符串信息A和B间的编辑距离类型的相似度信息=(0. 8+0. 05)/2 = 0. 425,读音类型的相似度信息=(0. 3+0. 88)/2 = 0. 59。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息的实现方式,均应包含在本发明的范围内。接着,第三子确定装置根据所述两个字符串信息间的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,第三子确定装置根据所述两个字符串信息间的至少两种类型的相似度信息来确定所述两个字符串信息间的最终相似度信息的方式,与前述第一确定装置根据基于两个字符串信息来获得的至少两种类型的相似度信息确定所述两个字符串信息间的最终相似度信息的方式相同或相似,在此不再赘述。根据本优选方案的相似度确定装置,能够根据子串信息间的匹配组合方式,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗。作为本实施例的优选方案之一,所述第三子确定装置22进一步包括子串获取装置(图未示)、第三获取装置(图未示)、第四子确定装置(图未示)及迭代装置(图未示)。子串获取装置由所述两个字符串信息中获取当前子串组合对信息。其中,所述当前子串组合对信息中包括分别属于两个字符串信息的子串信息和/或子串组合。具体地,子串获取装置根据两个字符串信息所包含的子串信息在各自所属的字符串信息中的排序位置,并结合已执行的获取所述当前子串组合对信息的操作记录,来获取所述当前子串组合对信息。其中,所述操作记录包括但不限于以下至少一项1)已执行的获取操作次数;2)前一次获取的当前子串组合对信息;3)前一次获取的当前子串组合对信息中包含的属于一个字符串信息的子串信息数量以及属于另一个字符串信息的子串信息数量。例如,划分装置21获得相似度确定装置获得字符串信息A包括子串信息A1、A2和 A3,字符串信息B包括子串信息B 1和B2,子串获取装置由所述操作记录中获得前一次获取的当前子串组合对信息中包括子串组合A1A2以及子串信息Bi。则子串获取装置随机选择子串组合A1A2A3以及子串信息Bi,或者,子串组合A1A2以及子串组合B1B2作为当前子串组合对信息。需要说明的是,子串获取装置可根据多种次序获取当前子串组合对信息及包含于该当前子串组合对信息中的两个待处理子串信息;例如,当待处理的字符串信息A包括子串信息Al、A2和A3,其中,子串信息Al、A2和A3在字符串信息A中由左至右排列,字符串信息B包括子串信息Bl和B2,其中,子串信息Bl和B2在字符串信息B中由左至右排列,则子串获取装置以如下任一次序来获取当前子串组合对信息1)A1_B1、A1A2_B1、A1A2A3_B1、A1_B1B2、A1A2_B1B2、A1A2A3_B1B2 ;2) A1_B1、A1_B1B2、A1A2_B1、A1A2_B1B2、A1A2A3_B1、A1A2A3_B1B2 ;3) A3_B2、A2A3_B2、A1A2A3_B2、A3_B1B2、A2A3_B1B2、A1A2A3_B1B2 ;
4) A3_B2、A3_B1B2、A2A3_B2、A2A3_B1B2、A1A2A3_B2、A1A2A3_B1B2 ;5) A1_B1、A1A2_B1、A1_B1B2、A1A2A3_B1、A1A2_B1B2、A1A2A3_B1B2 ;6) A3_B2、A2A3_B2、A3_B1B2、A1A2A3_B2、A2A3_B1B2、A1A2A3_B1B2 ;需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由所述两个字符串信息中获取当前子串组合对信息及包含于该当前子串组合对信息中的两个待处理子串信息的实现方式,均应包含在本发明的范围内。接着,第三获取装置获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息。其中,每个待处理子串信息对包括分别属于两个字符串信息的子串信息和/或子串组合,该待处理子串信息对的相似度信息即为其包含的子串信息和/或子串组合间的相似度信息。其中,第三获取装置获取待处理子串信息对的至少两种类型的相似度信息的方式与第一确定装置获取待处理的两个字符串信息间至少两种类型的相似度信息方式相同或相似,在此不再赘述。例如,字符串信息A包括由左至右排列的子串信息Al、A2和A3,字符串信息B包括由左至右排列的子串信息子串信息Bl和B2;子串获取装置所获得的当前子串组合对信息为“A1A2A3_B1B2” ;则第三获取装置根据当前子串组合对信息中的两个子串组合“A1A2A3” 和“B1B2”间所有可能的子串信息的匹配组合方式,获得两个待处理子串信息对“A2A3_B2” 和“A3_B2”,并获得“A2A3_B2”的编辑距离类型和读音类型的相似度信息分别为0. 45和 0. 576,“A3_B2”的编辑距离类型和读音类型的相似度信息分别为0. 61和0. 5。接着,第四子确定装置根据所述各个待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信息。例如,所述各个待处理子串信息对的至少两种类型的相似度信息如前述第三获取装置对应的举例所示,且相似度确定装置已获得的历史相似度记录如下所示子串组合对信息相似度信息
Al—Bl0.6
A1A2B10.3
A1A2A3B10.1
Al—B1B20.2第四子确定装置确定待处理子串信息对“A2A3_B2”的相似度信息= (0. 45+0. 576)/2 = 0. 513,待处理子串信息对“A3_B2”的相似度信息=(0. 61+0. 5)/2 = 0. 555 ;则第四子确定装置根据子串组合对信息“A1_B1”的相似度信息为0. 6,确定在匹配组合方式“Al匹配Bi,Α2和A3匹配Β2”下当前子串组合对信息“Α1Α2Α3_Β1Β2”的相似度信息=0. 6*0. 513 = 0. 3078,在匹配组合方式“Al和Α2匹配Bi,A3匹配Β2”下当前子串组合对信息“Α1Α2Α3_Β1Β2”的相似度信息=0. 3*0. 555 = 0. 1665 ;则第四子确定装置选择较大的值0. 3078作为当前子串组合对信息“Α1Α2Α3_Β1Β2”的相似度信息。接着,迭代装置将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,以使所述子串获取装置、所述第三获取装置及所述第四子确定装置重复执行相应操作直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。根据本优选方案的相似度确定装置,能够根据历史子串组合对的相似度信息,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗。作为本实施例的优选方案之一,根据本实施例的相似度确定装置还包括第四获取装置(图未示),第二子确定装置22还包括第五子确定装置(图未示)。第四获取装置获取所述两个字符串信息间至少一种类型的整体相似度信息。其中,所述整体相似度信息为根据两个未划分的字符串信息直接获得的相似度信息。第四获取装置获取一种类型的整体相似度信息的方式与第一确定装置获取待处理的两个字符串信息间的一种类型的相似度信息的方式相同或相似,在此不再赘述。第五子确定装置根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,并结合所述至少一种类型的整体相似度信息,确定所述两个字符串信息间的最终相似度信息。其中, 第五子确定装置获取所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息的方式已在说明第二子确定装置22时予以详述,并以引用的方式包含于此,不再赘述。具体地,第五子确定装置根据所述整体相似度信息和所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,来确定所述最终相似度信息的方式包括但不限于1)根据所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息,获得待处理的两个字符串信息间的分串相似度信息,并选择该分串相似度信息和所述整体相似度信息中相似度值或相似度等级较高的一者作为所述最终相似度信息;其中,第五子确定装置获得所述分串相似度信息的方式,与第二子确定装置22获得所述最终相似度信息的方式相同或相似,在此不再赘述。例如,第四获取装置获得字符串信息A和B间一种类型的整体相似度信息为0. 6, 且第五子确定装置获得字符串信息A和B间的分串相似度信息为0. 83,则第五子确定装置选择相似度值较高的分串相似度信息作为所述最终相似度信息。2)对所述分串相似度信息以及所述至少一种类型整体相似度信息进行处理,以获得所述最终相似度信息。例如,第四获取装置获得字符串信息A和B间字符串特征向量类型的整体相似度信息为0. 6,主题分布类型的整体相似度信息为0. 4,且第五子确定装置获得字符串信息A 和B间的分串相似度信息为0. 83,则第五子确定装置根据预定的字符串特征向量类型的整体相似度信息的权重值为0. 45,主题分布类型的整体相似度信息的权重值为0. 47,分串相似度信息的权重值为0. 86,来对所述两种类型的整体相似度信息以及分串相似度信息求取加权和,以获得最终相似度信息=0. 45*0. 6+0. 47*0. 4+0. 86*0. 83 = 1. 1718。需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述整体相似度信息和所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息来确定所述最终相似度信息的实现方式,均应包含在本
26发明的范围内。根据本优选方案的相似度确定装置,能够通过综合考虑整体相似度信息和分串相似度信息来获得最终相似度信息,提高了获取待处理的两个字符串信息间的最终相似度信息的准确度。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
权利要求
1.一种计算机实现的用于基于多种类型来确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤a获取待处理的两个字符串信息;b根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
2.根据权利要求1所述的方法,其中,该方法还包括以下步骤 i获取所述至少两种类型中每种类型所对应的权重信息;其中,所述步骤b还包括-根据所述基于所述两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息。
3.根据权利要求2所述的方法,其中,所述步骤i还包括以下步骤 il获取所述最终相似度信息的应用环境信息; 2根据所述应用环境信息,确定所述每种类型所对应的权重信息。
4.根据权利要求3所述的方法,其中,所述步骤i2还包括以下步骤 -根据所述应用环境信息,由所有类型中选择所述至少两种类型;-根据所述应用环境信息,获取所选择的所述至少两种类型中每种类型所对应的权重 fn息ο
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤b还包括以下步骤bl对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息包含的多个子串信息;b2根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
6.根据权利要求5所述的方法,其中,所述步骤b2还包括以下步骤_获取所述包含于一个字符串信息中的所有子串信息与包含于另一个字符串信息中的所有子串信息间所有的匹配组合方式;_根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度 fn息;-根据所述两个字符串信息间的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
7.根据权利要求5所述的方法,其中,所述步骤b2还包括以下步骤 b21由所述两个字符串信息中获取当前子串组合对信息;b22获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息;b23根据所述待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信息;b24将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,重复步骤 b21至步骤b23以及前述将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一的步骤直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。
8.根据权利要求5至7中任一项所述的方法,其中,该方法还包括以下步骤 -获取所述两个字符串信息间至少一种类型的整体相似度信息;其中,所述步骤b2还包括以下步骤_根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,并结合所述至少一种类型的整体相似度信息,确定所述两个字符串信息间的最终相似度信息。
9.根据权利要求1至8中任一项所述的方法,其中,所述至少两种类型包括以下各项中的任意至少两种-编辑距离类型; -读音类型; -同义词匹配类型; -短文本扩展类型; -字符串特征向量类型; -主题分布类型。
10.根据权利要求9所述的方法,其中,所述至少两种类型包括编辑距离类型,其中,该方法还包括以下步骤_根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间编辑距离类型的相似度信息。
11.根据权利要求9或10所述的方法,其中,所述至少两种类型包括字符串特征向量类型,其中,该方法还包括以下步骤_根据分别基于所述两个字符串信息的检索结果来获得的两个字符串特征向量,确定所述两个字符串信息间的字符串特征向量类型的相似度信息。
12.根据权利要求9至11中任一项所述的方法,其中,所述至少两种类型包括主题分布类型,该方法还包括以下步骤_根据分别与所述两个字符串信息相关的多个资源信息的主题,确定所述两个字符串信息间的主题分布类型的相似度信息。
13.一种用于确定字符串信息间相似度信息的相似度确定装置,其中,该相似度确定装置包括第一获取装置、用于获取待处理的两个字符串信息;第一确定装置、用于根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
14.根据权利要求13所述的相似度确定装置,其中,该相似度确定装置还包括 权重获取装置、用于获取所述至少两种类型中每种类型所对应的权重信息; 其中,所述第一确定装置还包括第一子确定装置、用于根据所述基于所述两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息。
15.根据权利要求14所述的相似度确定装置,其中,所述权重获取装置还包括 第一子获取装置、用于获取所述最终相似度信息的应用环境信息;权重确定装置、用于根据所述应用环境信息,确定所述每种类型所对应的权重信息。
16.根据权利要求15所述的相似度确定装置,其中,所述权重确定装置还包括 选择装置、用于根据所述应用环境信息,由所有类型中选择所述至少两种类型;子权重确定装置、用于根据所述应用环境信息,获取所选择的所述至少两种类型中每种类型所对应的权重信息。
17.根据权利要求13至16中任一项所述的相似度确定装置,其中,所述第一确定装置还包括划分装置、用于对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息包含的多个子串信息;第二子确定装置、用于根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
18.根据权利要求17所述的相似度确定装置,其中,所述第二子确定装置还包括 匹配获取装置、用于获取所述包含于一个字符串信息中的所有子串信息与包含于另一个字符串信息中的所有子串信息间所有的匹配组合方式;第二获取装置、用于根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息;第三子确定装置、用于根据所述两个字符串信息间的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
19.根据权利要求17所述的相似度确定装置,其中,所述第二子确定装置还包括 子串获取装置、用于由所述两个字符串信息中获取当前子串组合对信息;第三获取装置、用于获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息;第四子确定装置、用于根据所述待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信息;迭代装置、用于将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,以使所述子串获取装置、所述第三获取装置及所述第四子确定装置重复执行相应操作直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。
20.根据权利要求17至19中任一项所述的相似度确定装置,其中,该相似度确定装置还包括第四获取装置、用于获取所述两个字符串信息间至少一种类型的整体相似度信息; 其中,所述第二子确定装置还包括第五子确定装置、用于根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,并结合所述至少一种类型的整体相似度信息,确定所述两个字符串信息间的最终相似度信息。
21.根据权利要求13至20中任一项所述的相似度确定装置,其中,所述至少两种类型包括以下各项中的任意至少两种“编辑距离类型;“读音类型;“同义词匹配类型;“短文本扩展类型;-字符串特征向量类型;-主题分布类型。
22.根据权利要求21所述的相似度确定装置,其中,所述至少两种类型包括编辑距离类型,其中,该相似度确定装置还包括第一类型相似度确定装置、用于根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间编辑距离类型的相似度信息。
23.根据权利要求21或22所述的相似度确定装置,其中,所述至少两种类型包括字符串特征向量类型,其中,该相似度确定装置还包括第二类型相似度确定装置、用于根据分别基于所述两个字符串信息的检索结果来获得的两个字符串特征向量,确定所述两个字符串信息间的字符串特征向量类型的相似度信息。
24.根据权利要求21至23中任一项所述的相似度确定装置,其中,所述至少两种类型包括主题分布类型,该相似度确定装置还包括第三类型相似度确定装置、用于根据分别与所述两个字符串信息相关的多个资源信息的主题,确定所述两个字符串信息间的主题分布类型的相似度信息。
25.一种计算机设备,其中,该计算机设备包括如权利要求13至24中至少一项所述的相似度确定装置。
全文摘要
本发明提供一种用于基于多种类型来确定字符串信息间相似度信息的方法、装置和设备。根据本发明的方案通过获取待处理的两个字符串信息,并根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。与现有技术相比,本发明具有以下优点能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/或字义等方面的相似度,所得的相似度判断结果更为准确。
文档编号G06F17/27GK102184169SQ20111009943
公开日2011年9月14日 申请日期2011年4月20日 优先权日2011年4月20日
发明者何径舟 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1