用于确定字符串信息间相似度信息的方法、装置和设备的制作方法

文档序号:6358459阅读:189来源:国知局
专利名称:用于确定字符串信息间相似度信息的方法、装置和设备的制作方法
技术领域
本发明涉及计算机技术领域,尤其涉及用于确定字符串信息间相似度信息的方法、装置和设备。
背景技术
现有技术中,通过获取两个字符串信息间的编辑距离来判断两个字符串信息间的相似度,已成为本领域技术人员常用的技术手段。然而,现有技术中往往仅根据将两个字符串信息中的一个转换为另一个的过程中所执行的编辑操作的类型,例如,将复制编辑操作的操作代价定为0,将其他编辑操作的操作代价定为1等,来确定两个字符串信息间的编辑距离。因此,该等根据编辑操作的类型来确定编辑距离,进而获得两个字符串信息间相似度的方式,难以反映两个字符串信息在诸如词义等其他方面的相似度。

发明内容
本发明的目的是提供一种用于确定字符串信息间相似度信息的方法、装置和设备。根据本发明的一个方面,提供一种计算机实现的用于确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤a)获取待处理的两个字符串信息;b)根据将其中一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间的相似度信息。根据本发明的另一个方面,还提供了一种用于确定字符串信息间相似度信息的相似度确定装置,其中,该相似度确定装置包括第一获取装置、用于获取待处理的两个字符串信息;第一确定装置、用于根据将其中一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间的相似度信肩、ο与现有技术相比,本发明具有以下优点1)本发明通过编辑操作的字符变化来确定两个字符串信息间的相似度信息,因此,本发明不仅能够反映两个字符串信息间字形上的相似度,还能够进一步反映两个字符串信息间在词义、输入错误可能性、读音等方面的相似度,提高了字符串相似度判断的准确性;2)本发明通过采用历史操作代价,大幅减少相似度确定装置的资源消耗,能够更快获得两个字符串信息间的相似度信息;幻本发明能够根据诸如预定变化代价、字符在输入设备上的间距所造成的误输入可能、用户对输入法提供的候选项的误选择可能、规律出现的无意义字符以及读音相似度等多种因素,综合确定待处理的两个字符串信息间的相似度信息,大大提高了两个字符串信息间相似度判断的准确性;4)本发明能够通过字符训练信息或相似字符串在预定语料库中的分布,来确定字符训练信息的概率,从而确定字符训练信息的变化代价;5)本发明提供的相似度判断方式, 适用于各种需要进行相似度判断的场合,例如,在搜索场合中用于来自用户的输入序列与文本候选项所包含的关键词间的相似度判断;又例如,在纠错场合中用于来自用户的输入序列与纠错词库中所包含的关键词间的相似度判断;再例如,在同义词挖掘过程中,用于两个待判断的字符串间的相似度判断等。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显图1为本发明一个方面的用于确定字符串信息间相似度信息的方法流程图;图2为本发明一个优选实施例的用于确定字符串信息间相似度信息的方法流程图;图3为本发明另一个优选实施例的用于确定字符串信息间相似度信息的方法流程图;图4为本发明一个优选实施例的用于建立或更新预定代价库的方法流程图;图5为本发明另一个方面的用于确定字符串信息间相似度信息的相似度确定装置的结构示意图;图6为本发明一个优选实施例的用于确定字符串信息间相似度信息的相似度确定装置的结构示意图;图7为本发明另一个优选实施例的用于确定字符串信息间相似度信息的相似度确定装置的结构示意图;图8为本发明一个优选实施例的用于建立或更新预定代价库的相似度确定装置的结构示意图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1为本发明一个方面的用于确定字符串信息间相似度信息的方法流程图。其中,根据本发明的方法可通过计算机设备中的操作系统或处理控制器来完成,为简明起见, 以下将所述操作系统或处理控制器统称为相似度确定装置。其中,该计算机设备包括但不限于1)用户设备;2)网络设备。其中,所述用户设备包括但不限于个人电脑、智能手机、 PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在步骤Sl中,相似度确定装置获取两个待处理的字符串信息。其中,相似度确定装置获取所述两个待处理的字符串信息的方式包括但不限于1)获取预存储的需要进行相似度判断的两个字符串信息;2)获取相似度确定装置所属计算机设备或其他计算机设备当前需要进行相似度判断处理的两个字符串信息。例如,两个字符串信息中的一个字符串信息来自用户当前输入的输入序列,另一个字符串信息来自计算机设备根据前述一个字符串信息来进行检索的文本信息,相似度确定装置所属计算机设备或其他计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将该文本信息所属资源提供给用户,则相似度确定装置获取其所属计算机设备或其他计算机设备提供的两个字符串信息。又例如,两个字符串信息中的一个字符串信息来自用户在应用程序中输入的输入序列,另一个字符串信息来自该应用程序所属计算机设备的纠错词库,该应用程序所属计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将前述另一个字符串信息作为纠错提示信息提供给用户,则相似度确定装置获取该应用程序所属计算机设备提供的两个字符串信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取两个待处理的字符串信息的实现方式,均应包含在本发明的范围内。接着,在步骤S2中,相似度确定装置根据将其中一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间的相似度信息。其中,所述编辑操作包括以下至少一项1)复制字符的操作;2)插入字符的操作;3)删除字符的操作;4)替换字符的操作;5)将相邻位置的字符互换的操作。其中,所述字符变化信息包括以下任一项1)源字符串及目标字符串;例如,当编辑操作包括将“e”替换为“a”的替换字符的操作,则字符变化信息包括 "e — a”,其中,e为源字符串,a为目标字符串;又例如,当编辑操作包括删除“e”的删除字符的操作,则字符变化信息包括“e— ‘空’”,其中,e为源字符串,目标字符串为“空”,即目标字符串中不包含任何字符;再例如,当编辑操作包括将“O”替换为“e”的替换字符的操作以及在所替换的字符“e”后插入“a”的插入字符的操作,则字符变化信息包括“O — ea”,其中,ο为源字符串,ea为目标字符串。2)编辑操作类型及所编辑的字符;例如,当编辑操作包括将“e”替换为“a”的替换字符的操作,则字符变化信息包括 “替换e — a” ;又例如,当编辑操作包括删除“e”的删除字符的操作,则字符变化信息包括 “删除e”;再例如,当编辑操作包括将“O”替换为“e”的替换字符的操作以及在所替换的字符“e”后插入“a”的插入字符的操作,则字符变化信息包括“替换0 — e,插入a”。3)同时包含前述1)和2)所包含的信息;例如,字符变化信息包括“复制b,ο — ea”等。具体地,相似度确定装置将待处理的两个字符串信息中的一个字符串信息转换至另一个字符串信息,以获得字符变化信息,并根据该字符变化信息来确定两个字符串信息间的相似度信息。例如,在步骤Sl中,相似度确定装置获得两个待处理的字符串信息“bai”及 “bei”,则相似度确定装置将“bai”转换为“bei”,并获得字符变化信息“复制b,替换 a — e,复制i”;接着,相似度确定装置分析除复制编辑操作以外的其他编辑操作,即替换编辑操作所对应的源字符串及目标字符串,并确定“a”和“e”均为元音;则相似度确定装置根据预定的元音间的替换编辑操作的操作代价为0. 3的规则,并结合待处理的字符串信息所包含的字符数量,确定字符串信息“bai”和“bei”间的相似度信息=3-0. 3 = 2. 7。又例如,在步骤S 1中,相似度确定装置获得两个待处理的字符串信息“力气”和“气力”,则相似度确定装置将“力气”转换为“气力”,并获得字符变化信息“力气一气力”;接着,相似度确定装置查询同义词典获得“气力”与“力气”为同义词,则相似度确定装置根据预定的同义词的操作代价为0. 5的规则,确定字符串信息“力气”和“气力”间的相似度信息为操作代价的倒数2。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据将其中一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间的相似度信息的实现方式,均应包含在本发明的范围内。根据本发明的方法通过编辑操作的字符变化来确定两个字符串信息间的相似度信息,因此,根据本发明的方法不仅能够反映两个字符串信息间字形上的相似度,还能够进一步反映两个字符串信息间在词义、输入错误可能性、读音等方面的相似度,提高了字符串相似度判断的准确性。图2为本发明一个优选实施例的用于确定字符串信息间相似度信息的方法流程图。根据本实施例的方法包括步骤Sl及步骤S2,其中,步骤S2进一步包括步骤S211、步骤 S212、步骤S213及步骤S214。步骤Sl已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。接着,在步骤S211中,相似度确定装置执行将一个字符串信息转换至另一个字符串信息的转换处理。本领域技术人员应能根据实际情况和需求来确定将一个字符串信息转换至另一个字符串信息的转换处理方式,在此不再赘述。接着,在步骤S212中,相似度确定装置根据所述转换处理中所执行编辑操作来获得所述字符变化信息。例如,相似度确定装置直接将在步骤S211中所执行的各个编辑操作的类型及其所操作的字符作为字符变化信息。例如,相似度确定装置根据在步骤S211中所执行的将 “bai”转换为“bei”的转换处理,获得字符变化信息“复制b,替换:a — e,复制i”。又例如,相似度确定装置将在步骤S211中所执行的各个编辑操作的类型及其所操作的字符串进行相应处理后,获得字符变化信息。例如,对于在步骤S211中所执行的将 “boidu”转换为“beaidt”的转换处理中所得的各个编辑操作的类型及其所操作的字符串 “复制b”、“替换0 — e”、“插入a”、“复制i”、“复制d”及“替换:u — t”,相似度确定装置将复制编辑操作对应的字符串进行合并,并对两个复制编辑操作间的字符串进行合并, 获得字符变化信息“复制b,ο — ea,复制id,u — t”。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述转换处理中所执行编辑操作来获得所述字符变化信息的实现方式,均应包含在本发明的范围内。接着,在步骤S213中,相似度确定装置基于第一预定规则,根据所获得的字符变化信息,获取相应的操作代价。例如,第一预定规则包括以下规则源字符串和目标字符串包含于预定同义词库的一对同义词库中时,将源字符串转换为目标字符串的转换操作的操作代价为0. 5,当源字符串和目标字符串相同时,将源字符串转换为目标字符串的转换操作的操作代价为0 ;则对于所获得的字符变化信息“我花了很大一我花了很大,力气一气力”,相似度确定装置判断将源字符串“我花了很大”转换为目标字符串“我花了很大”的转换操作的操作代价为0, 将源字符串“力气”转换为目标字符串“气力”的操作代价为0. 5 ;则相似度确定装置获得待处理的两个字符串信息间的操作代价=0+0. 5 = 0. 5。优选地,所述第一预定规则参考以下至少一项因素来获取所述操作代价1)根据所述字符变化信息来在预定代价库中查询所得的变化代价;具体地,预定代价库中包括多个查询对,每个查询对包括预置字符变化信息及与该字符变化信息对应的变化代价,相似度确定装置在预定代价库的各个查询对中查询与所述字符变化信息相同的预置字符变化信息,以获得与所述字符变化信息相应的字符变化代价。2)所述字符变化信息所包含的不同字符在输入设备上的输入间距;具体地,所述输入间距越小,操作代价越小,所述输入间距越大,操作代价越大;3)所述字符变化信息所包含的不同字符间的输入法编码相似度;具体地,所述输入法编码相似度越高,操作代价越小,所述输入法编码相似度越低,操作代价越大;4)所述字符变化信息所包含的不同字符在所述字符串信息中的出现规律;具体地,当字符变化信息中包含以一定规则重复出现的同一字符,例如,以相同字符间隔重复出现的菊花文字符等,则将删除或插入该字符的操作代价降低;5)所述字符变化信息中所包含的不同字符间的读音相似度;具体地,所述读音相似度越高,操作代价越小,所述读音相似度越低,操作代价越大。例如,在步骤S212中,相似度确定装置获得字符变化信息“复制我,删除··#,复制们,删除#,复制大,删除#,复制家”,则相似度确定装置根据字符“#”以一个字符为间隔重复出现,将删除字符“#”的操作代价由1调低至0. 5,并确定待处理的两个字符串信息间的操作代价=0. 5*3 = 1. 5。又例如,在步骤S212中,相似度确定装置获得字符变化信息“cr — cr, ea — ae, m — m”;则相似度确定装置根据“ea”及“ae”在预定代价库中进行查询,获得预定代价库中所包含的将“ea”转换为“ea”的转换操作的变化代价为0. 6,并根据相似度确定装置当前所属计算机设备为个人电脑,获得“e”和“a”在输入设备上的预定输入间距为2 ;则相似度确定装置结合所述变化代价及所述预定输入间距,确定将将“ea”转换为“ea”的转换操作的操作代价=0. 6*2 = 1. 2 ;并且,相似度确定装置结合预定的复制操作的代价为0的规则, 确定待处理的两个字符串信息间的操作代价为1. 2。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于第一预定规则,根据所获得的字符变化信息,获取相应的操作代价的实现方式,均应包含在本发明的范围内。接着,在步骤S214中,相似度确定装置根据所获得的操作代价,确定所述两个字符串信息间的相似度信息。例如,相似度确定装置将所获得的操作代价乘以预定调节值后倒数所得的值作为待处理的两个字符串信息间的相似度信息。又例如,相似度确定装置根据预定的所获得的操作代价所属数值范围与相似度等级间的对应关系,确定待处理的两个字符串信息间的相似度信息。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所获得的操作代价,确定所述两个字符串信息间的相似度信息的实现方式,均应包含在本发明的范围内。作为本实施例的优选方案之一,根据本实施例的方法还包括根据所获得的字符变化信息,确定字符变化率的步骤;前述步骤S14还包括根据所获得的操作代价及所述字符变化率,确定所述两个字符串信息间的相似度信息的步骤。具体地,相似度确定装置根据字符变化信息中除复制以外的编辑操作对应的字符数量占两个字符串信息中所包含的所有字符数量的比例,来确定所述字符变化率;接着,相似度确定装置根据所获得的操作代价及所述字符变化率,确定所述两个字符串信息间的相似度信息。例如,在步骤S212中,相似度确定装置所获得的字符变化信息包括“复制cr, ea — ae,复制m”,则相似度确定装置根据除复制以外的编辑操作对应的字符数量为4,待处理的两个字符串信息中所包含的所有字符数量为10,确定字符变化率为0. 4,;接着,相似度确定装置将所得的字符变化率乘以在步骤S213中所得的操作代价1. 2,并将所得的积进行倒数处理后,获得待处理的两个字符串信息间的相似度信息为2. 08。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所获得的字符变化信息,确定字符变化率,并根据所获得的操作代价及所述字符变化率,确定所述两个字符串信息间的相似度信息的实现方式,均应包含在本发明的范围内。根据本实施例的方法,能够根据诸如预定变化代价、字符在输入设备上的间距所造成的误输入可能、用户对输入法提供的候选项的误选择可能、规律出现的无意义字符以及读音相似度等多种因素,综合确定待处理的两个字符串信息间的相似度信息,大大提高了两个字符串信息间相似度判断的准确性。图3为本发明另一个优选实施例的用于确定字符串信息间相似度信息的方法流程图。根据本实施例的方法包括步骤Sl及步骤S2,其中,步骤S2进一步包括步骤S221、步骤S222、步骤S223、步骤S224及步骤S225。步骤Sl已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。接着,在步骤S221中,相似度确定装置分别由所述两个字符串信息中获得当前源字符串片段及当前目标字符串片段。其中,在将一个字符串信息转换为另一个字符串信息的转换处理中,该一个字符串信息为源字符串信息,该另一个字符串信息为目标字符串信息;所述源字符串片段包含于源字符串信息中,所述目标字符串片段包含于目标字符串信息中。具体地,相似度确定装置根据两个字符串信息中所包含的各个字符的位置,并结合已执行的获取源字符串片段及目标字符串片段的操作记录,来获取当前源字符串片段及当前目标字符串片段。其中,所述操作记录包括但不限于以下至少一项1)已执行的获取操作次数;2)已选择的源字符串片段及目标字符串片段;3)已选择的源字符串片段所包含的字符数量及已选择的目标字符串片段所包含
权利要求
1.一种计算机实现的用于确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤a获取待处理的两个字符串信息;b根据将其中一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间的相似度信息。
2.根据权利要求1所述的方法,其中,所述步骤b还包括以下步骤 bll执行将一个字符串信息转换至另一个字符串信息的转换处理; bl2根据所述转换处理中所执行编辑操作来获得所述字符变化信息;bl3基于第一预定规则,根据所获得的字符变化信息,获取相应的操作代价; bl4根据所获得的操作代价,确定所述两个字符串信息间的相似度信息。
3.根据权利要求2所述的方法,其中,所述步骤b还包括以下步骤 -根据所获得的字符变化信息,确定字符变化率;其中,所述步骤bl4还包括以下步骤-根据所获得的操作代价及所述字符变化率,确定所述两个字符串信息间的相似度信息。
4.根据权利要求1所述的方法,其中,所述步骤b还包括以下步骤b21分别由所述两个字符串信息中获得当前源字符串片段及当前目标字符串片段; b22根据将所述当前源字符串片段转换为所述当前目标字符串片段的转换处理,获得当前字符变化信息;b23基于第一预定规则,根据所获得的当前字符变化信息,获取相应的中间操作代价; M4根据所述中间操作代价及历史操作代价,获得所述当前源字符串片段及当前目标字符串片段间的当前操作代价;b25将所述当前操作代价作为历史操作代价之一,重复步骤1^21至I3M直至所述当前源字符串片段及当前目标字符串片段分别与所述两个字符串信息相同,并根据所获得的当前操作代价来获得所述两个字符串信息间的相似度信息。
5.根据权利要求2至4中任一项所述的方法,其中,所述第一预定规则参考以下至少一项因素来获取所述操作代价-根据所述字符变化信息来在预定代价库中查询所得的变化代价; -所述字符变化信息所包含的不同字符在输入设备上的输入间距; -所述字符变化信息所包含的不同字符间的输入法编码相似度; -所述字符变化信息所包含的不同字符在所述字符串信息中的出现规律; -所述字符变化信息中所包含的不同字符间的读音相似度。
6.根据权利要求5所述的方法,其中,所述步骤b23还包括以下步骤-基于所述第一预定规则,根据所获得的当前字符变化信息及该字符变化信息所包含的字符串片段的上下文信息,获取相应的中间操作代价;其中,所述第一预定规则还参考以下因素来获取所述中间操作代价-根据所述字符变化信息及所述上下文信息来在预定代价库查询所得的变化代价。
7.根据权利要求5或6所述的方法,其中,该方法还包括以下步骤 c获取字符训练信息及其对应的变化代价;d根据所获取的字符训练信息及其对应的变化代价,建立或更新所述预定代价库。
8.根据权利要求7所述的方法,其中,所述步骤c还包括以下步骤 -获取两个相似字符串;-根据所述两个相似字符串,确定所述字符训练信息; -基于第二预定规则,确定所述字符训练信息对应的变化代价; 其中,所述第二预定规则参考以下至少一项因素来确定所述字符训练信息对应的变化代价-所述两个相似字符串及/或所述字符训练信息中分别属于所述两个相似字符串的两个训练字符串在预定语料库中的分布信息;-所述字符训练信息所包含的不同字符在输入设备上的间距; -所述字符训练信息所包含的不同字符间的输入法编码相似度; -所述字符训练信息中所包含的不同字符间的读音相似度。
9.根据权利要求8所述的方法,其中,所述分布信息包括以下至少一项-所述预定语料库中同时包含所述两个相似字符串的语料数量与包含其中至少一个相似字符串的语料数量比例;-所述预定语料库中同时包含所述两个训练字符串的语料数量与包含其中至少一个训练字符串的语料数量比例;-所述预定语料库中同时包含所述两个相似字符串且该两个相似字符串的出现间距小于预定阈值的语料数量;-所述预定语料库中同时包含所述两个训练字符串且该两个训练字符串的出现间距小于预定阈值的语料数量。
10.根据权利要求1至9中任一项所述的方法,其中,所述编辑操作包括以下至少一项-复制字符的操作; -插入字符的操作; -删除字符的操作; -替换字符的操作; -将相邻位置的字符互换的操作。
11.一种用于确定字符串信息间相似度信息的相似度确定装置,其中,该相似度确定装置包括第一获取装置、用于获取待处理的两个字符串信息;第一确定装置、用于根据将其中一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间的相似度信息。
12.根据权利要求11所述的相似度确定装置,其中,所述第一确定装置还包括 转换装置、用于执行将一个字符串信息转换至另一个字符串信息的转换处理; 第二获取装置、用于根据所述转换处理中所执行编辑操作来获得所述字符变化信息; 第一代价获取装置、用于基于第一预定规则,根据所获得的字符变化信息,获取相应的操作代价;第一字确定装置、用于根据所获得的操作代价,确定所述两个字符串信息间的相似度信息ο
13.根据权利要求12所述的相似度确定装置,其中,所述第一确定装置还包括 变化率确定装置、用于根据所获得的字符变化信息,确定字符变化率;其中,所述第一子确定装置还包括第二子确定装置、用于根据所获得的操作代价及所述字符变化率,确定所述两个字符串信息间的相似度信息。
14.根据权利要求11所述的相似度确定装置,其中,所述第一确定装置还包括 第三获取装置、用于分别由所述两个字符串信息中获得当前源字符串片段及当前目标字符串片段;第四获取装置、用于根据将所述当前源字符串片段转换为所述当前目标字符串片段的转换处理,获得当前字符变化信息;第二代价获取装置、用于基于第一预定规则,根据所获得的当前字符变化信息,获取相应的中间操作代价;第三子确定装置、用于根据所述中间操作代价及历史操作代价,获得所述当前源字符串片段及当前目标字符串片段间的当前操作代价;迭代装置、用于将所述当前操作代价作为历史操作代价之一,以使所述第三获取装置、 所述第四获取装置、所述第二代价获取装置及所述第三子确定装置依次重复执行相应操作直至所述当前源字符串片段及当前目标字符串片段分别与所述两个字符串信息相同,并根据所获得的当前操作代价来获得所述两个字符串信息间的相似度信息。
15.根据权利要求12至14中任一项所述的方法,其中,所述第一预定规则参考以下至少一项因素来获取所述操作代价-根据所述字符变化信息来在预定代价库中查询所得的变化代价; -所述字符变化信息所包含的不同字符在输入设备上的输入间距; -所述字符变化信息所包含的不同字符间的输入法编码相似度; -所述字符变化信息所包含的不同字符在所述字符串信息中的出现规律; -所述字符变化信息中所包含的不同字符间的读音相似度。
16.根据权利要求15所述的相似度确定装置,其中,所述第二代价获取装置还包括 子代价获取装置、用于基于所述第一预定规则,根据所获得的当前字符变化信息及该字符变化信息所包含的字符串片段的上下文信息,获取相应的中间操作代价; 其中,所述第一预定规则还参考以下因素来获取所述中间操作代价 -根据所述字符变化信息及所述上下文信息来在预定代价库查询所得的变化代价。
17.根据权利要求15或16所述的相似度确定装置,其中,该相似度确定装置还包括 第五获取装置、用于获取字符训练信息及其对应的变化代价;更新装置、用于根据所获取的字符训练信息及其对应的变化代价,建立或更新所述预定代价库。
18.根据权利要求17所述的相似度确定装置,其中,所述第五获取装置还包括 第六获取装置、用于获取两个相似字符串;第二确定装置、用于根据所述两个相似字符串,确定所述字符训练信息;第三代价获取装置、用于基于第二预定规则,确定所述字符训练信息对应的变化代价;其中,所述第二预定规则参考以下至少一项因素来确定所述字符训练信息对应的变化代价-所述两个相似字符串及/或所述字符训练信息中分别属于所述两个相似字符串的两个训练字符串在预定语料库中的分布信息;-所述字符训练信息所包含的不同字符在输入设备上的间距; -所述字符训练信息所包含的不同字符间的输入法编码相似度; -所述字符训练信息中所包含的不同字符间的读音相似度。
19.根据权利要求18所述的相似度确定装置,其中,所述分布信息包括以下至少一项 -所述预定语料库中同时包含所述两个相似字符串的语料数量与包含其中至少一个相似字符串的语料数量比例;-所述预定语料库中同时包含所述两个训练字符串的语料数量与包含其中至少一个训练字符串的语料数量比例;-所述预定语料库中同时包含所述两个相似字符串且该两个相似字符串的出现间距小于预定阈值的语料数量;-所述预定语料库中同时包含所述两个训练字符串且该两个训练字符串的出现间距小于预定阈值的语料数量。
20.根据权利要求11至19中任一项所述的相似度确定装置,其中,所述编辑操作包括以下至少一项-复制字符的操作; -插入字符的操作; -删除字符的操作; -替换字符的操作; -将相邻位置的字符互换的操作。
21.一种计算机设备,其中,该计算机设备包括如权利要求11至20中至少一项所述的相似度确定装置。
全文摘要
本发明的目的在于提供一种计算机实现的用于确定字符串信息间相似度信息的方案,该方案包括获取待处理的两个字符串信息;根据将其中一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间的相似度信息。本发明不仅能够反映两个字符串信息间字形上的相似度,还能够进一步反映两个字符串信息间在词义、输入错误可能性、读音等方面的相似度,提高了字符串相似度判断的准确性;并且本发明通过采用历史操作代价,大幅减少相似度确定装置的资源消耗,能够更快获得两个字符串信息间的相似度信息。
文档编号G06F17/30GK102193993SQ20111009942
公开日2011年9月21日 申请日期2011年4月20日 优先权日2011年4月20日
发明者何径舟 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1