相似度处理方法、装置、服务器及存储介质与流程

文档序号:22470853发布日期:2020-10-09 22:01阅读:123来源:国知局
相似度处理方法、装置、服务器及存储介质与流程

本申请涉及计算机技术领域,本申请涉及数据处理、自然语言处理领域。



背景技术:

在相关技术中,可以基于编辑距离算法来确定字符串之间的相似度,该编辑距离算法是针对字符串提出的一种距离度量方法。常用的编辑距离算法表示从一个字符串转换为另一个字符串所需要的最小编辑次数;即在一个字符串中插入一个字符,在一个字符串中删除一个字符,或者,将字符串中的一个字符替换成另一个字符。但是,当字符串中存在汉字时,如何准确确定出中文或汉字组成的语句之间的相似度已成为需要解决的问题。



技术实现要素:

为了解决上述问题中的一个或多个,本申请提出了一种相似度处理方法、装置及存储介质。

根据本申请的一方面,提供了一种相似度处理方法,包括:

获取第一字符串及第二字符串;

确定所述第一字符串及所述第二字符串之间的音形相似度及字形相似度;

基于所述音形相似度及所述字形相似度,确定所述第一字符串及所述第二字符串的综合相似度。

根据本申请的另一方面,提供了一种相似度处理装置,包括:

获取模块,用于获取第一字符串及第二字符串;

第一确定模块,用于确定所述第一字符串及所述第二字符串之间的音形相似度及字形相似度;

第二确定模块,用于基于所述音形相似度及所述字形相似度,确定所述第一字符串及所述第二字符串的综合相似度。

根据本申请的另一方面,提供了一种电子设备,包括:

至少一个处理器;以及

与该至少一个处理器通信连接的存储器;其中,

该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行如前该的方法。

根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行如前该的方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

通过上述方案,能够从多个维度来确定来获取第一字符串与第二字符串的相似度,即从第一字符串与第二字符串的音形及字形的多个维度来确定第一字符串及第二字符串相似度;从而能够大大提高确定第一字符串及第二字符串的相似度的准确性。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请一实施例的相似度处理方法的流程图一;

图2是根据本申请一实施例的音形相似度确定流程示意图;

图3是根据本申请一实施例的字形相似度确定流程示意图;

图4是根据本申请一实施例的相似度处理方法的流程图二;

图5是根据本申请一实施例的相似度处理装置组成结构示意图;

图6是用来实现本申请实施例的相似度处理装置的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本申请提供了一种相似度处理方法,如图1所示,包括:

步骤s101:获取第一字符串及第二字符串;

步骤s102:确定所述第一字符串及所述第二字符串之间的音形相似度及字形相似度;

步骤s103:基于所述音形相似度及所述字形相似度,确定所述第一字符串及所述第二字符串的综合相似度。

本申请实施例所提供的相似度处理方法,应用于电子设备。这里,所述电子设备包括移动终端或固定终端或服务器;例如,所述电子设备可以为手机、计算机或服务器等。

s101中,第一字符串和第二字符串可以为任意相似度场景中的文本信息。例如,该相似度场景可以为搜索标题相似的文章;又如,该相似度场景可以为各种社交平台的相似的焦点新闻;再如,该相似度场景可以为购物平台中商品分类;再如,该相似度场景可以为图书馆中对于书籍的分类;等等。

s101中,所述第一字符串以及第二字符串中包含的内容可以为以下几种情况:

一种情况中,所述第一字符串包含n个汉字;所述第二字符串中包含m个汉字;n和m均为大于等于1的整数。其中,n和m可以相等也可以不相等。

再一种情况中,所述第一字符串包含n个汉字;所述第二字符串中包含m个汉字;n和m均为大于等于1的整数。并且,所述第一字符串还包括l个字符;第二字符串还包括k个字符;其中,l和k为整数;字符为字母、数字、符号中至少之一。

其中,l和k可以相等也可以不相等。另外,l和k中其中之一可以为0。

这种情况中,字符串中汉字以及字符可以交叉存在的,比如,“苹果123和大象ab”。

本申请实施例中,能够从多维度来确定来获取第一字符串与第二字符串的相似度,即从第一字符串与第二字符串的字符、音形及字形的多维度来确定第一字符串及第二字符串相似度;从而能够大大提高确定第一字符串及第二字符串的相似度的准确性。

并且,若所述第一字符串和第二字符串为包含汉字的汉字文本,则还可以实现对包含汉字的文本的相似度的确定,从而能够基于更加全面的字符确定相似度,从而能够进一步提高文本相似度计算的准确性。

在前述步骤s102中,还可以包括:基于所述第一字符串及所述第二字符串,确定所述第一字符串及所述第二字符串之间的字符相似度。具体的,可以为:

根据预设的编辑距离规则,确定所述第一字符串和所述第二字符串各对应位置上字符之间的第一编辑距离;基于所述第一编辑距离,确定所述字符相似度。

这里,所述编辑距离规则为能够反映出字符串之间的编辑操作次数;其中,该编辑操作次数包括:插入操作、删除操作或替换操作。这里,所述编辑距离规则可以为编辑距离公式,或者可以为编辑距离模型等。

此处的所述第一字符串和所述第二字符串各对应位置上的字符,是指字符所在所述第一字符串及所述第二字符串的比特位或者编号相同。例如,若第一字符串为“苹果xgh”,第二字符串为“水果kij”。

假设第一字符串为a,第二字符串为b,则所述第一字符串及所述第二字符串的编辑距离公式为:

d(i,j)=d(i-1,j-1),a[i]=b[j];

d(i,j)=min(d(i,j-1),d(i-1,j),d(i-1,j-1)),a[i]≠b[j];

其中,所述i表示第一字符串a中的第i个字符,所述j个字符表示第二字符串b中的第j个字符;所述min()表示取最小值函数;所述a[i]=b[j]则表示所述第一字符串的长度与所述第二字符串的长度相等;所述a[i]≠b[j]则表示所述第一字符串的长度与所述第二字符串的长度不相同。

这里,所述编辑距离公式表示的是两个字符串之间最小编辑操作次数。

获得所述第一字符串及所述第二字符串的所述第一编辑距离为:

d1(a,b)=d(len(a),len(b));

其中,所述len(a)为所述第一字符串的长度,所述len(b)为所述第二字符串的长度。

基于所述第一编辑距离d1(a,b),获得所述字符相似度为:

其中,所述max()表示取最大值函数。

这里,所述第一字符串及所述第二字符串各对应位置上字符之间的第一编辑距离为:

d(0,0)=0;

d(i,0)=i;

d(0,j)=j;

其中,所述d(i-1,j-1)表示完成从a(0,i-1)到b(0,j-1)的编辑次数。例如,若a(0,i-1)=b(0,j-1)时,所述d(i,j)表示将a(i)替换成b(j)的编辑;此处的d(i-1,j-1)对应于执行一次把b[i]用b[j]替换的替换操作。

其中,所述d(i-1,j)表示完成从a(0,i-1)到b(0,j)的编辑次数。例如,若a(0,i-1)=b(0,j)时,所述d(i,j)表示将a(i)删除的编辑;此处的d(i-1,j)对应于执行一次将a(i)删除的删除操作。

其中,所述d(i,j-1)表示完成从a(0,i)到b(0,j-1)的编辑次数。例如,若a(0,i)=b(0,j-1)时,所述(i,j)表示b(j)插入到a(i)的位置即可完成编辑;此处的d(i,j-1)对应于执行一次将b(j)插到a(i)中的插入操作。

在一示例中,第一字符串与第二字符串的第一编辑距离d(a,b)为第一字符串与第二字符串各对应位置上字符d(i,j)之和。

这里,所述第一编辑距离与所述字符相似度呈反相关。所述第一编辑距离越小,所述字符相似度越大,所述第一字符串与所述第二字符串相似性越高;所述第一编辑距离越大,所述字符相似度越小,所述第一字符串与所述第二字符串相似性越低。

在本实施例中,可以对包含字符的第一字符串及第二字符串进行字符相似度的确定。具体地,可以基于预定的距离编辑公式计算出字符的第一编辑距离,并基于该第一编辑距离确定出字符相似度。

当然,计算出字符相似度的距离编辑公式也可以是其它任意能反映两个字符串之间编辑操作次数的公式,在此不作限制。

如图2所示,在前述步骤s102中,确定所述第一字符串及所述第二字符串之间的音形相似度,包括:

s201:将所述第一字符串转换为第一音形码序列,将所述第二字符串转换为第二音形码序列;

s202:基于所述第一音形码序列和所述第二音形码序列,计算得到所述第一字符串及所述第二字符串之间的音形相似度。

前述针对s101的说明中,已经指出字符串可以有两种情况,下面分别结合s101的两种情况,通过两个示例对s201-s202进行说明:

示例1、所述第一字符串中包含n个汉字;所述第二字符串中包含m个汉字;n和m均为大于等于1的整数;

s201中,将所述第一字符串转换为第一音形码序列,将所述第二字符串转换为第二音形码序列,包括:

确定所述第一字符串中的n个汉字对应的n组拼音和声调,基于所述n组拼音和声调确定第一音形码序列;确定所述第二字符串中的m个汉字对应的m组拼音和声调,基于所述m组拼音和声调确定第二音形码序列。

例如,第一字符串为“苹果”,将其转换为第一音形码序列可以为“ping2guo3”;第二字符串“夏天”,转换为第二音形码序列可以为“xia4tian1”;此处的第一音形码和第二音形码均为拼音加声调的组合;其中,“1”、“2”、“3”及“4”分别为第一声、第二声、第三声及第4声对应的字符串。

或者,所述第一音形码序列可以仅包括拼音,所述第二音形码序列可以仅包括拼音。例如,第一字符串为“苹果”,将其转换为第一音形码序列可以为“pingguo”;第二字符串“夏天”,转换为第二音形码序列可以为“xiatian”。

所述步骤s202,包括:根据预设的编辑距离规则,确定所述第一音形码序列和所述第二音形码序列各对应位置上音形码之间的第二编辑距离;基于所述第二编辑距离,确定所述音形相似度。

此处的编辑距离规则如前述字符相似度的计算方式类似,其对应的第二编辑距离公式可以为:d2(a,b)=d(len(a),len(b))。

此处的基于第二编辑距离,确定所述音形相似度,可以为:

这里,pa为第一音形码序列,pb为第二音形码序列,sp表示音形相似度,a和b分别表示第一字符串以及第二字符串。公式中其他算式的定义与前述相同,不再进行赘述。

另外,所述第二编辑距离与所述音形相似度呈反相关。所述第二编辑距离越小,所述音形相似度越大,所述第一字符串与所述第二字符串相似性越高;所述第二编辑距离越大,所述音形相似度越小,所述第一字符串与所述第二字符串相似性越低。

在本实施例中,可以对第一字符串及第二字符串中的汉字从音形的角度进行分析,从而能够更加全面的分析第一字符串及第二字符串的相似度;并且,从音形角度进行分析时,还在拼音中增加了声调的因素,从而考虑了发音之间的相似度。如此,本实施例能够更准确全面反映第一字符串及第二字符串之间的相似度,能够进一步提高文本之间相似度确定的准确性。

当然,计算出音形相似度的距离编辑公式也可以是其它任意能反映两个音形码之间编辑操作次数的公式,在此不作限制。

示例2、所述第一字符串中包含n个汉字;所述第二字符串中包含m个汉字;n和m均为大于等于1的整数;并且,所述第一字符串还包括l个字符;第二字符串还包括k个字符;其中,l和k为整数;字符为字母、数字、符号中至少之一;

则s201中,所述方法还包括:基于n个汉字对应的n组拼音和声调以及l个字符确定第一音形码序列;基于m个汉字对应的m组拼音和声调以及k个字符得到第二音形码序列。

也就是基于示例1中得到字符串中汉字对应的拼音和声调的基础上,将汉字对应的拼音和声调与字符串中的字符进行拼接得到音形码序列。

若所述第一字符串和所述第二字符串均包括汉字和字符;当将所述第一字符串汉字转换为所述第一音形码序列以及将所述第二字符串转换为第二音形码序列时,可以将所述第一字符串中的n组拼音和声调以及l个字符拼接在所述第一音形码序列中,将所述第二字符串中的m组拼音和声调以及k个字符拼接在所述第二音形码序列中。

例如,若第一字符串为“app相似”,第二字符串为“apple相思”;则第一字符串转换为的第一音形码为“appxiang1si4”,其中,第一字符串中的字符串“app”与第一字符串中汉字转换的音形码“xiang1si4”拼接;第二字符串转换为第二音形码为“applexiang1si1”,其中,第二字符串中字符串“apple”与第二字符串中汉字转换的音形码“xiang1si1”拼接。

本示例中s202的处理与前述示例1相同,不再赘述。

如此,在本实施例中,可以先将文本中字符串与汉字转换的音形码进行拼接,然后仅获取文本之间的音形相似度及字形相似度,从而能够在提高确定文本之间相似度的准确性的前提下,还能用相对较少的维度来获取相似度,减少计算的复杂度。

如图3所示,在前述步骤102中,确定所述第一字符串及所述第二字符串之间的字形相似度,包括:

s301:将所述第一字符串转换为第一字形码序列,将所述第二字符串转换第二字形码序列;

s302:基于所述第一字形码序列和所述第二字形码序列,计算得到所述第一字符串及所述第二字符串之间的所述字形相似度。

同样的,前述针对s101的说明中,已经指出字符串可以有两种情况,下面分别结合s101的两种情况,通过两个示例对s301-s302进行说明:

示例3、所述第一字符串中包含n个汉字;所述第二字符串中包含m个汉字;n和m均为大于等于1的整数;

s301中,将所述第一字符串转换为第一字形码序列,将所述第二字符串转换第二字形码序列,包括:

确定所述第一字符串中的n个汉字对应的n组字形码,基于所述n组字形码确定第一字形码序列;确定所述第二字符串中的m个汉字对应的m组字形码,基于所述m组字形码确定第二字形码序列。

这里,所述字形码包括五笔编码或笔画。

当然,在其它示例中,所述第一字形码和第二字形码还可以为其它任意表征字形的字形码,例如,所述第一字形码和第二字形码可以为包括汉字部件的字形码,如偏旁等。

这里,可以预先建立一个字形码与编码的映射关系。例如,建立笔画与字符的映射关系,如一横对应的编码可以为“a”,一数对应的编码可以为“b”等。又如,建立五笔与编码之间的映射关系;其中,五笔与编码之间的映射关系可以基于五笔字根表确定;或者五笔与编码之间的映射关系可以基于用户自行定义。如,文本中汉字“你好”,可以转为为“wqiyvbg”的字形码。

上述s302,具体可以为:根据预设的编辑距离规则,确定所述第一字形码和所述第二字形码各对应位置上字形码之间的第三编辑距离;基于所述第三编辑距离,确定所述字形相似度。

此次的编辑距离规则与前述类似,其对应的第三编辑距离公式可以为:d3(a,b)=d(len(a),len(b))。

此处的基于所述第三编辑距离,确定所述字形相似度,可以为:

这里,wa为第一音形码序列,wb为第二音形码序列,sw表示音形相似度,a和b分别表示第一字符串以及第二字符串。公式中其他算式的定义与前述相同,不再进行赘述。

这里,所述第三编辑距离与所述字形相似度呈反相关。所述第三编辑距离越小,所述字形相似度越大,所述第一字符串与所述第二字符串相似性越高;所述第三编辑距离越大,所述字形相似度越小,所述第一字符串与所述第二字符串相似性越低。

在本实施例中,可以对第一字符串及第二字符串中汉字从字形的角度来分析,从而能够更加全面的分析第一字符串及第二字符串的相似度,从而能够进一步提高文本之间相似度确定的准确性。

当然,计算出字形相似度的距离编辑公式也可以是其它任意能反映两个字形码之间编辑操作次数的公式,在此不作限制。

示例4、所述第一字符串中包含n个汉字;所述第二字符串中包含m个汉字;n和m均为大于等于1的整数;并且,所述第一字符串还包括l个字符;第二字符串还包括k个字符;其中,l和k为整数;字符为字母、数字、符号中至少之一;

则s301中,所述方法还包括:基于所述第一字符串中的n个汉字对应的n组字形码以及l个字符确定第一字形码序列;基于所述第二字符串中的m个汉字对应的m组字形码以及k个字符确定所述第二字形码序列。

也就是在示例3中得到字符串中汉字对应的拼音和声调的基础上,将汉字对应的拼音和声调与字符串中的字符进行拼接得到音形码序列。

本示例中s302的处理与前述示例3相同,这里不再赘述。

本示例可以先将第一字符串和第二字符串中汉字转换为对应的字形码,并将第一字符串和第二字符串中的l个字符或k个字符与对应的字形码拼接;从而在确定汉字的字形相似度时,也考虑到其他字符相似度。

基于前述处理,本实施例前述步骤s103,包括:基于所述音形相似度及所述字形相似度与各自权重系数的乘积的和,确定所述综合相似度。

进一步地,还可以包括:基于所述字符相似度、所述音形相似度及所述字形相似度与各自权重系数的乘积的和,确定所述综合相似度。

在一示例中,所述方法还包括:

确定所述字符相似度的第一权重系数;确定所述音形相似度的第二权重系数;确定所述字形相似度的第三权重系数。

相应的,执行s103时,包括:

基于所述字符相似度及所述第一权重系数,确定第一数值;基于所述音形相似度及所述第二权重系数,确定第二数值;基于所述字形相似度及所述第三权重系数,确定第三数值;

基于所述第一数值、所述第二数值及所述第三数值,确定所述综合相似度。

所述第一权重系数、第二权重系数及第三权重系数均大于或等于0、且小于或等于1。

此处的第一权重系数、第二权重系数及第三权重系数可以根据实际情况确定。例如,在一场景中,字符相似度的重要程度大于音形相似度的重要程度、且音形相似度的重要程度大于字形相似度的重要程度,则确定第一权重系数大于第二权重系数,第二权重系数大于第三权重系数。又如,在另一场景中,所述第二权重系数或第三权重系数的值等于0。

例如,所述第一权重系数为0.5,第二权重系数为0.3及第三权重系数为0.2;则综合相似度可以为:

s(a,b)=0.5sc+0.3sp+0.2sw;其中,所述sc表示字符相似度,所述sp表示音形相似度,及所述sw表示字形相似度。

在本实施例中,可以确定出字符相似度、音形相似度及字形相似度的权重系数,并基于字符相似度、音形相似度及字形相似度与其各自的权重系数一起来确定综合相似度。如此,本实施例考虑到了字符相似度、音形相似度及字形相似度在各场景中重要程度的实际情况,能够进一步提高确定出第一字符串及第二字符串之间相似度的准确性。

以下结合图4对本实施例提供的一种示例性说明:

步骤s601:获取第一字符串a及第二字符串b;

步骤s6021:基于五笔转换规则,获取第一字符串的第一字形码wa及第二字形码wb;

步骤s6022:基于拼音转换规则,获取第一字符串的第一音形码pa及第二音形码pb;

步骤s6023:获取第一字符串的第一字符串sa及第二字符串的第二字符串sb;

步骤s603:将wa与wb、pa与pb、及sa与sb分别输入到编辑距离模型进行计算;

步骤s6041:输出wa与wb的字形相似度sw;

步骤s6042:输出pa与pb的音形相似度sp;

步骤s6043:输出sa与sb的字符相似度sc;

步骤s605:基于sw、sp及sc,获得第一字符串与第二字符串的综合相似度s。

本申请实施例,能够从多个维度来确定来获取第一字符串与第二字符串的相似度,即从第一字符串与第二字符串的字符、音形及字形的多个维度来确定第一字符串及第二字符串相似度;从而能够大大提高确定第一字符串及第二字符串的相似度的准确性。

还可以从音形及字形的角度实现对汉字的文本的相似度的确定,从而能够基于更加全面的字符确定相似度,从而能够进一步提高文本相似度计算的准确性。

本申请提供了一种文本相似度装置,如图5所示,包括:

获取模块701,用于获取第一字符串及第二字符串;

第一确定模块702,用于确定所述第一字符串及所述第二字符串之间的音形相似度及字形相似度;

第二确定模块703,用于基于所述音形相似度及所述字形相似度,确定所述第一字符串及所述第二字符串的综合相似度。

其中所述第一确定模块702,用于将所述第一字符串转换为第一音形码序列,将所述第二字符串转换为第二音形码序列;基于所述第一音形码序列和所述第二音形码序列,计算得到所述第一字符串及所述第二字符串之间的音形相似度。

所述第一确定模块702,用于将所述第一字符串转换为第一字形码序列,将所述第二字符串转换第二字形码序列;基于所述第一字形码序列和所述第二字形码序列,计算得到所述第一字符串及所述第二字符串之间的所述字形相似度。

所述第一字符串中包含n个汉字;所述第二字符串中包含m个汉字;n和m均为大于等于1的整数;

所述第一确定模块702,用于确定所述第一字符串中的n个汉字对应的n组拼音和声调,基于所述n组拼音和声调确定第一音形码序列;确定所述第二字符串中的m个汉字对应的m组拼音和声调,基于所述m组拼音和声调确定第二音形码序列。

所述第一确定模块702,用于确定所述第一字符串中的n个汉字对应的n组字形码,基于所述n组字形码确定第一字形码序列;确定所述第二字符串中的m个汉字对应的m组字形码,基于所述m组字形码确定第二字形码序列。

所述第一字符串还包括l个字符;第二字符串还包括k个字符;其中,l和k为整数;字符为字母、数字、符号中至少之一;

所述第一确定模块702,用于基于n个汉字对应的n组拼音和声调以及l个字符确定第一音形码序列;基于m个汉字对应的m组拼音和声调以及k个字符得到第二音形码序列。以及,

所述第一确定模块702,用于基于所述第一字符串中的n个汉字对应的n组字形码以及l个字符确定第一字形码序列;基于所述第二字符串中的m个汉字对应的m组字形码以及k个字符确定所述第二字形码序列。

所述第二确定模块703,用于基于所述字符相似度、所述音形相似度及所述字形相似度与各自权重系数的乘积的和,确定所述第一字符串及所述第二字符串的所述综合相似度。

可见,通过采用上述方案,能够从多个维度来确定来获取第一字符串与第二字符串的相似度,即从第一字符串与第二字符串的字符、音形及字形的多个维度来确定第一字符串及第二字符串相似度;从而能够大大提高确定第一字符串及第二字符串的相似度的准确性。

且,若所述第一字符串和第二字符串为包含汉字的汉字文本,则还可以从音形及字形的角度实现对汉字的文本的相似度的确定,从而能够基于更加全面的字符确定相似度,从而能够进一步提高文本相似度计算的准确性。

另外,本实施例考虑到了字符相似度、音形相似度及字形相似度在各场景中重要程度的实际情况,能够进一步提高确定出第一字符串及第二字符串之间相似度的准确性。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

该文本相似度装置,可以由电子设备实现,如图6所示,电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,该存储器存储有可由至少一个处理器执行的指令,以使该至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的方法。

存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的方法对应的程序指令/模块(例如,附图5所示的获取模块、第一确定模块、第二确定模块)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。

存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现文本相似度方法的装置,或电子设备,还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图6中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,能够从多个维度来确定来获取第一字符串与第二字符串的相似度,即从第一字符串与第二字符串的字符、音形及字形的多个维度来确定第一字符串及第二字符串相似度;从而能够大大提高确定第一字符串及第二字符串的相似度的准确性。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1