一种通用字符串相似性度量框架的构建方法与流程

文档序号：16754803发布日期：2019-01-29 17:15阅读：465来源：国知局

本发明属于数据挖掘技术领域，具体涉及一种通用字符串相似性度量框架的构建方法。

背景技术：

字符串相似性度量是检测数据库中重复和字面形式相似的字符串的重要技术。至今已经提出了多种类型的度量标准，但是这些度量标准或较复杂、不易灵活地扩展，或在合并其他语义特征方面(如词缀)有局限性。

字符串相似性度量，也称为字符串距离度量，或简称字符串度量，通过匹配待比较的两个字符串来度量字符串之间的相似度(或距离)。字符串相似度度量在许多应用中得到了广泛的应用，例如记录链接、实体规范化、信息集成、本体对齐等。至今已经提出了许多字符串相似度度量方法，例如dicedistance,levenshteindistance,jarodistance,monge-elkandistance等。基于上述经典度量方法衍生的许多字符串相似度度量算法会在比较过程中包含更多的字符串特性以满足某些需求，例如jaro-winklerdistance和gotohoptimizessmith-watermandistance；词缀是字符串匹配比较的重要特征；它们不在字符串中的固定位置，但也包含特定的语义信息；因此，人们设计了许多复杂的数据结构希望在度量过程中包含词缀。

技术实现要素：

针对上述背景技术中的问题，本发明提出了一种通用字符串相似性度量框架的构建方法，其基于fellegi-sunter模型，构思合理、简单，它对特定领域中需要快速和灵活地纳入大量语义特征的字符串相似度测量系统的设计提供指导。

本发明的技术方案如下：

上述的通用字符串相似性度量框架的构建方法，其具体过程如下：

(1)设定x＝{x⁰,x¹,x²,...}和y＝{y⁰,y¹,y²,...}为需要比较的两个字符串总体，x和y中的元素xⁱ和y^j由字符序列和组成，其中和分别是xⁱ和y^j中的第p和第q个字符，m和n是xⁱ和y^j的长度；

(2)将匹配或相似的集合m＝{(xⁱ,y^j)；xⁱ＝y^j,xⁱ∈x,y^j∈y}与不匹配集合n＝{(xⁱ,y^j)；xⁱ≠y^j,xⁱ∈x,y^j∈y}组成的一组字符串x×y＝{(xⁱ,y^j)；xⁱ∈x,y^j∈y}；

(3)基于匹配或相似的集合m＝{(xⁱ,y^j)；xⁱ＝y^j,xⁱ∈x,y^j∈y}和不匹配集合n＝{(xⁱ,y^j)；xⁱ≠y^j,xⁱ∈x,y^j∈y}，为每个字符串相似性度量定义一个用于比较的标准集合γ(xⁱ,y^j)，γ(xⁱ,y^j)＝{γ1(xⁱ,y^j),γ2(xⁱ,y^j),...,γk(xⁱ,y^j)},，其中γk(xⁱ,y^j)是xⁱ和y^j之间的第k个特定比较条件；

(4)得到后验概率p((xⁱ,y^j)∈m|γ(xⁱ,y^j))即字符串相似性度量的实际或准确结果后，再基于最大似然估计方法，使用p(γ(xⁱ,y^j)|(xⁱ,y^j)∈m)来估计后验概率，即：

sim(xⁱ,y^j)＝p((xⁱ,y^j)∈m|γ(xⁱ,y^j))

∝p(γ(xⁱ,y^j)|(xⁱ,y^j)∈m)

设定γ(xⁱ,y^j)中的比较标准是i.i.d.，进一步得对于具体的比较标准集合γ(xⁱ,y^j)，不匹配条件包含错误um与概率p((xⁱ,y^j)∈m|γ(xⁱ,y^j))字符串相似性度量定义相关联，匹配或相似的比较条件排除错误m也与概率p((xⁱ,y^j)∈m|γ(xⁱ,y^j))字符串相似性度量定义相关联，对于sim(xⁱ,y^j)需要移除um并添加m，将概率函数需要修改为：

其中是常用字符串相似性度量的概率形式，m-um是修正误差的调整因子，并且m-um趋于α·(1-sim(xⁱ,y^j))，其中α∈[0,1]；

(5)最后得到一个结合附加特征的字符串相似性度量框架：

sim(xⁱ,y^j)＝simgen(xⁱ,y^j)+α·(1-simgen(xⁱ,y^j)).。

所述通用字符串相似性度量框架的构建方法，其中：所述步骤(3)中的γk(xⁱ,y^j)可表示dice距离中xⁱ和y^j中的共同字符，也可表示在levenshtein距离和jaro距离中变换xⁱ到y^j的最小成本删除操作，还可表示在monge-elkan距离中的xⁱ和y^j的共同前缀。

所述通用字符串相似性度量框架的构建方法，其中：所述步骤(5)中为了包含词缀信息到字符串相似度度量中，可修改α为其中lp和ls分别是xⁱ和y^j中的相同前缀和后缀的长度；|xⁱ|和|y^j|分别是xⁱ和y^j的长度，当xⁱ和y^j有相同的前缀和/或相同的后缀时，ω∈[0,1]是决定向上调整多少相似度的常数比例因子；β∈[0,1]和η∈[0,1]分别是前缀特征和后缀特征的权重。

有益效果：

本发明通用字符串相似性度量框架的构建方法构思合理、简单，构建的通用字符串相似性度量框架可以对这些特征进行加权以满足特定的需求。图1至4显示了在不同的参数设置下，在通用字符串相似性度量框架中使用不同的字符串相似度度量所得到的结果；首先，它表明前缀和后缀是这种规范化任务的有用特征；其次，本发明可以将这些附加特征有效地结合到字符串相似性度量中；最后，图1至4也表明，由于本发明对调整所包含的词缀特征的权重(β和η)的灵活性，我们可以找到用于并入附加的词缀特征的最合适的加权策略，并且因此达到最佳归一化结果。

本发明通用字符串相似性度量框架的构建方法基于fellegi-sunter模型的简单灵活的概率框架，并通过一系列实验进行了仔细的验证，结果证明了框架的有效性，将对需要快速和灵活地纳入大量语义特征的字符串相似度测量系统的设计提供指导。

附图说明

图1为本发明一种通用字符串相似性度量框架的构建方法在不同的β(beta)，η＝(1-β)，t和ω参数设置下，将dice距离放置在本发明通用字符串相似性度量方法的框架中得到的归一化结果图；

图2为本发明一种通用字符串相似性度量框架的构建方法在不同的β(beta)，η＝(1-β)，t和ω参数设置下，将levenshtein距离放置在本发明通用字符串相似性度量方法的框架中得到的归一化结果；

图3为本发明一种通用字符串相似性度量框架的构建方法在不同的β(beta)，η＝(1-β)，t和ω参数设置下，将jaro距离放置在本发明通用字符串相似性度量方法的框架中得到的归一化结果；

图4为本发明一种通用字符串相似性度量框架的构建方法在不同的β(beta)，η＝(1-β)，t和ω参数设置下，将monge-elkan距离放置在本发明通用字符串相似性度量方法的框架中得到的归一化结果。

具体实施方式

本发明一种通用字符串相似性度量框架的构建方法，具体过程为：

(1)首先设定x＝{x⁰,x¹,x²,...}和y＝{y⁰,y¹,y²,...}为需要比较的两个字符串群，x和y中的元素xⁱ和y^j由字符序列和组成，其中和分别是xⁱ和y^j中的第p和第q个字符，m和n是xⁱ和y^j的长度；字符串相似性度量通常用于查找xⁱ和y^j的最佳映射对或评估特定xⁱ与y中每个y^j之间的相似度。

(2)其次，将匹配或相似的集合m＝{(xⁱ,y^j)；xⁱ＝y^j,xⁱ∈x,y^j∈y}与不匹配集合n＝{(xⁱ,y^j)；xⁱ≠y^j,xⁱ∈x,y^j∈y}集合组成的一组字符串x×y＝{(xⁱ,y^j)；xⁱ∈x,y^j∈y}。

(3)接着基于匹配或相似的集合m＝{(xⁱ,y^j)；xⁱ＝y^j,xⁱ∈x,y^j∈y}及不匹配集合n＝{(xⁱ,y^j)；xⁱ≠y^j,xⁱ∈x,y^j∈y}集合，为每个字符串相似性度量定义一个用于比较的标准集合γ(xⁱ,y^j)，γ(xⁱ,y^j)＝{γ1(xⁱ,y^j),γ2(xⁱ,y^j),...,γk(xⁱ,y^j)},，其中γk(xⁱ,y^j)是xⁱ和y^j之间的第k个特定相似性比较条件；

上述步骤(3)中γk(xⁱ,y^j)可表示dice距离中xⁱ和y^j中的共同字符，还可表示在levenshtein距离和jaro距离中变换xⁱ到y^j的最小成本删除操作，还表示在monge-elkan距离中的xⁱ和y^j的共同前缀等等，使γ(xⁱ,y^j)所有可能的实现可以形成比较标准空间γ。

(4)得到后验概率p((xⁱ,y^j)∈m|γ(xⁱ,y^j))即字符串相似性度量的实际或准确结果后，再基于最大似然估计方法(最大似然估计方法是写在专业教科书中已经公布的技术)，使用p(γ(xⁱ,y^j)|(xⁱ,y^j)∈m)来估计后验概率，即：

sim(xⁱ,y^j)＝p((xⁱ,y^j)∈m|γ(xⁱ,y^j))

∝p(γ(xⁱ,y^j)|(xⁱ,y^j)∈m)

假设γ(xⁱ,y^j)中的比较标准是i.i.d.，可以进一步得对于具体的比较标准集合γ(xⁱ,y^j)，两种类型的错误与此概率字符串相似性度量定义相关联，两种类型的错误一个是不匹配条件包含错误(unmccie,简称um)，另一个是匹配或相似的比较条件排除错误(mccee,简称m)；对于sim(xⁱ,y^j)需要移除um并添加m；因此，概率函数需要修改为：

其中是常用字符串相似性度量的概率形式，m-um是修正误差的调整因子，并且m-um趋于α·(1-sim(xⁱ,y^j))，其中α∈[0,1]。

(5)将附加的特征合并到字符串相似性度量中

sim(xⁱ,y^j)＝simgen(xⁱ,y^j)+α·(1-simgen(xⁱ,y^j)).

上述步骤(5)为了包含词缀信息(例如前缀特征和后缀特征)到字符串相似度度量中，可以简单地修改α为其中lp和ls分别是xⁱ和y^j中的相同前缀和后缀的长度；|xⁱ|和|y^j|分别是xⁱ和y^j的长度，当xⁱ和y^j有相同的前缀和/或相同的后缀时，ω∈[0,1]是决定向上调整多少相似度的常数比例因子；β∈[0,1]和η∈[0,1]分别是前缀特征和后缀特征的权重。

在图1至4中，可以看到，将相似度阈值t从0改为1，通过使用不同的一般字符串相似度量度而获得的归一化结果的降序是monge-elkandistance>jarodistance>levenshteindistance>dicedistance；试验结果表明更多的附加语义特征被纳入将取得更好的结果。

通过在每个一般字符串相似性度量的最佳t设置下改变β、η＝(1-β)和ω设置，当将上述dicedistance等四个字符串相似度度量方法放入所提出的框架中时，结果总是好于仅使用一般字符串相似性度量来进行临床症状名称归一化。

首先，表明前缀和后缀是这种规范化任务的有用特征；其次，所提出的框架可以将这些附加特征有效地结合到一般的字符串相似性度量中；最后，图1至4也表明，由于所提出的框架对调整所包含的词缀特征的权重(β和η)的灵活性，可以找到用于并入附加的词缀特征的最合适的加权策略，并且因此达到最佳归一化结果。

为了评估所提出的框架，根据四个字符串相似性度量的优点和缺点，我们直接将它们放入公式sim(xⁱ,y^j)＝simgen(xⁱ,y^j)+α·(1-simgen(xⁱ,y^j)).中，并将α修改为公式

然后将其应用于临床症状名称归一化任务。根据行业知识，前缀和后缀是这个任务的有用特性。我们使用的实验数据集包含4465个独特的临床症状名称和947个独特的标准症状名称。任务是用947个标准症状名称标准化每个临床症状名称。我们使用精度(precnorm),召回率(recnorm)和f-measure(fmnorm)三个指标评估标准化结果：

precnorm＝|cns|/|ns|,；

recnorm＝|cns|/|csn|,；

上述公式中，|cns|是临床症状名称正确标准化的数量，|ns|是标准化的临床症状的总数。|csn|是将要标准化的临床症状名称的数量。

本发明基于fellegi-sunter模型，构思合理，能将对需要快速和灵活地纳入大量语义特征的字符串相似度测量系统的设计提供指导。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王亚强;闫飞飞;王晓峰;舒红平;唐聃
技术所有人：成都信息工程大学
我是此专利的发明人

上一篇：一种探测器填充因子的测试装置及方法与流程
上一篇：一种新型防腐胶带的制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。