一种用于重复数据删除的抽样选择方法与流程

文档序号:15694602发布日期:2018-10-19 18:50阅读:218来源:国知局

本发明属于重复数据删除领域,具体涉及一种用于重复数据删除的抽样选择方法。



背景技术:

人类社会已经进入高速发展的信息化时代,各种信息呈爆炸性增长的趋势,为新兴公司带来发展机遇,但同时随之产生的海量冗余、低价值信息也产生了数据管理成本增加等诸多问题。因此,研究重复数据删除技术以减少存储系统中的冗余数据,对优化和提高存储系统的性能有重要的理论意义和现实意义。

目前,主流重复数据删除技术采用监督学习、半监督学习或非监督学习理念。监督学习和非监督学习均依赖专家手动调整重复数据删除的处理过程,消耗大量人力;而半监督学习或者说是主动学习已被广泛应用于降低这样的人工成本。主动学习可以主动提出一些标注请求,即查询最具价值的未标记样本交由专家进行标记,然后用已标记样本训练分类模型来提高模型的精确度。本专利在此基础上提供了一个实用高效的抽样选择方案,可以选择出更小规模同时信息含量更高的待标记样本集(即训练集),有效地减少了专家的任务量,从而提高了重复数据删除的效率。

重复数据删除领域中,可能指向同一实体的两条记录称为信息对(pair),重复信息称为匹配对(matchingpairs),而非重复信息称为非匹配信息对(non-matchingpairs)。典型的重复数据删除技术分为三个阶段:

第一阶段,分块(blocking)(也可称为建立索引),将具有相同特征的对聚集在一起以降低后续比较查询的成本,例如,将文本中首字母相同的字符串聚集成一块(block);

第二阶段,比较,利用相似度函数(如jaccard)计算出同一块中不同对之间的相似性,并且形成训练集;

第三阶段,分类,通过阈值和基于训练集的分类模型选择出相似度最高的对,鉴定该对是否匹配,若匹配则删除重复的副本。

本发明的重复数据删除框架采用chaudhuri等人提出的基于签名的重复数据删除方法(signature-baseddeduplication,以下简称sig-dedup),它是目前为止该领域最先进的技术,但是其确定阈值的人工成本很高,本发明在此基础上改进的抽样选择方法可以用更小的成本来确定阈值,该方法用于新方案的第二阶段。

同时,本发明冗余删除阶段还使用ssar(使用关联规则的抽样选择)主动学习算法,其三大优势如下:

1、与基于委员(committee-based)的主动学习算法相比,它不需要初始标记数据集;

2、具有明确的停用标准(stoppingcriteria);

3、采用基于懒惰关联准则的信息化度量标准,可以有效选择出更小规模但信息含量更高的典型用例。



技术实现要素:

本发明针对现有技术中的不足,提供一种用于重复数据删除的抽样选择方法。

为实现上述目的,本发明采用以下技术方案:

一种用于重复数据删除的抽样选择方法,其特征在于,包括以下步骤:

步骤一、基于指纹的重复数据删除框架确定初始块阈值th,将相似度高于该阈值的信息对抽取出来,放入新的数据集s中,最终从初始的大规模数据集中过滤出所有潜在的匹配对形成新数据集s,并将其中信息对按相似度递增排序;

步骤二、在新的数据集s中,将相似度以0.1为差值均等划分为十个等级,从十个等级的信息对中随机抽取出信息对生成子集s;

步骤三、通过使用关联规则的主动学习算法,对子集s进一步去除不翔实或者冗余的信息对,生成更小规模的数据集进行标记,标记完成后作为训练集;

步骤四、根据已标记的训练集确定模糊区域边界区间[α,β],其中α是指非匹配信息对的最高相似度,β指匹配对的最低相似度;

步骤五、将模糊边界区间和已标记的训练集作为输入值,训练支持向量机分类器svm,自动判断数据集s中的信息对是否匹配。

为优化上述技术方案,采取的具体措施还包括:

所述步骤三具体包括:

步骤301、对于子集s,使用关联规则的抽样选择算法从中随机选择若干出未标记对ui(i=1,2···);

步骤302、对于每个未标记对,分别在已标记数据集中删除ui中不存在的特征值,生成临时训练集;

步骤303、选取规模最小的临时训练集所对应的未标记对进行标记。

所述步骤四具体包括:

确定数据集s中具有最小相似性的匹配对mtp,以及数据集s中具有最大相似性的不匹配对mfp,mfp和mtp对应的相似度分别为α和β,相似度介于α和β之间的信息对属于模糊区域,若相似度低于α,则标记为非匹配对,若高于β,标记为匹配对。

所述步骤五具体包括:

步骤501、通过相似性函数jaccatd以及ngram令牌化算法重新计算每个标记对的相似性;

步骤502、标签对按相似度升序排序,并使用固定大小为n的滑动窗口,滑动窗口不断向后移动,直到识别出最后的仅含非匹配对的窗口,由此确定ngram阈值;

步骤503、数据集s中经过了以上的过滤并且达到ngram阈值的被标记为匹配对,其余为非匹配对。

本发明的有益效果是:通过实用有效的抽样选择方法,选择出更小规模却更具代表性的信息对样本交给专家标记,然后将标记后数据集用于训练分类器,从而可以自动判断信息是否冗余,极大减小了需要交付专家标记的信息对数量,降低了冗余信息删除的成本。

附图说明

图1是重复数据删除的方法流程图。

图2是样本选择策略。

图3是相似度与模糊边界关系图。

图4是训练集生成过程实例。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

本发明提出的用于重复数据删除的抽样选择方法,具体包括以下步骤。

步骤一、如图1中的(1),通过学术界已经成熟的sig-dedup(基于指纹的重复数据删除)框架计算出初始块阈值th,初步筛选出潜在匹配对,放入新数据集。只有相似度高于阈值的信息对才会放入新数据集s中,因此初始块阈值越高,则新数据集规模越小,若规模过小,则部分匹配对可能被误删。然后,将新数据集中信息对按相似度递增排序。因此,采用此框架可避免子集规模过大或者大量匹配对被误删这两种情况。

新数据中包含了所有匹配对和部分非匹配对,之后的步骤就是要找出这些非匹配对。

步骤2,如图1中的(2)和图2,在上述新数据集中,将相似度以0.1为差值均等划分为十个等级,从十个等级的信息对中随机抽取出一定数量的信息生成s的一个子集。

步骤3,如图1中的(3),上述子集中存在两个或多个信息对携带着非常相似的信息,降低了训练集的区分度并且提高了人工标记的成本,通过基于关联规则的取样选择主动学习算法,删除了上述重复的信息对,生成更小规模的训练集交由专家标记。

步骤301、对于s的子集,ssar从中随机选择若干出未标记对ui(i=1,2···)。

步骤302、对于每个未标记对,分别在已标记数据集中删除ui中不存在的特征值,生成临时训练集,临时训练集包含信息越少,说明ui具有代表性属性越多,也就是信息含量越高;

举例如图4所示,假设未训练集t中含有三条信息,第三个信息u3含有x,y,z特征值,将已标记集d中u3不含有的特征值去除,只生成含有一条数据的临时数据集,说明u3信息含量最高。

步骤303、因此,选取规模最小的临时训练集所对应的未标记对进行人工标记。比如图4中,原未标记信息对u3应该被标记。当更多对被标记时,训练集的精度也进一步提高。

步骤4、如图1中的(4),通过上两步得到的训练集,识别模糊区域边界值。

步骤401、如图3所示,mtp指数据集s中具有最小相似性的匹配对,mfp是指数据集s中具有最大相似性的不匹配对。mfp和mtp对应相似度为α和β,相似度介于α和β之间信息对属于模糊区域。此时,模糊区域外的信息对已明确是否匹配。

步骤402、模糊区域内的信息对进入步骤5的分类器,进一步确认是否匹配。

步骤5、基于ngram令牌化算法,使用人工标记的训练集s训练支持向量机分类器svm,自动判定模糊边界内的信息对是否匹配。

步骤501、通过相似性函数jaccatd以及ngram令牌化算法重新计算每个标记对的相似性。

步骤502、标签对按相似度升序排序,并使用固定大小为n的滑动窗口,滑动窗口不断向后移动,直到识别出最后的仅含非匹配对的窗口,由此确定ngram阈值。

步骤503、最终,数据集s中经过了上述过滤并且达到ngram阈值的被标记为匹配对,其余为非匹配对。

以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1