近重复记录的相似度评估方法_2

文档序号：8528236阅读：来源：国知局

量往往很大，在所有的记录两两之间进行完全的重复检查的计算成本巨大，所以本发明的第一步使用了合并聚类把大数据集分成许多较小的有交集的数据块，只有在同一数据块中的记录才进行两两比较。合并聚类算法如下：初始时每个记录都视为一块，如果两个块中存在任意两个记录的相似度大于阈值，则合并这两个块，最终直到不能再合并为止。为了加速分块的过程，在计算记录的相似度时，本发明并不考虑所有的属性而只考虑关键属性，通常关键属性只有1，2个。另外，本发明采用简单快速的相似度度量来计算相似度，例如考虑相同字数比率的戴斯（Dice)系数。算法描述如下：
[0032] 输入：记录集合R={rpr2，…，rj，关键属性集合A，相似度函数Sim，阈值T
[0033] 输出：数据块Bucket=IX，b2,…，bm}
[0034] 过程：
[0035] 步骤al:初始化Bucket，将视为一个数据块放入Bucket中。
[0036] 步骤a2 :从第二个记录开始，依次遍历R，依据关键属性和相似度函数计算其与 Bucket中数据块的相似度，如果相似度大于T，则加入到相应的数据块中，如果当前记录没有加入到任何数据块中，这它单独成为一个数据块加入到Bucket中。
[0037] 本发明的第二步骤针对每个数据块，进行属性层和记录层的初始化操作。考虑到不同属性有不同的重要性，因此本发明给不同的属性赋予不同的权重。记>rf为第i个记录的第k个属性，权重向量w,其中wk表示第k个属性的相对重要性，并且2 %= 1，这一步的初始化如下：
[0038] (1)、属性层相似度初始化：当计算属性对的相似度的时候，往往会遇到缺失值的情况。直观的说，在一对记录中，含有缺失值属性对的相似度应该和那些不含缺失值属性对的相似对一致。所以本发明使用了插值的方法来评估含有缺失值属性对的相似度。给定一对记录r」），令V为含有m(m为属性个数）个相似度值的相似度向量，这些相似度由普通的相似度函数度量；令I为指示向量，如果第k个属性值对含有缺失值，那么Ik= 0,否则 Ik= 1。因此属性层的相似度初始化如下：
【主权项】
1. 一种近重复记录相似度评估方法，其特征在于，包括如下步骤：步骤一；对待消重的大数据集进行分块操作，得到许多较小的数据块；步骤二：针对每个数据块，初始化属性层和记录层的相似度；步骤S;如果未满足迭代停止条件，则使用记录层相似度去更新属性层的相似度和使用属性层相似度去更新记录层的相似度；步骤四：输出属性层和记录层的相似度。
2. 如权利要求1所述的近重复记录相似度评估方法，其特征在于，所述步骤一中分块操作包括如下步骤：步骤al;评估每个记录中属性字段的重要性，人工设定每个属性的重要性或者使用自动化的方式设定，选取一个或者多个属性作为关键属性；步骤a2 ;根据关键属性，使用合并聚类算法进行对记录进行快速聚类，每一簇的数据划分成为一个数据块。
3. 如权利要求1所述的近重复记录相似度评估方法，其特征在于，所述步骤二中初始化操作包括如下步骤：步骤bl;选择相似度度量函数来计算属性的相似度，如果属性值存在缺失，使用其他属性值的相似度来评估该属性的相似度；步骤b2 ;根据上一步计算出来的属性相似度，计算记录间的相似度。
4. 如权利要求1所述的近重复记录相似度评估方法，其特征在于，所述步骤=中更新属性层相似度和更新记录层的相似度操作包括如下步骤：步骤cl;检查迭代停止条件，如果满足条件，转到本方法的步骤四，否则继续W下步骤；步骤c2 ;查找相似的属性簇并找到相关的记录，将记录间的相似度添加到计算属性层相似度的过程中；步骤c3 ;查找相似的记录簇，使用更新的属性相似度和相似记录间的相似度去更新记录间相似度，转到步骤cl。
5. 如权利要求4所述的近重复记录相似度评估方法，其特征在于，使用如下表达式更新属性层相似度：
式中，巧巧为第i，j个记录的第k个属性，T(诉r|):为传统属性相似度计算方式，ft疗,为记录层反馈相似度，aE[0，1]是一个权衡参数，用于决定传统相似度和反馈相似度的相对重要性，P〔rf，咕)1的计算如下：
式中，況(rf)为属性ff的相似属性集合，班树)为属化if脚相似属性集合。
6. 如权利要求4所述的近重复记录相似度评估方法，其特征在于，使用如下表达式更新记录层相似度： s(ri，rj) = |3 T(ri，rj) + (l-|3 )G(ri，Tj) 式中，为传统记录相似度计算方式，GOvrp为相似记录的反馈相似度， PG[〇，1]是一个权衡参数，用于决定传统相似度和反馈相似度的相对重要性，GOvrp的计算方法如下：
式中，Nh)为记录r;的相似记录集合，NCfj)为记录的相似记录集合。
【专利摘要】本发明公开了一种近重复记录相似度评估方法，该方法包括：步骤一：对待消重的大数据集进行分块操作，得到许多较小的数据块；步骤二：针对每个数据块，初始化属性层和记录层的相似度；步骤三：如果未满足迭代停止条件，则使用记录层相似度去更新属性层相似度和使用属性层相似度去更新记录层的相似度；步骤四：输出属性层和记录层的相似度。本发明采用了迭代地在属性和记录层传播相似度，从而克服了现实生产中记录存在缺失值和噪音值的问题，更准确地评估记录间的相似度。本发明还是一个无监督的方法，克服了需要标注数据带来的成本，并且其输出还可以灵活地集成到一些现存的基于聚类的或者基于距离的消重系统框架中。
【IPC分类】G06F17-30
【公开号】CN104850624
【申请号】CN201510259365
【发明人】兰曼, 赵江
【申请人】华东师范大学
【公开日】2015年8月19日
【申请日】2015年5月20日

完整全部详细技术资料下载

当前第2页1 2