数据处理方法及装置的制造方法

文档序号:8943094阅读:358来源:国知局
数据处理方法及装置的制造方法
【技术领域】
[0001 ] 本发明涉及互联网技术领域,具体而言,涉及数据处理方法及装置。
【背景技术】
[0002] "大数据"是我们这个时代的核心特征,它代表着信息技术的发展进入了一个新的 时代。随着新一代信息技术的创新和应用普及,大数据已经在互联网、金融、医疗、交通、零 售等多个领域得到了广泛的应用。种类广泛、数量庞大、产生更新速度不断加快的大数据蕴 含着前所未有的巨大价值,同时也带来了巨大的技术挑战。Web网页大数据是大数据的主要 数据来源之一,在海量的、动态的Web数据中获取有用知识的数据挖掘不仅在互联网行业 广泛应用,而且对其他行业也产生了重大的影响。
[0003] 当前,Web数据正在以一种惊人的速度增长,移动互联网、物联网和云计算等技术 的发展使得各种类型的Web数据正在源源不断地从各行各业迅速产生。据市场调研公司 IDC的预测:到2020年全球的数据总量将超过40ZB。据统计,百度每天需要处理的网页数 据达到10PB-100PB。因此,很多行业提供的存储系统容量逐渐从数十GB发展到数百TB,甚 至数PB。企业所面临的数据备份与恢复的时间需求却越来越多,管理数据的成本越来越高, 数据存储的空间消耗也越来越大。然而,研究发现,存储系统所保存的数据中高达60%是 冗余的,而且随着时间的推移越来越多。其中,大量数据的重复存储必然会带来存储空间浪 费和处理时间增加的问题,最终导致大数据分析成本升高,为企业或个人带来压力。
[0004] 为了改善上述问题,重复数据删除技术已经受到了越来越多的企业和研究机构的 关注,知名存储企业EMC、HP、NEC、Microsoft以及Symantec等都推出了重复数据删除相关 的产品,而很多国内外研究机构,如Princeton大学、Minnesota大学、California大学以及 国内的华中科技大学、清华大学、国防科技大学、华南理工大学等都对重复数据删除技术做 了深入研究,并取得了许多有价值的研究成果。
[0005] 重复数据删除技术(Data De-duplication)也被称为智能数据压缩或者单一实 例存储,通过识别相同的数据,将相同的数据只保留唯一的一个副本,以此达到消除数据冗 余、降低存储容量需求的目的。目前,国内外针对重复数据删除的研究主要集中在数据库记 录以及文件存储系统中。
[0006] 发明人经研究发现,现今重复数据删除技术的研究成果虽然涉及到各种重复数据 检测方法以及针对大规模Web数据的统一模型,但是,均无法在Web大数据清理阶段进行重 复数据清理。

【发明内容】

[0007] 有鉴于此,本发明实施例的目的在于提供一种数据处理方法及装置,以改善现有 技术中无法在Web大数据清理阶段进行重复数据清理的问题。
[0008] 为了实现上述目的,本发明采用的技术方案如下:
[0009] 第一方面,本发明实施例提供了一种数据处理方法,包括:
[0010] 建立待处理网站数据源的网页对象数据模型,所述网页对象数据模型中包括所述 待处理网站数据源中各页面所包含的数据信息;
[0011] 对所述待处理网站数据源中各页面所包含的数据信息进行抽取,根据抽取出的数 据信息建立网页数据信息模型;
[0012] 根据所述网页数据信息模型抽取出所述待处理网站数据源中各页面的数据项和 描述对象,并根据抽取的各页面的描述对象和数据项对各页面进行分类;
[0013] 根据各页面的数据项计算出每个页面的相似哈希值,判断同一类页面中各页面之 间的相似哈希值之间的差值是否满足预设阈值,如果是,则判定为重复数据,对重复数据进 行清理。
[0014] 结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所 述网页对象数据模型为:
[0015] Wj= {L, 0, B}
[0016] 其中,L表示页面的所在栏目和结构信息;0表示页面所描述的对象;B表示页面所 包含的数据信息,所述数据信息中包含通过信息抽取和语义分析提取的k个数据项,k为正 整数。
[0017] 结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种 可能的实施方式,其中,所述网页数据信息模型为:
[0018] B = {D^T, E, V, w>, D2<T, E, V, w>, ···, Dk<T, E, V, ω >}
[0019] 其中,D1表示W B中第i个数据项,D1. T表示数据项类型,所述数据项类型包括固 定数据项、特征数据项和隐式数据项,D1. E表示第i个数据项的项名,D1. V表示第i个数据 项的值,D1 · ω表示第i个数据项在页面中的权重,i为正整数。
[0020] 结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种 可能的实施方式,其中,所述根据抽取的各页面的描述对象和数据项对各页面进行分类,包 括:
[0021] 定义类别集合C= (Cl,C2,…,C1,…,Cni),根据各页面的数据项中的特征数据项 矢量确定代表类别集合C中各类别的特征矢量v( c]),m、i、j均为正整数;
[0022] 计算每一个待分类页面4的特征数据项矢量V(dk)与类别集合C中各类别的特征 矢量V(C j)之间的夹角余弦sim(dk,Cj),k为正整数;
[0023]
[0024] 选取sim(dk,C])值最大的一个类别作为待分类页面d k的类别,直至完成对所有待 分类页面的分类。
[0025] 结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种 可能的实施方式,其中,所述根据各页面的数据项计算出每个页面的相似哈希值,判断同一 类页面中各页面之间的相似哈希值之间的差值是否满足预设阈值,如果是,则判定为重复 数据,对重复数据进行清理,包括:
[0026] 根据各页面数据项中的特征数据项计算出每个页面的相似哈希值,判断同一类别 的各页面之间的相似哈希值之间的差值是否满足预设阈值,如果是,则判定为重复数据,对 同一类别下相似哈希值满足预设阈值的所有页面进行收集,得到各类别下的待清理重复页 面数据集,对各所述待清理重复页面数据集中的重复数据进行清理。
[0027] 结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种 可能的实施方式,其中,所述对各所述待清理重复页面数据集中的重复数据进行清理,包 括:
[0028] 从每个待清理重复页面数据集中选取一个页面进行备份,得到该页面的副本;
[0029] 保留选取的所述页面和所述页面的副本,保存其余页面指向选取的所述页面的指 针信息,清理其余页面。
[0030] 第二方面,本发明实施例提供了一种数据处理装置,包括:
[0031] 网页对象数据模型建立单元,用于建立待处理网站数据源的网页对象数据模型, 所述网页对象数据模型中包括所述待处理网站数据源中各页面所包含的数据信息;
[0032] 网页数据信息模型建立单元,用于对所述待处理网站数据源中各页面所包含的数 据信息进行抽取,根据抽取出的数据信息建立网页数据信息模型;
[0033] 页面分类单元,用于根据所述网页数据信息模型抽取出所述待处理网站数据源中 各页面的数据项和描述对象,并根据抽取的各页面的描述对象和数据项对各页面进行分 类;
[0034] 重复页面数据判定及清理单元,用于根据各页面的数据项计算出每个页面的相似 哈希值,判断同一类页面中各页面之间的相似哈希值之间的差值是否满足预设阈值,如果 是,则判定为重复数据,对重复数据进行清理。
[0035] 结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所 述网页对象数据模型为:
[0036] Wj= {L, 0, B}
[0037] 其中,L表示页面的所在栏目和结构信息;0表示页面所描述的对象;B表示页面所 包含的数据信息,所述数据信息中包含通过信息抽取和语义分析提取的k个数据项,k为正 整数;
[0038] 所述网页数据信息模型为:
[0039] B = {D^T, E, V, w>, D2<T, E, V, w>, ···, Dk<T, E, V, ω >}
[0040] 其中,D1表示W B中第i个数据项,D1. T表示数据项类型,所述数据项类型包括固 定数据项、特征数据项和隐式数据项,D1. E表示第i个数据项的项名,D1. V表示第i个数据 项的值,D1 · ω表示第i个数据项在页面中的权重,i为正整数。
[0041] 结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种 可能的实施方式,其中,所述页面分类单元包括:
[0042] 类别特征矢量确定子单元,用于定义类别集合C = (C1, C2,…,Ci, ···,(〇,根据各 页面的数据项中的特征数据项矢量确定代表类别集合C中各类别的特征矢量V(C]),m、i、j 均为正整数;
[0043] 夹角余弦计算子单元,用于计算每一个待分类页面dk的特征数据项矢量V (d k) 与类别集合C中各类别的特征矢量V(C])之间的夹角余弦sim(dk, C]),k为正整数, LlN 丄UOlbUU丄4 A yJ^ rVJ 4/丄Z JM
[0044] 待分类页面类别选取子单元,用于选取sim(dk,C])值最大的一个类别作为待分类 页面d k的类别,直至完成对所有待分类页面的分类。
[0045] 结合第二方面的第二种可能的实施方式,本发明实施例提供了第二方面的第三种 可能的实施方式,其中,所述重复页面数据判定及清理单元包括:
[0046] 相似哈希值计算子单元,用于根据各页面数据项中的特征数据项计算出每个页面 的相似哈希值;
[0047] 相似哈希值判断子单元,用于判断同一类别的各页面之间的相似哈希值之间的差 值是否满足预设阈值,如果是,则判定为重复数据,对同一类别下相似哈希值满足预设阈值 的所有页面进行收集,得到各类别下的待清理重复页面数据集;
[0048] 页面备份子单元,用于从每个待清理重复页面数据集中选取一个页面进行备份, 得到该页面的副本;
[0049] 页面清理子单元
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1