结构化数据的指纹校验方法及装置的制造方法

文档序号:9844148阅读:924来源:国知局
结构化数据的指纹校验方法及装置的制造方法
【技术领域】
[0001] 本发明涉及一种信息技术领域,特别是涉及一种结构化数据的指纹校验方法及装 置。
【背景技术】
[0002] 随着信息技术的不断发展,对于结构化数据的使用量越来越大。其中,所谓结构化 数据即行数据,可以使用数据库二维表结构来逻辑表达实现的数据。例如,在企业ERP (Enterprise Resource Planning,企业资源计划)系统、财务系统、医疗HIS数据库、教育一 卡通系统、政府行政审批系统、及其他核心数据库等场景中存储的通常为结构化数据,可以 满足高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求等。
[0003] 目前,在对结构化数据处理的过程中,有时由于存在内容相似的结构化数据,因此 有需要对结构化数据进行相似性分析的需求。

【发明内容】

[0004] 有鉴于此,本发明提供了一种结构化数据的指纹校验方法及装置,主要目的在于 可以实现对结构化数据进行相似性分析。
[0005] 依据本发明一个方面,提供了一种结构化数据的指纹校验方法,该方法包括:
[0006] 提取待校验结构化数据中的指纹信息;
[0007] 检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似 条件;
[0008] 若符合,则确定所述待校验结构化数据为内容相似数据。
[0009] 依据本发明另一个方面,提供了一种结构化数据的指纹校验装置,该装置包括:
[0010] 提取单元,用于提取待校验结构化数据中的指纹信息;
[0011] 检测单元,用于检测所述提取单元提取的指纹信息与预置二维数据表中的指纹信 息之间是否符合预设指纹相似条件;
[0012] 确定单元,用于若所述检测单元检测出所述指纹信息与预置二维数据表中的指纹 信息之间符合预设指纹相似条件,则确定所述待校验结构化数据为内容相似数据。
[0013] 借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
[0014] 本发明提供的一种结构化数据的指纹校验方法及装置,首先提取待校验结构化数 据中的指纹信息;然后检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预 设指纹相似条件;若符合,则确定所述待校验结构化数据为内容相似数据。本发明通过对待 校验结构化数据进行指纹信息提取并检测其与预置二维数据表中的指纹信息之间是否符 合预设指纹相似条件,提供了对结构化数据进行指纹校验的方式,可以实现对结构化数据 进行相似性分析。
[0015] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0016] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0017] 图1示出了本发明实施例提供的一种结构化数据的指纹校验方法流程示意图;
[0018] 图2示出了本发明实施例提供的另一种结构化数据的指纹校验方法流程示意图;
[0019] 图3示出了本发明实施例提供的一种结构化数据的指纹校验装置结构示意图;
[0020] 图4示出了本发明实施例提供的另一种结构化数据的指纹校验装置结构示意图。
【具体实施方式】
[0021] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0022] 本发明实施例提供了一种结构化数据的指纹校验方法,如图1所示,所述方法包 括:
[0023] 101、提取待校验结构化数据中的指纹信息。
[0024] 其中,所述指纹信息可以唯一标识结构化数据的特征,每一个结构化数据文件都 会有唯一的指纹信息。所谓指纹,实际上就是将数据内容映射成一个数字,每一段不同内容 所映射的数字都不会相同,就好比人的指纹一样。指纹在保护数据完整性,身份识别等诸多 方面有着举足轻重的作用。
[0025] 102、检测指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似 条件。
[0026] 其中,所述预设指纹相似条件可以根据实际需求进行配置。所述预置二维数据表 保存有用于鉴别数据内容相似性的指纹信息。
[0027] 例如,可以将待校验结构化数据转换为二维数据表A,并将表A中每个单元格数据 对应的哈希值作为提取的指纹信息。根据每个单元格数据在二维数据表中的所在位置,将 每个单元格数据对应的哈希值与预置二维数据表B中每个单元格数据对应的哈希值分别进 行匹配;预设指纹相似条件可以配置为表A中存在与表B中任意3行的任意4列的哈希值匹配 的单元格数据。此时当表A与表B之间的匹配结果如下表所示,其中,下表为表B中的部分列 表,"匹配"字样的标识说明该单元格数据的哈希值与表A中相对应单元格数据的哈希值匹 配,可以确定表A中存在与表B中任意3行的任意4列的哈希值匹配的单元格数据,进而可以 确定指纹信息与预置二维数据表中的指纹信息之间符合预设指纹相似条件。 「00281

LTO29」103、若指纹信息与m置二维数据表中的指纹信息之|0」符合饿设指纹相似条仵,则 确定待校验结构化数据为内容相似数据。
[0030]本发明实施例提供的一种结构化数据的指纹校验方法,首先提取待校验结构化数 据中的指纹信息;然后检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预 设指纹相似条件;若符合,则确定所述待校验结构化数据为内容相似数据。本发明通过对待 校验结构化数据进行指纹信息提取并检测其与预置二维数据表中的指纹信息之间是否符 合预设指纹相似条件,提供了对结构化数据进行指纹校验的方式,可以实现对结构化数据 进行相似性分析。
[0031 ]本发明实施例提供了另一种结构化数据的指纹校验方法,如图2所示,所述方法包 括:
[0032] 201、将待校验结构化数据转换为二维数据表。
[0033] 202、计算二维数据表中每个单元格数据对应的哈希值,作为提取的指纹信息。
[0034] 其中,所述指纹信息的概念解释可以参考步骤101中相应描述,在此不再赘述。
[0035] 203、检测指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似 条件。
[0036]其中,所述预设指纹相似条件可以根据实际需求进行配置。所述预置二维数据表 保存有用于鉴别数据内容相似性的指纹信息。
[0037]对于本发明实施例,所述步骤203具体可以包括:根据所述每个单元格数据在所述 二维数据表中的所在位置,将所述每个单元格数据对应的哈希值与预置二维数据表中每个 单元格数据对应的哈希值分别进行匹配;当所述二维数据表中存在与所述预置二维数据表 中任意预设行数的任意预设列数的所述哈希值匹配的单元格数据时,确定所述指纹信息与 所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。其中,所述预设行数 和预设列数可以根据实际需求进行配置,例如,预设行数可以为4行,预设列数可以为6列 等。
[0038]对于本发明实施例,所述步骤203具体还可以包括:检测所述二维数据表中是否存 在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据;若存在相同哈希值的 单元格数据,则获取所述单元格数据在所述二维数据表中所在行的每个单元格数据的哈希 值;根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元 格数据相应的排列顺序,将所述每个单元格数据对应的哈希值与所述预置二维数据表中相 对应行位置的每个单元格数据对应的哈希值分别进行匹配;根据所述行对应的匹配结果, 确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似 条件。
[0039]具体地,所述根据所述行对应的匹配结果,确定所述检测所述指纹信息与所述预 置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件包括:当所述哈希值匹配 的列个数大于或等于预设列个数阈值时,记录所述二维数据表中的所述行对应的标识信 息;检测记录的标识信息的个数是否大于或等于预置行数阈值;若所述个数大于或等于所 述预置行数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述 预设指纹相似条件。其中,所述预设列个数阈值以及预置行数阈值可以根据实际需求进行 配置。
[0040] 例如,可以将待校验结构化数据转换为二维数据表A,当表A中存在与预置二维数 据表B中的一个单元格数据相同哈希值的单元格数据Μ时,获取Μ在表A中所在行a的每个单 元格数据,确定了表B中与Μ相同哈希值的单元格数据的所在行b,按照每个单元格数据的排 列顺序,将行a中每个单元格数据的哈希值与行b中每个单元格数据的哈希值分别进行匹 配,如果匹配的个数大于或等于预设
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1