文件指纹校验方法及装置的制造方法_3

文档序号:9888061阅读:来源:国知局
哈希值。
[0077]所述计算模块412,具体还可以用于计算所述前一个指纹分块对应的哈希值与所述前一个指纹分块中第一个字符对应的哈希值之差,再与所述处于除首位外其余位置的指纹分块中最后一个字符对应的哈希值求和,得到所述处于除首位外其余位置的指纹分块对应的哈希值。
[0078]进一步地,所述装置还包括:获取单元45、构建单元46。
[0079]所述提取单元41,还可以用于提取不同预置样本文件中的文件内容信息。
[0080]所述预处理单元42,还可以用于对所述提取单元41提取的不同预置样本文件中的文件内容信息进行预处理。
[0081]所述获取单元45,可以用于获取经过预处理的文件内容信息中的指纹信息。
[0082]所述构建单元46,可以用于根据所述获取单元45获取的指纹信息,构建预置指纹库。
[0083]进一步地,所述装置还包括:筛选单元47。
[0084]所述筛选单元47,可以用于对所述获取单元45获取的指纹信息进行筛选。
[0085]所述构建单元46,具体可以用于根据筛选后的指纹信息,构建预置指纹库。
[0086]所述筛选单元47,具体可以用于通过预置Winnowing函数,对所述指纹信息进行筛选。
[0087]进一步地,所述装置还包括:保存单元48。
[0088]所述保存单元48,可以用于将所述预置指纹库保存在布隆过滤器中。
[0089]进一步地,以便于进行文件相似性校验。
[0090]需要说明的是,本发明实施例提供的另一种文件指纹校验装置所涉及各功能单元的其他相应描述,可以参考图2中的对应描述,在此不再赘述。
[0091]本发明实施例提供的另一种文件指纹校验装置,首先提取待校验文件中的文件内容信息并进行预处理;提取预处理后的文件内容信息中的指纹信息;检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。本发明通过对待校验文件进行指纹信息提取并与预置指纹库中的指纹信息之间进行相似度进行检测,提供了对非结构化数据进行指纹校验的方式,可以实现对文件数据的相似性进行准确校验,从而可以提高处理日益增长的海量电子化文档的效率。
[0092]本发明的实施例公开了:
[0093]Al、一种文件指纹校验方法,其特征在于,包括:
[0094]提取待校验文件中的文件内容信息并进行预处理;
[0095]提取预处理后的文件内容信息中的指纹信息;
[0096]检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;
[0097]若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。
[0098]A2、根据Al所述的文件指纹校验方法,其特征在于,所述提取预处理后的文件内容信息中的指纹信息包括:
[0099]通过预置Karp-Rabin函数,提取预处理后的文件内容信息中的指纹信息。
[0?00] A3、根据A2所述的文件指纹校验方法,其特征在于,所述通过预置Karp-Rabin函数,提取预处理后的文件内容信息中的指纹信息包括:
[0101]通过预置κ-gram函数将所述预处理后的文件内容信息进行划分,得到多个指纹分块;
[0102]计算每个指纹分块对应的哈希值,作为提取的指纹信息。
[0103]A4、根据A3所述的文件指纹校验方法,其特征在于,所述计算每个指纹分块对应的哈希值,作为提取的指纹信息包括:
[0104]按照每个指纹分块在文件内容信息中位置的先后顺序,计算所述每个指纹分块对应的哈希值;
[0105]当需要计算处于除首位外其余位置的指纹分块的哈希值时,获取前一个指纹分块对应的哈希值;
[0106]计算所述前一个指纹分块中第一个字符对应的哈希值,以及所述处于除首位外其余位置的指纹分块中最后一个字符对应的哈希值;
[0107]计算所述前一个指纹分块对应的哈希值与所述前一个指纹分块中第一个字符对应的哈希值之差,再与所述处于除首位外其余位置的指纹分块中最后一个字符对应的哈希值求和,得到所述处于除首位外其余位置的指纹分块对应的哈希值。
[0108]A5、根据Al所述的文件指纹校验方法,其特征在于,所述提取待校验文件中的文件内容信息并进行预处理之前,所述方法还包括:
[0109]提取不同预置样本文件中的文件内容信息并进行预处理;
[0110]获取经过预处理的文件内容信息中的指纹信息;
[0111]根据所述指纹信息,构建预置指纹库。
[0112]A6、根据A5所述的文件指纹校验方法,其特征在于,所述根据所述指纹信息,构建预置指纹库之前,所述方法还包括:
[0113]对所述指纹信息进行筛选;
[0114]所述根据所述指纹信息,构建预置指纹库包括:
[0115]根据筛选后的指纹信息,构建预置指纹库。
[0116]A7、根据A6所述的文件指纹校验方法,其特征在于,所述对所述指纹信息进行筛选包括:[Ο117] 通过预置Winnowing函数,对所述指纹信息进行筛选。
[0118]AS、根据A5所述的文件指纹校验方法,其特征在于,所述根据所述指纹信息,构建预置指纹库之后,所述方法还包括:
[0119]将所述预置指纹库保存在布隆过滤器中,以便进行文件相似性校验。
[0120]B9、一种文件指纹校验装置,其特征在于,包括:
[0121 ]提取单元,用于提取待校验文件中的文件内容信息;
[0122]预处理单元,用于对所述提取单元提取的待校验文件中的文件内容信息进行预处理;
[0123]所述提取单元,还用于提取预处理后的文件内容信息中的指纹信息;
[0124]检测单元,用于检测所述提取单元提取的指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;
[0125]确定单元,用于若所述检测单元检测出所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。
[0126]B10、根据B9所述的文件指纹校验装置,其特征在于,
[0127]所述提取单元,具体用于通过预置Karp-Rabin函数,提取预处理后的文件内容信息中的指纹信息。
[0128]BI 1、根据BlO所述的文件指纹校验装置,其特征在于,所述提取单元包括:
[0129]划分模块,用于通过预置K-gram函数将所述预处理后的文件内容信息进行划分,得到多个指纹分块;
[0130]计算模块,用于计算每个指纹分块对应的哈希值,作为提取的指纹信息。
[0131 ] BI 2、根据BI I所述的文件指纹校验装置,其特征在于,
[0132]所述计算模块,具体用于按照每个指纹分块在文件内容信息中位置的先后顺序,计算所述每个指纹分块对应的哈希值;
[0133]所述计算模块,具体还用于当需要计算处于除首位外其余位置的指纹分块的哈希值时,获取前一个指纹分块对应的哈希值;
[0134]所述计算模块,具体还用于计算所述前一个指纹分块中第一个字符对应的哈希值,以及所述处于除首位外其余位置的指纹分块中最后一个字符对应的哈希值;
[0135]所述计算模块,具体还用于计算所述前一个指纹分块对应的哈希值与所述前一个指纹分块中第一个字符对应的哈希值之差,再与所述处于除首位外其余位置的指纹分块中最后一个字符对应的哈希值求和,得到所述处于除首位外其余位置的指纹分块对应的哈希值。
[0136]B13、根据B9所述的文件指纹校验装置,其特征在于,所述装置还包括:获取单元和构建单元;
[0137]所述提取单元,还用于提取不同预置样本文件中的文件内容信息;
[0138]所述预处理单元,还用于对所述提取单元提取的不同预置样本文件中的文件内容信息进行预处理;
[0139]所述获取单元,用于获取经过预处理的文件内容信息中的指纹信息;
[0140]所述构建单元,用于根据所述获取单元获取的指纹信息,构建预置指纹库。
[0141]B14、根据B13所述的文件指纹校验装置,其特征在于,所述装置还包括:筛选单元;
[0142]所述筛选单元,用于对所述获取单元获取的指纹信息进行筛选;
[0143]所述构建单元,具体用于根据筛选后的指纹信息,构建预置指纹库。
[0144]B15、根据B14所述
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1