技术编号:15588395
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本申请涉及互联网技术领域,尤其涉及一种数据切分方法、判重方法及电子设备。背景技术在处理海量数据(例如文档或网页)时,为了节约存储空间,通常都会对数据进行判重。目前业界的主流做法是基于SimHash算法进行数据判重。SimHash算法是数据去重最常用的哈希(Hash)方法,其原理是:选定SimHash值的位数;将SimHash值的各位初始化为0;提取待签名数据中的特征;使用传统Hash函数计算各个特征的Hash值;对各特征的Hash值的每一位,如果该位为1,则SimHash值相应位的值加1;否则减...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。