基于Simhash技术的文档反作弊方案的制作方法

文档序号:14950695发布日期:2018-07-17 22:29阅读:195来源:国知局

本发明属于互联网技术领域,是一种simhash算法技术开发的文档反作弊方案。



背景技术:

随着互联网广泛使用,网络上的重复文档越来越多;在互联网中,大量相似文档是很常见的现象,大量重复文档小仅会降低产品质量,且对用户小友好,如何避免大量重复或相近文档出现是我们而对的一个难题,通过simhash技术我们可以解决以上问题。



技术实现要素:

本方案技术如下:

1.结合目前在文档反作弊方而的需求,开发了simhash的海量文档反作弊技术,通过改进的simhash算法可对外部请求做出实时响应;研究包括新实例注册,实例数据导入,相似文档查找;文档判重可基于用户、全文、黑库维度的判重策略;在粒度上,支持全文和段落粒度的simhash判重;支持冷热数据的处理;文档反作弊技术建立在海量数据基础上,目前每个实例可以支持2亿文档的规模;另一方而,通过对冷热数据的处理策略,可以使实例的数据维持在一个比较稳定的范围内,不会因为实例本身数据的增长而过快增长;

2.基于全文的simhash判重实现:基于全文的simhash判重,是指文档判重的粒度为整个文档,即根据整个文档的内容生成simhash签名,然后根据计算simhash签名的海明距离判断文档的相似性;该种方式,首先,基于文档全文计算出文档的simhash值,并计算出与待检测文档海明距离为4以内的文档;最后,根据请求参数,决定是否需要重新设置被匹配文档的失效时间;

3.基于段落的simhash判重实现:对文档做基于全文的simhash判重,其粒度较大,很容易被作弊者绕过,如在原文前后加上一段,或中间串一段文本,都会导致海明距离变大;在计算精度要求比较高的场介,需要更细粒度的签名计算,例如基于段落的签名计算;基于段落的simhash判重,其与基于全文simhash判重的小同点是,需要对待处理文档进行分段,然后对每段求simhash签名。



技术特征:

技术总结
本发明针对现在互联网重复文档反作弊严重,公开了以Simhash技术的文档反作弊方案;本方案以Simhash算法为文档判重的核心算法为基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素;针对64位文档Simhash签名,提供用户维度、全文维度和黑库维度的文档判重服务,并可基于全文和段落两种粒度进行文档相似性比较;本方案对大规模数据有很高的处理效率,能处理海量文档的需求。

技术研发人员:不公告发明人
受保护的技术使用者:长沙云昊信息科技有限公司
技术研发日:2017.01.10
技术公布日:2018.07.17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1