本发明属于互联网技术领域,是一种simhash算法技术开发的文档反作弊方案。
背景技术:
随着互联网广泛使用,网络上的重复文档越来越多;在互联网中,大量相似文档是很常见的现象,大量重复文档小仅会降低产品质量,且对用户小友好,如何避免大量重复或相近文档出现是我们而对的一个难题,通过simhash技术我们可以解决以上问题。
技术实现要素:
本方案技术如下:
1.结合目前在文档反作弊方而的需求,开发了simhash的海量文档反作弊技术,通过改进的simhash算法可对外部请求做出实时响应;研究包括新实例注册,实例数据导入,相似文档查找;文档判重可基于用户、全文、黑库维度的判重策略;在粒度上,支持全文和段落粒度的simhash判重;支持冷热数据的处理;文档反作弊技术建立在海量数据基础上,目前每个实例可以支持2亿文档的规模;另一方而,通过对冷热数据的处理策略,可以使实例的数据维持在一个比较稳定的范围内,不会因为实例本身数据的增长而过快增长;
2.基于全文的simhash判重实现:基于全文的simhash判重,是指文档判重的粒度为整个文档,即根据整个文档的内容生成simhash签名,然后根据计算simhash签名的海明距离判断文档的相似性;该种方式,首先,基于文档全文计算出文档的simhash值,并计算出与待检测文档海明距离为4以内的文档;最后,根据请求参数,决定是否需要重新设置被匹配文档的失效时间;
3.基于段落的simhash判重实现:对文档做基于全文的simhash判重,其粒度较大,很容易被作弊者绕过,如在原文前后加上一段,或中间串一段文本,都会导致海明距离变大;在计算精度要求比较高的场介,需要更细粒度的签名计算,例如基于段落的签名计算;基于段落的simhash判重,其与基于全文simhash判重的小同点是,需要对待处理文档进行分段,然后对每段求simhash签名。