一种黑产网站的识别方法及系统与流程

文档序号:28429463发布日期:2022-01-12 00:55阅读:441来源:国知局
一种黑产网站的识别方法及系统与流程

1.本发明涉及互联网数据处理技术领域,尤其涉及一种黑产网站的识别方法及系统。


背景技术:

2.在信息网络快速发展的背景下,电信网络诈骗已成为当前发展最快,且严重影响人民群众安全感的刑事犯罪。由于网络和对应的智能设备不断的融入居民的日常生活中,电信网络诈骗出现了一些新变化和新特征。
3.比如,由电话和短信诈骗向网络诈骗进行转移,犯罪分子能够实施网络诈骗,网络黑灰产业扮演了“帮凶”的角色。从一些案件数据分析,网络诈骗一般使用app和网站作为载体,以游戏娱乐、刷单赚钱、投资理财、推荐股票或冒充公检法等名义实施诈骗行为。其中,黑产网站是实施犯罪最核心的环节,其承担了诈骗过程中的信息获取和转账支付两个环节,如果能提早发现所有的黑产网站,监管部门就能及时封堵,避免人民群众上当受骗。
4.但是,目前通过关键词搜索网页内容来识别是否为黑产网站,但犯罪集团已洞悉该方法,新的黑产网站已通过将宣传内容和话术转化为图片、视频或动态加载的方式实现,原来的搜索方式已无法达到预期效果。


技术实现要素:

5.本发明的目的在于提供一种黑产网站的识别方法及系统,提高了识别黑产网站的效率和准确性。
6.为实现上述目的,第一方面,本发明提供了一种黑产网站的识别方法,该方法包括:首先获取黑产网站样本,标记所述黑产网站样本的初始权重;根据所述黑产网站样本的内容生成simhash的第一签名,并标记为黑产模板;获取所述黑产网站样本中的外部链接网站,根据所述外部链接网站的内容生成simhash的第二签名;根据所述初始权重,计算得到所述黑产网站样本的权重和所述外部链接网站的权重;调整所述黑产网站样本的权重和所述外部链接网站的权重,得到目标权重;选择所述目标权重中高权重的网站,通过simhash碰撞查找黑产网站。
7.本发明实施例提供的黑产网站的识别方法的有益效果在于:通过将黑产网站样本的内容生成simhash的第一签名和将外部链接网站生成simhash的第二签名,且不断调整权重,得到目标权重,实现了对网站的分类,然后通过simhash碰撞可精确快速的查找到黑产网站,大大提高了查找黑产网站的准确率和效率。
8.可选的,所述黑产网站样本包括首页超文本标记语言,所述根据所述黑产网站样本的内容生成simhash的第一签名,并标记为黑产模板,包括:通过simhash算法计算所述首页超文本标记语言的内容,生成simhash的第一签名,并将所述simhash的第一签名标记为所述黑产模。其有益效果在于:根据黑产网站样本的内容生成simhash的第一签名,并标记为黑产模板,提高了将网站标记黑产模板的准确性。
9.可选的,所述根据所述初始权重,得到所述黑产网站样本的权重和所述外部链接网站的权重,包括:通过pagerank算法,计算所述黑产网站样本的初始权重,得到所述黑产网站样本的权重和所述外部链接网站的权重;
10.所述调整所述黑产网站样本的权重和所述外部链接网站的权重,得到目标权重,包括:删除所述外部链接网站中为高权重的合法网站,对所述黑产网站样本的权重和所述外部链接网站的权重进行调整;通过pagerank算法计算所述黑产网站样本的权重和所述外部链接网站的权重,得到所述目标权重。其有益效果在于:通过pagerank算法,计算出黑产网站样本的权重和外部链接网站的权重,且删除外部链接网站中为高权重的合法网站,调整权重后再通过pagerank算法计算黑产网站样本的权重和外部链接网站的权重,得到目标权重,使各个网站进行可靠的分类,提高查找黑产网站的准确率和效率。
11.可选的,获取黑产网站样本之前,包括:收集黑产网址,建立黑产样本库,利用互联网爬虫获取所述黑产网址中的内容,建立原始网站数据库,所述获取黑产网站样本,包括从所述黑产样本库中获取黑产网站样本,所述获取所述黑产网站样本中的外部链接网站,包括:从所述原始网站数据库中获取所述黑产网站样本中的外部链接网站。其有益效果在于:通过收集各类黑产网站作为黑产网站样本,并建立黑产样本库,以及收集外部链接网站,建立原始网站数据库,便于快速获取黑产网站样本和外部链接网站。
12.可选的,所述选择权重较高的网站,通过simhash碰撞查找黑产网站之后,包括:将查找到的所述黑产网站收集至所述黑产样本库中。其有益效果在于:将识别到的黑产网站收集至黑产样本库中,实现了对黑产样本库中数据的补充,执行该方法时可不断识别发现新的黑产网站。
13.在第二方面,本发明实施例提供一种黑产网站的识别系统,该系统包括:
14.获取单元,用于获取黑产网站样本;处理单元,用于标记所述黑产网站样本的初始权重,并根据所述黑产网站样本的内容生成simhash的第一签名,并标记为黑产模板;所述获取单元还用于提取所述黑产网站样本中的外部链接网站,所述处理单元根据所述外部链接网站的内容生成simhash的第二签名;计算单元,用于根据所述初始权重,计算得到所述黑产网站样本的权重和所述外部链接网站的权重;调整单元,用于调整所述黑产网站样本的权重和所述外部链接网站的权重,得到目标权重;查找单元,用于选择所述目标权重中高权重的网站,通过simhash碰撞查找黑产网站。
15.本发明实施例提供的黑产网站的识别系统的有益效果在于:通过处理单元将黑产网站样本的内容生成simhash的第一签名和将外部链接网站生成simhash的第二签名,且调整单元不断调整权重,得到目标权重,实现了对网站的分类,然后通过simhash碰撞可精确快速的查找到黑产网站,大大提高了查找黑产网站的准确率和效率。
16.可选的,所述黑产网站样本包括首页超文本标记语言,所述处理单元,还用于通过simhash算法计算所述首页超文本标记语言的内容,生成simhash的第一签名,并将所述simhash的第一签名标记为所述黑产模板。其有益效果在于:根据黑产网站样本的内容生成simhash的第一签名,并标记为黑产模板,提高了将网站标记黑产模板的准确性。
17.可选的,所述计算单元,通过pagerank算法计算所述黑产网站样本的初始权重,得到所述黑产网站样本的权重和所述外部链接网站的权重,所述调整单元用于删除所述外部链接网站的权重中为高权重的合法网站,对所述黑产网站样本的权重和所述外部链接网站
的权重进行调整,所述计算单元,还用于通过pagerank算法计算所述黑产网站样本的权重和所述外部链接网站的权重,得到所述目标权重。其有益效果在于:通过pagerank算法,计算出黑产网站样本的权重和外部链接网站的权重,且删除外部链接网站中为高权重的合法网站,调整权重后再通过pagerank算法计算黑产网站样本的权重和外部链接网站的权重,得到目标权重,根据目标权重使各个网站进行可靠的分类,提高查找黑产网站的准确率和效率。
18.可选的,还包括收集单元,用于收集黑产网址,建立黑产样本库,并利用互联网爬虫获取所述黑产网址中的内容,建立原始网站数据库,所述获取单元,用于从所述黑产样本库中获取黑产网站样本,以及从所述原始网站数据库中获取所述黑产网站样本中的外部链接网站。其有益效果在于:通过收集各类黑产网站作为黑产网站样本,并建立黑产样本库,便于快速获取已确定的黑产网站,以及收集外部链接网站,建立原始网站数据库,便于快速获取外部链接网站。
19.可选的,还包括储存单元,用于储存黑产样本库,所述收集单元,还用于将查找到的所述黑产网站收集至所述黑产样本库中。其有益效果在于:将识别到的黑产网站收集至黑产样本库中,提高了对黑产样本库中数据的补充,可不断识别发现新的黑产网站。
附图说明
20.图1为本发明实施例提供的一种黑产网站的识别方法流程图;
21.图2为本发明实施例提供的一种黑产网站的识别方法又一流程图;
22.图3为本发明实施例提供的一种黑产网站的识别系统的结构示意图。
具体实施方式
23.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另外定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
24.针对目前存在的问题,本发明的实施例提供了一种黑产网站的识别方法,参考图1所示,该方法包括:
25.s101:获取黑产网站样本。
26.具体的,公安系统中已积累很多的网络诈骗信息,通过对警情数据进行分析,可获得大量的黑产网址,将已确定的黑产网站,收集建立黑产网站样本库。当需要获取黑产网站样本时,从该黑产网站样本库中获取,提高了获取黑产网站样本的效率。另外,可利用互联网爬虫获取所述黑产网址中的内容,提取大量的外部链接网络,建立原始网站数据库。即该原始网站数据库中可包括黑产网站和合法网站。
27.s102:标记黑产网站样本的初始权重。
28.该步骤中,设定黑产网站样本的初始权重。需要说明的是,在本发明中,将权重设
定为1至5等共5个等级,等级越高的网站,表示浏览的次数较多,网站比较重要,比如4等级和5等级。一般将色情、分发站等承担引流推广的黑产网站人工标记为高权重。
29.s103:根据黑产网站样本的内容生成simhash的第一签名,并标记为黑产模板。
30.具体的,黑产网站样本的内容包括:统一资源定位系统(uniformresource locator,url)、标题和首页超文本标记语言(hypertextmarkuplanguage,html),在本实施例中,通过采用simhash算法计算首页超文本标记语言的内容,得到第一签名,即第一签名包括收集的各类黑产网站通过simhash算法计算出来的签名,并将这些签名标记为黑产模板。
31.该步骤中,基于首页html内容计算,提高了标记黑产模板的准确性。
32.需要说明的是,simhash为局部敏感哈希的一种,simhash算法分为5个步骤:分词、hash、加权、合并和降维,最终得到对应的simhash签名,在此不详细阐述。
33.s104:获取黑产网站样本中的外部链接网站,根据外部链接网站的内容生成simhash的第二签名。
34.该步骤中,从原始网站数据库中获取黑产网站样本中的外部链接网站,由于外部链接网站中可能包含黑产网站,所以通过提取黑产网站样本中所有的外部链接网站,并进行simhash算法计算,得到第二签名,即该第二签名中包括可表示对应的各类外部链接网站的签名信息。
35.s105:根据初始权重,计算得到黑产网站样本的权重和外部链接网站的权重。
36.该步骤中,通过pagerank算法计算黑产网站样本的初始权重,得到黑产网站样本的权重和外部链接网站的权重。通过pagerank算法计算使各个关联网站对应的权重更加准确。
37.s106:调整黑产网站样本的权重和外部链接网站的权重,得到目标权重。
38.该步骤中,对外部链接网站中的高权重的网站进行人工审核,删除其中明显合法网站和导航网站等误报内容,然后对黑产网站样本的权重和外部链接网站的权重进行调整,再通过pagerank算法计算调整后的黑产网站样本的权重和外部链接网站的权重,得到各类网站的目标权重。
39.s107:选择目标权重中为高权重的网站,通过simhash碰撞查找黑产网站。
40.该步骤中,选择外部链接网站中的目标权重中为高权重的网站,通过simhash碰撞,查找第二签名中是否与第一签名相同或相似的网站,从而查找出黑产网站。
41.最为重要的是,当查找出新的黑产网站后,再将查找到的黑产网站收集至黑产样本库中,从而继续执行该方法时,可不断的发现新的黑产网站。
42.在本实施例中,通过将黑产网站样本的内容生成simhash的第一签名和将外部链接网站生成simhash的第二签名,且不断调整权重,得到目标权重,实现了对网站的分类,然后通过simhash碰撞可精确快速的查找到黑产网站,大大提高了查找黑产网站的准确率和效率。
43.为了进一步对上述实施例中的方法进行说明,结合图3所示,图3为黑产网站的识别方法的又一流程图,该方法包括:
44.s201:开设执行。
45.s202:获取黑产网站样本。
46.该步骤中,即从黑产网站样本库中获取各类的黑产网站样本。
47.s203:标记黑产网站样本的初始权重。
48.该步骤中,可进行人工操作,人工在计算机中设置各类黑产网站样本的初始权重,一般将色情、分发站等承担引流推广的黑产网站设置高权重。
49.s204:根据黑产网站样本的内容生成simhash的第一签名,并标记为黑产模板。
50.该步骤中,采用simhash算法计算黑产网站样本的内容,得到第一签名,即第一签名包括收集的各类黑产网站通过simhash算法计算出来的签名,并将这些签名全部标记为黑产模板。
51.s205:提取黑产网站样本中的外部链接网站。
52.该步骤中,由于黑产网站样本中的外部链接网站中可能包含黑产网站,所以提取出黑产网站样本中所有的外部链接网站。
53.s206:根据外部链接网站的内容生成simhash的第二签名。
54.该步骤中,将提取到的大量外部链接网站通过simhash算法计算,得到第二签名,即该第二签名中包括可表示对应的各类外部链接网站的签名信息。
55.s207:根据初始权重,计算得到黑产网站样本的权重和外部链接网站的权重。
56.该步骤中,通过pagerank算法计算黑产网站样本的初始权重,得到黑产网站样本的权重和外部链接网站的权重。通过pagerank算法计算使各个网站对应的权重更加准确,并根据权重的等级对各类网站进行了分类。
57.s208:调整黑产网站样本的权重和外部链接网站的权重,得到目标权重。
58.该步骤中,对外部链接网站中的高权重的网站进行人工审核,删除其中明显合法网站和导航网站等误报内容,然后对黑产网站样本的权重和外部链接网站的权重进行调整,再通过pagerank算法计算调整后的黑产网站样本的权重和外部链接网站的权重,得到各类网站的目标权重。
59.需要说明的是,该步骤可持续计算多次,直至将各权重调整至较优的目标权重即可。
60.s209:选择目标权重中为高权重的网站,通过simhash碰撞查找黑产网站。
61.该步骤中,即选择外部链接网站中为高权重的网站,通过simhash碰撞,查找第二签名中是否与第一签名相同或相似的网站,从而查找出新的黑产网站。
62.最为重要的是,当查找出新的黑产网站后,再将查找到的黑产网站收集至黑产样本库中,从而继续执行该方法时,可不断的发现新的黑产网站。
63.s210:识别结束。
64.在本实施例中,基于pagerank算法对网站进行分类,减小数据分析范围,降低simhash匹配所需要的算力,然后通过simhash碰撞可精确快速的查找到黑产网站,大大提高了查找黑产网站的准确率和效率。
65.在本发明公开的又一个实施例中,一种黑产网站的识别系统,参考图3所示,该系统包括:获取单元303、处理单元304、计算单元305、调整单元306、查找单元307、收集单元301和储存单元302。其中,获取单元303用于获取黑产网站样本,处理单元304用于标记黑产网站样本的初始权重,并根据黑产网站样本的内容生成simhash的第一签名,并标记为黑产模板,该处理单元304还用于提取黑产网站样本中的外部链接网站,并根据外部链接网站的
内容生成simhash的第二签名。计算单元305根据输入的初始权重,计算得到黑产网站样本的权重和外部链接网站的权重,调整单元306用于调整黑产网站样本的权重和外部链接网站的权重,得到目标权重。查找单元307选择目标权重中高权重的网站,通过simhash碰撞查找黑产网站。
66.在本实施例中,通过将黑产网站样本的内容生成simhash的第一签名和将外部链接网站生成simhash的第二签名,且不断调整权重,得到目标权重,实现了对网站的分类,然后通过simhash碰撞可精确快速的查找到黑产网站,大大提高了查找黑产网站的准确率和效率。
67.可选的,黑产网站样本包括首页超文本标记语言,处理单元304通过simhash算法计算首页超文本标记语言的内容,生成simhash的第一签名,并将simhash的第一签名标记为黑产模板。根据黑产网站样本的内容生成simhash的第一签名,并标记为黑产模板,提高了将网站标记黑产模板的准确性。
68.进一步的,计算单元305通过pagerank算法计算分析黑产网站样本的初始权重,得到黑产网站样本的权重和外部链接网站的权重,调整单元306删除外部链接网站的权重中为高权重的合法网站,对黑产网站样本的权重和外部链接网站的权重进行调整,然后计算单元305通过pagerank算法计算调整后的黑产网站样本的权重和外部链接网站的权重,得到目标权重。
69.通过pagerank算法,计算出黑产网站样本的权重和外部链接网站的权重,且删除外部链接网站中为高权重的合法网站,调整权重后再通过pagerank算法计算黑产网站样本的权重和外部链接网站的权重,得到目标权重,根据目标权重使各个网站进行可靠的分类,提高查找黑产网站的准确率和效率。
70.可选的,该系统还包括收集单元301和储存单元302,收集单元301用于收集黑产网址,建立黑产样本库,并利用互联网爬虫获取黑产网址中的内容,建立原始网站数据库,储存单元302用于储存黑产样本库和原始网站数据库,获取单元303从黑产样本库中获取黑产网站样本。通过收集各类黑产网站作为黑产网站样本,并建立黑产样本库,便于快速获取已确定的黑产网站作为黑产模板,以及建立原始网站数据库,便于快速获取外部链接网站进行simhash碰撞。收集单元301还用于将查找到的黑产网站再次收集至黑产样本库中,通过将识别到的黑产网站收集至黑产样本库中,提高了对黑产样本库中数据的补充,可不断识别发现新的黑产网站。
71.以上所述,仅为本技术实施例的具体实施方式,但本技术实施例的保护范围并不局限于此,任何在本技术实施例揭露的技术范围内的变化或替换,都应涵盖在本技术实施例的保护范围之内。因此,本技术实施例的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1