一种动态网站分类方法、系统、设备及介质与流程

文档序号:17722966发布日期:2019-05-22 02:18阅读:170来源:国知局
一种动态网站分类方法、系统、设备及介质与流程

本发明属于网络安全技术领域,尤其涉及一种动态网站分类方法、系统、设备及介质。



背景技术:

网站安全领域,第三方通过云端扫描网站中网页的内容,实现网站分类。现有的大部分网站分类主要基于先验知识,将已知的网页与标签存入数据库中,在扫描的过程中将网页与数据库中的网页匹配,得到网页的标签。这种技术的问题在于,基于先验知识,无法及时的对被篡改的网页,进行分析和判定。现有技术中,常采用分析源代码或javascript脚本的手段来分析网站的内容分类,但是现存大量的色情、赌博网站里面,很多的问题都通过情色和赌博图片反映出来,能够检查出异常的往往是视觉元素,而不是代码解析,或恶意的网站脚本。



技术实现要素:

(一)要解决的技术问题

本发明提供了一种动态网站分类方法、系统、设备及介质,可以从视觉元素即网页图片上识别出网站的内容分类。

(二)技术方案

第一方面,本发明提供了一种动态网站分类方法,方法包括:s1,抓取网页的截图;s2,通过截图判断模型判断截图中的内容分类,所述内容分类包括正常内容分类及不正常内容分类;s3,根据内容分类对所述截图进行标注,并存储截图;s4,人工判断截图中的内容分类,生成判断结果,若判断结果与标注的内容分类相同且均为不正常内容分类,生成告警提示;s5,更新截图判断模型。

可选地,采用分布式网络爬虫技术抓取网页的url、截图及截图时间,以通过网页的url找到网页对应的网站。

可选地,截图判断模型为softmax函数,步骤s2具体为:通过softmax函数判断所述截图的内容分类。

可选地,步骤s2之前包括建立训练集,训练集包括多个内容分类和多个参考权重值,其中,多个参考权重值与多个所述内容分类一一关联。

可选地,通过softmax函数判断截图的内容分类包括:

通过softmax函数计算截图的权重值,将计算的权重值与多个参考权重值进行比对,最接近的参考权重值对应的内容分类即为截图的内容分类。

可选地,步骤s5,具体包括:根据判断结果更新softmax函数中的参考权重值。

可选地,根据所述判断结果更新softmax函数中的参考权重值,具体包括:若判断结果与标注的内容分类不同,则将softmax函数计算的截图的权重值加入训练集;若判断结果与标注的内容分类相同,则将softmax函数计算的截图的权重值替换比对的参考权重值。

再一方面,本发明提供了一种电子设备,设备包括:处理器;存储器,其存储有计算机可执行程序,该程序在被处理器执行时,使得处理器执行上述的动态网站分类方法。

又一方面,本发明提供了一种动态网站分类系统,系统包括:抓取模块,用于抓取网页url以及截图;判断模块,用于通过截图判断模型判断截图中的内容分类,内容分类包括正常内容分类及不正常内容分类;标注模块,用于根据内容分类对所述截图进行标注,并存储截图;比对模块,用于人工判断截图中的内容分类,生成判断结果,若判断结果与标注的内容分类相同且均为不正常内容分类,则生成告警提示;更新模块,用于更新截图判断模型。

又一方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的动态网站分类方法。

(三)有益效果

本发明通过初步建立训练集,训练集中包括多个内容分类参考权重值,并通过建立训练集时的函数计算当前监测的图片的权重值,将计算的权重值与训练集值的权重值进行比对,进而作出替换训练集中的参考权重值或添加进训练集中的方式,逐步提高训练集识别截图内容分类的能量和精准性。

附图说明

图1示意性示出了本公开实施例中的动态网站分类方法步骤图;

图2示意性示出了本公开实施例中的动态网站分类方法的流程图;

图3示意性示出了本公开实施例中的电子设备的框图;

图4示意性示出了本公开实施例中的动态网站分类系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

一方面,本发明提供了一种动态网站分类方法,参见图1,方法包括:s1,抓取网页的截图;s2,通过截图判断模型判断截图中的内容分类,内容分类包括正常内容分类及不正常内容分类;s3,根据内容分类对截图进行标注,并存储截图;s4,人工判断截图中的内容分类,生成判断结果,若判断结果与标注的内容分类相同且均为不正常内容分类,则生成告警提示;s5,更新截图判断模型。

具体的,s1,抓取网页的截图。

可以通过分布式爬虫等技术抓取目标网站的网页的url及截图,首先模拟动态登录通过搜索引擎接口等登录网站,然后获取网站中网页的截图、网页此时的代码、及url等信息,并保存抓取该截图的时间,以通过网页的url找到网页对应的网站。

s2,通过截图判断模型判断截图中的内容分类,所述内容分类包括正常内容分类及不正常内容分类。

在对截图进行判断之前,需要通过截图判断模型预先建立一个训练集,该截图判断模型优选为softmax函数,该softmax函数为基于卷积神经网络的网页截图模型中的一种,首先通过softmax函数判断预先知道的内容分类的图片的权重值,如预先让该softmax函数分别计算具有色情、暴力、赌博、正常内容等的图片,分别得到色情图片的参考权重值、暴力图片的参考权重值、赌博图片的参考权重值、安全内容的参考权重值等,并将这些参考权重值的总和组成了训练集,由上可知,该训练集包含了参考权重值与图片中内容分类的关联关系,该内容分类可以分为正常内容分类和不正常内容分类,正常内容分类包括如具有安全内容的截图等,不正常,不正常内容分类包括具有色情、暴力、赌博等内容的截图分类。

训练集建立后,就可以通过该截图判断模型识别步骤s1得到的截图的内容分类,具体的:

通过softmax函数计算步骤s1抓取的截图的权重值,将该权重值与上述建立的训练集中的参考权重值进行比对,与计算的权重值最接近的参考权重值对应的内容分类即为该截图对应的内容分类,进而可初步判断出截图对应的网站的内容分类。

s3,根据内容分类对截图进行标注,并存储截图。

由步骤s2可以初步识别出步骤s1中抓取的截图的内容分类,并对该截图根据内容分类进行初步的标识,如可以通过数字、字母或其组合等方式对其进行标识,以使后续人工校验时可通过该标识识别出截图判断模型识别的结果,对截图进行标注后,存储该截图,以备后续人工校验调用。

s4,人工判断截图中的内容分类,生成判断结果,若判断结果与标注的内容分类相同且均为不正常内容分类,则生成告警提示。

为了更加准确的判断网站的内容分类,初期需要对截图进行人工校验,人工识别该截图的内容分类,生成判断结果,将人工识别的判断结果和步骤s2通过截图判断模型判断的结果进行比较,若两者相同,且均判定该截图属于不正常内容分类中的至少一种情况,则生成告警提示,以提示管理人员对该截图对应的网站进行处理。

s5,更新截图判断模型。

步骤s4中将人工识别的判断结果和步骤s2通过截图判断模型判断的结果进行比较,比较结果相同,则证明该截图判断模型识别正确,则再次考虑针对该截图截图判断模型的计算权重值,将该计算权重值替代原来对比得出内容分类的参考权重值;若比较结果不相同,由于人工判断更加准确,可能出现两种情况出现了差异,第一是因为训练集中的参考权重值不准确,针对此种情况,需要将计算的权重值替换原来对比得出内容分类的参考权重值,以使该训练集对内容分类的判断更加准确,第二个原因是原来训练集中不包括该种内容分类的权重值二形成的误判,此时需要将该计算的权重值与内容分类进行关联绑定,然后将该权重值添加进训练集,以丰富训练集中的内容分类。以此方式,逐步丰富及迭代更新训练集,使得通过训练集判断截图内容分类越来越精准。

综上所述,参见图2,本发明的动态网站分类方法,通过初步建立训练集,训练集中包括多个内容分类参考权重值,并通过建立训练集时的函数计算当前监测的图片的权重值,将计算的权重值与训练集值的权重值进行比对,进而作出替换训练集中的参考权重值或添加进训练集中的方式,逐步提高训练集识别截图内容分类的能量和精准性。

再一方面,本发明实施例提供了一种电子设备,参见图3,为本发明实施例的电子设备框图,电子设备300包括:处理器301和存储器302,该电子设备300可以执行根据本发明实施例的方法。

具体的,处理器301例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器301还可以包括用于缓存用途的板载存储器。处理器301可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器302,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。

存储器302可以包括计算机程序3021,该计算机程序3021可以包括代码/计算机可执行指令,其在由处理器301执行时使得处理器301执行例如上面本发明实施例的方法流程及其任何变形。

计算机程序3021可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序3021中的代码可以包括一个或多个程序模块,例如包括3021a、模块3021b、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器301执行时,使得处理器301可以执行例如上面结合本发明实施例的方法流程及其任何变形。

又一方面,本发明实施例提供了一种动态网站分类系统,参见图4,系统400包括:抓取模块401、判断模块402、标注模块403、比对模块404以及更新模块405。

具体的,抓取模块401,用于抓取网页url以及截图;

实现获取网站中网页的截图、网页此时的代码、及url等信息,并保存抓取该截图的时间。

判断模块402,用于通过截图判断模型判断所述截图中的内容分类,所述内容分类包括正常内容分类及不正常内容分类;

通过softmax函数计算抓取的截图的权重值,将该权重值与上述建立的训练集中的参考权重值进行比对,与计算的权重值最接近的参考权重值对应的内容分类即为该截图对应的内容分类,进而可初步判断出截图对应的网站的内容分类。

标注模块403,用于根据所述内容分类对所述截图进行标注,并存储所述截图;

用于对该截图根据内容分类进行初步的标识,如可以通过数字、字母或其组合等方式对其进行标识,以使后续人工校验时可通过该标识识别出截图判断模型识别的结果,对截图进行标注后,存储该截图,以备后续人工校验调用。

比对模块404,用于人工判断所述截图中的内容分类,生成判断结果,若所述判断结果与所述标注的内容分类相同且均为不正常内容分类,则生成告警提示;

人工识别该截图的内容分类,生成判断结果,将人工识别的判断结果和判断模块402通过截图判断模型判断的结果进行比较,若两者相同,且均判定该截图属于不正常内容分类中的至少一种情况,则生成告警提示,以提示管理人员对该截图对应的网站进行处理。

更新模块405,用于更新所述截图判断模型。

比对模块404中将人工识别的判断结果和判断模块402通过截图判断模型判断的结果进行比较,比较结果相同,则证明该截图判断模型识别正确,则再次考虑针对该截图截图判断模型的计算权重值,将该计算权重值替代原来对比得出内容分类的参考权重值;若比较结果不相同,由于人工判断更加准确,可能出现两种情况出现了差异,第一是因为训练集中的参考权重值不准确,针对此种情况,需要将计算的权重值替换原来对比得出内容分类的参考权重值,以使该训练集对内容分类的判断更加准确,第二个原因是原来训练集中不包括该种内容分类的权重值二形成的误判,此时需要将该计算的权重值与内容分类进行关联绑定,然后将该权重值添加进训练集,以丰富训练集中的内容分类。以此方式,逐步丰富及迭代更新训练集,使得通过训练集判断截图内容分类越来越精准。

根据本申请的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本申请实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。

本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本申请实施例的方法。

根据本申请的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。

本领域技术人员可以理解,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

尽管已经参照本申请的特定示例性实施例示出并描述了本申请,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本申请的精神和范围的情况下,可以对本申请进行形式和细节上的多种改变。因此,本申请的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1