检测Web页面的方法、装置、设备以及计算机存储介质与流程

文档序号:17004525发布日期:2019-03-02 01:57阅读:143来源:国知局
本发明涉及网络安全
技术领域
:,特别是涉及一种检测web页面的方法、装置、设备以及计算机可读存储介质。
背景技术
::随着互联网的发展,全球信息化程度越来越高,而随之而来的数据安全问题却越来越严重。数据泄露包括个人信息、企业信息和国家机密,黑客利用服务器漏洞获取大批敏感数据加以利用或流动到黑产中,进而威胁到人身财产或国家安全。现有技术中主要是利用关键词字典匹配结合人工介入确认的方法识别敏感数据。关键词字典匹配方法主要是通过自定义关键词对网络流量进行匹配,如果网络数据与关键词字典匹配成功则认为该网络数据为敏感数据。利用关键词字典匹配方法对敏感数据进行识别时,识别效果对字典库的完成程度依赖性高,并且在识别过程中很容易受到其他数据的干扰,导致误判;因此利用关键词字典匹配方法识别敏感数据,识别结果的准确率过低。通过人工识别网络数据中的敏感数据时,识别速度慢,需要投入大量的人力,并且对工作人员的专业素养有一定的要求。且人工识别敏感数据时,每个工作人员对敏感数据的判断依赖人的主观判断意识,每个工作人员的判断标准不同,会导致对敏感数据识别结果的差异化。综上所述可以看出,如何提高web页面数据检测的效率是目前有待解决的问题。技术实现要素:本发明的目的是提供一种检测web页面的方法、装置、设备以及计算机可读存储介质,以解决现有技术中对web页面的敏感数据的识别效率较低的问题。为解决上述技术问题,本发明提供一种检测web页面的方法,包括:识别待检测的web页面数据信息,计算所述web页面的数据度;判断所述数据度是否大于等于预设数据度阈值;若所述数据度小于所述预设数据度阈值,则判定所述web页面不为敏感数据页面。优选地,所述判断所述数据度是否大于等于预设数据度阈值还包括:若所述数据度大于等于所述预设数据度阈值,则依据预先构建的敏感关键词字典库,查找所述web页面数据中的敏感关键词;根据所述敏感关键词在所述web页面数据中的占比,计算所述web页面的敏感度;判断所述敏感度是否大于等于预设敏感度阈值;若所述敏感度大于等于所述预设敏感度阈值,则判定所述web页面为敏感数据页面。优选地,所述依据预先构建的敏感关键词字典库,查找所述web页面数据中的敏感关键词前还包括:采集各个行业的敏感关键词形成敏感数据集,根据词频和语义为所述敏感数据集中的各个敏感关键词分配权重;将权重大于预设权重阈值的敏感关键词进行分类后,构建敏感关键词字典库并为所述敏感关键词字典库中的各个敏感关键词设置语义场景。优选地,所述依据预先构建的敏感关键词字典库,查找所述web页面数据中的敏感关键词包括:对所述web页面数据进行分割,获得多个数据串,依据预先构建的敏感关键词字典库分别对所述多个数据串进行关键词匹配;对与所述敏感关键词字典库中的敏感关键词匹配成功的数据串进行语义场景过滤;过滤所述匹配成功的数据串中不符合语义场景的数据串,将过滤后剩余的数据串作为所述web页面数据中的敏感关键词。优选地,所述过滤所述匹配成功的数据串中不符合语义场景的数据串,将过滤后剩余的数据串作为所述web页面数据中的敏感关键词包括:分析所述匹配成功的数据串的位置信息,长度信息和符号特征,判断所述匹配成功的数据串是否符合语义场景;删除所述匹配成功的数据串中不符合语义场景的数据串后,将剩余的数据串作为所述web页面数据中的敏感关键词。优选地,所述识别待检测的web页面数据信息,计算所述web页面的数据度包括:依据所述web页面的表格标签和所述表格标签的嵌套关系,计算所述web页面的数据度。优选地,所述依据所述web页面的表格标签和所述表格标签的嵌套关系,计算所述web页面的数据度包括:利用所述web页面的table标签、thead标签、tbody标签、tr标签、th标签和td标签之间的嵌套关系,统计所述web页面的数据量大小,以便计算所述web页面的数据度。优选地,所述利用所述web页面的table标签、thead标签、tbody标签、tr标签、th标签和td标签之间的嵌套关系,统计所述web页面的数据量大小包括:利用所述web页面的table标签、thead标签、tbody标签、tr标签、th标签和td标签之间的嵌套关系,还原所述web页面中数据实体、干扰项和无关项的数据分布;分别计算所述web页面表格每行的数据量后,统计算所述web页面表格的数据量。优选地,所述识别待检测的web页面数据信息,计算所述web页面的数据度前还包括:利用待检测的web页面的网页地址和页面特征,判断所述web页面存在敏感数据的几率。优选地,所述利用待检测的web页面的网页地址和页面特征,判断所述web页面存在敏感数据的几率包括:若所述web页面为静态页面或所述web页面包含有搜索引擎标签特征,则判定所述web页面内存在敏感数据的几率为零。本发明还提供了一种检测web页面的装置,包括:识别模块,用于识别待检测的web页面数据信息,计算所述web页面的数据度;判断模块,用于判断所述数据度是否大于等于预设数据度阈值;判定模块,用于若所述数据度小于所述预设数据度阈值,则判定所述待检测的web页面不为敏感数据页面。本发明还提供了一种检测web页面的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种检测web页面的方法的步骤。本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种检测web页面的方法的步骤。本发明所提供的检测web页面的方法,利用待检测的web页面数据信息,计算所述web页面的数据度。当所述待检测web页面的数据度较小时,所述web页面数据量较少,大大降低了所述web页面为敏感数据页面的可能性。因此,利用预设数据度阈值对所述web页面的数据度进行判断;当所述web页面的数据度小于所述预设数据度阈值时,则判断所述web页面不为敏感页面数据。本发明所提供的检测web页面的方法,引进web页面的数据度作为敏感数据页面的衡量参数,并设置了预设数据度阈值作为统一的衡量标准;可以快速检测出不为敏感数据页面的web页面。利用本发明所提供的方法,解决了现有技术中检测web页面是否为敏感数据页面时,需要依赖大量具有专业基础的工作人员完成导致对web页面的检测效率较低;以及由于各个工作人员主观的判断标准不同,导致对同一web页面的检测结果差异化的问题;提高了web页面的检测效率以及检测结果的可信度。附图说明为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明所提供的检测web页面的方法的第一种具体实施例的流程图;图2为本发明所提供的检测web页面的方法的第二种具体实施例的流程图;图3为本发明所提供的检测web页面的方法的第三种具体实施例的流程图;图4为本发明实施例提供的一种检测web页面的装置的结构框图;图5为本发明实施例提供的一种检测web页面的设备结构图。具体实施方式本发明的核心是提供一种检测web页面的方法、装置、设备以及计算机可读存储介质,提高了web页面的检测效率。为了使本
技术领域
:的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参考图1,图1为本发明所提供的检测web页面的方法的第一种具体实施例的流程图;具体操作步骤如下:步骤s101:识别待检测的web页面数据信息,计算所述web页面的数据度;在本实施例中,可以通过统计所述web页面的表格标签,根据所述表格标签的嵌套关系还原所述web页面的数据分布,将统计的结果匹配定义好的数据页面模型,进而计算出所述web页面的数据度。所述web页面的表格标签包括:table标签、thead标签、tbody标签、tr标签、th标签和td标签。可以通过table标签、thead标签、tbody标签、tr标签、th标签和td标签之间的嵌套关系,统计所述web页面的数据量大小。所述嵌套关系包括上述六种标签的位置关系;如:判断table标签内有无thead标签或tbody标签,thead标签和tbody标签分别用来表征表格的表头内容和表格数据部分,而tr标签、th标签和td标签是描述每个数据实体。本实施例中的表格标签的嵌套关系包括一些常见的嵌套关系,如thead标签和tbody标签内三种tr标签、th标签和td标签的位置关系;还有一些特殊的嵌套关系,如:td标签包含table标签、只有td标签没有th标签等各种特殊的嵌套关系。根据上述的表格标签的嵌套关系,可以还原所述web页面的数据分布情况,统计出所述web页面数据中哪些属于数据实体,哪些是干扰选项,哪些是无关项;并以所述表格的一行为单位分别计算出所述表格中每行的数据量后,再综合统计算出整个表格的数据量。需要说明的是,上述利用还原数据分布情况的数据页面模型适用于表单类型数据度计算。以财务报销系统敏感数据页面为例,敏感度包括"金额"、"电话"、"单号"等相关信息,而数据度则为各个表单中相应的数据值。步骤s102:判断所述数据度是否大于等于预设数据度阈值;步骤s103:若所述数据度小于所述预设数据度阈值,则判定所述web页面不为敏感数据页面。在本实施例中,利用所述web页面的表格标签之间的嵌套关系,还原所述web页面中数据实体、无关选项和干扰选项的分布情况,整体感知页面的数据情况,以数据度的形式作为检测敏感度的依据,节省了大量的人力资源,提高了对所述web页面的检测效率。并设置了预设数据度阈值作为统一的衡量标准;提高了对所述web页面检测结果的可信性。基于上述本实施例,在本实例中,若所述web页面的数据度大于等于所述预设数据度阈值,则计算所述web页面的敏感度并对所述敏感度进行判断,从而判定所述web页面是否为敏感数据页面。请参考图2,图2为本发明所提供的检测web页面的方法的第二种具体实施例的流程图;具体操作步骤如下:步骤s201:依据待检测的web页面的表格标签和所述表格标签的嵌套关系,计算所述web页面的数据度;步骤s202:判断所述数据度是否大于等于预设数据度阈值;步骤s203:若所述数据度大于等于所述预设数据度阈值,则依据预先构建的敏感关键词字典库,查找所述web页面数据中的敏感关键词;依据预先构建的敏感词字典库,查找所述web页面数据中的敏感关键词前还包括;收集现有的各个行业所存在的敏感关键词形成敏感数据集,对所述敏感数据集进行筛选和训练;根据词频和语义为各个敏感关键词分配权重;将权重大于预设权重阈值的敏感关键词进行分类后,构建所述敏感关键词字典库。依据所述敏感关键词字典库,查找待检测web页面数据中的敏感数据时,可以先将所述web页面数据分割为多个数据串,分别将所述多个数据串与所述敏感关键词字典库中的敏感关键词进行匹配。对匹配成功的数据串进行语义场景过滤;根据所述匹配成功的数据串的位置信息、长度信息和符号特征,判断所述匹配成功的数据串是否符合所述敏感关键词库中对应敏感关键词的语义场景。删除所述不符合语义场景的数据串,将剩余的数据串作为所述web页面的敏感关键词。步骤s204:根据所述敏感关键词在所述web页面数据中的占比,计算所述web页面的敏感度;步骤s205:判断所述敏感度是否大于等于预设敏感度阈值;步骤s206:若所述敏感度大于等于所述预设敏感度阈值,则判定所述web页面为敏感数据页面。本实施例所提供的检测web页面的方法,当待检测web页面的数据度大于等于预设数据度阈值时,对所述web页面的敏感度进行判断。将所述web页面数据分为多个数据串,利用预先建立的敏感关键词字典库对web页面数据进行匹配,对与所述敏感关键词字典库匹配成功后的数据串进行语义场景过滤,将符合所述敏感关键词字典库中敏感关键词语义场景的数据串作为所述web页面的敏感关键词,从而计算所述web页面的敏感度。相对于现有技术中的通过与关键词字典匹配判断网络页面是否为敏感页面,本实施例更加准确地查找到所述web页面的敏感关键词,从而使所述web页面的敏感度更加精确。本实施例在web页面计算结果更加精确的基础上,利用敏感度和数据度来检测所述web页面是否为敏感数据页面,提高了检测结果的准确性。基于上述实施例,在本实施例中,可以先对待检测的web页面的敏感度进行判断;当所述web页面的敏感度大于等于预设敏感度阈值时,再对所述web页面的数据度进行判断,从而判断所述web页面是否为敏感数据页面。且对所述web页面进行敏感度或数据度计算之前,可以根据利用待检测的web页面的网页地址和页面特征,排除明显不存在敏感数据的页面,以便提高检测效率、增加检测准确率。请参考图3,图3为本发明所提供的检测web页面的方法的第三种具体实施例的流程图;具体操作步骤如下:步骤s301:判断待检测的web页面存在敏感数据的几率是否为零;在本实施例中,可以利用网页地址和页面特征对待检测的web页面进行前置过滤,排除明显不存在敏感数据的web页面,从而提高了检测效率和检测准确性。如:所述web页面为静态页面或包含有搜索引擎标签特征,则所述web页面不可能为敏感数据页面。当所述web的网页地址为某些静态页面时,如html等,则所述web页面存在敏感数据的几率为零,因此并不需要对所述web页面进行敏感数据检测。当所述web页面包含有某些搜索引擎标签特征,如keyword等;不对所述web页面进行敏感数据检测。步骤s302:若所述web页面存在敏感数据的几率不为零,依据预先构建的敏感关键词字典库,查找待检测的web页面数据中的敏感关键词;步骤s303:过滤所述敏感关键词中不符合语义场景的敏感关键词,将过滤后剩余的敏感关键词作为得到所述web页面中的敏感关键词;对所述web页面数据进行匹配数据源提取、关键词模式匹配和语义场景分析的操作后,计算得到所述web页面的敏感度。对所述web页面数据进行匹配源提取操作即上述实施例中,对所述web页面数据进行分割得到多个数据串,即获取多个匹配源。关键词模式匹配即根据所述敏感关键词字典库对多个数据串进行关键词匹配,获取匹配成功的数据串进行语义场景分析后,得到所述web页面的敏感关键词。对所述web页面中匹配成功的数据串进行语义场景过滤,包括关键词位置、匹配数据长度和特定符号以及特征数字等进行是否符合中文语义的分析。例如:若提取的数据串为"金额:1234元",对于敏感关键词"金额"所定义的语义场景是符合的,而数据串"应发金额是多少"则不符合语义场景。步骤s304:根据所述web页面的敏感关键词在所述web页面数据中的占比,计算所述web页面的敏感度;步骤s305:判断所述敏感度是否大于等于预设敏感度阈值;步骤s306:若所述敏感度大于等于所述预设敏感度阈值,依据所述web页面的表格标签和所述表格标签的嵌套关系,计算所述web页面的数据度;步骤s307:判断所述数据度是否大于等于预设数据度阈值;步骤s308:若所述数据度大于等于所述预设数据度阈值,则判定所述web页面为敏感数据页面。在本实施例中,首先根据待检测web页面的页面网址和所述页面标签等页面特征,对所述web页面进行前置过滤。排除明显不存在敏感数据的web页面后,根据预先建立的敏感关键词字典库对所述web页面数据进行匹配和语义场景分析,从而计算得到所述web页面的敏感度。当所述敏感度大于等于所述预设敏感度阈值时,利用表格标签之间的嵌套关系,还原所述web页面中数据实体、无关选项和干扰选项的分布情况,整体感知页面的数据情况,以数据量的形式作为检测敏感度的依据。本实施例中根据中文语义分析所得到的匹配信息和数据页面识别所得到的信息,即web页面的敏感度和数据度的大小和权重;并依据web页面的敏感度和数据度的大小和权重用对所述web页面是否为敏感数据页面进行判断,大大节省了人力资源,提高了web页面检测的效率和检测结果的准确性。请参考图4,图4为本发明实施例提供的一种检测web页面的装置的结构框图;具体装置可以包括:识别模块100,用于识别待检测的web页面数据信息,计算所述web页面的数据度;判断模块200,用于判断所述数据度是否大于等于预设数据度阈值;判定模块300,用于若所述数据度小于所述预设数据度阈值,则判定所述待检测的web页面不为敏感数据页面。本实施例的检测web页面的装置用于实现前述的检测web页面的方法,因此检测web页面的装置中的具体实施方式可见前文中的检测web页面的方法的实施例部分,例如,识别模块100,判断模块200,判定模块300,分别用于实现上述检测web页面的方法中步骤s101,s102和s103,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。请参考图5,图5为本发明实施例提供的一种检测web页面的设备结构图;具体设备可以包括:存储器100,用于存储计算机程序;处理器200,用于执行所述计算机程序时实现上述一种检测web页面的方法的步骤。本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种检测web页面的方法的步骤。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或
技术领域
:内所公知的任意其它形式的存储介质中。以上对本发明所提供的检测web页面的方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1