一种网页识别方法、装置、设备及存储介质与流程

文档序号:23157120发布日期:2020-12-04 13:52阅读:123来源:国知局
本申请涉及计算机
技术领域
:,提供一种网页识别方法、装置、设备及存储介质。
背景技术
::用户在进行网页浏览时,网络中可能存在一些包含不良信息的网页,不利于特定用户的身心健康,因此,需要对这些非法网页进行限制。目前,对于这些不良网页,最常用的方法就是黑名单方法,黑名单方法通过人工手段将已知的包含不良信息的网页网址或域名添加至黑名单地址库中,通过将用户访问的网页与黑名单进行地址比对及关键词比对,进一步将用户访问的网页网址及相关信息进行限制。但是,上述黑名单方法无法限制未发现的以及新增加的不良网页。技术实现要素:本申请实施例提供一种网页识别方法、装置、设备及存储介质,用于实现网页类型的自动检测,降低网页识别的复杂程度。一方面,提供一种网页识别方法,所述方法包括:根据待识别网页的统一资源定位符url获取待识别网页的网页截图;根据网页截图的各行或者各列的像素值之间的差异度确定网页截图的图像分割线,并根据图像分割线对网页截图进行图像分割,得到至少一张目标检测图片;确定至少一张目标检测图片中每一目标检测图片属于目标图片类型的概率,并根据每一目标图片的概率确定待识别网页属于目标网页类型的概率;在待识别网页属于目标网页类型的概率大于设定的概率阈值时,确定待识别网页的类型为目标网页类型。可选的,根据所述每一目标图片的概率确定所述待识别网页属于目标网页类型的概率,包括:根据所述每一目标图片的概率以及为所述每一目标图片设定的权重值,确定所述待识别网页属于目标网页类型的概率。一方面,一种网页识别装置,所述装置包括:获取单元,用于根据待识别网页的统一资源定位符url获取待识别网页的网页截图;确定单元,用于根据网页截图的各行或者各列的像素值之间的差异度确定网页截图的图像分割线;图像分割单元,用于根据图像分割线对网页截图进行图像分割,得到至少一张目标检测图片;所述确定单元,还用于确定至少一张目标检测图片中每一目标检测图片属于目标图片类型的概率,根据每一目标图片的概率确定待识别网页属于目标网页类型的概率;在待识别网页属于目标网页类型的概率大于设定的概率阈值时,确定待识别网页的类型为目标网页类型。可选的,所述获取单元,用于:根据所述url向所述url对应的网页服务器发送url访问请求;接收所述网页服务器返回的所述url对应的超级文本标记语言html文档;对所述html文档进行解析,根据解析所述html文档得到的内容进行渲染,获取所述网页截图。可选的,所述确定单元,用于根据所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度,确定所述网页截图在第一方向上的图像分割线,其中,第一方向为行方向或者列方向;所述图像分割单元,用于基于在所述第一方向上的图像分割线对所述网页截图进行图像分割,得到多个分割图片;所述确定单元,用于从所述分割图片中选择目标分割图片,并确定所述目标分割图片在第二方向上的图像分割线,其中,当第一方向为行方向时,所述第二方向为列方向,或者,当第一方向为列方向时,所述第二方向为行方向;所述图像分割单元,用于基于在所述第二方向上的图像分割线对所述目标分割图片进行图像分割,得到多个分割图片;所述确定单元,用于将基于所述第一方向上的图像分割线分割得到的多个分割图片,与基于所述第二方向上的图像分割线分割得到的多个分割图片,确定为所述至少一张目标检测图片。可选的,所述确定单元,用于:确定所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度;其中,所述第一方向为行方向,每一组像素值为一行像素值,或者,所述第一方向为列方向,每一组像素值为一列像素值;当所述每一组像素值的差异度小于设定的差异度阈值时,确定所述每一组像素值对应的像素点为所述网页截图的图像分割线。可选的,所述确定单元,用于:确定所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度;根据每一组像素值的差异度得到所述网页截图在所述第一方向上的表示序列;其中,一组像素值对应所述表示序列中的一个位置,相邻组在所述表示序列中位置相邻,当每一组像素值的差异度小于设定的差异度阈值时,所述每一组像素值对应位置的序列值为第一值,当每一组像素值的差异度大于或者等于所述差异度阈值时,所述每一组像素值对应位置的序列值为第二值,且所述第一值与所述第二值不同;根据所述表示序列确定所述网页截图在所述第一方向上的图像分割线。可选的,所述确定单元,用于:针对每一组像素值,以所述每一组像素值中其中一个像素值为基准像素值,获取所述每一组像素值中其余像素值与所述基准像素值之间的差异度;基于所述每一组像素值中其余像素值与所述基准像素值之间的差异度,获取所述每一组像素值的差异度。可选的,所述确定单元,用于:获取所述表示序列中序列值连续为第二值的区间的第二数量;确定所述第二数量是否小于或者等于设定的数量阈值;若确定所述第二数量大于设定的数量阈值,则执行如下循环过程,直至所述第二数量小于或者等于设定的数量值,每一次循环过程包括如下步骤:针对序列值连续为第二值的每一区间,若该区间的长度小于或者等于长度阈值,则将该区间的序列值设置为第一值,得到第一更新序列;针对更新的表示序列中序列值连续为第一值的每一区间,若该区间的长度小于或者等于所述长度阈值,则将该区间的序列值设置为第二值,得到第二更新序列;确定所述第二更新序列中第二数量是否小于或者等于设定的数量阈值;若确定所述第二更新序列中第二数量大于设定的数量阈值,则进入下一循环过程;或者,若确定所述第二更新序列中第二数量小于或者等于设定的数量阈值,则循环结束。可选的,所述长度阈值是根据循环次数设置的。可选的,所述确定单元,用于:根据所述每一目标图片的概率以及为所述每一目标图片设定的权重值,确定所述待识别网页属于目标网页类型的概率。一方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种方法的步骤。一方面,提供一种计算机存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种方法的步骤。本申请实施例中,根据url获取网页截图,根据网页截图的各行或者各列的像素值之间的差异度确定网页截图的图像分割线,并根据图像分割线对网页截图进行图像分割,得到至少一张目标检测图片,从而确定每一目标检测图片属于目标图片类型的概率,进而确定待识别网页属于目标网页类型的概率,以确定待识别网页的类型是否为目标网页类型。因此,本申请实施例可以通过自动生成网页截图,将网页截图分割为多个图片进行检测,综合多个图片的检测结果最终确定网页的类型,从而对于未发现的或者新增加的不良网页,依然可以进行识别检测,进而限制不良网页的访问,提升网络访问的安全性,且降低网页识别的复杂程度。附图说明为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的网页识别设备的一种应用场景示意图;图2为本申请实施例提供的网页识别方法的流程示意图;图3为本申请实施例提供的网页截图的一种示意图;图4为本申请实施例提供的获取表示序列的一种过程示意图;图5为本申请实施例提供的表示序列变换的一种过程示意图;图6为本申请实施例提供的网页截图获取目标图片概率的一种示意图;图7为本申请实施例提供的网页识别装置的一种示意图;图8为本申请实施例提供的网页识别设备的一种示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。目前,对于这些不良网页,目前常用的黑名单方法不能对大量未发现的以及新增加的不良网页进行识别。而目前还可以利用获取网页中所有图片并对每一图片进行识别检测的方法,来确定网页是否为不良网页,但是该方法需要针对网页内的大量的图片资源进行检测,资源消耗比较大。基于此,本申请实施例提供一种网页识别方法,在该方法中,根据url获取网页截图,根据网页截图的各行或者各列的像素值之间的差异度确定网页截图的图像分割线,并根据图像分割线对网页截图进行图像分割,得到至少一张目标检测图片,从而确定每一目标检测图片属于目标图片类型的概率,进而确定待识别网页属于目标网页类型的概率,以确定待识别网页的类型是否为目标网页类型。因此,本申请实施例通过自动生成网页截图,将网页截图分割为多个图片进行检测,综合多个图片的检测结果最终确定网页的类型,从而对于未发现的或者新增加的不良网页,依然可以进行识别检测,进而限制不良网页的访问。在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。如图1所示,为本申请实施例提供的网页识别设备的一种应用场景示意图。该网页识别的应用场景可以包括网页识别设备10。网页识别设备10是具有一定处理能力的计算机设备,例如可以为个人计算机(personalcomputer,pc)、笔记本电脑或者服务器等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。网页识别设备10包括一个或多个处理器101、存储器102以及与其他设备交互的i/o接口103等。此外,机械臂姿态检测装置10还可以配置数据库104,数据库104可以用于存储本申请实施例提供的方案中涉及到的网页识别数据、获取到的网页地址以及各网页的识别结果等数据。其中,网页识别设备10的存储器102中可以存储本申请实施例提供的网页识别方法的程序指令,这些程序指令被处理器101执行时能够用以实现本申请实施例提供的网页识别方法的步骤,以确定网页是否属于目标网页类型。在实际使用时,用户在浏览网页时,网络中可能存在一些包含不良信息的网页,不利于特定用户的身心健康,因此,需要对这些非法网页进行限制,所以可以通过网页识别设备10来对这些非法网页进行限制。本申请实施例中,待识别的网页可以是输入的网页,或者是预先准备的网页列表中的网页,其中,网页列表可以是从网络抓取的网页地址对应的网页;或者从网络流量数据中获取的网页,例如从网络流量数据中抓取网页访问请求包中的网页地址对应的网页。网页识别设备10基于本申请实施例提供的网页识别方法确定网页是否属于目标网页类型网页,并将属于目标网页类型的网页加入限制黑名单中,以限制这些网页的访问。当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其他可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。下面,将结合附图对本申请实施例的方法进行介绍。如图2所示,为本申请实施例的网页识别方法的流程示意图,该方法可以通过图1中的网页识别设备10来执行,该方法的流程介绍如下。步骤201:根据待识别网页的url获取待识别网页的网页截图。在本申请实施例中,网页识别设备可以从用户输入的网页中获取待识别网页的url,或者也可以从预先准备的网页列表中的网页中获取网页的url,其中,网页列表可以是从网络抓取的网页地址对应的网页,或者也可以从网络流量数据中获取的网页中获取网页的url,例如从网络流量数据中抓取网页访问请求包中的网页地址对应的网页。网页识别设备可以通过url模拟浏览器访问url的过程来获取待识别网页的网页截图。具体的,可以根据url向url对应的网页服务器发送url访问请求,接收网页服务器返回的超级文本标记语言(hypertextmarkuplanguage,html)文档,对html文档进行解析,进而基于html文档获取网页结构,以及该网页中各个位置所要显示的内容,根据网页结构和所要显示的内容进行渲染,进而生成待识别网页的网页截图。在实际使用时,网页识别设备不仅可以通过用户输入的网页获取url,也可以使用python库包括的标准urllib库对url进行爬取,网页识别设备基于浏览器引擎包括的网页访问模块基于url访问待识别网页,以获取待识别网页的html文档,并将html文档加载到内存中并执行html文档包括的各种脚本,由于无需向用户提供可视化界面,html文档包括的各种脚本可以在程序后台执行,无需展示网页的图形界面。具体的,浏览器引擎例如可以为webkit,以及网页访问模块例如可以为webkit包括的phantomjs。后台执行html文档后,可以调用截图工具的截图指令获取网页截图。例如调用web的selenium的截图指令获取网页截图。本申请实施例中,除了进行截图之外,还可以采用将网页内容生成便携式文档格式(portabledocumentformat,pdf)文档的形式,后续可针对pdf文档进行文本识别。步骤202:根据网页截图的各行或者各列的像素值之间的差异度确定网页截图的图像分割线,并根据图像分割线对网页截图进行图像分割,得到至少一张目标检测图片。在本申请实施例中,网页识别设备在对待识别网页的网页截图进行图像分割之前,可以对网页截图进行图像缩放处理,使网页截图保持在一个固定的尺寸大小,以便后续网页识别设备对网页截图进行图像处理。由于在实际的不良网页中,可能包括大量的不良图片或者视频,图片与视频之间往往具有留白区域,因此在进行网页分割时可以将这些留白区域作为分割线对网页截图进行分割。如图3所示,为本申请实施例提供的网页截图的一种示意图,其中,网页截图中包含有图片、文字等信息,不同图片之间,或者图片与文字块之间均存在有留白区域,因而可以这些留白区域对网页截图进行分割。具体的,在网页截图中,留白区域的像素值基本相同或者差异很小,因此可以根据网页截图的各行或者各列的像素值之间的差异度确定网页截图的图像分割线。其中,一个2维的网页截图,其像素分布方向包括行方向和列方向,在行方向和列方向均可以进行分割线的确定,因此可以先进行一个方向上的分割,再进行另一方向上的分割。具体的,可以根据网页截图中第一方向上的每一组像素值中各像素值之间的差异度,确定网页截图在第一方向上的图像分割线,进而基于在第一方向上的图像分割线对网页截图进行图像分割,得到多个分割图片,然后从分割图片中选择目标分割图片,并确定目标分割图片在第二方向上的图像分割线,进而基于在第二方向上的图像分割线对目标分割图片进行图像分割,得到多个分割图片,最终得到的则作为上述至少一张目标检测图片,即将基于第一方向上的图像分割线分割得到的多个分割图片,与基于第二方向上的图像分割线分割得到的多个分割图片,确定为至少一张目标检测图片。在实际应用过程中,从分割图片中选择目标分割图片可以是随机选取,也可以是指定选取,例如当分割得到3个分割图片后,可以将中间的分割图片作为目标分割图片。其中,第一方向为行方向或者列方向,第二方向为与第一方向不同的方向。当第一方向为行方向时,第二方向为列方向,或者,当第一方向为列方向时,第二方向为行方向。由于在第一方向和第二方向上的分割过程类似,因此下面以第一方向为例对图像分割的过程进行介绍。在实际实施过程中,可以通过确定网页截图中第一方向上的每一组像素值中各像素值之间的差异度来确定在第一方向上的图像分割线。具体的,在确定差异度时,针对第一方向上的每一组像素值,可以以该组像素值中其中一个像素值为基准像素值,以获取每一组像素值中其余像素值与基准像素值之间的差异度,进而基于每一组像素值中其余像素值与基准像素值之间的差异度,获取每一组像素值的差异度。其中,第一方向为行方向时,每一组像素值可以为一行像素值,或者,第一方向为列方向时,每一组像素值可以为一列像素值。具体的,一组像素值中的基准像素值例如可以为第一行或者第一列的像素值,当然,也可以为其他可能的像素值,本申请实施例对此不做限制。获取每一组像素值中其余像素值与基准像素值之间的差异度之后,可以将差异度的总和作为该组像素值的差异度,或者,也可以计算差异度的均值,作为该组像素值的差异度。本申请实施例中,基于差异度确定图像分割线的方式可以包括如下两种方式。第一种方式本申请实施例中,在获取每一组像素值的差异度之后,则可以确定每一组像素值的差异度是否小于设定的差异度阈值,当确定该组像素值的差异度小于设定的差异度阈值时,则确定该组像素值对应的像素点为网页截图的图像分割线,否则该组像素值对应的像素点不是网页截图的图像分割线。第二种方式本申请实施例中,还根据每一组像素值的差异度得到网页截图在第一方向上的表示序列。其中,一组像素值对应表示序列中的一个位置,相邻组在表示序列中位置相邻,当一组像素值的差异度小于设定的差异度阈值时,该组像素值对应位置的序列值则为第一值b0,当该组像素值的差异度大于或者等于差异度阈值时,该组像素值对应位置的序列值则为第二值b1。第一值b0与第二值b1为不同的值,例如第一值b0为0,第二值b1为1,或者,第一值b0为1,第二值b1为0。具体的,以第一方向为行方向为例,可以按照如下规则对网页截图进行二值化得到表示序列,二值化规则如下:其中,n为差异度阈值,p(i,w)为第i行第w列的像素值,pi为第i行的基准像素值,all(|p(i,w)-pi|)表示第i行的差异度。当第i行像素值的差异度小于设定的差异度阈值n时,则第i行在表示序列中的位置为b0,当第i行像素值的差异度为其他情况,即大于或者等于设定的差异度阈值n时,则第i行在表示序列中的位置为b1。如图4所示,为获取表示序列的过程示意图,图4同样以行为例,其中,图4中左图为网页截图的像素阵列,右图为网页截图对应的表示序列,通过上述的二值化过程,则可以将一张网页截图的像素阵列转换为表示序列,其中,像素图的每一小格代表一个像素点,每个像素点都含有对应的像素值,表示序列的每一小格代表网页截图的像素图对应一行像素值的二值化值。本申请实施例中,获取表示序列之后,则可以根据表示序列确定网页截图在第一方向上的图像分割线。如图4所示,可以将表示序列中为b0的位置对应的像素组确定为图像分割线。本申请实施例中,考虑到网页截图中可能存在噪声,使得图像分割线确定不准确。比如,网页截图的某一行的像素值,因噪声引起了该行其中一个或多个像素值的改变,导致该行本应该很小的像素值差异度变得非常大,致使该行不能成为图像分割线行。因此,本申请实施例中,在获取表示序列之后,可以对表示序列进行降噪,提高图像分割线确定的准确性,进而提升后续图像识别的准确性。具体的,网页识别设备可以获取表示序列sv中序列值连续为第一值b0的区间r0的第一数量以及序列值连续为第二值b1的区间r1的第二数量,最终得到的目标分割图片的数量可能会影响后续确定待识别网页属于目标网页类型的准确度,因此可以设定最终获得目标分割图片的数量阈值c,连续为第二值b1的区间r1对应于分割得到的目标分割图片,因此网页识别设备可以判断第二数量c1与数量阈值c之间的大小关系。当第二数量c1大于设定的数量阈值c,则执行如下循环过程,直至第二数量c1小于或者等于设定的数量阈值c,以对目标分割图片的数量进行限制,以降低噪声引起的错误分割。其中,每一次循环过程可以包括如下步骤:首先,针对序列值连续为第二值b1的每一区间,当该区间的长度小于或者等于长度阈值t,则将该区间的序列值设置为第一值b0,得到第一更新序列。其中,表示序列中连续为第二值b1的位置为一个区间,或者连续为第一值b0为一个区间,区间的长度为表示序列中该区间包括的位置数量,如图4所示,顶部为“1”的一个位置为一个区间,其相邻的第二个为“0”的位置也可以为一个区间,底部连续为1的9个位置也可以为一个区间。其次,针对更新的表示序列中序列值连续为第一值b0的每一区间,若该区间的长度小于或者等于长度阈值t,则将该区间的序列值设置为第二值b1,得到第二更新序列。最后,判断第二更新序列中第二数量是否小于或者等于设定的数量阈值c。当第二更新序列中第二数量大于设定的数量阈值c时,则表明目标分割图片的数量任然较多,因此进入下一循环过程;反之,当第二更新序列中第二数量小于或者等于设定的数量阈值c,则循环结束。本申请实施例中,数量阈值c例如可以设置为3,当然也可以设置为其他可能的值,本申请实施例对此不做限制,长度阈值t可以是根据循环次数设置的,例如初始长度阈值t可以为零,随着循环次数的增加,长度阈值t依次递增,例如每一次循环中的长度阈值t可以在循环次数的基础上加一。如图5所示,为本申请实施例提供的表示序列变换的一种过程示意图,可以通过更新原始序列获取新的表示序列。其中,原始序列通过第一次更新时,针对序列值连续为第二值b1的每一区间,将长度小于或者等于长度阈值t的区间的序列值设置为第一值b0,例如图5中将原始序列中的第一格和第三个的1都置换为0,得到第一更新序列,第二次更新时,针对更新的表示序列中序列值连续为第一值b0的每一区间,若区间的长度小于或者等于长度阈值t,则将该区间的序列值设置为第二值b1,例如图5中将第一更新序列中的第七格的0置换为1,得到第二更新序列。本申请实施例中,网页识别设备可以将最终得到的表示序列中为第一值b0位置对应的像素组作为分割像素组,该像素组对应的像素点即为网页截图在第一方向上的图像分割线,并根据在第一方向上的图像分割线对网页截图进行图像分割,得到多个分割图片。例如第一方向为行方向时,则可以将最终得到的表示序列中为第一值b0位置对应的行作为分割行对网页截图进行分割。本申请实施例中,从得到的多个分割图片选择目标分割图片之后,为便于图像处理,可以将目标分割图片进行行列互换,然后,使用如上述第一方向上确定图像分割线相同的过程,获得在第二方向上的图像分割线,并基于在第二方向上的图像分割线对目标分割图片进行图像分割,得到多个分割图片,从而最终得到上述至少一张目标检测图片。步骤203:确定至少一张目标检测图片中每一目标检测图片属于目标图片类型的概率,并根据每一目标图片的概率确定待识别网页属于目标网页类型的概率。本申请实施例中,如图6所示,为本申请实施例提供的网页截图获取目标图片概率的一种示意图,其中,通过图片分割后,可获取至少一个目标检测图片,可以利用图片检测模型对每一目标检测图片进行检测,获得每一目标图片在m个图片类型上的概率值,进而可以获取目标检测图片所属的图片类型,例如概率值最高的图片类型即为目标检测图片所属的图片类型。此外,还可以从中获取每一目标检测图片属于目标图片类型的概率。例如,图片类型可以包括正常、色情或者非法等类型,目标图片类型例如可以为色情图片或者非法图片,则可以通过预先训练的图片检测模型检测目标检测图片属于色情图片或者非法图片的概率。进而,可以根据每一目标检测图片的概率,以及为每一目标图片预先设定的权重值,确定待识别网页属于目标网页类型的概率。具体的,可以将目标检测图片的概率值与相应权重值进行加权求和,以获取待识别网页属于目标网页类型的概率tsite。与目标图片类型对应的,例如目标图片类型可以为色情图片或者非法图片时,目标网页类型可以色情网页或者非法网页。示例性的,获得的至少一张目标图片为5张时,5张目标图片经图片检测方法检测获得5个不同类型的概率,分别为0.995、0.001、0.002、0.001、0.002,这5张目标图片对应的权重值分别为0.9、0.2、0.4、0.1、0.1,则根据加权求和公式可以计算得出待识别网页所属的网页类型概率tsite=0.995×0.9+0.001×0.2+0.002×0.4+0.001×0.1+0.002×0.1=0.8968,即通过计算最终得出待识别网页属于目标网页类型的概率为0.8968。步骤204:在待识别网页属于目标网页类型的概率大于设定的概率阈值时,确定待识别网页的类型为目标网页类型。在本申请实施例中,预先设置了待识别网页的类型为目标网页类型的可信阈值tconfidence,当计算获得的待识别网页的类型为目标网页类型的概率tsite大于或者等于待识别网页的类型为目标网页类型的可信阈值tconfidence时,则可以确定待识别网页的类型为目标网页类型。在实际使用时,可以根据经验设置可信阈值tconfidence,例如可以设置可信阈值tconfidence可以设置为0.8,那么当计算获得的待识别网页的类型为目标网页类型的概率tsite大于或者等于0.8时,网页识别设备确定待识别网页的类型为目标网页类型。如,当计算得出获得的待识别网页的类型为目标网页类型的概率tsite=0.8968时,0.8968≥0.8,所以可以确定出待识别网页的类型为目标网页类型。综上所述,本申请实施例通过模拟人的视觉判断过程,把网站内容图像化,然后方便地分割为一个或者多个图像区域,例如至多5个图像区域进行检测,相比较于复杂的图像内文字识别,或者动辄成百上千的静态色情图片识别,或者需要下载视频资源,并按帧进行采样再进行色情图片识别,本申请实施例的技术方案更简单,更节省资源,适用范围更广。基于同一发明构思,本申请实施例提供一种网页识别装置,如图7所示,该装置应用于网页识别方法中,该装置包括:获取单元701,用于根据待识别网页的统一资源定位符url获取待识别网页的网页截图;确定单元702,用于根据网页截图的各行或者各列的像素值之间的差异度确定网页截图的图像分割线;图像分割单元703,用于根据图像分割线对网页截图进行图像分割,得到至少一张目标检测图片;确定单元702,还用于确定至少一张目标检测图片中每一目标检测图片属于目标图片类型的概率,根据每一目标图片的概率确定待识别网页属于目标网页类型的概率;在待识别网页属于目标网页类型的概率大于设定的概率阈值时,确定待识别网页的类型为目标网页类型。可选的,获取单元701,用于:根据url向url对应的网页服务器发送url访问请求;接收网页服务器返回的url对应的超级文本标记语言html文档;对html文档进行解析,根据解析html文档得到的内容进行渲染,获取网页截图。可选的,确定单元702,用于根据网页截图中第一方向上的每一组像素值中各像素值之间的差异度,确定网页截图在第一方向上的图像分割线,其中,第一方向为行方向或者列方向;图像分割单元703,用于基于在第一方向上的图像分割线对网页截图进行图像分割,得到多个分割图片;确定单元702,用于从分割图片中选择目标分割图片,并确定目标分割图片在第二方向上的图像分割线,其中,当第一方向为行方向时,第二方向为列方向,或者,当第一方向为列方向时,第二方向为行方向;图像分割单元703,用于基于在第二方向上的图像分割线对目标分割图片进行图像分割,得到多个分割图片;确定单元702,用于将基于第一方向上的图像分割线分割得到的多个分割图片,与基于第二方向上的图像分割线分割得到的多个分割图片,确定为至少一张目标检测图片。可选的,确定单元702,用于:确定网页截图中第一方向上的每一组像素值中各像素值之间的差异度;其中,第一方向为行方向,每一组像素值为一行像素值,或者,第一方向为列方向,每一组像素值为一列像素值;当每一组像素值的差异度小于设定的差异度阈值时,确定每一组像素值对应的像素点为网页截图的图像分割线。可选的,确定单元702,用于:确定网页截图中第一方向上的每一组像素值中各像素值之间的差异度;根据每一组像素值的差异度得到网页截图在第一方向上的表示序列;其中,一组像素值对应表示序列中的一个位置,相邻组在表示序列中位置相邻,当每一组像素值的差异度小于设定的差异度阈值时,每一组像素值对应位置的序列值为第一值,当每一组像素值的差异度大于或者等于差异度阈值时,每一组像素值对应位置的序列值为第二值,且第一值与第二值不同;根据表示序列确定网页截图在第一方向上的图像分割线。可选的,确定单元702,用于:针对每一组像素值,以每一组像素值中其中一个像素值为基准像素值,获取每一组像素值中其余像素值与基准像素值之间的差异度;基于每一组像素值中其余像素值与基准像素值之间的差异度,获取每一组像素值的差异度。可选的,确定单元702,用于:获取表示序列中序列值连续为第二值的区间的第二数量;确定第二数量是否小于或者等于设定的数量阈值;若确定第二数量大于设定的数量阈值,则执行如下循环过程,直至第二数量小于或者等于设定的数量值,每一次循环过程包括如下步骤:针对序列值连续为第二值的每一区间,若该区间的长度小于或者等于长度阈值,则将该区间的序列值设置为第一值,得到第一更新序列;针对更新的表示序列中序列值连续为第一值的每一区间,若该区间的长度小于或者等于长度阈值,则将该区间的序列值设置为第二值,得到第二更新序列;确定第二更新序列中第二数量是否小于或者等于设定的数量阈值;若确定第二更新序列中第二数量大于设定的数量阈值,则进入下一循环过程;或者,若确定第二更新序列中第二数量小于或者等于设定的数量阈值,则循环结束。可选的,长度阈值是根据循环次数设置的。可选的,确定单元702,用于:根据每一目标图片的概率以及为每一目标图片设定的权重值,确定待识别网页属于目标网页类型的概率。该装置可以用于执行图2~图6所示的实施例中所示的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考图2~图6所示的实施例的描述,不多赘述。请参见图8,基于同一技术构思,本申请实施例还提供了一种网页识别设备80,可以包括存储器801和处理器802。所述存储器801,用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。处理器802,可以是一个中央处理单元(centralprocessingunit,cpu),或者为数字处理单元等等。本申请实施例中不限定上述存储器801和处理器802之间的具体连接介质。本申请实施例在图8中以存储器801和处理器802之间通过总线803连接,总线803在图8中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线803可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器801可以是易失性存储器(volatilememory),例如随机存取存储器(random-accessmemory,ram);存储器801也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flashmemory),硬盘(harddiskdrive,hdd)或固态硬盘(solid-statedrive,ssd)、或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器801可以是上述存储器的组合。处理器802,用于调用所述存储器801中存储的计算机程序时执行如图2~图6所示的实施例中设备所执行的方法。在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行如图2~图6所示的实施例中设备所执行的方法。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1