网页分类方法、网页分类模型的训练方法及装置与流程

文档序号:29258339发布日期:2022-03-16 11:39阅读:142来源:国知局
网页分类方法、网页分类模型的训练方法及装置与流程

1.本公开涉及数据处理技术领域,尤其涉及人工智能领域和智能推荐领域的网页分类方法、网页分类模型的训练方法及装置。


背景技术:

2.人工智能(artificial intelligence,ai)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理和决策的功能。
3.网页分类是人工智能领域的重要应用之一,能够在信息过载的环境中对网页进行分类。


技术实现要素:

4.本公开提供了一种网页分类方法、装置、电子设备以及存储介质。
5.根据本公开的第一方面,提供了一种网页分类方法,包括:
6.分别对待分类网页的统一资源定位系统(uniform resource locator,url)和url对应的超文本标记语言(hyper text markup language,html)进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;
7.对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;
8.基于所述目标特征向量,确定所述待分类网页的类型;
9.其中,所述第一特征向量包括所述待分类网页的url对应的特征向量;所述第二特征向量包括所述待分类网页的html对应的特征向量。
10.根据本公开的第二方面,提供了一种网页分类模型的训练方法,所述网络分类子模型包括分类子模型和分词子模型,所述方法包括:
11.分别对第一样本集包括的统一资源定位系统url样本子集和url样本子集对应的超文本标记语言html样本子集进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量;
12.基于所述分词子模型对所述第一样本特征向量和所述第二样本特征向量进行预处理,得到目标样本特征向量;
13.将所述目标特征向量输入至所述分类子模型,基于所述分类子模型的输出,确定所述第一样本集的预测类型;
14.匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数;和/或,匹配所述第一样本集的预测类型和所述第一样本集的标记类型,基于匹配结果调整所述分类子模型的参数。
15.根据本公开的第三方面,提供了一种网页分类装置,包括:
16.第一提取单元,用于分别对待分类网页的url和url对应的html进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;
17.第一预处理单元,用于对所述第一特征向量和所述第二特征向量进行预处理,得
到目标特征向量;
18.第一确定单元,用于基于所述目标特征向量,确定所述待分类网页的类型;
19.其中,所述第一特征向量包括所述待分类网页的url对应的特征向量;所述第二特征向量包括所述待分类网页的html对应的特征向量。
20.根据本公开的第四方面,提供了一种网页分类模型的训练装置,包括:
21.第二提取单元,用于分别对第一样本集包括的统一资源定位系统url样本子集和url样本子集对应的超文本标记语言html样本子集进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量;
22.第二预处理单元,用于基于所述分词子模型对所述第一样本特征向量和所述第二样本特征向量进行预处理,得到目标样本特征向量;
23.第二确定单元,用于将所述目标特征向量输入至所述分类子模型,基于所述分类子模型的输出,确定所述第一样本集的预测类型;
24.匹配单元,用于匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数;和/或,匹配所述第一样本集的预测类型和所述第一样本集的标记类型,基于匹配结果调整所述分类子模型的参数。
25.本公开第五方面提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的网页分类方法或网页分类模型的训练方法。
26.本公开第六方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述所述的网页分类方法或网页分类模型的训练方法。
27.本公开第七方面提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现上述所述的网页分类方法或网页分类模型的训练方法。
28.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
29.附图用于更好地理解本方案,不构成对本公开的限定。其中:
30.图1是本公开实施例提供的网页分类系统的一种架构示意图;
31.图2是本公开实施例提供的网页分类方法的一种可选流程示意图;
32.图3是本公开实施例提供的网页分类方法的另一种可选流程示意图;
33.图4是本公开实施例提供的获取第一训练样本集的可选示意图;
34.图5是本公开实施例提供的对拼接的特征进行预处理的可选示意图;
35.图6是本公开实施例提供的网页分类方法的又一种可选流程示意图;
36.图7是本公开实施例提供的网页分类模型的训练方法的一种可选流程示意图;
37.图8是本公开实施例提供的网页分类装置的一种可选结构示意图;
38.图9是本公开实施例提供的网页分类模型的训练装置的可选结构示意图;
39.图10是可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
40.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
41.相关技术中,电子设备可以采用如下两种方法对电子设备访问的网页进行分类:
42.1)通过下发关键词列表,将关键词列表中的关键字与电子设备访问的网页的标题相匹配,根据匹配的结果,确定电子设备访问的网页的类型;
43.2)通过向电子设备下发主机(host)列表,通过将host列表中的域名与电子设备访问的网页中url的域名相匹配的方式,确定电子设备访问的网页的类型。
44.然而在上述方案1)中,虽然关键词列表的体积比较小,但匹配的准确率低,无法精准地实现网页分类;在上述方案2)中,由于现在的网站数量庞大,如果需要host列表覆盖更多的网页,host列表的体积就会非常庞大,影响电子设备的性能;并且方案2)中无法保证覆盖到全部网页,对于一些未在host列表中的网页无法得到其分类标签。
45.因此,针对相关技术中网页分类方法中存在的缺陷,本公开提供一种网页分类方法,能够克服现有技术的部分或全部缺点。
46.参见图1,图1是本公开实施例提供的网页分类系统的一种架构示意图,为实现支撑一个示例性应用,电子设备800包括网页分类装置200(以下简称为装置200),网页分类装置200通过网络300连接数据库500,其中,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。其中,所述装置200可以是设置于电子设备800内部的软件。
47.本公开实施例提供的网页分类方法可以由电子设备实现。例如,电子设备800运行客户端810,客户端810可以是用于网页分类的客户端。客户端可以采集待分类网页的url和html,经过装置200进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;基于所述目标特征向量,确定所述待分类网页的类型。
48.在此之前,所述装置200可以通过网络300从数据库中获取url样本子集,所述url样本子集中包括一定数量的不同类型的网页样本的url;然后所述装置200可以通过真机爬虫控制器(也可以是爬虫控制器)控制第一电子设备(可以是所述装置对应的电子设备,还可以是预先设置的至少一个第一电子设备,本公开不做具体限制)打开所述url样本子集中每一个url(所述装置可以启动第一电子设备中相应的应用程序,例如浏览器类应用程序或阅读类应用程序打开url),完成所述每一个url对应的网页的首屏绘制之后,将对应的html存储在所述第一电子设备内部,所述爬虫控制器从所述第一电子设备中获取所述html样本子集。基于所述url样本子集和所述html样本子集训练分词子模型和分类子模型。
49.在需要进行网页分类时,客户端810获取第一用户输入的待分类网页的url,其中,所述客户端还可以基于所述第一用户输入的信息(如在应用程序的搜索框内输入的信息),确认所述待分类网页的url。然后,网页分类装置200基于所述待分类网页的url,绘制与所述url对应的网页页面,并基于所述网页页面,获取与所述url对应的html,对所述url和所述html进行特征提取;得到所述待分类网页对应的第一特征向量和第二特征向量;对所述
第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;基于所述目标特征向量,确定所述待分类网页的类型。
50.在一些实施例中,电子设备800或网页分类装置200可以通过运行计算机程序来实现本公开实施例提供的网页分类方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(native)应用程序(application,app),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意app中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
51.在一些实施例中,电子设备800可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等,但并不局限于此。电子设备800以及网页分类装置200可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
52.在一些实施例中,本公开实施例提供的网页分类方法可由电子设备或电子设备包括的网页分类装置单独实施下面以网页分类装置实施为例说明本公开实施例提供的网页分类方法。参见图2示出了本公开实施例提供的网页分类方法的一种可选流程示意图,将根据各个步骤进行说明。
53.步骤s301,分别对待分类网页的url和url对应的html进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量。
54.在一些实施例中,网页分类装置(以下简称装置)可以获取待分类网页的url,以及所述url对应的html;对所述待分类网页的url进行特征提取,得到所述待分类网页对应的第一特征向量;对所述待分类网页的html进行特征提取,得到所述待分类网页对应的第二特征向量。
55.具体实施时,所述装置可以设置于电子设备内部;所述电子设备加载所述待分类网页的url;基于所述url确认所述待分类网页对应的页面;基于所述待分类网页对应的页面得到url对应的html;对所述url进行特征提取,得到所述url对应的所述第一特征向量;对所述html进行特征提取,得到所述html对应的所述第二特征向量。
56.在一些可选实施例中,所述装置对所述url进行特征提取,可以包括提取所述url中的协议(protocol)、主机名(hostname)、域名、端口号(port)、路径(path)、参数(parameters)、查询信息(query)和信息片段(fragment)中至少一种,所述第一特征向量用于表示提取的所述url中的特征。可选的,所述装置可以去除所述url中的无用字符和服务器网络对应的字符;其中,无用字符可以包括“.”、“/”和“://”等;服务器网络对应的字符可以包括“www”和“com”。例如,url包括www.xxxxx.com的情况下,可以确定第一特征向量为“xxxxx”;或者,url包括www.yyyyy.edu.cn的情况下,可以确定第一特征向量为“yyyyyeducn”。
57.在另一些实施例中,提取所述url对应的html的标签(如html中的《title》)、至少一个关键字和标题(如html中的《h1》至《h6》中任一个)中至少之一,所述第二特征向量用于表示提取的所述html中的特征。其中,标题可以通过《hn》表示,n为大于1的整数。
58.例如,html中包括如下文本的情况下,基于如下文本,可以提取所述html的标签包括“知识产权”,标题包括“专利”,则可以确定所述html对应的第二特征向量至少表示“知识产权”和“专利”。
[0059][0060]
步骤s302,对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量。
[0061]
在一些实施例中,所述装置可以对所述第一特征向量和所述第二特征向量进行拼接处理,得到所述目标特征向量;其中,所述第一特征向量在所述目标特征向量中的位置可以位于所述第二特征向量之前,也可以位于所述第二特征向量之后。
[0062]
在一些可选实施例中,所述装置还可以对所述目标特征向量执行:去除所述目标特征向量中的第一类型字符;截取所述目标特征向量中第一长度字符;对所述第一长度字符进行分词处理,得到分词结果;合并所述分词结果中相邻且相同的字符中至少一种。其中,所述第一类型字符可以包括标点的符号和/或英文。并且,在截取时,若第一特征向量在所述目标特征向量中的位置位于所述第二特征向量之前,则所述第一特征向量所表示的特征不会被截取,所述第二特征向量所表示的部分特征被截取。
[0063]
在一些可选实施例中,可以基于分词子模型对所述第一长度的字符或目标特征向量进行分词处理,得到分词结果。所述装置还可以获取url样本子集和所述url样本子集对应的html样本子集;基于所述url样本子集和所述html样本子集确定第一训练样本集。
[0064]
具体实施时,所述装置可以获取一定数量的不同类型的网页样本的url,构成所述url样本子集;基于爬虫控制器控制第一电子设备(可以是所述装置对应的电子设备,还可以是预先设置的至少一个第一电子设备,本公开不做具体限制)打开所述url样本子集中每一个url(所述装置可以启动第一电子设备中相应的应用程序,例如浏览器类应用程序打开url),完成所述每一个url对应的网页的首屏绘制之后,将对应的html存储在所述第一电子设备内部,所述爬虫控制器获取所述html样本子集,基于所述url样本子集和所述html样本子集确定第一训练样本集。
[0065]
在一些可选实施例中,所述装置还可以分别对url样本子集进行解析,并提取所述url样本子集中每一个url中的协议、主机名、域名、端口号、路径、参数、查询信息和信息片段中至少一种;以及,对所述html样本子集进行解析并提取所述url对应的html的标签、至少一个关键字和标题中至少之一。可选的,所述装置还可以存储提取所述url样本子集和所述html样本子集中的特征。
[0066]
在一些实施例中,所述装置可以基于所述分词子模型确定第一训练样本集对应的目标样本特征向量;确定与所述第一训练样本集对应的目标标记特征向量和所述目标样本
特征向量之间的差异;基于所述目标标记特征向量和所述目标样本特征向量之间的差异,调整所述分词子模型的模型参数。
[0067]
具体实施时,所述装置可以将所述第一训练样本集拆分为第一训练样本子集、第一测试样本子集和第一验证样本子集;在所述分词子模型训练之前,确定所述分词子模型的超参数的范围;基于所述第一训练样本子集、第一测试样本子集和第一验证样本子集对所述分词子模型进行训练,基于训练结果,调整所述分词子模型的参数;对调整参数的分词子模型进行评估,得到所述分词子模型的模型评估指标;基于所述分词子模型的模型评估指标,调整所述分词子模型的参数。可选的,可以使用梯度下降的方式调整所述分词子模型的参数,直至所述分词子模型的模型评估指标大于或等于第一指标。其中,所述第一指标用于指示模型评估标准,若所述分词子模型的模型评估指标大于或等于所述第一指标,表征所述分词子模型不需要进一步训练。
[0068]
步骤s303,基于所述目标特征向量,确定所述待分类网页的类型。
[0069]
在一些实施例中,所述装置基于所述目标特征向量,确定所述待分类网页的模型。
[0070]
具体实施时,所述装置可以基于分类子模型确定所述目标特征向量对应的待分类网页的类型。
[0071]
在一些可选实施例中,所述装置可以基于所述分类子模型确定所述第一训练样本集对应的特征向量样本集;基于所述分类子模型确定所述特征向量样本集对应的预测类型;确定与所述特征向量样本集对应的标记类型和所述预测类型之间的差异;基于所述标记类型和所述预测类型之间的差异,调整所述分类子模型的参数。
[0072]
具体实施时,所述装置可以获取所述第一训练样本集中每一个训练样本经过去除第一类字符、截取第一长度、基于分词子模型对第一长度的字符进行分词处理得到分词结果以及合并所述分词结果中相邻且相同的字符中至少一种处理后,得到的第二训练样本集;所述装置基于所述分类子模型确定所述第二训练样本集中每一个训练样本中的特征对应的特征向量,构成特征向量样本集。
[0073]
具体实施时,所述装置还可以将所述第二训练样本集拆分为第二训练样本子集、第二测试样本子集和第二验证样本子集;在所述分类子模型训练之前,确定所述分类子模型的超参数的范围;基于所述第二训练样本子集、第二测试样本子集和第二验证样本子集对所述分类子模型进行训练,基于训练结果,调整所述分类子模型的参数;对调整参数的分类子模型进行评估,得到所述分类子模型的模型评估指标;基于所述分类子模型的模型评估指标,调整所述分类子模型的参数。可选的,可以使用梯度下降的方式调整所述分类子模型的参数,直至所述分类子模型的模型评估指标大于或等于第二指标。其中,所述第二指标用于指示模型评估标准,若所述分类子模型的模型评估指标大于或等于所述第二指标,表征所述分类子模型不需要进一步训练。
[0074]
如此,通过本公开实施例提供的网页分类方法,通过分别对待分类网页的url和url对应的html进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;基于所述目标特征向量,确定所述待分类网页的类型。基于url和html共同确定目标特征向量,基于人工智能确定目标特征向量对应的网页类型,提升了网页分类的准确性;此外,无需在电子设备中加载体积庞大的关键词列表或host列表,就能在电子设备上轻量级部署相关装置,降低
了网页分类过程中对电子设备的性能损耗。
[0075]
图3示出了本公开实施例提供的网页分类方法的另一种可选流程示意图,将根据各个步骤进行说明。
[0076]
在一些可选是实施例中,本公开提供的网页分类方法可以划分为线上部分和线下部分;其中,线下部分涉及训练样本获取、模型训练、特征存储等(步骤s401至步骤s403);线上部分涉及识别、提取特征、特征预处理等(步骤s404至步骤s406)。
[0077]
步骤s401,获取第一训练样本集。
[0078]
在一些实施例中,网页分类装置(以下简称装置),可以从服务器中获取第一训练样本集,也可以通过获取一定数量的不同类型的网页样本的url,构成所述url样本子集;基于爬虫控制器控制第一电子设备(可以是所述装置对应的电子设备,还可以是预先设置的至少一个第一电子设备,本公开不做具体限制)打开所述url样本子集中每一个url(所述装置可以启动第一电子设备中相应的应用程序,例如浏览器类应用程序打开url),完成所述每一个url对应的网页的首屏绘制之后,将对应的html存储在所述第一电子设备内部,所述爬虫控制器获取所述html样本子集,基于所述url样本子集和所述html样本子集确定第一训练样本集。其中,所述爬虫控制器可以设置在所述装置内部,也可以设置在所述装置外部。
[0079]
在一些可选实施例中,若所述装置从所述服务器中获取所述第一训练样本集,则所述服务器可以通过获取一定数量的不同类型的网页样本的url,构成所述url样本子集;基于爬虫控制器控制第一电子设备打开所述url样本子集中每一个url,完成所述每一个url对应的网页的首屏绘制之后,将对应的html存储在所述第一电子设备内部,所述爬虫控制器获取所述html样本子集,基于所述url样本子集和所述html样本子集确定第一训练样本集。
[0080]
在一些可选实施例中,所述装置还可以对url样本子集进行解析,并提取所述url样本子集中每一个url中的协议、主机名、域名、端口号、路径、参数、查询信息和信息片段中至少一种;以及,对所述html样本子集进行解析并提取所述url对应的html的标签、至少一个关键字和标题中至少之一。可选的,所述装置还可以存储提取所述url样本子集和所述html样本子集中的特征。
[0081]
图4示出了本公开实施例提供的获取第一训练样本集的可选示意图。
[0082]
如图4所示,爬虫控制器响应于所述装置的获取指令,启动爬虫;第一电子设备启动客户端,加载所述url样本子集中每一个url,完成所述每一个url对应的网页的首屏绘制之后,将对应的html存储在所述第一电子设备内部;所述爬虫控制器获取第一电子设备内存储的所述html样本子集,和/或在所述第一电子设备内存储所述url样本子集和所述html样本子集;所述装置提取第一电子设备内存储的所述url样本子集和所述html样本子集中的特征并解析,在所述电子设备或装置内存储解析后的所述url样本子集和所述html样本子集中的特征作为第一训练样本集。
[0083]
在一些实施例中,所述装置获取所述第一训练样本集后,提取所述第一训练样本集中所述url样本子集和与所述url样本子集相对应的所述html样本子集中的特征,并将所述特征进行顺序拼接;可选的,所述url样本子集对应的特征在所述html样本子集对应的特征之前。其中,拼接后的特征包括:任一url的特征,以及与所述任一url对应的html的特征,
即url与html之间存在对应关系,拼接时也基于所述对应关系进行拼接。
[0084]
在一些可选实施例中,所述装置将所述url样本子集和与所述url样本子集相对应的所述html样本子集中的特征进行顺序拼接后,还可以对拼接的特征进行预处理。
[0085]
图5示出了本公开实施例提供的对拼接的特征进行预处理的可选示意图。
[0086]
如图5所示,所述装置去除所述拼接的特征中的第一类字符(无用字符和英文),其中,无用字符可以是标点符号;所述装置截取去除第一类字符后的所述拼接的特征中第一长度的字符;可选的,所述装置从左至右截取(即最大限度保留url对应的特征)所述特征;所述装置对所述第一长度的字符进行分词处理得到分词结果;合并所述分词结果中相邻且相同的字符。
[0087]
通过对去除第一类字符后的所述拼接的特征进行截取,可以减小模型(分词子模型和/或分类子模型)的输入,降低所述装置对电子设备的性能的影响。此外,由于将url特征和html特征进行拼接,不可避免的会出现相邻且相同的字符,影响结果的精准度,需要将相同的字符进行归一化(合并)处理;可选的,可以通过for循环遍历的方式去除相邻且相同的特征。
[0088]
在一些可选实施例中,为保证线上获取的特征与线下训练模型时使用的特征的一致性,从待分类网页中获取的目标特征向量与所述第一训练样本集中的特征的类型相同。
[0089]
步骤s402,训练分词子模型。
[0090]
在一些实施例中,所述分词子模型用于对目标特征向量或第一训练集中经过拼接、去除第一类字符和截取后的特征进行分词。所述装置可以基于所述分词子模型确定第一训练样本集对应的目标样本特征向量;确定与所述第一训练样本集对应的目标标记特征向量和所述目标样本特征向量之间的差异;基于所述目标标记特征向量和所述目标样本特征向量之间的差异,调整所述分词子模型的模型参数。
[0091]
具体实施时,所述装置可以将所述第一训练样本集拆分为第一训练样本子集、第一测试样本子集和第一验证样本子集;在所述分词子模型训练之前,确定所述分词子模型的超参数的范围;基于所述第一训练样本子集、第一测试样本子集和第一验证样本子集对所述分词子模型进行训练,基于训练结果,调整所述分词子模型的参数;对调整参数的分词子模型进行评估,得到所述分词子模型的模型评估指标;基于所述分词子模型的模型评估指标,调整所述分词子模型的参数。可选的,可以使用梯度下降的方式调整所述分词子模型的参数,直至所述分词子模型的模型评估指标大于或等于第一指标。其中,所述第一指标用于指示模型评估标准,若所述分词子模型的模型评估指标大于或等于所述第一指标,表征所述分词子模型不需要进一步训练。
[0092]
在一些可选实施例中,所述分词子模型可以是汉语词汇分析(lexical analysis of chinese,lac)模型;lac模型是一款联合的语法分析工具,可以实现中文分词、词性标注、专有名词(或专业名词)识别等功能。具备如下优点:
[0093]
1)通过深度学习模型联合学习分词、词性标注、专有名词(或专业名词)识别,可以使得lac模型整体功能的f1值超过0.91;词性标注的f1值超过0.94;专有名词(或专业名词)的f1值超过0.85。其中,f1值用于表征分词、识别或标注的准确率和召回率,f1值越高,说明分词、识别或标注的准确率和召回率越高。
[0094]
2)具备更精简的模型参数,结合paddle预测库可以优化lac模型的性能,在运行过
程中,中央处理器(cpu)单线程的性能可以达到800qps(qps表征每秒查询率),具备更高的效率。
[0095]
3)具备更强的可定制性;可以跟进用户词典实现简单可控的干预机制,精准匹配用户词典,实现对模型的干预;并且,用户词典中可以存在长片段形式的字符,可以使得模型的定制性更强。
[0096]
4)调用便捷;lac模型支持电子设备中进行“一键安装”,同时还提供python、java和c++调用接口与调用示例,实现快速调用和集成。
[0097]
5)支持移动终端。lac模型是定制超轻量级模型,体积仅为2兆比特(mbit),适用于市场上大部分单线程性能200qps的千元价位电子设备,能够满足大多数移动终端的应用需求。
[0098]
本领域技术人员理解,在本公开实施例中lac模型仅仅为一个示例,在具体实施时,可以使用任何能够实现分词功能的模型或方法,本公开不做具体限制。
[0099]
步骤s403,训练分类子模型。
[0100]
在一些实施例中,所述分类子模型用于确定待分类网页的类型;所述装置可以基于所述分类子模型确定所述第一训练样本集对应的特征向量样本集;基于所述分类子模型确定所述特征向量样本集对应的预测类型;确定与所述特征向量样本集对应的标记类型和所述预测类型之间的差异;基于所述标记类型和所述预测类型之间的差异,调整所述分类子模型的参数。
[0101]
具体实施时,所述装置可以获取所述第一训练样本集中每一个训练样本经过去除第一类字符、截取第一长度、基于分词子模型对第一长度的字符进行分词处理得到分词结果以及合并所述分词结果中相邻且相同的字符中至少一种处理后,得到的第二训练样本集;所述装置基于所述分类子模型确定所述第二训练样本集中每一个训练样本中的特征对应的特征向量,构成特征向量样本集。
[0102]
在一些可选实施例中,所述分类子模型可以是fasttext模型。所述fasttext模型是一个快速文本分类子模型,与基于神经网络的分类算法相比具备如下优点:
[0103]
1)在保持高精度的情况下,加快了训练速度和测试速度,节省了线下模型训练时间。
[0104]
2)对输入进fasttext模型的特征,不需要预先训练所述特征对应的词向量,所述fasttext模型可以实现训练词向量(即确定所述第一训练样本集对应的特征向量样本集)。
[0105]
此外,fasttext模型的体积小,更适用于电子设备,不会影响电子设备的性能。
[0106]
本领域技术人员理解,在本公开实施例fasttext模型仅仅为一个示例,在具体实施时,可以使用任何能够实现网页分类功能的模型或方法,本公开不做具体限制。
[0107]
在一些实施例中,将训练完成的所述分词子模型和所述分类子模型(或包括所述分词子模型和所述分类子模型的装置)部署到电子设备中,在所述电子设备加载所述待分类网页的url,确定与所述url对应的页面后,对所述url对应的第一特征向量和所述html对应的第二特征向量,对所述第一特征向量和所述第二特征向量进行预处理后,输入至分词子模型得到目标特征向量(包括第一特征向量和第二特征向量的文本特征);将所述目标特征输入至分类子模型,完成待分类网页的类型的预测,得到预测结果,并将所述预测结果存储在电子设备或所述装置的缓存中。具体步骤可以包括:
[0108]
步骤s404,分别对待分类网页的url和url对应的html进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量。
[0109]
在一些实施例中,所述装置可以获取待分类网页的url,以及url对应的html;对所述待分类网页的url进行特征提取,得到所述待分类网页对应的第一特征向量;对所述待分类网页的html进行特征提取,得到所述待分类网页对应的第二特征向量。
[0110]
具体实施时,所述装置可以设置于电子设备内部;所述电子设备加载所述待分类网页的url;基于所述url确认所述待分类网页对应的页面;基于所述待分类网页对应的页面得到url对应的html;对所述url进行特征提取,得到所述url对应的所述第一特征向量;对所述html进行特征提取,得到所述html对应的所述第二特征向量。
[0111]
在一些可选实施例中,所述装置对所述url进行特征提取,可以包括提取所述url中的协议、主机名、域名、端口号、路径、参数、查询信息和信息片段中至少一种,所述第一特征向量用于表示提取的所述url中的特征。可选的,所述装置可以去除所述url中的无用字符和服务器网络对应的字符;其中,无用字符可以包括“.”、“/”和“://”等;服务器网络对应的字符可以包括“www”和“com”。例如,url包括www.xxxxx.com的情况下,可以确定第一特征向量为“xxxxx”;或者,url包括www.yyyyy.edu.cn的情况下,可以确定第一特征向量为“yyyyyeducn”。
[0112]
在另一些实施例中,提取所述url对应的html的标签、至少一个关键字和标题中至少之一,所述第二特征向量用于表示提取的所述html中的特征。
[0113]
步骤s405,对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量。
[0114]
在一些实施例中,所述装置可以对对所述第一特征向量和所述第二特征向量进行拼接处理,得到所述目标特征向量;其中,所述第一特征向量在所述目标特征向量中的位置可以位于所述第二特征向量之前,也可以位于所述第二特征向量之后。
[0115]
在一些可选实施例中,所述装置还可以对所述目标特征向量执行:去除所述目标特征向量中的第一类型字符;截取所述目标特征向量中第一长度字符;基于分词子模型对所述第一长度字符进行分词处理,得到分词结果;合并所述分词结果中相邻且相同的字符中至少一种。其中,所述第一类型字符可以包括标点符号或英文。并且,在截取时,若第一特征向量在所述目标特征向量中的位置位于所述第二特征向量之前,则所述第一特征向量所表示的特征不会被截取,所述第二特征向量所表示的部分特征被截取。
[0116]
步骤s406,基于所述目标特征向量,确定所述待分类网页的类型。
[0117]
在一些实施例中,所述装置可以基于分类子模型确定所述目标特征向量对应的待分类网页的类型,实现待分类网页的预测。
[0118]
如此,通过本公开实施例提供的网页分类方法,通过分别对待分类网页的url和url对应的html进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;基于所述目标特征向量,确定所述待分类网页的类型。基于url和html共同确定目标特征向量,基于人工智能确定目标特征向量对应的网页类型,提升了网页分类的准确性;此外,无需在电子设备中加载体积庞大的关键词列表或host列表,就能在电子设备上轻量级部署相关装置,降低了网页分类过程中对电子设备的性能损耗。
[0119]
图6示出了本公开实施例提供的网页分类方法的又一种可选流程示意图,将根据各个步骤进行说明。
[0120]
步骤s501,基于不同类型的网页样本确定url样本子集。
[0121]
在一些实施例中,网页分类装置(以下简称装置)获取一定数量的不同类型的网页样本的url,构成所述url样本子集。
[0122]
步骤s502,基于url样本子集确定html样本子集。
[0123]
在一些实施例中,基于爬虫控制器控制第一电子设备(可以是所述装置对应的电子设备,还可以是预先设置的至少一个第一电子设备,本公开不做具体限制)打开所述url样本子集中每一个url(所述装置可以启动第一电子设备中相应的应用程序,例如浏览器类应用程序打开url),完成所述每一个url对应的网页的首屏绘制之后,将对应的html存储在所述第一电子设备内部,所述爬虫控制器获取所述html样本子集。其中,所述爬虫控制器可以设置在所述装置内部,也可以设置在所述装置外部。
[0124]
步骤s503,对所述url样本子集和所述html样本子集进行处理,得到第一训练样本集。
[0125]
在一些实施例中,所述装置可以对url样本子集进行解析,并提取所述url样本子集中每一个url中的协议、主机名、域名、端口号、路径、参数、查询信息和信息片段中至少一种;以及,对所述html样本子集进行解析并提取所述url对应的html的标签、至少一个关键字和标题中至少之一。可选的,所述装置还可以存储提取所述url样本子集和所述html样本子集中的特征。
[0126]
在另一些实施例中,所述装置还可以将url样本子集和所述html样本子集中的特征进行顺序拼接;可选的,所述url样本子集对应的特征在所述html样本子集对应的特征之前。其中,拼接后的特征包括:任一url的特征,以及与所述任一url对应的html的特征,即url与html之间存在对应关系,拼接时也基于所述对应关系进行拼接。
[0127]
在一些可选实施例中,所述装置将所述url样本子集和与所述url样本子集相对应的所述html样本子集中的特征进行顺序拼接后,还可以对拼接的特征进行预处理,得到第一训练样本集。
[0128]
具体实施时,所述装置去除所述拼接的特征中的第一类字符(无用字符和英文),其中,无用字符可以是标点符号;所述装置截取去除第一类字符后的所述拼接的特征中第一长度的字符;可选的,所述装置从左至右截取(即最大限度保留url对应的特征)所述特征。
[0129]
具体实施时,所述装置还可以对所述第一长度的字符进行分词处理得到分词结果;合并所述分词结果中相邻且相同的字符。可选的,所述装置可以对所述第一长度的字符中的中文字符进行分词处理。
[0130]
其中,所述装置可以基于分词子模型对所述第一长度的字符进行分词处理得到分词处理;所述分词子模型的训练可以基于步骤s402实现,此处不再赘述。
[0131]
其中,图6中特征处理部分既可以应用于线下部分,又可以应用于线上部分;应用于线下部分时,如步骤s503所述,对url样本子集和所述html样本子集进行特征处理,得到第一训练样本集;应用于线上部分时,如步骤s506至步骤s507所述,对待分类网页的url和html进行特征处理,得到目标特征向量。
[0132]
步骤s504,标注并存储所述第一训练样本集中的特征。
[0133]
在一些实施例中,所述装置可以标注进行第一训练样本集对应的网页的类型,和/或存储所述第一训练样本集,以及所述第一训练样本集对应的网页的类型。其中,所述第一训练样本集对应的网页的类型为目标标记特征向量。其中,所述第一训练样本集用于训练分类子模型。
[0134]
如此,所述装置完成了线下部分的流程。
[0135]
步骤s505,确认是否存在与所述待分类网页的url对应的分类结果。
[0136]
在一些实施例中,所述装置加载所述待分类网页的url,基于所述url确认所述待分类网页对应的页面之后,可以基于所述待分类网页的url,确定所述电子设备中是否存在与所述待分类网页的url对应的分类结果;若所述电子设备中存在与所述待分类网页的url对应的分类结果,则获取所述分类结果,完成所述待分类网页的类型的确定;若所述中断中不存在与所述待分类网页的url对应的分类结果,则执行步骤s507。
[0137]
其中,所述装置可以基于待分类网页的url包括的主机名确定所述电子设备中是否存在与所述待分类网页的url对应的分类结果。
[0138]
步骤s506,分别对待分类网页的url和url对应的html进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量。
[0139]
在一些实施例中,所述装置可以获取待分类网页的url,以及url对应的html;对所述待分类网页的url进行特征提取,得到所述待分类网页对应的第一特征向量;对所述待分类网页的html进行特征提取,得到所述待分类网页对应的第二特征向量。
[0140]
具体实施时,所述装置可以设置于电子设备内部;所述电子设备加载所述待分类网页的url;基于所述url确认所述待分类网页对应的页面;基于所述待分类网页对应的页面得到url对应的html;对所述url进行特征提取,得到所述url对应的所述第一特征向量;对所述html进行特征提取,得到所述html对应的所述第二特征向量。
[0141]
在一些可选实施例中,所述装置对所述url进行特征提取,可以包括提取所述url中的协议、主机名、域名、端口号、路径、参数、查询信息和信息片段中至少一种,所述第一特征向量用于表示提取的所述url中的特征。可选的,所述装置可以去除所述url中的无用字符和服务器网络对应的字符;其中,无用字符可以包括“.”、“/”和“://”等;服务器网络对应的字符可以包括“www”和“com”。例如,url包括www.xxxxx.com的情况下,可以确定第一特征向量为“xxxxx”;或者,url包括www.yyyyy.edu.cn的情况下,可以确定第一特征向量为“yyyyyeducn”。
[0142]
在另一些实施例中,所述装置对所述url进行特征提取,还可以包括提取所述url对应的html的标签、至少一个关键字和标题中至少之一,所述第二特征向量用于表示提取的所述html中的特征。
[0143]
步骤s507,对所述第一特征向量和所述第二特征向量进行处理,得到目标特征向量。
[0144]
在一些实施例中,所述装置可以对对所述第一特征向量和所述第二特征向量进行拼接处理,得到所述目标特征向量;其中,所述第一特征向量在所述目标特征向量中的位置可以位于所述第二特征向量之前,也可以位于所述第二特征向量之后。
[0145]
在一些可选实施例中,所述装置还可以对所述目标特征向量执行:去除所述目标
特征向量中的第一类型字符;截取所述目标特征向量中第一长度字符;基于分词子模型对所述第一长度字符进行分词处理,得到分词结果;合并所述分词结果中相邻且相同的字符中至少一种。其中,所述第一类型字符可以包括标点的符号或英文。并且,在截取时,若第一特征向量在所述目标特征向量中的位置位于所述第二特征向量之前,则所述第一特征向量所表示的特征不会被截取,所述第二特征向量所表示的部分特征被截取。
[0146]
步骤s508,基于所述目标特征向量,确定所述待分类网页的类型。
[0147]
在一些实施例中,所述装置可以基于分类子模型确定所述目标特征向量对应的待分类网页的类型,实现待分类网页的预测。
[0148]
在一些可选实施例中,所述装置还可以将所述待分类网页的url和/或html与所述待分类网页的类型之间的对应关系存储在所述电子设备中;在后续所述电子设备再次记载所述待分类网页的url后,可以基于所述待分类网页的url和所述电子设备中存储的将所述待分类网页的url和/或html与所述待分类网页的类型之间的对应关系,确定所述待分类网页的类型。
[0149]
如此,通过本公开实施例提供的网页分类方法,一方面基于人工智能可以提升网页分类的准确性;另一方面使用体积较小的分类子模型和分词子模型,可以降低网页分类过程中对终端性能的影响;此外,确定网页类型后,将url与网页类型之间的对应关系存储在电子设备中,一方面能够提升网页类型分类的效率和准确性,另一方面,电子设备中只存储与所述电子设备的用户的操作所对应的url与网页类型的对应关系,相当于提供了一个轻量且可定制的host列表,便于后续根据用户的历史记录精准投放用户感兴趣的内容。
[0150]
图7是本公开实施例提供的网页分类模型的训练方法的一种可选流程示意图,将根据各个步骤进行说明。
[0151]
步骤s601,分别对第一样本集包括的统一资源定位系统url样本子集和url样本子集对应的超文本标记语言html样本子集进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量。
[0152]
在一些实施例中,所述网页分类模型的训练装置可以获取url样本子集和所述url样本子集对应的html样本子集;基于所述url样本子集和所述html样本子集确定第一训练样本集。
[0153]
在另一些实施例中,所述网页分类模型的训练装置可以提取所述url样本子集中url样本对应的html样本的样本标签、至少一个样本关键字和样本标签中至少之一,所述第二样本特征向量用于表示提取的所述html样本中的样本特征;所述网页分类模型的训练装置还可以对所述url样本进行特征提取,得到所述第一样本特征。
[0154]
步骤s602,基于所述分词子模型对所述第一样本特征向量和所述第二样本特征向量进行预处理,得到目标样本特征向量。
[0155]
在一些实施例中,所述网页分类模型的训练装置基于所述分词子模型对所述第一样本特征向量和所述第二样本特征向量进行拼接处理,得到所述目标样本特征向量。
[0156]
在一些实施例中,所述网页分类模型的训练装置可以对所述第一样本特征向量和所述第二样本特征向量进行拼接处理,得到所述目标样本特征向量;其中,所述第一样本特征向量在所述目标样本特征向量中的位置可以位于所述第二样本特征向量之前,也可以位于所述第二样本特征向量之后。
[0157]
在一些可选实施例中,所述网页分类模型的训练装置还可以对所述目标样本特征向量执行:去除所述目标样本特征向量中的第一类型字符;截取所述目标样本特征向量中第一长度字符;对所述第一长度字符进行分词处理,得到分词结果;合并所述分词结果中相邻且相同的字符中至少一种。其中,所述第一类型字符可以包括标点的符号和/或英文。并且,在截取时,若第一样本特征向量在所述目标样本特征向量中的位置位于所述第二样本特征向量之前,则所述第一样本特征向量所表示的特征不会被截取,所述第二样本特征向量所表示的部分特征被截取。
[0158]
在一些可选实施例中,可以基于分词子模型对所述第一长度的字符或目标特征向量进行分词处理,得到分词结果。所述网页分类模型的训练装置还可以获取url样本子集和所述url样本子集对应的html样本子集;基于所述url样本子集和所述html样本子集确定第一训练样本集。
[0159]
具体实施时,所述网页分类模型的训练装置可以获取一定数量的不同类型的网页样本的url,构成所述url样本子集;基于爬虫控制器控制第一电子设备(可以是所述装置对应的电子设备,还可以是预先设置的至少一个第一电子设备,本公开不做具体限制)打开所述url样本子集中每一个url(所述装置可以启动第一电子设备中相应的应用程序,例如浏览器类应用程序打开url),完成所述每一个url对应的网页的首屏绘制之后,将对应的html存储在所述第一电子设备内部,所述爬虫控制器获取所述html样本子集,基于所述url样本子集和所述html样本子集确定第一训练样本集。
[0160]
在一些可选实施例中,所述网页分类模型的训练装置还可以分别对url样本子集进行解析,并提取所述url样本子集中每一个url中的协议、主机名、域名、端口号、路径、参数、查询信息和信息片段中至少一种;以及,对所述html样本子集进行解析并提取所述url对应的html的标签、至少一个关键字和标题中至少之一。可选的,所述装置还可以存储提取所述url样本子集和所述html样本子集中的特征。
[0161]
在一些实施例中,所述网页分类模型的训练装置可以基于所述分词子模型确定第一训练样本集对应的目标样本特征向量;确定与所述第一训练样本集对应的目标标记特征向量和所述目标样本特征向量之间的差异;基于所述目标标记特征向量和所述目标样本特征向量之间的差异,调整所述分词子模型的模型参数。
[0162]
具体实施时,所述网页分类模型的训练装置可以将所述第一训练样本集拆分为第一训练样本子集、第一测试样本子集和第一验证样本子集;在所述分词子模型训练之前,确定所述分词子模型的超参数的范围;基于所述第一训练样本子集、第一测试样本子集和第一验证样本子集对所述分词子模型进行训练,基于训练结果,调整所述分词子模型的参数;对调整参数的分词子模型进行评估,得到所述分词子模型的模型评估指标;基于所述分词子模型的模型评估指标,调整所述分词子模型的参数。可选的,可以使用梯度下降的方式调整所述分词子模型的参数,直至所述分词子模型的模型评估指标大于或等于第一指标。其中,所述第一指标用于指示模型评估标准,若所述分词子模型的模型评估指标大于或等于所述第一指标,表征所述分词子模型不需要进一步训练。
[0163]
步骤s603,将所述目标特征向量输入至所述分类子模型,基于所述分类子模型的输出,确定所述第一样本集的预测类型。
[0164]
在一些实施例中,所述网页分类模型的训练装置将所述目标特征向量输入至所述
分类子模型,基于所述分类子模型的输出,确定所述第一样本集的预测类型。
[0165]
在一些可选实施例中,所述网页分类模型的训练装置可以基于所述分类子模型确定所述第一训练样本集对应的特征向量样本集;基于所述分类子模型确定所述特征向量样本集对应的预测类型;确定与所述特征向量样本集对应的标记类型和所述预测类型之间的差异;基于所述标记类型和所述预测类型之间的差异,调整所述分类子模型的参数。
[0166]
具体实施时,所述网页分类模型的训练装置可以获取所述第一训练样本集中每一个训练样本经过去除第一类字符、截取第一长度、基于分词子模型对第一长度的字符进行分词处理得到分词结果以及合并所述分词结果中相邻且相同的字符中至少一种处理后,得到的第二训练样本集;所述装置基于所述分类子模型确定所述第二训练样本集中每一个训练样本中的特征对应的特征向量,构成特征向量样本集。
[0167]
具体实施时,所述网页分类模型的训练装置还可以将所述第二训练样本集拆分为第二训练样本子集、第二测试样本子集和第二验证样本子集;在所述分类子模型训练之前,确定所述分类子模型的超参数的范围;基于所述第二训练样本子集、第二测试样本子集和第二验证样本子集对所述分类子模型进行训练,基于训练结果,调整所述分类子模型的参数;对调整参数的分类子模型进行评估,得到所述分类子模型的模型评估指标;基于所述分类子模型的模型评估指标,调整所述分类子模型的参数。可选的,可以使用梯度下降的方式调整所述分类子模型的参数,直至所述分类子模型的模型评估指标大于或等于第二指标。其中,所述第二指标用于指示模型评估标准,若所述分类子模型的模型评估指标大于或等于所述第二指标,表征所述分类子模型不需要进一步训练。
[0168]
步骤s604,匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数;和/或,匹配所述第一样本集的预测类型和所述第一样本集的标记类型,基于匹配结果调整所述分类子模型的参数。
[0169]
在一些实施例中,若所述目标样本特征向量与所述目标标记特征向量相同,则所述网页分类模型的训练装置确定不调整所述分词子模型的参数;或者,若所述目标样本特征向量与所述目标标记特征向量不同,则所述网页分类模型的训练装置基于所述目标样本特征向量与所述目标标记特征向量之间的差异调整所述分词子模型。
[0170]
在另一些实施例中,若所述预测类型与所述标记类型相同,则所述网页分类模型的训练装置确定不调整所述分类子模型的参数;或者,若所述预测类型与所述标记类型不同,则所述网页分类模型的训练装置基于所述预测类型与所述标记类型之间的差异调整所述分类子模型。
[0171]
如此,通过本公开实施例提供的网页分类模型的训练方法,可以有效训练分词子模型和分类子模型,为后续网页分类提供有力支撑。
[0172]
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0173]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0174]
图8是本公开实施例提供的网页分类装置的一种可选结构示意图,将根据各个部分进行说明。
[0175]
在一些实施例中,网页分类装置200包括:第一提取单元201、第一预处理单元202
和第一确定单元203。
[0176]
所述第一提取单元201,用于分别对待分类网页的url和url对应的html进行特征提取,得到所述待分类网页对应的第一特征向量和第二特征向量;
[0177]
所述第一预处理单元202,用于对所述第一特征向量和所述第二特征向量进行预处理,得到目标特征向量;
[0178]
所述第一确定单元203,用于基于所述目标特征向量,确定所述待分类网页的类型。
[0179]
所述第一提取单元201,具体用于加载所述待分类网页的url;基于所述url确认所述待分类网页对应的页面;基于所述待分类网页对应的页面得到url对应的html;对所述url进行特征提取,得到所述url对应的所述第一特征向量;对所述html进行特征提取,得到所述html对应的所述第二特征向量。
[0180]
所述第一提取单元201,具体用于提取所述url对应的html的标签、至少一个关键字和标题中至少之一,所述第二特征向量用于表示提取的所述html中的特征。
[0181]
所述第一预处理单元202,具体用于对所述第一特征向量和所述第二特征向量进行拼接处理,得到所述目标特征向量。
[0182]
所述第一预处理单元202,还用于实现以下之一:
[0183]
去除所述目标特征向量中的第一类型字符;
[0184]
截取所述目标特征向量中第一长度字符;
[0185]
对所述第一长度字符进行分词处理,得到分词结果;
[0186]
合并所述分词结果中相邻且相同的字符。
[0187]
所述第一确定单元203,还用于将所述目标特征向量作为分类子模型的输入,基于所述分类子模型的输出,确定所述待分类网页的类型。
[0188]
图9是本公开实施例提供的网页分类模型的训练装置的可选结构示意图,将根据各个部分进行说明。
[0189]
在一些实施例中,所述网页分类模型700包括:第二提取单元701、第二预处理单元702、第二确定单元703和匹配单元704。
[0190]
所述第二提取单元701,用于分别对第一样本集包括的统一资源定位系统url样本子集和url样本子集对应的超文本标记语言html样本子集进行特征提取,得到所述第一样本集对应的第一样本特征向量和第二样本特征向量;
[0191]
所述第二预处理单元702,用于基于所述分词子模型对所述第一样本特征向量和所述第二样本特征向量进行预处理,得到目标样本特征向量;
[0192]
所述第二确定单元703,用于将所述目标特征向量输入至所述分类子模型,基于所述分类子模型的输出,确定所述第一样本集的预测类型;
[0193]
所述匹配单元704,用于匹配所述目标样本特征向量和第一样本集对应的目标标记特征向量,基于匹配结果调整所述分词子模型的参数;和/或,匹配所述第一样本集的预测类型和所述第一样本集的标记类型,基于匹配结果调整所述分类子模型的参数。
[0194]
所述第二确定单元703,还用于获取url样本子集和所述url样本子集对应的html样本子集;基于所述url样本子集和所述html样本子集确定第一训练样本集。
[0195]
所述匹配单元704,具体用于若所述目标样本特征向量与所述目标标记特征向量
相同,则确定不调整所述分词子模型的参数;或者,若所述目标样本特征向量与所述目标标记特征向量不同,则基于所述目标样本特征向量与所述目标标记特征向量之间的差异调整所述分词子模型。
[0196]
所述匹配单元704,具体用于若所述预测类型与所述标记类型相同,则确定不调整所述分类子模型的参数;或者,若所述预测类型与所述标记类型不同,则基于所述预测类型与所述标记类型之间的差异调整所述分类子模型。
[0197]
图10示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0198]
如图10所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0199]
电子设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0200]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如网页分类方法或网页分类模型的训练方法。例如,在一些实施例中,网页分类方法或网页分类模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的网页分类方法或网页分类模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行网页分类方法或网页分类模型的训练方法。
[0201]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至
少一个输出装置。
[0202]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0203]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0204]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0205]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0206]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0207]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0208]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1