一种网页类型识别方法及装置与流程

文档序号:18797297发布日期:2019-09-29 19:53阅读:158来源:国知局
本申请涉及互联网
技术领域
:,特别是涉及一种网页类型识别方法及装置。
背景技术
::在网络安全监控中,常常需要分析确定用户访问了哪些网页,以及网页的类型。其中,网页的类型包括新闻、视频、论坛、金融等。从而基于网页的类型,分析用户的行为特征。目前,网页类型的识别依赖于记录各种类型的网页的方式实现。具体的,管理人员将多种类型的网页记录在数据库中。电子设备获取到待识别网页后,在数据库中查找与待识别网页相同的网页,将查找到的网页的类型确定为待识别网页的类型。采用上述方式识别网页类型,需要耗费大量的人力构建数据库,且只能识别已知类型的网页,有效识别的网页类型数量有限。技术实现要素:本申请实施例的目的在于提供一种网页类型识别方法及装置,以减少网页类型识别耗费的人力,实现对未知类型的网页的识别,增加有效识别的网页类型数量。具体技术方案如下:第一方面,本申请实施例提供了一种网页类型识别方法,所述方法包括:对待识别网页上的文本内容进行分词处理,得到至少一个文本词语;统计每一文本词语的tf-idf(termfrequency-inversedocumentfrequency,词频-逆向文件频率)权重;统计所述待识别网页中每一html(hypertextmarkuplanguage,超文本标记语言)标签的出现次数占总出现次数的比重,所述总出现次数为所述待识别网页中所有html标签的出现次数之和;根据每一文本词语的tf-idf权重和每一html标签的比重,构建所述待识别网页对应的第一预设数量维的特征向量;将所述待识别网页对应的特征向量输入预设向量分类模型,获得所述待识别网页的类型。第二方面,本申请实施例提供了一种网页类型识别装置,所述装置包括:第一分词单元,用于对待识别网页上的文本内容进行分词处理,得到至少一个文本词语;第一统计单元,用于统计每一文本词语的tf-idf权重;第二统计单元,用于统计所述待识别网页中每一html标签的出现次数占总出现次数的比重,所述总出现次数为所述待识别网页中所有html标签的出现次数之和;第一构建单元,用于根据每一文本词语的tf-idf权重和每一html标签的比重,构建所述待识别网页对应的第一预设数量维的特征向量;第一识别单元,用于将所述待识别网页对应的特征向量输入预设向量分类模型,获得所述待识别网页的类型。第三方面,本申请实施例提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现第一方面提供的任一所述的方法步骤。第四方面,本申请实施例提供了一种机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现第一方面提供的任一所述的方法步骤。本申请实施例提供的一种网页类型识别方法及装置,电子设备利用多个样本网页和样本网页的类型,预先训练获得向量分类模型。电子设备结合待识别网页的文本词语的tf-idf权重和html标签的比重,构建待识别网页对应的第一预设数量维的特征向量,将待识别网页对应的特征向量输入预先训练得到的向量分类模型,获得待识别网页的类型。通过本申请实施例提供的技术方案,利用预设向量分类模型来识别网页的类型,不必构建包括多种类型的网页的数据库,减少了网页类型识别耗费的人力。另外,预设向量分类模型可根据实际需要进行训练调整,进而电子设备可通过预设向量分类模型,实现对已知网页或未知网页的类型识别,增加了有效识别的网页类型数量。当然,实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的模型训练方法的一种流程示意图;图2为本申请实施例提供的网页类型识别方法的一种流程示意图;图3为本申请实施例提供的网页类型识别装置的一种结构示意图;图4为本申请实施例提供的电子设备的一种结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。目前,网页类型的识别依赖于记录各种类型的网页的方式实现。这需要耗费大量的人力构建包括多种类型的网页的数据库。另外,数据库中记录的为已知类型的网页,因此,在上述网页类型的识别中,只能识别已知类型的网页,有效识别的网页类型数量有限。为了减少网页类型识别耗费的人力,实现对未知类型的网页的识别,增加有效识别的网页类型数量,本申请实施例提供了一种网页类型识别方法。该网页类型识别方法可以应用于手机、笔记本、服务器等任一电子设备。该网页类型识别方法中,电子设备利用多个样本网页和样本网页的类型,预先训练获得向量分类模型。电子设备结合待识别网页的文本词语的tf-idf权重和html标签的比重,构建待识别网页对应的第一预设数量维的特征向量,将待识别网页对应的特征向量输入预先训练得到的向量分类模型,获得待识别网页的类型。通过本申请实施例提供的技术方案,利用预设向量分类模型来识别网页的类型,不必构建包括多种类型的网页的数据库,减少了网页类型识别耗费的人力。另外,预设向量分类模型可根据实际需要进行训练调整,进而电子设备可通过预设向量分类模型,实现对已知网页或未知网页的类型识别,增加了有效识别的网页类型数量。下面通过具体实施例,对本申请实施例提供的网页类型识别方法进行说明。参考图1,图1为本申请实施例提供的模型训练方法的一种流程示意图。为便于描述,下面以电子设备为执行主体进行说明。该模型训练方法包括如下步骤。步骤101,获取预设训练集,预设训练集包括多个样本网页以及每一样本网页的类型。其中,网页的类型包括新闻、视频、论坛、金融等。在训练向量分类模型时,电子设备获取预设训练集。为提高训练得到的向量分类模型识别待识别网页的类型的准确性,电子设备获取的预设训练集包括的样本网页的数量越多越好。步骤102,对多个样本网页上的文本内容进行分词处理,得到每一样本网页的至少一个文本词语。电子设备获取到多个样本网页后,对于每一样本网页,提取该样本网页上的文本内容,对提取的文本内容进行分词处理,得到该样本网页的至少一个文本词语。在本申请的一个实施例中,电子设备对提取的文本内容进行分词处理之后,可以删除分词处理后得到的多个词语中的无用词语,将剩余的词语作为该样本网页的文本词语。其中,无用词语为对识别网页类型没有用途的文字,例如,“我们”、“他们”、“今天”和“昨天”等。这样,可以减轻模型训练、网页类型识别的计算量,减轻电子设备的负担,提高模型训练、网页类型识别的效率。在本申请的一个实施例中,电子设备确定每一样本网页的至少一个文本词语的过程可以包括如下步骤。步骤1021,对多个样本网页中的文字内容进行分词处理,得到每一样本网页的至少一个文字词语。本申请实施例中,网页的页面中存在着大量的文字内容。对于多个样本网页中的每一样本网页,电子设备提取该样本网页中的文字内容,对提取的文字内容进行分词处理,得到该样本网页的至少一个文字词语。步骤1022,对多个样本网页上的链接进行分词处理,得到每一样本网页的至少一个字符串。本申请实施例中,网页上包括许多链接。例如,网页a上包括跳转至网页b的链接。链接中包括很多字符。对于多个样本网页中的每一样本网页,电子设备提取该样本网页上所有链接,对提取的链接进行分词处理,得到该样本网页的至少一个字符串。步骤1023,对于每一样本网页,将该样本网页的至少一个文字词语和该样本网页的至少一个字符串组合,得到该样本网页的至少一个文本词语。电子设备在确定每一样本网页的至少一个文字词语,以及每一样本网页的至少一个字符串之后,对于每一样本网页,将该样本网页的至少一个文字词语和该样本网页的至少一个字符串组合,得到该样本网页的至少一个文本词语。例如,电子设备确定样本网页a的文字词语有{文字词语1,文字词语2,文字词语3,文字词语2}。电子设备确定样本网页a的字符串有{字符串1,字符串2,字符串3,字符串1}。电子设备可确定样本网页a的文本词语有{文字词语1,文字词语2,文字词语3,文字词语2,字符串1,字符串2,字符串3,字符串1}。本申请实施例中,样本网页的文本词语,既考虑了样本网页中的文字内容,还考虑了样本网页上的链接,丰富了样本网页的文本词语的种类,也就是增加了网页类型识别的特征的种类,提取的文本词语能够更高程度地表征样本网页的特征,提高了网页类型识别的准确性。步骤103,统计每一样本网页的至少一个文本词语中每一文本词语的tf-idf权重。在本申请的一个实施例中,对于每一样本网页,电子设备利用以下公式(1),确定该样本网页的至少一个文本词语中每一文本词语的词频tfw:其中,w表示该样本网页的至少一个文本词语中的文本词语w,tw表示文本词语w在该样本网页的至少一个文本词语中出现的次数,t0表示该样本网页的至少一个文本词语的总个数。对于每一样本网页,电子设备利用以下公式(2),确定该样本网页的至少一个文本词语中每一文本词语的逆向文件频率idfw:其中,w表示该样本网页的至少一个文本词语中的文本词语w,fw表示预设语料库中包括文本词语w的网页的个数;f0表示预设语料库中包括的网页的总个数。预设语料库包括大量的网页和网页的文本词语的对应关系。一个实施例中,电子设备可以通过网络爬手等工具获取到大量的网页,并对网页进行分词处理,得到网页的文本词语,进而构建预设语料库。另一个实施例中,电子设备可以从其他电子设备获取语料库,存储都在本地,作为预设语料库。本申请实施例还可以通过其他方式获得预设语料库,对比不做还具体限定。对于每一样本网页,电子设备利用以下公式(3),确定该样本网页的至少一个文本词语中每一文本词语的tf-idf权重δw:δw=tfw*idfw(3)其中,w表示该样本网页的至少一个文本词语中的文本词语w,tfw表示该样本网页的文本词语w的词频,idfw表示该样本网页的文本词语w的逆向文件频率。例如,对于样本网页b中,文本词语x1在样本网页b的文本词语中出现的次数tx1为2,样本网页b的文本词语的总个数t0为10。预设语料库中包括文本词语x1的网页的个数fx1为10,预设语料库中包括的网页的总个数f0为100。电子设备可确定tfx1=2/10=0.2,idfx1=log(100/10)=1,进而确定文本词语x1的tf-idf权重δx1=0.2*1=0.2。在本申请的另一个实施例中,为了提高文本词语的tf-idf权重计算的防滑效果,上述公式(2)可以变形为公式(4)。电子设备结合公式(1)、(4)和(3),确定该样本网页的每一文本词语的tf-idf权重。步骤104,统计每一样本网页中每一html标签的出现次数占总出现次数的比重。每一样本网页对应的总出现次数为该样本网页中所有html标签的出现次数之和。本申请实施例中,html标签包括但不限于<title>、<track>、<textarea>、<strong>、<link>、<figure>、<code>、<audio>、<applet>、<video>、<wbr>、<table>和<source>等。对于每一样本网页,电子设备获取该样本网页中包括的html标签,统计该样本网页中每一html标签的出现次数,以及该样本网页中所有html标签的出现次数之和,即总出现次数,进而统计该样本网页中每一html标签的出现次数占总出现次数的比重。例如,电子设备统计样本网页b中,<title>标签的出现次数为6次,<link>标签的出现次数为10次,<code>标签的出现次数为4次,其他标签的出现次数为0次。则电子设备可统计得到<title>标签的比重为6/(6+10+4)=0.3,<link>标签的比重为10/(6+10+4)=0.5,<code>标签的比重为4/(6+10+4)=0.2,其他标签的比重为0/(6+10+4)=0。本申请实施例中,电子设备利用了文字无法描述,但html标签可以表示的特征,增加了网页类型识别的特征的种类,提高了网页类型识别的准确率。本申请实施例中不限定步骤102和步骤104的执行顺序。步骤102可以在步骤104之前执行,也可以在步骤104之后执行,还可以与步骤104同时执行。步骤105,根据每一样本网页的每一文本词语的tf-idf权重和每一html标签的比重,构建每一样本网页对应的第一预设数量维的特征向量。其中,第一预设数量可以根据实际需求进行设定。一个示例中,电子设备可以根据能够得到的文本词语的种类数以及设置的html标签的种类数设置。例如,能够得到的文本词语的种类数为100,设置的html标签的种类数为10,第一预设数量大于等于100+10。对于每一样本网页,电子设备根据该样本网页的每一文本词语的tf-idf权重和每一html标签的比重,构建该样本网页对应的第一预设数量维的特征向量。在本申请的一个实施例中,对于每一样本网页,电子设备采用如下方式确定该样本网页对应的第一预设数量维的特征向量。步骤1051,确定该样本网页的至少一个文本词语中tf-idf权重最高的第二预设数量个文本词语,为该样本网页的网页代表词。一个可选的实施例中,对于每一样本网页,电子设备检测该样本网页的至少一个文本词语的总个数是否小于第二预设数量。如果小于第二预设数量,则电子设备获取目标数量个空白格,目标数量为第二预设数量与该样本网页的至少一个文本词语的总个数的差值。电子设备将该样本网页的至少一个文本词语和目标数量个空白格,作为该样本网页的网页代表词。如果大于等于第二预设数量,则电子设备从该样本网页的至少一个文本词语中,提取tf-idf权重最高的第二预设数量个文本词语,作为该样本网页的网页代表词。例如,第二预设数量为100。对于样本网页c,电子设备若从样本网页c中提取到的文本词语个数为80,80<100,则获取100-80=20个空白格,则将从样本网页c中提取到的80个文本词语以及20个空白格组合,作为样本网页c的100个网页代表词。电子设备若从样本网页c中提取到的文本词语个数为110,110>100,则对从这110个文本词语中,提取tf-idf权重最高的前100个文本词语,作为样本网页c的网页代表词。一个实施例中,为提高确定网页代表词的遍历性,如果样本网页的至少一个文本词语的总个数大于等于第二预设数量,则电子设备按照tf-idf权重从大到小的顺序对该样本网页的至少一个文本词语进行排序,提取tf-idf权重最高的前第二预设数量个文本词语,作为该样本网页的网页代表词。步骤1052,根据该样本网页的每一网页代表词的tf-idf权重和每一html标签的比重,构建每一样本网页对应的第一预设数量维的特征向量。其中,第二预设数量小于第一预设数量。一个示例中,第二预设数量可以为100,第一预设数量可以为20000。另一个示例中,第二预设数量可以为5,第一预设数量可以为20。预设的html标签的种类数为5。预设的第一预设数量维的特征向量中元素对应的网页代表词以及html标签的分布,如表1所示。表1若样本网页d的网页代表词包括词语3和词语4,样本网页d的html标签包括html标签的1和html标签的4。则在样本网页d对应的20维的特征向量中,在位置为3、4、16和19处有值。若样本网页d中,词语3的tf-idf权重为0.2,词语4的tf-idf权重为0.4,html标签的1的比重为0.3,html标签的4的比重为0.7,则样本网页d对应的20维的特征向量为{0,0,0.2,0.4,0,0,0,0,0,0,0,0,0,0,0,0.3,0,0,0.7,0}。步骤106,利用每一样本网页对应的特征向量以及每一样本网页的类型,训练预设机器学习分类算法,得到预设向量分类模型。本申请实施例中,预设机器学习分类算法包括但不限于逻辑回归算法、支持向量机、决策树和神经网络等。上述样本网页的类型即为样本网页的真实类型。具体的,电子设备训练预设机器学习分类算法,得到预设向量分类模型的过程包括如下。电子设备将每一样本网页对应的特征向量分别输入预设机器学习分类算法,得到每一样本网页的预测类型。电子设备基于每一样本网页的真实类型与每一样本网页的预测类型,确定网页类型识别的正确率。若正确率小于等于预设阈值,则电子设备可采用反向传播算法、梯度下降算法等,调节预设机器学习分类算法的参数,之后重新将每一样本网页对应的特征向量分别输入预设机器学习分类算法,得到每一样本网页的预测类型。若正确率大于预设阈值,则电子设备将训练后的预设机器学习分类算法作为预设向量分类模型。通过本申请实施例提供的技术方案,利用基于多个样本网页训练得到的预设向量分类模型来识别网页的类型,不必构建包括多种类型的网页的数据库,减少了网页类型识别耗费的人力,可较好的满足网页类型识别的工程需求。另外,预设向量分类模型是基于多个样本网页训练得到的,电子设备可通过预设向量分类模型,实现对已知网页或未知网页的类型识别,增加了有效识别的网页类型数量。本申请实施例中,将网页的文本词语和样本网页的html标签共同作为网页类型识别特征,构造网页对应的特征向量,增加了网页类型识别的特征的种类,使得网页对应的特征向量具有很好的代表性和区分性,提高了网页类型识别的准确性和全面性。基于上述训练得到的向量分类模型,本申请实施例提供了一种网页类型识别方法。参考图2,图2为本申请实施例提供的网页类型识别方法的一种流程示意图,该方法包括如下步骤。步骤201,对待识别网页上的文本内容进行分词处理,得到至少一个文本词语。本申请实施例中,电子设备获取到待识别网页后,提取待识别网页上的文本内容,对提取的文本内容进行分词处理,得到待识别网页的至少一个文本词语。在本申请的一个实施例中,电子设备对提取的文本内容进行分词处理之后,可以删除分词处理后得到的多个词语中的无用词语,将剩余的词语作为待识别网页的文本词语。在本申请的一个实施例中,电子设备可以采用如下方式确定待识别网页的至少一个文本词语。具体的,电子设备对待识别网页中的文字内容进行分词处理,得到至少一个文字词语。电子设备对待识别网页上的链接进行分词处理,得到至少一个字符串。电子设备将至少一个文字词语和至少一个字符串组合,得到待识别网页的至少一个文本词语。步骤202,统计每一文本词语的tf-idf权重。在本申请的一个实施例中,电子设备利用以下公式(1),确定待识别网页的至少一个文本词语中每一文本词语的tfw。其中,w表示待识别网页的至少一个文本词语中的文本词语w,tw表示文本词语w在待识别网页的至少一个文本词语中出现的次数,t0表示待识别网页的至少一个文本词语的总个数。电子设备利用以下公式(2),确定待识别网页的至少一个文本词语中每一文本词语的idfw:其中,w表示待识别网页的至少一个文本词语中的文本词语w,fw表示预设语料库中包括文本词语w的网页的个数;f0表示预设语料库中包括的网页的总个数。电子设备利用以下公式(3),确定待识别网页的至少一个文本词语中每一文本词语的tf-idf权重δw:δw=tfw*idfw(3)其中,w表示待识别网页的至少一个文本词语中的文本词语w,tfw表示待识别网页的文本词语w的词频,idfw表示待识别网页的文本词语w的逆向文件频率。在本申请的另一个实施例中,为了提高文本词语的tf-idf权重计算的防滑效果,上述公式(2)可以变形为公式(4)。电子设备结合公式(1)、(4)和(3),确定该样本网页的每一文本词语的tf-idf权重。步骤203,统计待识别网页中每一html标签的出现次数占总出现次数的比重,总出现次数为待识别网页中所有html标签的出现次数之和。电子设备获取待识别网页中包括的html标签,统计待识别网页中每一html标签的出现次数,以及待识别网页中所有html标签的出现次数之和,即总出现次数,进而统计待识别网页中每一html标签的出现次数占总出现次数的比重。本申请实施例中不限定步骤201和步骤203的执行顺序。步骤201可以在步骤203之前执行,也可以在步骤203之后执行,还可以与步骤203同时执行。步骤204,根据每一文本词语的tf-idf权重和每一html标签的比重,构建待识别网页对应的第一预设数量维的特征向量。其中,第一预设数量可以根据实际需求进行设定。电子设备根据待识别网页的每一文本词语的tf-idf权重和每一html标签的比重,构建待识别网页对应的第一预设数量维的特征向量。在本申请的一个实施例中,电子设备采用如下方式确定待识别网页对应的第一预设数量维的特征向量。具体的,电子设备确定至少一个文本词语中tf-idf权重最高的第二预设数量个文本词语,为待识别网页的网页代表词。电子设备根据每一网页代表词的tf-idf权重和每一html标签的比重,构建待识别网页对应的第一预设数量维的特征向量。其中,第二预设数量小于第一预设数量。一个可选的实施例中,电子设备检测待识别网页的至少一个文本词语的总个数是否小于第二预设数量。如果小于第二预设数量,则电子设备获取目标数量个空白格,目标数量为第二预设数量与至少一个文本词语的总个数的差值。电子设备将待识别网页的至少一个文本词语和目标数量个空白格,作为待识别网页的网页代表词。如果大于等于第二预设数量,则电子设备从待识别网页的至少一个文本词语中,提取tf-idf权重最高的第二预设数量个文本词语,作为待识别网页的网页代表词。步骤205,将待识别网页对应的特征向量输入预设向量分类模型,获得待识别网页的类型。上述预设向量分类模型可以为预先设定的机器学习分类算法。机器学习分类算法包括但不限于逻辑回归算法、支持向量机、决策树和神经网络等。上述预设向量分类模型也可以为对机器学习分类算法进行训练得到的向量分类模型。例如,上述预设向量分类模型采用如图1所示的模型训练方法训练得到的向量分类模型。本申请实施例对此不进行限定。上述步骤201-205部分的描述相对简单,具体可参考上述步骤101-105部分的相关描述。上述网页类型识别方法和上述模型训练方法可以在同一设备上执行,可以在不同设备上执行。本申请实施例对此不进行限定。通过本申请实施例提供的技术方案,利用预设向量分类模型来识别网页的类型,不必构建包括多种类型的网页的数据库,减少了网页类型识别耗费的人力。另外,预设向量分类模型可根据实际需要进行训练调整,进而电子设备可通过预设向量分类模型,实现对已知网页或未知网页的类型识别,增加了有效识别的网页类型数量。另外,相对于采用数据库识别网页特征,利用预设向量分类模型来识别网页的类型,大大减小了电子设备的计算量,提高了网页类型识别的效率。与上述图1-2所示的模型训练方法和网页类型识别方法对应,本申请实施例提供了一种网页类型识别装置。参考图3,图3为本申请实施例提供的网页类型识别装置的一种结构示意图。该装置包括:第一分词单元301、第一统计单元302、第二统计单元303、第一构建单元304和第一识别单元305。第一分词单元301,用于对待识别网页上的文本内容进行分词处理,得到至少一个文本词语;第一统计单元302,用于统计每一文本词语的tf-idf权重;第二统计单元303,用于统计待识别网页中每一html标签的出现次数占总出现次数的比重,总出现次数为待识别网页中所有html标签的出现次数之和;第一构建单元304,用于根据每一文本词语的tf-idf权重和每一html标签的比重,构建待识别网页对应的第一预设数量维的特征向量;第一识别单元305,用于将待识别网页对应的特征向量输入预设向量分类模型,获得待识别网页的类型。一个可选的实施例中,第一分词单元301,具体可以用于:对待识别网页中的文字内容进行分词处理,得到至少一个文字词语;对待识别网页上的链接进行分词处理,得到至少一个字符串;将至少一个文字词语和至少一个字符串组合,得到待识别网页的至少一个文本词语。一个可选的实施例中,第一统计单元302,具体可以用于:利用以下公式,确定至少一个文本词语中每一文本词语的词频tfw:利用以下公式,确定至少一个文本词语中每一文本词语的逆向文件频率idfw:利用以下公式,确定至少一个文本词语中每一文本词语的tf-idf权重δw:δw=tfw*idfw;其中,w表示至少一个文本词语中的文本词语w,tw表示文本词语w在至少一个文本词语中出现的次数,t0表示至少一个文本词语的总个数;fw表示预设语料库中包括文本词语w的网页的个数;f0表示预设语料库中包括的网页的总个数。一个可选的实施例中,第一构建单元304,具体可以用于:确定至少一个文本词语中tf-idf权重最高的第二预设数量个文本词语,为待识别网页的网页代表词;根据每一网页代表词的tf-idf权重和每一html标签的比重,构建待识别网页对应的第一预设数量维的特征向量,第二预设数量小于第一预设数量。一个可选的实施例中,第一构建单元304,具体可以用于:检测至少一个文本词语的总个数是否小于第二预设数量;若是,则获取目标数量个空白格,目标数量为第二预设数量与至少一个文本词语的总个数的差值;以及,将至少一个文本词语和目标数量个空白格,作为待识别网页的网页代表词;若否,则从至少一个文本词语中,提取tf-idf权重最高的第二预设数量个文本词语,作为待识别网页的网页代表词。一个可选的实施例中,上述网页类型识别装置还可以包括:第二获取单元,用于获取预设训练集,预设训练集包括多个样本网页以及每一样本网页的类型;第二分词单元,用于对每一样本网页上的文本内容进行分词处理,得到每一样本网页的至少一个文本词语;第三统计单元,用于统计每一样本网页的至少一个文本词语中每一文本词语的tf-idf权重;第四统计单元,用于统计每一样本网页中每一html标签的出现次数占总出现次数的比重;第二构建单元,用于根据每一样本网页的每一文本词语的tf-idf权重和每一html标签的比重,构建每一样本网页对应的第一预设数量维的特征向量;训练单元,用于利用每一样本网页对应的特征向量以及每一样本网页的类型,训练预设机器学习分类算法,得到预设向量分类模型。通过本申请实施例提供的技术方案,利用预设向量分类模型来识别网页的类型,不必构建包括多种类型的网页的数据库,减少了网页类型识别耗费的人力。另外,预设向量分类模型可根据实际需要进行训练调整,进而电子设备可通过预设向量分类模型,实现对已知网页或未知网页的类型识别,增加了有效识别的网页类型数量。与上述图1-2所示的模型训练方法和网页类型识别方法对应,本申请实施例还提供了一种电子设备,如图4所示,包括处理器401和机器可读存储介质402,机器可读存储介质402存储有能够被处理器401执行的机器可执行指令。处理器401被机器可执行指令促使实现上述图1-图2所示的任一步骤。一个可选的实施例中,如图4所示,电子设备还可以包括:通信接口403和通信总线404;其中,处理器401、机器可读存储介质402、通信接口403通过通信总线404完成相互间的通信,通信接口403用于上述电子设备与其他设备之间的通信。与上述图1-2所示的模型训练方法和网页类型识别方法对应,本申请实施例还提供了一种机器可读存储介质,机器可读存储介质存储有能够被处理器执行的机器可执行指令。处理器被机器可执行指令促使实现上述图1-图2所示的任一步骤。上述通信总线可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。上述机器可读存储介质可以包括ram(randomaccessmemory,随机存取存储器),也可以包括nvm(non-volatilememory,非易失性存储器),例如至少一个磁盘存储器。另外,机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。上述处理器可以是通用处理器,包括cpu(centralprocessingunit,中央处理器)、np(networkprocessor,网络处理器)等;还可以是dsp(digitalsignalprocessing,数字信号处理器)、asic(applicationspecificintegratedcircuit,专用集成电路)、fpga(field-programmablegatearray,现场可编程门阵列)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于基于网页类型识别装置、电子设备、机器可读存储介质实施例而言,由于其基本相似于基于网页类型识别方法实施例,所以描述的比较简单,相关之处参见基于网页类型识别方法实施例的部分说明即可。以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1