网页的识别方法及装置的制造方法

文档序号：8502170阅读：185来源：国知局

网页的识别方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机领域，尤其涉及一种网页的识别方法及装置。
【背景技术】
[0002] 随着移动互联网的发展，人们使用移动终端可以便捷地访问互联网，可以获得各种信息。但是随着网页类别的众多，在访问网页的同时，往往会出现一些网络欺诈、色情等垃圾网页，给人们的使用带来了困扰。
[0003] 目前的解决方法是通过预先建立一组与体现垃圾网页的特征的关键词库，然后将要识别的网页中的词汇与所述关键词库中的关键词进行匹配，若匹配的词汇个数达到一定的阈值时，则识别该网页为垃圾网页。
[0004] 上述网页的识别方法中，由于网页内容的多样性，无法保证关键词库可以包含所有体现垃圾网页的特征的关键词，而且还可能对一些包含该关键词的安全网页进行误判，因此网页的识别效果不佳。

【发明内容】

[0005] 本发明实施例的主要目的是提供一种网页的识别方法及装置，旨在解决现有技术的网页识别方法的识别效果不好的问题。
[0006] 为达到以上目的，本发明实施例提供了一种一种网页的识别方法，包括以下步骤：
[0007] 获取待识别的网页中每个分词的权重；
[0008] 根据所述待识别的网页中每个分词的权重，利用预先建立的逻辑回归模型，计算获得待识别的网页分别在预设的两个网页类别中的权重；
[0009] 将权重较大的网页类别作为所述待识别的网页的类别。
[0010] 本发明实施例还提供了一种网页的识别装置，包括：
[0011] 权重获取模块，用于获取待识别的网页中每个分词的权重；
[0012] 计算模块，用于根据所述待识别的网页中每个分词的权重，利用预先建立的逻辑回归模型，计算获得待识别的网页分别在预设的两个网页类别中的权重；
[0013] 类别确定模块，用于将权重较大的网页类别作为所述待识别的网页的类别。
[0014] 本发明实施例通过预先建立的逻辑回归模型对待识别的网页进行识别，由于预先建立的逻辑回归模型是通过根据多个网页样本进行学习获得，因此，相对于现有技术的关键词的识别方法，本实施例对网页的识别更加准确，尤其对于网页的关键词不容易区分的网页的识别，效果更加显著。
【附图说明】
[0015] 图1是本发明网页的识别方法一实施例的流程示意图；
[0016] 图2是图1中获取待识别的网页中每个分词的权重的具体步骤的流程示意图；
[0017] 图3是本发明网页的识别方法另一实施例的流程示意图；
[0018] 图4是图3中获取待识别的网页中网页特征的权重一实施例的流程示例图；
[0019] 图5是图3中获取待识别的网页中网页特征的权重另一实施例的流程示例图；
[0020] 图6是本发明网页的识别装置一实施例的功能模块示意图；
[0021] 图7是本发明网页的识别装置中权重获取模块一实施例的功能模块示意图；
[0022] 图8是本发明网页的识别装置中权重获取模块另一实施例的功能模块示意图；
[0023] 图9是本发明网页的识别装置所在的网络服务器的硬件架构示意图。
[0024] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
【具体实施方式】
[0025] 以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0026] 本发明提供了一种网页的识别方法，针对现有技术中的网页识别方法效率不高的问题，利用预先建立的逻辑回归模型以及朴素贝叶斯模型对网页进行识别，相对于现有技术，本发明的网页的识别方法使得网页的识别更加准确，识别效率也更高。
[0027] 为了更好地理解本发明，在此先对预先建立的逻辑回归模型以及朴素贝叶斯模型进行相应的介绍。
[0028] 逻辑回归模型为一种线性分类模型，能够将线性函数转换为0到1之间的概率值。本实施例中，该逻辑回归模型通过一批样本进行训练完成的，具体过程如下：
[0029] (1)标注一批网页样本作为样本集合，并确认每个网页样本的分类。
[0030] (2)对每个网页样本进行分词处理，获得每个网页样本的分词。为了使得分词准确，该分词处理所基于的词库由根据该网页样本的标题、页面导航中提取出来的词汇所组成。
[0031] (3)统计网页样本中每个分词的词频和逆文档频率，并计算每个分词在网页样本中的权重。词频是指一个词汇在一篇网页中出现的次数。逆文档频率又称为反文档频率，其通过文档频率计算获得。例如，某词汇在m篇文档中出现过，则该词汇的文档频率是m，逆文档频率则由公式log(NADF+0.0 1))计算获得，其中DF是文档频率，N是网页总数。
[0032] (4)根据每个分词在网页样本中的权重，对样本集合中的网页样本进行学习，得到逻辑回归模型。然后，利用该逻辑回归模型计算网页样本在预设的两个网页类别中的权重。
[0033] 朴素贝叶斯模型为一种基于概率分布的分类模型，能够根据已标注的训练样本，生成模型。该模型可用来计算未知网页所属网页类别的概率，进而判断未知网页的网页类另IJ。本实施例中，该朴素贝叶斯模型也是通过一批样本进行训练完成的，且要基于前面建立逻辑回归模型中所计算的网页样本在预设的两个网页类别中的权重。具体过程如下：
[0034] ( 5 )获取每个网页样本的网页地址、标题等网页特征，并获取每个网页样本的网页地址、标题所述预设的两个网页类别的权重。
[0035] (6)根据每个网页样本的网页地址、标题所述预设的两个网页类别的权重、网页样本在预设的两个网页类别中的权重，对样本集合中的网页样本进行学习，得到朴素贝叶斯模型。
[0036] 参照图1，该实施例的网页的识别方法包括以下步骤：
[0037] 步骤S110、获取待识别的网页中每个分词的权重；
[0038] 在获取到待识别的网页后，计算该网页中每个分词在网页中所占的比重。该比重可以根据每个分词在网页中出现的位置、在网页中出现的次数等等进行计算。
[0039] 步骤S120、根据所述待识别的网页中每个分词的权重，利用预先建立的逻辑回归模型，计算获得待识别的网页分别在预设的两个网页类别中的权重；
[0040] 本实施例中，该两个网页类别为成人类和非成人类。当然也可以为其他预设的网页类别。所述待识别的网页中每个分词的权重作为输入，利用预先建立的上述逻辑回归模型进行计算，将输出待识别的网页在预设的两个网页类别中的权重。
[0041] 步骤S130、将权重较大的网页类别作为所述待识别的网页的类别。
[0042] 由于本实施例中计算待识别的网页在预设的两个网页类别中的权重，所以待识别的网页不是成人类网页，就是非成人类网页。因此，待识别的网页在成人类的权重与待识别的网页在非成人类的权重之和为1。即将权重较大的网页类别作为待识别的网页的类别，也可以为：将权重大于0. 5的网页类别作为待识别的网页的类别。
[0043] 进一步地，参照图2,上述步骤SllO包括：
[0044] 步骤S111、获取待识别的网页；
[0045] 该待识别的网页可以根据用户请求访问的网页地址，从服务器中获取待识别的网页的数据。
[0046] 步骤S112、对所述待识别的网页进行分词处理；
[0047] 为了分词的准确性，该待识别的网页进行分词处理所依据的词库由所预设的两个类别的网页中提取的普遍性词汇组成。例如上述建立逻辑回归模型时，由根据该网页样本的标题、页面导航中提取出来的词汇所组成的词库。
[0048] 步骤S113、获取每个分词在所述待识别的网页中的词频和逆文档频率；
[0049] 步骤S114、根据所述每个分词在待识别的网页中的词频和逆文档频率，计算获得所述待识别的网页中每个分词的权重。
[0050] 将每个分词在待识别的网页中的词频和逆文档频率相乘，以获得每个分词在所述待识别的网页中的权重。
[0051] 本发明实施例通过预先建立的逻辑回归模型对待识别的网页进行识别，由于预先建立的逻

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄钰;
技术所有人：腾讯科技(深圳)有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。