网页分类字典生成方法及装置与流程

文档序号：11950611阅读：470来源：国知局

本发明涉及互联网搜索技术领域，特别涉及一种网页分类字典生成方法及装置。

背景技术：

互联网中的网站数目异常庞大，并且网站种类繁多，如新闻类的、体育类的和购物类的等等。面对各种各样的网站，企业或者各组织会希望内部工作人员只访问与工作相关的网站，如何对内部工作人员可访问的网站进行过滤是非常迫切和重要的一个需求。那么此时就需要对各网站进行分类，根据网站所属类别，对网站进行过滤，从而滤除不允许访问的网站。

面对互联网中海量的网站，可以针对网站对应的URL(Uniform Resource Locator，统一资源定位符)进行分类，在对URL设置合理的分类时，一般采用自动化分类的方式，自动化分类的过程一般为：首先学习样本，根据学习结果(样本文件中样本词语的重要程度)生成网页分类字典，然后依靠网页分类字典对未知类型的URL(网页)进行分类识别。可见，自动化分类结果是否准确，很大程度上依赖于网页分类字典的准确性。

现有技术中，评估样本文件中样本词语的重要程度时，仅考虑样本词语所在样本文件的文件数量，所确定的样本文件中样本词语的重要程度(即所对应的权重值)准确度不高，进而导致生成的网页分类字典准确度不高。

技术实现要素：

本发明实施例公开了一种网页分类字典生成方法及装置，以生成准确度更高的网页分类字典。具体方案如下：

一方面，本发明实施例提供了一种网页分类字典生成方法，所述方法包括：

根据预定的网页分类标准，确定各个类别的网页分类样本对应的样本统一资源定位符URL，其中，所述网页分类标准中包含网页分类类别；

根据各个类别的网页分类样本对应的样本URL，获取所对应的样本网页内容；

从所获取的样本网页内容中，分别提取出所述样本网页内容中的样本文本信息，并对所述样本文本信息进行分词处理，得到每一所提取出的样本文本信息对应的样本词语；

从预先存储的多个学习词语与逆向词语频率值的对应关系中，筛选出与所述样本词语对应的逆向词语频率值，其中，所述逆向词语频率值为：根据每一学习词语在所对应学习文本信息中的出现次数所确定的值；

将所述样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中。

另一方面，本发明实施例提供了一种网页分类字典生成装置，所述装置包括：第一确定模块、获取模块、提取模块、分词模块、第二确定模块和存储模块；

所述第一确定模块：用于根据预定的网页分类标准，确定各个类别的网页分类样本对应的样本统一资源定位符URL，其中，所述网页分类标准中包含网页分类类别；

所述获取模块：用于根据各个类别的网页分类样本对应的样本URL，获取所对应的样本网页内容；

所述提取模块：用于从所获取的样本网页内容中，分别提取出所述样本网页内容中的样本文本信息；

所述分词模块：用于对所述样本文本信息进行分词处理，得到每一所提取出的样本文本信息对应的样本词语；

所述第二确定模块：用于从预先存储的多个学习词语与逆向词语频率值的对应关系中，筛选出与所述样本词语对应的逆向词语频率值，其中，所述逆向词语频率值为：根据每一学习词语在所对应学习文本信息中的出现次数所确定的值；

所述存储模块：用于将所述样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中。

在本方案中，根据预定的网页分类标准，确定各个类别的网页分类样本对应的样本统一资源定位符URL，并获取各个样本URL所对应的样本网页内容；提取各个样本网页内容中的样本文本信息，并对该文本信息进行分词处理，从样本文本信息中得到对应的样本词语；从预先存储的多个学习词语与逆向词语频率值的对应关系中，筛选出与该样本词语对应的逆向词语频率值，其中，逆向词语频率值为：根据每一学习词语在所对应学习文本信息中的出现次数所确定的值，可见，本方法中，确定每一样本词语的逆向词语频率值时，充分考虑了每一词语在所有文本信息中出现的次数，即充分考虑了词语与文本信息之间存在的关系，更好体现了词语的重要程度；将样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中。以生成准确度更高的网页分类字典，进而在使用该网页分类字典时可以提高网页分类的准确度。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网页分类字典生成方法的流程示意图；

图2为本发明实施例提供的一种逆向词语频率值确定的流程示意图；

图3为本发明实施例提供的一种网页分类字典生成装置的结构示意图；

图4为本发明实施例提供的一种网页分类字典生成装置的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种网页分类字典生成方法及装置，以生成准确度更高的网页分类字典。

下面首先对本发明实施例所提供了一种网页分类字典生成方法进行介绍。

如图1所示，本发明实施例所提供的一种网页分类字典生成方法，可以包括如下步骤：

S101：根据预定的网页分类标准，确定各个类别的网页分类样本对应的样本统一资源定位符URL，其中，该网页分类标准中包含网页分类类别；

可以理解的是，根据预定的网页分类标准，确定各个类别的网页分类样本对应的样本URL，其中，该预定的网页分类标准可以通过管理人员自主设置，该网页分类标准中包含网页分类类别，如：体育、购物、旅游和金融等等。同时，该预定的网页分类标准所包含的网页分类类别可以是一级分类(如上)，也可以在一级分类中继续细分二级分类(如：一级分类中的金融可以继续细分为银行和证券等二级分类)，继而细分三级分类(如一级分类中旅游可以继续细分为国内旅游和国外旅游等二级分类，其中，二级分类国内旅游可以继续细分为江浙旅游地区和东三省旅游地区等三级分类)。

S102：根据各个类别的网页分类样本对应的样本URL，获取所对应的样本网页内容；

需要说明的是，访问所确定的各个样本URL所对应的网页，并且通过爬虫工具等获取各个样本URL所对应的样本网页内容，并针对所获得的各个样本网页内容，进行后续的网页分类字典生成流程。

S103：从所获取的样本网页内容中，分别提取出该样本网页内容中的样本文本信息，并对该样本文本信息进行分词处理，得到每一所提取出的样本文本信息对应的样本词语；

可以理解的是，所获取的样本网页内容中既包含针对本发明实施例所提供的网页分类字典生成方法的有效信息，即样本文本信息，又包含固有的脚本信息以及代码等无用字符集，从所获取的样本网页内容中，分别提取出该样本网页内容中的样本文本信息，去除该固有的脚本信息以及代码等无用字符集。其中，可以采用现有的任一分词工具对所提取出的各个样本文本信息进行分词处理，得到每一所提取出的样本文本信息对应的样本词语。

需要强调的是，在实际应用中，在获取各个样本URL所对应的样本网页内容时，不可避免的会出现时间差，对于提取各个样本网页内容中的样本文本信息时，可以是每获取到一个样本URL对应的样本网页内容，则提取该样本网页内容中的样本文本信息，直到将所确定的各个样本URL所对应的样本网页内容中的样本文本信息，完全提取完成，结束该提取过程；也可以是将所确定的样本ULR对应的样本网页内容，全部获取完成后，再统一进行提取。同理的，对样本文本信息进行分词处理时，既可以单一处理又可以统一处理，这都是合理的。

S104：从预先存储的多个学习词语与逆向词语频率值的对应关系中，筛选出与该样本词语对应的逆向词语频率值，其中，该逆向词语频率值为：根据每一学习词语在所对应学习文本信息中的出现次数所确定的值；

需要说明的是，本发明实施例中，预先存储有多个学习词语与逆向词语频率值的对应关系，可以从该预先存储的多个学习词语与逆向词语频率值的对应关系中，筛选出与该样本词语对应的逆向词语频率值，其中，该逆向词语频率值为：根据每一学习词语在所对应学习文本信息中的出现次数所确定的值。可以理解的是，该学习词语是从海量的学习URL中处理所得的，根据每一学习词语在所对应学习文本信息中的出现次数，能够更好的体现出学习词语在学习文本信息中的重要程度。其中，该样本(学习)词语出现的次数越多，即其越常见，表明该样本(学习)词语对于后续的对网页进行分类的重要程度越大。

S105：将该样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中。

需要说明的是，确定出每一样本词语对应的逆向词语频率值后，可以根据该逆向词语频率值，确定所对应样本词语的权重值，以用于后续的对未知类型的网页进行分类时作为参考依据。可以理解的是，可以直接将该逆向词语频率值确定为所对应样本词语的权重值，或者，将该逆向词语频率值经过特定的计算处理(如：加、减、乘或除某一数值)后所得的结果，确定为所对应样本词语的权重值，这都是可以的。后续的，将样本词语与根据所对应的逆向词语频率值确定的权重值，存储于网页分类字典中，以为用户对未知类型的网页的分类提供参考。

其中，该网页分类字典可以是以表格形式进行存储，也可以以文件形式进行存储，等等。在将样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中时，可以是根据样本词语所属的网页分类类型，分别存储于不同的网页分类字典中，也可以是全部存储于同一个网页分类字典，当然，当所有的样本词语以及根据所对应逆向词语频率值确定的权重值，存储于同一个网页分类字典中时，各样本词语以及根据所对应逆向词语频率值确定的权重值，以其所属的网页分类类型进行分类存储。

应用本发明实施例，确定每一样本词语的逆向词语频率值时，充分考虑了每一词语在所有文本信息中出现的次数，即充分考虑了词语与文本信息之间存在的关系，更好体现了词语的重要程度；将样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中。以生成准确度更高的网页分类字典，进而在使用该网页分类字典时可以提高网页分类的准确度。

在一种具体实现方式中，如图2所示，所述多个学习词语与逆向词语频率值的对应关系的建立过程为：

S201：获得任意选取的学习URL对应的学习网页内容；

S202：从所获得的学习网页内容中，分别提取出该学习网页内容中的学习文本信息，并对该学习文本信息进行分词处理，得到每一所提取出的学习文本信息对应的学习词语；

S203：根据每一学习词语在所有学习文本信息中出现的次数，确定每一学习词语的逆向词语频率值，并将所有学习词语以及所对应的逆向词语频率值进行对应存储。

需要说明的是，在确定学习词语的逆向词语频率值时，为了保证逆向词语频率值的准确性，需要通过爬虫工具从海量的网页中，统计该各学习词语所对应的逆向词语频率值。通过爬虫工具随机获取学习URL(获取的学习URL数量越多，所得逆向词语频率值越准确)，访问学习URL对应的网页，获得学习文本信息，对学习文本信息进行分词处理，得到学习词语。确定每一学习词语的逆向词语频率值时，充分考虑了每一学习词语在所有学习文本信息中出现的次数(不仅考虑了学习词语所在的学习样本的数量，还考虑在学习词语在每个学习样本中出现的次数)，即充分考虑了词语与文本信息之间存在的关系，更好体现了词语的重要程度。确定每一学习词语对应的逆向词语频率值后，将所有学习词语以及所对应的逆向词语频率值进行对应存储，以用于后续的网页分类字典的生成。

在一种具体实现方式中，为了更好的确定出词语对应的准确性更高的权重值，更好的体现出词语在该类型的网页中的重要程度，本发明实施例提供了一种确定每一学习词语的逆向词语频率值的计算方式，所述确定每一词语的逆向词语频率值的计算公式可以为：

T_i＝1/N_i；

其中，该T_i表示学习词语i的逆向词语频率值，该N_i表示学习词语i在所有学习文本信息中的出现次数。该公式充分考虑学习词语在所有学习文本信息中的出现次数(不仅考虑了学习词语所在的学习样本的数量，还考虑在学习词语在每个学习样本中出现的次数)，即词语与样本之间的关系。

举例而言，对10000个网页进行处理，发现词语“银行”在10个文件中分别出现了20、50、40、70、20、50、40、70、10和50次，此时，N_银行＝20+50+40+70+20+50+40+70+10+50＝420次，而非仅考虑10个文件。

在一种具体实现方式中，根据预定的网页分类标准，确定各个类别的网页分类样本对应的样本统一资源定位符URL，包括：

根据该预定的网页分类标准以及所获得的关于同类别的网站的相关度排名，针对每一类别，确定该排名中最相关的前预定位数个网站对应的URL，为各个类别的网页分类样本对应的样本URL。

进一步的，在确定样本URL时，为了更好的保证所形成网页分类字典的准确性，在确定样本URL时，可以选择与网页类型强相关的网站的URL。可以预先获得关于该预定的网页分类标准中的各个网页分类类别中的网站的相关度排名，针对每一类别，确定该排名中最相关的前预定位数个网站对应的URL，为各个类别的网页分类样本对应的样本URL。如：对于体育类的网站，可以选择在体育类网站中较相关的网站的URL为样本URL，根据体育类网站的网站的相关度排名，可知新浪体育、搜狐体育及腾讯体育在排名前三位，则可以选取新浪体育、搜狐体育及腾讯体育分别对应的URL为样本URL。

在一种具体实现方式中，在所述从所获取的样本网页内容中，分别提取出该样本网页内容中的样本文本信息之前，本发明实施例所提供的一种网页分类字典生成方法还可以包括：

根据预设编码规则，对所获取的样本网页内容进行统一编码；

所述从所获取的样本网页内容中，分别提取出该样本网页内容中的样本文本信息，包括：

从进行统一编码后的样本网页内容中，分别提取出进行统一编码后的样本网页内容中的样本文本信息。

可以理解的是，对于不同的网站，其对应的网页中的内容可能采用了不同的编码方式，为了减少后续的处理中的误差，可以根据预设的编码规则，对所获得的样本网页内容进行统一编码，为后续的处理过程提供便利，同时也避免了在提取样本网页内容中的样本文本信息时，出现误差的情况。其中，该预设的编码规则可以是现有技术中的任一编码规则(编码方式)，如：UTF8(8-bit Unicode Transformation Format，万国码)或GBK(Chinese Internal Code Specification，汉字编码字符集)等。后续的，分别提取进行统一编码后的样本网页内容中的样本文本信息。

在一种具体实现方式中，所述对该样本文本信息进行分词处理，得到每一所提取出的样本文本信息对应的样本词语之后，本发明实施例所提供的一种网页分类字典生成方法还可以包括：

从样本词语中，选择符合预设筛选规则的目标样本词语；

所述从预先存储的多个学习词语与逆向词语频率值的对应关系中，筛选出与所述样本词语对应的逆向词语频率值，包括：

从预先存储的多个学习词语与逆向词语频率值的对应关系中，筛选出与所述目标样本词语对应的逆向词语频率值；

所述将该样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中，包括：

将该目标样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中。

需要说明的是，针对于每一个样本网页内容，对其所得的样本文本信息进行分词处理后，所得样本词语可能会存在许多与网页分类无关的词，此时，需要将该类与网页分类无关的词滤除，选择出与网页类型强相关的目标样本词语，以得到准确性更高的网页分类字典，与网页类型强相关的目标样本词语可以为与网页类型相关的专业词语，如：某个银行网站，其应该为金融类型的网站，对其对应的样本网页内容中的样本文本信息，进行分词处理后得到“利率”、“贷款”、“一批”及“中国人”等词语，对于“一批”及“中国人”在其他类型的网站中也是经常出现的，其对网页分类的作用不大，可以将其删除，而“利率”和“贷款”为金融类的一些专业词语，可以将其作为目标样本词语，继而进行后续的网页分类字典生成流程。

在一种具体实现方式中，为了更好的完善该网页分类字典，提高该网页分类字典对网页分类的准确度，本发明实施例所提供的一种网页分类字典生成方法还可以包括：

接收用户反馈的词语匹配次数，其中，该词语匹配次数为：使用该网页分类字典对未知类型的网页分类时，该网页分类字典中所存储的词语的匹配次数；

根据该词语匹配次数，计算该网页分类词典中所存储的词语的匹配概率；

从该网页分类词典中删除所对应匹配概率低于预定阈值的词语。

可以理解的是，在使用该网页分类字典对未知类型的网页分类时，是通过该未知类型的网页中所包含的词语，与该网页分类字典中所存储的词语进行匹配，并确定所匹配的词语对应的权重值，根据所确定的权重值对该未知类型的网页进行分类。其中，该网页分类字典中所存储的词语为样本词语。可以理解的是，接收用户反馈的词语匹配次数，并根据该词语匹配次数，计算该网页分类词典中所存储的词语的匹配概率，其中，匹配概率越高，可以表明所对应的词语在该类型的网站中的出现的频率越高，其在该类型的网站中的重要程度越高，反之，匹配概率越低，可以表明所对应的词语在该类型的网页中出现的频率越低，其在该类型的网站中的重要程度越低。后续的，可以从该网页分类词典中删除所对应匹配概率低于预定阈值的词语，该预定阈值可以根据实际情况进行调整。

相应于上述方法实施例，本发明实施例提供了一种网页分类字典生成装置，如图3所示，所述装置可以包括：第一确定模块301、获取模块302、提取模块303、模块304、第二确定模块305和存储模块306；

所述第一确定模块301：用于根据预定的网页分类标准，确定各个类别的网页分类样本对应的样本统一资源定位符URL，其中，所述网页分类标准中包含网页分类类别；

所述获取模块302：用于根据各个类别的网页分类样本对应的样本URL，获取所对应的样本网页内容；

所述提取模块303：用于从所获取的样本网页内容中，分别提取出所述样本网页内容中的样本文本信息；

所述分词模块304：用于对所述样本文本信息进行分词处理，得到每一所提取出的样本文本信息对应的样本词语；

所述第二确定模块305：用于从预先存储的多个学习词语与逆向词语频率值的对应关系中，筛选出与所述样本词语对应的逆向词语频率值，其中，所述逆向词语频率值为：根据每一学习词语在所对应学习文本信息中的出现次数所确定的值；

所述存储模块306：用于将所述样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中。

在一种具体实现方式中，所述多个学习词语与逆向词语频率值的对应关系的建立过程为：

获得任意选取的学习URL对应的学习网页内容；

从所获得的学习网页内容中，分别提取出所述学习网页内容中的学习文本信息，并对所述学习文本信息进行分词处理，得到每一所提取出的学习文本信息对应的学习词语；

根据每一学习词语在所有学习文本信息中出现的次数，确定每一学习词语的逆向词语频率值，并将所有学习词语以及所对应的逆向词语频率值进行对应存储。

在一种具体实现方式中，所述确定每一学习词语的逆向词语频率值的计算公式为：

T_i＝1/N_i；

其中，所述T_i表示学习词语i的逆向词语频率值，所述N_i表示学习词语i在所有学习文本信息中的出现次数。

在一种具体实现方式中，所述第一确定模块，具体用于：

根据所述预定的网页分类标准以及所获得的关于同类别的网站的相关度排名，针对每一类别，确定所述排名中最相关的前预定位数个网站对应的URL，为各个类别的网页分类样本对应的样本URL。

在一种具体实现方式中，本发明实施例所提供的一种网页分类字典生成装置还可以包括编码模块；

所述编码模块：用于在所述从所获取的样本网页内容中，分别提取出所述样本网页内容中的样本文本信息之前，根据预设编码规则，对所获取的样本网页内容进行统一编码；

所述提取模块，具体用于：从进行统一编码后的样本网页内容中，分别提取出进行统一编码后的样本网页内容中的样本文本信息。

在一种具体实现方式中，本发明实施例所提供的一种网页分类字典生成装置还可以包括选择模块；

所述选择模块：用于对所述样本文本信息进行分词处理，得到每一所提取出的样本文本信息对应的样本词语之后，从所述样本词语中，选择符合预设筛选规则的目标样本词语；

所述第二确定模块，具体用于：从预先存储的多个学习词语与逆向词语频率值的对应关系中，筛选出与所述目标样本词语对应的逆向词语频率值；

所述存储模块，具体用于：将所述目标样本词语以及根据所对应逆向词语频率值确定的权重值，存储于网页分类字典中。

在一种具体实现方式中，如图4所示，基于图3所示，本发明实施例所提供的一种网页分类字典生成装置还可以包括接收模块401、计算模块402和删除模块403；

所述接收模块401：用于接收用户反馈的词语匹配次数，其中，所述词语匹配次数为：使用所述网页分类字典对未知类型的网页分类时，所述网页分类字典中所存储的词语的匹配次数；

所述计算模块402：用于根据所述词语匹配次数，计算所述网页分类词典中所存储的词语的匹配概率；

所述删除模块403：用于从所述网页分类词典中删除所对应匹配概率低于预定阈值的词语。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张惊申;
技术所有人：杭州华三通信技术有限公司;
我是此专利的发明人

上一篇：一种分布式文件系统自动精简配置的方法及系统与流程
上一篇：一种滚动筛分槽的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。