一种网址分类方法、装置及系统的制作方法

文档序号:6369005阅读:137来源:国知局
专利名称:一种网址分类方法、装置及系统的制作方法
技术领域
本发明涉及局域网安全管理技术领域,特别涉及一种网址分类方法、装置及系统。
背景技术
随着互联网技术的不断发展和日益普及,为了有效的组织和利用互联网上的信息资源,一般通过网址分类方法将待分类网址依据预设的网址类别进行分类。现有的网址分类方法在进行网址分类时,需要对待分类网址对应的网页内容进行解析,通过 TFIDF (Term Frequency Inverse Document Frequency,特征频率与倒文档频率)特征加权方法,依据解析的结果生成与所述待分类网址相对应的空间向量,并采用预 先设置的向量机将该待分类网址进行分类,获取该待分类网址的网址类别。其中,采用预先设置向量机将待分类网址进行分类,是指将所述待分类网址对应的空间向量置入该向量机,由该向量机采用建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中方案的方法,将所述待分类网址对应的空间向量进行分类,从而得出所述待分类网址的网址类别。由上述可知,在采用现有的网址分类方法进行网址分类时,当待分类网址对应的网页内容的数据量较大时,采用现有的网址分类方法会造成较大的系统负载,从而使得网址分类的效率较低。

发明内容
本发明所要解决的技术问题是提供一种网址分类方法、装置及系统,用以解决采用现有技术中的网址分类方法,当待分类网址对应的网页内容的数据量较大时,导致较大的系统负载,使得网址分类效率较低的技术问题。本申请提供了一种网址分类方法,包括解析当前待分类网址中包含的网址数据信息;提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。上述方法,优选地,在所述解析当前待分类网址的网址数据之前,所述方法还包括获取互联网中的网址分类数据;将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合;获取所述待分类网址集合中的待分类网址。上述方法,优选地,在所述解析当前待分类网址的网址数据信息之前,所述方法还包括应用预设的hash算法对所述当前待分类网址进行计算,获取计算结果;查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据,如果是,舍去所述当前待分类网址,结束当前网址分类,否则,将所述计算结果置入所述hash数据集合中。上述方法,优选地,在所述解析当前待分类网址的网址数据信息之后,在所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值之前,所述方法还包括解析所述网址数据信息包括的网址字符串;判断所述网址字符串是否满足预设的预分类规则,当满足时,依据所述预分类规则获取与所述当前待分类网址相对应的网址类别,结束当前网址分类。上述方法,优选地,所述获取所述待分类网址集合中的待分类网址包括确定所述待分类网址集合中待分类网址的网址权值,及各个待分类网址之间的传递权值;依据所述网址权值和所述传递权值,获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。上述方法,优选地,所述向量机采用预设分类算法依据所述空间向量获取最优分类模型,并解析出所述最优分类模型携带的类别号,将所述类别号作为与所述当前待分类网址相对应的网址类别。上述方法,优选地,所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值包括解析所述网址数据信息中的至少一个HTML标签及其内容;依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值。本申请还提供了一种网址分类装置,包括数据解析单元、数据提取单元和类别获取单元,其中所述数据解析单元,用于解析当前待分类网址中包含的网址数据信息;所述数据提取单元,用于提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;所述类别获取单元,用于将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。上述装置,优选地,还包括网址获取单元;所述网址获取单元,用于获取互联网中的网址分类数据,并将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合,获取所述待分类网址集合中的待分类网址,触发所述数据解析单元。上述装置,优选地,还包括网址去重单元;所述网址去重单元,用于应用预设的hash算法对所述当前待分类网址进行计算,获取计算结果,查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据,如果是,舍去所述当前待分类网址,结束当前网址分类,否则,将所述计算结果置入所述hash数据集合中,触发所述数据提取单元。上述装置,优选地,还包括预分类单元;所述预分类单元,由所述数据解析单元触发,用于解析所述网址数据信息包括的网址字符串, 判断所述网址字符串是否满足预设的预分类规则,当满足时,依据所述预分类规则获取与所述当前待分类网址相对应的网址类别,结束当前网址分类,否则,触发所述数据提取单元。上述装置,优选地,所述网址获取单元包括网址采集子单元、初始分类子单元和网址获取子单元,其中所述网址采集子单元,用于获取互联网中的网址分类数据;所述初始分类子单元,用于将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合;所述网址获取子单元,用于确定所述待分类网址集合中待分类网址的网址权值,及各个待分类网址之间的传递权值,并依据所述网址权值和所述传递权值,获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。上述装置,优选地,所述数据提取单元包括特征项提取子单元和向量生成子单元,其中所述特征项提取子单元,用于解析所述网址数据信息中的至少一个HTML标签及其内容,并依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值;所述向量生成子单元,用于将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量。本申请还提供了一种网址分类系统,包括如上述任意一项所述的网址分类装置。由上述方案可知,相对于采用现有技术中的网址分类方法,引起当待分类网址对应的网页内容的数据量较大时,导致系统负载较大、影响网址分类效率的情况,本申请提供的一种网址分类方法、装置及系统,通过提取解析到的待分类网址的网址数据信息中的至少一个特征项及其权值,并由所述特征项及其权值组成与所述待分类网址相对应的空间向量,采用预设的向量机获得与所述待分类网址相对应的网址类别,当待分类网址对应的网页内容的数据量较大时,不会影响待分类网址的网址数据信息解析,从而降低了系统负载,提高了网址分类效率。同时,本申请提供的一种网址分类方法、装置及系统通过不断调整待分类网址特征项相关参数及向量机相关参数等,可以得到实现不同分类方法的网址分类方法、装置及系统,即本申请提供的是一种可以动态改变网址分类规则的网址分类方法、装置及系统。进一步的,本申请提供的一种网址分类方法、装置及系统通过对互联网中的网址进行初步分类,得到待分类网址集合,进而对待分类网址进行分类,使得已分类网址的覆盖范围较广,质量较高,从而使得由已分类网址形成的网址数据库具有更好的查询能力。进一步的,本申请提供的一种网址分类方法、装置及系统通过对待分类网址的网址数据信息中包括的网址字符串进行解析,并依据该解析结果对待分类网址进行预分类处理,从而加快了网址分类的速度。进一步的,本申请提高的一种网址分类方法、装置及系统通过解析所述网址数据信息中的至少一个HTML标签及其内容,利用卡方检验法依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值,相对于现有技术中采用单一 TFIDF特征加权方法,提高了网址分类的准确率。当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。


为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例一提供的一种网址分类方法流程图;图2为本申请实施例二提供的一种网址分类方法的部分流程图;图3为本申请实施例三提供的一种网址分类方法的部分流程图;图4为本申请实施例三提供的一种网址分类方法的另一部分流程图;图5为本申请实施例四提供的一种网址分类方法的部分流程图;图6为本申请实施例五提供的一种网址分类方法的部分流程图;图7为本申请实施例六提供的一种网址分类装置的结构示意图;图8为本申请实施例七提供的一种网址分类装置的结构示意图;图9为本申请实施例八提供的一种网址分类装置的结构示意图;图10为本申请实施例八提供的一种网址分类装置的另一结构示意图;图11为本申请实施例九提供的一种网址分类系统的网址采集器的功能实现流程图;图12为本申请实施例九提供的一种网址分类系统获取待分类网址特征项及其权值的流程图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。参考图1,其示出了本申请实施例一提供的一种网址分类方法流程图,所述方法可以包括以下步骤步骤101 :解析当前待分类网址中包含的网址数据信息。其中,所述当前待分类网址链接某一网页内容,所述当前待分类网址的网址数据信息可以包括以下几个方面该待分类网址的网址首部,例如WWW、home等;该待分类网址的网址尾部,例如COm、Cn、org、net等;该待分类网址的网址字符串的数据信息,例如,网址字符串的长度、网址字符串中包含“/”的个数、网址字符串中包含数字的个数等等。步骤102 :提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量。
其中,在所述步骤101中解析到所述当前待分类网址的网址数据信息后,依据该网址数据信息,提取所述网址数据信息中的至少一个特征项及所述特征项的权值。所述特征项及其特征项权值可以依据所述网址数据信息中的网址首部、网址尾部或网址字符串等数据进行提取得到。将提取到的特征项及其权值组成与所述当前待分类网址相对应的高维空间向量,该空间向量中的每个维度代表一个特征项,该空间向量中每个维度对应的值代表该特征的在待分类网址中对应网页文档中的权值。对于任意一个待分类网址,可以将其表示为U = (tl :wl, t2:w2, . . . , tn: wn),其中,tl, t2,。。。,tn,表示为n维空间中的各个坐标系,wl,w2,. . . ,wn,表示各个坐标系的坐标值,U = (tl :wl, t2:w2,, tn: wn)便是这个空间中的一个向量。步骤103 :将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。其中,所述向量机的数据格式要求如下类标号[indexl]:[valuel][index2]:[value2][index3]:[value3]. . . [indexn]:[valuen]其中,将所述空间向量U= (tl:wl, t2:w2, , tn:wn)置入所述向量机,所述tl对应所述向量机中indexl,所述wl对应所述向量机中valuel,所述t2对应所述向量机中index2,所述w2对应所述向量机中value2,依次类推,所述tn对应所述向量机中indexn,所述wn对应所述向量机中valuen,所述类标号即为将所述空间向量置入该向量机后,所述当前待分类网址对应的网址类别。其中,上述步骤103获得与所述当前待分类网址相对应的网址类别后,可以获取下一条待分类网址,并按照本申请实施例一提供的网址分类方法对其进行分类,获取其网址类别,实现网址分类的循环,从而提高网址分类的效率。
其中,本申请实施例一提供的网址分类方法还包括对所述特征项参数和/或所述向量机中的数据参数进行动态调整。其中,所述特征项参数包括所述特征项格式等,所述向量机的数据参数包括数据格式中的数据个数,即所述空间向量的维数等。需要说明的是,本申请实施例一提供的一种网址分类方法可以采用多线程并行进行网址分类的形式,同时对多个待分类网址进行分类,获取其类别标识,由此加快网址分类速度,从而提高网址分类的效率。其中,本申请实施例一提供的网址分类方法还包括将已获取网址类别的网址置于预设的网址存储器中。其中,所述网址存储器具体网址数据库。由上述方案可知,相对于采用现有技术中的网址分类方法,引起当待分类网址对应的网页内容的数据量较大时,导致系统负载较大、影响网址分类效率的情况,本申请实施例一提供的一种网址分类方法,通过提取解析到的待分类网址的网址数据信息中的至少一个特征项及其权值,并由所述特征项及其权值组成与所述待分类网址相对应的空间向量,采用预设的向量机获得与所述待分类网址相对应的网址类别,当待分类网址对应的网页内容的数据量较大时,不会影响待分类网址的网址数据信息解析,从而降低了系统负载,提高了网址分类效率
同时,本申请实施例一提供的一种网址分类方法可以通过不断调整待分类网址特征项相关参数及 向量机相关参数等,可以得到实现不同分类方法的网址分类方法、装置及系统,即本申请实施例一提供的是一种可以动态改变网址分类规则的网址分类方法。其中,基于上述本申请实施例,优选地,所述向量机采用预设分类算法依据所述空间向量获取最优分类模型,并解析出所述最优分类模型携带的类别号,将所述类别号作为与所述当前待分类网址相对应的网址类别。具体的,所述预设分类算法包括LIBSVM开源软件包算法。参考图2,其示出了本申请实施例二提供的一种网址分类方法的部分流程图,基于本申请实施例一,所述步骤102中,所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值可以包括以下步骤步骤201 :解析所述网址数据信息中的至少一个HTML标签及其内容。其中,上述步骤S201具体为将解析到的所述当前待分类网址的网址数据信息通过建立DOM树状结构,获取所述网址数据信息中的各个HTML标签及其内容。其中,所述DOM(Document Object Model,文档对象模型)树状结构是指通过DOM将HTML页面进行解析,并生成的HTML tree树状结构和对应访问方法。借助DOM树状结构,可以直接且简易的操作HTML页面上的每个标记内容。步骤202 :依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值。其中,对所述步骤S201中解析到的所述HTML标签及其内容采用中国科学院计算技术研究所的ICTCLAS分成系统进行分成,去除所述HTML标签及其内容中的停用词和数据信息量较小的词条,并采用卡法检验CHI-SQUARE TEST方法提取所述经过分词等处理的HTML标签及其内容中的特征项,对于所述特征项结合其对应的HTML标签的表现力,再采用TFIDF方法进行特征项的加权,得到所述特征项的权值。其中,所述CHI-SQUARE TEST方法是指对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验。即根据所述HTML标签的频数分布来推断总体的分布,得到所述HTML标签及其内容中的特征项。其中,所述TFIDF (Term Frequency Inverse Document Frequency,特征频率与倒文档频率)特征加权方法是指TFIDF权值实际上等于TF*IDF,TF为词频(TermFrequency), IDF 为反文档频率(Inverse Document Frequency) ;TF 表不词条在文档 d 中出现的频率,IDF表示文档d在整个文档集合中出现的频率。TFIDF算法是建立在这样一个假设之上的对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。由上述方案可知,本申请实施例二提供的一种网址分类方法,通过解析所述网址数据信息中的至少一个HTML标签及其内容,利用卡方检验法依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值,相对于现有技术中采用单一 TFIDF特征加权方法,提高了网址分类的准确率。参考图3,其示出了本申请实施例三提供的一种网址分类方法的部分流程图,基于上述本申请实施例一,在所述步骤101之前,所述方法还可以包括以下步骤
步骤301 :获取互联网中的网址分类数据。其中,本申请实施例三在进行互联网中网址分类数据获取时,可以通过网络爬虫等网络采集器进行获取。所述互联网中的网址分类数据是指具有较高访问量的网址,例如互联网上常用的网址目录网站、网址导航网站,例如雅虎、haol23等,本申请实施例三通过网络爬虫将所述互联网中的网址分类数据进行爬取。其中,网络爬虫又被称为网页蜘蛛、网络机 器人,是一种按照一定的规则,自动的抓取互联网信息的程序或者脚本。步骤302 :将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合。其中,在上述步骤301中将互联网中的网址分类数据进行爬取后,所述步骤302具体地,对具有类别标识的待分类网址依据预设的初始分类规则进行过滤、整合,即分类整合处理,通过预先建立的具有初始类别标识的关系映射表得到初始分类的待分类网址集合,而所述关系映射表如表I所示。表I关系映射表
权利要求
1.一种网址分类方法,其特征在于,包括 解析当前待分类网址中包含的网址数据信息; 提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量; 将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。
2.根据权利要求I所述的方法,其特征在于,在所述解析当前待分类网址的网址数据之前,所述方法还包括 获取互联网中的网址分类数据; 将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合; 获取所述待分类网址集合中的待分类网址。
3.根据权利要求I或2所述的方法,其特征在于,在所述解析当前待分类网址的网址数据信息之前,所述方法还包括 应用预设的hash算法对所述当前待分类网址进行计算,获取计算结果; 查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据,如果是,舍去所述当前待分类网址,结束当前网址分类,否则,将所述计算结果置入所述hash数据集 由口卞o
4.根据权利要求I或2所述的方法,其特征在于,在所述解析当前待分类网址的网址数据信息之后,在所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值之前,所述方法还包括 解析所述网址数据信息包括的网址字符串; 判断所述网址字符串是否满足预设的预分类规则,当满足时,依据所述预分类规则获取与所述当前待分类网址相对应的网址类别,结束当前网址分类。
5.根据权利要求2所述的方法,其特征在于,所述获取所述待分类网址集合中的待分类网址包括 确定所述待分类网址集合中待分类网址的网址权值,及各个待分类网址之间的传递权值; 依据所述网址权值和所述传递权值,获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。
6.根据权利要求I所述的方法,其特征在于,所述向量机采用预设分类算法依据所述空间向量获取最优分类模型,并解析出所述最优分类模型携带的类别号,将所述类别号作为与所述当前待分类网址相对应的网址类别。
7.根据权利要求I所述的方法,其特征在于,所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值包括 解析所述网址数据信息中的至少一个HTML标签及其内容; 依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值。
8.—种网址分类装置,其特征在于,包括数据解析单元、数据提取单元和类别获取单元,其中 所述数据解析单元,用于解析当前待分类网址中包含的网址数据信息;所述数据提取单元,用于提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量; 所述类别获取单元,用于将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。
9.根据权利要求8所述的装置,其特征在于,还包括网址获取单元; 所述网址获取单元,用于获取互联网中的网址分类数据,并将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合,获取所述待分类网址集合中的待分类网址,触发所述数据解析单元。
10.根据权利要求8或9所述的装置,其特征在于,还包括网址去重单元; 所述网址去重单元,用于应用预设的hash算法对所述当前待分类网址进行计算,获取计算结果,查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据,如果是,舍去所述当前待分类网址,结束当前网址分类,否则,将所述计算结果置入所述hash数据集合中,触发所述数据提取单元。
11.根据权利要求8或9所述的装置,其特征在于,还包括预分类单元; 所述预分类单元,由所述数据解析单元触发,用于解析所述网址数据信息包括的网址字符串,判断所述网址字符串是否满足预设的预分类规则,当满足时,依据所述预分类规则获取与所述当前待分类网址相对应的网址类别,结束当前网址分类,否则,触发所述数据提取单元。
12.根据权利要求9所述的装置,其特征在于,所述网址获取单元包括网址采集子单元、初始分类子单元和网址获取子单元,其中 所述网址采集子单元,用于获取互联网中的网址分类数据; 所述初始分类子单元,用于将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合; 所述网址获取子单元,用于确定所述待分类网址集合中待分类网址的网址权值,及各个待分类网址之间的传递权值,并依据所述网址权值和所述传递权值,获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。
13.根据权利要求8所述的装置,其特征在于,所述数据提取单元包括特征项提取子单元和向量生成子单元,其中 所述特征项提取子单元,用于解析所述网址数据信息中的至少一个HTML标签及其内容,并依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值; 所述向量生成子单元,用于将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量。
14.一种网址分类系统,其特征在于,包括如上述权利要求8至13任意一项所述的网址分类装置。
全文摘要
本发明提供了一种网址分类方法、装置及系统,所述方法包括解析当前待分类网址中包含的网址数据信息;提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。通过本申请实施例,当待分类网址对应的网页内容的数据量较大时,不会影响待分类网址的网址数据信息解析,从而降低了系统负载,提高了网址分类效率。
文档编号G06F17/30GK102629282SQ201210134498
公开日2012年8月8日 申请日期2012年5月3日 优先权日2012年5月3日
发明者张广兴, 文吉刚, 杨建华, 袁小坊, 贺泰华 申请人:湖南神州祥网科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1