一种网站分类字典的构建方法及装置与流程

文档序号:11155311阅读:来源:国知局

技术特征:

1.一种网站分类字典的构建方法,其特征在于,所述方法包括:

获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容;其中,N为正整数;

根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值;

统计每个有效词语对应的初始网站类别的个数;

将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值;

对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。

2.根据权利要求1所述的方法,其特征在于,所述获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容,包括:

获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的统一资源定位符URL;

访问所获取的URL,获取每个样本网站的网页内容,确定每个初始网站类别对应的网页内容。

3.根据权利要求1所述的方法,其特征在于,所述根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值,包括:

对于每个初始网站类别,移除对应的每个样本网站的网页内容中的无用字符集,对对应的每个样本网站的网页内容进行分词,移除无效词语,获得至少一个有效词语;根据预设的加权算法,为每个有效词语配置初始权重值。

4.根据权利要求1所述的方法,其特征在于,所述将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值,包括:

根据以下公式,确定每个有效词语的最终权重值:

<mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mroot> <msub> <mi>M</mi> <mi>i</mi> </msub> <mi>x</mi> </mroot> </mfrac> <mo>;</mo> </mrow>

其中,对于第i个有效词语,统计得到第i个有效词语对应的初始网站的个数大于1,Ki为第i个有效词语的最终权重值,Qi为第i个有效词语的初始权重值,Mi为第i个有效词语对应的初始网站类别的个数,x为预设参数,x>1。

5.根据权利要求4所述的方法,其特征在于,x的取值范围为:1.3~6。

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

获取待分类网站的第一网页内容,并对所述第一网页内容的文本信息进行分词,获得至少一个第一有效词语;

根据各个网站分类字典,确定针对每一初始网站类别的每个第一有效词语的第一最终权重值;

确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。

7.一种网站分类字典的构建装置,其特征在于,所述装置包括:

第一获取单元,用于获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容;其中,N为正整数;

第一确定单元,用于根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值;

统计单元,用于统计每个有效词语对应的初始网站类别的个数;

调整单元,用于将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值;

存储单元,用于对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。

8.根据权利要求7所述的装置,其特征在于,所述第一获取单元,具体用于:

获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的统一资源定位符URL;

访问所获取的URL,获取每个样本网站的网页内容,确定每个初始网站类别对应的网页内容。

9.根据权利要求7所述的装置,其特征在于,所述第一确定单元,具体用于:

对于每个初始网站类别,移除对应的每个样本网站的网页内容中的无用字符集,对对应的每个样本网站的网页内容进行分词,移除无效词语,获得至少一个有效词语;根据预设的加权算法,为每个有效词语配置初始权重值。

10.根据权利要求7所述的装置,其特征在于,所述调整单元,具体用于:

根据以下公式,确定每个有效词语的最终权重值:

<mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mroot> <msub> <mi>M</mi> <mi>i</mi> </msub> <mi>x</mi> </mroot> </mfrac> <mo>;</mo> </mrow>

其中,对于第i个有效词语,统计得到第i个有效词语对应的初始网站的个数大于1,Ki为第i个有效词语的最终权重值,Qi为第i个有效词语的初始权重值,Mi为第i个有效词语对应的初始网站类别的个数,x为预设参数,x>1。

11.根据权利要求10所述的装置,其特征在于,x的取值范围为:1.3~6。

12.根据权利要求7所述的装置,其特征在于,所述装置还包括:

第二获取单元,用于在将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中之后,获取待分类网站的第一网页内容,并对所述第一网页内容的文本信息进行分词,获得至少一个第一有效词语;

第二确定单元,用于根据各个网站分类字典,确定针对每一初始网站类别的每个第一有效词语的第一最终权重值;

分类单元,用于确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1