网页分类字典生成方法及装置与流程

文档序号:11950611阅读:来源:国知局

技术特征:

1.一种网页分类字典生成方法,其特征在于,所述方法包括:

根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,所述网页分类标准中包含网页分类类别;

根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容;

从所获取的样本网页内容中,分别提取出所述样本网页内容中的样本文本信息,并对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语;

从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,其中,所述逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值;

将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。

2.根据权利要求1所述的方法,其特征在于,所述多个学习词语与逆向词语频率值的对应关系的建立过程为:

获得任意选取的学习URL对应的学习网页内容;

从所获得的学习网页内容中,分别提取出所述学习网页内容中的学习文本信息,并对所述学习文本信息进行分词处理,得到每一所提取出的学习文本信息对应的学习词语;

根据每一学习词语在所有学习文本信息中出现的次数,确定每一学习词语的逆向词语频率值,并将所有学习词语以及所对应的逆向词语频率值进行对应存储。

3.根据权利要求2所述的方法,其特征在于,所述确定每一学习词语的逆向词语频率值的计算公式为:

Ti=1/Ni

其中,所述Ti表示学习词语i的逆向词语频率值,所述Ni表示学习词语i在所有学习文本信息中的出现次数。

4.根据权利要求1-3所述的方法,其特征在于,所述对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语之后,所述方法还包括:

从所述样本词语中,选择符合预设筛选规则的目标样本词语;

所述从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,包括:

从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述目标样本词语对应的逆向词语频率值;

所述将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中,包括:

将所述目标样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。

5.根据权利要求1-3任一项所述的方法,其特征在于,还包括:

接收用户反馈的词语匹配次数,其中,所述词语匹配次数为:使用所述网页分类字典对未知类型的网页分类时,所述网页分类字典中所存储的词语的匹配次数;

根据所述词语匹配次数,计算所述网页分类词典中所存储的词语的匹配概率;

从所述网页分类词典中删除所对应匹配概率低于预定阈值的词语。

6.一种网页分类字典生成装置,其特征在于,所述装置包括:第一确定模块、获取模块、提取模块、分词模块、第二确定模块和存储模块;

所述第一确定模块:用于根据预定的网页分类标准,确定各个类别的网页分类样本对应的样本统一资源定位符URL,其中,所述网页分类标准中包含网页分类类别;

所述获取模块:用于根据各个类别的网页分类样本对应的样本URL,获取所对应的样本网页内容;

所述提取模块:用于从所获取的样本网页内容中,分别提取出所述样本网页内容中的样本文本信息;

所述分词模块:用于对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语;

所述第二确定模块:用于从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述样本词语对应的逆向词语频率值,其中,所述逆向词语频率值为:根据每一学习词语在所对应学习文本信息中的出现次数所确定的值;

所述存储模块:用于将所述样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。

7.根据权利要求6所述的装置,其特征在于,所述多个学习词语与逆向词语频率值的对应关系的建立过程为:

获得任意选取的学习URL对应的学习网页内容;

从所获得的学习网页内容中,分别提取出所述学习网页内容中的学习文本信息,并对所述学习文本信息进行分词处理,得到每一所提取出的学习文本信息对应的学习词语;

根据每一学习词语在所有学习文本信息中出现的次数,确定每一学习词语的逆向词语频率值,并将所有学习词语以及所对应的逆向词语频率值进行对应存储。

8.根据权利要求7所述的装置,其特征在于,所述确定每一学习词语的逆向词语频率值的计算公式为:

Ti=1/Ni

其中,所述Ti表示学习词语i的逆向词语频率值,所述Ni表示学习词语i在所有学习文本信息中的出现次数。

9.根据权利要求6-8任一项所述的装置,其特征在于,所述装置还包括选择模块;

所述选择模块:用于对所述样本文本信息进行分词处理,得到每一所提取出的样本文本信息对应的样本词语之后,从所述样本词语中,选择符合预设筛选规则的目标样本词语;

所述第二确定模块,具体用于:从预先存储的多个学习词语与逆向词语频率值的对应关系中,筛选出与所述目标样本词语对应的逆向词语频率值;

所述存储模块,具体用于:将所述目标样本词语以及根据所对应逆向词语频率值确定的权重值,存储于网页分类字典中。

10.根据权利要求6-8任一项所述的装置,其特征在于,所述装置还包括接收模块、计算模块和删除模块;

所述接收模块:用于接收用户反馈的词语匹配次数,其中,所述词语匹配次数为:使用所述网页分类字典对未知类型的网页分类时,所述网页分类字典中所存储的词语的匹配次数;

所述计算模块:用于根据所述词语匹配次数,计算所述网页分类词典中所存储的词语的匹配概率;

所述删除模块:用于从所述网页分类词典中删除所对应匹配概率低于预定阈值的词语。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1