一种网页特征提取方法和装置与流程

文档序号:15588387发布日期:2018-10-02 18:39阅读:来源:国知局

技术特征:

技术总结
本发明实施例公开了一种网页特征提取方法和装置,根据网页信息的位置架构将目标网页分为多个文档部分;分别对多个文档部分进行分词处理,对分词处理结果进行统计,获得与多个文档部分对应的多个集合,根据第一集合中与特征词对应的次数确定基础位置权重值,第一集合为所述多个集合中数据对最多的集合;根据基础位置权重值、预设权重比例值和多个集合中除第一集合外的所有集合,确定多个集合中除第一集合外的所有集合的权重值;将多个集合和多个集合中除第一集合外的所有集合的权重值进行整合处理,获得目标网页的特征向量,以使得根据特征向量对网页进行特征分析。

技术研发人员:吕颖韬;冯宜安;周璐;张贝金
受保护的技术使用者:中移(杭州)信息技术有限公司;中国移动通信集团公司
技术研发日:2016.12.12
技术公布日:2018.10.02
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1