一种基于视觉特征的网页关键内容检测系统及方法与流程

文档序号:16882623发布日期:2019-02-15 22:19阅读:来源:国知局

技术特征:

技术总结
本发明涉及一种基于视觉特征的网页关键内容检测系统及方法,收集网页样本库,利用chrome‑headless等软件,动态渲染HTML代码,并分析内部DOM控件的视觉特征属性以及子组件的属性,形成多维特征向量,运用决策树、随机森林、贝叶斯分析、逻辑回归、支持向量机、K‑近邻等算法进行检测,输出该组件为关键内容的概率,实现网页关键内容的自动提取。本发明可对于未知网页进行自动化关键内容的提取,用于搜索引擎对大规模的网页进行摘要提取。

技术研发人员:王志强;马平川;王兵;张健毅;张翼;池亚平;张南峰;余泽峰;纪曦;王希文
受保护的技术使用者:中共中央办公厅电子科技学院;广东航宇卫星科技有限公司
技术研发日:2018.09.11
技术公布日:2019.02.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1