一种提取新闻网页正文的方法及装置与流程

文档序号:18196872发布日期:2019-07-17 05:54阅读:来源:国知局

技术特征:

技术总结
本发明一种提取新闻网页正文的方法及装置,所述方法包括:确定待提取网页的二级域名;获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文,所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。由于同一个二级域名的各个网页对应同一个网页模板,因此,对于具有同一个二级域名的各个新闻网页,无论是常规网页还是非常规网页,均可以利用该二级域名的网页模板对应的正文分布规则提取正文。

技术研发人员:马庆丽
受保护的技术使用者:北京国双科技有限公司
技术研发日:2017.10.31
技术公布日:2019.07.16
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1