网页信息提取方法和装置与流程

文档序号:16881248发布日期:2019-02-15 22:10阅读:来源:国知局

技术特征:

技术总结
公开了一种网页信息提取方法和装置。所述方法包括:拆分目标网页块中的文本以获取粗分类的键‑值对;利用自学习模型对所述粗分类的键‑值对进行修正;以及从经修正的键‑值对中获取所述网页的目标提取信息。由此,通过两轮调整提取准确分类的键‑值对信息。本发明的无监督的网页结构化信息抽取方案能够通过使用自学习模型,在不依赖任何人工标注数据的情况下从网页块中找到结构化信息的“键‑值”对,从而适应网页排版的变化,与传统模板配置方案相比,在性能和稳定性具有显著提升。

技术研发人员:何磊;杨智杰;杨锋
受保护的技术使用者:广州神马移动信息科技有限公司
技术研发日:2018.08.14
技术公布日:2019.02.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1