一种基于文本图像融合识别的网页知识抽取方法与流程

文档序号:17222403发布日期:2019-03-27 12:07阅读:来源:国知局

技术特征:

技术总结
本发明提供一种基于文本图像融合识别的网页知识抽取方法,涉及知识抽取、图像识别、文本分析和深度学习技术领域,将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度,利用文本分析方法基于语料库实现语义结构化,提取海量网页的价值数据关键字,同时将爬取网页转换成图片,提取结构化业务知识数据,对比分析两种方法提取的知识,不断学习训练出自动抽取模型,同时将确定的业务知识生成该网页的价值数据指纹,并加入到业务知识基础语料库中,持续更新自动抽取模型和基础语料库。保证了爬取数据准确性,提升爬取数据效率。

技术研发人员:孙善宝;谭强;于治楼
受保护的技术使用者:济南浪潮高新科技投资发展有限公司
技术研发日:2018.11.30
技术公布日:2019.03.26
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1