一种基于文本图像融合识别的网页知识抽取方法与流程

文档序号：17222403发布日期：2019-03-27 12:07阅读：来源：国知局

技术特征：

技术总结
本发明提供一种基于文本图像融合识别的网页知识抽取方法，涉及知识抽取、图像识别、文本分析和深度学习技术领域，将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度，利用文本分析方法基于语料库实现语义结构化，提取海量网页的价值数据关键字，同时将爬取网页转换成图片，提取结构化业务知识数据，对比分析两种方法提取的知识，不断学习训练出自动抽取模型，同时将确定的业务知识生成该网页的价值数据指纹，并加入到业务知识基础语料库中，持续更新自动抽取模型和基础语料库。保证了爬取数据准确性，提升爬取数据效率。

技术研发人员：孙善宝;谭强;于治楼
受保护的技术使用者：济南浪潮高新科技投资发展有限公司
技术研发日：2018.11.30
技术公布日：2019.03.26