技术特征:
技术总结
本发明提供一种基于文本图像融合识别的网页知识抽取方法,涉及知识抽取、图像识别、文本分析和深度学习技术领域,将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度,利用文本分析方法基于语料库实现语义结构化,提取海量网页的价值数据关键字,同时将爬取网页转换成图片,提取结构化业务知识数据,对比分析两种方法提取的知识,不断学习训练出自动抽取模型,同时将确定的业务知识生成该网页的价值数据指纹,并加入到业务知识基础语料库中,持续更新自动抽取模型和基础语料库。保证了爬取数据准确性,提升爬取数据效率。
技术研发人员:孙善宝;谭强;于治楼
受保护的技术使用者:济南浪潮高新科技投资发展有限公司
技术研发日:2018.11.30
技术公布日:2019.03.26