基于计算机视觉的通关数据定位、审核、编辑系统、方法及存储介质与流程

文档序号：24128878发布日期：2021-03-02 16:34阅读：121来源：国知局

[0001]
本申请涉及报关技术领域，尤其是涉及基于计算机视觉的通关数据定位、审核、编辑系统、方法及存储介质。

背景技术：

[0002]
在进出口货物装船出运前，需要向海关办理申报手续，申报材料包括：进出口货物报关单、货物发票、陆运单、空运单和海运进口的提货单、海运出口的装货单、货物装箱单、出口收汇核销单等等。其中报关单、提货单、装货单、货物装箱单等单据在制作后需要进行表单内容的审核，传统的纸制表单的审核标注效率低，且容易产生视觉疲劳，出现标注遗漏的问题。

技术实现要素：

[0003]
为了提高审核效率，同时提高标注的视觉效果，本申请提供了基于计算机视觉的通关数据定位、审核、编辑系统、方法及存储介质。
[0004]
第一方面，本申请提供的基于计算机视觉的通关数据定位、审核、编辑方法，包括：获取待审核的文件；从待审核的文件中的抽取需要审核的的字段和/或要素；根据提取的字段和/或要素生成可编辑的待编辑文件；定位对待编辑文件的标注和/或编辑位置，并突出显示。
[0005]
通过采用上述技术方案，一方面实现了线上审核，提高了审单的效率，同时对于审核过程中有批注以及修改的地方进行突出显示，放大了视觉效果，从而降低标注遗漏的概率。
[0006]
在一些实施方式中，获取的待审核的文件包括图片类以及非图片类，并将非图片类转换为图片格式，与图片类文件统一存储。
[0007]
通过采用上述技术方案，将接收的文件统一转换成图片格式，扩大了对单据的适用范围。
[0008]
在一些实施方式中，在获取待审核的文件后还包括：文件解析，解析待审核的文件类型及格式；图像预处理，修正待审核的文件的图像成像问题；文字检测，检测待审核的文件中文本的所在位置、范围及布局；文字识别，在文字检测的基础上对文本内容进行识别。
[0009]
通过采用上述技术方案，首先对文件进行解析，并进行图像处理，修正图像问题，再从图像中识别文本的所在位置、范围及布局，并在文字检测的基础上对文本内容进行识别，从而便于获取文件中的文字。
[0010]
在一些实施方式中，所述图像预处理包括:
将待审核的文件的图像输入预先训练的图像校正网络中进行几何变化和/或畸变校正，得到校正后的第一目标图像；将第一目标图像通过cv算法及仿射变换矩阵进行小角度校正，得到第二目标图像；将第二目标图像通过去噪算法去除模糊，得到第三目标图像；将第三目标图像经过二值化处理，得到二值化图像。
[0011]
在一些实施方式中，所述文字检测包括：将二值化图像输入预先训练的特征提取网络中；提取所述特征提取网络中至少两个卷积层的输出信息，并对所述输出信息进行融合；将融合后的信息输入所述特征提取网络中的全连接层，输出对应于所述二值化图像文本区域的k个anchor的2k个竖直方向坐标及坐标得分、k个边界回归结果，以实现文本定位，并得到矩形文本框。
[0012]
在报关行业内的发票和箱单根据不同客户可能存在不一样的文字排版结构，存在一对多的情况，通过采用上述技术方案可以抽取任意结构的数据并展示。
[0013]
在一些实施方式中，文字识别包括：通过预先训练的文字识别网络对矩形文本框内的文本内容进行字符识别，获取文本内容信息。
[0014]
在一些实施方式中，所述从待审核的文件中的抽取需要审核的的字段和/或要素包括：基于预先设置的语义数据库生成基础语义分析引擎，所述语义数据库中包括领域基础语料库、领域词典及领域知识图谱；基于基础语义分析引擎对文本内容信息进行字段分析处理；基于抽取需求提取数据集合抽取文本内容中需要的字段和/或要素。
[0015]
通过采用上述技术方案，采用自然语言处理结合行业识别文字的文本智能处：结合行业对抽取模型进行深度学习模型训练，能够对识别出来的数据进行简单的数据清洗。
[0016]
在一些实施方式中，基于对待编辑文件的标注和/或编辑突出显示包括：定位对待编辑文件的标注和/或编辑位置；对定位的位置进行突出标注。
[0017]
通过采用上述技术方案，对于审核过程中有批注以及修改的地方进行突出显示，放大了视觉效果，从而降低标注遗漏的概率。
[0018]
第二方面，本申请公开的基于计算机视觉的通关数据定位、审核系统，包括：文件获取单元，用于获取待审核的文件；文件解析单元，接收待审核的文件，并解析待审核的文件类型及格式；图像预处理单元，修正解析后的待审核的文件的图像成像问题；文字检测单元，在修正图像成像问题的基础上检测待审核的文件中文本的所在位置、范围及布局；文字识别单元，在文字检测的基础上对文本内容进行识别；文本提取单元，从文本识别结果中抽取需要的字段和/或要素；可编辑生成单元，根据提取的字段和/或要素生成可编辑的待编辑文件；定位单元，定位对待编辑文件的标注和/或编辑位置；标注单元，对定位单元定位的位置进行突出标注；以及
存储器和处理器，所述存储器上存储有能够被处理器加载并执行上述基于计算机视觉的通关数据定位、审核、编辑方法的计算机程序。
[0019]
第三方面，本申请公开的一种计算机可读存储介质，存储有能够被处理器加载并执行上述基于计算机视觉的通关数据定位、审核、编辑方法的计算机程序。
[0020]
综上所述，本申请提供的基于计算机视觉的通关数据定位、审核、编辑系统、方法及存储介质包括以下至少一种有益技术效果：1、通过上述系统实现了线上审核，提高了审单的效率，同时对于审核过程中有批注以及修改的地方进行突出显示，放大了视觉效果，从而降低标注遗漏的概率。
附图说明
[0021]
图1本为本申请提供的基于计算机视觉的通关数据定位、审核、编辑系统的结构框图。
[0022]
图中：1、文件获取单元；2、文件解析单元；3、图像预处理单元；4、文字检测单元；5、文字识别单元；6、文本提取单元；7、可编辑生成单元；8、定位单元；9、标注单元；10、存储器；11、处理器。
具体实施方式
[0023]
以下结合附图对本申请作进一步详细说明。
[0024]
本申请实施例提供基于计算机视觉的通关数据定位、审核、编辑系统、方法及存储介质。
[0025]
本申请提供的基于计算机视觉的通关数据定位、审核、编辑方法，包括：获取待审核的文件，其中；待处理的文件包括图片类以及非图片类，非图片类包括影印件及pdf文件，同时，将非图片类转换为图片格式，与图片类文件统一存储。
[0026]
输入的待处理的文件同时存储至文件库，基于人工标注进行模型训练，以得到图像校正网络、特征提取网络、文字识别网络及深度学习抽取数据集合。
[0027]
文件解析，解析待处理文件类型及格式，在本申请此实施方式中，文件解析支持包括jpg、png、tif、pdf格式文件的处理。
[0028]
图像预处理，修正待处理文件的图像成像问题；具体包括：将待处理文件的图像输入预先训练的图像校正网络中进行几何变化和/或畸变校正，得到校正后的第一目标图像，即：利用所述图像校正网络中的定位网络回归所述第一目标图像对应的空间变换的网络参数；利用所述图像校正网络中的网格生成器以及所述网络参数，计算所述校正后的第一目标图像中的像素点在所述第一目标图像中的位置；利用所述图像校正网络中的采样器以及计算出的位置，输出所述校正后的第一目标图像；然后，将第一目标图像通过cv算法及仿射变换矩阵进行小角度校正，得到第二目标图像；
将第二目标图像通过去噪算法去除模糊，得到第三目标图像；将第三目标图像经过二值化处理，得到二值化图像；图像预处理后进入以下步骤。
[0029]
文字检测，检测待处理文件中文本的所在位置、范围及布局，通常也包括版面分析和文字行检测等，文字检测主要解决的问题是哪里有文字，文字的范围有多大。具体步骤为包括：将二值化图像输入预先训练的特征提取网络中；提取所述特征提取网络中至少两个卷积层的输出信息，并对所述输出信息进行融合；将融合后的信息输入所述特征提取网络中的全连接层，输出对应于所述二值化图像文本区域的k个anchor的2k个竖直方向坐标及坐标得分、k个边界回归结果，以实现文本定位，并得到矩形文本框；以上文字检测采用的处理算法包括：faster-rcnn、mask-rcnn、fpn、panet、unet、iounet、yolo、ssd。
[0030]
接下来进入文字识别步骤，文字识别，在文字检测的基础上，对文本内容进行识别，文字识别主要解决的问题是每个文字是什么。在本申请此实施方式中，通过预先训练的文字识别网络对矩形文本框内的文本内容进行字符识别，获取文本内容信息，其采用的处理算法包括：crnn、attentionocr、rnnlm、bert。
[0031]
然后通过文本提取，从文本识别结果中抽取需要的字段和/或要素，包括：基于预先设置的语义数据库生成基础语义分析引擎，所述语义数据库中包括领域基础语料库、领域词典及领域知识图谱；基于基础语义分析引擎对文本内容信息进行字段分析处理；基于抽取需求提取数据集合抽取文本内容中需要的字段和/或要素，所述抽取需求包括：序列标注抽取、深度学习抽取及表格抽取，文本提取采用的处理算法包括：crf、hmm、han、dpcnn、bilstm+crf、bert+crf、regex。
[0032]
根据提取的字段和/或要素生成可编辑的待编辑文件。
[0033]
定位对待编辑文件的标注和/或编辑位置，对定位的位置进行突出标注。
[0034]
本申请还公开了基于计算机视觉的通关数据定位、审核系统，包括：文件获取单元1，用于获取待审核的文件；文件解析单元2，接收待审核的文件，并解析待审核的文件类型及格式；图像预处理单元3，修正解析后的待审核的文件的图像成像问题；文字检测单元4，在修正图像成像问题的基础上检测待审核的文件中文本的所在位置、范围及布局；文字识别单元5，在文字检测的基础上对文本内容进行识别；文本提取单元6，从文本识别结果中抽取需要的字段和/或要素；可编辑生成单元7，根据提取的字段和/或要素生成可编辑的待编辑文件；定位单元8，定位对待编辑文件的标注和/或编辑位置；标注单元9，对定位单元8定位的位置进行突出标注；以及存储器10和处理器11，所述存储器10上存储有能够被处理器11加载并执行上述基于计
算机视觉的通关数据定位、审核、编辑方法的计算机程序。
[0035]
本申请实施例提供一种存储介质，所述存储介质存储有指令集，该指令集适于一处理器11加载并执行上述态解析文本图像特征现象的元素自动捕获理解方法步骤。
[0036]
所述计算机存储介质例如包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0037]
以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请的方法及其核心思想，不应理解为对本申请的限制。本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陆欢旺;冯玉静;张东峰;万晓磊
技术所有人：上海三稻智能科技有限公司
我是此专利的发明人

上一篇：一种建筑机械用巡检设备的制作方法
上一篇：一种带有安全防护及稳定基座的防眩光玻璃生产装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。