用于便携式扫描设备多行扫描的方法及相关产品与流程

文档序号：33169668发布日期：2023-02-04 02:17阅读：27来源：国知局

1.本发明的实施方式涉及图像处理技术领域，更具体地，本发明的实施方式涉及用于便携式扫描设备多行扫描的方法以及执行前述方法的便携式扫描设备和计算机可读存储介质。

背景技术：

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。
3.随着词典笔等便携式扫描设备的技术更新，用户对便携式扫描设备的性能要求也更高。然而，在具体应用过程中，还是出现了一些使用不够便利的场景。
4.例如，对待扫描内容需要依序逐行扫描。特别是，当扫描内容行数较多时，需要针对每行内容进行扫描，使得扫描操作非常繁琐，不仅耗时耗力，且影响便携式扫描设备的效率，从而影响便携式扫描设备的整体性能。

技术实现要素：

5.已知的便携式扫描设备的扫描效率不理想，这是非常令人烦恼的过程。
6.为此，非常需要一种改进的用于便携式扫描设备多行扫描的方案，能够支持多行扫描操作，有效提高扫描效率，从而提升便携式扫描设备的整体性能。
7.在本上下文中，本发明的实施方式期望提供一种用于便携式扫描设备多行扫描的方法及相关产品。
8.在本发明实施方式的第一方面中，提出了一种用于便携式扫描设备多行扫描的方法，包括：获取所述便携式扫描设备扫描到的图像，其中所述图像包括多行字符信息；从所述图像中获取所述多行字符信息以及关于所述多行字符信息的段落结构信息；以及基于所述多行字符信息和所述段落结构信息，确定所述图像的多行扫描结果。
9.在本发明的一个实施例中，获取所述便携式扫描设备扫描到的图像包括：获取所述便携式扫描设备单次扫描到的图像；或获取所述便携式扫描设备连续扫描到的图像。
10.在本发明的另一个实施例中，其中单次扫描得到的图像或连续扫描到的每个图像均包括连续多帧图片，从所述图像中获取所述多行字符信息以及关于所述多行字符信息的段落结构信息包括：对所述连续多帧图片进行拼图处理，以得到目标图片；对所述目标图片进行切行处理，以到所述多行字符信息；以及基于所述多行字符信息的排版信息，确定所述段落结构信息。
11.在本发明的再一个实例中，对所述目标图片进行切行处理包括：采用自然场景文本检测模型对所述目标图片进行切行处理，其中所述自然场景文本检测模型包括用于进行特征提取的卷积神经网络、用于预测字符级高斯图的第一预测头和用于预测中心线二值图
的第二预测头。
12.在本发明的又一个实施例中，基于所述多行字符信息和所述段落结构信息，确定所述图像的多行扫描结果包括：基于所述段落结构信息对所述多行字符信息进行组段处理；对经组段处理后的字符信息进行文字识别处理，以得到所述图像的多行扫描结果。
13.在本发明的一个实施例中，其中所述图像包括连续顺序扫描得到的多个图像或连续乱序扫描得到的多个图像，所述方法还包括：对每个图像的多行扫描结果进行融合去重处理。
14.在本发明的另一个实施例中，所述方法还包括：响应于任一图像的多行扫描结果出现异常，基于所述便携式扫描设备重新扫描得到所述任一图像；以及基于重新扫描得到的所述任一图像的多行扫描结果与其他图像的多行扫描结果继续执行融合去重处理。
15.在本发明的再一个实施例中，其中所述图像中的多行字符信息包括手写部分和印刷部分，所述方法还包括：从所述图像中分割出所述手写部分，以得到手写擦除后的图像；以及对所述手写擦除后的图像进行图像增强处理。
16.在本发明实施方式的第二方面中，提供了一种便携式扫描设备，包括：处理器；以及存储器，其存储有用于便携式扫描设备多行扫描的计算机指令，当所述计算机指令由所述处理器运行时，使得所述便携式扫描设备执行根据前文以及下文多个实施例所述的方法。
17.在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，包含用于便携式扫描设备多行扫描的程序指令，当所述程序指令由处理器执行时，使得实现根据前文以及下文多个实施例所述的方法。
18.根据本发明实施方式的用于便携式扫描设备多行扫描的方法及相关产品，可以从便携式扫描设备扫描到的图像中同时得到多行字符信息，并结合得到的段落结构信息确定多行扫描结果，从而实现真正意义上的多行扫描—一次扫描多行并得到多行扫描结果。由此，可有效降低扫描次数，以及提高扫描效率，并进而提升便携式扫描设备的整体性能。
19.在本发明的一些实施例中，便携式扫描设备可支持连续多行扫描，且扫描顺序可以是顺序扫描，也可以是乱序扫描，最终会对连续扫描得到的所有多行扫描结果进行融合去重处理，大大提升了便携式扫描设备的易操作性。
20.另外，在本发明的又一些实施例中，对于连续扫描过程中某一图像的多行扫描结果出现异常时，可以仅针对该异常部分重新扫描即可，而无需重复扫描所有内容。由此，可以进一步提高扫描效率。
附图说明
21.通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：
22.图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图；
23.图2示意性地示出了根据本发明一个实施例的用于便携式扫描设备多行扫描的方法的流程示意图；
24.图3示意性地示出了根据本发明另一个实施例的用于便携式扫描设备多行扫描的
方法的流程示意图；
25.图4示意性地示出了根据本发明实施例的手写擦除场景下的多行扫描处理过程示意图；以及
26.图5示意性地示出了根据本发明实施例的便携式扫描设备的结构示意图。在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
27.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
28.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
29.图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(cpu)101、随机存取存储器(ram)102、只读存储器(rom)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有cpu 101、ram 102、rom 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。
30.本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”“单元”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。
31.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
32.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，
其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
33.计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。
34.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(lan)或广域网(wan))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
35.下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
36.也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
37.也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
38.根据本发明的实施方式，提出了一种用于便携式扫描设备多行扫描的方法及其相关产品。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
39.下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。发明概述
40.本发明人发现，现有的词典笔等便携式扫描设备的扫描效果不理想。具体地，现有的便携式扫描设备仅支持单行扫描，这种单行扫描方式在每次扫描时仅提取到中间行，然后将识别的结果直接拼在一起。由此，用户需要进行多次扫描操作，特别是当扫描内容行数较多时，不仅需要逐一顺序扫描每一行，且在多次扫描过程中，若某一行扫描异常(例如出现错误等)，则需要针对所有行重新扫描。可以看出，整个扫描过程操作非常繁琐，且扫描效率低。
41.基于此，发明人经研究发现，可以使便携式扫描设备支持多行扫描来提高其扫描
效率，具体可以针对包括多行字符信息的图像进行多行字符信息的同步提取，并进一步结合多行字符信的段落结构信息得到多行扫描结果。由此，可以实现真正意义上的多行扫描—一次扫描多行并得到多行扫描结果，从而有效降低扫描次数以及提高扫描效率，并进而提升便携式扫描设备的整体性能。
42.在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。示例性方法
43.下面参考图2来描述根据本发明示例性实施方式的用于便携式扫描设备多行扫描的方法。需要注意的是，本发明的实施方式可以应用于适用的任何场景。
44.图2示意性地示出了根据本发明一个实施例的用于便携式扫描设备多行扫描的方法200。需要说明的是，这里的便携式扫描设备可以包括词典笔、扫描翻译笔以及其他有多行扫描识别需求的便携式设备等。
45.如图2所示，在步骤s201处，可以获取便携式扫描设备扫描到的图像，其中前述的图像包括多行字符信息。便携式扫描设备可支持对扫描内容(各种扫描介质上承载的字符信息等)的图像采集，具体每一次扫描所能扫描到的字符信息的行数需依据便携式扫描设备的扫描端口、字符的排版情况等确定。例如，对于词典笔，可根据词典笔的笔头宽度以及所扫描的字体、行距等排版情况等多种因素来确定该词典笔扫描到的图像中的字符信息的行数。
46.接着，在步骤s202处，可以从前述的图像中获取多行字符信息以及关于多行字符信息的段落结构信息。不同于传统的单行扫描技术，单行扫描技术仅提取扫描内容的中间行，且是对每次识别结果直接进行首尾拼接，不涉及段落结构。而这里不仅需要将图像中包含的多行字符信息均提取出来，还需要进一步提取相关的段落结构信息，以确保后续多行扫描结果的准确度。
47.最后，在步骤s203处，可以基于前述的多行字符信息和段落结构信息，确定图像的多行扫描结果。同步提取出多行字符信息可能属于同一段落或者多段段落，结合具体的段落结构信息，可以对多行字符信息进行准确排序，从而确保多行扫描结果的有效性。特别是，针对连续的多行扫描情景，对每次扫描的多行字符信息的精准排序尤为重要。
48.可以看出，通过从便携式扫描设备扫描到的图像中同时得到多行字符信息，并结合得到的段落结构信息确定多行扫描结果，可以实现真正意义上的多行扫描—一次扫描多行并得到多行扫描结果。由此，可有效降低扫描次数，以及提高扫描效率，并进而提升便携式扫描设备的整体性能。
49.图3示意性地示出了根据本发明另一个实施例的用于便携式扫描设备多行扫描的方法300。可以理解的是，方法300是对图2中方法200的进一步限定和补充。因此，前文结合图2的相关细节性描述，同样也适用于下文。
50.如图3所示，在步骤s301处，可以获取便携式扫描设备扫描到的图像。在一些实施例中，可以有多种方式来获取便携式扫描设备扫描到的图像。例如，可以获取便携式扫描设备单次扫描到的图像。又例如，还可以获取便携式扫描设备连续扫描到的图像。其中，单次扫描得到的图像或连续扫描到的每个图像均包括连续多帧图片。
51.接着，在步骤s302处，可以对前述的连续多帧图片进行拼图处理，以得到目标图
片。例如，可以先对连续的前n帧(如前2帧)图片进行拼图处理，然后再将前n帧的拼图与n+1的图片再进行拼图处理，直至完成所有帧图片的拼图处理，以得到目标图片。例如，对连续的2帧图片，选取对应拼图模板，然后使用模版匹配找出对应的拼接位置。接着，可以采用渐变矩阵进行图片的融合。需要说明的是，这里对拼图处理的细节性描述仅是示例性说明，本发明的方案并不受此限制。
52.接着，在步骤s303处，可以对前述的目标图片进行切行处理以得到多行字符信息。例如，可以将目标图片中的字符区域进行切分提取，去除不完整的行等，以得到多行字符信息。其中具体的且行处理方式可以通过一些文本识别技术来实施。这里优选地，可以采用场景文本检测模型(differentiable binarization network，简称dbnet)，其是一种可以通过文本行级的检测来有效地检测文本区域。这里的dbnet模型具体包括用于进行特征提取的卷积神经网络、用于预测文本区域的第一预测头和用于预测自适应阈值图的第二预测头，具体可以先通过卷积神经网络对图片进行特征提取，然后利用第一预测头基于提取到的特征生成文本区域的概率图，通过文本区域的概率图可以确定文本区域。然后，通过第二预测头所预测到的阈值图进行文本区域的二值化，然后进行拼接和矫正，从而实现切行处理。需要说明的是，这里对图片的切行处理过程的细节性描述仅是示例性说明，本发明的方案并不受此限制。
53.接着，在步骤s304处，可以基于前述的多行字符信息的排版信息确定段落结构信息。扫描得到的图像中可能会带有段落标号、段落缩进空格、行间距、字体等排版信息，通过采集图像中的多行字符信息的这些排版信息，可以有效确定相应的段落结构信息。
54.接着，在步骤s305处，可以基于前述的段落结构信息对多行字符信息进行组段处理。具体地，多行字符信息具有对应的段落结构信息，特别是单次扫描到的多行字符信息属于不同段落，或者连续多次扫描到的多行字符信息属于不同段落，均可以根据相应的段落结构信息进行组段。由于具备详细的段落结构信息，并支持段落的重组，所以在连续扫描场景下，对扫描顺序并不进行限制。例如，可以是顺序连续扫描，也可以是乱序连续扫描。由此，大大提升用户操作体验。另外，当某一图像的多行扫描结果出现错误等异常情况时，还可以仅针对异常部分重新扫描，大大提高了扫描效率。
55.最后，在步骤s306处，可以对经组段处理后的字符信息进行文字识别处理，以得到图像的多行扫描结果。对字符信息的文字识别处理可以有多种方式，例如可以通过光学字符识别技术等。这里优选地，采用基于卷积神经网络的编码器(简称cnn-based encoder)+基于连接时序分类(connectionist temporal classification，简称ctc)的解码器组件(也即ctc-based decoder head)技术来进行文字识别处理。具体地，可以使用卷积神经网络(例如darknet神经网络架构)对图片进行特征提取。编码器部分摒弃了传统的循环神经网络(简称rnn)结构，而采用全连接的结构以支持端侧神经网络处理器npu/张量处理器tpu等设备中int8量化模型推理加速。而解码器部分采用ctc算法可进行字符的对齐。
56.进一步地，在一些实施例中，当便携式扫描设备扫描的图像包括连续顺序扫描得到的多个图像或连续乱序扫描得到的多个图像时，可以对每个图像的多行扫描结果进行融合去重处理。例如，可以通过自然语言识别技术等实现扫描结果的融合，以对不完整的行、重复的行等进行去除。
57.进一步地，在一些实施例中，还可以将多行扫描引用于手写擦除场景。当图像中的
多行字符信息包括手写部分和印刷部分时，可以从图像中分割出手写部分，以得到手写擦除后的图像。然后，可以对手写擦除后的图像进行图像增强。处理。
58.图4示意性地示出了根据本发明实施例的手写擦除场景下的多行扫描处理过程示意图。如图4所示，便携式扫描设备连续扫描2次，并对于每次扫描得到的图像进行单行拼图处理，得到第一次扫描图像和第二扫描图像。其中，第一次扫描图像和第二扫描图像中包含了手写部分和印刷部分。接着，通过手写分割和图像增强等技术进行手写擦除处理。其中，手写分割技术可以使用high-resolution network(简称hrnet)，该hrnet的数据来自于逐像素标注。图像增强技术可以使用类似于生成对抗网络gan的模型来实现的。例如，具体可以通过gan模型中的生成器生成擦除后图片，然后通过gan模型中的判断器对生成器进行矫正，最终推理部分指使用生成器部分进行增强。然后，进行如上文中提及的切行、组段以及融合去除后，得到最终的多行扫描结果。
59.可以看出，通过从便携式扫描设备扫描到的图像中同时得到多行字符信息，并结合得到的段落结构信息确定多行扫描结果，可以实现真正意义上的多行同步扫描，使得信息录入更高效。另外，本技术中的便携式扫描设备不仅支持多行扫描模式，还可以兼容传统的单行扫描模式，具体使用时可以根据需求进行模式切换。另外，还可以支持连续多行扫描、针对某次扫描异常部分重新扫描以及手写擦除处理等。示例性设备
60.在介绍了本发明示例性实施方式的方法之后，接下来，参考图5对本发明示例性实施方式的用于便携式扫描设备多行扫描的方法的相关产品进行描述。
61.图5示意性地示出了根据本发明实施例的便携式扫描设备500的示意框图。如图5所示，便携式扫描设备500可以包括处理器501和存储器502。其中存储器502存储有由计算机实施的用于便携式扫描设备多行扫描的计算机指令，当所述计算机指令由处理器501运行时，使得便携式扫描设备500执行根据前文结合图2和图3所描述的方法。例如，在一些实施例中，便携式扫描设备500可以执行扫描图像、获取包含多行字符信息的图像、多行字符信息和段落结构信息的获取以及多行扫描结果的确定等。基于此，通过便携式扫描设备500可以支持多行同步扫描，由此可有效降低扫描次数，以及提高扫描效率，并进而提升便携式扫描设备的整体性能。此外，便携式扫描设备500还可以兼容传统的单行扫描模式，在使用过程中，用户可以根据需求(例如扫描内容的多少等)来调整便携式扫描设备采用单行或多行扫描模式。
62.在一些实施场景中，便携式扫描设备500可以包括词典笔、扫描翻译笔以及其他有多行扫描识别需求的便携式设备等，本发明的方案对便携式扫描设备500可具备的结构设计并不进行限制。
63.应当注意，尽管在上文详细描述中提及了设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
64.申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
65.虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白志奇许彬段亦涛林辉
技术所有人：网易有道信息技术（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。