某种图文采集识别装置的制作方法

文档序号：12553998阅读：177来源：国知局

技术领域

本发明涉及图像采集识别处理技术领域，尤其涉及图文采集识别装置。

背景技术：

随着图像处理技术的发展，相应的图像采集识别技术的应用也日益广泛，然而，目前的图像采集识别技术中，为了获得对所需采集对象的覆盖，则需要较远距离设置相应的摄像头。而且单一固定摄像头其单一焦距导致所拍摄对象只在焦距合适的那一小部分最清楚，其它部分则由于不在最佳焦距位置处，则不够清晰。而且对弯曲表面（比如对打开的书中部的大弯曲）难以实现不失真的拍摄。而且，普通摄像头的拍摄角度也只能在正上方才能对全部被拍摄对象有效拍摄，如果从侧面或斜面拍摄则容易使部分不在最佳焦距而不清晰，并且由于投射原理，距摄像头远端的物体成像小，分辨率会下降很多。因此，若采用普通单个固定摄像头（即普通摄像头）对所需采集对象的全面覆盖则对摄像头分辨率要求很高，且无法达到理想拍摄效果。

再者，目前的图书出版发行量已经非常大。但目前还存在一部分人群，如儿童、盲人、老年人等，其不方便对图书直接进行阅读，针对这部分人群需要辅助阅读发声设备进行阅读，而目前没有针对普通图书的辅助阅读发声设备。

技术实现要素：

本发明的目的是提供可以准确方便地采集到期望的图像信息的图文采集识别装置，

本发明是通过以下技术方案实现的：

某种图文采集识别装置，包括：

多点图像信息采集单元和图像信息识别单元，所述多点图像信息采集单元将采集的图像信息传递给所述图像信息识别单元，所述图像信息识别单元根据所述图像信息识别出图文内容信息，且所述多点图像信息采集单元采用拍照方式获得所述图像信息，所述多点图像信息采集单元包括多个摄像头，即二个或三个或四个或四个以上摄像头，所述多个摄像头用于完成多角度和/或多位置的多点图像拍摄，且每个摄像头为固定式摄像头或可活动式摄像头，所述可活动式摄像头的拍照角度和/或位置是可调整的，所述可活动式摄像头为基于预定的控制方式或基于接收的控制信息或手动控制其活动以对被拍摄对象进行多角度和/或多位置的多点图像拍摄。

所述可活动式摄像头包括可旋转式摄像头和/或可移动式摄像头,即所述可活动式摄像头可旋转或可移动或可移动可旋转；或者，所述可活动式摄像头包括一个或多个可活动式镜头，所述可活动式镜头的拍照角度和/或位置是可调整的；若所述可活动式摄像头包含多个，则多个可活动式摄像头包含的每个摄像头用于采集全部或部分场景的图文内容信息；所述可活动式摄像头设置于需要采集所述图像信息的区域的位置包括：所述区域的边缘上方和/或斜上方和/或正上方。

所述固定式摄像头包括一个或多个镜头，且若所述固定式摄像头包括多个镜头，则基于预定的控制方式或接收的控制信息控制各个镜头采集所述图文内容信息，所述多个摄像头包含的每个摄像头用于采集全部或部分场景的图文内容信息；所述摄像头设置于需要采集所述图像信息的区域的位置包括：所述区域的边缘上方和/或斜上方和/或正上方。

所述图文内容信息包括：印刷品的图片或文字内容信息，和/或，对印刷品进行阅读操作的指示信息。

所述对印刷品进行阅读操作的指示信息包括：通过手或手持物体在印刷品上进行的阅读指示操作信息。

所述多点图像信息采集单元还包含阅读位置信息采集模块，用于通过摄像头采集用户阅读操作位置的文字图像信息，且所述图像信息识别单元识别所述用户阅读操作位置的文字图像信息包含的文字内容。

所述印刷品的图片或文字内容信息包含图书的书目信息，所述多点图像信息采集单元采集包含有图书的书目信息的图像信息并传递给所述图像信息识别单元，所述包含有图书的书目信息的图像信息包括图书封皮的图像信息，且所述图像信息识别单元通过识别所述图书封皮的图像信息中的文字确定书目信息，或者，通过识别所述图书封皮的图像信息确定书目信息，或者，通过识别所述图书封皮的图像信息中的标识确定书目信息，所述标识是图书自身的或附加的，

和/或，

所述印刷品的图片或文字内容信息包含图书的页码信息，所述多点图像信息采集单元采集包含有图书的页码信息的图像信息并传递给所述图像信息识别单元，所述页码信息采集模块通过所述摄像头模块采集图书内页的图像信息作为包含所述页码信息的信息，通过识别所述图书内页的图像信息确定当前阅读的页码，或者，通过识别所述图书内页的图像信息中的文字或数字页码确定当前阅读的页码。

该装置还包括：

音频单元，所述多点图像信息采集单元将采集的图书中当前阅读页的或印刷品当前阅读位置的或阅读操作指示位置的或包含书目信息的或包含页码信息的图像信息传递给所述图像信息识别单元，所述图像信息识别单元根据所述当前阅读页的或印刷品当前阅读位置的或阅读操作指示位置的或包含书目信息的或包含页码信息的图像信息识别出该当前阅读页的或印刷品当前阅读位置的或阅读操作指示的或书目信息或页码信息的文字内容信息对应的音频信息并通知所述音频单元，所述音频单元将所述对应的音频信息以音频形式输出；

和/或，

音频输入单元，用于获取音频信息；

和/或，

存储单元，包括存储音频信息和/或保存采集识别过程中获得的图像和/或文字信息和/或保存外部获得的内容信息；

和/或，

显示单元，显示包括设定的内容信息和/或采集识别过程中获得的图像和文字信息和/或外部获得的内容信息；

和/或，

通信单元，用于和计算机通信。

该装置包括互动处理模块，用于获取用户的互动操作控制信息，并根据所述互动操作控制信息执行预定的互动操作，且所述互动操作控制信息包括肢体动作、操作物体的动作、语音信息、屏幕输入或操作按键中的至少一项。

由上述本发明提供的技术方案可以看出，本发明实施例提供的图文采集识别装置有利于图文采集识别，相对于普通摄像头，可以在实用近距离不失真的完成所需图像拍照采集, 从图书不影响阅读的角度或位置比如斜上方也能图像采集并识别，不影响用户的阅读，相应的活动摄像头或多个摄像头会有多个焦距，这样就能使所采集对象各部分都处于最佳焦距，以保证各部分的图像均清晰，对于弯曲表面（比如图书中部的大弯曲面）总能有合适的拍摄角度和位置，因此能有效地对其进行拍摄识别，而且，相应的多点图像信息采集单元可以使得对摄像头分辨率要求较低，或者说以同样分辨率的摄像头对所拍摄物进行拍摄可以达到更高的分辨率（更有利于识别），从而可以使得采集到的图像信息能够真实准确地反应被采集区域中的实际情况，进而使得后续的图文识别处理过程中可以准确识别出相应的图文内容信息。从而使得该装置也可以但不限于作为一种图文录入装置等，图文录入比如全文录入，或随着对印刷品进行阅读操作的指示的选择部分图文进行录入等。另一方面，在该图文采集识别装置中，由于可以准确进行图文内容信息的识别，因而可以针对普通图书进行图文识别处理，并结合相应的发声功能实现针对普通图书的辅助阅读发声处理，从而为人们提供一种可以对普通图书进行辅助发声的辅助阅读发声设备。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的图文采集识别装置的结构示意图一；

图2为本发明实施例提供的图文采集识别装置的结构示意图二；

图3为本发明实施例提供的包含多个摄像头的图文采集识别装置的结构示意图一；

图4为本发明实施例提供的包含多个摄像头的图文采集识别装置的结构示意图二；

图5为本发明实施例提供的设置于边缘上方的摄像头的结构示意图；

图6为本发明实施例提供的设置于斜上方的摄像头的结构示意图一；

图7为本发明实施例提供的设置于斜上方的摄像头的结构示意图二；

图8为本发明实施例提供的设置于正上方的摄像头的结构示意图；

图9为本发明实施例提供的可旋转式摄像头旋转前拍摄图书上曲面的示意图；

图10为本发明实施例提供的可旋转式摄像头旋转后拍摄图书上曲面的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实施例作进一步地详细描述。

本发明实施例提供了某种图文采集识别装置，其具体实现结构如图1所示，可以包括：多点图像信息采集单元和图像信息识别单元，所述多点图像信息采集单元将采集的图像信息传递给所述图像信息识别单元，所述图像信息识别单元根据所述图像信息识别出图文内容信息，且所述多点图像信息采集单元采用拍照方式获得所述图像信息，即所述多点图像信息采集单元通过其包含的摄像头拍摄获得所述图像信息。

进一步的，为实现针对被拍摄对象的多角度和/或多位置的多点图像拍摄，

所述多点图像信息采集单元包括多个摄像头，即二个或三个或四个或四个以上摄像头，所述多个摄像头用于完成多角度和/或多位置的多点图像拍摄，且每个摄像头为固定式摄像头或可活动式摄像头，所述可活动式摄像头为基于预定的控制方式或基于接收的控制信息或手动控制其活动以对被拍摄对象进行多角度和/或多位置的多点图像拍摄。例如，根据反馈自动控制（如根据拍摄图像识别后的反馈做自动调整），比如当手指示处超出范围了或部分文字超出范围了或页码超出范围了，则自动调整可活动式摄像头的角度和/或位置，这样产品在工作过程中无需或少需人工干预，或者，根据用户输入的控制信息（如用户执行的特肢体定动作或用户通过操作按键输入的预定控制信息等）控制所述摄像头转动或移动，或者，也可以根据预先设定的时间间隔自动控制所述摄像头旋转或移动，以进行针对被拍摄对象的多角度和/或多位置的多点拍摄。

具体地，所述固定式摄像头包括一个或多个镜头，且若所述固定式摄像头包括多个镜头，则基于预定的控制方式或接收的控制信息控制各个镜头采集所述图文内容信息，且所述预定的控制方式包括控制多个摄像头中的全部摄像头或部分摄像头进行多角度和/或多位置的多点图像拍摄；

所述多个摄像头包含的每个摄像头用于采集全部或部分场景的图文内容信息；

所述摄像头可以设置于需要采集所述图像信息的区域的位置包括：所述区域的边缘上方和/或斜上方和/或正上方。

也就是说，在该图文采集识别装置中，相应的多点图像信息采集单元可以包含多个摄像头，如图3、图4所示，相应的多个摄像头可以是以固定或可活动的方式设置于被拍摄对象所在区域的边缘上方和/或斜上方和/或正上方，例如，可以设置于图书的边缘上方和/或斜上方和/或正上方，当阅读者在阅读时设置的位置需要不影响阅读者阅读图书即可，具体可以参照图5、图6、图7和图8所示。同时，由于采用了多个摄像头，大大减小了对每个摄像头所需要的拍摄覆盖，增大了整体覆盖，从而保证对识别所需要的拍摄覆盖，多个摄像头可以各自拍摄进行各自的识别工作，也可将拍摄结果综合后以供识别。

例如，根据反馈自动控制（如根据拍摄图像识别后的反馈做自动调整），比如当手指示处超出范围了或部分文字超出范围了或页码超出范围了，则自动调整可活动式摄像头的角度和/或位置，这样产品在工作过程中无需或少需人工干预，或者，根据用户输入的控制信息（如用户执行的肢体定动作或用户通过操作按键输入的预定控制信息等）控制所述各个镜头对被拍摄对象的多角度和/或多位置进行拍摄，或者，也可以根据预先设定的各个镜头采集被拍摄对象的多角度和/或多位置的图像信息的方式自动控制所述各个镜头进行拍摄（比如，可以设定各个镜头为依次拍摄被拍摄对象获得相应的图像信息，也可以设定各个镜头同时拍摄被拍摄对象获得相应的图像信息，或者，也可以设定部分镜头拍摄被拍摄对象获得相应的图像信息，等等）。

固定摄像头通常有固定的视野，但多个摄像头可形成全面的覆盖，而可活动式摄像头在某一角度位置时有固定的视野，但其通过活动改变视野，因此也能形成全面的覆盖，在具体实施中，如果固定摄像头松动了，并不能视为可活动式摄像头，同样，即使摄像头是可以活动的，但如果其工作过程中并不是靠活动来获得所需的特别效果，比如全面的覆盖等，则实际上仍属于固定摄像头方案。比如，若将可以活动的摄像头事先调整到合适的角度位置等，但实际使用中并不需要进行活动，或活动对特别的效果比如全面的覆盖等作用很小，则实际上仍属于固定摄像头方案。

本发明实施例提供的图文采集识别装置中，所述图文内容信息具体可以但不限于包括：印刷品的图片或文字内容信息，和/或，空间静物的图片信息，和/或，肢体动作信息，和/或，对印刷品进行阅读操作的指示信息，和/或，操作物体的动作信息；即所述图文内容信息可以为印刷品的图片或文字内容信息、空间静物的图片信息、肢体动作信息、对印刷品进行阅读操作的指示信息以及操作物体的动作信息中的至少一项。

也就是说，相应的图像信息识别单元可以根据采集到的图像信息识别出印刷品中的图片或文字信息，或者，也可以识别出空间静物的图片（如根据采集到的空间静物的图像信息确定相应的空间静物的对应图片或文字说明等内容信息），或者，也可以识别出用户执行的手势动作等肢体动作信息（如识别预定的肢体动作所对应的执行指令含义等），或者，也可以识别出用户操作物体的动作信息，或者，也可以识别出用户对印刷品进行阅读时的阅读操作指示，等等。进一步地，对印刷品进行阅读操作的指示信息可以通过肢体动作信息或操作物体的动作信息实现，即可以将特定的肢体动作或操作物体的动作作为某种阅读操作的指示信息；也就是说，所述对印刷品进行阅读操作的指示信息可以包括：通过手或手持物体在印刷品上进行的阅读指示操作信息，如确定指点某处进行阅读的指示或确定需要阅读内容的指示或确定是否需要阅读的指示等，比如手在印刷品上指点、单击、双击、滑动、翻页等。

本发明实施例提供的一种图文采集识别装置由于采用了独特的摄像头布置方案，使得在图像信息采集过程中可以灵活地获得需要采集被拍摄对象的多点图像信息，即采集被拍摄对应的不同角度和/或不同位置的图像信息，从而可以使得采集到的图像信息能够真实准确地反应被拍摄对象的实际情况，进而使得后续的图文识别处理过程中可以准确识别出相应的图文内容信息，如准确地识别出印刷品中的文字或图片信息，或者，识别出用户的肢体动作的含义，或者，识别出用户操作物体执行的动作的含义，或者，识别出用户通过肢体动作或操作物体对图书等印刷品的阅读操作的含义，或者，识别出用户指示的文字或图片等等。

在本发明实施例提供的图文采集识别装置中，为便于用户基于该装置实现针对印刷品的有声阅读，则如图2所示，在该装置中还可以包括音频单元，所述多点图像信息采集单元将采集的图书中当前阅读页或印刷品当前阅读位置或阅读操作指示位置或包含书目信息或包含页码信息的图像信息传递给所述图像信息识别单元，所述图像信息识别单元识别出根据所述当前阅读页或印刷品当前阅读位置或阅读操作指示位置或包含书目信息或包含页码信息的图像信息识别出该当前阅读页或印刷品当前阅读位置或阅读操作指示位置或书目信息或页码信息的文字内容信息对应的音频信息并通知所述音频单元，所述音频单元将所述对应的音频信息以音频形式输出，从而可以实现针对印刷品中文字内容的有声朗读，便于不方便直观对图书进行阅读的人群获得普通图书中的内容信息。

在通过所述音频单元对印刷品进行有声阅读操作过程中，所述多点图像信息采集单元还包含阅读位置信息采集模块，用于通过摄像头采集用户阅读操作位置（即用户指定的印刷品当前阅读位置）的文字图像信息，且所述图像信息识别单元识别所述用户阅读操作位置的文字图像信息包含的文字内容，并将识别确定的所述文字内容信息对应的音频信息或所述文字内容转换获得的音频信息通知所述音频单元。其中，所述文字内容信息对应的音频信息可为该部分文字内容的朗读音频信息，也可以为该文字内容对应的其它音频信息，如对该文字内容的解释说明等音频信息。

相应的文字识别目前已经逐渐进入实用阶段，相应的识别处理过程可以包括：首先对拍照的图像预处理，该预处理主要包括二值化、噪声去除、倾斜较正等处理，然后进行文字特征抽取，包括对文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征，配合比对方法进行比对，从而识别文字。由于文字识别技术已经为现有技术，故在此不再对其进行详细说明。

在该图文采集识别装置中，由于可以准确进行图文内容信息的识别，因而可以针对普通图书进行图文识别处理，并结合相应的发声功能实现针对普通图书的辅助阅读发声处理，从而为人们提供一种可以对普通图书进行辅助发声的辅助阅读发声设备，这就使得儿童、盲人、老年人等不方便对图书直接进行阅读的人群可以借助该图文采集识别装置进行辅助阅读，极大地方便了这部分人群对普通图书的阅读操作。而且，识别过程的准确性还可以保证图书阅读过程能够顺畅地进行，进一步保证了阅读用户具有较佳的阅读体验。

在本发明实施例提供的图文采集识别装置中，为便于保存识别出的图文内容信息，在该装置中还可以包括存储单元，用于保存所述图像信息识别单元识别出的所述图文内容信息，以方便后续对所述图文内容信息的调用。

在本发明实施例提供的图文采集识别装置中，所述多点图像信息采集单元还可以采集的包含有图书的书目信息的图像信息并传递给所述图像信息识别单元，所述图像信息识别单元根据所述包含有图书的书目信息的图像信息识别出图书名称。进一步地，还可以通过音频或显示的方式输出所述图书名称，例如，可以通过所述音频单元朗读出图书名称，或通过显示屏显示出图书名称。

进一步地，所述多点图像信息采集单元可以通过所述摄像头采集图书封皮的图像信息作为包含所述图书的书目信息的图像信息，所述图像信息识别单元则可以通过识别所述图书封皮（包含封面、封底等）的图像信息中的文字确定图书名称，或者，也可以通过识别所述图书封皮的图像信息确定图书名称，或者，还可以通过识别所述图书封皮的图像信息中的标签确定图书名称，相应的标签包括特制的标签或编码，或者也可以包括ISBN条码（国际标准书号，International Standard Book Number）等目前已经存在的标签或编码。

由于每本书的封面和封底图像均各不相同，故可以通过拍摄到的图像信息进行对比识别，或提取特征对比从而识别出具体为哪一本图书，从而确定相应的图书名称。而且，为便于识别，还可以在图书中设置相应的便于识别的标签，使得根据该标签可以确定当前图书的具体图书名称，相应的标签可以为印制于图书上的标签，也可以为粘贴于图书上的标签，且相应的标签上可以为图片或编码或文字等内容信息。由于具体的图像识别技术已经为现有技术，故在此不再对其进行详细说明。

在本发明实施例提供的图文采集识别装置中，所述多点图像信息采集单元还可以采集的包含有页码信息的图像信息并传递给所述图像信息识别单元，所述图像信息识别单元根据所述包含有页码信息的图像信息识别出页码。进一步地，还可以通过音频或显示的方式输出所述图书名称，例如，可以通过所述音频单元朗读出页码，或通过显示屏显示出页码。

所述页码信息采集模块通过识别所述图书内页的图像信息确定当前阅读的页码，或者，通过识别所述图书内页的图像信息中的文字或数字页码确定当前阅读的页码。

该图文采集识别装置还可以包括显示单元，用于显示设定的内容信息和/或采集识别过程中获得的图像和文字信息和/或外部获得的内容信息，例如，可以显示当前图书阅读的页码或图书名称等信息，或者，显示针对图书的解释说明信息（如作者介绍等），或者，显示所述图像信息识别单元识别出的用户的操作指令，或者，播放用于对图书进行解释的视频信息，等等。

具体地，该图文采集识别装置还可以包括以下任一项或多项单元：

音频输入单元，用于获取音频信息。相应的获取后的音频信息可以通过存储单元进行保存。

存储单元，包括存储音频信息和/或保存采集识别过程中获得的图像和/或文字信息和/或保存外部获得的内容信息，保存的语音信息可以在需要时通过音频单元进行播放，例如，通过音频输入单元和该存储单元及音频单元的配合，可以校正语言学习过程中用户的发音是否准确等。

通信单元，用于与计算机之间进行通信。

再者，为加强用户与该图文采集识别装置之间的互动处理，提升用户使用该图文采集识别装置的体验，在该装置中还可以包括互动处理模块，用于获取用户的互动操作控制信息，并根据所述互动操作控制信息执行预定的互动操作，且所述互动操作控制信息包括肢体动作、操作物体的动作、语音信息、屏幕输入或操作按键中的至少一项；在互动处理过程中，图文采集识别装置还可以通过所述音频单元向用户播放特定提示声音信息，或者也可以通过所述显示单元向用户显示特定的内容信息，且用户可以根据相应的提示声音信息或显示的特定的内容信息向图文采集识别装置传递相应的互动操作控制信息，以便于与图文采集识别装置进行互动。具体地，相应的互动操作控制信息可以包括在印刷品上进行的阅读操作指示信息等，以通过肢体动作进行互动操作为例，对于阅读普通图书的用户可以通过手或手持物体的动作与图文采集识别装置之间互动以对阅读方式或阅读内容进行互动控制等，如通过预定手势控制重新阅读一次当前位置的内容等。通过该互动处理模块可以识别阅读用户的肢体动作或操作物体动作，以便于该装置可以与阅读用户之间进行互动，从而提升阅读用户的阅读体验，使得图书成为有声媒体和互动媒体。

在本发明实施例中，通过相应的多点图像采集近距离就可以对所需采集对象的覆盖且不失真。具体地，相应的活动摄像头或多个摄像头会有多个焦距，这样就能使所采集对象所有部分都处于最佳焦距，以保证各部分的图像均清晰。

例如，参照图9、图10所示，由于采用了多摄像头或可活动式摄像头（如可转头式摄像头）的结构，对于弯曲表面（比如图书中部的大弯曲面）总能有合适的拍摄角度和位置，因此能有效地对其进行拍摄识别，相应的拍摄角度无论正上方还是侧面斜面都能对拍摄对象有效拍摄，各部分都在良好焦距内而获得清晰图像和良好的分辨率。而且，相应的多点图像采集使得对摄像头分辨率要求较低，或者说以同样分辨率的摄像头对所拍摄物进行拍摄可以达到更高的分辨率（更有利于识别）。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈旭;
技术所有人：陈旭;
我是此专利的发明人

上一篇：一种装配式建筑门窗安装工艺组合件的制作方法与工艺
上一篇：一种防反弹门框结构的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。