一种图文识别装置的制作方法

文档序号：16774646发布日期：2019-02-01 18:38阅读：156来源：国知局

导航： X技术> 最新专利>办公文教;装订;广告设备的制造及其产品制作工艺

本发明涉及电子技术领域，尤其涉及图文识别。

背景技术：

普通图书的出版方面已经有了很大的发展，目前的图书出版发行量已经非常大。但目前还存在一部分人群，如儿童、盲人、老年人等，其不方便对图书直接进行阅读，针对这部分人群需要辅助阅读发声设备进行阅读，而目前没有针对普通图书的辅助阅读发声设备。

技术实现要素：

本发明的目的是提供一种图文识别装置，为不方便对图书直接进行阅读的人群进行普通图书的阅读，识别指点和/或指点的内容。

本发明的目的是通过以下技术方案实现的：

一种图文识别装置，

包括第一种方案和/或第二种方案，

第一种方案包括：

第一信息采集单元、第一信息识别单元和音频单元，所述第一信息采集单元将采集的包含有图书的书目信息和页码信息的信息传递给所述第一信息识别单元，所述第一信息识别单元根据所述包含有图书的书目信息和页码信息的信息确定出当前阅读页对应的音频信息并通知所述音频单元，所述音频单元将所述对应的音频信息以音频形式输出，第一信息采集单元包括书目信息采集模块和页码信息采集模块，所述书目信息采集模块包括射频信号采集模块，所述页码信息采集模块包括摄像头模块，

或者，

第二信息采集单元、第二信息识别单元和音频单元，所述第二信息采集单元将采集的包含有图书的书目信息、页码信息和用户阅读位置信息的信息传递给所述第二信息识别单元，所述第二信息识别单元根据所述包含有图书的书目信息、页码信息和用户阅读位置信息的信息确定出用户当前阅读位置对应的音频信息并通知所述音频单元，所述音频单元将所述对应的音频信息以音频形式输出，第二信息采集单元包括书目信息采集模块、页码信息采集模块和阅读位置信息采集模块，所述书目信息采集模块包括射频信号采集模块，所述页码信息采集模块包括摄像头模块，所述阅读位置信息采集模块包括摄像头模块，

第二种方案包括：

所述图文识别装置包括阅读位置信息采集模块，所述阅读位置信息采集模块包括摄像头模块，还包括红外或超声波检测模块，

红外或超声波检测模块实现检测包括：手将红外或超声波检测模块包含的红外或超声波传感器组所发射的红外或超声波反射至红外或超声波检测模块包含的传感器组接收部分，以实现相应的红外或超声波的检测，

所述摄像头模块采集用户阅读操作的图像信息，

所述图文识别装置通过识别所述用户阅读操作的图像信息确定当前阅读的位置，和/或，所述图文识别装置包括文字识别模块用于识别所述用户阅读位置的文字图像信息包含的文字内容。

所述的图文识别装置，

所述第一种方案包括：

所述的图文识别装置包括射频信号采集模块采集设置于图书中的电子标签信息作为包含所述图书的书目信息的信息，所述的图文识别装置包含电子标签识别模块，所述电子标签识别模块根据采集到的设置于图书中的电子标签信息确定对应的图书名称，

或者，

所述第二种方案包括：

所述的图文识别装置包括摄像头模块采集图书封面的图像信息作为包含图书的书目信息的信息，所述的图文识别装置包括文字识别模块或图像识别模块或标签识别模块，所述文字识别模块通过识别所述图书封面的图像信息中的文字确定图书名称，所述图像识别模块通过识别所述图书封面的图像信息确定图书名称，所述标签识别模块通过识别所述图书封面的图像信息中的标签确定图书名称，

或者，所述的图文识别装置包括射频信号采集模块采集设置于图书中的电子标签信息作为包含所述图书的书目信息的信息，所述的图文识别装置包含电子标签识别模块，所述电子标签识别模块根据采集到的设置于图书中的电子标签信息确定对应的图书名称。

所述的图文识别装置，

所述的图文识别装置通过摄像头模块采集图书内页的图像信息作为包含页码信息的信息，所述的图文识别装置包括图像识别模块或文字识别模块，所述图像识别模块通过识别图书内页的图像信息确定当前阅读的页码，所述文字识别模块通过识别图书内页的图像信息中的文字或数字页码确定当前阅读的页码。

所述的图文识别装置，

所述音频单元还包括录音模块，用于获取音频信息；

和/或，

该图文识别装置还包括存储单元，用于保存音频信息和/或保存采集识别过程中获得的图像和文字信息和/或保存外部获得的内容信息；

和/或，

该图文识别装置还包括显示单元，显示包括设定的内容信息和/或采集识别过程中获得的图像和文字信息和/或外部获得的内容信息；

和/或，

该图文识别装置还包括通信单元，用于和计算机通信；

和/或，

该图文识别装置还包括互动处理模块，用于获取阅读用户的互动操作控制信息，并根据所述互动操作控制信息执行预定的互动操作，且所述互动操作控制信息包括肢体动作、操作物体的动作、语音信息、屏幕输入或操作按键中的至少一项。

图书阅读器，包括：

第一信息采集单元、第一信息识别单元和音频单元，所述第一信息采集单元将采集的包含有图书的书目信息和页码信息的信息传递给所述第一信息识别单元，所述第一信息识别单元根据所述包含有图书的书目信息和页码信息的信息确定出当前阅读页对应的音频信息并通知所述音频单元，所述音频单元将所述对应的音频信息以音频形式输出；

或者，

所述第一信息采集单元包括书目信息采集模块和页码信息采集模块，所述第二信息采集单元包括书目信息采集模块、页码信息采集模块和阅读位置信息采集模块，所述书目信息采集模块包括摄像头模块和/或重量检测模块和/或射频信号采集模块，所述页码信息采集模块包括摄像头模块和/或重量检测模块和/或射频信号采集模块和/或超声波检测模块和/或红外检测模块，所述阅读位置信息采集模块包括摄像头模块和/或超声波检测模块和/或红外检测模块。

所述摄像头模块采用拍照方式获得信息，所述摄像头模块包括至少一个可活动式摄像头，所述可活动式摄像头的拍照角度和/或位置是可调整的，且所述可活动式摄像头基于预定的控制方式或接收的控制信息控制其活动以对图书进行多角度和/或多位置的多点图像拍摄；或者，所述摄像头模块包括多个摄像头,即二个或三个或四个或四个以上摄像头，所述多个摄像头用于完成多角度和/或多位置的多点图像拍摄，且每个摄像头为固定式摄像头或可活动式摄像头，所述可活动式摄像头的拍照角度和/或位置是可调整的，所述可活动式摄像头为基于预定的控制方式或基于接收的控制信息或手动控制其活动以对图书进行多角度和/或多位置的多点图像拍摄；或者，所述摄像头模块包括一个固定式摄像头，所述固定式摄像头包括多个镜头，且基于预定的控制方式或接收的控制信息控制所述多个镜头包含的各个镜头采集所述图文内容信息。

所述可活动式摄像头包括可旋转式摄像头和/或可移动式摄像头；或者，所述可活动式摄像头包括一个或多个可活动式镜头,所述可活动式镜头的拍照角度和/或位置是可调整的；若所述可活动式摄像头包含多个，则多个可活动式摄像头包含的每个摄像头用于采集全部或部分场景的图文内容信息；所述可活动式摄像头设置于需要采集所述图像信息的区域的位置包括：所述区域的边缘上方和/或斜上方和/或正上方。

所述固定式摄像头包括一个或多个镜头，且若所述固定式摄像头包括多个镜头，则基于预定的控制方式或接收的控制信息控制各个镜头采集所述图文内容信息，所述多个摄像头包含的每个摄像头用于采集全部或部分场景的图文内容信息；所述摄像头设置于需要采集所述图像信息的区域的位置包括：所述区域的边缘上方和/或斜上方和/或正上方。

所述书目信息采集模块通过所述摄像头模块采集图书封皮的图像信息作为包含所述图书的书目信息的信息，所述第一信息识别单元或所述第二信息识别单元包括文字识别模块或图像识别模块或标签识别模块，所述文字识别模块通过识别所述图书封皮的图像信息中的文字确定图书名称，所述图像识别模块通过识别所述图书封皮的图像信息确定图书名称，所述标签识别模块通过识别所述图书封皮的图像信息中的标签确定图书名称；

或者，所述书目信息采集模块通过所述重量检测模块采集图书的重量信息作为包含所述图书的书目信息的信息，所述第一信息识别单元或所述第二信息识别单元包括重量识别模块，所述重量识别模块根据所述图书的重量信息确定对应的图书名称；

或者，所述书目信息采集模块通过所述射频信号采集模块采集设置于图书中的电子标签信息作为包含所述图书的书目信息的信息，所述第一信息识别单元或所述第二信息识别单元包含电子标签识别模块，所述电子标签识别模块根据采集到的所述设置于图书中的电子标签信息确定对应的图书名称。

所述页码信息采集模块通过所述摄像头模块采集图书内页的图像信息作为包含所述页码信息的信息，所述第一信息识别单元或所述第二信息识别单元包括图像识别模块、文字识别模块或标签识别模块，所述图像识别模块通过识别所述图书内页的图像信息确定当前阅读的页码，所述文字识别模块通过识别所述图书内页的图像信息中的文字或数字页码确定当前阅读的页码，所述标签识别模块通过识别所述图书内页的图像信息中包含的标签信息确定当前阅读的页码；

或者，所述页码信息采集模块通过所述摄像头模块采集用户翻页动作的图像信息作为包含所述页码信息的信息或所述超声波检测模块或红外检测模块采集用户翻页动作对超声波或红外的反射或阻断作为包含所述页码信息的信息，所述第一信息识别单元或所述第二信息识别单元包含翻页动作识别模块，所述翻页动作识别模块根据所述用户翻页动作的图像信息及翻页之前确定的当前页信息确定当前阅读的页码；

或者，所述页码信息采集模块通过所述重量检测模块采集翻开后的图书的重量分布信息作为包含所述页码信息的信息，所述第一信息识别单元或所述第二信息识别单元包括重量识别模块，所述重量识别模块根据所述翻开后的图书的重量分布信息确定当前阅读的页码；

或者，所述页码信息采集模块通过所述射频信号采集模块采集设置于页面中的电子标签信息作为包含所述页码信息的信息，所述第一信息识别单元或所述第二信息识别单元包含电子标签识别模块，所述电子标签识别模块根据采集到的所述设置于页面中的电子标签信息确定当前阅读的页码。

所述阅读位置信息采集模块通过所述摄像头模块采集用户阅读操作的图像信息作为所述用户阅读位置信息，所述第二信息识别单元包括位置识别模块，所述位置识别模块通过识别用户阅读操作的图像信息确定当前阅读的位置；

或者，所述阅读位置信息采集模块通过所述摄像头模块采集用户阅读操作位置的文字图像信息作为所述用户阅读位置信息，所述第二信息识别单元包括文字识别模块和位置识别模块，所述文字识别模块用于识别用户阅读操作位置的文字图像信息的文字内容，所述位置识别模块根据所述文字识别模块识别的文字内容确定当前阅读的位置；

或者，所述阅读位置信息采集模块通过所述超声波检测模块或红外检测模块采集人手或物体在图书页面中的活动位置信息作为所述用户阅读位置信息，所述第二信息识别单元包括位置识别模块，所述位置识别模块通过识别人手或物体在图书页面中的活动位置信息确定当前阅读的位置。

所述第一信息识别单元包括第一阅读内容识别模块，且所述第一阅读内容识别模块根据所述图书名称和当前阅读的页码识别出用户当前阅读页对应的音频信息，并通知所述音频单元；或者，所述第二信息识别单元还包括第二阅读内容识别模块，且所述第二阅读内容识别模块根据所述图书名称、当前阅读的页码和当前阅读的位置在预先保存的图书内容信息中识别出用户当前阅读位置对应的音频信息，并通知所述音频单元；或者，所述阅读位置信息采集模块通过所述摄像头采集用户阅读操作位置的文字图像信息，所述第二信息识别单元包括文字识别模块，用于识别所述用户阅读操作位置的文字图像信息包含的文字内容，并将识别确定的所述文字内容对应的音频信息或所述文字内容转换获得的音频信息通知所述音频单元；

和/或，

所述第一信息识别单元或第二信息识别单元根据所述图书的书目信息和页码信息确定图书名称和当前阅读页码后，还将所述图书名称和/或当前阅读页码对应的音频信息传递给所述音频单元，所述音频单元将所述图书名称和/或当前阅读页码对应的音频信息以音频的方式输出。

所述音频单元还包括录音模块，用于获取音频信息；

和/或，

该图书阅读器还包括存储单元，用于保存音频信息和/或保存采集识别过程中获得的图像和文字信息和/或保存外部获得的内容信息；

和/或，

该图书阅读器还包括显示单元，显示包括设定的内容信息和/或采集识别过程中获得的图像和文字信息和/或外部获得的内容信息；

和/或，

该图书阅读器还包括通信单元，用于和计算机通信；

和/或，

该图书阅读器还包括互动处理模块，用于获取阅读用户的互动操作控制信息，并根据所述互动操作控制信息执行预定的互动操作，且所述互动操作控制信息包括肢体动作、操作物体的动作、语音信息、屏幕输入或操作按键中的至少一项。

由上述本发明提供的技术方案可以看出，本发明实施例提供的一种图文识别装置可以在自然翻阅普通图书并阅读时辅助发出声音，从而方便无法直接阅读图书的人群进行普通图书的阅读。该图文识别装置可以在识别阅读用户的肢体动作或操作物体动作后与阅读用户之间进行互动，从而提升阅读用户的阅读体验，使得图书成为有声媒体和互动媒体。可以识别指点和/或指点的图文。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的图文识别装置的结构示意图之一；

图2为本发明实施例提供的图文识别装置的结构示意图之二；

图3为本发明实施例提供的图文识别装置的具体实现结构示意图一；

图4为本发明实施例提供的图文识别装置的应用结构示意图一；

图5为本发明实施例提供的图文识别装置的应用结构示意图二；

图6为本发明实施例提供的图文识别装置的应用结构示意图三；

图7为本发明实施例提供的包含单个摄像头的图文识别装置的结构示意图一；

图8为本发明实施例提供的包含单个摄像头的图文识别装置的结构示意图二；

图9为本发明实施例提供的包含单个摄像头的图文识别装置的结构示意图三；

图10为本发明实施例提供的包含多个摄像头的图文识别装置的结构示意图一；

图11为本发明实施例提供的包含多个摄像头的图文识别装置的结构示意图二；

图12为本发明实施例提供的包含多个摄像头的图文识别装置的结构示意图三；

图13为本发明实施例提供的设置于边缘上方的摄像头的结构示意图；

图14为本发明实施例提供的设置于斜上方的摄像头的结构示意图一；

图15为本发明实施例提供的设置于斜上方的摄像头的结构示意图二；

图16为本发明实施例提供的设置于正上方的摄像头的结构示意图；

图17为本发明实施例提供的多个摄像头拍摄图书上曲面的示意图一；

图18为本发明实施例提供的多个摄像头拍摄图书上曲面的示意图二；

图19为本发明实施例提供的多个摄像头拍摄图书上曲面的示意图三；

图20为本发明实施例提供的可旋转式摄像头旋转前拍摄图书上曲面的示意图；

图21为本发明实施例提供的可旋转式摄像头旋转后拍摄图书上曲面的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供的一种图文识别装置，在自然翻阅图书时，能够对图书、当前阅读页或内容、手或手持物体在图书上的动作进行识别，可发出对应的声音，可用于普通图书因此可大量推广，使普通图书由无声媒体成为有声媒体和互动媒体。可以识别指点和/或指点的图文。

下面将结合附图对本发明实施例作进一步地详细描述。

下述各个方案可任意组合。

本发明实施例提供的图文识别装置如图1所示，包括：第一信息采集单元、第一信息识别单元和音频单元，所述第一信息采集单元将采集的包含有图书的书目信息和页码信息的信息传递给所述第一信息识别单元，所述第一信息识别单元根据所述包含有图书的书目信息和页码信息的信息确定出当前阅读页对应的音频信息并通知所述音频单元，所述音频单元将所述对应的音频信息以音频形式输出。

本发明实施例提供的图文识别装置可如图2所示，包括：第二信息采集单元、第二信息识别单元和音频单元，所述第二信息采集单元将采集的包含有图书的书目信息、页码信息和用户阅读位置信息的信息传递给所述第二信息识别单元，所述第二信息识别单元根据所述包含有图书的书目信息、页码信息和用户阅读位置信息的信息确定出用户当前阅读位置对应的音频信息并通知所述音频单元，所述音频单元将所述对应的音频信息以音频形式输出。

在上述图文识别装置中，所述第一信息采集单元包括书目信息采集模块和页码信息采集模块，所述第二信息采集单元包括书目信息采集模块、页码信息采集模块和阅读位置信息采集模块，所述书目信息采集模块包括摄像头模块和/或射频信号采集模块，所述页码信息采集模块包括摄像头模块和/或射频信号采集模块和/或超声波检测模块和/或红外检测模块，所述阅读位置信息采集模块包括摄像头模块和/或超声波检测模块和/或红外检测模块。

具体地，所述第二信息采集单元将采集的包含图书的书目信息、页码信息和用户阅读位置信息的信息传递给所述第二信息识别单元，所述第二信息识别单元根据所述书目信息、页码信息和用户阅读位置信息确定出用户当前阅读位置对应的音频信息并通知所述音频单元，所述音频单元将所述对应的音频信息以音频形式输出，完成阅读处理过程，实现针对图书的阅读式阅读。具体地，相应的当前阅读页对应的音频信息或者图书的各页面中用户可以阅读的位置对应的音频信息可以是预先保存于存储器中的音频信息，也可以是文字识别后依据文本转换获得的音频信息，当确定出用户当前阅读位置或当前阅读页后，则将当前阅读位置或当前阅读页对应的音频信息发送给音频单元，由所述音频单元通过扬声器播放该音频信息，实现对图书中阅读位置或阅读页内容的阅读。进一步地，相应的音频信息可以是文字内容直接对应的信息（即直接阅读文字内容），或者也可以是针对文字内容的解释信息、背景音乐、背景声等，如可以为解释当前阅读页的音频信息或解释当前阅读位置上的文字内容的音频信息，或者是书名或页码的音频信息,或者也可以是针对当前阅读位置的任何声音，如当前阅读位置是琴键，点击则发对应琴声，如当前阅读位置是动物，点击则发对应动物叫声，等等。

相对于第二信息采集单元及第二信息识别单元，相应的第一信息采集单元及第一信息识别单元的处理功能只是省去采集用户阅读位置信息及识别用户阅读位置信息的过程，而是直接识别当前阅读页，并确定当前阅读页对应的音频信息。故在后续的描述中不再单独对本发明实施例提供的第一种图文识别装置的实现方案进行详细说明。

第二种方案中，

所述图文识别装置包括阅读位置信息采集模块，所述阅读位置信息采集模块包括摄像头模块，还包括红外或超声波检测模块，

所述摄像头模块采集用户阅读操作的图像信息，

所述摄像头模块采用拍照方式获得信息，摄像头设置于需要采集所述图像信息的区域的位置包括：所述区域的边缘上方和/或斜上方和/或正上方。

在识别用户当前阅读位置的过程中，所依据的信息（即信息采集单元采集的信息）可以为图文信息、红外线信息或超声波信息等。且阅读用户在阅读过程中可以通过物体（如棍状物体等）操作动作或肢体动作（如手的指向、滑动等）向图文识别装置传递其阅读需求信息，如指定阅读位置或与图文识别装置进行交互的指示等，此时，信息采集单元可采集阅读用户的物体操作动作信息或肢体动作信息等以辅助相应的阅读过程的实现。

在上述图文识别装置中，相应的信息采集单元具体可以包括用于采集图书的书目信息的书目信息采集模块、用于采集当前阅读位置对应的页码信息的页码信息采集模块和用于采集用户阅读位置信息的阅读位置信息采集模块可以设置于同一处理芯片中，也可以设置于不同的处理芯片中。进一步地，所述书目信息采集模块可以但不限于包括摄像头模块或射频信号采集模块，以用于采集图像信息或射频信号，所述页码信息采集模块包括摄像头模块或射频信号采集模块或超声波检测模块或红外检测模块，以用于采集图像信息、射频信号、超声波或红外线，所述阅读位置信息采集模块包括摄像头模块或超声波检测模块或红外检测模块，以用于采集图像信息、超声波或红外线。若书目信息采集模块、页码信息采集模块和阅读位置信息采集模块若均采用摄像头采集图像信息，则可以通过图书阅读器中统一设置的一个或一组摄像头来分别为各个模块进行图像信息的采集；同样，若书目信息采集模块、页码信息采集模块和阅读位置信息采集模块需要其他功能相同的模块进行同一类信息的采集，则同样可以由图书阅读器中统一设置的相应功能的模块进行该类信息的采集，如采集阅读用户的物体操作动作信息或肢体动作信息等以辅助相应的阅读过程的实现。

在上述图文识别装置中，相应的摄像头模块可以采用能够针对图书的多角度和/或多位置的多点图像拍摄的多点图像信息采集单元，为此，相应的摄像头模块可以采用以下任一方式实现：

（1）所述摄像头模块包括至少一个可活动式摄像头，所述可活动式摄像头基于预定的控制方式或接收的控制信息控制其活动以对图书进行多角度和/或多位置的多点图像拍摄。例如，根据反馈自动控制（如根据拍摄图像识别后的反馈做自动调整），比如当手指示处超出范围了或部分文字超出范围了或页码超出范围了，则自动调整可活动式摄像头的角度和/或位置，这样产品在工作过程中无需或少需人工干预，或者，根据用户输入的控制信息（如用户执行的特肢体定动作或用户通过操作按键输入的预定控制信息等）控制所述摄像头转动或移动，或者，也可以根据预先设定的时间间隔自动控制所述摄像头旋转或移动，以进行针对图书的多角度和/或多位置的多点拍摄。

具体地，所述可活动式摄像头包括可旋转式摄像头和/或可移动式摄像头,即所述可活动式摄像头可旋转或可移动或可移动可旋转；或者，所述可活动式摄像头包括一个或多个可活动式镜头；若所述可活动式摄像头包含多个，则多个可活动式摄像头包含的每个摄像头用于采集全部或部分场景的图文内容信息；所述可活动式摄像头可以设置于需要采集所述图像信息的区域的位置包括：所述区域的边缘上方和/或斜上方和/或正上方。

（2）所述摄像头模块包括多个摄像头，,即包括二个或三个或四个或四个以上摄像头，所述多个摄像头用于完成多角度和/或多位置的多点图像拍摄，且每个摄像头为固定式摄像头或可活动式摄像头，所述可活动式摄像头为基于预定的控制方式或基于接收的控制信息或手动控制其活动以对图书进行多角度和/或多位置的多点图像拍摄。例如，根据用户输入的控制信息（如用户执行的特肢体定动作或用户通过操作按键输入的预定控制信息等）控制所述摄像头转动或移动，或者，也可以根据预先设定的时间间隔自动控制所述摄像头旋转或移动，以进行针对图书的多角度和/或多位置的多点拍摄。

具体地，所述固定式摄像头包括一个或多个镜头，且若所述固定式摄像头包括多个镜头，则基于预定的控制方式或接收的控制信息控制各个镜头采集所述图文内容信息，且所述预定的控制方式包括控制多个镜头中的全部镜头或部分镜头进行多角度和/或多位置的多点图像拍摄，以采集所述图文内容信息；

所述多个摄像头包含的每个摄像头用于采集全部或部分场景的图文内容信息；

在该方案（2）中，所述摄像头模块可以设置于需要采集所述图像信息的区域的位置包括：所述区域的边缘上方和/或斜上方和/或正上方，即相应的多个摄像头可以是以固定或可活动的方式设置于图书所在区域的边缘上方和/或斜上方和/或正上方，设置的位置需要不影响阅读者阅读图书即可。同时，由于采用了多个摄像头，大大减小了对每个摄像头所需要的拍摄覆盖，多个摄像头可以各自拍摄进行各自的识别工作，也可将拍摄结果综合后以供识别。

（3）所述摄像头模块包括一个固定式摄像头，所述固定式摄像头包括多个镜头，且基于预定的控制方式或接收的控制信息控制所述多个镜头包含的各个镜头采集所述图文内容信息，从而可以通过所述多个镜头实现对图书进行多角度和/或多位置的多点图像拍摄，且所述预定的控制方式包括控制多个镜头中的全部镜头或部分镜头进行多角度和/或多位置的多点图像拍摄，以采集所述图文内容信息。例如，根据反馈自动控制（如根据拍摄图像识别后的反馈做自动调整），比如当手指示处超出范围了或部分文字超出范围了或页码超出范围了，则自动调整可活动式摄像头的角度和/或位置，这样产品在工作过程中无需或少需人工干预，或者，根据用户输入的控制信息（如用户执行的肢体定动作或用户通过操作按键输入的预定控制信息等）控制所述各个镜头对图书的多角度和/或多位置进行拍摄，或者，也可以根据预先设定的各个镜头采集图书的多角度和/或多位置的图像信息的方式自动控制所述各个镜头进行拍摄（比如，可以设定各个镜头为依次拍摄图书获得相应的图像信息，也可以设定各个镜头同时拍摄图书获得相应的图像信息，或者，也可以设定部分镜头拍摄图书获得相应的图像信息，等等）。

具体地，在该方案（3）中，所述固定式摄像头可以设置于需要采集所述图像信息的区域的位置包括：所述区域的边缘上方和/或斜上方和/或正上方。

固定摄像头通常有固定的视野，但多个摄像头可形成全面的覆盖，而可活动式摄像头在某一角度位置时有固定的视野，但其通过活动改变视野，因此也能形成全面的覆盖，在具体实施中，如果固定摄像头松动了，并不能视为可活动式摄像头，同样，即使摄像头是可以活动的，但如果其工作过程中并不是靠活动来获得所需的特别效果，比如全面的覆盖等，则实际上仍属于固定摄像头方案。比如，若将可以活动的摄像头事先调整到合适的角度位置等，但实际使用中并不需要进行活动，或活动对特别的效果比如全面的覆盖等作用很小，则实际上仍属于固定摄像头方案。

具体地，根据书目信息采集模块的实现方式的不同，相应的信息识别单元的具体实现结构也会有所不同，即信息识别单元的结构需要根据书目信息采集模块的结构的具体实现形式进行设置，下面将进一步说明不同的书目信息采集模块结构下对应的信息识别单元的实现形式：

（1）若相应的书目信息采集模块包括摄像头模块，则所述书目信息采集模块通过所述摄像头模块采集图书封面的图像信息作为书目信息，此时，所述第一信息识别单元或第二信息识别单元或包括文字识别模块或图像识别模块或标签识别模块，所述文字识别模块通过识别所述图书封面的图像信息中的文字确定书目信息，即确定出相应的图书名称，所述图像识别模块通过识别所述图书封面的图像信息确定图书名称，所述标签识别模块通过识别所述图书封面的图像信息中包含的标签确定图书名称。

由于每本书的封面图像均各不相同，故可以通过拍摄到的图像信息进行对比识别，或提取特征对比从而识别出具体为哪一本图书，从而确定相应的图书名称。而且，为便于识别，还可以在图书中设置相应的便于识别的标签，使得根据该标签可以确定当前图书的具体图书名称，相应的标签可以为印制于图书上的标签，也可以为粘贴于图书上的标签，且相应的标签上可以为图片或编码或文字等内容信息。由于具体的图像识别技术已经为现有技术，故在此不再对其进行详细说明。

相应的文字识别目前已经逐渐进入实用阶段，相应的识别处理过程可以包括：首先对拍照的图像预处理，该预处理主要包括二值化、噪声去除、倾斜较正等处理，然后进行文字特征抽取，包括对文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征，配合比对方法进行比对，从而识别文字。由于文字识别技术已经为现有技术，故在此不再对其进行详细说明。

（2）若相应的书目信息采集模块包括所述射频信号采集模块，则所述书目信息采集模块通过所述射频信号采集模块采集设置于图书中的电子标签信息，所述第一信息识别单元或第二信息识别单元包含电子标签识别模块，所述电子标签识别模块根据采集到的所述设置于图书中的电子标签信息确定对应的图书名称，即相应的电子标签信息中记载了当前图书的信息，通过对该电子标签信息的识别便可以确定该图书的名称。

进一步地，在该图文识别装置中，根据页码信息采集模块的实现方式的不同，相应的信息识别单元的实现结构也会有所不同，下面将具体说明不同的页码信息采集模块结构下对应的信息识别单元的实现结构：

若所述页码信息采集模块包括摄像头模块，则所述页码信息采集模块通过所述摄像头模块采集图书内页的图像信息作为页码信息，此时，所述第一信息识别单元或第二信息识别单元包括图像识别模块、文字识别模块或标签识别模块，所述图像识别模块通过识别所述图书内页的图像信息确定当前阅读的页码，所述文字识别模块通过识别所述图书内页的图像信息中的文字或数字页码确定当前阅读的页码，所述标签识别模块通过识别所述图书内页的图像信息中的标签信息确定当前阅读的页码；其中，由于每本书中的每一页的图像均各不相同，故可以通过拍摄到的图像信息进行对比识别，或提取特征对比从而识别出具体为哪图书中的哪一页，故所述图像识别模块通过识别所述图书中的各页的图像信息确定当前页为图书中的哪一页的方案是可以实现的。

进一步地，在该图文识别装置中，根据阅读位置信息采集模块的实现方式的不同，相应的信息识别单元的实现结构也会有所不同，下面将具体说明不同的阅读位置信息采集模块结构下对应的信息识别单元的不同实现结构：

（1）若所述阅读位置信息采集模块包括所述摄像头模块，则所述阅读位置信息采集模块通过所述摄像头模块采集用户阅读操作的图像信息作为所述用户阅读位置信息，此时，所述第二信息识别单元包括位置识别模块，所述位置识别模块通过识别用户阅读操作的图像信息确定当前阅读的位置；其中，所述用户阅读操作包括通过肢体动作（如手势等）进行的阅读操作，也包括通过操作物体（如棍状物等）动作进行的阅读操作；相应的所述位置识别模块则可以通过对直接识别用户阅读操作的图像信息进行当前阅读的位置的确定，或者也可以通过识别用户阅读操作的图像信息与阅读用户之间进行交互（或称互动），并根据交互结果确定当前阅读的位置。

在根据用户阅读操作的图像信息识别阅读位置的处理过程中，具体可以对阅读过程中手或手持物体进行的阅读指示动作进行识别，包括识别手或手持物体进行的阅读指示动作及其坐标位置，从而确定读者阅读的位置。具体地，指点和滑动是阅读图书时常用的两个动作，通常以指点表示对某处的关注，并且随着手指滑动来逐步阅读图书中的各页内容；因此，可以识别手指指点位置的坐标，并发出与其指点位置对应的文字的声音，以及识别手指滑动轨迹的坐标范围，并发出其滑动轨迹对应的文字的声音，从而可以按照读者的阅读习惯（即随着读者手指在图书上滑动）逐步发出相应文字的声音，实现针对图书的阅读；或者，手或手持物体指示对整页、或一段、或一句、或词、或字的阅读；另外，图文识别装置还可以根据阅读用户的手势动作或操作物体动作等进行阅读过程中的互动操作，如当识别出阅读用户执行某预定手势动作或某操作时，则该图文识别装置可以通过语音或显示屏询问阅读用户是否进行阅读操作，或者询问阅读用户当前阅读的页码是否为某页等，此时，用户可以通过操作图文识别装置中的按键或预定的手势动作与图文识别装置进行互动，以完成相应的阅读操作过程。

进一步地，可以将所拍摄的用户阅读操作的图像信息经滤波降噪处理，由rgb（红蓝绿模式）空间转换为hsv（色调、饱和度、亮度模式）并建立阈值分割模型对手势图像做初步识别，经数字形态学处理和分割后去噪，然后通过连通域的搜索和几何识别便可以识别出手势和指尖的位置。由于对手势动作的识别为已知技术，故在此不再详细描述。对于棍状物的阅读位置的识别过程与识别手指阅读位置的处理过程类似，且由于棍状物比手形状更简单，具有明显几何特征，而且色彩或图案可根据识别需求进行定制，故棍状物的阅读位置的识别过程更为简单。

例如，对于固定的拍照摄像头，需要保证手或手持物体落在其拍照摄像头的采集范围内。考虑到手或手持物体可能在图书的任何位置，还可以采用多个拍照摄像头或可活动的拍照摄像头对图书的多个位置进行采集覆盖，以使手或手持物体落在拍照摄像头的采集范围内，便于被拍照识别，同时对于多个摄像头采集的更多的图像信息还可以提高相应的识别准确率。对于可活动的拍照摄像头，则可移动到合适角度位置进行拍照并进行相应的识别。

（2）所述阅读位置信息采集模块还可以通过所述摄像头采集用户阅读操作位置的文字图像信息作为所述用户阅读位置信息，所述第二信息识别单元包括文字识别模块和位置识别模块，所述文字识别模块用于识别用户阅读操作位置的文字图像信息的文字内容，所述位置识别模块根据所述文字识别模块识别的文字内容确定当前阅读的位置；具体地，可以预先存储便于识别的信息作为识别参考信息，如文字位置、图像或内容等，这样，当文字识别模块识别出文字内容后便可以与其进行匹配，若匹配则可以确定当前阅读的位置。

例如，相应的文字识别可以包括对页码数字的识别，对于固定的拍照摄像头，需要保证页码落在其拍照摄像头的采集范围内，从而保证可以通过拍照识别当前翻阅页。考虑到页码可能在沿图书四周的任何位置，还可以采用多个拍照摄像头或可活动的拍照摄像头对图书的多个位置进行采集覆盖，以使页码落在拍照摄像头的采集范围内，便于被拍照识别相应的当前翻阅页，同时对于多个摄像头采集的更多的图像信息还可以提高相应的识别准确率。对于可活动的拍照摄像头，则可移动到合适角度位置进行拍照并进行相应的当前翻阅页的识别。

（3）若所述阅读位置信息采集模块包括所述超声波检测模块或红外检测模块，则所述阅读位置信息采集模块通过所述超声波检测模块或红外检测模块采集人手或物体在图书页面中的活动位置信息作为所述用户阅读位置信息，此时，所述第二信息识别单元包括位置识别模块，所述位置识别模块通过识别人手或物体在图书页面中的活动位置信息确定当前阅读的位置。

在本发明实施例提供的图文识别装置中，所述第一信息识别单元包括第一阅读内容识别模块，且所述第一阅读内容识别模块根据所述图书名称和当前阅读的页码在预先保存的图书内容信息中识别出用户当前阅读页对应的音频信息，并通知所述音频单元；或者，所述第二信息识别单元还包括第二阅读内容识别模块，且所述第二阅读内容识别模块根据所述图书名称、当前阅读的页码和当前阅读的位置在预先保存的图书内容信息中识别出用户当前阅读位置对应的音频信息，并通知所述音频单元。其中，预先保存的图书内容信息包括当前阅读页或当前阅读位置的内容信息对应的音频信息，此时的音频信息为图书中实际的内容信息的朗读文本；或者，也可以为当前阅读页或当前阅读位置的内容信息相关的音频信息，此时的音频信息可以为用于解释图书中的内容信息的音频信息，或者也可以为与相应内容信息相关的其他音频信息。

在本发明实施例提供的图文识别装置中，所述阅读位置信息采集模块可以通过所述摄像头模块采集用户阅读操作位置的文字图像信息，此时，所述第二信息识别单元可以包括文字识别模块，通过该文字识别模块可以识别所述用户阅读操作位置的文字图像信息包含的文字内容，并将识别确定的所述文字内容对应的音频信息通知所述音频单元。即通过该文字识别模块可以直接识别出阅读者阅读的文字内容并通知音频单元辅助发声阅读，具体地，既可以将文字内容对应的音频信息传递给音频单元，或者，也可以将文字内容直接转换成音频信息传递给音频单元。

进一步地，在本发明实施例提供的图文识别装置中所述音频单元还可以包括录音模块，用于获取并保存音频信息，以实现相应的录音功能。例如，通过识别录制的用户发出的语音信息可以实现图文识别装置与阅读用户之间的互动，或者，该录音功能也可以用于阅读用户比较自己的发音与图文识别装置的发音之间的区别，以校正自己的发音的准确性，例如，在语言学习的过程中会应用到该功能，或者，用户可自行录制音频信息，并且和图书的书目、当前阅读页、当前阅读位置等匹配，这样在阅读时就可听到由自己制作的阅读声音。

可选地，在本发明实施例提供的图文识别装置中还可以包括显示单元，用于显示设定的内容信息或图像采集识别过程中获得的信息或外部获得的内容信息，例如，可以用于与阅读用户互动过程中向用户显示信息，或者，显示图像采集识别过程中获得的图像、文本等，或者，也可以在用户阅读过程中为用户显示预定的内容信息，如当前阅读页码等信息。

可选地，在本发明实施例提供的图文识别装置中还可以包括存储单元，用于保存音频信息和/或保存采集识别过程中获得的图像和文字信息和/或保存外部获得的内容信息。

可选地，在本发明实施例提供的图文识别装置中还可以包括显示单元，显示包括设定的内容信息和/或采集识别过程中获得的图像和文字信息和/或外部获得的内容信息。

可选地，在本发明实施例提供的图文识别装置中还可以包括通信单元，用于和计算机通信。

再者，在本发明实施例提供的图文识别装置中，所述第一信息识别单元或第二信息识别单元根据所述图书的书目信息和页码信息确定图书名称和当前阅读页码后，还将所述图书名称和/或当前阅读页码对应的音频信息传递给所述音频单元，所述音频单元将所述图书名称和/或当前阅读页码对应的音频信息以音频的方式输出。相应的图书名称对应的音频信息可以为实际图书名称对应的文字信息的朗读文本，或者，也可以为图书名称相关的音频信息，如该图书的背景介绍等内容的音频信息；相应的当前阅读页码对应的音频信息可以为当前页码对应的数字的朗读文本，或者，也可以为当前页码相关的音频信息，如该页码中的文字内容的解释性描述等内容的音频信息。

本发明实施例中，为便于与阅读用户之间的互动处理，在该图文识别装置中还可以包括互动处理模块，用于获取阅读用户的互动操作控制信息，并根据所述互动操作控制信息执行预定的互动操作，且所述互动操作控制信息包括肢体动作、操作物体的动作、语音信息、屏幕输入或操作按键中的至少一项；具体地，相应的互动操作控制信息可以包括在图书上进行的阅读操作指示信息等，以通过肢体动作进行互动操作为例，阅读用户可以但不限于通过手或手持物体的动作与图文识别装置之间互动对阅读器的阅读方式或阅读内容进行互动控制等，如通过预定手势控制重新阅读一次当前位置的内容等。

需要说明的是，在上述图文识别装置中，所述第一信息识别单元或第二信息识别单元在识别图书名称、当前阅读的页码或阅读位置的过程中可能均需要文字识别模块辅助实现，此时，具体可以通过同一文字识别模块实现针对不同文字内容的识别处理，而无需分别设置不同的文字识别模块。同样，所述第一信息识别单元或第二信息识别单元在识别图书名称、当前阅读的页码或阅读位置的过程中还可能应用到其他名称相同功能类似的功能模块，对于该情况均可以通过同一功能模块实现相应的处理功能，而无需分别设置多个功能类似的模块。

为便于对本发明实施例的理解，下面将结合附图对本发明实施例在具体应用过程中的实现结构进行详细说明。

本发明实施例提供的图文识别装置，具体可以包括传感部分、识别处理部分、发声部分构成，各部分之间为电连接；传感部分即第一信息采集单元或第二信息采集单元，用于采集传感信息；识别处理部分即第一信息识别单元或第二信息识别单元，其作为中央处理部分用于接收传感部分采集的传感信息并根据所述传感信息完成识别处理，根据识别结果调用对应的音频信息发送到发声部分；发声部分即包含于所述音频单元中用于发出与用户阅读位置内容对应的声音，以实现相应的图书阅读功能。

相应的传感部分可包含：红外或超声波检测模块、射频识别模块和光学拍照摄像模块中的一项或多项，例如，可以仅包含相应的光学拍照摄像模块，也可以同时包含光学拍照摄像模块和射频识别模块，或者，也可以同时包含各模块。下面将对各模块的具体功能作用进行描述。

（1）红外或超声波检测模块，即红外检测模块或超声波检测模块，包含一组或多组红外或超声波发射接收装置，通过检测对红外线或超声波的反射或阻挡，判断用户翻书和手部的运动，如翻页、指向或滑动等动作。翻起的书页或手将红外或超声波检测模块包含的红外或超声波传感器组所发射的红外或超声波反射至红外或超声波检测模块包含的传感器组接收部分，以实现相应的红外或超声波的检测，并基于检测结果进行翻页的识别等处理。

而在识别手指或其他物体阅读书页中具体位置的过程中，当手指或其他物体放在左侧页上则触发左侧设置的传感器组，放在右侧页上则触发右侧传感器组，从而实现阅读位置的识别；进一步地，若在图书周围如果设置有多组红外或超声波传感器时，手指滑动时对相应的多组传感器组间隔性的触发从而识别滑动过程，进而可以确定手指滑动的位置。如果在图书周围增加传感器组的数目可提高针对手指滑动的位置的识别效果。

（2）射频识别模块，即射频信号采集模块，或称rfid芯片，用于读取附加于图书或制作于图书中的电子标签，电子标签可存储有图书信息，从而使得射频识别模块在读取电子标签后可以获得图书的书目信息，即确定当前阅读的是哪本书以及当前阅读的具体页码信息。目前电子标签已经可以做到很薄，因此，可以贴在或直接做入图书页内均可行；而且，电子标签的信息存储量也越来越多，其可以存储图书名称、页码及内容对应的音频信息等信息，从而方便射频识别模块获得相应信息。

（3）光学拍照摄像模块，可包含一个拍照摄像头，即摄像头，该摄像头可以是固定或可活动的，且可以设置于图文识别装置的上部且面向图书，同时设置的位置需要不影响阅读者阅读图书；进一步地，摄像头的设置除了考虑通常为达到所需拍摄覆盖的远距离拍摄或用广角镜方案，为使拍摄距离实用化，并避免广角镜头导致的图像失真，具体可以只拍摄覆盖图书的一部分，或者也可以通过摄像头转动或移动拍摄从而在近距离不失真的情况下实现最大拍摄覆盖。

相应的光学拍照摄像模块也可以包含多个拍照摄像头，同样，相应的多个摄像头可以是固定或可活动的且设置于图文识别装置的上部面向图书，同时设置的位置需要不影响阅读者阅读图书；由于采用了多个拍照摄像头，大大减小了对每个拍照摄像头所需要的拍摄覆盖，多个拍照摄像头可以各自拍摄进行各自的识别工作，也可将拍摄结果综合后以供识别。

总之，通过光学拍照摄像模块进行光学识别相应的拍摄过程可只覆盖图书的一部分也可以覆盖整个图书。在识别图书过程中，可以通过识别印刷在图书的识别码（如条形码等）进行图书的识别，或者也可以通过识别图书上的文字进行图书的识别，或者也可以通过抽取图书的图像特征进行图书的识别，或者也可以通过识别附加在书上的标签进行图书的识别。通过该光学拍照摄像模块还可以通过光学拍摄识别图书的页码，例如，可以通过识别页码数字进行页码的识别，或者也可以通过识别页上的文字进行页码的识别，或者也可以通过抽取页的图像特征进行页码的识别。另外，通过该光学拍照摄像模块还可以对手或手持物体在图书上的动作进行识别，包括可以识别当前动作是否为翻书的动作，也可以识别该动作在图书页面中的坐标位置进而确定当前阅读的位置，还可以识别该动作在图书页面中的滑动区域进而确定当前的滑动范围，相应的滑动范围可以作为当前阅读的内容的范围。

相应的识别处理部分是中央处理模块，即第一信息识别单元或第二信息识别单元，用于通过相应的cpu部分完成信息的识别处理，通过相应的存储部分进行图书信息及其他处理信息的存储处理，利用相应的通信接口及输入输出部分与其他模块进行通信处理，该识别处理部分还可以包括显示部分，以用于显示处理过程中的信息，例如，当前阅读的页码信息或书目信息等。该识别处理部分还可以包含扩展存储部分，以用于扩展存储空间，便于进行更多图书信息的存储。该识别处理部分可以接收传感部分的信息并完成识别处理，之后从存储部分中调用对应的音频信息并发送到发声部分，或者，识别处理部分也可以根据传感部分传递来的信息直接识别出内容部分的文字内容，并对相应的文字内容转换为音频信息后发送到发声部分。

发声部分即包含于所述音频单元中，其包括发声模块和扬声器等部分，发声模块可以包括编解码单元和驱动单元，用于接收中央处理模块的信息音频信息并对其进行处理后传递给扬声器，以通过扬声器发出音频声音，相应的扬声器可以为耳机也可以为音箱等。相应的编解码单元仅在识别处理部分存储的音频信息需要编解码时设置，且若需要的话该编解码单元也可以设置于识别处理部分中。

由于上述识别处理部分存储的图书的音频信息可以为任何种类的语音，如中文、英文等，因此，本发明实施例提供的图文识别装置可以提供各种语种的图书的阅读。同时，发出的声音可以为文字内容对应的声音，也可以预先设置的其他声音，例如，对该文字内容的解释说明等声音内容，等等。

本发明实施例的实现为人们提供了一种可以对普通图书以自然的方式进行阅读的图文识别装置，方便无法直接阅读图书的人对普通图书的阅读。

进一步地，通过该图文识别装置可以实现多点图像采集，相应的多点图像采集近距离就可以对所需采集对象的覆盖且不失真。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈旭
技术所有人：陈旭
我是此专利的发明人

上一篇：一种能源综合利用的智能温室生态系统的制作方法
上一篇：制片染色一体机的制作方法