一种基于图像识别的绘本阅读方法及装置与流程

文档序号：16668985发布日期：2019-01-18 23:27阅读：550来源：国知局

本发明涉及数据处理技术领域，尤其涉及一种基于图像识别的绘本阅读方法及装置。

背景技术：

绘本，英文名称picturebook，指一类以绘画为主，并附有少量文字的书籍，绘本页数相对较少。

传统的绘本阅读方法有两种：一种是点读笔，利用在书本上加印二维码的技术，将声音文件植入书本中，使用者在使用过程中选择要点读的某一页，随便点击该页上的图案、文字、数字等内容，点读笔都能通过笔头上装配的高速摄像头识别书本上的二维码而读出对应内容的声音文件。另一种点读机，点读机使用的原理是在制作发音文件过程中，给发音文件预先设置好对应书本内容的“经纬位置”，使用者将课本置于机器平板上，用专用的笔点书本上的文字、图画、数字等内容，机器就会发出相对应的声音。

随着技术发展，除了上述的传统的绘本阅读方法外，还可以通过图像识别技术实现绘本阅读，这种方法的原理是：通过图像识别技术识别摄像头当前拍到是那一本绘本的封面，然后再实时识别用户翻到那一页，识别到封面或页图后，则播放预先存储的音频或文字合成的音频，达到用户放哪一本绘本，则读那一本绘本，翻到哪一页，读那一页的功能。绘本封面和页图像，录音，文字等数据需要预先录入，随着绘本数量的增加，对cpu能力和内存要求也越高。

通过图像识别技术实现绘本阅读有两种方式：一种离线方式，所有绘本数据和图像识别算法都在绘本阅读设备(如绘本阅读机器人)运行，但由于绘本阅读设备的定位以及成本要求，其他cpu性能相对较弱，内存也相对比较小，因此这种方式只能支持少量的绘本，设备销售后无法增加绘本数据。另一种是在线方式，绘本数据和图像识别算法都在后台服务器，这种方式由于将图像数据上传到后台再进行识别，识别时间较慢且受网络影响，图像识别速度较慢，因此绘本阅读体验较差。

技术实现要素：

本发明的主要目的在于提出一种基于图像识别的绘本阅读方法及装置，通过本地与后台图像识别相结合的检索方式，既支持大量绘本阅读，也可以在线更新绘本数据，提高了绘本阅读速度。

为实现上述目的，本发明提供的一种基于图像识别的绘本阅读方法，包括：

获取绘本的封面图像；

判断所述封面图像是否与本地预存的绘本封面匹配，若是，播放匹配的绘本封面的音频，并加载所述匹配的绘本的内容图像数据；

否则，将所述封面图像上传至后台并在后台进行检索；

将检索到的绘本封面的音频及绘本内容图像数据下载至本地。

可选地，所述获取绘本的封面图像包括：

开启绘本阅读设备，加载本地预存的绘本封面数据；

开启摄像头，采集图像数据；

判断所述图像数据的熵值是否大于预设的阈值，若是，则所述图像数据包括绘本的封面图像，否则，不进行图像分析与匹配。

可选地，所述播放匹配的绘本封面的音频，并加载所述匹配的绘本的内容图像数据之后还包括：

实时获取所述摄像头采集到的图像数据；

判断所述图像数据是否有更新，若是，对更新后的图像数据进行图像分析和匹配；

获取所述更新后的图像数据的页码数据；

从所述绘本的内容图像数据查找对应页码的音频，进行播放。

可选地，所述后台为运行在云服务器上的服务程序，所述后台与所述绘本阅读设备通过互联网连接。

可选地，所述将检索到的绘本封面的音频及绘本内容图像数据下载至本地之后包括：

播放所述绘本封面的音频及对应的绘本内容图像数据。

作为本发明的另一方面，提供的一种基于图像识别的绘本阅读装置，包括：

获取模块，用于获取绘本的封面图像；

判断模块，用于判断所述封面图像是否与本地预存的绘本封面匹配；

播放模块，用于播放匹配的绘本封面的音频，并加载所述匹配的绘本的内容图像数据；

检索模块，用于将所述封面图像上传至后台并在后台进行检索；

下载模块，用于将检索到的绘本封面的音频及绘本内容图像数据下载至本地。

可选地，所述获取模块包括：

加载单元，用于开启绘本阅读设备，加载本地预存的绘本封面数据；

采集单元，用于开启摄像头，采集图像数据；

第一判断单元，用于判断所述图像数据的熵值是否大于预设的阈值，若是，则所述图像数据包括绘本的封面图像，否则，不进行图像分析与匹配。

可选地，所述播放模块包括：

实时采集单元，用于实时获取所述摄像头采集到的图像数据；

第二判断单元，用于判断所述图像数据是否有更新，若是，对更新后的图像数据进行图像分析和匹配；

页码更新单元，用于获取所述更新后的图像数据的页码数据；

播放单元，用于从所述绘本的内容图像数据查找对应页码的音频，进行播放。

可选地，所述后台为运行在云服务器上的服务程序，所述后台与所述绘本阅读设备通过互联网连接。

可选地，所述播放模块还用于：

播放所述绘本封面的音频及对应的绘本内容图像数据。

本发明提出的一种基于图像识别的绘本阅读方法及装置，该方法包括：获取绘本的封面图像；判断所述封面图像是否与本地预存的绘本封面匹配，若是，播放匹配的绘本封面的音频，并加载所述匹配的绘本的内容图像数据；否则，将所述封面图像上传至后台并在后台进行检索；将检索到的绘本封面的音频及绘本内容图像数据下载至本地；通过本地与后台图像识别相结合的检索方式，既支持大量绘本阅读，也可以在线更新绘本数据，提高了绘本阅读速度。

附图说明

图1为本发明实施例一提供的一种基于图像识别的绘本阅读方法的流程图；

图2为图1中步骤s10的方法流程图；

图3为图1中步骤s30的方法流程图；

图4为本发明实施例二提供的一种基于图像识别的绘本阅读装置的示范性结构框图；

图5为图4中获取模块的示范性结构框图；

图6为图4中播放模块的示范性结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，在本实施例中，一种基于图像识别的绘本阅读方法，包括：

s10、获取绘本的封面图像；

s20、判断所述封面图像是否与本地预存的绘本封面匹配，若是，s30、播放匹配的绘本封面的音频，并加载所述匹配的绘本的内容图像数据；

否则，s40、将所述封面图像上传至后台并在后台进行检索；

s50、将检索到的绘本封面的音频及绘本内容图像数据下载至本地。

在本实施例中，通过本地与后台图像识别相结合的检索方式，既支持大量绘本阅读，也可以在线更新绘本数据，提高了绘本阅读速度。

如图2所示，在本实施例中，所述步骤s10包括：

s11、开启绘本阅读设备，加载本地预存的绘本封面数据；

s12、开启摄像头，采集图像数据；

s13、判断所述图像数据的熵值是否大于预设的阈值，若是，则s14、所述图像数据包括绘本的封面图像，否则，s15、不进行图像分析与匹配。

在本实施例中，绘本阅读设备是指带摄像头和互联网接入功能的智能硬件，典型如智能机器人。

在本实施例中，所述预设的阈值为6.0，计算图像局部区域的熵值，当熵值大于6.0时，则认为图像中有包含绘本，否则认为图像中不包含绘本。关于图像熵值的解释：图像处理中，根据图像的各个像素点的灰度分布的有序性，定义图像的局部熵，其反映了图像信息的丰富程度。由于绘本阅读设备一般放置在桌面使用，桌面一般单一纯色较多，因此没有放置绘本在绘本阅读设备摄像头前时，摄像头采集数据主要是桌面，此时采集图像的信息比较简单，熵值叫小；反之放置绘本时，摄像头采集图像信息则比较丰富，熵值较大，6.0的比较熵值参数值。

在本实施例中，绘本封面的音频包括：绘本名称，作者，绘本系列等。

如图3所示，在本实施例中，所述s30还包括：

s31、实时获取所述摄像头采集到的图像数据；

s32、判断所述图像数据是否有更新，若是，s33、对更新后的图像数据进行图像分析和匹配；

s34、获取所述更新后的图像数据的页码数据；

s35、从所述绘本的内容图像数据查找对应页码的音频，进行播放；

若图像数据没有更新，s36、继续采集图像。

在本实施例中，开始绘本阅读后，用户可以在任意流程节点结束绘本阅读，卸载绘本数据，释放摄像头。

在本实施例中，所述后台为运行在云服务器上的服务程序，所述后台与所述绘本阅读设备通过互联网连接。

在本实施例中，所述将检索到的绘本封面的音频及绘本内容图像数据下载至本地之后包括：

播放所述绘本封面的音频及对应的绘本内容图像数据。

在本实施例中，通过本地和后台图像识别结合的方法，使得绘本阅读设备既可以支持大量的绘本数据，也可以有较好的绘本阅读体验。本发明中，所有绘本数据都在后台上，可以支持数十万本的绘本数据，而绘本阅读设备本地在存储的是已经阅读过的绘本数据，一般情况下，单个用户的绘本数量在数十本以内，因此这个数量的绘本在本地进行图像分析、检索和匹配速度也可以达到很好的阅读体验。而绘本内容的阅读方面，绘本页数一般较少，因此绘本内容数据在本地存储和进行图像分析、检索和匹配，同样可以有很好的阅读体验。

实施例二

如图4所示，在本实施例中，一种基于图像识别的绘本阅读装置，包括：

获取模块10，用于获取绘本的封面图像；

判断模块20，用于判断所述封面图像是否与本地预存的绘本封面匹配；

播放模块30，用于播放匹配的绘本封面的音频，并加载所述匹配的绘本的内容图像数据；

检索模块40，用于将所述封面图像上传至后台并在后台进行检索；

下载模块50，用于将检索到的绘本封面的音频及绘本内容图像数据下载至本地。

在本实施例中，通过本地与后台图像识别相结合的检索方式，既支持大量绘本阅读，也可以在线更新绘本数据，提高了绘本阅读速度。

如图5所示，在本实施例中，所述获取模块包括：

加载单元11，用于开启绘本阅读设备，加载本地预存的绘本封面数据；

采集单元12，用于开启摄像头，采集图像数据；

第一判断单元13，用于判断所述图像数据的熵值是否大于预设的阈值，若是，则所述图像数据包括绘本的封面图像，否则，不进行图像分析与匹配。

在本实施例中，绘本阅读设备是指带摄像头和互联网接入功能的智能硬件，典型如智能机器人。

在本实施例中，绘本封面的音频包括：绘本名称，作者，绘本系列等。

如图6所示，在本实施例中，所述播放模块包括：

实时采集单元31，用于实时获取所述摄像头采集到的图像数据；

第二判断单元32，用于判断所述图像数据是否有更新，若是，对更新后的图像数据进行图像分析和匹配；

页码更新单元33，用于获取所述更新后的图像数据的页码数据；

播放单元34，用于从所述绘本的内容图像数据查找对应页码的音频，进行播放。

在本实施例中，开始绘本阅读后，用户可以在任意流程节点结束绘本阅读，卸载绘本数据，释放摄像头。

在本实施例中，所述后台为运行在云服务器上的服务程序，所述后台与所述绘本阅读设备通过互联网连接。

在本实施例中，所述播放模块还用于：

播放所述绘本封面的音频及对应的绘本内容图像数据。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林剑亮
技术所有人：深圳市深晓科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。