页面识别方法、装置、设备和存储介质与流程

文档序号：16000970发布日期：2018-11-20 19:27阅读：197来源：国知局

本发明实施例涉及伴读领域，尤其涉及一种页面识别方法、装置、设备和存储介质。

背景技术：

近年来，在社会背景、国家政策与市场现状的多重因素影响下，机器人行业发展迅速，教育领域与机器人产业的结合正日渐深入。如今，在市场上，智能教育陪伴机器人开始掀起新热潮，以其丰富实用的功能迅速得到人们的认可。

现有的智能教育陪伴机器人在分页朗读书籍内容时，一般都需要通过使用点读笔等配套设备识别所需读取的书籍页面的唯一标识(例如二维码或识别贴)，才能正确获取并朗读与当前页面的文字内容对应的语音。

发明人在实现本发明的过程中，发现现有技术存在如下缺陷：实现指定书籍页面朗读，需配备点读笔类设备提高了用户的使用成本，同时，由于点读笔类设备以及书籍页面的唯一标识并不通用，所以，使用不同品牌的智能教育陪伴机器人需配备多套点读笔类设备，且即便是相同内容的书籍也需要同时配备多套，影响了用户再次购买智能教育陪伴机器人的选择自由度。

技术实现要素：

有鉴于此，本发明实施例提供了一种页面识别方法、装置、设备和存储介质，以优化现有的伴读技术，提高用户使用体验。

在第一方面，本发明实施例提供了一种页面识别方法，包括：

获取包括有书籍图像的图像信息；

根据所述书籍图像获取书籍对应的播放信息，所述播放信息包括：语音信息以及语音音效设置；

输出所述播放信息，其中，所述语音信息按照所述语音音效设置进行播放。

在上述方法中，可选的是，所述根据所述书籍图像获取书籍对应的播放信息，包括：

通过对所述图像信息进行裁剪，获取所述书籍图像；

确定与所述书籍图像匹配的页面图像；

获取与所述页面图像对应的播放信息。

在上述方法中，可选的是，所述通过对所述图像信息进行裁剪，获取所述书籍图像，包括：

通过前背景剪除方法对所述图像信息进行裁剪，获取所述书籍图像。

在上述方法中，可选的是，所述确定与所述书籍图像匹配的页面图像，包括：

计算所述书籍图像的哈希编码；

将与所述书籍图像的哈希编码的汉明距离最小的哈希编码所对应的页面图像，作为与所述书籍图像匹配的页面图像。

在上述方法中，可选的是，在所述通过对所述图像信息进行裁剪，获取所述书籍图像之后，还包括：

获取对所述图像信息进行裁剪之后的背景图像；

计算所述书籍图像与所述背景图像的面积比；

判断所述面积比是否大于设定阈值；

若所述面积比小于等于所述设定阈值，则播放设定语音，以使用户移动所述书籍，并返回执行获取包括有书籍图像的图像信息，直至所述面积比大于所述设定阈值。

在上述方法中，可选的是，在所述输出所述播放信息之后，还包括：

继续获取包括有书籍图像的图像信息；

判断本次获取的书籍图像与上次获取的书籍图像是否相同；

若本次获取的书籍图像与上次获取的书籍图像不同，则根据本次获取的书籍图像获取书籍对应的播放信息，并输出该播放信息。

在上述方法中，可选的是，所述播放信息还包括：图像信息。

在第二方面，本发明实施例提供了一种页面识别装置，包括：

图像信息获取模块，用于获取包括有书籍图像的图像信息；

播放信息获取模块，用于根据所述书籍图像获取书籍对应的播放信息，所述播放信息包括：语音信息以及语音音效设置；

播放模块，用于输出所述播放信息，其中，所述语音信息按照所述语音音效设置进行播放。

在第三方面，本发明实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

摄像头，用于采集图像；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例所述的页面识别方法。

在第四方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明任一实施例所述的页面识别方法。

本发明实施例提供了一种页面识别方法、装置、设备和存储介质，通过对图像的准确识别，获取与当前书籍页面对应的播放信息进行播放，解决了现有技术中伴读设备在实现指定书籍页面朗读时，需额外配备专用设备的技术缺陷，实现了伴读设备无需借助外部设备，也可准确、快速以及便捷地确定并朗读与当前书籍页面对应的语音，降低了用户的使用成本，提高了用户的使用便捷度以及用户使用体验。

附图说明

图1是本发明实施例一提供的一种页面识别方法的流程图；

图2是本发明实施例二提供的一种页面识别方法的流程图；

图3是本发明实施例三提供的一种页面识别装置的结构图；

图4是本发明实施例四提供的一种设备的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种页面识别方法的流程图，本实施例的方法可以由页面识别装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于伴读设备或移动终端中。本实施例的方法具体包括：

S101、获取包括有书籍图像的图像信息。

一般来说，伴读设备在播放用户指定的书籍页面的文字内容时，都需要借助外部设备(例如点读笔等)才能准确识别当前的书籍页面，进而对当前的书籍页面的文字内容进行播放，也就是说，现有技术中伴读设备无法独立识别当前的书籍页面。

而在本实施例中，集成于伴读设备中的页面识别装置可以独立识别书籍页面，并根据所识别的书籍页面确定所需播放的信息。集成于伴读设备中的页面识别装置首先需要获取包括有书籍图像的图像信息，图像信息可以是通过摄像头获取的。进一步地，图像信息具体可以是通过一个摄像头获取的，也可以是通过多个摄像头获取的。

具体而言，当图像信息是通过多个摄像头获取的，那么可以从所获取的多个图像信息共同确定书籍图像，此时多个摄像头的安装位置应尽量保证根据所获取的多个图像信息可以提取完整的书籍图像。

当图像信息是通过一个摄像头获取的，那么此时就要求用户尽量将书籍放置在摄像头的正前方，以保证摄像头可以获取书籍的完整图像，但是书籍的放置角度可以不受限，也就是说书籍既可以是正向放置的，也可以是反向放置的，还可以是旋转一定角度后放置的。当然，很难保证用户每次都可以将书籍正确地放置在摄像头的正前方，尤其当用户是一名儿童时，因此在获取图像信息并经过图像处理确定获取的书籍图像不完整时，可以通过播放语音提醒用户移动书籍，以使书籍可以正确放置于摄像头的正前方。

S102、根据书籍图像获取书籍对应的播放信息，播放信息包括：语音信息以及语音音效设置。

在本实施例中，在获取图像信息之后，会根据图像信息中的书籍图像来确定所要播放的信息。具体而言，可以是直接将图像信息与事先存储的书籍页面图像进行模板匹配，并将匹配度最高的书籍页面图像对应的播放信息作为当前的播放信息，还可是以先从图像信息中获取书籍图像，具体可以是通过图像裁剪等图像处理技术获取书籍图像，然后将获取的书籍图像与事先存储的书籍页面图像进行匹配，将匹配度最高的书籍页面图像对应的播放信息作为当前的播放信息。

在本实施例中，播放信息具体可以包括语音信息以及语音音效设置，其中，语音信息具体可以是与书籍图像中的文字信息对应的语音信息，同时还可以包括对该书籍介绍(例如书籍内容的概括、作者的介绍以及相关书籍的推荐等)的语音信息。其中，语音音效设置具体是指对语音信息的播放效果进行设置的数据，典型的可以是对语音信息的音高、音强、音长以及音色的设置。进一步地，语音音效设置可以是对语音信息的整体统一的音效设置，也可以是对语音信息中每一句话的音效设置等，本实施例对此不进行限制。

可以理解的是，儿童读物很多都会以小动物或是卡通人物作为人物主体，而且一些儿童读物还被拍摄成动画片。儿童在观看与读物对应的动画片时，可以从视觉和听觉两方面感受动画片中各个人物的情绪、情感变化，以及故事内容的跌宕起伏。因此，动画片与对应的读物相比，对儿童具有更强的吸引力。所以，为了提高儿童对读物的阅读兴趣，本实施例中增加了语音信息的语音音效设置，以使语音信息的播放效果更加逼真、更加接近动画片的播放效果，提高对儿童的吸引力，使儿童可以专心听取所播放的语音信息。

S103、输出播放信息，其中，语音信息按照语音音效设置进行播放。

在本实施例中，在获取书籍对应的播放信息之后，即会输出该播放信息。其中，播放信息中的语音信息会按照语音音效设置进行播放。如果播放信息中还包括有图像信息，那么在播放语音信息的同时，还会对图像信息进行播放。

本发明实施例提供了一种页面识别方法，通过对图像的准确识别，获取与当前书籍页面对应的播放信息进行播放，解决了现有技术中伴读设备在实现指定书籍页面朗读时，需额外配备专用设备的技术缺陷，实现了伴读设备无需借助外部设备，也可准确、快速以及便捷地确定并朗读与当前书籍页面对应的语音，降低了用户的使用成本，提高了用户的使用便捷度以及用户使用体验。

实施例二

图2是本发明实施例二提供的一种数据存储方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，给出了一种通过图像裁剪法获取书籍图像，通过哈希编码进行图像匹配，根据面积比确定书籍图像的完整度，以及通过连续获取图像信息判断用户是否翻页的具体实施方式。

相应的，本实施例的方法具体包括：

S201、获取包括有书籍图像的图像信息。

S202、通过对图像信息进行裁剪，获取书籍图像。

在本实施例中，在获取图像信息之后，需要先将图像信息中的书籍图像进行提取，提取的方法是通过对图像信息进行裁剪。其中，图像的裁剪方法典型的可以是前背景分离法等。

S203、获取对图像信息进行裁剪之后的背景图像。

可以理解的是，在对图像信息中的书籍图像进行裁剪之后，会得到与前景图像(即书籍图像)对应的背景图像。在本实施例中，除了要获取书籍图像，还需获取书籍图像的背景图像。

S204、计算书籍图像与背景图像的面积比。

可以理解的是，如果用户将书籍正确地摆放在摄像头的正前方，那么在摄像头所获取的图像中，书籍图像所占的面积应较大，一般会大于80％。因此，根据书籍图像与背景图像的面积比，可以判定书籍是否摆放正确。

在本实施例中，在获取书籍图像及其背景图像之后，即会计算书籍图像与背景图像的面积比。该面积比为书籍图像的面积除以背景图像的面积的比值。

S205、判断面积比是否大于设定阈值，若是，则执行步骤207，若否，则执行步骤206。

在本实施例中，通过将面积比与设定阈值进行数值大小的比较，来判定书籍是否摆放正确。其中，设定阈值典型的可以是80％或90％等。

S206、播放设定语音，以使用户移动书籍，并返回执行获取包括有书籍图像的图像信息。

在本实施例中，当面积比小于或等于设定阈值时，会播放设定语音，以使用户通过移动书籍，将该书籍摆放在正确的位置。其中，设定语音典型的可以是“请将书籍摆放在正确位置”等。

进一步地，基于现有的图像处理技术，可以根据背景图像判断出书籍的摆放错误方向，进而可以准确地提醒用户应如何移动书籍。例如，当根据背景图像判断出书籍图像位于图像信息的左下角，那么应提示用户将书籍向右上方移动。

S207、确定与书籍图像匹配的页面图像。

在本实施例中，当面积大于设定阈值时，则会继续获取与书籍图像匹配的页面图像。页面图像具体可以是事先存储在页面识别装置中，也可以是事先存储在页面识别装置所安装的伴读设备中，还可以是事先存储在与上述伴读设备关联的服务器中，本实施例对此不进行限制。

进一步地，页面图像的存储方式具体可以是对页面图像的整体图像信息进行存储，还可以是仅存储与页面图像对应的一组数据(例如页面图像的哈希编码、页面图像的灰度均方差等)。

示例性的，当对页面图像的整体图像信息进行存储时，可以通过模板匹配法对书籍图像和存储的页面图像进行匹配，进而确定与书籍图像匹配的页面图像；当仅存储与页面图像对应的一组数据时，可以通过数据相似度匹配方法确定与书籍图像匹配的页面图像。

S208、获取与页面图像对应的播放信息，播放信息包括：语音信息、语音音效设置以及图像信息。

在本实施例中，每一幅事先存储的页面图像都关联存储有对应的播放信息，该播放信息具体可以是存储在页面识别装置中，也可以是存储在页面识别装置所安装的伴读设备中，还可以是存储在与上述伴读设备关联的服务器中，本实施例对此不进行限制。

在本实施例中，将与书籍图像匹配的页面图像对应的播放信息作为该书籍图像对应的播放信息。

进一步地，在本实施例中，播放信息具体包括有语音信息、语音音效设置以及图像信息，其中，图像信息与语音信息一般是同步进行播放，但是，图像信息也可以设置有播放时间节点，该时间节点可以是与语音信息的播放时间相关联的。其中，图像信息具体可以是书籍中人物的图像信息，还可以是当前正在播放的语音信息中的文字的滚动图像信息等。

S209、输出播放信息，其中，语音信息按照语音音效设置进行播放。

S210、继续获取包括有书籍图像的图像信息。

可以理解的是，用户在听取所播放的语音的过程中，如果对本页内容不感兴趣，那么在语音信息播放结束之前就可能会实施翻页动作。

为了使当前播放的语音信息与用户所展现的书籍页面正确对应，本实施例中，在语音信息的播放过程中，会继续获取包括有书籍图像的图像信息，以实现用户翻页之后，及时更换所播放的语音信息。另外，本步骤中用于获取图像信息的部件，与步骤201中用于获取图像信息的部件为同一部件。

S211、判断本次获取的书籍图像与上次获取的书籍图像是否相同，若不同，则执行步骤212，若相同，则返回执行步骤210，直至与上次书籍图像匹配的页面图像对应的播放信息播放完毕。

在本实施例中，再次获取图像信息之后，会将本次获取的书籍图像与上次获取的书籍图像相匹配。具体来说，首先需要从本次和上次获取的图像信息中裁剪出本次获取的书籍图像和上次获取的书籍图像，然后通过图像匹配方法对本次获取的书籍图像和上次获取的书籍图像进行匹配。

进一步地，本次获取的书籍图像和上次获取的书籍图像的匹配方法具体可以是模板匹配法，也可以是根据哈希编码等图像特征数据的数据相似度匹配法。本步骤中的图像匹配方法与步骤207中的图像匹配方法既可以相同，也可以不同。

S212、根据本次获取的书籍图像获取书籍对应的播放信息，并输出该播放信息。

在本实施例中，当判定本次获取的书籍图像和上次获取的书籍图像不同之后，即会停止播放当前的语音信息，并根据本次获取的书籍图像获取书籍对应的播放信息，然后播放本次获取的语音信息。

进一步地，当书籍图像在短时间(例如20秒钟)内频繁(例如大于或等于3次)更换时，可以播放语音以提醒用户不要频繁翻动书籍，以使用户可以专心阅读。

本发明实施例提供了一种页面识别方法，该方法具体化了书籍图像的获取方法，具体化了与书籍图像匹配的页面图像的确定方法，具体增加了书籍图像完整度的判断过程，还具体增加了书籍翻页识别过程，实现了快速、简便以及准确地获取与书籍对应的播放信息，还实现了书籍摆放不正确时，及时提醒用户调整书籍的摆放位置，还实现了对书籍的翻页情况进行实时监测。

在上述各实施例的基础上，将通过对图像信息进行裁剪，获取书籍图像，具体化为：通过前背景剪除方法对图像信息进行裁剪，获取书籍图像。

这样设置的好处是：可以更加准确、快速地获取书籍图像。

在上述各实施例的基础上，将确定与书籍图像匹配的页面图像，具体化为：计算书籍图像的哈希编码；将与书籍图像的哈希编码的汉明距离最小的哈希编码所对应的页面图像，作为与书籍图像匹配的页面图像。

这样设置的好处是：可以快速、简便以及准确地获取与书籍图像匹配的页面图像。

实施例三

图3是本发明实施例三提供的一种页面识别装置的结构图。如图3所示，所述装置包括：图像信息获取模块301、播放信息获取模块302以及播放模块303，其中：

图像信息获取模块301，用于获取包括有书籍图像的图像信息；

播放信息获取模块302，用于根据书籍图像获取书籍对应的播放信息，播放信息包括：语音信息以及语音音效设置；

播放模块303，用于输出播放信息，其中，语音信息按照语音音效设置进行播放。

本发明实施例三提供了一种页面识别装置，该装置先通过图像信息获取模块301获取包括有书籍图像的图像信息，然后通过播放信息获取模块302根据书籍图像获取书籍对应的播放信息，播放信息包括：语音信息以及语音音效设置，最后通过播放模块303输出播放信息，其中，语音信息按照语音音效设置进行播放。

该装置解决了现有技术中伴读设备在实现指定书籍页面朗读时，需额外配备专用设备的技术缺陷，实现了伴读设备无需借助外部设备，也可准确、快速以及便捷地确定并朗读与当前书籍页面对应的语音，降低了用户的使用成本，提高了用户的使用便捷度以及用户使用体验。

在上述各实施例的基础上，播放信息获取模块302可以包括：

书籍图像获取单元，用于通过对图像信息进行裁剪，获取书籍图像；

页面图像确实单元，用于确定与书籍图像匹配的页面图像；

播放信息取得单元，用于获取与页面图像对应的播放信息。

在上述各实施例的基础上，书籍图像获取单元具体可以用于：

通过前背景剪除方法对图像信息进行裁剪，获取书籍图像。

在上述各实施例的基础上，页面图像确实单元可以包括：

哈希编码计算子单元，用于计算书籍图像的哈希编码；

哈比编码比对子单元，用于将与书籍图像的哈希编码的汉明距离最小的哈希编码所对应的页面图像，作为与书籍图像匹配的页面图像。

在上述各实施例的基础上，还可以包括：

背景图像获取单元，用于在通过对图像信息进行裁剪，获取书籍图像之后，获取对图像信息进行裁剪之后的背景图像；

面积比计算单元，用于计算书籍图像与背景图像的面积比；

面积判断单元，用于判断面积比是否大于设定阈值；

设定语音播放单元，英语若面积比小于等于设定阈值，则播放设定语音，以使用户移动书籍，并返回执行获取包括有书籍图像的图像信息，直至面积比大于设定阈值。

在上述各实施例的基础上，还可以包括：

图像信息取得模块，用于在输出播放信息之后，继续获取包括有书籍图像的图像信息；

图像判断模块，用于判断本次获取的书籍图像与上次获取的书籍图像是否相同；

播放信息确定模块，用于若本次获取的书籍图像与上次获取的书籍图像不同，则根据本次获取的书籍图像获取书籍对应的播放信息，并输出该播放信息。

在上述各实施例的基础上，播放信息还可以包括：图像信息。

本发明实施例所提供的页面识别装置可用于执行本发明任意实施例提供的页面识别方法，具备相应的功能模块，实现相同的有益效果。

实施例四

图4为本发明实施例四提供的一种设备的结构示意图，如图4所示，该设备包括处理器40、存储器41、输入装置42、输出装置43和摄像头44；设备中处理器40的数量可以是一个或多个，图4中以一个处理器40为例；设备中的处理器40、存储器41、输入装置42、输出装置43和摄像头44可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的页面识别方法对应的模块(例如，页面识别装置中的图像信息获取模块301、播放信息获取模块302以及播放模块303)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的页面识别方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。摄像头44用于采集图像。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种页面识别方法，该方法包括：

获取包括有书籍图像的图像信息；

根据书籍图像获取书籍对应的播放信息，播放信息包括：语音信息以及语音音效设置；

输出播放信息，其中，语音信息按照语音音效设置进行播放。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的页面识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述页面识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汤炜;张晓雪
技术所有人：北京智能管家科技有限公司
我是此专利的发明人

上一篇：水龙头阀芯抹油机的制作方法
上一篇：一种便于拆装的羽毛球用网架的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。