播放音频信息的方法、装置、计算机设备及存储介质与流程

文档序号：17926937发布日期：2019-06-15 00:28阅读：148来源：国知局

本申请涉及到数据处理技术领域，特别是涉及到一种播放音频信息的方法、装置、计算机设备及存储介质。

背景技术：

读书是我们获取知识，开拓视野，提升个人素质的途径。目前市场上，出现了很多可提供有声阅读的机器人，现有技术中的阅读机器人识别图书，是应用一种通过图像识别来进行图书识别的方法，通过照相机拍摄，进行图像处理和文字识别，最终生成语音文件，再播放该语音文件。但是，图书翻页时有时会漏页，还会使图书容易受损，加上图像处理缓慢等缺点，用户对图书的阅读体验不佳。而且对现有技术所采用的图像识别方法的应用，阅读机器人通过对图书的内容进行识别，导致在图书识别上有着识别错误率高，又不能提供用户的多次选择操作，出现用户不能很好地选择自己感兴趣的图书的问题；同时，阅读机器人的摄像头是固定的，只能同时识别单本图书，这给图书的阅读带来了一定的不便。

技术实现要素：

本申请的目的在于提供一种播放音频信息的方法、装置、计算机设备及存储介质，以实现通过机器人多本图书识别，辅助用户选定最终想要阅读的图书，并播放该图书的音频信息的目的。

本申请提出一种播放音频信息的方法，包括步骤：

s1、控制摄像头拍摄当前视角范围内的第一区域，以获得第一图像；

s2、判断所述第一图像内是否有图书；

s3、若是，则获取每一本所述图书的书名，得到第一名单；

s4、接收用户在所述第一名单中选择的目标书名，并播放所述目标书名对应的音频信息。

进一步地，所述判断所述第一图像内是否有图书的步骤之后，包括：

s211、若否，则发出语音信号，所述语音信号用于提示用户在所述当前视角范围内的区域内放置图书；

s212、经过预设时间长度后，执行所述步骤s1。

进一步地，所述接收用户在所述第一名单中选择的目标书名，并播放所述目标书名对应的音频信息的步骤，包括：

s41、将所述第一名单发送至服务器，以让服务器检索与所述第一名单中的书名对应的音频信息；

s42、接收所述服务器返回的检索结果信息；

s43、根据所述检索结果信息，将所述第一名单中没有音频信息的书名删除，形成第二名单；

s44、将所述第二名单加载在显示屏上；

s45、接收用户在所述第二名单中选择的目标书名，播放所述目标书名对应的音频信息。

进一步地，所述将所述第二名单加载在显示屏上的步骤之后，还包括：

s46、接收到用户发送的要求重新获取书名的指令；

s47、调整摄像头的高度和/或角度，执行所述步骤s1。

进一步地，所述将所述第一名单中没有音频信息的书名删除，形成第二名单的步骤，包括：

s431、判断获取所述第一名单的次数是否大于两次；

s432、若是，则将最后一次获得的第一名单中没有音频信息的书名删除，并删除历史的第一名单中的书名，形成第二名单。

进一步地，所述获取每一本所述图书的书名，得到第一名单的步骤，包括：

s31、对所述第一图像进行ocr识别，获取所述第一图像中的文字和符号；

s32、根据所述文字和符号，确定每一本图书对应的书名，并通过汇总每一本图书对应的所述书名得到第一名单。

进一步地，所述对所述第一图像进行ocr识别，获取所述第一图像中的文字和符号的步骤，包括：

s311、对所述第一图像进行ocr识别；

s312、若未识别到文字和符号，则调整控制摄像头的高度和/或角度拍摄，并拍摄摄像头调整后的高度和/或角度对应的第二区域，以获得第二图像；

s313、对所述第二图像进行ocr识别，获取所述第二图像中的文字和符号。

本申请提出一种播放音频信息的装置，包括：

拍摄模块，用于控制摄像头拍摄当前视角范围内的第一区域，以获得第一图像；

判断模块，用于判断所述第一图像内是否有图书；

获取模块，用于若是，则获取每一本所述图书的书名，得到第一名单；

播放模块，用于接收用户在所述第一名单中选择的目标书名，并播放所述目标书名对应的音频信息。

本申请提出一种计算机设备，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的播放音频信息的方法。

本申请还提出一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现上述任一项所述的播放音频信息的方法。

相比现有技术，本申请提供了一种播放音频信息的方法、装置、计算机设备及存储介质，具有以下有益效果：

根据摄像头拍摄的图像，可以进行多本图书识别，通过识别书名获得对应图书的音频信息，降低了识别错误率，同时又增加了图书的使用寿命，用户可以进行多次选择，起到辅助用户选定最终想要阅读的图书并播放该图书的音频信息，提高阅读的便捷性。

附图说明

图1是本申请一个实施例的播放音频信息的方法的流程示意图；

图2是本申请一个实施例的播放音频信息的方法的流程示意图；

图3是本申请一个实施例的播放音频信息的方法的流程示意图；

图4是本申请一个实施例的播放音频信息的方法的流程示意图；

图5是本申请一个实施例的播放音频信息的方法的流程示意图；

图6是本申请一个实施例的播放音频信息的装置的结构示意框图；

图7是本申请的一个实施例的计算机设备的结构示意图；

图8是本申请的一个实施例的存储介质的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，在发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，一种播放音频信息的方法，包括步骤：

s1、控制摄像头拍摄当前视角范围内的第一区域，以获得第一图像；

s2、判断所述第一图像内是否有图书；

s3、若是，则获取每一本所述图书的书名，得到第一名单；

s4、接收用户在所述第一名单中选择的目标书名，并播放所述目标书名对应的音频信息。

在本实施例中，如上述步骤s1所述，所述摄像头一般具有视频摄影/传播和静态图像捕捉等基本功能，可以是安装在任何电子设备(如手机、计算机、平板电脑、相机等等)上的摄像头，也可以是基于本申请而专门设计的在机器人上安装的摄像头；图像是人对视觉感知的物质再现，可以由光学设备获取，如照相机、摄像头等；所述第一图像是指通过摄像头拍摄物体而得到的照片，可以是物体的正面照片，也可以是物体的侧面照片。控制摄像头拍摄当前视角范围内的第一区域，以获得第一图像，指的是机器人进入图像检测模式后，控制安装在机器人上的摄像头，摄像头是可伸缩旋转的，故调整摄像头的高度和角度，即将摄像头升高或者降低，也可以是向左转动或者向右转动，从而来使被拍摄物体在摄像头的拍摄范围内，当确定好摄像头与被拍摄物体之间的距离，通过摄像头拍摄得到视角范围内的照片，所述照片即第一图像。

如上述步骤s2所述，图书的形状一般是扁平状的长方体，其外封面上印刷有字体。机器人识别出第一图像中各物体的形状以及对应的是否有文字，来判断第一图像中是否有图书。具体的实施方法有，机器人将第一图像输入到一个经训练后得到的图书识别模型中，然后输出第一图像中图书数量的结果。其中，图书识别模型是工作人员预先训练得到的，图书识别模型采用神经网络模型作为基础模型，工作人员采集多个包含有图书的图像，并对每一个图像标记有图书的数量，然后将所有的包含有图书的图像以及对应的数量输入到该神经网络模型中，以进行训练，训练结束后得到神经网络模型优化的系数，即可以识别图像中图书的数量的图书识别模型。

如上述步骤s3所述，当机器人判定所述第一图像内有图书，可以理解的，所述第一图像内有图书，图书的数量可以是单独的一本，也可以是很多本；图书的位置可以是很多本平铺摆放，也可以是很多本重叠放置；当判定所述第一图像内有图书后，则获取到图像中所有图书的书名，将获取到的所有书名汇总形成第一名单。

如上述步骤s4所述，机器人将第一名单展示出来，以供用户选择，用户指的是使用该机器人的人，用户根据自己感兴趣的图书，在第一名单中挑选对应图书的书名，将该书名作为目标书名反馈给机器人，当机器人接收用户选择的目标书名，则从数据库中检索与所述目标书名对应的音频信息，所述音频信息可以是关于图书的讲解的语音文件，也可以是图书内容的录音数据，机器人启动对应的播放器播放用户选择的目标书名的录音数据。

参照图2，在一具体实施例中，所述判断所述第一图像内是否有图书的步骤之后，包括：

s211、若否，则发出语音信号，所述语音信号用于提示用户在所述当前视角范围内的第一区域内放置图书；

s212、经过预设时间长度后，执行所述步骤s1。

在该实施例中，若第一图像内没有图书，机器人则发出语音信号，所述语音信号可以是人提前录制的，也可以是网络下载的，该语音信号存储在机器人的数据库中，当第一图像内没有图书便触发语音提示指令，通过语音信号来提示用户在所述当前视角范围内的第一区域内放置图书；语音信号提示完毕，用户需要时间来放置图书，因此需要设置一段时间间隔，时间长度是预设的，可以是3秒，5秒，7秒等，优选的，本实施例中指定时间为3秒，当机器人发出语音信号提示结束后，等候3秒后，执行所述步骤s1。

参照图3，在一具体实施例中，所述接收用户在所述第一名单中选择的目标书名，并播放所述目标书名对应的音频信息的步骤，包括：

s41、将所述第一名单发送至服务器，以让服务器检索与所述第一名单中的书名对应的音频信息；

s42、接收所述服务器返回的检索结果信息；

s43、根据所述检索结果信息，将所述第一名单中没有音频信息的书名删除，形成第二名单；

s44、将所述第二名单加载在显示屏上；

s45、接收用户在所述第二名单中选择的目标书名，播放所述目标书名对应的音频信息。

在该实施例中，将所述第一名单发送至服务器，发送所述第一名单的方式可以是通过无线模块连接宽带网络后进行发送，当发送端为手机、计算机、平板电脑和相机等等智能设备时，除了通过无线发送外，也可以通过有线移动网络发送；服务器根据第一名单中的书名检索对应的音频信息，服务器可以在数据库中检索或者通过联网检索，服务器将检索结果信息反馈给机器人；机器人将第一名单中没有音频信息的书名删除，得到第二名单，第二名单是具有与书名对应的音频信息的新名单，将新名单加载在显示屏上，可以以文字的形式，也可以语音播放形式，以供用户选择感兴趣的书名，机器人接收用户选择的目标书名，调用所述目标书名对应的音频信息，启动内置播放器或者朗读器播放所述目标书名对应的音频信息。

参照图4，在一具体实施例中，所述将所述第二名单加载在显示屏上的步骤之后，还包括：

s46、接收到用户发送的要求重新获取书名的指令；

s47、调整摄像头的高度和/或角度，执行所述步骤s1。

在该实施例中，当加载在显示屏上的书名的第二名单，没有用户感兴趣的图书，用户希望重新拍摄以获取其他的图书的书名，机器人接收到用户发送的要求重新获取书名的指令；接收到指令后开启摄像头，摄像头是可伸缩旋转的，可以调整摄像头的高度，可以调整摄像头的角度，也可以调整摄像头的高度和角度，控制摄像头调整高度和/或角度拍摄，指的是通过可伸缩旋转的摄像头，按设定的数值调整摄像头的高度，设定的数值可以是5厘米，8厘米，10厘米等等，使摄像头按设定的数值升高或者降低；也可以按设定的角度值调整摄像头的角度，设定的角度值可以10度，30度，45度等等，使摄像头向左旋转设定的角度值或者向右旋转设定的角度值，从而，调整后的摄像头可以拍摄到较大视觉的范围内的图书图像，获取到距离摄像头较远或者重叠的图书的书名，之后执行步骤s1。

参照图5，在一具体实施例中，所述将所述第一名单中没有音频信息的书名删除，形成第二名单的步骤，包括：

s431、判断获取所述第一名单的次数是否大于两次；

s432、若是，则将最后一次获得的第一名单中没有音频信息的书名删除，并删除历史的第一名单中的书名，形成第二名单。

在该实施例中，获取所述第一名单的次数是大于两次，说明了摄像头拍摄了至少两次，每次拍摄都会获得对应的照片，即图像，每张图像又对应一份含有书名的名单。在第一次拍摄时获得的第一名单，该第一名单删除了没有音频信息的书名，形成第一次拍摄的第二名单，当第二次拍摄时获得另一份第一名单，同理删除了没有音频信息的书名形成到第二次拍摄的第二名单，此时第一次拍摄的第二名单即为历史的第一名单。具体情形举例子为：

当在第一次拍摄的第一图像中图书的书名中，没有用户感兴趣的图书，用户希望重新拍摄以获取剩下的图书书名，此时控制摄像头调整高度和/或角度再次拍摄图像，获得第二次拍摄的第二图像中图书的书名，可能存在第二次拍摄的第二图像中的图书的书名与第一次拍摄的第一图像的书名有重复，需要去掉与第一次拍摄的第一图像中图书的书名的重复部分。通过比较名单中的书名是否有重复，若没有重复，则汇总最后一次拍摄的图像名单中的书名，形成第二名单；若重复则去掉与第一次获取的重复书名，将生成的书名汇总得到新的名单，即为第二名单。

在一具体实施例中，所述获取每一本所述图书的书名，得到第一名单的步骤，包括：

s31、对所述第一图像进行ocr识别，获取所述第一图像中的文字和符号；

s32、根据所述文字和符号，确定每一本图书对应的书名，并通过汇总每一本图书对应的所述书名得到第一名单。

在该实施例中，ocr(英文全称为opticalcharacterrecognition，以下简称为ocr，光学字符识别，)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。对第一图像进行ocr识别，获取所述第一图像中的文字和符号指的是从第一图像到结果输出，经过第一图像的输入、第一图像的预处理、文字特征抽取、比对识别，最终获取文字信息，文字信息包括文字和符号。获取到的文字信息对应每一本图书的书名，汇总所述图书的书名，即得到第一名单。

在一具体实施例中，所述对所述第一图像进行ocr识别，获取所述第一图像中的文字和符号的步骤，包括：

s311、对所述第一图像进行ocr识别；

s312、若未识别到文字和符号，则调整摄像头的高度和/或角度，并拍摄摄像头调整后的高度和/或角度对应的第二区域，以获得第二图像；

s313、对所述第二图像进行ocr识别，获取所述第二图像中的文字和符号。

在该实施例中，对所述第一图像进行ocr识别，如果未识别到文字和符号，即未获取到每一本所述图书的书名，可能是摄像头拍摄的图像模糊，或可能是图书封面被遮挡住，导致不能识别到图像的文字和符号，从而出现只能识别到部分书名或者识别不到书名的结果，通过控制摄像头调整高度和/或角度，通过确定摄像头与被拍摄物之间的距离，加上摄像头的自动定焦功能，既可以调整摄像头的焦距使拍摄的图像清晰，又可以调节摄像头的拍摄范围从不同角度进行拍摄，使图书不被遮挡；当拍摄得到第二图像，则对第二图像进行ocr识别，将第二图像进行输入，预处理，文字特征抽取，比对识别等步骤，获得第二图像的文字和符号等信息，从而确定该图像的书名。

综上所述，本申请的播放音频信息的方法，通过可伸缩旋转的摄像头拍摄到较大视觉的范围内的图书图像，可以进行多图书识别，并辅助用户选定最终想要阅读的图书并播放该图书的音频信息。

参照图6，本申请提出一种播放音频信息的装置，包括：

拍摄模块1，用于控制摄像头拍摄当前视角范围内的第一区域，以获得第一图像；

判断模块2，用于判断所述第一图像内是否有图书；

获取模块3，用于若是，则获取每一本所述图书的书名，得到第一名单；

播放模块4，用于接收用户在所述第一名单中选择的目标书名，并播放所述目标书名对应的音频信息。

在该实施例中，所述摄像头一般具有视频摄影/传播和静态图像捕捉等基本功能，可以是安装在任何电子设备(如手机、计算机、平板电脑、相机等等)上的摄像头，也可以是基于本申请而专门设计的在机器人上安装的摄像头；图像是人对视觉感知的物质再现，可以由光学设备获取，如照相机、摄像头等；所述第一图像是指通过摄像头拍摄物体而得到的照片，可以是物体的正面照片，也可以是物体的侧面照片。拍摄模块1控制摄像头拍摄当前视角范围内的第一区域，以获得第一图像，指的是机器人进入图像检测模式后，拍摄模块1控制安装在机器人上的摄像头，摄像头是可伸缩旋转的，故调整摄像头的高度和角度，即将摄像头升高或者降低，也可以是向左转动或者向右转动，从而来使被拍摄物体在摄像头的拍摄范围内，当确定好摄像头与被拍摄物体之间的距离，拍摄模块1通过摄像头拍摄得到视角范围内的照片，所述照片即第一图像。

图书的形状一般是扁平状的长方体，其外封面上印刷有字体。机器人识别出第一图像中各物体的形状以及对应的是否有文字，判断模块2来判断第一图像中是否有图书。具体的实施方法有，机器人将第一图像输入到一个经训练后得到的图书识别模型中，然后输出第一图像中图书数量的结果。其中，图书识别模型是工作人员预先训练得到的，图书识别模型采用神经网络模型作为基础模型，工作人员采集多个包含有图书的图像，并对每一个图像标记有图书的数量，然后将所有的包含有图书的图像以及对应的数量输入到该神经网络模型中，以进行训练，训练结束后得到神经网络模型优化的系数，即可以识别图像中图书的数量的图书识别模型。

当机器人判定所述第一图像内有图书，可以理解的，所述第一图像内有图书，图书的数量可以是单独的一本，也可以是很多本；图书的位置可以是很多本平铺摆放，也可以是很多本重叠放置；当判定所述第一图像内有图书后，获取模块3则获取到图像中所有图书的书名，将获取到的所有书名汇总形成第一名单。

机器人将第一名单展示出来，以供用户选择，用户指的是使用该机器人的人，用户根据自己感兴趣的图书，在第一名单中挑选对应图书的书名，将该书名作为目标书名反馈给机器人，当机器人接收用户选择的目标书名，则从数据库中检索与所述目标书名对应的音频信息，所述音频信息可以是关于图书的讲解的语音文件，也可以是图书内容的录音数据，机器人的播放模块4启动对应的播放器播放用户选择的目标书名的录音数据。

在一具体实施例中，上述播放音频信息的装置还包括：

提示模块，用于若否，则发出语音信号，所述语音信号用于提示用户在所述当前视角范围内的第一区域内放置图书；

执行模块，用于经过预设时间长度后，执行所述拍摄模块1。

在该实施例中，若第一图像内没有图书，机器人的提示模块则发出语音信号，所述语音信号可以是人提前录制的，也可以是网络下载的，该语音信号存储在机器人的数据库中，当第一图像内没有图书便触发语音提示指令，通过语音信号来提示用户在所述当前视角范围内的第一区域内放置图书；语音信号提示完毕，用户需要时间来放置图书，因此需要设置一时间间隔，时间长度是预设的，可以是3秒，5秒，7秒等，执行模块经过预设时间长度后，执行步骤s1。优选的，本实施例中指定时间为3秒，当机器人发出语音信号提示结束后，等候3秒后，执行所述拍摄模块1。

在一具体实施例中，所述播放模块4包括：

发送单元，用于将所述第一名单发送至服务器，以让服务器检索与所述第一名单中的书名对应的音频信息；

接收单元，用于接收所述服务器返回的检索结果信息；

生成单元，用于根据所述检索结果信息，将所述第一名单中没有音频信息的书名删除，形成第二名单；

目标单元，用于将所述第二名单加载在显示屏上；

播放单元，用于接收用户在所述第二名单中选择的目标书名，播放所述目标书名对应的音频信息。

在该实施例中，发送单元将所述第一名单发送至服务器，发送所述第一名单的方式可以是通过无线模块连接宽带网络后进行发送，当发送端为手机、计算机、平板电脑和相机等等智能设备时，除了通过无线发送外，也可以通过有线移动网络发送；服务器的接收单元根据第一名单中的书名检索对应的音频信息，服务器可以在数据库中检索或者通过联网检索，服务器将检索结果信息反馈给机器人；机器人的生成单元将第一名单中没有音频信息的书名删除，得到第二名单，第二名单是具有与书名对应的音频信息的新名单，将新名单加载在显示屏上，可以以文字的形式，也可以语音播放形式，以供用户选择感兴趣的书名，机器人的目标单元接收用户选择的目标书名，调用所述目标书名对应的音频信息，播放单元启动内置播放器或者朗读器播放所述目标书名对应的音频信息。

在一具体实施例中，所述播放模块4还包括：

指令单元，用于接收到用户发送的要求重新获取书名的指令；

执行单元，用于调整摄像头的高度和/或角度，执行所述拍摄模块1。

在该实施例中，当加载在显示屏上的书名的第二名单，没有用户感兴趣的图书，用户希望重新拍摄以获取其他的图书的书名，机器人的指令单元接收到用户发送的要求重新获取书名的指令；接收到指令后开启摄像头，摄像头是可伸缩旋转的，可以调整摄像头的高度，可以调整摄像头的角度，也可以调整摄像头的高度和角度，执行单元控制摄像头调整高度和/或角度拍摄，指的是通过可伸缩旋转的摄像头，按设定的数值调整摄像头的高度，设定的数值可以是5厘米，8厘米，10厘米等等，使摄像头按设定的数值升高或者降低；也可以按设定的角度值调整摄像头的角度，设定的角度值可以10度，30度，45度等等，使摄像头向左旋转设定的角度值或者向右旋转设定的角度值，从而，调整后的摄像头可以拍摄到较大视觉的范围内的图书图像，获取到距离摄像头较远或者重叠的图书的书名，之后执行所述拍摄模块1。

在一具体实施例中，所述生成单元还包括：

判断子单元，用于判断获取所述第一名单的次数是否大于两次；

生成子单元，用于若是，则将最后一次获得的第一名单中没有音频信息的书名删除，并删除历史的第一名单中的书名，形成第二名单。

在该实施例中，获取所述第一名单的次数是大于两次，说明了摄像头拍摄了至少两次，每次拍摄都会获得对应的照片，即图像，每张图像又对应一份含有书名的名单。历史的第二名单指的是在第一次拍摄时获得的第一名单，该第一名单删除了没有音频信息的书名，形成第一次拍摄的第二名单，当第二次拍摄时获得另一份第一名单，同理删除了没有音频信息的书名形成到第二次拍摄的第二名单，此时第一次拍摄的第二名单即为历史的第一名单。具体情形举例子为：当在第一次拍摄的第一图像中图书的书名中，没有用户感兴趣的图书，用户希望重新拍摄以获取剩下的图书书名，此时控制摄像头调整高度和/或角度再次拍摄图像，获得第二次拍摄的第二图像中图书的书名，可能存在第二次拍摄的第二图像中的图书的书名与第一次拍摄的第一图像的书名有重复，需要去掉与第一次拍摄的第一图像中图书的书名的重复部分。生成子单元通过比较名单中的书名是否有重复，若没有重复，则汇总最后一次拍摄的图像名单中的书名，形成第二名单；若重复则去掉与第一次获取的重复书名，将生成的书名汇总得到新的名单，即为第二名单。

在一具体实施例中，所述获取模块3包括：

识别单元，用于对所诉第一图像进行ocr识别，获取所述第一图像中的文字和符号；

处理单元，用于根据所述文字和符号，确定每一本图书对应的书名，并通过汇总每一本图书对应的所述书名得到第一名单。

在该实施例中，ocr(英文全称为opticalcharacterrecognition，以下简称为ocr，光学字符识别，)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。识别单元对第一图像进行ocr识别，获取所述第一图像中的文字和符号指的是从第一图像到结果输出，经过第一图像的输入、第一图像的预处理、文字特征抽取、比对识别，最终获取文字信息，文字信息包括文字和符号。处理单元对所述文字和符号处理后，获取到的文字信息对应每一本图书的书名，汇总所述图书的书名，即得到第一名单。

在一具体实施例中，识别单元包括：

识别子单元，用于对所述第一图像进行ocr识别；

控制子单元，用于若未识别到文字和符号，则调整摄像头的高度和/或角度，并拍摄摄像头调整后的高度和/或角度对应的第二区域，以获得第二图像；

获取子单元，用于对所述第二图像进行ocr识别，获取所述第二图像中的文字和符号。

在该实施例中，识别子单元对所述第一图像进行ocr识别，如果未识别到文字和符号，即未获取到每一本所述图书的书名，可能是摄像头拍摄的图像模糊，或可能是图书封面被遮挡住，导致不能识别到图像的文字和符号，从而出现只能识别到部分书名或者识别不到书名的结果，控制子单元通过控制摄像头调整高度和/或角度，通过确定摄像头与被拍摄物之间的距离，加上摄像头的自动定焦功能，既可以调整摄像头的焦距使拍摄的图像清晰，又可以调节摄像头的拍摄范围从不同角度进行拍摄，使图书不被遮挡；当拍摄得到到第二图像，则对第二图像进行ocr识别，将第二图像进行输入，预处理，文字特征抽取，比对识别等步骤，获取子单元获得第二图像的文字和符号等信息，从而确定该图像的书名。

综上所述，本申请的播放音频信息的装置，通过拍摄模块1拍摄到较大视觉的范围内的图书图像，判读模块2判断图像内的图书，可以进行多图书识别，获取模块3辅助用户选定最终想要阅读的图书，并通过播放模块4播放该图书的音频信息。

参照图7，本申请还提出一种计算机设备50，其包括处理器51、存储器52及存储于所述存储器上并可在所述处理器上运行的计算机程序521，所述处理器51执行所述计算机程序时实现上述任一项所述的播放音频信息的方法。

参照图8，本申请还提出一种存储介质53，其上存储有计算机程序54，所述计算机程序54被执行时实现上述任一项所述的播放音频信息的方法。

在上述实施例中，计算机设备50可以是服务器，计算机设备50的处理器51用于提供计算和控制能力，计算机设备50的存储器52包括非易失性存储介质、内存储器。该非易失性存储介质存储有计算机程序521。该内存储器为非易失性存储介质中计算机程序521的运行提供环境。所述计算机程序521被所述处理器51执行时以实现一种播放音频信息。

所述存储介质53可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。所述计算机程序54包括一个或多个计算机指令。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中，或者从一个计算机存储介质向另一计算机存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。在计算机上加载和执行所述计算机指令时，实现一种播放音频信息。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏仁
技术所有人：深圳市沃特沃德股份有限公司
我是此专利的发明人

上一篇：一种高密度聚乙烯波纹管生产用原料干燥装置的制作方法
上一篇：自动穿综机用上综丝行程套件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。