电子书诵读方法、装置、计算机设备及存储介质与流程

文档序号：17472954发布日期：2019-04-20 05:56阅读：181来源：国知局

本发明实施例涉及音频播放领域，尤其是一种电子书诵读方法、装置、计算机设备及存储介质。

背景技术：

眼睛和耳朵是人类接触事物最直接的感官器官，其中，文字是以眼睛感官为接收媒介的信息记录和传播途径，而语言则是以耳朵的听觉为接收媒介的信息传播途径。相比于语言的发声文字因为更容易被记录被人们作为最直接的信息获取方式。但是，在一些应用场景中，人们需要将文字信息转换为语音进行阅读。

现有技术中，人们在使用电子书进行阅读时，能够选择将电子书中的文字信息转化为语音进行收听。其中，转换方式为将每个字对应的发音进行记录，进入转换模式后调用转换文本中文字对应的发音，并将单个字的发音按文字的排版顺序进行组合生成发音组合，然后播放该发音组合完成文字信息转化为语音信息的过程。

本发明创造的发明人在研究中发现，现有技术中文字信息转化为语音信息后，自始至终均是由一个音调和音色进行发音，转化后的语音信息发音方式千篇一律，无法表达文字所要表达的情感，长期播放会引起用户的不适，导致用户体验较差。

技术实现要素：

本发明实施例提供一种通过识别文字字段表达的情感，并根据文字字段的情感适配对应情感的音频文件对文字字段进行语音转换后进行诵读的电子书诵读方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种电子书诵读方法，包括：

获取待诵读的文字字段；

根据预设的转换方式将所述文字字段转换为数组矩阵，并将所述数组矩阵输入至预设的情感识别模型中，其中，所述情感识别模型为预先训练至收敛状态用于对数据所表征情感信息进行分析的神经网络模型；

读取所述情感识别模型输出的表征所述文字字段所表达的情感的分类信息；

在预设的音频数据库中查找与所述分类信息具有映射关系的语音库，并调用所述语音库中的音频数据对所述文字字段进行语音转换，其中，所述语音库中的音频数据所表达的情感与所述分类数据表征的情感信息相同或相似。

可选地，所述在预设的音频数据库中查找与所述分类信息具有映射关系的语音库，并调用所述语音库中的音频数据对所述文字字段进行语音转换之前，还包括：

获取表述所述文字字段的人物信息；

根据所述人物信息在预设的角色数据库查找与所述人物信息具有映射关系的角色设定信息，其中，所述角色设定信息中包括表述所述文字字段的人物的性别信息。

可选地，所述在预设的音频数据库中查找与所述分类信息具有映射关系的语音库，并调用所述语音库中的音频数据对所述文字字段进行语音转换包括：

在所述音频数据库中查找与所述分类信息和所述性别信息具有映射关系的语音库，并调用所述语音库中的音频数据对所述文字字段进行语音转换，其中，所述语音库中的音频数据的音调与所述性别信息表征的人物性别的音调相同。

可选地，所述在预设的音频数据库中查找与所述分类信息具有映射关系的语音库，并调用所述语音库中的音频数据对所述文字字段进行语音转换之后，还包括：

在预设的音乐数据库中查找与所述分类信息具有映射关系背景音乐，其中，所述背景音乐所表达的情感与所述分类数据表征的情感信息相同或相似；

在播放所述文字字段转换的语音数据时，播放所述背景音乐，其中，所述背景音乐的播放音量小于所述语音数据的播放音量。

获取目标用户的体表参数，其中，所述体表参数为检测人体的一项或者多项体表参数的参数数据；

将所述参数数据转化为参数矩阵，并将所述参数矩阵输入至预设的人体状态判断模型中，其中，所述人体状态判断模型为预先训练至收敛状态用于根据人体体表参数判断人体状态的神经网络模型；

读取所述人体状态判断模型输出的所述目标用户的状态分类数据；

根据所述状态分类数据调整所述文字字段转换的语音数据的播放状态，其中，所述播放状态包括播放音量和是否继续播放所述语音数据。

获取目标用户所处环境的环境音量参数；

在预设的音量数据列表中查找与所述环境音量参数具有映射关系的播放音量；

根据所述播放音量播放所述文字字段转换的语音数据。

可选地，所述在预设的音量数据列表中查找与所述环境音量参数具有映射关系的播放音量之前，还包括：

将所述环境音量参数与预设的音量阈值进行比对；

当所述环境音量参数大于所述音量阈值时，调用预设的提示信息进行显示；否则，则确认在所述音量数据列表中查找与所述环境音量参数具有映射关系的播放音量，其中，所述提示信息提示暂停播放所述语音数据。

为解决上述技术问题，本发明实施例还提供一种电子书诵读装置，包括：

获取模块，用于获取待诵读的文字字段；

处理模块，用于根据预设的转换方式将所述文字字段转换为数组矩阵，并将所述数组矩阵输入至预设的情感识别模型中，其中，所述情感识别模型为预先训练至收敛状态用于对数据所表征情感信息进行分析的神经网络模型；

读取模块，用于读取所述情感识别模型输出的表征所述文字字段所表达的情感的分类信息；

执行模块，用于在预设的音频数据库中查找与所述分类信息具有映射关系的语音库，并调用所述语音库中的音频数据对所述文字字段进行语音转换，其中，所述语音库中的音频数据所表达的情感与所述分类数据表征的情感信息相同或相似。

可选地，所述电子书诵读装置还包括：

第一获取子模块，用于获取表述所述文字字段的人物信息；

第一处理子模块，用于根据所述人物信息在预设的角色数据库查找与所述人物信息具有映射关系的角色设定信息，其中，所述角色设定信息中包括表述所述文字字段的人物的性别信息。

可选地，所述电子书诵读装置还包括：

第一处理子模块，用于在所述音频数据库中查找与所述分类信息和所述性别信息具有映射关系的语音库，并调用所述语音库中的音频数据对所述文字字段进行语音转换，其中，所述语音库中的音频数据的音调与所述性别信息表征的人物性别的音调相同。

可选地，所述电子书诵读装置还包括：

第二处理子模块，用于在预设的音乐数据库中查找与所述分类信息具有映射关系背景音乐，其中，所述背景音乐所表达的情感与所述分类数据表征的情感信息相同或相似；

第二执行子模块，用于在播放所述文字字段转换的语音数据时，播放所述背景音乐，其中，所述背景音乐的播放音量小于所述语音数据的播放音量。

可选地，所述电子书诵读装置还包括：

第二获取子模块，用于获取目标用户的体表参数，其中，所述体表参数为检测人体的一项或者多项体表参数的参数数据；

第三处理子模块，用于将所述参数数据转化为参数矩阵，并将所述参数矩阵输入至预设的人体状态判断模型中，其中，所述人体状态判断模型为预先训练至收敛状态用于根据人体体表参数判断人体状态的神经网络模型；

第一读取子模块，用于读取所述人体状态判断模型输出的所述目标用户的状态分类数据；

第三执行子模块，用于根据所述状态分类数据调整所述文字字段转换的语音数据的播放状态，其中，所述播放状态包括播放音量和是否继续播放所述语音数据。

可选地，所述电子书诵读装置还包括：

第三获取子模块，用于获取目标用户所处环境的环境音量参数；

第四处理子模块，用于在预设的音量数据列表中查找与所述环境音量参数具有映射关系的播放音量；

第四执行子模块，用于根据所述播放音量播放所述文字字段转换的语音数据。

可选地，所述电子书诵读装置还包括：

第一比对子模块，用于将所述环境音量参数与预设的音量阈值进行比对；

第五执行子模块，用于当所述环境音量参数大于所述音量阈值时，调用预设的提示信息进行显示；否则，则确认在所述音量数据列表中查找与所述环境音量参数具有映射关系的播放音量，其中，所述提示信息提示暂停播放所述语音数据。

为解决上述技术问题，本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述电子书诵读方法的步骤。

为解决上述技术问题，本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述电子书诵读方法的步骤。

本发明实施例的有益效果是：在进行电子书诵读之前，首先，将需要诵读的文字字段转化为数组矩阵，然后，通过训练至收敛状态用于对文字字段转化的数据矩阵进行情感分类的神经网络模型，对数组矩阵进行分类，得到该文字字段所表达的情感，最后，通过分类的到的情感在音频数据库中查找与该情感具有相同情感表达的语音库，调用该语音库中音频数据对文字字段进行音频转换，能够使文字字段转换的语音具有情感表达，即能够有感情的对电子书的内容进行诵读。因此，能够在语音播放电子书时，使电子书的诵读与文字表达情感相同，能够真正的模拟真人诵读的声音和情感，情感表达丰富引人入胜，提高用户收听体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例电子书诵读方法的基本流程示意图；

图2为本发明实施例确认表述文字字段的角色的性别信息的方法流程图；

图3为本发明实施例根据文字字段表达的情感添加背景音乐的流程示意图；

图4为本发明实施例根据用户身体状态调节电子书诵读状态的流程示意图；

图5为本发明实施例通过外界音量参数调整播放音量的流程示意图；

图6为本发明实施例根据环境音量参数控制电子书暂停诵读的流程示意图；

图7为本发明实施例电子书诵读装置基本结构示意图；

图8为本发明实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；pcs(personalcommunicationsservice，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；pda(personaldigitalassistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(globalpositioningsystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是pda、mid(mobileinternetdevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

具体请参阅图1，图1为本实施例电子书诵读方法的基本流程示意图。

如图1所示，一种电子书诵读方法，包括：

s1100、获取待诵读的文字字段；

终端在接收到用户通过语音播放电子书内容的指令时，读取当前显示区域内的显示文字字段，或者显示区域内第一段的文字字段。本实施方式中，文字字段的内容不局限于此，文字字段能够是用户指定的任意长度的文章或者单独的一句话。

s1200、根据预设的转换方式将所述文字字段转换为数组矩阵，并将所述数组矩阵输入至预设的情感识别模型中，其中，所述情感识别模型为预先训练至收敛状态用于对数据所表征情感信息进行分析的神经网络模型；

在读取了文字字段后，将文字字段通过matlab软件应用软件转换为数组矩阵。其中，构成文字字段的每一个字或者单词，均被映射替换为数组矩阵的一个元素，且元素的排列次序与文字字段的排列次序一致。

将转换后得到的数组矩阵入至预设的情感识别模型中。其中，情感识别模型为预先训练至收敛状态用于对数据所表征情感信息进行分析的神经网络模型。情感识别模型能够为已经训练至收敛状态的卷积神经网络模型(cnn)，但是，不局限于此，情感识别模型还能够是：深度神经网络模型(dnn)、循环神经网络模型(rnn)或者上述三种网络模型的变形模型。

作为情感识别模型的初始神经网络模型在训练时，通过收集大量的文本文档转换后的数组矩阵作为训练样本，通过人工在阅读了训练样本的原文本文档后对各个训练样本进行标定(标定是指训练样本真实表达的情感)。然后将训练样本输入到初始的神经网络模型中，并获取模型输出的分类结果(分类结果为模型得到的训练样本的情感分类)，并通过神经网络模型的损失函数计算该分类结果与标定结果之间的距离(例如：欧氏距离、马氏距离或余弦距离等)，将计算结果与设定的距离阈值进行比对，若计算结果小于等于距离阈值则通过验证，继续进行下一个训练样本的训练，若计算结果大于距离阈值则则通过损失函数计算二者之间的差值，并通过反向传播校正神经网络模型内的权值，使神经网络模型能够提高训练样本中能够准确表达文本情感的词语对应的元素的权重，以此，增大判断的准确率。通过循环执行上述方案和大量的训练样本训练后，训练得到的神经网络模型对

数组矩阵表征的情感判断准确率大于一定数值的，例如，97％，则该神经网络模型训练至收敛状态，则该训练至收敛的神经网络即为情感识别模型。

训练至收敛状态的情感识别模型能够准确的提取数组矩阵表征的情感。

s1300、读取所述情感识别模型输出的表征所述文字字段所表达的情感的分类信息；

将文字字段转换的数组矩阵输入至情感识别模型中，由于情感识别模型预先训练至收敛状态，因此，能够准确的输出数组矩阵表征的文字字段所表达的情感信息，该情感信息即情感识别模型的分类信息。将情感识别模型的分类层分为：悲伤、忧伤、痛苦、喜悦、愤怒和羞涩等情绪类别，情感识别模型通过对数组矩阵中表达情感的特征词语或者语句进行提取，并计算特征词语或者语句与上述分类类别之间的置信度，并确定置信度最高情绪类别为该数组矩阵最终的分类信息。

s1400、在预设的音频数据库中查找与所述分类信息具有映射关系的语音库，并调用所述语音库中的音频数据对所述文字字段进行语音转换，其中，所述语音库中的音频数据所表达的情感与所述分类数据表征的情感信息相同或相似。

在得到文字字段所表达的情感分类信息后，在预设的音频数据库中查找与分类信息表征的情感具有映射关系的语音库。其中，语音库为收集播音员或者配音员在某个情绪环境下的常用汉字发音、词语或常用语的发音。例如，使播音员在喜悦的情绪中对常用汉语的每一个字进行诵读，然后，进行录音生成音频数据，则该表征喜悦的语音库为常用汉语发音的音频数据的集合，相同的原理能够对每个情绪对应的设置一个语音库。但是，语音库中的内容不局限于此，在一些实施方式中，语音库能够收集某一种情绪的全汉语发音的音频数据，或者其他语言语种在某种情绪下的所有单词的发音的音频数据。

在获取文字字段后，根据文字字段中汉字的排列次序，然后，在该文字字段对应的语音库中提取每个汉字的音频数据，以该文字字段中汉字的排列次序对音频数据进行排序，组成该文字字段的转换后的语音信息，最后播放该语音信息完成文字字段的诵读。

在一些实施方式中，对于部分情感表达未建立对应的语音库时，能够通过与该情感类似的情感的语音库对文字字段进行展示，例如建立了表达悲伤的语音库后，识别文字字段表达的情感为痛苦时，未建立表达痛苦的语音库时，能够通过表达悲伤的语音库进行近似转换。

上述实施方式在进行电子书诵读之前，首先，将需要诵读的文字字段转化为数组矩阵，然后，通过训练至收敛状态用于对文字字段转化的数据矩阵进行情感分类的神经网络模型，对数组矩阵进行分类，得到该文字字段所表达的情感，最后，通过分类的到的情感在音频数据库中查找与该情感具有相同情感表达的语音库，调用该语音库中音频数据对文字字段进行音频转换，能够使文字字段转换的语音具有情感表达，即能够有感情的对电子书的内容进行诵读。因此，能够在语音播放电子书时，使电子书的诵读与文字表达情感相同，能够真正的模拟真人诵读的声音和情感，情感表达丰富引人入胜，提高用户收听体验。

在一些实施方式中，除了针对于文字字段的情感进行对应情感语言进行诵读外，电子书中对于角色的性别设计对于电子书的诵读同样具有极大的影响，角色设定为男性时，通过女性的语音库对电子书进行诵读，难以体现角色的语感，导致试听效果差，用户体验不好的问题。因此，在进行诵读之前需要先确定表述文字字段的角色的性别信息，请参阅图2，图2为本实施例确认表述文字字段的角色的性别信息的方法流程图。

如图2所示，s1400之前还包括：

s1311、获取表述所述文字字段的人物信息；

获取文字字段后，通过该文字字段电子书中的撰写结构识别表述文字字段的人物。当文字字段撰写结构为第一人称撰写时，则该文字字段的表述者为电子书的主角。若文字字段的撰写结构为第三人称撰写时，在表述之前会在文字中说明该文字字段是由那个角色进行表述的，通过提取表述人姓名的方式得到人物信息。其中，人物信息是指在电子书中，人物角色的名称或者代号等。本实施方式中，电子书即指任何风格的文学和学术类作品。

s1312、根据所述人物信息在预设的角色数据库查找与所述人物信息具有映射关系的角色设定信息，其中，所述角色设定信息中包括表述所述文字字段的人物的性别信息。

根据得到的人物信息在预设的角色数据库中查找与任务信息具有映射关系的角色设定信息。本实施方式中，每一本电子书在入库之前，需要收集电子书中所有角色的角色设定信息，即表述角色任务的性别信息，收集完成后该电子书方能够成功入库。但是角色设定信息不局限角色性别，根据具体应用场景的不同，在一些实施方式中，角色设定信息还包括：角色年龄、性格和精神状态等信息。通过建立与上述信息匹配的语音库，就能够通过上述信息对角色的声音进行更加逼真的模拟，使其更加接近于真人诵读。

在一些实施方式中，建立更加细分化的语音库，对于相同情感表达加以性别进行区分，例如，同样为表达悲伤的语音库，细分为男声版和女神版两种，以使诵读时更具角色的性别进行对应性的调用。

具体地，s1400还包括：

s1411、在所述音频数据库中查找与所述分类信息和所述性别信息具有映射关系的语音库，并调用所述语音库中的音频数据对所述文字字段进行语音转换，其中，所述语音库中的音频数据的音调与所述性别信息表征的人物性别的音调相同。

在得到文字字段所表达的情感分类信息和表述文字字段的角色的性别后，在预设的音频数据库中查找与分类信息表征的情感和性别信息具有映射关系的语音库。由于，本实施方式中语音库即携带有情感属性，即每个语音库表达一种情感，同时，语音库也携带有性别属性，即表达同一种情感的语音库被细分为两种性别的语音库。因此，通过情感分类信息和表述文字字段的角色的性别能够确定唯一的一个语音库，能够满足表达上述情感和性别信息的诵读需求。

在一些实施方式中，电子书诵读时仅仅对文字字段进行诵读，难以烘托出文章描述的环境状态，无法给听众带来引人入胜听书感受。请参阅图3，图3为本实施例根据文字字段表达的情感添加背景音乐的流程示意图。

如图3所示，s1400之后，还包括：

s1421、在预设的音乐数据库中查找与所述分类信息具有映射关系背景音乐，其中，所述背景音乐所表达的情感与所述分类数据表征的情感信息相同或相似；

本实施方式中，设置音乐数据库，音乐数据库中收录有若干背景音乐，每一首背景音乐在收录之前均根据其音乐内容表达的情感，对背景音乐进行标签设置，即在音乐数据库中的背景音乐均具有至少一个表达其音乐内容情感的情感标签。

在得到文字字段表达的情感后，以该情感为限定条件在音乐数据库中进行检索，查找与分类信息具有映射关系背景音乐。

在一些实施方式中，对于部分情感表达未收录对应的背景音乐时，能够通过与该情感类似的情感的背景音乐进行替代，例如建立了表达欢庆的语音库后，识别文字字段表达的情感为喜悦时，未收录表达喜悦的背景音乐时，能够通过表达欢庆的背景音乐进行表达。

s1422、在播放所述文字字段转换的语音数据时，播放所述背景音乐，其中，所述背景音乐的播放音量小于所述语音数据的播放音量。

在获取了与文字字段具有相同或相似情感表达的背景音乐后，在对文字字段转换的语音数据进行进行播放的同时，对背景音乐也进行播放。为不影响用户收听文字字段的内容，在播放背景音乐时，将背景音乐的播放音量小于语音数据的播放音量，以使用户在收听语音数据时，背景音乐的音量不影响用户清晰地听取文字字段所表述的内容。

通过在播放文字字段的语音数据时，播放与文字字段具有相同或相似情感表达的背景音乐，能够听众身临其境感受文字字段所描述的环境状态，引人入胜，提高用户体验。

在一些实施方式中，通过可穿戴设备获取用户的体表参数，检测用户的身体状态，并通过身体状态情况确定是否调整电子书的诵读状态，以此，实现了根据用户身体状态调节电子书诵读状态的目的。请参阅图4，图4为本实施例根据用户身体状态调节电子书诵读状态的流程示意图。

如图4所示，s1400之后包括：

s1431、获取目标用户的体表参数，其中，所述体表参数为检测人体的一项或者多项体表参数的参数数据；

通过用户的可穿戴设备采集用户的体表参数，用户的体表参数能够是脑电、心电、眼电、肌电、呼吸、运动、鼾声、脉搏、脉搏波或呼吸频率等参数数据。

本实施方式中，体表参数为一组连续采集的参数数据，例如，连续采集用户的呼吸频率。

s1432、将所述参数数据转化为参数矩阵，并将所述参数矩阵输入至预设的人体状态判断模型中，其中，所述人体状态判断模型为预先训练至收敛状态用于根据人体体表参数判断人体状态的神经网络模型；

在读取了体表参数后，将体表参数通过matlab软件应用软件转换为数组矩阵。其中，采集的每一组体表参数均为数组矩阵的一个元素，且元素的排列次序与体表参数的采集次序一致。

将转换后得到的数组矩阵入至预设的人体状态判断模型中。其中，人体状态判断模型为预先训练至收敛状态用于根据体表参数对人体状态进行分析的神经网络模型。人体状态判断模型能够为已经训练至收敛状态的卷积神经网络模型(cnn)，但是，不局限于此，人体状态判断模型还能够是：深度神经网络模型(dnn)、循环神经网络模型(rnn)或者上述三种网络模型的变形模型。

举例说明，以训练神经网络模型通过学习人体的脉搏跳动频率，识别用户是否处于睡眠状态为例，对人体状态判断模型的训练过程加以说明。

作为人体状态判断模型的初始神经网络模型在训练时，通过收集大量的人体脉搏跳动的参数数据，并在收集时记录在该脉搏情况下人体处于何种状态，并将收集的脉搏参数数据转化的参数矩阵作为训练样本，通过人工在观察了训练样本的对应的人体状态后对各个训练样本进行标定(标定是指训练样本真实表达的人体状态，即是否处于睡眠状态)。然后将训练样本输入到初始的神经网络模型中，并获取模型输出的分类结果(分类结果为模型得到的训练样本的状态分类，即模型判断得到训练样本表达的人体是否处于睡眠状态)，并通过神经网络模型的损失函数计算该分类结果与标定结果之间的距离(例如：欧氏距离、马氏距离或余弦距离等)，将计算结果与设定的距离阈值进行比对，若计算结果小于等于距离阈值则通过验证，继续进行下一个训练样本的训练，若计算结果大于距离阈值则则通过损失函数计算二者之间的差值，并通过反向传播校正神经网络模型内的权值，使神经网络模型能够提高训练样本中能够准确表达用户状态的脉搏频率的元素的权重，以此，增大判断的准确率。通过循环执行上述方案和大量的训练样本训练后，训练得到的神经网络模型对参数矩阵表征的人体状态判断准确率大于一定数值的，例如，95％，则该神经网络模型训练至收敛状态，则该训练至收敛的神经网络即为人体状态判断模型。

训练至收敛状态的人体状态判断模型能够准确的判断参数矩阵表征的人体是否处于睡眠状态。

但是人体状态判断模型不仅仅能够被训练用于判断人体的睡眠状态，也能够使用同样的训练方式训练人体状态判断模型，判断人体的运动状态、人体是否处于静谧状态或人体是否处于病危状态，而使用的训练参数数据也不局限于脉搏频率，而能够是采用(不限于)脑电、心电、眼电、肌电、呼吸、运动、鼾声或呼吸频率等参数数据进行训练和判断。

s1433、读取所述人体状态判断模型输出的所述目标用户的状态分类数据；

将人体状态判断模型的分类层分为：清醒、睡眠、运动、静谧、兴奋和萎靡等人体状态，人体状态判断模型通过对参数矩阵中表达人体状态的特征数据进行提取，并计算特征数据与上述分类类别之间的置信度，并确定置信度最高状态类别为该参数矩阵最终的分类数据。

将文字字段转换的参数矩阵输入至人体状态判断模型中，由于人体状态判断模型预先训练至收敛状态，因此，能够准确的输出参数矩阵表征的文字字段所表达的情感信息。

s1434、根据所述状态分类数据调整所述文字字段转换的语音数据的播放状态，其中，所述播放状态包括播放音量和是否继续播放所述语音数据。

根据分类数据中表征的人体状态对应的调整语音数据的播放状态，例如，当人体处于睡眠状态时，暂停播放语音数据；当人体处于运动状态时，增大播放音量；当人体处于静谧状态时，减小播放音量；人体处于兴奋状态时，增大播放音量；当人体处于萎靡状态时，减小播放音量。

通过采集用户体表参数，识别人体状态后，根据人体状态对播放状态进行调整，使电子书的诵读与人体状态保持一致，能够提高人体对电子书诵读的接受度，提高用户体验。

在一些实施方式中，电子书在诵读时，外界环境的声音环境对于用户收听影响较大，因此，需要根据外界环境的声音参数对电子书的播放音量进行调节。请参阅图5，图5为本实施例通过外界音量参数调整播放音量的流程示意图。

如图5所示，s1400之后还包括：

s1441、获取目标用户所处环境的环境音量参数；

通过设置在终端上或者与终端之间具有通讯连接的声音传感器收集目标用户所处环境的环境音量参数。环境音量参数以常规音量单位分贝作为单位。

s1442、在预设的音量数据列表中查找与所述环境音量参数具有映射关系的播放音量；

电子书诵读的音量与环境音量参数的数值成正比关系，根据这种正比特征，建立音量数据列表。音量数据表中记录每个环境音量参数区间所对应的播放音量。因此，在得到环境音量参数后，在音量数据列表中查找与环境音量参数具有映射关系的播放音量。

s1443、根据所述播放音量播放所述文字字段转换的语音数据。

在得到与环境音量参数具有映射关系的播放音量后，将电子书诵读的音量调整至该播放音量。

通过采集环境中的环境音量参数调整语音数据的播放音量，能够保证在环境音量变化时，实时的调整播放音量，使用户能够清楚的听清语音数据，提高收听的效率。

在一些实施方式中，当环境音量参数表征的环境音量大于一定的数值后，继续增大播放音量会损坏用户的听觉，此时，需要暂停语音数据的播放，以保护用户的健康。请参阅图6，图6为本实施例根据环境音量参数控制电子书暂停诵读的流程示意图。

如图6所示，s1442之前还包括：

s1451、将所述环境音量参数与预设的音量阈值进行比对；

将获取的环境音量参数与预设的音量阈值进行比对，其中，音量阈值为设定的电子书诵读最大的环境音量，即在该外界音量环境下，电子书诵读音量不在提高，且停止诵读。音量阈值的设定能够根据人体平均承受能力进行设定，例如，100分贝。但是，音量阈值的设定不局限于此，在一些实施例中，音量阈值的设定能够是用户自定义设置的数值。

s1452、当所述环境音量参数大于所述音量阈值时，调用预设的提示信息进行显示；否则，则确认在所述音量数据列表中查找与所述环境音量参数具有映射关系的播放音量，其中，所述提示信息提示暂停播放所述语音数据。

根据比较结果当环境音量参数大于音量阈值时，调用预设的提示信息进行显示；否则，则确认在音量数据列表中查找与环境音量参数具有映射关系的播放音量，其中，提示信息提示暂停播放语音数据。本实施方式中的预设的提示信息内容是提示暂停播放语音数据，例如：尊敬的xxx用户，当前环境音量数值超过xx分贝，为保护您的健康，需要暂停诵读电子书的内容。

当环境音量大于一定数值时，停止播放诵读，不对人体耳膜施加出环境声音之外的其他的声音，有助于保护人体健康。

为解决上述技术问题，本发明实施例还提供一种电子书诵读装置。

具体请参阅图7，图7为本实施例电子书诵读装置基本结构示意图。

如图7所示，一种电子书诵读装置，包括：获取模块2100、处理模块2200、读取模块2300和执行模块2400。其中，获取模块2100用于获取待诵读的文字字段；处理模块2200用于根据预设的转换方式将文字字段转换为数组矩阵，并将数组矩阵输入至预设的情感识别模型中，其中，情感识别模型为预先训练至收敛状态用于对数据所表征情感信息进行分析的神经网络模型；读取模块2300用于读取情感识别模型输出的表征文字字段所表达的情感的分类信息；执行模块2400用于在预设的音频数据库中查找与分类信息具有映射关系的语音库，并调用语音库中的音频数据对文字字段进行语音转换，其中，语音库中的音频数据所表达的情感与分类数据表征的情感信息相同或相似。

电子书诵读装置在进行电子书诵读之前，首先，将需要诵读的文字字段转化为数组矩阵，然后，通过训练至收敛状态用于对文字字段转化的数据矩阵进行情感分类的神经网络模型，对数组矩阵进行分类，得到该文字字段所表达的情感，最后，通过分类的到的情感在音频数据库中查找与该情感具有相同情感表达的语音库，调用该语音库中音频数据对文字字段进行音频转换，能够使文字字段转换的语音具有情感表达，即能够有感情的对电子书的内容进行诵读。因此，能够在语音播放电子书时，使电子书的诵读与文字表达情感相同，能够真正的模拟真人诵读的声音和情感，情感表达丰富引人入胜，提高用户收听体验。

在一些实施方式中，电子书诵读装置还包括：第一获取子模块和第一处理子模块。其中，第一获取子模块用于获取表述文字字段的人物信息；第一处理子模块用于根据人物信息在预设的角色数据库查找与人物信息具有映射关系的角色设定信息，其中，角色设定信息中包括表述文字字段的人物的性别信息。

在一些实施方式中，电子书诵读装置还包括：第一处理子模块，用于在音频数据库中查找与分类信息和性别信息具有映射关系的语音库，并调用语音库中的音频数据对文字字段进行语音转换，其中，语音库中的音频数据的音调与性别信息表征的人物性别的音调相同。

在一些实施方式中，电子书诵读装置还包括：第二处理子模块和第二执行子模块。其中，第二处理子模块用于在预设的音乐数据库中查找与分类信息具有映射关系背景音乐，其中，背景音乐所表达的情感与分类数据表征的情感信息相同或相似；第二执行子模块用于在播放文字字段转换的语音数据时，播放背景音乐，其中，背景音乐的播放音量小于语音数据的播放音量。

在一些实施方式中，电子书诵读装置还包括：第二获取子模块、第三处理子模块、第一读取子模块和第三执行子模块。其中，第二获取子模块用于获取目标用户的体表参数，其中，体表参数为检测人体的一项或者多项体表参数的参数数据；第三处理子模块用于将参数数据转化为参数矩阵，并将参数矩阵输入至预设的人体状态判断模型中，其中，人体状态判断模型为预先训练至收敛状态用于根据人体体表参数判断人体状态的神经网络模型；第一读取子模块用于读取人体状态判断模型输出的目标用户的状态分类数据；第三执行子模块用于根据状态分类数据调整文字字段转换的语音数据的播放状态，其中，播放状态包括播放音量和是否继续播放语音数据。

在一些实施方式中，电子书诵读装置还包括：第三获取子模块、第四处理子模块和第四执行子模块。其中，第三获取子模块用于获取目标用户所处环境的环境音量参数；第四处理子模块用于在预设的音量数据列表中查找与环境音量参数具有映射关系的播放音量；第四执行子模块用于根据播放音量播放文字字段转换的语音数据。

在一些实施方式中，电子书诵读装置还包括：第一比对子模块和第五执行子模块。其中，第一比对子模块用于将环境音量参数与预设的音量阈值进行比对；第五执行子模块用于当环境音量参数大于音量阈值时，调用预设的提示信息进行显示；否则，则确认在音量数据列表中查找与环境音量参数具有映射关系的播放音量，其中，提示信息提示暂停播放语音数据。

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

如图8所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种电子书诵读方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种电子书诵读方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中获取模块2100、处理模块2200、读取模块2300和执行模块2400的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有人脸图像关键点检测装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备在进行电子书诵读之前，首先，将需要诵读的文字字段转化为数组矩阵，然后，通过训练至收敛状态用于对文字字段转化的数据矩阵进行情感分类的神经网络模型，对数组矩阵进行分类，得到该文字字段所表达的情感，最后，通过分类的到的情感在音频数据库中查找与该情感具有相同情感表达的语音库，调用该语音库中音频数据对文字字段进行音频转换，能够使文字字段转换的语音具有情感表达，即能够有感情的对电子书的内容进行诵读。因此，能够在语音播放电子书时，使电子书的诵读与文字表达情感相同，能够真正的模拟真人诵读的声音和情感，情感表达丰富引人入胜，提高用户收听体验。

本发明还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例电子书诵读方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)等非易失性存储介质，或随机存储记忆体(randomaccessmemory，ram)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张誉怀
技术所有人：深圳壹账通智能科技有限公司
我是此专利的发明人

上一篇：新型纤维混凝土抗爆冲击墙板的制作方法
上一篇：一种二维孔型墙体砖及其生产工艺的制作方法