自动翻页方法及装置与流程

文档序号：12820188阅读：486来源：国知局

本发明涉及电子终端语音控制技术领域，尤其涉及一种带有自定义语音命令的电子终端自动翻页控制方法及装置。

背景技术：

现在社会，由于智能化电子产品的存储和携带的便捷性，很多人逐渐放弃使用过去的纸质版的书籍阅读，改为使用功能强大、方便易携的电子书阅读，包括kindle等电纸书、苹果和安卓智能手机，平板电脑等。

随着智能终端技术的快速发展，用户对终端的控制方式越来越多，最初用户可以通过键盘来进行控制终端，后来触屏技术的出现，用户可以使用手指在终端的屏幕上来进行操控。例如，当用户阅读电子书时，用户可以通过手指在电子屏幕上滑动，然后智能终端确定出手指滑动的轨迹，根据滑动的轨迹获取电子书操作控制指令，电子书根据获取的控制指令执行对应的翻页操作，如此用户实现利用触屏技术来控制电子书的翻页操作。

然而，很多人阅读的时间往往是晚上，尤其是睡觉前。现有的触屏技术需要用户使用手指在终端的屏幕上来实现电子书操作控制，控制电子书还不够便捷，控制效率低下。当人们躺在床上时，往往懒得去用手一页一页的去滑动电子书的屏幕，而且在滑动时还会导致屏幕所连支架的晃动，影响读书效率。这一大问题对广大的电子书阅读者产生了巨大的不便，而且在目前并未得到很好的解决。

技术实现要素：

为了解决上述技术问题，使人们在阅读电子书或纸质书的时候获得便利，现有技术中也提出了一些具有语音控制翻页功能的装置。通常这些装置可以提供固定的一些词控制装置进行翻页。然而语音识别技术的一些缺陷被忽视了，即语音识别的识别能力是有限的，对于一个词条，比如“上一页”和“下一页”两个命令词，它们可能有些人可以很好的被识别，而部分人可能永远无法被识别到这两个词，因此，为用户提供可以自定义控制词条的装置是十分必要的。即用户可以尝试设置不同的控制命令，再选取对自己的声音识别效果最好的词作为控制命令。

基于更好的解决方案，本发明的目的是带有自定义语音命令的电子终端自动翻页控制方法及装置。

本发明提供的一种自动翻页方法，包括以下步骤：

步骤101、获取用户输入的语音；

步骤102、对获取的语音进行语音活动检测，判断是否有语音信号；

步骤103、逐帧提取语音信号的声学特征；

步骤104、通过语音孤立词检测技术对语音信号的声学特征解码，得到语音样本；

步骤105、对所述语音样本进行语义识别，得到语音命令的内容；

步骤106、通过所述语音命令对翻页装置进行反馈控制，驱动执行系统对电子书或纸质书翻页。

优选的，步骤104中，对语音信号的声学特征的解码包括前置步骤：

1041、用户自定义语音控制命令词；

1042、将命令词的文本集转换为语音识别网络解码资源；

其中，所述步骤1041中，用户可以根据自己的习惯设定所述控制命令词。

本发明还提供了一种自动翻页装置，包括语音识别控制系统和执行系统，

所述语音识别控制系统包括：

语音检测唤醒模块11，用于获取用户输入的语音，并发出驱动信号驱动执行系统进行翻页操作；

自定义唤醒词模块12，用于将用户自定义的唤醒关键词由文本数据转换成相应的资源文件；以及唤醒词资源包13，包括唤醒关键词检测模块所需的声学模型资源和由自定义唤醒关键词模块12生成的解码网络资源。

优选的，所述语音检测唤醒模块11包括录音模块111、语音端点检测模块112、前端处理模块113、语音唤醒关键词检测114和反馈控制模块115；所述录音模块111通过调用智能终端的相关api接口获取录音数据；所述语音检测模块112通过基于子带谱熵的方法实时检测录音数据中是否包含语音，并将语音信号提取出来；所述前端处理模块113用来对语音信号进行分析，并提取语音特征向量；所述唤醒关键词检测模块114用于将前端处理模块113中提取的语音特征向量进行解码，检测是否包含唤醒关键词；所述反馈控制模块115用来根据识别结果判断是否发出驱动信号。

优选的，所述执行系统包括驱动机构和机械臂，所述驱动机构根据所述语音识别控制系统的反馈控制模块115所发出的驱动信号来驱动机械臂进行翻页操作。

优选的，所述机械臂的端部设置有电容笔头5。

优选的，所述驱动机构为舵机，所述机械臂为金属可定型软管4。

优选的，初始时用户手动将金属可定型软管4弯曲调整使电容笔头5距离电子书屏幕的翻页区域1cm处，这时两个舵机均处于初始的角度x度；当需要向上翻页时，用户发出“上一页”的语音命令，语音识别控制系统发出合适的pwm信号来控制左舵机304立即旋转至y度，使与左舵机304连接的金属可定型软管4转化成前伸动作从而使电容笔头5点击到屏幕的向上翻页区域，停留200毫秒后，语音识别控制系统再行发出合适的pwm信号来控制左舵机304立即旋转回到x度，同样通过连接的金属可定型软管4转化成后缩动作使电容笔头5离开屏幕的向上翻页区域回到初始状态；当需要向下翻页时，用户发出“下一页”的语音命令，语音识别控制系统发出合适的pwm信号来控制右舵机305立即旋转至y度，使与左舵机304连接的金属可定型软管4转化成前伸动作从而使电容笔头5点击到屏幕的向下翻页区域，停留200毫秒后，语音识别控制系统再行发出合适的pwm信号来控制右舵机305立即旋转回到x度，同样通过连接的金属可定型软管4转化成后缩动作使电容笔头5离开屏幕的向下翻页区域回到初始状态。

与现有技术中的基于语音控制的翻页装置相比，本发明的优点包括：

（1）用户通过非接触的方法，通过语音控制机械臂，是非常友好的交互方式；

（2）用户可以自定义的语音控制命令，用户可以根据自己的习惯设定语音控制命令，方便、自然的通过语音控制机械臂翻页；

（3）通过收集一个覆盖多地口音或不同音调的语料库，利用该语料库训练声学模型；再利用用户提供的命令词生成相应的解码资源。

附图说明

图1是本发明实施例提供的一种自动翻页方法的流程图；

图2是本发明实施例提供的一种自动翻页装置的语音识别控制系统示意图；

图3是本发明实施例提供的一种电子书自动翻页装置的结构示意图；

图4是本发明实施例提供的一种电子书自动翻页装置的控制盒的结构示意图；

附图标记说明：

1—语音识别控制系统，11—语音检测唤醒模块，12—自定义唤醒词模块，13—唤醒词资源包，111—录音模块，112—语音端点检测模块，113—前端处理模块，114—语音唤醒关键词检测模块，115—反馈控制模块，2—支架，3—翻页操控盒，301—硬件外壳，302—电路底板，303—语音识别控制单元，304—左舵机，305—右舵机，306—充电usb接口，307—充电电池，4—金属可定型软管，5—电容笔头，6—麦克风，7—手机，8—电子屏翻页键。

具体实施方式

下面结合附图详细描述本发明的示例性实施方式。

如图1所示是本发明实施例提供的一种自动翻页方法的流程图，该自动翻页方法，包括以下步骤：

步骤101、获取用户输入的语音；

步骤102、对获取的语音进行语音活动检测，判断是否有语音信号；

步骤103、逐帧提取语音信号的声学特征；

步骤104、通过语音孤立词检测技术对语音信号的声学特征解码，得到语音样本；

步骤105、对所述语音样本进行语义识别，得到语音命令的内容；

步骤106、通过所述语音命令对翻页装置进行反馈控制，驱动执行系统对电子书或纸质书翻页。

步骤104中，对语音信号的声学特征的解码包括前置步骤：

1041、用户自定义语音控制命令词；

1042、将命令词的文本集转换为语音识别网络解码资源；

其中，所述步骤1041中，用户可以根据自己的习惯设定所述控制命令词。

即用户可在指令库中预置多种控制命令词；当阅读时，输入语音，例如“上一页”、“下一页”，根据采集到的用户输入的语音指令信息，对语音指令信息进行解析，解析为相应的语音字符；再将解析的语音字符传递给执行系统。

所述对所述语音样本进行语义识别，确定出对应的语音命令，包括：将所述语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点进行匹配；确定出匹配率最高且达到规定匹配率的语音命令，或者将达到规定匹配率的语音命令显示，以便用户选择所需语音命令或重新输入。

由于语音识别技术本身存在固有的缺陷，训练语料不可能覆盖到所有的人，因此可能会存在语音识别器对某些用户的语音永远无法正确的识别。因此在本发明中，用户可以通过尝试定义不同的命令词，找到最适合自己的命令词。

在另一实施例中，还提供了一种自动翻页装置，包括语音识别控制系统1和执行系统，

所述语音识别控制系统1包括：

语音检测唤醒模块11，用于获取用户输入的语音，并发出驱动信号驱动执行系统进行翻页操作；

如图2所示是所述语音识别控制系统1的示意图，由图可知，语音检测唤醒模块11包括录音模块111、语音端点检测模块112、前端处理模块113、语音唤醒关键词检测114和反馈控制模块115。

进一步的，所述录音模块111通过调用智能终端的相关api接口获取录音数据；所述语音检测模块112通过基于子带谱熵的方法实时检测录音数据中是否包含语音，并将语音信号提取出来；所述前端处理模块113用来对语音信号进行分析，并提取语音特征向量；所述唤醒关键词检测模块114用于将前端处理模块113中提取的语音特征向量进行解码，检测是否包含唤醒关键词；所述反馈控制模块115用来根据识别结果判断是否发出驱动信号。

具体地，所述语音端点检测模块112用于对录音进行分析，检测是否包含语音。首先，采用25毫秒的窗口及10毫秒的帧移将录音信号进行分帧；接着，对每帧信号进行傅里叶变换，并将频率谱分成若干个子带，分别计算谱熵；最后根据子带谱熵，判断时候是语音的开始或结束。

语音前端处理模块113用于提取语音信号的声学特征。采用每25毫秒提取一次梅尔频率倒谱系数mfcc，帧移为10毫秒，并将提取的声学特征传给语音唤醒关键词检测模块114通过维特比解码算法进行解码，并使用上下文相关的三音子声学模型。

自定义唤醒词模块12用于将用户自定义的唤醒关键词由文本数据转换成相应的资源文件。用户只需要将自定义的唤醒关键词以汉字的形式写入到关键词表中，该模块自动将文本转换成关键词唤醒模块所需的解码网络资源。

唤醒关键词资源13包括唤醒关键词检测模块所需的声学模型资源和由自定义唤醒关键词模块12生成的解码网络资源。

在本实施例中，所述执行系统包括驱动机构和机械臂，所述驱动机构根据所述语音识别控制系统的反馈控制模块115所发出的驱动信号来驱动机械臂进行翻页操作。

所述机械臂的端部设置有电容笔头5。

所述驱动机构为舵机，所述机械臂为金属可定型软管4。

使用该自动翻页装置时，初始时用户手动将金属可定型软管4弯曲调整使电容笔头5距离电子书屏幕的翻页区域1cm处，这时两个舵机均处于初始的角度x度；当需要向上翻页时，用户发出“上一页”的语音命令，语音识别控制系统发出合适的pwm信号来控制左舵机304立即旋转至y度，使与左舵机304连接的金属可定型软管4转化成前伸动作从而使电容笔头5点击到屏幕的向上翻页区域，停留200毫秒后，语音识别控制系统再行发出合适的pwm信号来控制左舵机304立即旋转回到x度，同样通过连接的金属可定型软管4转化成后缩动作使电容笔头5离开屏幕的向上翻页区域回到初始状态；当需要向下翻页时，用户发出“下一页”的语音命令，语音识别控制系统发出合适的pwm信号来控制右舵机305立即旋转至y度，使与左舵机304连接的金属可定型软管4转化成前伸动作从而使电容笔头5点击到屏幕的向下翻页区域，停留200毫秒后，语音识别控制系统再行发出合适的pwm信号来控制右舵机305立即旋转回到x度，同样通过连接的金属可定型软管4转化成后缩动作使电容笔头5离开屏幕的向下翻页区域回到初始状态。

所述舵机是通过接收语音识别控制系统输出的脉宽调制信号（pwm）来旋转一定的角度，当pwm信号增加时，舵机逆时针转动，当pwm信号减少时，舵机顺时针转动。舵机是一种步进电机，转速慢，能控制步数。

该实施例中通过控制舵机的角度旋转和金属可定型软管的可弯曲特性来实现金属可定型软的伸缩动作来完成点击动作。

在本发明的另一实施例中，提供了一种自动翻页装置，如图3所示，该装置包括用于放置电子终端设备的支架2，位于支架2底部的翻页操控盒3，连接在翻页操控盒3上的两个机械臂。所述翻页控制盒3用于根据用户输入的语音信息，并解析判断其对应的语音指令，来控制机械臂进行翻页操作。

所述支架2上具有放置电子终端设备的容置槽（见图3），所述机械臂的端部设置有电容笔头5，所述电容笔头5用于点击电子屏以进行翻页操作。

所述翻页操控盒3包括硬件外壳301，电路底板302，语音识别控制模块303，左舵机304，右舵机305，充电usb接口306，充电电池307。如图4所示，所述语音识别控制单元303、左舵机304、右舵机305、充电usb接口306和充电电池307均连接设置于电路底板302上，在所述硬件外壳301上还设置有麦克风6，所述麦克风6与电路底板302连接。

在该具体实施例中，机械臂为金属可定型软管4，电容笔头5设置于金属可定型软管4的端部。

在具体使用时，例如用户将手机7放置于该翻页装置的支架2上，当需要进行翻页操作时，用户直接输入语音命令“下一页”，语音识别控制单元303通过识别该语音命令，并作出驱动信号，驱动右舵机305运动，右舵机305驱动与其连接的金属可定型软管4，从而使金属可定型软管4端部的电容笔头5触碰到手机7的屏幕上的电子屏翻页键8，从而完成翻页操作。

利用本发明的自动翻页方法和装置，用户可以通过非接触的方法进行操控，并且可以可以自定义的语音控制命令，方便、自然的通过语音控制机械臂翻页，提高便捷性和用户体验。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何婉榕
技术所有人：何婉榕
我是此专利的发明人

上一篇：防水结构后开孔防水处理方法与流程
上一篇：一种水底管道悬跨支撑方法及装置与流程