一种改进的蓝牙智能云音箱语音交互端点检测方法与流程

文档序号:14687766发布日期:2018-06-15 06:08阅读:245来源:国知局

本发明涉及蓝牙低能耗技术应用领域,特别涉及一种改进的蓝牙智能云音箱语音交互端点检测方法。



背景技术:

在人机交互领域中,语音活动检测(Voice Activity Detection,VAD)是一项非常关键的工作,其算法的优劣在某种程度上也直接决定了整个语音交互系统的成败,作为一个完整的语音交互系统, 其最终实现及使用的效果不仅仅取决于识别的算法, 许多相关因素都直接影响着应用系统的成功与否,端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号, 并确定语音信号的开始及结束,好的端点检测方法能改变语音识别软件存在的检测效果不理想、识别率低等问题,端点检测的高精度能确保输入的信号是有效完整的语音信号, 使识别效果更准确快速。

传统的端点检测方法是使用短时能量和过零率的双门限检测,首先在音频的短时能量上进行第一次判别,这个会选取一个高门限进行一次粗判决;然后使用平均过零率上进行第二次判别。虽然使用双门限端点检测计算量小,且在安静的环境啃较好的识别率,但是它也有很多不足,例如,门限值需要由经验来设置,是一个固定的参数;在时时语音交互中,涉及上下文停顿的场景也容易误判,导致人机交互效果不理想。

因此,在日常生活中,涉及人机交领域,如何准确检测出音频信号的端点位置是技术人员亟待需要解决的问题。



技术实现要素:

本发明所要解决的技术问题是:提供一种改进的蓝牙智能云音箱语音交互端点检测方法,克服现有相关技术中的因环境差异导致识别率差、端点误判等问题,提高了人机语音交互效率和体验。

为解决上述技术问题,本发明提供一种改进的蓝牙智能云音箱语音交互端点检测方法,包括智能云音箱、智能设备、数据分析处理软件APP和蓝牙模块。其中智能设备为手机、平板电脑等;其中智能设备包括蓝牙模块和数据分析处理软件APP;其中智能云音箱包括云端服务器;

所述数据分析处理软件APP是安装在智能设备上的;

所述蓝牙模块与蓝牙智能云音箱建立音频道的连接;

进一步优化,智能设备的数据分析处理软件APP通过蓝牙模块与蓝牙智能云音箱建立控制指令的连接,实现数据分析处理软件APP与蓝牙智能云音箱的控制数据交互;

进一步优化,正常数据分析处理软件APP处于待机状态,当智能设备端唤醒语音交互时,数据分析处理软件APP启动蓝牙模块连接,并开始录音,采集音频信号,同时与蓝牙智能云音箱的云端服务器建立数据传输通道。

进一步优化,数据分析处理软件APP设置一个静音保护时间,所述保护时间长由数据分析处理软件APP与云服务器一起协定;当唤醒语音交互时,即使不说话,也会有3秒的静音采集时间,避免在唤醒语音交互时,用户来不及说话,整个系统就判停;另外,蓝牙模块的面向连接方式SCO在极短时间内太频繁操作,会引起系统级的异常,所述的静音保护时间控制蓝牙模块的面向连接方式SCO在极短时间内太频繁操作。

进一步优化,智能设备的数据分析处理软件APP时时提取每一帧音频信号;数据分析处理软件APP将每一帧的音频信号的持续时间设置为10ms。

进一步优化,智能手机的数据分析处理软件APP计算每帧音频信号的短时能量,短时能量信号的计算公式为:;

进一步优化,智能设备的数据分析处理软件APP动态判断每帧音频信号是否为语音帧;其中短时能量直接反应语音信号能量及幅度大小,根据短时能量对有声段和无声段进行判断,数据分析处理软件APP动态寻找每个帧与之前的音频帧中的最大能量值,后面的音频帧只要小于最大能量帧*门限值(M),当前短时能量小时,就动态调小门限值,当音量衰减的幅值太大,就定义为非语音帧,启动非语音计数,非语音帧连续计数达200,相当于停顿2秒,则表示讲话结束,若中间有语音帧数据,则计数器复位,重新计数。

自适应门限值的公式为:;

进一步优化,智能设备的数据分析处理软件APP进行有效端点判断;

进一步优化,智能设备的数据分析处理软件APP向云端服务器发送采集结束,启动语音识别;数据分析处理软件APP根据结束语音采集的结果后,停止录音,并向云端服务器发送采集完成指令,开始语音识别,通过蓝牙智能云音箱中大量语音交互测试中,准确地判断出语音的端点。

进一步优化,一种改进的蓝牙智能云音箱语音交互端点检测方法的工作步骤:

a、智能设备的数据分析处理软件APP与蓝牙智能云音箱建立连接;

b、智能设备端唤醒语音交互;

c、智能设备的数据分析处理软件APP启动静音保护时间计数器;

d、智能设备的数据分析处理软件APP时时提取每一帧音频信号;

e、智能设备的数据分析处理软件APP计算每帧音频信号的短时能量;

f、智能设备的数据分析处理软件APP动态判断每帧音频信号是否为语音帧;

h、智能设备的数据分析处理软件APP进行有效端点判断;

i、智能设备的数据分析处理软件APP向云端服务器发送采集结束,启动语音识别。

采用了上述技术方案后,本发明的有益效果是:

相对于现有的技术方案,提供一种改进的蓝牙智能云音箱语音交互端点检测方法,解决现有相关技术中的因环境差异导致识别率差、端点误判等问题,提高了人机语音交互效率和体验。提高了效率,改善了用户体验。

附图说明

图1是一种改进的蓝牙智能云音箱语音交互端点检测方法工作模块图

图2是一种改进的蓝牙智能云音箱语音交互端点检测方法工作流程图

具体实施方式

下面结合附图1至附图2和具体实施例对本发明进行详细描述,但不作为对本发明的限定。

如附图1至附图2所示,一种改进的蓝牙智能云音箱语音交互端点检测方法,包括智能云音箱、智能设备、数据分析处理软件APP和蓝牙模块。其中智能设备为手机、平板电脑等;其中智能设备包括蓝牙模块和数据分析处理软件APP;其中智能云音箱包括云端服务器;数据分析处理软件APP是安装在智能设备上的;蓝牙模块与蓝牙智能云音箱建立音频道的连接; 智能设备的数据分析处理软件APP通过蓝牙模块与蓝牙智能云音箱建立控制指令的连接,实现数据分析处理软件APP与蓝牙智能云音箱的控制数据交互;正常数据分析处理软件APP处于待机状态,当智能设备端唤醒语音交互时,数据分析处理软件APP启动蓝牙模块连接,并开始录音,采集音频信号,同时与蓝牙智能云音箱的云端服务器建立数据传输通道。数据分析处理软件APP设置一个静音保护时间,所述保护时间长由数据分析处理软件APP与云服务器一起协定;当唤醒语音交互时,即使不说话,也会有3秒的静音采集时间,避免在唤醒语音交互时,用户来不及说话,整个系统就判停;另外,蓝牙模块的面向连接方式SCO在极短时间内太频繁操作,会引起系统级的异常,所述的静音保护时间控制蓝牙模块的面向连接方式SCO在极短时间内太频繁操作。智能设备的数据分析处理软件APP时时提取每一帧音频信号;数据分析处理软件APP将每一帧的音频信号的持续时间设置为10ms。智能手机的数据分析处理软件APP计算每帧音频信号的短时能量,短时能量信号的计算公式为: ;智能设备的数据分析处理软件APP动态判断每帧音频信号是否为语音帧;其中短时能量直接反应语音信号能量及幅度大小,根据短时能量对有声段和无声段进行判断,数据分析处理软件APP动态寻找每个帧与之前的音频帧中的最大能量值,后面的音频帧只要小于最大能量帧*门限值(M),当前短时能量小时,就动态调小门限值,当音量衰减的幅值太大,就定义为非语音帧,启动非语音计数,非语音帧连续计数达200,相当于停顿2秒,则表示讲话结束,若中间有语音帧数据,则计数器复位,重新计数。

自适应门限值的公式为:;

智能设备的数据分析处理软件APP进行有效端点判断;智能设备的数据分析处理软件APP向云端服务器发送采集结束,启动语音识别;数据分析处理软件APP根据结束语音采集的结果后,停止录音,并向云端服务器发送采集完成指令,开始语音识别,通过蓝牙智能云音箱中大量语音交互测试中,准确地判断出语音的端点。

一种改进的蓝牙智能云音箱语音交互端点检测方法的工作步骤:

a、智能设备的数据分析处理软件APP与蓝牙智能云音箱建立连接;

b、智能设备端唤醒语音交互;

c、智能设备的数据分析处理软件APP启动静音保护时间计数器;

d、智能设备的数据分析处理软件APP时时提取每一帧音频信号;

e、智能设备的数据分析处理软件APP计算每帧音频信号的短时能量;

f、智能设备的数据分析处理软件APP动态判断每帧音频信号是否为语音帧;

h、智能设备的数据分析处理软件APP进行有效端点判断;

i、智能设备的数据分析处理软件APP向云端服务器发送采集结束,启动语音识别。

在本发明实施例中:

S101 智能设备的数据分析处理软件APP与蓝牙智能云音箱设备建立连接;

首先,通过手机系统中的蓝牙模块与蓝牙智能云音箱建立音频道的连接;然后再通过智能设备的数据分析处理软件APP与蓝牙智能云音箱建立控制指令的连接,为了保证有良好的兼容性,Android版本与设备建立SPP通道连接,而IOS版则建立的是BLE通道连接,可实现APP与蓝牙智能云音箱设备的控制数据交互。

S102智能设备端唤醒语音交互;

正常数据分析处理软件APP处理待机状态,只有当设备端唤醒语音交互时,启动蓝牙SCO连接,并开始录音,采集音频信号,同时与云端服务器建立数据传输通道。

S103智能设备的数据分析处理软件APP启动静音保护时间计数器;

智能设备的数据分析处理软件APP启动静音保护时间计数器,为了用户有更好的体验,及系统的稳定性,设置一个静音保护时间,当唤醒语音交互时,即使不说话,具体时长与云服务器一起协定,也会有3秒的静音采集时间,避免唤醒语音交互时,用户来不及说话,整个系统就判停;另一方面,蓝牙的SCO极短时间内太频繁操作,会引起系统级的异常。

S104智能设备的数据分析处理软件APP时时提取每一帧音频信号;

音频信号是一个非稳态、时变的信号,为了取得更准确的计算结果,我们认为其在“短时间”范围内是稳态、时不变的,这个时间, 一般数据分析处理软件APP将每一帧的音频信号的持续时间设置为10ms。

S105智能设备的数据分析处理软件APP计算每帧音频信号的短时能量;

短时能量信号的计算公式为:

其中, 为第i帧中第m个采样点的能量值。

依短时能量计算公式,APP代码示例如下:

private long getRms(int end, int span) { int begin = end - span;if (begin < 0) { begin = 0; } if (begin % 2 != 0) {begin++; } long sum = 0; for (int i = begin; i < end; i += 2) { short curSample = getShort(this.mRecording[i], this.mRecording[i + 1]); sum += (long) (curSample * curSample); } return sum; }

S106 智能设备的数据分析处理软件APP动态判断每帧音频信号是否为语音帧;

短时能量可以直接反应出语音信号能量及幅度大小,进而可以对有声段和无声段进行判断,数据分析处理软件APP动态寻找每个帧与之前的音频帧中的最大能量值,后面的音频帧只要小于最大能量帧*门限值(M),当前短时能量小时,就动态调小门限值,当音量衰减的幅值太大,就定义为非语音帧,启动非语音计数,非语音帧连续计数达200,相当于停顿2秒,则表示讲话结束,若中间有语音帧数据,则计数器复位,重新计数。

自适应门限值:

APP示例代码如下:

private static final int RMS_COUNT_MAX = 200; // 2s

public boolean isPausing() {

long rms = getRms(this.mRecordedLength, this.mOneSec);

if (rms > this.highestRMS) {

this.highestRMS = rms;

this.rmsCount = 0;

return false;

} else if (((double) rms) < M * ((double) this.highestRMS)) {

if(this.rmsCount < RMS_COUNT_MAX){

this.rmsCount++;

return false;

}else{

this.rmsCount = 0;

return true;

}

} else {

this.rmsCount = 0;

return false;

}

}

S107 智能设备的数据分析处理软件APP进行有效端点判断;

人机交互中的语音端点判断是受多方面限制的,如3秒的静音保护时间,本地改进的短时能量检测语音端点,云端下发的停止采集指令。

APP示例代码如下:

while (recorder != null && recorder.getState() == AudioRecorder.State.RECORDING) {

boolean pausing = recorder.isPausing();

if (pausing && mRecordDurationReached) {

if (mBtDeviceSpeechType == BT_DEVICE_SPEECH_RECOGNITION) {

mBtDeviceSpeechType = BT_DEVICE_SPEECH_RECOGNITION_NONE;

stopBluetoothSCO();

}

stopListening(true);

break;

}

try {

Thread.sleep(10);

} catch (InterruptedException e) {

e.printStackTrace();

}

}

S108智能设备的数据分析处理软件APP向云端发送采集结束,启动语音识别;

数据分析处理软件APP根据结束语音采集的结果后,停止录音,并向云端发送采集完成指令,可以开始语音识别,能过蓝牙智能云音箱中大量语音交互测试中,基本上可以准确地判断出语音的端点。大大的减少非语音帧的传输和处理,提高了效率,改善了用户体验。

由技术常识可知,本技术方案可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1