一种结束语音对话的方法及终端与流程

文档序号:11732228阅读:350来源:国知局
一种结束语音对话的方法及终端与流程

本发明涉及终端技术领域,尤其涉及一种结束语音对话的方法及终端。



背景技术:

当前,越来越多的电子产品支持语音对话的交互方式,这些电子产品包括对讲机或者其它手持智能设备等。同时,为了节省产品的电力消耗和提高续航时间,往往设置在对话开始前唤醒机器进行语音对话,并在结束语音对话后进入待机或休眠模式,使更多的硬件电路停止工作,消耗功率更低。如何正确地判断与用户的语音对话结束以维持低电力消耗也就成为一项重要的技术。

在实现本发明的过程中,发明人发现现有技术存在以下问题:现有语音的结束方式一般是通过物理按键、虚拟按钮或静音检测方式来实现。例如,在对讲机中按住物理按键后开始语音对讲,对讲结束后,松开对讲物理按键后结束语音对讲;物理按键的方式需要用户手动的结束语音对讲操作。对讲机通过静音检测实现,即当用户开始说话时开始语音对讲,停止说话一段时间后自动结束语音对讲;静音检测方式需要用户持续未说话去结束语音对讲操作,但这种方式容易受到环境干扰,在外界噪音过大时基本无法自动结束。



技术实现要素:

本发明的主要目的在于提出一种结束语音对话的方法及终端,旨在解决现有技术存在的技术问题。

为实现上述目的,本发明实施例第一方面提供一种终端,所述终端包括:逻辑控制模块、语音指令定义模块、语音对话模块、语音对话分发模块、语音预处理模块、语音识别控制模块及语音识别模块;

所述逻辑控制模块,用于控制所述语音指令定义模块和所述语音对话模块启动;还用于根据所述语音指令定义模块生成的关闭指令控制所述语音对话分发模块、所述语音预处理模块以及所述语音识别控制模块进行关闭,并通过所述语音对话模块停止语音对话,同时通过所述语音识别控制模块控制所述语音识别模块关闭;

所述语音指令定义模块,用于根据用户配置生成语音结束指令;还用于将所述语音识别模块发送的识别的语音对话与所述语音结束指令进行比对,若识别的语音对话与语音结束指令一致,则生成关闭指令给所述逻辑控制模块;

所述语音对话模块,用于监控语音对话的启动状态;若监控到语音对话的启动状态,控制所述语音对话分发模块、所述语音预处理模块以及所述语音识别控制模块启动;

所述语音对话分发模块,用于将语音对话分发给所述语音预处理模块;

所述语音预处理模块,用于对所述语音对话分发模块分发的语音对话进行语音预处理和语音检测;若检测到语音对话,则将预处理的语音发送给所述语音识别模块;

所述语音识别控制模块,用于控制所述语音识别模块启动;

所述语音识别模块,用于对所述语音预处理模块发送的预处理的语音进行语音识别,并将识别的语音对话发送给所述语音指令定义模块。

进一步地,所述语音预处理包括以下的一种或者多种:噪声抑制处理、自动增益控制处理、静音检测处理、回音消除处理、重采样处理或者自适应滤波处理;

所述语音识别包括人工神经网络和/或统计模式识别。

进一步地,所述语音指令定义模块包括获取单元及配置单元;

所述获取单元,用于获取语音结束信息;

所述配置单元,用于将所述获取单元获取的语音结束信息配置为语音结束指令。

进一步地,所述语音预处理模块,用于对所述语音对话分发模块分发的语音对话进行语音预处理和语音检测;若没有检测到语音对话,则所述语音对话分发模块将语音对话分发给所述语音预处理模块。

进一步地,所述语音指令定义模块,还用于将所述语音识别模块发送的识别的语音对话与所述语音结束指令进行比对,若识别的语音对话与语音结束指令不一致,则所述语音对话分发模块将语音对话分发给所述语音预处理模块。

此外,为实现上述目的,本发明实施例第二方面提供一种结束语音对话的方法,所述方法包括步骤:

启动逻辑控制模块;

通过所述逻辑控制模块控制语音指令定义模块启动,所述语音指令定义模块根据用户配置生成语音结束指令;

通过所述逻辑控制模块控制语音对话模块启动,所述语音对话模块监控语音对话的启动状态;

所述语音对话模块若监控到语音对话的启动状态,控制语音对话分发模块、语音预处理模块以及语音识别控制模块启动,并通过所述语音识别控制模块控制语音识别模块启动;

所述语音对话分发模块将语音对话分发给所述语音预处理模块,所述语音预处理模块对所述语音对话分发模块分发的语音对话进行语音预处理和语音检测;

所述语音预处理模块若检测到语音对话,则将预处理的语音发送给所述语音识别模块,所述语音识别模块对所述语音预处理模块发送的预处理的语音进行语音识别,并将识别的语音对话发送给所述语音指令定义模块;

所述语音指令定义模块将所述语音识别模块发送的识别的语音对话与所述语音结束指令进行比对;

若识别的语音对话与所述语音结束指令一致,则通过所述逻辑控制模块控制所述语音对话分发模块、所述语音预处理模块以及所述语音识别控制模块进行关闭,并通过所述语音对话模块停止语音对话,同时通过所述语音识别控制模块控制所述语音识别模块关闭。

进一步地,所述语音预处理包括以下的一种或者多种:噪声抑制处理、自动增益控制处理、静音检测处理、回音消除处理、重采样处理或者自适应滤波处理;

所述语音识别包括人工神经网络和/或统计模式识别。

进一步地,所述步骤所述语音指令定义模块根据用户配置生成语音结束指令包括步骤:

所述语音指令定义模块获取语音结束信息;

所述语音指令定义模块将获取的语音结束信息配置为语音结束指令。

进一步地,所述方法还包括步骤:

语音预处理模块若没有检测到语音对话,则继续执行步骤语音对话分发模块将语音对话分发给语音预处理模块,语音预处理模块对语音对话分发模块分发的语音对话进行语音预处理和语音检测。

进一步地,所述方法还包括步骤:

若识别的语音对话与所述语音结束指令不一致,则继续执行步骤所述语音对话分发模块将语音对话分发给所述语音预处理模块,所述语音预处理模块对所述语音对话分发模块分发的语音对话进行语音预处理和语音检测。

本发明实施例提供的一种结束语音对话的方法及终端,相对于手动触发结束语音对话,通过语音更加便捷的结束语音对话;相对于手动触发结束语音对话,专业工总领域(如高空作业)解放双手作业,更加安全;相对于静音检测结束语音对话,具备更强的环境噪音抗干扰能力,并且更加准确迅速;相对于静音检测结束语音对话,用户在语音对话过程中可做停顿,使语音对话交流更顺畅;使用类似于”over~over”的结束用语,非常贴切用户的使用习惯。

附图说明

图1为本发明实施例的终端结构示意图;

图2为本发明实施例的终端中语音指令定义模块结构示意图;

图3为本发明实施例的结束语音对话的方法流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

第一实施例

如图1所示,本发明第一实施例提供一种终端,该终端包括:逻辑控制模块11、语音指令定义模块12、语音对话模块10、语音对话分发模块13、语音预处理模块14、语音识别控制模块15及语音识别模块16;

逻辑控制模块11,用于控制语音指令定义模块12和语音对话模块10启动;还用于根据语音指令定义模块12生成的关闭指令控制语音对话分发模块13、语音预处理模块14以及语音识别控制模块15进行关闭,并通过语音对话模块10停止语音对话,同时通过语音识别控制模块15控制语音识别模块16关闭;

语音指令定义模块12,用于根据用户配置生成语音结束指令;还用于将语音识别模块16发送的识别的语音对话与语音结束指令进行比对,若识别的语音对话与语音结束指令一致,则生成关闭指令给逻辑控制模块11。

进一步地,语音指令定义模块12,还用于将语音识别模块16发送的识别的语音对话与语音结束指令进行比对,若识别的语音对话与语音结束指令不一致,则语音对话分发模块13将语音对话分发给所述语音预处理模块,即执行语音对话分发模块13的功能。

请参考图2所示,在本实施例中,语音指令定义模块12包括获取单元121及配置单元122;

获取单元121,用于获取语音结束信息;

配置单元122,用于将获取单元121获取的语音结束信息配置为语音结束指令。

作为示例地,例如获取语音结束信息为“over~over”或“完毕完毕”,则可将“over~over”或“完毕完毕”配置为语音结束指令。

语音对话模块10,用于监控语音对话的启动状态;若监控到语音对话的启动状态,控制语音对话分发模块13、语音预处理模块14以及语音识别控制模块15启动。

语音对话分发模块13,用于将语音对话分发给语音预处理模块14;

语音预处理模块14,用于对语音对话分发模块13分发的语音对话进行语音预处理和语音检测;若检测到语音对话,则将预处理的语音发送给语音识别模块16。

进一步地,语音预处理模块14,用于对语音对话分发模块13分发的语音对话进行语音预处理和语音检测;若没有检测到语音对话,则语音对话分发模块13将语音对话分发给所述语音预处理模块,即执行语音对话分发模块13的功能。

在本实施例中,语音预处理包括以下的一种或者多种:噪声抑制处理、自动增益控制处理、静音检测处理、回音消除处理、重采样处理或者自适应滤波处理。

其中:

噪声抑制(noisesuppression,ns):降低语音信号中的噪声能量,增加信噪比。

自动增益控制(automaticgaincontrol,agc):自动增益控制是处理面对录音因为大量不同设置而导致音量变化。agc提供了一种方式去调整参考音量。这在voip中是很有用的,因为不需再手动调节麦克风的增益。还有另外一个优点是麦克风增益在一个比较保守的水平,它更容易避免削波、失真。

静音检测(voiceactivitydetection,vad):又称语音活动检测、语音端点检测,语音边界检测。目的是从对讲声音信号流里识别和消除长时间的静音期,它是语音对讲应用的重要组成部分。

回音消除(adaptiveechocontrol,aec):回声消除技术,采用回波抵消方法,也就是通过自适应方法估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波。

重采样:就是根据一类象元的信息内插出另一类象元信息的过程,语音领域通常是对脉冲编码调制数据(pulsecodemodulation,pcm)进行重新采样,重新取得数据。

自适应滤波:麦克风阵列或多路采样时,可能会有时延抖动问题,如在回音消除(adaptiveechocontrol,aec)技术中需要对声音数据在不同时延状态下进行回波抵消。

语音识别控制模块15,用于控制语音识别模块16启动;

语音识别模块16,用于对语音预处理模块15发送的预处理的语音进行语音识别,并将识别的语音对话发送给语音指令定义模块12。

在本实施例中,语音识别包括人工神经网络和/或统计模式识别。

其中:

人工神经网络:从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。

统计模式识别(statisticalapproachofpatternrecognition,sapr):又称决策理论识别方法,对模式的统计分类方法,把模式类看成是用某个随机向量实现的集合。

本发明实施例提供的终端,相对于手动触发结束语音对话,通过语音更加便捷的结束语音对话;相对于手动触发结束语音对话,专业工总领域(如高空作业)解放双手作业,更加安全;相对于静音检测结束语音对话,具备更强的环境噪音抗干扰能力,并且更加准确迅速;相对于静音检测结束语音对话,用户在语音对话过程中可做停顿,使语音对话交流更顺畅;使用类似于”over~over”的结束用语,非常贴切用户的使用习惯。

第二实施例

参照图3,图3为本发明第二实施例提供的一种结束语音对话的方法,所述方法包括步骤:

20、启动逻辑控制模块;

211、通过逻辑控制模块控制语音指令定义模块启动,语音指令定义模块根据用户配置生成语音结束指令。

在本实施例中,步骤语音指令定义模块根据用户配置生成语音结束指令具体包括(附图未示出):语音指令定义模块获取语音结束信息;语音指令定义模块将获取的语音结束信息配置为语音结束指令。

212、通过逻辑控制模块控制语音对话模块启动,语音对话模块监控语音对话的启动状态。

22、语音对话模块若监控到语音对话的启动状态,控制语音对话分发模块、语音预处理模块以及语音识别控制模块启动,并通过语音识别控制模块控制语音识别模块启动。

23、语音对话分发模块将语音对话分发给语音预处理模块,语音预处理模块对语音对话分发模块分发的语音对话进行语音预处理和语音检测。

在本实施例中,语音预处理包括以下的一种或者多种:噪声抑制处理、自动增益控制处理、静音检测处理、回音消除处理、重采样处理或者自适应滤波处理。

其中:

噪声抑制(noisesuppression,ns):降低语音信号中的噪声能量,增加信噪比。

自动增益控制(automaticgaincontrol,agc):自动增益控制是处理面对录音因为大量不同设置而导致音量变化。agc提供了一种方式去调整参考音量。这在voip中是很有用的,因为不需再手动调节麦克风的增益。还有另外一个优点是麦克风增益在一个比较保守的水平,它更容易避免削波、失真。

静音检测(voiceactivitydetection,vad):又称语音活动检测、语音端点检测,语音边界检测。目的是从对讲声音信号流里识别和消除长时间的静音期,它是语音对讲应用的重要组成部分。

回音消除(adaptiveechocontrol,aec):回声消除技术,采用回波抵消方法,也就是通过自适应方法估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波。

重采样:就是根据一类象元的信息内插出另一类象元信息的过程,语音领域通常是对脉冲编码调制数据(pulsecodemodulation,pcm)进行重新采样,重新取得数据。

自适应滤波:麦克风阵列或多路采样时,可能会有时延抖动问题,如在回音消除(adaptiveechocontrol,aec)技术中需要对声音数据在不同时延状态下进行回波抵消。

24、语音预处理模块若检测到语音对话,则将预处理的语音发送给语音识别模块,语音识别模块对语音预处理模块发送的预处理的语音进行语音识别,并将识别的语音对话发送给语音指令定义模块。

进一步地,语音预处理模块若没有检测到语音对话,则继续执行步骤23、语音对话分发模块将语音对话分发给语音预处理模块,语音预处理模块对语音对话分发模块分发的语音对话进行语音预处理和语音检测。

在本实施例中,语音识别包括人工神经网络和/或统计模式识别。

其中:

人工神经网络:从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。

统计模式识别(statisticalapproachofpatternrecognition,sapr):又称决策理论识别方法,对模式的统计分类方法,把模式类看成是用某个随机向量实现的集合。

25、语音指令定义模块将语音识别模块发送的识别的语音对话与语音结束指令进行比对。

26、若识别的语音对话与语音结束指令一致,则通过逻辑控制模块控制语音对话分发模块、语音预处理模块以及语音识别控制模块进行关闭,并通过语音对话模块停止语音对话,同时通过语音识别控制模块控制语音识别模块关闭。

进一步地,若识别的语音对话与语音结束指令不一致,则继续执行步骤23、语音对话分发模块将语音对话分发给语音预处理模块,语音预处理模块对语音对话分发模块分发的语音对话进行语音预处理和语音检测。

本发明实施例提供的一种结束语音对话的方法,相对于手动触发结束语音对话,通过语音更加便捷的结束语音对话;相对于手动触发结束语音对话,专业工总领域(如高空作业)解放双手作业,更加安全;相对于静音检测结束语音对话,具备更强的环境噪音抗干扰能力,并且更加准确迅速;相对于静音检测结束语音对话,用户在语音对话过程中可做停顿,使语音对话交流更顺畅;使用类似于”over~over”的结束用语,非常贴切用户的使用习惯。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1