本发明涉及自助设备语音交互技术领域,特别是涉及一种嘈杂环境下自助设备连续语音对话的处理方法。
背景技术:
传统的个人语音识别交互技术,普遍采用录制语音直接发送至服务器的方式,由服务程序识别、转换为文字、关联语义。而医院的语音交互则存在环境嘈杂、人员音色、音高混合的难题。
在自助语音交互的应用中,由于交互对象为任意的人员及位置,由此产生的音色、音高不同,并且处于连续语音识别状态;实际操作中自助设备语音交互时,存在附近经过人员的声音被当作语音指令,附近多台自助设备时,多人同时下达符合规范的指令的情况,因此将会存在语音识别到非使用人员的声音的情况,进而导致程序执行错误的指令。
技术实现要素:
本发明主要解决的技术问题是提供一种嘈杂环境连续语音对话的处理方法,能够保证在嘈杂环境、连续一对一语音交互的准确性及正确性。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种嘈杂环境连续语音对话的处理方法,包括以下步骤:
一、在实时音频流流入模块上,添加名为session计时器的类、音色剥离模块及音色滤波模块,调用设置计时器的函数,音色剥离及滤波模块以钩子方式自动运行;session意为会话控制;计时器设置时间为7.2秒;
二、设计“导医”作为session启动的标志,该语音指令同时作为音色滤波标识;
三、实时读取麦克风回传的语音指令;
四、判断是否已经存在新session,并且session未超时,则用上个会话保存的滤波文件进行过滤新的语音流;不存在会话或已超时则判断是否为“导医”,是则创建新会话,否则忽略该语音指令;有效语音流抛给下个处理者,无效音频流直接丢弃;
五、处理滤波文件处理后的音频流,判断是否为有效指令,有效指令则执行相关操作,无效指令进行提示;
六、指令处理完成后,会话计时归零,并进入监听状态;
七、实时监听麦克风音频流。
本发明的有益效果是:本发明设计出适用于语音的session会话技术,该技术采用“导医”语音作为session启动标志及音色剥离标识,在7.2秒内只有符合该音色标识的语音会被处理,其他音色的语音、环境噪音、回放声音则被过滤掉。若超时则启动下一个session监听“导医”标识。保证了在嘈杂环境、连续一对一语音交互的准确性及正确性。
附图说明
图1是本发明一种嘈杂环境连续语音对话的处理方法的流程图;
图2是所示一种嘈杂环境连续语音对话的处理方法的架构图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1和图2,本发明实施例包括:
一种嘈杂环境连续语音对话的处理方法,包括以下步骤:
一、在实时音频流流入模块上,添加名为session计时器的类、音色剥离模块及音色滤波模块,调用设置计时器的函数,音色剥离及滤波模块以钩子方式自动运行;session意为会话控制;计时器设置时间为7.2秒;
二、设计“导医”作为session启动的标志,该语音指令同时作为音色滤波标识;
三、实时读取麦克风回传的语音指令;
四、判断是否已经存在新session,并且session未超时,则用上个会话保存的滤波文件进行过滤新的语音流;不存在会话或已超时则判断是否为“导医”,是则创建新会话,否则忽略该语音指令;有效语音流抛给下个处理者,无效音频流直接丢弃;
五、处理滤波文件处理后的音频流,判断是否为有效指令,有效指令则执行相关操作,无效指令进行提示;
六、指令处理完成后,会话计时归零,并进入监听状态;
七、实时监听麦克风音频流。
本发明设计出适用于语音的session会话技术,该技术采用“导医”语音作为session启动标志及音色剥离标识,在7.2秒内只有符合该音色标识的语音会被处理,其他音色的语音、环境噪音、回放声音则被过滤掉。若超时则启动下一个session监听“导医”标识。保证了在嘈杂环境、连续一对一语音交互的准确性及正确性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
1.一种嘈杂环境连续语音对话的处理方法,其特征在于,包括以下步骤:
步骤一、在实时音频流流入模块上,添加名为session计时器的类、音色剥离模块及音色滤波模块,调用设置计时器的函数,音色剥离及滤波模块以钩子方式自动运行;
步骤二、设计“导医”作为session启动的标志,该语音指令同时作为音色滤波标识;
步骤三、实时读取麦克风回传的语音指令;
步骤四、判断是否已经存在新session,并且session未超时,则用上个会话保存的滤波文件进行过滤新的语音流;不存在会话或已超时则判断是否为“导医”,是则创建新会话,否则忽略该语音指令;有效语音流抛给下个处理者,无效音频流直接丢弃;
步骤五、处理滤波文件处理后的音频流,判断是否为有效指令,有效指令则执行相关操作,无效指令进行提示;
步骤六、指令处理完成后,会话计时归零,并进入监听状态;
步骤七、实时监听麦克风音频流。
2.根据权利要求1所述的一种嘈杂环境连续语音对话的处理方法,其特征在于:所述步骤一中计时器设置时间为7.2秒。