一种收发端双向双模音频交互系统的制作方法

文档序号:32487953发布日期:2022-12-10 01:45阅读:67来源:国知局

1.本发明涉及音频交互技术领域,尤其涉及一种收发端双向双模音频交互系统。


背景技术:

2.所谓的“双模”就是工作在两个网络模式下,这两个工作模式就是gsm网络和cdma网络,所谓的“gsm/cdma双模手机”就是指手机可以同时支持gsm以及cdma这两个网络通信技术,它可以根据环境或者是实际操作的需要来从中做出选择,哪个网络技术更能发挥作用,就让手机切换到哪种模式下去工作,如果在一种模式下,手机通信质量不高或者是出现其他不良的通信现象,可以自由转到另外一个网络模式上工作,它实际上就是扩大了手机的通话频率,并大大提高通信的稳定性而已。
3.音频通信系统是传送和接收语言信息的通信系统。所谓“音频”,是指在人的声音频率范围内,用来传送语音的那部分频率,通常为200~3500hz。音频通道一般为300~3000hz,这段频带适合传送语音信号、传真信号和模拟信号。音频通信系统由语音输入设备、存储设备、传输设备和输出设备组成。
4.现有的音频交互系统效率低,目前主流的语音识别方案通过麦克风阵列和回声消除参考信号作为输入,进行降噪等处理后,通过无限网络连接到云端进行语音和语义识别,主流的语音识别方案在网络状况异常时无法正常工作,从而影响音频交互系统的正常工作,进而降低用户体验。


技术实现要素:

5.本发明的目的是提供一种收发端双向双模音频交互系统,解决了现有技术中主流的语音识别方案通过麦克风阵列和回声消除参考信号作为输入,进行降噪等处理后,通过无限网络连接到云端进行语音和语义识别,主流的语音识别方案在网络状况异常时无法正常工作,从而影响音频交互系统的正常工作,进而降低用户体验的问题。
6.为了实现上述目的,本发明采用了如下技术方案:
7.一种收发端双向双模音频交互系统,包括音频交互,确定用户属性标签,并基于用户属性标签将用户分为n组,其中n为至少为2的正整数,录制用户音频文件,并从录制的用户音频文件中提取该用户音频文件的分贝信息,所提取的该用户音频文件的分贝信息与不同于该用户所在组的其它组用户的分贝信息进行比较,并呈现比较结果,属性标签接收单元、音频录制单元和比较单元,其中,属性标签接收单元,用于确定用户属性标签,并基于用户属性标签将用户分为n组,其中n为至少为2的正整数,音频录制单元,用于录制用户音频文件,并从录制的用户音频文件中提取该用户音频文件的分贝信息。
8.优选的,客户端,用于确定用户属性标签,录制用户音频文件,从录制的用户音频文件中提取该用户音频文件的分贝信息,并将用户属性标签和所提取的该用户音频文件的分贝信息发送到服务器,并呈现由服务器发送的比较结果。
9.优选的,服务器,用于基于用户属性标签将用户分为n组,其中n为至少为2的正整
数,并将客户端发送的该用户音频文件的分贝信息与不同于该用户所在组的其它组用户的分贝信息进行比较,并向客户端发送比较结果。
10.优选的,编码器:用于将音素输入序列进行编码,输出音素输入序列的编码表示,编码器的两个输出端口分别连接帧长预测模块和扩展模块的输入端口,对齐模块:在语音合成系统处于训练模式时开启,对齐模块的输入端口连接文本预处理模块,对齐模块的输出端口连接扩展模块的输入端口,用于进行样本文本的文本语音对齐,输出标准音素帧长序列,帧长预测模块:在语音合成系统处于语音合成模式时,帧长预测模块的输出端口连接扩展模块的输入端口,用于将音素输入序列的编码表示转化为预测音素帧长序列,在语音合成系统处于训练模式时,断开帧长预测模块的输出端口与扩展模块的输入端口之间的连接。
11.优选的,客户端与服务器之间的信息交互格式可以具有多种形式,比如,信息格式可以包括但是不局限于:短信息、电子邮件、即时通讯信息、多媒体信息或语音信息。
12.优选的,用户在客户端录制完音频文件之后,可以通过流协议接口上传音频文件到服务器,同时调用数据上报接口,提交该用户音频文件的分贝信息及个人信息和用户属性标签到服务器。
13.本发明至少具备以下有益效果:
14.本发明确定用户属性标签,并基于用户属性标签将用户分为n组,其中n为至少为2的正整数;录制用户音频文件,并从录制的用户音频文件中提取该用户音频文件的分贝信息;将所提取的该用户音频文件的分贝信息与不同于该用户所在组的其它组用户的分贝信息进行比较,并呈现比较结果,由此可见,通过音频方式实现了分组用户的交互,无论是互动格式还是互动内容上都获得了很大的提高,充分利用了多媒体的优势,因此互动效果更好,从而提高了互动效率,而且,通过将用户的分贝信息与其它组用户的分贝信息进行比较,克服了文字聊天和投票支持交互方式的文本局限性,直接利用音频进行对抗交互,扩展了交互的途径和方式,而且这种对抗交互更加贴近虚拟现实,因此进一步提高了互动效率。
具体实施方式
15.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
16.实施例一
17.包括音频交互,确定用户属性标签,并基于用户属性标签将用户分为n组,其中n为至少为2的正整数,录制用户音频文件,并从录制的用户音频文件中提取该用户音频文件的分贝信息,所提取的该用户音频文件的分贝信息与不同于该用户所在组的其它组用户的分贝信息进行比较,并呈现比较结果,属性标签接收单元、音频录制单元和比较单元,其中,属性标签接收单元,用于确定用户属性标签,并基于用户属性标签将用户分为n组,其中n为至少为2的正整数,音频录制单元,用于录制用户音频文件,并从录制的用户音频文件中提取该用户音频文件的分贝信息。
18.通过音频方式实现了分组用户的交互,无论是互动格式还是互动内容上都获得了很大的提高,充分利用了多媒体的优势,因此互动效果更好,从而提高了互动效率,而且,通
过将用户的分贝信息与其它组用户的分贝信息进行比较,克服了文字聊天和投票支持交互方式的文本局限性,直接利用音频进行对抗交互,扩展了交互的途径和方式,而且这种对抗交互更加贴近虚拟现实,因此进一步提高了互动效率
19.实施例二:
20.客户端,用于确定用户属性标签,录制用户音频文件,从录制的用户音频文件中提取该用户音频文件的分贝信息,并将用户属性标签和所提取的该用户音频文件的分贝信息发送到服务器,并呈现由服务器发送的比较结果。
21.服务器,用于基于用户属性标签将用户分为n组,其中n为至少为2的正整数,并将客户端发送的该用户音频文件的分贝信息与不同于该用户所在组的其它组用户的分贝信息进行比较,并向客户端发送比较结果。
22.编码器:用于将音素输入序列进行编码,输出音素输入序列的编码表示,编码器的两个输出端口分别连接帧长预测模块和扩展模块的输入端口,对齐模块:在语音合成系统处于训练模式时开启,对齐模块的输入端口连接文本预处理模块,对齐模块的输出端口连接扩展模块的输入端口,用于进行样本文本的文本语音对齐,输出标准音素帧长序列,帧长预测模块:在语音合成系统处于语音合成模式时,帧长预测模块的输出端口连接扩展模块的输入端口,用于将音素输入序列的编码表示转化为预测音素帧长序列,在语音合成系统处于训练模式时,断开帧长预测模块的输出端口与扩展模块的输入端口之间的连接。
23.客户端与服务器之间的信息交互格式可以具有多种形式,比如,信息格式可以包括但是不局限于:短信息、电子邮件、即时通讯信息、多媒体信息或语音信息。
24.用户在客户端录制完音频文件之后,可以通过流协议接口上传音频文件到服务器,同时调用数据上报接口,提交该用户音频文件的分贝信息及个人信息和用户属性标签到服务器。
25.以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1