本发明涉及翻译机技术领域,具体涉及一种根据声强判断翻译器输入源语言的系统及方法。
背景技术:
cn107862060a一种追踪目标人的语义识别装置及识别方法,此发明公开了一种追踪目标人的语义识别装置,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;麦克风阵列模块采集来自外界声场的多路音频信号并进行语音增强处理,处理后的音频信号只增强了外界声场中特定位置声源的音频信号;说话人辨识模块提取麦克风阵列模块采集的声纹特征,与目标人的声纹模型进行匹配,判断通过麦克风阵列模块增强处理后的特定声源信号是否来自于目标人;语义匹配模块识别音频中的语义信息并以一定形式输出。本发明配置了声纹提取模块和声源定位模块,可以在噪杂的外界声场中定位到目标人的声源位置,并通过音频数据缓存区和语义匹配模块将目标人的语音信号转换为目标人语义。
可见目前市场的翻译机主要是默认相互翻译的两种语言,然后通过两颗按键,两颗按键分别对应其中的某个语言,然后翻译为另外一方的语言。
技术实现要素:
有鉴于此,为了解决现有技术中的上述问题,本发明提出一种根据声强判断翻译器输入源语言的系统及方法,可以根据分居两端的人对话输入语音,麦克风进行采集,采集语音之后,语音处理模块通过处理可以判断哪个麦克风的声强大,判断出是哪个方向的语音输入,从而知道输入源的语音,进行翻译。
本发明通过以下技术手段解决上述问题:
一方面,本发明提供一种根据声强判断翻译器输入源语言的系统,包括:语音处理模块、服务器、扬声器和最少2个拾音模块;
所述拾音模块用于实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
所述语音处理模块用于将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
所述服务器用于将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
所述扬声器用于将翻译后的结果播放出来。
进一步地,所述拾音模块为麦克风。
进一步地,所述拾音模块计算音频信号的每一帧的短时能量具体方法如下:
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性,所以将音频信号分割成一帧一帧的短时信号来进行分析,对每个拾音模块的每一帧的短时信号x进行求平方和,得到此短时间内的短时能量值e,
e=x12+x22+x32.........+xn2;
其中x1、x2、x3、.........xn是代表每一帧的短时信号。
另一方面,本发明提供一种根据声强判断翻译器输入源语言的方法,包括如下步骤:
s1、拾音模块实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
s2、语音处理模块将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
s3、服务器将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
s4、扬声器将翻译后的结果播放出来。
进一步地,所述拾音模块为麦克风。
进一步地,所述拾音模块计算音频信号的每一帧的短时能量具体方法如下:
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性,所以将音频信号分割成一帧一帧的短时信号来进行分析,对每个拾音模块的每一帧的短时信号x进行求平方和,得到此短时间内的短时能量值e,
e=x12+x22+x32.........+xn2;
其中x1、x2、x3、.........xn是代表每一帧的短时信号。
与现有技术相比,本发明的有益效果至少包括:
本发明通过加入麦克风的判断,可以给出一个很经济的方法判定翻译机两端对话源,可以提升现有翻译机的操作方式,解放人按钮的操作。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明根据声强判断翻译器输入源语言的系统的结构示意图;
图2为本发明根据声强判断翻译器输入源语言的方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供一种根据声强判断翻译器输入源语言的系统,包括:语音处理模块、服务器、扬声器和最少2个拾音模块;
所述拾音模块用于实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
所述语音处理模块用于将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
所述服务器用于将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
所述扬声器用于将翻译后的结果播放出来。
具体地,所述拾音模块为麦克风。
拾音模块——分居设备两端的麦克风(最少2个麦克风,中间的距离不能太近),需要通过软件预设相互翻译的语言对应分居麦克风。
语音处理模块——通过短时能量检测的方式判断哪个麦克风的能量高,可以判断出是哪个对话者在说话。
本发明根据声强判断翻译器输入源语言的系统的工作过程如下:
①用户开启系统,对话者也对应分居麦克风对应的两端;
②系统的麦克风实时采集用户对着麦克风输出的音频信号;获取音频信号实时采集的某一短时间内的音频信号,并分帧。计算采集的音频信号的每一帧的短时能量;
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性。所以可以将音频信号分割成一帧一帧的短时信号来进行分析;
③设备的拾音模块通过计算,对每个麦克风的每一帧的短时信号x进行求平方和,得到此短时间内的短时能量值e,发送给语音处理模块
e=x12+x22+x32.........+xn2;
其中x1、x2、x3、.........xn是代表每一帧的短时信号。
④语音处理模块将此时两个麦克风分别求出的短时能量值进行比较大小,判断哪个麦克风的能量高,从而判定哪个对话者在说话,并将此麦克风的音频信号发送给服务器;
⑤服务器将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来。
实施例2
如图2所示,本发明还提供一种根据声强判断翻译器输入源语言的方法,包括如下步骤:
s1、拾音模块实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
s2、语音处理模块将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
s3、服务器将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
s4、扬声器将翻译后的结果播放出来。
具体地,所述拾音模块为麦克风。
具体地,所述拾音模块计算音频信号的每一帧的短时能量具体方法如下:
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性,所以将音频信号分割成一帧一帧的短时信号来进行分析,对每个拾音模块的每一帧的短时信号x进行求平方和,得到此短时间内的短时能量值e,
e=x12+x22+x32.........+xn2;
其中x1、x2、x3、.........xn是代表每一帧的短时信号。
本发明可以根据分居两端的人对话输入语音,麦克风模块进行采集,采集语音之后,语音处理模块通过处理可以判断哪个麦克风的声强大,判断出是哪个方向的语音输入,从而知道输入源的语音,进行翻译。可用于机器人听觉、人机语音交互系统、翻译设备以及音频监控等诸多领域。
与现有技术相比,本发明的有益效果至少包括:
本发明通过加入麦克风的判断,可以给出一个很经济的方法判定翻译机两端对话源,可以提升现有翻译机的操作方式,解放人按钮的操作。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。