语音传输方法、装置、计算机装置及存储介质与流程

文档序号:18945539发布日期:2019-10-23 01:33阅读:245来源:国知局
语音传输方法、装置、计算机装置及存储介质与流程

本发明涉及通信技术领域,尤其涉及一种语音传输方法、装置、计算机装置及存储介质。



背景技术:

随着计算机技术的发展和移动终端的普及,各种语音通话产品越来越多,这些语音通话产品在网络状况较好时,通话质量也较好,在网络状况不好时,可能会在语音传输时出现由于传输不连续导致的声音卡顿等状况,降低语音通话的质量,影响用户体验。



技术实现要素:

鉴于以上内容,有必要提供一种语音传输方法、装置、计算机装置及存储介质,能够提高语音通话的质量。

本发明提供一种语音传输方法,所述方法包括:

接收第一终端发送的语音通话传输指令,根据所述语音通话传输指令获取待传输语音信息以及接收所述待传输语音信息的第二终端;

获取传输所述待传输语音信息时的传输速率;

判断所述传输速率是否低于预设传输速率;

若所述传输速率低于所述预设传输速率,对所述待传输语音信息进行语音识别,获取语音识别结果,所述语音识别结果包括所述待传输语音信息对应的文字信息;

将所述语音识别结果包含的文字信息进行语音编码,得到目标语音信息;

将所述目标语音信息传输至所述第二终端。

在本发明可选实施中,所述语音识别结果还包括所述待传输语音信息的语音特征,所述语音特征包括基音频率;

所述将所述语音识别结果包含的文字信息进行语音编码包括:

将所述待传输语音信息对应的文字信息以及所述待传输语音信息的语音特征进行语音编码。

在本发明可选实施中,所述判断所述传输速率是否低于预设传输速率之后,所述方法还包括:

若所述传输速率高于所述预设传输速率,判断所述传输速率是否低于第一传输速率;

若所述传输速率低于所述第一传输速率,通过gia编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第一传输速率,判断所述传输速率是否低于第二传输速率;

若所述传输速率低于所述第二传输速率,通过gsm编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述二传输速率,判断所述传输速率是否低于第三传输速率;

若所述传输速率低于所述三传输速率,通过g.728编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第三传输速率,判断所述传输速率是否低于第四传输速率;

若所述传输速率低于所述第四传输速率,通过g.721编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第四传输速率,判断所述传输速率是否低于第五传输速率;

若所述传输速率低于所述第五传输速率,通过g.722编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第五传输速率,通过mpe编码标准对所述待传输语音信息进行编码并传输。

在本发明可选实施中,所述预设传输速率为8kbit/s,所述第一传输速率为13.2kbt/s,所述第二传输速率为16kbt/s,所述第三传输速率为32kbt/s,所述第四传输速率为64kbt/s,所述第五传输速率为128kbt/s。

在本发明可选实施例中,所述对所述待传输语音信息进行语音识别包括:

提取所述待传输语音信息的特征,得到表示所述待传输语音信息的特征向量;

将所述特征向量输入至预设声学模型,得到所述特征向量对应的音素信息;

将所述音素信息输入至预设语言模型,得到所述音素信息包含的元素,所述元素包括由字或词组成的字词序列;

基于预设字典对所述字词序列进行解码,得到所述待传输语音信息对应的文字信息。

在本发明可选实施例中,所述方法还包括:

若所述传输速率低于所述预设传输速率,向所述第一终端或所述第二终端发送增强网络信号强度的建议消息,或者,向所述第二终端发送存在语音传输的提醒消息。

在本发明可选实施例中,所述建议消息包括推荐连接网络或推荐移动路线。

本发明还提供一种语音传输装置,所述装置包括:

接收模块,用于接收第一终端发送的语音通话传输指令,根据所述语音通话传输指令获取待传输语音信息以及接收所述待传输语音信息的第二终端;

获取模块,用于获取传输所述待传输语音信息时的传输速率;

判断模块,用于判断所述传输速率是否低于预设传输速率;

识别模块,用于若所述传输速率低于所述预设传输速率,对所述待传输语音信息进行语音识别,获取语音识别结果,所述语音识别结果包括所述待传输语音信息对应的文字信息;

编码模块,用于将所述语音识别结果包含的文字信息进行语音编码,得到目标语音信息;

第一传输模块,用于将所述目标语音信息传输至所述第二终端。

在本发明可选实施例中,所述语音识别结果还包括所述待传输语音信息的语音特征,所述语音特征包括基音频率;

所述编码模块将所述语音识别结果包含的文字信息进行语音编码包括:

将所述待传输语音信息对应的文字信息以及所述待传输语音信息的语音特征进行语音编码。

在本发明可选实施例中,所述装置还包括第二传输模块,所述第二传输模块用于:

判断所述传输速率是否低于预设传输速率之后,若所述传输速率高于所述预设传输速率,判断所述传输速率是否低于第一传输速率;

若所述传输速率低于所述第一传输速率,通过gia编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第一传输速率,判断所述传输速率是否低于第二传输速率;

若所述传输速率低于所述第二传输速率,通过gsm编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述二传输速率,判断所述传输速率是否低于第三传输速率;

若所述传输速率低于所述三传输速率,通过g.728编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第三传输速率,判断所述传输速率是否低于第四传输速率;

若所述传输速率低于所述第四传输速率,通过g.721编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第四传输速率,判断所述传输速率是否低于第五传输速率;

若所述传输速率低于所述第五传输速率,通过g.722编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第五传输速率,通过mpe编码标准对所述待传输语音信息进行编码并传输。

在本发明可选实施例中,所述预设传输速率为8kbit/s,所述第一传输速率为13.2kbt/s,所述第二传输速率为16kbt/s,所述第三传输速率为32kbt/s,所述第四传输速率为64kbt/s,所述第五传输速率为128kbt/s。

在本发明可选实施例中,所述识别模块对所述待传输语音信息进行语音识别包括:

提取所述待传输语音信息的特征,得到表示所述待传输语音信息的特征向量;

将所述特征向量输入至预设声学模型,得到所述特征向量对应的音素信息;

将所述音素信息输入至预设语言模型,得到所述音素信息包含的元素,所述元素包括由字或词组成的字词序列;

基于预设字典对所述字词序列进行解码,得到所述待传输语音信息对应的文字信息。

在本发明可选实施例中,所述装置还包括:

提醒模块,用于若所述传输速率低于所述预设传输速率,向所述第一终端或所述第二终端发送增强网络信号强度的建议消息,或者,向所述第二终端发送存在语音传输的提醒消息。

在本发明可选实施例中,所述建议消息包括推荐连接网络或推荐移动路线。

本发明还提供一种计算机装置,所述计算机装置包括存储器及处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令以实现任意实施例中所述的语音传输方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现任意实施例中所述的语音传输方法。

由以上技术方案看出,本发明通过接收第一终端发送的语音通话传输指令,根据所述语音通话传输指令获取待传输语音信息以及接收所述待传输语音信息的第二终端;获取传输所述待传输语音信息时的传输速率;判断所述传输速率是否低于预设传输速率;若所述传输速率低于所述预设传输速率,对所述待传输语音信息进行语音识别,获取语音识别结果,所述语音识别结果包括所述待传输语音信息对应的文字信息;将所述语音识别结果包含的文字信息进行语音编码,得到目标语音信息;将所述目标语音信息传输至所述第二终端。由于在传输速率低于预设传输速率时,将语音识别结果包含的文字信息进行编码,保留了待传输语音信息的语音内容,减少了语音编码时编码的信息,从而有利于语音通话时进行流畅的通话,实现提高语音通话的质量的目的,避免语音通话时出现卡顿或通话中断。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本发明实施例提供的一种语音传输方法的流程图;

图2是本发明实施例提供的一种语音传输装置的功能模块图;

图3是本发明实现语音传输方法的较佳实施例的计算机装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示,图1为本发明实施例提供的一种语音传输方法的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

s11,接收第一终端发送的语音通话传输指令,根据所述语音通话传输指令获取待传输语音信息以及接收所述待传输语音信息的第二终端。

本实施例中,所述第一终端以及所述第二终端可以为相同的电子设备或不同的电子设备,例如,所述第一终端和所述第二终端都为手机,或者,所述第一终端为手机,所述第二终端为电脑。

所述语音通话传输指令是用于在两个终端之间发送语音信息的指令。

在本实施例中,所述第一终端为语音信息发送的发送方,即主叫方,所述第二终端为语音信息的接收方,即被叫方。

一种可能的实施例中,根据所述语音通话传输指令获取待传输语音信息以及接收所述待传输语音信息的第二终端包括:获取语音通话传输指令指示的待传输语音信息以及接收待传输语音信息的第二终端。

例如,语音通话传输指令中包含待传输语音信息,以及待传输语音信息的接收方,即接收到传输语音信息的第二终端。

s12,获取传输所述待传输语音信息时的传输速率。

所述传输速率即网络传输速率,是指在计算机网络上的主机在数字信道上传送数据的速率。例如,传输速率为16bit/s,表示每秒传输16bit的数据量。

在本实施例中,获取传输所述待传输语音信息时的传输速率包括:获取第一终端向第二终端传输待传输语音信息时第一终端的发送速率或所述第二终端的接收速率。

例如,在通过通信软件进行语音传输时,获取主叫方的传输速率,该速率反映了主叫方向基站/服务器发送语音信息时的数据传输速率;或者,在通过通信如软件进行语音传输时,获取被叫方的传输速率,该速率反映了被叫方接收语音信息时的数据传输速率。

s13,判断所述传输速率是否低于预设传输速率。

本实施例中,判断传输速率是否低于预设传输速率用于确定进行语音传输时,通信双方是否处于较差的网络环境中,是否会影响通话质量。

所述预设传输速率的具体值可以根据需要预先设定。

可选的,所述预设传输速率为8kbit/s。

可选的,在本发明另一实施例中,所述判断所述传输速率是否低于预设传输速率之后,所述方法还包括:

若所述传输速率高于所述预设传输速率,判断所述传输速率是否低于第一传输速率;

若所述传输速率低于所述第一传输速率,通过gia编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第一传输速率,判断所述传输速率是否低于第二传输速率;

若所述传输速率低于所述第二传输速率,通过gsm编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述二传输速率,判断所述传输速率是否低于第三传输速率;

若所述传输速率低于所述三传输速率,通过g.728编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第三传输速率,判断所述传输速率是否低于第四传输速率;

若所述传输速率低于所述第四传输速率,通过g.721编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第四传输速率,判断所述传输速率是否低于第五传输速率;

若所述传输速率低于所述第五传输速率,通过g.722编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第五传输速率,通过mpe编码标准对所述待传输语音信息进行编码并传输。

编码是用代码表示信息的过程,数字编码过程中,抽取某点的声音的频率值以及该频率的能量值并通过数字量化,相对于自然界的信号,任何数字音频编码方案都是有损的,目前最高保真的编码方式就是pcm编码,通过pcm编码可以无限程度的接近原始声音,但是pcm体积庞大,不利于传输,因此在音频传输过程中,我们会对音频进行其他形式的编码,以对音频进行压缩,提高传输的流畅度。

本实施例中,基于不同的编码标准采用不同的编码算法对语音信息进行编码。

例如,通过sb-adpcm算法实现基于g.722编码标准进行编码,通过adpcm算法实现基于g.721编码标准进行编码,通过ld-celp算法实现基于g.728编码标准进行编码,通过rpe-ltp算法实现基于gsm编码标准进行编码,通过vselpc算法实现基于gia编码标准进行编码。

在本实施例中,在不同的传输速率状况下,采用不同的编码标准进行编码,从而在以不同的传输速率传输过程中,可以尽可能保留更全面的语音信息,提高声音的质量。

可选的,第一传输速率为13.2kbt/s,所述第二传输速率为16kbt/s,所述第三传输速率为32kbt/s,所述第四传输速率为64kbt/s,所述第五传输速率为128kbt/s。

s14,若所述传输速率低于所述预设传输速率,对所述待传输语音信息进行语音识别,获取语音识别结果,所述语音识别结果包括所述待传输语音信息对应的文字信息。

本实施例中,语音识别是指将语音信号转换成对应的文字信息。

具体的,通过语音识别技术对待传输语音信息进行语音识别。

可选的,在本发明另一实施例中,所述对所述待传输语音信息进行语音识别包括:

提取所述待传输语音信息的特征,得到表示所述待传输语音信息的特征向量;

将所述特征向量输入至预设声学模型,得到所述特征向量对应的音素信息;

将所述音素信息输入至预设语言模型,得到所述音素信息包含的元素,所述元素包括由字或词组成的字词序列;

基于预设字典对所述字词序列进行解码,得到所述待传输语音信息对应的文字信息。

所述预设声学模型和预设语言模型可以根据需要选取。

s15,将所述语音识别结果包含的文字信息进行语音编码,得到目标语音信息。

本实施例中将语音识别结果包含的文字信息进行语音编码是将文字信息进行编码,不同于传统的对声音采样进行编码,可以大大减少传输时的数据量。

传统编码方式是对声音的频率和振幅进行采样编码,传统编码时传输的数据量计算方式如下:

数据量(字节/秒)=采样率(hz)*采样大小(bit)*声道数/8

以采样率16k单声道为例:1s的声音数据大小为:16000*16*1/8=32kb

在本实施例中,目标语音信息进行编码后每秒传输的语音数据为:语音编码时传输的数据量(字节/秒)=每秒说出字符数*对应字符编码大小(bit),其中,每秒说出字符数为语音识别到的语音信息中每秒的字符数,不同的字符数(如汉字)有对应的字符编码大小,可以根据预设字符与字符编码大小的对应关系来确定对应字符编码大小。

以待传输语音信息是中文为例,一般人每秒能说出的汉字在10个以下,汉字编码为2字符/汉字,则1s的数据量为:10*2=20bit,可以见得,本实施例进行语音信息传输时,每秒传输的数据量大大减小。

可选的,在本发明另一实施例中,所述语音识别结果还包括所述待传输语音信息的语音特征,所述语音特征包括基音频率;

所述将所述语音识别结果包含的文字信息进行语音编码包括:

将所述待传输语音信息对应的文字信息以及所述待传输语音信息的语音特征进行语音编码。

语音特征是指反映语音特征的信息。例如,语音的声强、响度或音高。

通常人在发浊声时,气流通过声门使声带产生张弛震荡式振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。这种声带振动的频率成为基音频率。

基音频率与声带的长短、薄厚、韧性、劲度和发音习惯等有关,能够很大程度上反应个人的特征。因此,在本实施例中结合基音频率进行编码,能够在保证内容准确传递的同时,最大程度保留声音的特征。

本实施例中,可以通过倒谱法获取语音信息的基音频率。

本实施例中将所述待传输语音信息对应的文字信息以及所述待传输语音信息的语音特征进行语音编码是将文字信息结合语音特征进行编码,也不同于传统的对声音采样进行编码,可以大大减少传输时的数据量。

在本实施例中,目标语音信息进行编码后每秒传输的语音数据为:语音编码时传输的数据量(字节/秒)=每秒说出字符数*对应字符编码大小(bit)+语音特征(依据提取的语音特征而定,如10bit/s),其中,每秒说出字符数为语音识别到的语音信息中每秒的字符数,不同的字符数(如汉字)有对应的字符编码大小,可以根据预设字符与字符编码大小的对应关系来确定对应字符编码大小。

以待传输语音信息是中文为例,一般人每秒能说出的汉字在10个以下,汉字编码为2字符/汉字,则1s的数据量为:10*2+10=30bit,可以见得,本实施例进行语音信息传输时,每秒传输的数据量大大减小。

s16,将所述目标语音信息传输至所述第二终端。

一种可选实施例中,在第二终端接收到目标语音信息之后,对目标语音信息进行解码,即将接收到的文字信息(或文字信息和语音特征)还原成语音。

一种可选实施例中,若在还原后的语音中没有内容时,通过白噪声填充。其中,白噪声是一段声音,具体的,白噪声是功率谱密度在整个频域内均匀分布的噪声。

通过在还原的声音中通过白噪声填充,可以避免用户通过第二终端听还原后的语音时,在没有听到声音时以为语音中断而引起的误操作(如退出)。

通过本实施例,虽然在编码过程中丢失了如音频、音量等特征,但在网络极差的情况下,仍然能够极大的保留语音内容,避免语音通话时出现语音断断续续、丢失语音内容甚至无法通话的状况。

在本发明另一实施例中,所述方法还包括:

若所述传输速率低于所述预设传输速率,向所述第一终端或所述第二终端发送增强网络信号强度的建议消息,或者,向所述第二终端发送存在语音传输的提醒消息。

在本实施例中,在传输速率低于预设传输速率时,向第一终端或第二终端发送增强网络信号强度的建议消息具体可以是如何使第一终端或第二终端增强网络信号的建议,从而有利于第一终端和第二终端之间传输待传输语音信息时的传输速率更高,进而提高语音通话的质量。

可选的,所述建议消息包括推荐连接网络或推荐移动路线。

本实施例中,所述推荐连接网络是向第一终端或第二终端推荐的其他可连接网络。所述推荐移动位置是指将第一终端或第二终端移动至何位置可以使第一终端或第二终端的网络信号增强。

进一步的,在发明另一实施例中,可以通过以下方式获取推荐连接网络,所述方法还包括:

获取第一终端或第二终端周围的可连接网络,获取所述可连接网络中网络信号强度大于所述网络信号强度阈值的网络为推荐连接网络;或者

获取第一终端或第二终端周围的可连接网络,获取所述可连接网络中网路信号强度最强的网络为推荐连接网络;或者

获取第一终端或第二终端周围的可连接网络,获取所述可连接网络中的安全网络,获取所述安全网络中网络信号强度大于所述网络信号强度阈值的网络为推荐网络;或者

获取第一终端或第二终端周围的可连接网络,获取所述可连接网络中的历史连接网络,获取所述历史网络中网络信号强度大于所述网络信号强度阈值的网络为推荐网络。

其中,所述历史连接网络是指第一终端或第二终端曾连接过的网络。

通过获取安全网络中网络信号强度大于网络信号强度阈值的网络为推荐网络,从而能获取到安全的网络,使第一终端或第二终端连接至安全的网络中,避免存在网络安全问题。

进一步的,在本发明另一实施例中,可以通过以下方式获取推荐移动路线,所述方法还包括:

获取第一终端或第二终端所处的第一位置,以及第一终端或第二终端周围的可用连接网络;

获取所述可用连接网络的第二位置;

将所述第一位置作为起始位置,所述第二位置作为终止位置,获取所述起始位置与所述终止位置之间的移动路线为所述推荐移动路线。

当第一终端以及第二终端的距离与可连接网络越近,越能获得更好的网络信号强度。例如,距离路由器越近时,越能获得更好的网络信号强度。

在本实施例中,获取推荐移动路线,可以有利于第一终端或第二终端进行移动,从而使得第一终端或第二终端具有更好的网络信号强度,有利于第一终端和第二终端之间传输待传输语音信息时的传输速率更高,进而提高语音通话的质量。

本发明提供的一种语音传输方法,接收第一终端发送的语音通话传输指令,根据所述语音通话传输指令获取待传输语音信息以及接收所述待传输语音信息的第二终端;获取传输所述待传输语音信息时的传输速率;判断所述传输速率是否低于预设传输速率;若所述传输速率低于所述预设传输速率,对所述待传输语音信息进行语音识别,获取语音识别结果,所述语音识别结果包括所述待传输语音信息对应的文字信息;将所述语音识别结果包含的文字信息进行语音编码,得到目标语音信息;将所述目标语音信息传输至所述第二终端。由于在传输速率低于预设传输速率时,将语音识别结果包含的文字信息进行编码,保留了待传输语音信息的语音内容,减少了语音编码时编码的信息,从而有利于语音通话时进行流畅的通话,实现提高语音通话的质量的目的,避免语音通话时出现卡顿或通话中断。

如图2所示,图2为本发明实施例提供的一种语音传输装置的功能模块图。所述语音传输装置包括接收模块210、获取模块220、判断模块230、识别模块240、编码模块250和第一传输模块260。本发明所称的模块是指一种能够被处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在计算机设备的存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

接收模块210,用于接收第一终端发送的语音通话传输指令,根据所述语音通话传输指令获取待传输语音信息以及接收所述待传输语音信息的第二终端。

本实施例中,所述第一终端以及所述第二终端可以为相同的电子设备或不同的电子设备,例如,所述第一终端和所述第二终端都为手机,或者,所述第一终端为手机,所述第二终端为电脑。

所述语音通话传输指令是用于在两个终端之间发送语音信息的指令。

在本实施例中,所述第一终端为语音信息发送的发送方,即主叫方,所述第二终端为语音信息的接收方,即被叫方。

一种可能的实施例中,根据所述语音通话传输指令获取待传输语音信息以及接收所述待传输语音信息的第二终端包括:获取语音通话传输指令指示的待传输语音信息以及接收待传输语音信息的第二终端。

例如,语音通话传输指令中包含待传输语音信息,以及待传输语音信息的接收方,即接收到传输语音信息的第二终端。

获取模块220,用于获取传输所述待传输语音信息时的传输速率。

所述传输速率即网络传输速率,是指在计算机网络上的主机在数字信道上传送数据的速率。例如,传输速率为16bit/s,表示每秒传输16bit的数据量。

在本实施例中,获取传输所述待传输语音信息时的传输速率包括:获取第一终端向第二终端传输待传输语音信息时第一终端的发送速率或所述第二终端的接收速率。

例如,在通过通信软件进行语音传输时,获取主叫方的传输速率,该速率反映了主叫方向基站/服务器发送语音信息时的数据传输速率;或者,在通过通信如软件进行语音传输时,获取被叫方的传输速率,该速率反映了被叫方接收语音信息时的数据传输速率。

判断模块230,用于判断所述传输速率是否低于预设传输速率。

本实施例中,判断传输速率是否低于预设传输速率用于确定进行语音传输时,通信双方是否处于较差的网络环境中,是否会影响通话质量。

所述预设传输速率的具体值可以根据需要预先设定。

可选的,所述预设传输速率为8kbit/s。

识别模块240,用于若所述传输速率低于所述预设传输速率,对所述待传输语音信息进行语音识别,获取语音识别结果,所述语音识别结果包括所述待传输语音信息对应的文字信息。

本实施例中,语音识别是指将语音信号转换成对应的文字信息。

具体的,通过语音识别技术对待传输语音信息进行语音识别。

可选的,在本发明另一实施例中,所述识别模块240对所述待传输语音信息进行语音识别包括:

提取所述待传输语音信息的特征,得到表示所述待传输语音信息的特征向量;

将所述特征向量输入至预设声学模型,得到所述特征向量对应的音素信息;

将所述音素信息输入至预设语言模型,得到所述音素信息包含的元素,所述元素包括由字或词组成的字词序列;

基于预设字典对所述字词序列进行解码,得到所述待传输语音信息对应的文字信息。

所述预设声学模型和预设语言模型可以根据需要选取。

编码模块250,用于将所述语音识别结果包含的文字信息进行语音编码,得到目标语音信息。

本实施例中将语音识别结果包含的文字信息进行语音编码即将文字信息进行编码,不同于传统的对声音采样进行编码,可以大大减少传输时的数据量。

传统编码方式是对声音的频率和振幅进行采样编码,传统编码时传输的数据量计算方式如下:

数据量(字节/秒)=采样率(hz)*采样大小(bit)*声道数/8

以采样率16k单声道为例:1s的声音数据大小为:16000*16*1/8=32kb

在本实施例中,目标语音信息进行编码后每秒传输的语音数据为:语音编码时传输的数据量(字节/秒)=每秒说出字符数*对应字符编码大小(bit),其中,每秒说出字符数为语音识别到的语音信息中每秒的字符数,不同的字符数(如汉字)有对应的字符编码大小,可以根据预设字符与字符编码大小的对应关系来确定对应字符编码大小。

以待传输语音信息是中文为例,一般人每秒能说出的汉字在10个以下,汉字编码为2字符/汉字,则1s的数据量为:10*2=20bit,可以见得,本实施例进行语音信息传输时,每秒传输的数据量大大减小。

可选的,在本发明另一实施例中,所述语音识别结果还包括所述待传输语音信息的语音特征,所述语音特征包括基音频率;

所述编码模块250将所述语音识别结果包含的文字信息进行语音编码包括:

将所述待传输语音信息对应的文字信息以及所述待传输语音信息的语音特征进行语音编码。

语音特征是指反映语音特征的信息。例如,语音的声强、响度或音高。

通常人在发浊声时,气流通过声门使声带产生张弛震荡式振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。这种声带振动的频率成为基音频率。

基音频率与声带的长短、薄厚、韧性、劲度和发音习惯等有关,能够很大程度上反应个人的特征。因此,在本实施例中结合基音频率进行编码,能够在保证内容准确传递的同时,最大程度保留声音的特征。

本实施例中,可以通过倒谱法获取语音信息的基音频率。

本实施例中将所述待传输语音信息对应的文字信息以及所述待传输语音信息的语音特征进行语音编码是将文字信息结合语音特征进行编码,也不同于传统的对声音采样进行编码,可以大大减少传输时的数据量。

在本实施例中,目标语音信息进行编码后每秒传输的语音数据为:语音编码时传输的数据量(字节/秒)=每秒说出字符数*对应字符编码大小(bit)+语音特征(依据提取的语音特征而定,如10bit/s),其中,每秒说出字符数为语音识别到的语音信息中每秒的字符数,不同的字符数(如汉字)有对应的字符编码大小,可以根据预设字符与字符编码大小的对应关系来确定对应字符编码大小。

以待传输语音信息是中文为例,一般人每秒能说出的汉字在10个以下,汉字编码为2字符/汉字,则1s的数据量为:10*2+10=30bit,可以见得,本实施例进行语音信息传输时,每秒传输的数据量大大减小。

第一传输模块260,用于将所述目标语音信息传输至所述第二终端。

一种可选实施例中,在第二终端接收到目标语音信息之后,对目标语音信息进行解码,即将接收到的文字信息(或文字信息和语音特征)还原成语音。

一种可选实施例中,若在还原后的语音中没有内容时,通过白噪声填充。其中,白噪声是一段声音,具体的,白噪声是功率谱密度在整个频域内均匀分布的噪声。

通过在还原的声音中通过白噪声填充,可以避免用户通过第二终端听还原后的语音时,在没有听到声音时以为语音中断而引起的误操作(如退出)。

通过本实施例,虽然在编码过程中丢失了如音频、音量等特征,但在网络极差的情况下,仍然能够极大的保留语音内容,避免语音通话时出现语音断断续续、丢失语音内容甚至无法通话的状况。

在本发明另一实施例中,所述装置还包括:

提醒模块,用于若所述传输速率低于所述预设传输速率,向所述第一终端或所述第二终端发送增强网络信号强度的建议消息,或者,向所述第二终端发送存在语音传输的提醒消息。

在本实施例中,在传输速率低于预设传输速率时,向第一终端或第二终端发送增强网络信号强度的建议消息具体可以是如何使第一终端或第二终端增强网络信号的建议,从而有利于第一终端和第二终端之间传输待传输语音信息时的传输速率更高,进而提高语音通话的质量。

可选的,所述建议消息包括推荐连接网络或推荐移动路线。

本实施例中,所述推荐连接网络是向第一终端或第二终端推荐的其他可连接网络。所述推荐移动位置是指将第一终端或第二终端移动至何位置可以使第一终端或第二终端的网络信号增强。

进一步的,在发明另一实施例中,可以通过推荐模块获取推荐连接网络,推荐模块用于:

获取第一终端或第二终端周围的可连接网络,获取所述可连接网络中网络信号强度大于所述网络信号强度阈值的网络为推荐连接网络;或者

获取第一终端或第二终端周围的可连接网络,获取所述可连接网络中网路信号强度最强的网络为推荐连接网络;或者

获取第一终端或第二终端周围的可连接网络,获取所述可连接网络中的安全网络,获取所述安全网络中网络信号强度大于所述网络信号强度阈值的网络为推荐网络;或者

获取第一终端或第二终端周围的可连接网络,获取所述可连接网络中的历史连接网络,获取所述历史网络中网络信号强度大于所述网络信号强度阈值的网络为推荐网络。

其中,所述历史连接网络是指第一终端或第二终端曾连接过的网络。

通过获取安全网络中网络信号强度大于网络信号强度阈值的网络为推荐网络,从而能获取到安全的网络,使第一终端或第二终端连接至安全的网络中,避免存在网络安全问题。

进一步的,在本发明另一实施例中,还可以通过推荐模块获取推荐移动路线,所述推荐模块还用于:

获取第一终端或第二终端所处的第一位置,以及第一终端或第二终端周围的可用连接网络;

获取所述可用连接网络的第二位置;

将所述第一位置作为起始位置,所述第二位置作为终止位置,获取所述起始位置与所述终止位置之间的移动路线为所述推荐移动路线。

当第一终端以及第二终端的距离与可连接网络越近,越能获得更好的网络信号强度。例如,距离路由器越近时,越能获得更好的网络信号强度。

在本实施例中,获取推荐移动路线,可以有利于第一终端或第二终端进行移动,从而使得第一终端或第二终端具有更好的网络信号强度,有利于第一终端和第二终端之间传输待传输语音信息时的传输速率更高,进而提高语音通话的质量。

可选的,在本发明另一实施例中,所述装置还包括第二传输模块,所述第二传输模块用于:

判断所述传输速率是否低于预设传输速率之后,若所述传输速率高于所述预设传输速率,判断所述传输速率是否低于第一传输速率;

若所述传输速率低于所述第一传输速率,通过gia编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第一传输速率,判断所述传输速率是否低于第二传输速率;

若所述传输速率低于所述第二传输速率,通过gsm编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述二传输速率,判断所述传输速率是否低于第三传输速率;

若所述传输速率低于所述三传输速率,通过g.728编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第三传输速率,判断所述传输速率是否低于第四传输速率;

若所述传输速率低于所述第四传输速率,通过g.721编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第四传输速率,判断所述传输速率是否低于第五传输速率;

若所述传输速率低于所述第五传输速率,通过g.722编码标准对所述待传输语音信息进行编码并传输;

若所述传输速率高于所述第五传输速率,通过mpe编码标准对所述待传输语音信息进行编码并传输。

编码是用代码表示信息的过程,数字编码过程中,抽取某点的声音的频率值以及该频率的能量值并通过数字量化,相对于自然界的信号,任何数字音频编码方案都是有损的,目前最高保真的编码方式就是pcm编码,通过pcm编码可以无限程度的接近原始声音,但是pcm体积庞大,不利于传输,因此在音频传输过程中,我们会对音频进行其他形式的编码,以对音频进行压缩,提高传输的流畅度。

本实施例中,基于不同的编码标准采用不同的编码算法对语音信息进行编码。

例如,通过sb-adpcm算法实现基于g.722编码标准进行编码,通过adpcm算法实现基于g.721编码标准进行编码,通过ld-celp算法实现基于g.728编码标准进行编码,通过rpe-ltp算法实现基于gsm编码标准进行编码,通过vselpc算法实现基于gia编码标准进行编码。

在本实施例中,在不同的传输速率状况下,采用不同的编码标准进行编码,从而在以不同的传输速率传输过程中,可以尽可能保留更全面的语音信息,提高声音的质量。

可选的,第一传输速率为13.2kbt/s,所述第二传输速率为16kbt/s,所述第三传输速率为32kbt/s,所述第四传输速率为64kbt/s,所述第五传输速率为128kbt/s。

本发明提供的一种语音传输装置,通过接收模块接收第一终端发送的语音通话传输指令,根据所述语音通话传输指令获取待传输语音信息以及接收所述待传输语音信息的第二终端;获取模块获取传输所述待传输语音信息时的传输速率;判断模块判断所述传输速率是否低于预设传输速率;若所述传输速率低于所述预设传输速率,识别模块对所述待传输语音信息进行语音识别,获取语音识别结果,所述语音识别结果包括所述待传输语音信息对应的文字信息;编码模块将所述语音识别结果包含的文字信息进行语音编码,得到目标语音信息;第一传输模块将所述目标语音信息传输至所述第二终端。由于在传输速率低于预设传输速率时,将语音识别结果包含的文字信息进行编码,保留了待传输语音信息的语音内容,减少了语音编码时编码的信息,从而有利于语音通话时进行流畅的通话,实现提高语音通话的质量的目的,避免语音通话时出现卡顿或通话中断。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。

如图3所示,图3是本发明实现语音传输方法的较佳实施例的计算机装置的结构示意图。所述计算机装置包括至少一个发送装置31、至少一个存储器32、至少一个处理器33、至少一个接收装置34以及至少一个通信总线。其中,所述通信总线用于实现这些组件之间的连接通信。

所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。所述计算机装置还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloudcomputing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机。

所述计算机装置可以是,但不限于任何一种可与用户通过键盘、触摸板或声控设备等方式进行人机交互的电子产品,例如,平板电脑、智能手机、监控设备等终端。

所述计算机装置所处的网络包括,但不限于互联网、广域网、城域网、局域网、虚拟专用网络(virtualprivatenetwork,vpn)等。

其中,所述接收装置34和所述发送装置31可以是有线发送端口,也可以为无线设备,例如包括天线装置,用于与其他设备进行数据通信。

所述存储器32用于存储程序代码。所述存储器32可以是集成电路中没有实物形式的具有存储功能的电路,如ram(random-accessmemory,随机存取存储器)、fifo(firstinfirstout,先进先出存储器)等。或者,所述存储器32也可以是具有实物形式的存储器,如内存条、tf卡(trans-flashcard)、智能媒体卡(smartmediacard)、安全数字卡(securedigitalcard)、快闪存储器卡(flashcard)等储存设备等等。

所述处理器33可以包括一个或者多个微处理器、数字处理器。所述处理器33可调用存储器32中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器32中的程序代码,并由所述处理器33所执行,以实现一种语音传输方法。所述处理器33又称中央处理器(cpu,centralprocessingunit),是一块超大规模的集成电路,是运算核心(core)和控制核心(controlunit)。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1