1.本申请涉及终端
技术领域:
,尤其涉及一种语音处理方法和电子设备。
背景技术:
:2.随着通信技术的不断发展,手机等电子设备已成为人们日常生活中不可或缺的一部分。在功能机时代,手机通常用1个麦克风进行通话拾音。在智能机时代,为了提升通话基础音质,往往采用多个麦克风进行阵列拾音。3.智能手机通常至少包含两个麦克风,其中手机顶部1个,手机底部1个。用手机底部的麦克风作为主拾音麦克风,顶部麦克作为辅助拾音麦克风,形成阵列,通话输送出去的是增强后的主拾音麦克风数据。然而,采用上述两个麦克风进行阵列拾音时,如果主拾音麦克风出现故障导致无法拾音,就会造成通话上行无声问题,即对方听不见本机主说话。现有技术中,通常通过检测语音能量来判断主拾音麦克风是否有故障,例如当检测到主拾音麦克风拾取信号能量很小时认为主麦克风存在故障。检测到主拾音麦克风有故障之后则切换到用辅助麦克风拾音,输出通话信号。4.然而,主拾音麦克风故障并不一定表现为拾取信号能量很小,上述通过语音的能量来检测主拾音麦克风是否故障的检测方法,故障检出率偏低,可能会出现主拾音麦克风故障却没有检测出来的情况,影响上行通话质量。技术实现要素:5.本申请提供一种语音处理方法和电子设备,以提升主麦克风的故障检出率,保证上行通话质量。6.本申请提供一种语音处理方法,该方法可以包括:获取主麦克风的语音信号。将主麦克风的语音信号输入至第一神经网络模型中,获取第一神经网络模型输出的检测结果,该检测结果用于指示主麦克风是否发生故障。其中,该第一神经网络模型为使用正常的主麦克风拾取的语音信号和故障的主麦克风拾取的语音信号进行训练后得到的。7.本实现方式,通过第一神经网络模型对语音信号进行检测,不依赖于能量检测,通过神经网络学习麦克故障时的语音特征,从而记忆麦克风故障时的特征,可以实现对主麦克风的语音信号的智能化识别,准确识别麦克风是故障的或者正常的,提升主麦克风的故障检出率。8.在一种可能的设计中,当主麦克风和辅助麦克风的语音信号的能量满足第一预设条件时,将主麦风的语音信号输入至第一神经网络模型中。9.本实现方式,可以根据能量先完成主麦克风的故障初筛,再通过第一神经网络模型完成主麦克风故障的准确判定,以降低电子设备的功耗。10.在一种可能实现方式中,该第一预设条件可以是主麦克风的语音信号的能量小于第一阈值,辅麦克风的语音信号的能量大于第二阈值,且辅麦克风的语音信号的能量与主麦克风的语音信号的能量的差值大于第三阈值时,或者,主麦克风的语音信号的能量大于第四阈值。11.在一种可能的设计中,当该检测结果用于指示所述主麦克风发生故障时,该方法还可以包括:获取至少一个辅助麦克风的语音信号。根据至少一个辅助麦克风的语音信号确定语音增益。根据语音增益和至少一个辅助麦克风的语音信号,获取调整后的语音信号。将调整后的语音信号作为上行通话信号。12.本实现方式,可以在主麦克风故障时,根据辅助麦克风的语音信号确定语音增益,以基于该语音增益对辅助麦克风的语音信号进行质量增强,以保证电话通信过程中的通信质量,避免上行通话无声的问题。13.在一种可能的设计中,根据至少一个辅助麦克风的语音信号确定语音增益的一种可实现方式包括:将至少一个辅助麦克风的语音信号输入至第二神经网络模型中,获取第二神经网络模型输出的至少一个频段对应的语音增益。其中,该第二神经网络模型为使用主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号进行训练后得到的。14.本实现方式,通过第二神经网络模型得到至少一个频段的语音增益,神经网络学习主麦克风和辅助麦克风的语音信号对应关系,从而记忆辅助麦克风与主麦克风的语音信号的特征关系,以便在主麦克风发生故障时,根据辅助麦克风的语音信号获得与主麦克风正常情况下相同或相近的信号,实现语音质量的智能化调节,保证通话质量。15.该至少一个频段的语音增益可以是至少一个频段内连续频点对应的语音增益,即可以是辅助麦克风到主麦克风的映射曲线,该映射曲线的横轴为频率轴,纵轴为语音增益轴。16.在一种可能的设计中,将至少一个辅助麦克风的语音信号输入至第二神经网络模型中的一种可实现方式包括:对至少一个辅助麦克风的语音信号进行特征提取,获取第一特征信息,该第一特征信息包括能量幅度谱、功率谱、bark域幅度谱或bark域子带谱中至少一项。将第一特征信息输入至第二神经网络模型中。17.本实现方式,通过特征提取,以提升第二神经网络模型的输出结果的准确率。18.在一种可能的设计中,将至少一个辅助麦克风的语音信号输入至第二神经网络模型中的一种可实现方式包括:将至少一个辅助麦克风的语音信号中信号质量最好的一个辅助麦克风的语音信号输入至第二神经网络模型中。19.例如,对至少一个辅助麦克风的语音信号中信号质量最好的一个辅助麦克风的语音信号进行特征提取,获取第一特征信息,将该第一特征信息输入至第二神经网络模型中。20.在一种可能的设计中,将至少一个辅助麦克风的语音信号输入至第二神经网络模型中的一种可实现方式包括:对至少一个辅助麦克风的语音信号进行拟合,将拟合后的语音信号输入至第二神经网络模型中。21.例如,对至少一个辅助麦克风的语音信号进行拟合,对拟合后的语音信号进行特征提取,获取第一特征信息,将该第一特征信息输入至第二神经网络模型中。22.在一种可能的设计中,将主麦克风的语音信号输入至第一神经网络模型中,包括:对主麦克风的语音信号进行特征提取,获取第二特征信息,该第二特征信息包括能量幅度谱、时频采样信号或语音频谱中至少一项。将该第二特征信息输入至第一神经网络模型中。23.本实现方式,通过特征提取,以提升第一神经网络模型的输出结果的准确率。24.在一种可能的设计中,该主麦克风的语音信号为预设时间间隔内的语音信号。25.例如,该预设时间间隔可以是10ms、20ms等。26.在一种可能的设计中,该第一神经网络模型的训练数据包括至少一组正常训练样本和至少一组故障训练样本,每组正常训练样本包括正常的主麦克风拾取的语音信号和第一标记,所述第一标记用于表示所述主麦克风未发生故障,每组故障训练样本包括故障的主麦克风拾取的语音信号和第二标记,所述第二标记用于表示所述主麦克风发生故障。27.本实现方式,通过包括至少一组正常训练样本和至少一组故障训练样本的训练数据,训练得到第一神经网络模型,使得第一神经网络模型可以准确区分正常的麦克风的语音信号和故障的麦克风的语音信号。28.在一种可能的设计中,所述第二神经网络模型的训练数据包括至少一个组映射样本,每组映射样本包括在相同使用姿态下的所述主麦克风拾取的语音信号和所述至少一个辅助麦克风拾取的语音信号。29.本实现方式,通过包括组映射样本的训练数据,训练得到第二神经网络模型,使得第二神经网络模型可以准确输出辅助麦克风的语音信号对应的语音增益,智能化调整语音信号输出。30.第二方面,本申请实施例提供一种语音处理装置,包括:获取模块,用于获取主麦克风的语音信号;第一神经网络模型,用于根据主麦克风的语音信号,输出检测结果,检测结果用于指示所述主麦克风是否发生故障。其中,该第一神经网络模型为使用正常的主麦克风拾取的语音信号和故障的主麦克风拾取的语音信号进行训练后得到的。31.在一种可能的设计中,当检测结果用于指示所述主麦克风发生故障时,获取模块还用于获取至少一个辅助麦克风的语音信号。所述装置还包括处理模块,用于根据至少一个辅助麦克风的语音信号确定语音增益;处理模块还用于根据语音增益和至少一个辅助麦克风的语音信号,获取调整后的语音信号,将调整后的语音信号作为上行通话信号。32.在一种可能的设计中,处理模块包括第二神经网络模型,该第二神经网络模型用于:根据输入的至少一个辅助麦克风的语音信号输出至少一个频段对应的语音增益。其中,第二神经网络模型为使用主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号进行训练后得到的。33.在一种可能的设计中,处理模块还用于:对至少一个辅助麦克风的语音信号进行特征提取,获取第一特征信息,第一特征信息包括能量幅度谱、功率谱、bark域幅度谱或bark域子带谱中至少一项;将第一特征信息输入至所述第二神经网络模型中。34.在一种可能的设计中,该装置还可以包括特征提取模块,用于:对主麦克风的语音信号进行特征提取,获取第二特征信息,第二特征信息包括能量幅度谱、时频采样信号或语音频谱中至少一项;将第二特征信息输入至第一神经网络模型中。35.在一种可能的设计中,主麦克风的语音信号为预设时间间隔内的语音信号。36.在一种可能的设计中,第一神经网络模型的训练数据包括至少一组正常训练样本和至少一组故障训练样本,每组正常训练样本包括正常的主麦克风拾取的语音信号和第一标记,第一标记用于表示所述主麦克风未发生故障,每组故障训练样本包括故障的主麦克风拾取的语音信号和第二标记,第二标记用于表示所述主麦克风发生故障。37.在一种可能的设计中,第二神经网络模型的训练数据包括至少一个组映射样本,每组映射样本包括在相同使用姿态下的所述主麦克风拾取的语音信号和所述至少一个辅助麦克风拾取的语音信号。38.第三方面,本申请实施例提供一种语音处理的方法,包括:使用至少一组正常训练样本和至少一组故障训练样本对神经网络模型进行训练,生成第一神经网络模型。每组正常训练样本包括正常的主麦克风拾取的语音信号和第一标记,第一标记用于表示主麦克风未发生故障,每组故障训练样本包括故障的麦克风拾取的语音信号和第二标记,第二标记用于表示主麦克风发生故障。39.本实现方式,使用正常的主麦克风拾取的语音信号和第一标记、故障的麦克风拾取的语音信号和第二标记训练神经网络模型,使得神经网络模型可以根据训练样本不断学习,进行模型调整,获取第一神经网络模型,使得第一神经网络模型可以准确识别麦克风是故障的或者正常的,在电子设备中应用该第一神经网络模型,可以提升电子设备对主麦克风的故障检出率。40.在一种可能的设计中,使用至少一组正常训练样本和至少一组故障训练样本对神经网络模型进行训练的一种可实现方式为:将至少一个正常的麦克风的语音信号输入至神经网络模型中,获取神经网络模型输出的检测结果,根据该检测结果和第一标记调整神经网络模型;将至少一个故障的麦克风的语音信号输入至神经网络模型中,获取神经网络模型输出的检测结果,根据该检测结果和第二标记调整神经网络模型。41.在一种可能的设计中,该方法还可以包括:当调整后的神经网络模型不满足第二预设条件时,调整神经网络模型,直至调整后的神经网络模型满足第二预设条件,当调整后的神经网络模型满足第二预设条件时,将调整后的神经网络模型作为第一神经网络模型。42.例如,该第二预设条件可以是损失代价结果小于预设阈值。43.在一种可能的设计中,将至少一个正常的麦克风的语音信号输入至神经网络模型中的一种可实现方式,对至少一个正常的麦克风的语音信号进行特征提取,获取第二特征信息,该第二特征信息包括能量幅度谱、时频采样信号或语音频谱中至少一项,将该至少一个正常的麦克风的第二特征信息输入至神经网络模型中。44.在一种可能的设计中,将至少一个故障的麦克风的语音信号输入至神经网络模型中的一种可实现方式,对至少一个故障的麦克风的语音信号进行特征提取,获取第二特征信息,该第二特征信息包括能量幅度谱、时频采样信号或语音频谱中至少一项,将该至少一个故障的麦克风的第二特征信息输入至神经网络模型中。45.第四方面,本申请实施例提供一种语音处理的方法,包括:使用至少一个组映射样本对神经网络模型进行训练,生成第二神经网络模型。每组映射样本包括在相同使用姿态下的主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号。46.本实现方式,使用在相同使用姿态下的主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号训练神经网络模型,使得神经网络模型可以根据训练样本不断学习辅助麦克风与主麦克风的语音信号的特征关系,进行模型调整,获取第二神经网络模型,使得第二神经网络模型基于辅助麦克风的语音信号,可以输出对应的语音增益,以便在主麦克风发生故障时,根据辅助麦克风的语音信号和该语音增益获得与主麦克风正常情况下相同或相近的信号,实现语音质量的智能化调节,保证通话质量。47.在一种可能的设计中,使用至少一个组映射样本对神经网络模型进行训练的一种可实现方式为:将至少一个辅助麦克风的语音信号输入至神经网络模型中,获取神经网络模型输出的语音增益,根据该语音增益、以及映射样本中的主麦克风的语音信号和至少一个辅助麦克风的语音信号调整神经网络模型。48.在一种可能的设计中,该方法还可以包括:当调整后的神经网络模型不满足第三预设条件时,调整神经网络模型,直至调整后的神经网络模型满足第三预设条件,当调整后的神经网络模型满足第三预设条件时,将调整后的神经网络模型作为第二神经网络模型。49.例如,该第三预设条件可以是损失代价结果小于预设阈值。50.在一种可能的设计中,将至少一个辅助麦克风的语音信号输入至神经网络模型中的一种可实现方式,对至少一个辅助麦克风的语音信号进行特征提取,获取第一特征信息,该第一特征信息包括能量幅度谱、功率谱、bark域幅度谱或bark域子带谱中至少一项,将该至少一个辅助麦克风的第一特征信息输入至神经网络模型中。51.第五方面,本申请实施例提供一种电子设备,该电子设备包括:主麦克风和至少一个辅麦克风,所述主麦克风和所述至少一个辅麦克风分别用于拾取语音信号;一个或多个处理器;存储器,用于存储程序指令;所述一个或多个处理器被配置为调用存储在所述存储器中的程序指令,以实现如第一方面任一项所述的方法。52.第六方面,本申请实施例提供一种计算机可读存储介质,包括计算机程序,所述计算机程序在计算机或处理器上被执行时,使得所述计算机或处理器执行第一方面任一项所述的方法。53.第七方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,当所述计算机程序被计算机或处理器执行时,用于执行第一方面任一项所述的方法。54.第八方面,本申请实施例提供一种语音处理装置,包括处理器和传输接口,该传输接口用于获取主麦克风的语音信号,该处理器被配置为调用存储在存储器中的程序指令,以执行如第一方面任一项所述的方法。55.第九方面,本申请实施例提供一种计算机可读存储介质,包括计算机程序,所述计算机程序在计算机或处理器上被执行时,使得所述计算机或处理器执行第三方面任一项所述的方法,和/或,第四方面任一项所述的方法。56.第十方面,本申请实施例提供一种语音处理装置,包括处理器和传输接口,该传输接口用于获取训练数据,该处理器被配置为调用存储在存储器中的程序指令,以执行如第三方面任一项所述的方法,和/或,第四方面任一项所述的方法。57.本申请实施例的语音处理方法和电子设备,通过获取主麦克风的语音信号,将主麦克风的语音信号输入至第一神经网络模型中,获取第一神经网络模型输出的检测结果,该检测结果用于指示主麦克风是否发生故障,该第一神经网络模型为使用正常的主麦克风拾取的语音信号和故障的主麦克风拾取的语音信号进行训练后得到的,可以实现对主麦克风的语音信号的智能化识别,识别其是故障的或者正常的,提升主麦克风的故障检出率,在故障时,进行拾音质量增强,以保证电话通信过程中的通信质量,避免上行通话无声的问题。附图说明58.图1为本申请实施例提供的一种应用场景的示意图;59.图2为本申请实施例提供的一种电子设备的麦克风的示意图;60.图3a为本申请实施例提供的一种语音处理方法的流程图;61.图3b为本申请实施例提供的一种语音处理过程的示意图;62.图4a为本申请实施例提供的一种第一神经网络模型的训练方法的流程图;63.图4b为本申请实施例提供的一种第一神经网络模型的训练过程的示意图;64.图5a为本申请实施例提供的另一种语音处理方法的流程图;65.图5b为本申请实施例提供的第二神经网络模型的处理过程的示意图;66.图5c为本申请实施例提供的信号质量增强处理过程的示意图;67.图6a为本申请实施例提供的一种第二神经网络模型的训练方法的流程图;68.图6b为本申请实施例提供的一种第二神经网络模型的训练过程的示意图;69.图7为本申请实施例提供的一种语音处理装置的结构示意图;70.图8为本申请实施例提供的另一种电子设备的结构示意图;71.图9为本申请实施例提供的另一种语音处理装置的结构示意图;72.图10为本申请实施例提供的另一种电子设备的结构示意图。具体实施方式73.本申请实施例所涉及的术语“第一”、“第二”等仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。74.应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。75.图1为本申请实施例提供的一种应用场景的示意图,如图1所示,该应用场景可以包括电子设备11和电子设备12,示例性的,电子设备11与电子设备12可以通过基站20进行通信,例如,电话通信,即利用通信网络实时传送双向语音以进行会话的一种通信方式。在电子设备11与电子设备12进行电话通信过程中,可以使用本申请实施例的语音处理方法,解决上行无声问题,提升上行通信质量。76.以电子设备12的上行无声问题进行举例说明,用户a手持电子设备11贴近耳朵进行电话通信,由于嘴巴靠近电子设备11的底部麦克风,该底部麦克风作为主麦克风收集用户a发出的语音信号,将该语音信号发送给电子设备12,用户b通过电子设备12的扬声器接收用户a的语音信号,当电子设备11的主麦克风故障时,电子设备11的主麦克风无法拾取用户a的声音或只有杂音,电子设备11发送给电子设备12的语音信号为无人声状态,即上述上行无声。77.电子设备11可以通过执行本申请实施例的语音处理方法,解决上行无声问题。为了解决上行无声问题,首先需要电子设备11能够有效识别主麦克风故障,现有技术通常采用根据语音信号的能量检测主麦克风是否故障的方式,该方式只能检测出部分故障情况,故障检出率偏低。与根据语音信号的能量检测故障的方式不同,本申请实施例可以利用神经网络模型检测麦克风是否故障,以提升故障检出率,其具体实施方式可以参见下述实施例的解释说明。78.在检测出主麦克风故障时,电子设备11可以直接使用辅助麦克风收集用户a发出的语音信号,如图2所示,电子设备11的底部和顶部分别设置有麦克风(111和112),其中,底部麦克风作为如上所述的主麦克风,顶部麦克风作为辅助麦克风,在主麦克风故障时,可以将辅助麦克风拾取的语音信号作为上行通话信号,电子设备11还可以通过本申请实施例的语音处理方法在主麦克风故障时,对辅助麦克风的语音信号进行拾音质量增强,将增强后的语音信号作为上行通话信号,以保证电话通信过程中的通信质量,其具体实施方式可以参见下述实施例的解释说明。通常情况下,在主麦克风正常时,辅助麦克风也可以拾取用户发出的语音信号,该辅助麦克风拾取的语音信号的能量较小,可以用于去噪等处理,在主麦克风故障时,本实施例可以基于该辅助麦克风拾取的语音信号得到与正常的主麦风的语音信号相同或相近的语音信号,以保证主麦克风故障时的通信质量。79.需要说明的是,电子设备11的麦克风的个数和麦克风的设置位置不以上述图2的举例作为限制,例如,麦克风的个数还可以是3个、4个等,本申请实施例不一一举例说明。80.本申请实施例涉及电子设备。电子设备可以是移动电话、平板个人电脑(tabletpersonalcomputer)、媒体播放器、智能电视、笔记本电脑(laptopcomputer)、个人数字助理(personaldigitalassistant,pda)、个人计算机(personalcomputer)、无线耳机、智能手表等可穿戴式设备(wearabledevice)、车载设备、或物联网(theinternetofthings,iot)设备(例如,智能家居设备)等,本申请实施例对此不作限定。81.本申请实施例的技术方案可以应用于各种通信系统,例如,可以是全球移动通信系统(globalsystemformobilecommunications,gsm)、码分多址(codedivisionmultipleaccess,cdma)系统、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)系统、通用分组无线业务(generalpacketradioservice,gprs)、长期演进(longtermevolution,lte)系统、通用移动通信系统(universalmobiletelecommunicationsystem,umts)、全球互联微波接入(worldwideinteroperabilityformicrowaveaccess,wimax)通信系统、第五代(5thgeneration,5g)系统或新无线(newradio,nr)或未来演进的公共陆地移动网络(publiclandmobilenetwork,plmn)系统等。82.图3a为本申请实施例提供的一种语音处理方法的流程图,本实施例的执行主体可以为电子设备或电子设备的处理器芯片,下述实施例以电子设备为例进行举例说明,如图3a所示,本实施例的方法可以包括:83.步骤101、获取主麦克风的语音信号。84.例如,该主麦克风可以是如图2所示的电子设备11的底部麦克风。再例如,该主麦克风可以是电子设备根据自身使用姿态(例如,手持贴耳、水平放置等)在多个麦克风中选取的一个麦克风,其可以根据需求进行灵活设置,本申请实施例不一一举例说明。85.需要说明的是,无论主麦克风是固定的,还是电子设备动态确定的,主麦克风所拾取的语音信号为该电子设备上行通话的主要信号来源,当该主麦克风故障时,对上行通话的通话质量影响较大,所以本申请实施例需要通过步骤101获取主麦克风的语音,进而通过下述步骤102以检测该主麦克风是否故障,从而及时发现故障,以进行语音信号增强等处理,减小由于主麦克风故障对上行通话所造成的影响。86.该主麦克风的语音信号可以为预设时间间隔内的语音信号,例如,预设时间间隔可以为10ms。例如,电子设备可以对主麦克风所拾取的语音信号进行分帧处理,以得到每10ms的主麦克风的语音信号。87.步骤102、将主麦克风的语音信号输入至第一神经网络模型中,获取第一神经网络模型输出的检测结果,该检测结果用于指示主麦克风是否发生故障。88.其中,该第一神经网络模型为使用正常的主麦克风拾取的语音信号和故障的主麦克风拾取的语音信号进行训练后得到的。该第一神经网络模型可以是任意神经网络模型,例如,深度神经网络(deepneuralnetwork,dnn)、卷积神经网络(convolutionalneuralnetworks,cnn)或其组合等。例如,该第一神经网络模型可以是两层全连接dnn模型。89.该第一神经网络模型通过正常的主麦克风拾取的语音信号和故障的主麦克风拾取的语音信号训练,学习到正常的主麦克风和故障的主麦克风拾取的信号的特征,从而可以对步骤101所获取的主麦克风的语音信号进行智能化识别,识别麦克风是故障的或者正常的。90.在一些实施例中,该第一神经网络模型的输出可以是一个二进制数,例如,1表示主麦克风发生故障,0表示主麦克风未发生故障。91.在一些实施例中,电子设备可以根据多个语音信号的检测结果,进行拾音质量增强,以保证电话通信过程中的通信质量,例如,当多个语音信号的检测结果中指示主麦克风故障的检测结果的比率大于85%时,可以通过下述实施例的方法进行拾音质量增强。例如多个语音信号的检测结果为01011111,其中,每一个比特位对应该主麦克风的语音信号中的一段信号,1表示主麦克风发生故障,0表示主麦克风未发生故障。92.在一些实施例中,步骤102中的将主麦克风的语音信号输入至第一神经网络模型中的一种可实现方式可以为:对主麦克风的语音信号进行特征提取,获取第二特征信息,该第二特征信息包括能量幅度谱、时频采样信号或语音频谱中至少一项。将该第二特征信息输入至第一神经网络模型中。即将主麦克风的语音信号的特征信息作为第一神经网络模型的输入,以得到检测结果。该特征提取的方式可以提升第一神经网络模型的检测结果的准确率。93.以一个10ms的主麦克风的语音信号为例,对特征提取的一种可实现方式进行举例说明,电子设备可以对该10ms的主麦克风的语音信号进行快速傅里叶变换(fastfouriertransform,fft),得到语音频谱x,该语音频谱x可以包括多个频率点的幅度,换言之,语音频率谱x的横轴可以是频率,纵轴可以是幅度,对每个频率点求能量幅度,得到能量幅度谱,该能量幅度谱可以包括多个频率点的能量幅度,将该能量幅度谱输入至第一神经网络模型中,输出检测结果。该能量幅度谱的横轴可以是频率,纵轴可以是能量。94.参见图3b,将主麦克风的语音信号输入至该第一神经网络模型,该第一神经网络模型输出如图3b的最右侧所示的检测结果。95.可选的,电子设备可以根据主麦克风的语音信号的能量,触发执行步骤102,例如,当主麦克风的语音信号的能量小于第一阈值,辅麦克风的语音信号的能量大于第二阈值,且辅麦克风的语音信号的能量与主麦克风的语音信号的能量的差值大于第三阈值时,或者,当主麦克风的语音信号的能量大于第四阈值时,电子设备通过步骤102确定主麦克风是否故障。即根据能量先完成主麦克风的故障初筛,再通过本申请实施例的步骤102完成主麦克风故障的准确判定。96.本实施例,通过获取主麦克风的语音信号,将主麦克风的语音信号输入至第一神经网络模型中,获取第一神经网络模型输出的检测结果,该检测结果用于指示主麦克风是否发生故障,该第一神经网络模型为使用正常的主麦克风拾取的语音信号和故障的主麦克风拾取的语音信号进行训练后得到的,可以实现对主麦克风的语音信号的智能化识别,识别其是故障的或者正常的,提升主麦克风的故障检出率,在故障时,进行拾音质量增强,以保证电话通信过程中的通信质量,避免上行通话无声的问题。97.图4a为本申请实施例提供的一种第一神经网络模型的训练方法的流程图,图4b为本申请实施例提供的一种第一神经网络模型的训练过程的示意图,如图4a所示,本实施例对本申请实施例所涉及的第一神经网络模型的训练过程进行解释说明,本实施例的执行主体可以是训练设备或训练设备内部的芯片,示例性的,该训练设备可以是服务器,本实施例的方法可以包括:98.步骤201、收集正常的主麦克风拾取的语音信号。99.例如,训练设备可以与一个或多个采集设备连接,本步骤中的一个或多个采集设备中的每个采集设备的主麦克风为正常的麦克风。每个采集设备可以将主麦克风拾取的语音信号发送给训练设备。100.步骤202、收集故障的主麦克风拾取的语音信号。101.例如,训练设备可以与一个或多个采集设备连接,本步骤中的一个或多个采集设备中的每个采集设备的主麦克风为故障的麦克风。每个采集设备可以将主麦克风拾取的语音信号发送给训练设备。102.步骤203、对正常的主麦克风拾取的语音信号进行特征提取,获取正常的主麦克风的第二特征信息,对故障的主麦克风拾取的语音信号进行特征提取,获取故障的主麦克风的第二特征信息。103.该正常的主麦克风的第二特征信息可以是正常的主麦克风的能量幅度谱、时频采样信号或语音频谱中至少一项,该故障的主麦克风的第二特征信息可以是故障的主麦克风的能量幅度谱、时频采样信号或语音频谱中至少一项。104.步骤204、对正常的主麦克风的第二特征信息和故障的主麦克风的第二特征信息进行特征标注。105.例如,训练设备可以标注该正常的主麦克风的第二特征信息的标记为第一标记,标注该故障的主麦克风的第二特征信息的标记为第二标记。该第一标记用于表示主麦克风未发生故障,该第二标记用于表示主麦克风发生故障。例如,该第一标记可以是0,第二标记可以是1。106.将正常的主麦克风的第二特征信息和第一标记作为一组正常训练样本,将故障的主麦克风的第二特征信息和第二标记作为一组故障训练样本。可以采用上述步骤构建至少一组正常训练样本和至少一组故障训练样本,将该至少一组正常训练样本和至少一组故障训练样本作为本实施例的训练数据。107.步骤205、对神经网络模型进行训练,得到第一神经网络模型。108.以该神经网络模型为dnn模型为例,对该神经网络模型进行训练的可实现方式进行举例说明:初始化dnn模型,例如可以将dnn模型的参数赋值为初始化的参数。将训练数据输入至初始化的dnn模型,经过循环迭代,获取第一神经网络模型。109.例如,参见图4b所示,以训练数据中的故障训练样本为例,将训练数据中故障的主麦克风的第二特征信息输入至初始化的dnn模型,经过处理后,输出检测结果,在本步骤中将输出的检测结果与训练数据的第二标记进行比对,例如,进行相应运算,得到一个损失代价结果,根据损失代价结果对初始化的dnn模型进行调整,例如可以设置一个损失代价结果满足的预设条件,如果不满足,则可以调整dnn模型的参数,以调整后的dnn模型对训练数据的故障的主麦克风的第二特征信息进行处理,进而计算一个新的损失代价结果,判断该新的损失代价结果是否满足预设条件,如此反复迭代,直至新的损失代价结果满足预设条件,得到第一神经网络模型。在如上图3a所示的故障检测阶段,使用该第一神经网络模型。110.本实施例,将训练数据输入至神经网络模型,经过循环迭代,获取第一神经网络模型,通过包括正常的主麦克风拾取的语音信号和故障的主麦克风拾取的语音信号的训练数据对模型进行训练,从而使得该第一神经网络模型具有识别主麦克分故障的能力,以实现对主麦克风的语音信号的智能化识别。111.通过图4a训练得到的第一神经网络模型可以配置到电子设备(例如,如图3a所示实施例的电子设备)中,以使得电子设备可以使用该第一神经网络模型检测主麦克风的故障。电子设备中的第一神经网络模型可以是软件功能模块,也可以是固化的硬件电路,例如,该硬件电路可以是运算电路等,本申请实施例对第一神经网络模型的具体形态不作具体限定。112.图5a为本申请实施例提供的另一种语音处理方法的流程图,图5b为本申请实施例提供的第二神经网络模型的处理过程的示意图,图5c为本申请实施例提供的信号质量增强处理过程的示意图,本实施例的执行主体可以为电子设备或电子设备内部的芯片,下述实施例以电子设备为例进行举例说明,电子设备在检测出主麦克风故障(例如,使用如上图3a所示的方法)后,可以通过本实施例的方法保证电话通信过程中的通信质量,如图5a所示,本实施例的方法可以包括:113.步骤301、获取至少一个辅助麦克风的语音信号。114.示例性的,在检测出主麦克风故障时,执行步骤301获取至少一个辅助麦克风的语音信号。检测主麦克风故障的方式可以是如图3a所示的方法,也可以采用其他方法检测主麦克风故障,本申请实施例对此不作限制。115.例如,电子设备判断主麦克风是否故障,若主麦克风故障,则执行步骤301,若主麦克风未故障,则电子设备可以对主麦克风的语音信号进行处理,并通过电子设备的通信模块发送给其他电子设备。116.该辅助麦克风的语音信号可以为预设时间间隔内的语音信号,例如,预设时间间隔可以为10ms。例如,电子设备可以对辅助麦克风所拾取的语音信号进行分帧处理,以得到每10ms的辅助麦克风的语音信号。117.步骤302、根据该至少一个辅助麦克风的语音信号确定语音增益。118.该语音增益可以包括多个频点的增益值,例如,5db、10db等。该语音增益也可以理解为一条映射曲线,该映射曲线的横轴为频率轴,纵轴为增益轴,该映射曲线包括各个频点对应的增益值。119.一种可实现方式,电子设备可以将至少一个辅助麦克风的语音信号中任意一个辅助麦克风的语音信号输入至第二神经网络模型中,输出至少一个频段对应的语音增益。120.另一种可实现方式,电子设备可以将至少一个辅助麦克风的语音信号中信号质量最好的一个辅助麦克风的语音信号输入至第二神经网络模型中,输出至少一个频段对应的语音增益。121.又一种可实现方式,电子设备可以对该至少一个辅助麦克风的语音信号进行拟合,将拟合后的语音信号输入至第二神经网络模型中,输出至少一个频段对应的语音增益。122.对该至少一个频段对应的语音增益的解释说明,每个频段对应的语音增益包括该频段内各个频点的增益值。本申请实施例可以将人的语音信号的频率范围划分为多个频段,第二神经网络模型可以输出一个或多个频段对应的语音增益。123.其中,第二神经网络模型为使用主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号进行训练后得到的。该第二神经网络模型可以是任意神经网络模型,例如,dnn、cnn、循环神经网络(rnn)或其组合等。例如,该第二神经网络模型可以是长短期记忆网络(longshort-termmemory,lstm)模型和两层全连接dnn模型串联的形式。124.该第二神经网络模型通过主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号训练,学习到主麦克风和至少一个辅助麦克风所拾取的信号的特征的对应关系,从而可以对辅助麦克风所拾取的语音信号进行质量增强,保证主麦克风故障的情况下的语音通话质量。125.在一些实施例中,步骤302中的将至少一个辅助麦克风的语音信号输入至第二神经网络模型中的一种可实现方式可以为:对至少一个辅助麦克风的语音信号进行特征提取,获取第一特征信息,该第一特征信息包括能量幅度谱、功率谱、bark域子带谱或bark域幅度谱中至少一项。将所该第一特征信息输入至第二神经网络模型中。即将辅助麦克风的语音信号的特征信息作为第二神经网络模型的输入,以得到语音增益。该特征提取的方式可以提升第二神经网络模型的语音增益的准确率。其中,功率谱包括该语音信号的多个频点对应的功率值。bark域是使用听觉滤波器模拟出的听觉的24个临界频带,并且因此具有24个频点。存在多种方式从线性频域转换到bark域。bark域相比于线性频域更符合人耳的听觉掩蔽效应。bark域具有对低频的放大作用和对高频的压缩作用,能更清晰地揭示哪些信号容易产生掩蔽和哪些噪声比较明显。126.以一个10ms的辅助麦克风的语音信号为例,对特征提取的一种可实现方式进行举例说明,电子设备可以对该10ms的辅助麦克风的语音信号进行fft,得到语音频谱x,对语音频谱x中的每个频率点求能量幅度,得到能量幅度谱,将该能量幅度谱输入至第二神经网络模型中,输出语音增益。127.以第二神经网络模型输出映射曲线为例,参见图5b,辅助麦克风的语音信号输入至第二神经网络模型中,该第二神经网络模型输出映射曲线。128.步骤303、根据语音增益和至少一个辅助麦克风的语音信号,获取调整后的语音信号,将调整后的语音信号作为上行通话信号。129.将该语音增益作用到辅助麦克风的语音信号上,能够得到与主麦克风具有相同或相似特性的语音信号,将调整后的语音信号作为上行通话信号。130.将语音增益作用到辅助麦克风的语音信号上的实现方式可以是,语音增益乘以辅助麦克风的语音信号,或者,语音增益与辅助麦克风的语音信号相加等。131.例如,频点f1的语音增益为5db,则可以在辅助麦克风的语音信号中频点f1的能量幅度基础上乘以5,得到调整后的该频点f1的能量幅度。132.参见图5c,将上述步骤中第二神经网络模型输出的映射曲线作用到辅助麦克风的语音信号上,该辅助麦克风的语音信号通过该映射曲线的调整后,可以得到调整后的语音信号。133.本实施例,通过获取至少一个辅助麦克风的语音信号,根据该至少一个辅助麦克风的语音信号确定语音增益,根据语音增益和至少一个辅助麦克风的语音信号,获取调整后的语音信号,将调整后的语音信号作为上行通话信号,可以在主麦克风故障时,进行拾音质量增强,以保证电话通信过程中的通信质量,避免上行通话无声的问题。134.通过第二神经网络模型得到辅助麦克风到主麦克风的映射曲线,以便在主麦克风发生故障时,在辅助麦克风的语音信号的基础上,根据映射曲线获得与主麦克风正常情况下相同或相近的信号,保证主麦克风故障时的通话质量。135.图6a为本申请实施例提供的一种第二神经网络模型的训练方法的流程图,图6b为本申请实施例提供的一种第二神经网络模型的训练过程的示意图,如图6a所示,本实施例对本申请实施例所涉及的第二神经网络模型的训练过程进行解释说明,本实施例的执行主体可以是训练设备或训练设备内部的芯片,该训练设备可以是服务器,本实施例的方法可以包括:136.步骤401、收集不同使用姿态下的主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号。137.例如,训练设备可以与一个或多个采集设备连接,本步骤中的一个或多个采集设备中的每个采集设备包括主麦克风和至少一个辅助麦克风。每个采集设备可以将不同使用姿态下主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号发送给训练设备。138.该不同使用姿态下的主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号可以采集相同的人或不同的人。139.举例而言,用户a以手持贴耳的姿态使用采集设备进行通话,用户a说话“您好”,采集设备的主麦克风和至少一个辅助麦克风分别拾取“您好”的语音信号,采集设备将主麦克风拾取的“您好”的语音信号和至少一个辅助麦克风拾取的“您好”的语音信号发送给训练设备。140.步骤402、对主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号进行特征提取,获取主麦克风的第一特征信息和至少一个辅助麦克风的第一特征信息。141.将主麦克风的第一特征信息和至少一个辅助麦克风的第一特征信息作为一组映射样本,可以采用上述步骤构建至少一组映射样本,将该至少一组映射样本作为本实施例的训练数据。该第一特征信息包括能量幅度谱、功率谱、bark域幅度谱或bark域子带谱中至少一项。142.步骤403、对神经网络模型进行训练,得到第二神经网络模型。143.以该神经网络模型为dnn+cnn模型为例,对该神经网络模型进行训练的可实现方式进行举例说明:初始化dnn+cnn模型,例如可以将dnn+cnn模型的参数赋值为初始化的参数。将训练数据输入至初始化的dnn+cnn模型,经过循环迭代,获取第二神经网络模型。144.例如,参见图6b所示,以训练数据中的一个映射训练样本为例,将训练数据中的至少一个辅助麦克风的第一特征信息输入至初始化的dnn+cnn模型,经过处理后,输出映射曲线,在本步骤中将输出的映射曲线与训练数据的映射曲线进行比对,该训练数据的映射曲线可以根据训练数据中的主麦克风的第一特征信息和至少一个辅助麦克风的第一特征得到。将输出的映射曲线与训练数据的映射曲线进行比对的方式例如进行相应运算,得到一个损失代价结果,根据损失代价结果对初始化的dnn+cnn模型进行调整,例如可以设置一个损失代价结果满足的预设条件,如果不满足,则可以调整dnn+cnn模型的参数,以调整后的dnn+cnn模型对训练数据的至少一个辅助麦克风的第一特征信息进行处理,进而计算一个新的损失代价结果,判断该新的损失代价结果是否满足预设条件,如此反复迭代,直至新的损失代价结果满足预设条件,得到第二神经网络模型。在如上图5a所示的拾音质量增强阶段,使用该第二神经网络模型。145.本实施例,将训练数据输入至神经网络模型,经过循环迭代,获取第二神经网络模型,通过包括主麦克风拾取的语音信号和辅助麦克风拾取的语音信号的训练数据对模型进行训练,第二神经网络模型可以学习主麦克风的语音信号和辅助麦克风的语音信号的映射关系,从而使得该第二神经网络模型可以基于辅助麦克风的语音信号输出语音增益,使用该语音增益调整辅助麦克风的语音信号,使用调整后的语音信号作为上行通话信号,在主麦克风故障时增强通话质量,以实现对辅助麦克风的语音信号的智能化调整,保证语音通话质量。146.通过图6a训练得到的第二神经网络模型可以配置到电子设备中,以使得电子设备可以在主麦克风的故障时,基于该第二神经网络模型输出的语音增益,调整辅助麦克风所拾取的语音信号,增强上行通话信号的质量。147.电子设备中的第二神经网络模型可以是软件功能模块,也可以是固化的硬件电路,例如,该硬件电路可以是运算电路等,本申请实施例对第二神经网络模型的具体形态不作具体限定。148.本申请实施例还提供一种语音处理装置,用于执行以上各方法实施例中电子设备或处理器执行的方法步骤。如图7所示,该语音处理装置可以包括:获取模块71和第一神经网络模型72。149.该获取模块71用于获取主麦克风的语音信号。150.该第一神经网络模型71用于根据主麦克风的语音信号输出检测结果,该检测结果用于指示主麦克风是否发生故障;其中,该第一神经网络模型为使用正常的主麦克风拾取的语音信号和故障的主麦克风拾取的语音信号进行训练后得到的。151.在一些实施例中,当该检测结果用于指示主麦克风发生故障时,获取模块71还用于获取至少一个辅助麦克风的语音信号。该装置还包括处理模块73,用于根据至少一个辅助麦克风的语音信号确定语音增益。处理模块73还用于根据语音增益和至少一个辅助麦克风的语音信号,获取调整后的语音信号,将调整后的语音信号作为上行通话信号。152.在一些实施例中,处理模块73包括第二神经网络模型731,该第二神经网络模型用于:根据输入的所述至少一个辅助麦克风的语音信号输出至少一个频段对应的语音增益;其中,第二神经网络模型为使用主麦克风拾取的语音信号和至少一个辅助麦克风拾取的语音信号进行训练后得到的。153.在一些实施例中,处理模块73具体还用于:对至少一个辅助麦克风的语音信号进行特征提取,获取第一特征信息,该第一特征信息包括能量幅度谱、功率谱、bark域幅度谱或bark域子带谱中至少一项;将第一特征信息输入至第二神经网络模型中。154.在一些实施例中,该装置还包括特征提取模块74,用于:对主麦克风的语音信号进行特征提取,获取第二特征信息,该第二特征信息包括能量幅度谱、时频采样信号或语音频谱中至少一项;该第一神经网络模型72用于根据第二特征信息输出检测结果。应当理解,对辅助麦克风的语音信号进行特征提取和对主麦克风的语音信号进行特征提取可以是由同一个模块完成的,例如都是由该特征提取模块完成的,或者都是由处理模块完成的。155.在一些实施例中,该主麦克风的语音信号为预设时间间隔内的语音信号。156.在一些实施例中,该第一神经网络模型的训练数据包括至少一组正常训练样本和至少一组故障训练样本,每组正常训练样本包括正常的主麦克风拾取的语音信号和第一标记,所述第一标记用于表示所述主麦克风未发生故障,每组故障训练样本包括故障的主麦克风拾取的语音信号和第二标记,所述第二标记用于表示所述主麦克风发生故障。157.在一些实施例中,该第二神经网络模型的训练数据包括至少一个组映射样本,每组映射样本包括在相同使用姿态下的所述主麦克风拾取的语音信号和所述至少一个辅助麦克风拾取的语音信号。158.本发明实施例提供的语音处理装置可以用于执行上述语音处理方法,其内容和效果可参考方法部分,本申请实施例对此不再赘述。159.本申请实施例另一些实施例还提供了一种电子设备,用于执行以上各方法实施例中的方法。如图8所示,该电子设备可以包括:麦克风801,该麦克风801可以包括主麦克风8011和至少一个辅助麦克风8012,其中,该主麦克风和至少一个辅麦克风分别用于拾取语音信号;一个或多个处理器802;存储器803;上述各器件可以通过一个或多个通信总线805连接。其中上述存储器803中存储一个或多个计算机程序804,一个或多个处理器802用于执行一个或多个计算机程序804,该一个或多个计算机程序804包括指令,上述指令可以用于执行上述方法实施例中电子设备执行的各个步骤。160.例如,一个或多个处理器802用于运行一个或多个计算机程序804,以实现以下动作:获取主麦克风的语音信号;将所述主麦克风的语音信号输入至第一神经网络模型中,获取第一神经网络模型输出的检测结果,所述检测结果用于指示所述主麦克风是否发生故障;其中,所述第一神经网络模型为使用正常的主麦克风拾取的语音信号和故障的主麦克风拾取的语音信号进行训练后得到的。161.在一些实施例中,当所述检测结果用于指示所述主麦克风发生故障时,获取至少一个辅助麦克风的语音信号;根据所述至少一个辅助麦克风的语音信号确定语音增益;根据所述语音增益和所述至少一个辅助麦克风的语音信号,获取调整后的语音信号,将所述调整后的语音信号作为上行通话信号。162.在一些实施例中,将所述至少一个辅助麦克风的语音信号输入至第二神经网络模型中,获取第二神经网络模型输出的至少一个频段对应的语音增益;其中,所述第二神经网络模型为使用所述主麦克风拾取的语音信号和所述至少一个辅助麦克风拾取的语音信号进行训练后得到的。163.在一些实施例中,对所述至少一个辅助麦克风的语音信号进行特征提取,获取第一特征信息,所述第一特征信息包括能量幅度谱、功率谱、bark域子带谱或bark域幅度谱中至少一项;将所述第一特征信息输入至所述第二神经网络模型中。164.在一些实施例中,对所述主麦克风的语音信号进行特征提取,获取第二特征信息,所述第二特征信息包括能量幅度谱、时频采样信号或语音频谱中至少一项;将所述第二特征信息输入至第一神经网络模型中。165.在一些实施例中,所述主麦克风的语音信号为预设时间间隔内的语音信号。166.在一些实施例中,所述第一神经网络模型的训练数据包括至少一组正常训练样本和至少一组故障训练样本,每组正常训练样本包括正常的主麦克风拾取的语音信号和第一标记,所述第一标记用于表示所述主麦克风未发生故障,每组故障训练样本包括故障的主麦克风拾取的语音信号和第二标记,所述第二标记用于表示所述主麦克风发生故障。167.在一些实施例中,所述第二神经网络模型的训练数据包括至少一个组映射样本,每组映射样本包括在相同使用姿态下的所述主麦克风拾取的语音信号和所述至少一个辅助麦克风拾取的语音信号。168.当然,图8所示的电子设备还可以包含如音频模块以及sim卡接口等其他器件,本申请实施例对此不做任何限制。当其包括其他器件时,具体可以为下述图10所示的电子设备。169.本申请实施例还提供一种语音处理装置,如图9所示,该语音处理装置包括处理器901和传输接口902,该传输接口902用于获取主麦克风的语音信号。170.传输接口902可以包括发送接口和接收接口,示例性的,传输接口902可以为根据任何专有或标准化接口协议的任何类别的接口,例如高清晰度多媒体接口(highdefinitionmultimediainterface,hdmi)、移动产业处理器接口(mobileindustryprocessorinterface,mipi)、mipi标准化的显示串行接口(displayserialinterface,dsi)、视频电子标准协会(videoelectronicsstandardsassociation,vesa)标准化的嵌入式显示端口(embeddeddisplayport,edp)、displayport(dp)或者v-by-one接口,v-by-one接口是一种面向图像传输开发的数字接口标准,以及各种有线或无线接口、光接口等。171.该处理器901被配置为调用存储在存储器中的程序指令,以执行如上述方法实施例的语音处理方法,其内容和效果可参考方法部分,本申请实施例对此不再赘述。可选的,该装置还包括存储器903。该处理器902可以为单核处理器或多核处理器组,该传输接口902为接收或发送数据的接口,该语音处理装置处理的数据可以包括音频数据、视频数据或图像数据。示例性的,该语音处理装置可以为处理器芯片。172.本申请实施例另一些实施例还提供一种计算机存储介质,该计算机存储介质可包括计算机指令,当该计算机指令在电子设备上运行时,使得该电子设备执行上述方法实施例中电子设备执行的各个步骤。173.本申请实施例另一些实施例还提供一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行上述方法实施例中电子设备执行的各个步骤。174.本申请实施例另一些实施例还提供一种装置,该装置具有实现上述方法实施例中电子设备行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块,例如,确定单元或模块,保存单元或模块,划分单元或模块,显示单元或模块。175.示例性的,图10示出了图1中的电子设备11(例如手机)的结构示意图。176.电子设备11可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universalserialbus,usb)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,传感器180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriberidentificationmodule,sim)卡接口195等。可以理解的是,本实施例示意的结构并不构成对电子设备11的具体限定。在本申请另一些实施例中,电子设备11可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件,或软件和硬件的组合实现。177.处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(applicationprocessor,ap),调制解调处理器,图形处理器(graphicsprocessingunit,gpu),图像信号处理器(imagesignalprocessor,isp),控制器,视频编解码器,数字信号处理器(digitalsignalprocessor,dsp),基带处理器,和/或神经网络处理器(neural-networkprocessingunit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。在一些实施例中,电子设备11也可以包括一个或多个处理器110。其中,控制器可以是电子设备11的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。这就避免了重复存取,减少了处理器110的等待时间,因而提高了电子设备11系统的效率。178.在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integratedcircuit,i2c)接口,集成电路内置音频(inter-integratedcircuitsound,i2s)接口,脉冲编码调制(pulsecodemodulation,pcm)接口,通用异步收发传输器(universalasynchronousreceiver/transmitter,uart)接口,移动产业处理器接口(mobileindustryprocessorinterface,mipi),通用输入输出(general-purposeinput/output,gpio)接口,用户标识模块(subscriberidentitymodule,sim)接口,和/或通用串行总线(universalserialbus,usb)接口等。其中,usb接口130是符合usb标准规范的接口,具体可以是miniusb接口,microusb接口,usbtypec接口等。usb接口130可以用于连接充电器为电子设备11充电,也可以用于电子设备11与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。179.可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备11的结构限定。在本申请另一些实施例中,电子设备11也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。180.充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过usb接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备11的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备11供电。181.电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。182.电子设备11的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。电子设备11中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。183.移动通信模块150可以提供应用在电子设备11上的包括2g/3g/4g/5g等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。184.调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170a,受话器170b等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。185.无线通信模块160可以提供应用在电子设备11上的包括无线局域网(wirelesslocalareanetworks,wlan),蓝牙,全球导航卫星系统(globalnavigationsatellitesystem,gnss),调频(frequencymodulation,fm),nfc,红外技术(infrared,ir)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。186.在一些实施例中,电子设备11的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备11可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括gsm,gprs,cdma,wcdma,td-scdma,lte,gnss,wlan,nfc,fm,和/或ir技术等。上述gnss可以包括全球卫星定位系统(globalpositioningsystem,gps),全球导航卫星系统(globalnavigationsatellitesystem,glonass),北斗卫星导航系统(beidounavigationsatellitesystem,bds),准天顶卫星系统(quasi-zenithsatellitesystem,qzss)和/或星基增强系统(satellitebasedaugmentationsystems,sbas)。187.电子设备11通过gpu,显示屏194,以及应用处理器等可以实现显示功能。gpu为图像处理的微处理器,连接显示屏194和应用处理器。gpu用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个gpu,其执行指令以生成或改变显示信息。188.显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquidcrystaldisplay,lcd),有机发光二极管(organiclight-emittingdiode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganiclightemittingdiode的,amoled),柔性发光二极管(flexlight-emittingdiode,fled),miniled,microled,micro-oled,量子点发光二极管(quantumdotlightemittingdiodes,qled)等。在一些实施例中,电子设备11可以包括1个或n个显示屏194,n为大于1的正整数。189.电子设备11可以通过isp,一个或多个摄像头193,视频编解码器,gpu,一个或多个显示屏194以及应用处理器等实现拍摄功能。190.npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现电子设备11的智能认知等应用,例如:语音处理,图像识别,人脸识别,语音识别,文本理解等。191.外部存储器接口120可以用于连接外部存储卡,例如microsd卡,实现扩展电子设备11的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐、照片、视频等数据文件保存在外部存储卡中。192.内部存储器121可以用于存储一个或多个计算机程序,该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令,从而使得电子设备11执行本申请一些实施例中所提供的语音处理方法,以及各种功能应用以及数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统;该存储程序区还可以存储一个或多个应用程序(比如图库、联系人等)等。存储数据区可存储电子设备11使用过程中所创建的数据(比如照片,联系人等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universalflashstorage,ufs)等。在一些实施例中,处理器110可以通过运行存储在内部存储器121的指令,和/或存储在设置于处理器110中的存储器的指令,来使得电子设备11执行本申请实施例中所提供的语音处理方法,以及各种功能应用及数据处理。193.电子设备11可以通过音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,以及应用处理器等实现音频功能。例如音乐播放,录音等。其中,音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。扬声器170a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备11可以通过扬声器170a收听音乐,或收听免提通话。受话器170b,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备11接听电话或语音信息时,可以通过将受话器170b靠近人耳接听语音。麦克风170c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170c发声,将声音信号输入到麦克风170c。电子设备11可以设置至少一个麦克风170c。在另一些实施例中,电子设备11可以设置两个麦克风170c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备11还可以设置三个,四个或更多麦克风170c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。耳机接口170d用于连接有线耳机。耳机接口170d可以是usb接口130,也可以是3.5mm的开放移动电子设备平台(openmobileterminalplatform,omtp)标准接口,还可以是美国蜂窝电信工业协会(cellulartelecommunicationsindustryassociationoftheusa,ctia)标准接口。194.传感器180可以包括压力传感器180a,陀螺仪传感器180b,气压传感器180c,磁传感器180d,加速度传感器180e,距离传感器180f,接近光传感器180g,指纹传感器180h,温度传感器180j,触摸传感器180k,环境光传感器180l,骨传导传感器180m等。195.按键190包括开机键,音量键等。按键190可以是机械按键,也可以是触摸式按键。电子设备11可以接收按键输入,产生与电子设备11的用户设置以及功能控制有关的键信号输入。196.sim卡接口195用于连接sim卡。sim卡可以通过插入sim卡接口195,或从sim卡接口195拔出,实现和电子设备11的接触和分离。电子设备11可以支持1个或n个sim卡接口,n为大于1的正整数。sim卡接口195可以支持nanosim卡,microsim卡,sim卡等。同一个sim卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。sim卡接口195也可以兼容不同类型的sim卡。sim卡接口195也可以兼容外部存储卡。电子设备11通过sim卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备11采用esim,即:嵌入式sim卡。esim卡可以嵌在电子设备11中,不能和电子设备11分离。197.本申请实施例的电子设备可以执行上述语音处理方法实施例的步骤,其技术原理和技术效果此处不再赘述。198.以上各实施例中提及的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。处理器可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、特定应用集成电路(application-specificintegratedcircuit,asic)、现场可编程门阵列(fieldprogrammablegatearray,fpga)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本申请实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成,或者用编码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。199.上述各实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicram,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram,ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。200.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。201.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。202.在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。203.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。204.另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。205.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。206.以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本
技术领域:
的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。当前第1页1 2 3