一种声纹特征模型更新方法及终端的制作方法

文档序号:2833255阅读:492来源:国知局
专利名称:一种声纹特征模型更新方法及终端的制作方法
技术领域
本发明属于语音识别技术领域,尤其涉及ー种声纹特征模型更新方法及終端。
背景技术
声纹识别是ー种利用人的声音实现的识别技术,由于人在讲话时使用的发声器官存在一定的差异性,任何两个人声音的声纹图谱都有差异,所以声纹可以作为表征个体差异的生物特征,也即可以通过建立声纹特征模型来表征不同的个体,进而利用该声纹特征模型进行识别不同的个体等。目前声纹特征模型的应用存在一个两难的选择,主要体现在训练语料的长度选取上,一般而言,声纹训练语料越长,建立的特征模型越精确,识别准确率越高,但是实用性不强;声纹训练语料较短,能保证较好的实用性,但识别准确率不高。而在实际应用中,比如手机屏幕声纹解锁的应用等,既要求有较高的识别准确率,以满足安全性,又要求训练语料不能太长,以保证较好的实用性。现有的声纹特征模型建立方法是通过在声纹注册阶段,由用户手动多次训练,每次训练均为短语料,最终将他们组合成较长的训练语料来生成特征模型。然而,由用户手动多次录入一定时长的训练语料,会给用户较差的体验,不具备较高的实用性;组合起来的训练语料长度仍然有限,不能生成较精确的特征模型,识别准确率无法进ー步提升;语速语调的变化、情绪波动等也都会影响模型建立的精确度。所以,如何在保证较高的实用性前提下,提高声纹特征模型精确度,进而提高识别准确率是急需解决的问题。

发明内容
本发明实施例的目的在于提供ー种声纹特征模型更新方法及終端,g在解决利用现有方法获取声纹特征模型时,无法保证在较高的实用性前提下,提高声纹特征模型精确度,导致利用该声纹特征模型无法提高识别准确率的问题。第一方面,所述声纹特征模型更新方法包括获取包含至少ー个说话者的原始音频流;根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每ー个说话者的分别的音频流;将所述至少ー个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流;将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。在第一方面的第一种可能的实现方式中,在所述获取包含至少ー个说话者的原始音频流之前还包括根据预设的音频流训练样本建立原始声纹特征模型。结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每ー个说话者的分别的音频流具体包括根据预设的说话人分割算法,将所述原始音频流分割成多个音频片段,所述多个音频片段中的每一音频片段仅包含所述至少一个说话者中同一个说话者的音频信息;根据预设的说话人聚类算法,将所述仅包含所述至少ー个说话者中同一个说话者的音频片段进行聚类,生成所述仅包含所述至少一个说话者中同一个、说话者音频信息的音频流。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述将所述至少一个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流具体包括根据所述至少一个说话者中每ー个说话者的音频流以及原始声纹特征模型,获取所述至少ー个说话者中每ー个说话者的音频流与所述原始声纹特征模型的匹配度;选取所述匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声 纹特征模型进行更新具体包括根据所述匹配成功的音频流以及预设的音频流训练样本,生成修正声纹特征模型;其中,所述预设的音频流训练样本为生成所述原始声纹特征模型的音频流;更新所述原始声纹特征模型为所述修正声纹特征模型。第二方面,所述终端包括原始音频流获取単元、分割与聚类单元、匹配単元以及模型更新単元,其中所述原始音频流获取単元,用于获取包含至少ー个说话者的原始音频流并发送给所述分割与聚类单元;所述分割与聚类单元,用于接收所述原始音频流获取単元发送的原始音频流并根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每ー个说话者的分别的音频流,并将所述至少一个说话者中每ー个说话者的分别的音频流发送给所述匹配単元;所述匹配単元,用于接收所述分割与聚类单元发送的所述至少一个说话者中每ー个说话者的分别的音频流,且将所述至少一个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流,并将所述匹配成功的音频流发送给所述模型更新単元;以及所述模型更新単元,用于接收所述匹配单元发送的所述匹配成功的音频流,并将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。在第二方面的第一种可能的实现方式中,所述终端还包括样本获取单元以及原始模型建立単元所述样本获取单元,用于获取预设的音频流训练样本并发送给所述原始模型建立単元;以及所述原始模型建立単元,用于接收所述样本获取单元发送的所述预设的音频流训练样本并根据所述预设的音频流训练样本建立原始声纹特征模型。结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述分割与聚类单元具体包括分割单元以及聚类单元所述分割単元,用于根据预设的说话人分割算法,将所述原始音频流分割成多个音频片段,所述多个音频片段中的每一音频片段仅包含所述至少一个说话者中同一个说话者的音频信息,并将所述仅包含所述至少一个说话者中同一个说话者的音频片段发送给所述聚类単元;以及所述聚类単元,用于接收所述分割单元发送的所述仅包含所述至少一个说话者中同一个说话者的音频片段,井根据预设的说话人聚类算法,将所述仅包含所述至少一个说话者中同一个说话者的音频片段进行聚类,生成所述仅包含所述至少一个说话者中同一个说话者音频信息的音频流。结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述匹配単元具体包括匹配度获取单元以及匹配音频流获取単元所述匹配度获取单元,用于根据所述至少一个说话者中每ー个说话者的音频流以及原始声纹特征模型,获取所述至少一个说话者中每ー个说话者的音频流与所述原始声纹特征模型的匹配度并将所述匹配度发送至所述匹配音频流获取単元;以及所述匹配音频流获取単元,用于接收所述匹配度获取单元发送的所述至少一个说话者中每ー个说话者的音频流与所述原始声纹特征模型的匹配度,选取所述匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流。结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式或第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述模型更新単元具体包括修正模型获取单元以及模型更新子単元所述修正模型获取单元,用于根据所述匹配成功的音频流以及所述预设的音频流训练样本,生成并发送修正声纹特征模型至所述模型更新子単元;以及所述模型更新子単元,用于接收所述修正模型获取单元发送的所述修正声纹特征模型,更新所述原始声纹特征模型为所述修正声纹特征模型。 本发明实施例通过获取包含至少ー个说话者的原始音频流,根据预设的说话人分割与聚类算法,获取该原始音频流中该至少一个说话者中每ー个说话者的分别的音频流,将该至少ー个说话者中每ー个说话者的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流,将该匹配成功的音频流作为生成该原始声纹特征模型的追加音频流训练样本,以更新该原始声纹特征模型,解决了利用现有方法获取声纹特征模型时,无法保证在较高的实用性前提下,提高声纹特征模型精确度,导致利用该声纹特征模型无法提高识别准确率的问题,提高了声纹特征模型精确度及识别准确率等。


图I是本发明第一实施例提供的声纹特征模型更新方法的实现流程图;图2是本发明第二实施例提供的声纹特征模型更新方法的实现流程图;图3是本发明实施例提供的原始音频流的分割与聚类示意图;图4是本发明第三实施例提供的终端的结构图;图5是本发明第四实施例提供的终端的结构图;图6是本发明第五实施例提供的终端的结构图;图7是本发明第六实施例提供的终端的结构图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进ー步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例通过获取至少ー个说话者时的原始音频流,根据预设的说话人分割与聚类算法,获取该原始音频流中该至少一个说话者中每ー个说话者的分别的音频流,进而获取与原始声纹特征模型相匹配的音频流,并将该匹配的音频流作为生成该原始声纹特征模型的追加音频流训练样本,以更新该原始声纹特征模型,使得声纹特征模型精确度得到提高,用户体验效果得到提升等。以下结合具体实施例对本发明的具体实现进行详细描述实施例一:
图I示出了本发明第一实施例提供的声纹特征模型更新方法的实现流程,详述如下在步骤SlOl中,获取包含至少ー个说话者的原始音频流。其中,该原始音频流可以为用户通过移动终端进行打电话、语音聊天等产生的音频流,也可以为通过录音等方式获取的音频流等。具体地,可以为某一移动终端用户在电话接通状态时,提示用户是否同意使用声纹学习功能,用户同意后,则录下说话过程中产生的音频流;或者終端中设置有是否自动在通话过程中启用声纹学习功能的开关,用户根据需要自行设置;或者终端设置有声纹学习功能,用户可以自行录制音频流。需要说明的是,由于一般电话通话或者聊天过程中,会有多人轮流參与会话,此时获取到的原始音频流中将会包括多人说话的音频数据。在步骤S102中,根据预设的说话人分割与聚类算法,获取该原始音频流中该至少一个说话者中每ー个说话者的分别的音频流。
具体地,由于该原始音频流中包含有至少ー个说话者的音频流,则需要根据预设的说话人分割算法,将该原始音频流分割成多个音频片段,该多个音频片段中的每一音频片段仅包含该至少一个说话者中同一个说话者的音频信息,再接着根据预设的说话人聚类算法,将仅包含该至少一个说话者中同一个说话者的音频片段进行聚类,最終生成仅包含该至少一个说话者中同一个说话者音频信息的音频流。在步骤S103中,将该至少ー个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流。其中,该原始声纹模型为根据预设的音频流训练样本,预先建立的声纹特征模型。该原始声纹特征模型为针对某一人或者多人完成的声纹注册过程后形成的特征模型,该注册过程对训练语料或称音频流训练样本的长短没有要求。此时,可以根据该至少一个说话者中每ー个说话者的音频流与该原始声纹特征模型的匹配度,来选取匹配成功的音频流。在步骤S104中,将该匹配成功的音频流作为生成该原始声纹特征模型的追加音频流训练样本,对该原始声纹特征模型进行更新。具体地,在获取该匹配成功的音频流后,根据该匹配成功的音频流以及预设的音频流训练样本,其中,该预设的音频流训练样本也即为生成上述原始声纹特征模型所使用的样本,接着调用声纹注册算法接ロ,生成修正声纹特征模型,该修正声纹特征模型则为更为精确的声纹特征模型,达到了模型自适应与智能化的目的。可选的,对于至少ー个说话者中每ー个说话者的音频流都无法与原始声纹特征模型进行匹配的情况,可以根据用户的预先设置新建声纹特征模型并进行记录。例如,对于首次使用的終端,其原始声纹特征模型为空值,不可能有音频流可以进行匹配,此时可以根据用户的设置,识别其中某一个说话者的音频流,调用声纹注册算法接ロ新建声纹特征模型,并将其更新为原始声纹特征模型。在本发明是实施例中,通过获取至少ー个说话者时的原始音频流,根据预设的说话人分割与聚类算法,获取该原始音频流中该至少一个说话者中每ー个说话者的分别的音频流,进而获取与原始声纹特征模型相匹配的音频流,并将该匹配的音频流作为生成该原始声纹特征模型的追加音频流训练样本,对该原始声纹特征模型进行更新,达到了可以不断地修正、更新声纹特征模型,不断提高声纹特征模型的精确度,用户体验效果得到提升等的目的。实施例ニ :图2示出了本发明第二实施例提供的声纹特征模型更新方法的实现流程,详述如下在步骤S201中,根据预设的音频流训练样本建立原始声纹特征模型。其中,该原始声纹特征模型为通过调用声纹注册算法接ロ,根据预设的音频流训练样本建立的声纹特征模型,该原始声纹特征模型为针对某一人或者多人完成的声纹注册过程后形成的特征模型,该注册过程对训练语料或称音频流训练样本的长短没有要求。且因为本发明实施例提供的方法可以实现对修正后的模型继续动态修正等,该原始声纹特征模型可以为利用现有方法获取的模型,也可以为利用本发明实施例的提供的方法进行修正后的ホ吴型。·在步骤S202中,获取包含至少ー个说话者的原始音频流。在具体实施过程中,该原始音频流可以为用户通过移动终端进行打电话、语音聊天等产生的音频流,也可以为通过录音等方式获取的音频流等。具体地,可以为某ー移动終端用户在电话接通状态时,提示用户是否同意使用声纹学习功能,用户同意后,则录下说话过程中产生的音频流;或者終端中设置有是否自动在通话过程中启用声纹学习功能的开关,用户根据需要自行设置;或者终端设置有声纹学习功能,用户可以自行录制音频流。需要说明的是,由于一般电话通话或者聊天过程中,会有多人轮流參与会话,此时获取到的原始音频流中将会包括多人说话的音频数据。进ー步地,由于用户在说话过程或者多人会话等过程中,一般会出现变化较大的语速、语调、情绪波动等,则通过不断收集通话过程中的语料能够尽量消除用户的各种语调、语速、情緒等因素对于声纹特征模型精确度的偏移,将会大大减少语调、语速、情緒等因素对声纹特征模型精确度的影响,也能够降低对声纹识别准确度的影响。在步骤S203中,根据预设的说话人分割算法,将该原始音频流分割成多个音频片段,该多个音频片段中的每一音频片段仅包含该至少一个说话者中同一个说话者的音频信
o在步骤S204中,根据预设的说话人聚类算法,将仅包含该至少一个说话者中同一个说话者的音频片段进行聚类,生成该仅包含该至少一个说话者中同一个说话者音频信息的音频流。具体地,以多人会话为例,假设參与会话的人分别为A用户、B用户、C用户,在用户同意录音后,可以通过开启录音模块,通话结束后或者录音时长到达后,录下通话过程中的原始音频流。则基于预设的说话人分割算法,能够将该原始音频流分割成多个音频片段,该每一音频片段仅包含一个说话人的音频信息,如图3所示,将原始音频流分割后,分别获取的音频片段分别为音频片段A、音频片段B、音频片段A、音频片段C、音频片段A、音频片段C,且音频片段A、音频片段B、音频片段C分别为按照说话时间顺序获取的用户A、B、C说话的不同片段,此后,利用预设的说话人聚类算法,将相同说话人的音频片段进行聚类,生成音频流A、音频流B、音频流C文件,比如音频流A包含了用户A所有的音频片段等,从而能够区分不同人的音频流,提取出属于同一人的有效音频流。其中,该说话人分割算法及聚类算法可以分别为现有的任意一种说话人分割算法及聚类算法,在此不做限定。
在步骤S205中,将该至少ー个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流。该步骤S205具体包括根据该至少ー个说话者中每ー个说话者的音频流以及原始声纹特征模型,获取该至少ー个说话者中每ー个说话者的音频流与该原始声纹特征模型的匹配度;选取该匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流。具体地,调用声纹确认算法接ロ,分别获取该音频流A、音频流B、音频流C与该原始声纹特征模型的匹配度A、匹配度B、匹配度C,所述匹配度的计算方式可以为将该音频流A、音频流B、音频流C分别作为原始声纹特征模型的输入值,则获取音频流A、音频流B、音频流C分别与原始声纹特征模型对应的匹配度A、匹配度B、匹配度C,或称为分别对应的概率A、概率B、概率C,比如该匹配度A则表明了该音频流A与该原始特征模型的相关度大小。假设该原始声纹特征模型是基于用户A的音频流训练样本建立的,则通常情况下匹配度A大 于匹配阈值,且匹配度B与匹配度C通常情况下应当小于匹配阈值,该预设的阈值可以为根据实际测试结果所得,可以预先设置也可以由用户自定义。则此时获取大于预设阈值的匹配度所对应的音频流,也即音频流A为匹配成功的音频流。当特殊情况下,如A和B声音很像的情况下,可能大于匹配阈值的音频流不止ー个,则可以选取匹配值最高的音频流作为匹配成功的音频流。另外,当该原始声纹特征模型为针对多人完成的声纹注册过程后形成的特征模型时,比如针对用户B及C的音频流训练样本建立的,则匹配后获取的音频流将很有可能同时包括音频流B及音频流C两种,从而实现了多人模式的声纹特征模型的匹配。这种情况下,针对所述多人中的每一人,分别执行上述步骤。在步骤S206中,将该匹配成功的音频流作为生成该原始声纹特征模型的追加音频流训练样本,对该原始声纹特征模型进行更新。该步骤S206具体包括根据该匹配成功的音频流以及预设的音频流训练样本,生成修正声纹特征模型;所述预设的音频流训练样本为生成所述原始声纹特征模型的音频流;更新该原始声纹特征模型为该修正声纹特征模型。具体地,将匹配成功的音频流作为追加音频流训练样本,也即根据该匹配成功的音频流以及所述预设的音频流训练样本,调用声纹注册算法接ロ,生成修正声纹特征模型,该修正声纹特征模型则为更为精确的声纹特征模型,达到了模型自适应与智能化的目的。进ー步地,还可以将所述更新后的声纹特征模型作为原始声纹模型,重复上述步骤,不断地修正、更新声纹特征模型,不断提高声纹特征模型的精确度。在本发明实施例中,通过自动地将语音通话的原始音频流作为声纹训练语料,在不影响用户体验或者減少用户操作的情况下,利用说话人分割及聚类算法处理收集到的原始音频流,以保证声纹训练语料的纯净,并追加匹配的音频流来加长训练语料,以动态修正原始的声纹特征模型,实现了对该声纹特征模型的动态修正、更新,提高了声纹特征模型的精确度,从而在利用该声纹特征模型进行语音识别等过程中,能够进ー步地提高识别率,也增强了用户使用体验。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于ー计算机可读取存储介质中,所述的存储介质,如R0M/RAM、磁盘、光盘等。实施例三:图4示出了本发明第三实施例提供的终端的结构,本发明实施例三提供的終端可以用于实施本发明实施例一至ニ实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未掲示的,请參照本发明实施例一与实施例ニ。该终端可以为包括手机、平板电脑、PDA (Personal Digital Assistant,个人数字助理)、P0S (Point of Sales,销售终端)、车载电脑等终端设备,以终端为手机为例,图4示出的是与本发明实施例提供的終端相关的手机400的部分结构的框图。參考图4,手机400包括RF (Radio Frequency,射频)电路410、存储器420、输入单元430、显示单元440、传感 器450、音频电路460、WiFi (wireless fidelity,无线保真)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解,图4中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。下面结合图4对手机400的各个构成部件进行具体的介绍RF电路410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器480处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少ー个放大器、收发信机、稱合器、LNA (Low Noise Amplifier,低噪声放大器)、双エ器等。此外,RF电路410还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobilecommunication,全球移动通讯系统)、GPRS (General Packet Radio Service,通用分组无线服务)、CDMA (Code Division Multiple Access,码分多址)、WCDMA (Wideband CodeDivision Multiple Access,宽带码分多址)、LTE (Long Term Evolution,长期演进)、电子邮件、SMS (Short Messaging Service,短消息服务)等。存储器420可用于存储软件程序以及模块,处理器480通过运行存储在存储器420的软件程序以及模块,从而执行手机400的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少ー个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机400的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少ー个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入单元430可用于接收输入的数字或字符信息,以及产生与手机400的用户设置以及功能控制有关的键信号输入。具体地,输入单元430可包括触控面板431以及其他输入设备432。触控面板431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作),井根据预先设定的程式驱动相应的连接装置。可选的,触控面板431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器480,并能接收处理器480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431,输入单元430还可以包括其他输入设备432。具体地,其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的ー种或多种。
显示单元440可用于显示由用户输入的信息或提供给用户的信息以及手机400的各种菜单。显示单元440可包括显示面板441,可选的,可以采用!XD(Liquid CrystalDisplay,液晶显示器)、OLED (Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板441。进ー步的,触控面板431可覆盖显示面板441,当触控面板431检测到在其上或附近的触摸操作后,传送给处理器480以确定触摸事件的类型,随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图4中,触控面板431与显示面板441是作为两个独立的部件来实现手机400的输入和输入功能,但是在某些实施例中,可以将触控面板431与显示面板441集成而实现手机400的输入和输出功能。手机400还可包括至少ー种传感器450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板441的亮度,接近传感器可在手机400移动到耳边时,关闭显示面板441和/或背光。作为运动传感器的ー种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切換、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机400还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。音频电路460、扬声器461,传声器462可提供用户与手机400之间的音频接ロ。音频电路460可将接收到的音频数据转换后的电信号,传输到扬声器461,由扬声器461转换为声音信号输出;另一方面,传声器462将收集的声音信号转换为电信号,由音频电路460接收后转换为音频数据,再将音频数据输出处理器480处理后,经RF电路410以发送给比如另一手机,或者将音频数据输出至存储器420以便进一歩处理。WiFi属于短距离无线传输技木,手机400通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了 WiFi模块470,但是可以理解的是,其并不属于手机400的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。处理器480是手机400的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行手机400的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器480可包括一个或多个处理単元;优选的,处理器480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器480中。手机400还包括给各个部件供电的电源490 (比如电池),优选的,电源可以通过电源管理系统与处理器480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管未示出,手机400还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端所包括的传声器462、存储器420和处理器480还具有以下功能所述传声器462,还用于获取包含至少ー个说话者的原始音频流,并将该原始音频流通过音频电路460发送给所述存储器420。在本发明实施例中,该原始音频流可以为用户通过手机终端进行打电话、语音聊天等产生的音频流,也可以为通过录音等方式由传声器462获取的音频流等。具体地,可以为某一手机終端用户在电话接通状态时,提示用户是否同意使用声纹学习功能,用户同意后,则录下说话过程中产生的音频流;或者終端中设置有是否自动在通话过程中启用声纹学习功能的开关,用户根据需要自行设置;或者手机终端设置有声纹学习功能,用户可以自行录制音频流。需要说明的是,由于一般电话通话或者聊天过程中,会有多人轮流參与会话,此时获取到的原始音频流中将会包括多人说话的音频数据。所述处理器480,还用于调取所述存储器中保存的原始音频流并在所述存储器420中调用预设的说话人分割与聚类算法,获取该原始音频流中该至少一个说话者中每ー 个说话者的分别的音频流,将该至少ー个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流,并将该匹配成功的音频流作为生成该原始声纹特征模型的追加音频流训练样本,对该原始声纹特征模型进行更新。在本发明实施例中,由于该原始音频流中包含有至少ー个说话者的音频流,则需要处理器480调用所述存储器420中预设的说话人分割算法,将该原始音频流分割成多个音频片段,该多个音频片段中的每一音频片段仅包含该至少一个说话者中同一个说话者的音频信息,处理器480接着根据预设的说话人聚类算法,将仅包含该至少一个说话者中同一个说话者的音频片段进行聚类,最終生成仅包含该至少一个说话者中同一个说话者音频信息的音频流。且进ー步能够结合每一人的分别的音频流及原始声纹特征模型,获知该至少ー个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配后的匹配度,可以将匹配度高于预设的匹配阈值且匹配度最高的音频流作为匹配成功的音频流,从而将该匹配成功的音频流作为生成该原始声纹特征模型的追加音频流训练样本,调用声纹注册算法接ロ,对该原始声纹特征模型进行更新,以获取更为精确的声纹特征模型。在本发明实施例提供了ー种包括传声器462、存储器420、处理器480等的終端,通过传声器462获取至少ー个说话者时的原始音频流,并将该原始音频流通过音频电路460发送给存储器420,处理器480接收传声器462通过音频电路460发送的原始音频流,并调用所述存储器420中预设的说话人分割与聚类算法,获取该原始音频流中该至少一个说话者中每ー个说话者的分别的音频流,进而获取与原始声纹特征模型相匹配的音频流,并将该匹配的音频流作为生成该原始声纹特征模型的追加音频流训练样本,对该原始声纹特征模型进行更新,保证在了较高的实用性前提下,对该声纹特征模型的动态修正、更新等,提高了声纹特征模型的精确度。实施例四图5示出了本发明第四实施例提供的终端的结构,为了便于说明,仅示出了与本发明实施例相关的部分。本发明实施例四提供的終端可以用于实施本发明实施例一至ニ实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未掲示的,请參照本发明实施例一与实施例ニ。
具体地,图5示出的是与本发明实施例提供的終端相关的手机500的部分结构的框图。在图4所示的结构的基础上,本发明实施例中使用传声器51、处理器52分别代替图4中所示的传声器462、处理器480,其中该传声器51除包括上述实施例三中传声器462所包括的功能外,还包括用于获取预设的音频流训练样本,并将该音频流训练样本通过音频电路460发送给存储器420,以由所述处理器52调用存储器中预设的声纹注册算法接ロ根据该预设的音频流训练样本建立原始声纹特征模型。在本发明实施例中,该原始声纹特征模型为通过调用声纹注册算法接ロ,根据预设的音频流训练样本建立的声纹 特征模型,该原始声纹特征模型为针对某一人或者多人完成的声纹注册过程后形成的特征模型,该注册过程对训练语料或称音频流训练样本的长短没有要求。且因为本发明实施例提供的方法可以实现对修正后的模型继续动态修正等,该原始声纹特征模型可以为利用现有方法获取的模型,也可以为利用本发明实施例的提供的方法进行修正后的模型。此时,该处理器52还用于根据所述传声器51接收的至少ー个说话者说话时的原始音频流,并调用存储器420中预设的说话人分割算法,将该原始音频流分割成多个音频片段,该多个音频片段中的每一音频片段仅包含该至少一个说话者中同一个说话者的音频信息,再调用存储器420中预设的说话人聚类算法,将仅包含该至少一个说话者中同一个说话者的音频片段进行聚类,生成仅包含该至少一个说话者中同一个说话者音频信息的音频流。进ー步地,该处理器52还用于根据该至少ー个说话者中每ー个说话者的音频流以及原始声纹特征模型,获取该至少ー个说话者中每ー个说话者的音频流与该原始声纹特征模型的匹配度,选取该匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流,据该匹配成功的音频流以及该预设的音频流训练样本,生成修正声纹特征模型,更新该原始声纹特征模型为该修正声纹特征模型。在本发明实施例中,该传声器51能够获取预设的音频流训练样本,其中,该预设的音频流训练样本为建立原始声纹特征模型所需要的原始音频流。该传声器51还能够获取至少ー个说话者时的原始音频流,所述处理器52可以依次在所述存储器420中调用预设的声纹注册算法接ロ、说话人分割算法、预设的说话人聚类算法,实现生成仅包含该至少一个说话者中同一个说话者音频信息的音频流,最終能够得到匹配成功的音频流,结合该匹配成功的音频流以及该预设的音频流训练样本,生成修正声纹特征模型,更新该原始声纹特征模型为该修正声纹特征模型,则利用该修正声纹特征模型实现对音频流的识别准确度较原始声纹特征模型大大提高,也进ー步提升了用户使用体验。实施例五图6示出了本发明第五实施例提供的终端的结构,为了便于说明,仅示出了与本发明实施例相关的部分。本发明实施例五提供的終端可以用于实施本发明实施例一至ニ实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未掲示的,请參照本发明实施例一与实施例ニ。该终端包括原始音频流获取単元61、分割与聚类单元62、匹配単元63、模型更新单兀64,而该原始音频流获取单兀61与上述实施例三中所述传声器41所包含的功能对应,该分割与聚类单元62、匹配単元63以及模型更新単元64与上述实施例三中所述处理器42所包含的功能一一对应,其中该原始音频流获取単元61,用于获取包含至少ー个说话者的原始音频流并发送给该分割与聚类单兀62 ;该分割与聚类单元62,用于接收该原始音频流获取単元61发送的原始音频流并根据预设的说话人分割与聚类算法,获取该原始音频流中该至少一个说话者中每ー个说话者的分别的音频流,并将该至少ー个说话者中每ー个说话者的分别的音频流发送给该匹配単元63 ;该匹配単元63,用于接收该分割与聚类单元62发送的该至少一个说话者中每ー个说话者的分别的音频流,且将该至少ー个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流,并将该匹配成功的音频流发送给该模型更新単元64 ;
该模型更新単元64,用于接收该匹配単元63发送的匹配成功的音频流,并将该匹配成功的音频流作为生成该原始声纹特征模型的追加音频流训练样本,对该原始声纹特征模型进行更新。在本发明实施例中,当进入监听通话状态后,该原始音频流获取単元61能够监听获取音频流,该音频流可以为通过录音机、语音聊天软件等产生。在本发明实施例中,该分割与聚类单元62能够实现将原始音频流分割成若干音频片段,每个音频片段仅包含一个说话人的音频信息,再将相同说话人的音频片段重新聚类合在一起,生成属于每ー个的音频流,最終实现将原始音频流分割成表征不同说话人的音频流,也即生成所有说话人中属于同一个说话者音频信息的音频流。该匹配単元63遍历各音频流,结合原始声纹特征模型,获取每一音频流与该原始声纹特征模型的匹配度,具体可以将该各音频流分别作为原始声纹特征模型的输入值,获取与各音频流对应的概率或称匹配度,获取与该原始声纹特征模型相匹配的一个或者多个音频流,在实际操作过程中,可以选取该匹配度最高且大于预设匹配阈值的匹配度所对应的音频流作为匹配成功的音频流,保证获取的音频流为与原始声纹特征模型的相关度较高,从而作为声纹训练语料的音频流也较为纯净。该模型更新単元64将匹配成功的音频流作为生成该原始声纹特征模型的追加音频流训练样本,进行声纹注册,生成新的声纹特征模型或称为修正声纹特征模型,将更新原始声纹特征模型为该修正声纹特征模型。最終在获取声纹特征模型时,保证了在较高的实用性前提下,提高声纹特征模型精确度的目的。实施例六:图7示出了本发明第六实施例提供的终端的结构,为了便于说明,仅示出了与本发明实施例相关的部分。本发明实施例六提供的終端可以用于实施本发明实施例一至ニ实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未掲示的,请參照本发明实施例一与实施例ニ。该终端包括样本获取単元71、原始模型建立単元72、原始音频流获取単元73、分割与聚类单元74、匹配単元75、模型更新単元76,而该原始音频流获取単元73、分割与聚类単元74、匹配単元75、模型更新単元76分别上述实施例五所述原始音频流获取単元61、分割与聚类单元62、匹配単元63、模型更新単元64的功能一一对应,在此不再赘述,其中
样本获取単元71,用于获取预设的音频流训练样本并发送给该原始模型建立単元72 ;原始模型建立単元72,用于根据该预设的音频流训练样本建立原始声纹特征模型。其中,该原始声纹特征模型为该原始模型建立単元72通过调用声纹注册算法接ロ,根据该样本获取单元71发送的预设的音频流训练样本建立的声纹特征模型,该原始声纹特征模型为针对某一人或者多人完成的声纹注册过程后形成的特征模型,该注册过程对
训练语料或称音频流训练样本的长短没有要求。且因为本发明实施例提供的方法可以实现对修正后的模型继续动态修正等,该原始声纹特征模型可以为利用现有方法获取的模型,也可以为利用本发明实施例的提供的方法进行修正后的模型。在本发明实施例中,当进入监听通话状态后,该原始音频流获取単元73能够监听获取音频流,该音频流可以为通过录音机、语音聊天软件等产生。以该终端为智能手机中为例,当该智能手机在电话接通状态时,提示用户是否同意使用声纹学习功能,用户同意后,则能够录下參与通话的用户本身以及通话的另一方的音频流;或者終端中设置有是否自动在通话过程中启用声纹学习功能的开关,用户根据需要自行设置;或者终端设置有声纹学习功能,用户可以自行录制音频流。需要说明的是,由于一般电话通话或者聊天过程中,会有多人轮流參与会话,此时获取到的原始音频流中将会包括多人说话的音频数据。通过该原始音频流获取単元73获取的原始音频流能够覆盖说话人的各种语调、语速、情緒等方面的音频数据,減少了该语调、语速、情緒等因素对模型准确的影响,且该音频流的获取过程不需要用户刻意地输入一定次数、时长的音频流,減少了用户操作复杂度,保证了获取过程的实用性,也提升用户体验效果。如图7所示,该分割与聚类单元74具体包括分割単元741及聚类单元742,其中该分割単元741,用于根据预设的说话人分割算法,将该原始音频流分割成多个音频片段,该多个音频片段中的每一音频片段仅包含该至少一个说话者中同一个说话者的音频信息,并将该仅包含该至少一个说话者中同一个说话者的音频片段发送给聚类单元742 ;以及该聚类単元742,用于接收该分割単元741发送的该仅包含该至少一个说话者中同一个说话者的音频片段,井根据预设的说话人聚类算法,将仅包含该至少一个说话者中同一个说话者的音频片段进行聚类,生成该仅包含该至少一个说话者中同一个说话者的音频信息的音频流。在本发明实施例中,该分割単元741能够实现将原始音频流分割成若干音频片段,每个音频片段仅包含一个说话人的音频信息,再通过聚类単元742将相同说话人的音频片段重新聚类合在一起,生成属于每ー个的音频流,最終实现将原始音频流分割成表征不同说话人的音频流。如图7所示,该匹配単元75具体包括匹配度获取单元751以及匹配音频流获取单元752,其中该匹配度获取单元751,用于根据该至少一个说话者中每ー个说话者的音频流以及原始声纹特征模型,获取并发送该至少ー个说话者中每ー个说话者的音频流与该原始声纹特征模型的匹配度至该匹配音频流获取単元752 ;以及
该匹配音频流获取単元752,用于接收该匹配度获取单元751发送的该至少ー个说话者中每ー个说话者的音频流与该原始声纹特征模型的匹配度,选取该匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流。在本发明实施例中,通过匹配度获取单元7511遍历各音频流,根据该至少ー个说话者中每ー个说话者的音频流以及原始声纹特征模型,获取该至少ー个说话者中每ー个说话者的音频流与该原始声纹特征模型的匹配度,具体为将该各音频流分别作为原始声纹特征模型的输入值,获取与各音频流对应的匹配值,具体可以通过调用声纹确认算法接ロ实现匹配值的获取,再由匹配音频流获取単元752获取与该原始声纹特征模型相匹配的ー个或者多个音频流,具体可以选取该匹配度最高且大于预设匹配阈值的匹配度所对应的音频流作为匹配成功的音频流,以保证获取的音频流为与原始声纹特征模型的相关度较高,使得作为声纹训练语料的音频流也较为纯净。如图7所示,该模型更新単元76具体包括修正模型获取单元761以及模型更新子单元762,其中
该修正模型获取单元761,用于根据该匹配成功的音频流以及该预设的音频流训练样本,生成并发送修正声纹特征模型至该模型更新子単元762 ;以及该模型更新子単元762,用于接收该修正模型获取单元761发送的该修正声纹特征模型,更新该原始声纹特征模型为该修正声纹特征模型。在本发明实施例中,将匹配成功的音频流作为生成该原始声纹特征模型的追加音频流训练样本,也即通过该修正模型获取单元761结合生成该原始声纹特征模型时用到的音频流训练样本以及该匹配成功的音频流,进行声纹注册,生成新的声纹特征模型或称为修正声纹特征模型,该模型更新子単元762将更新原始声纹特征模型为该修正声纹特征模型。本发明实施例提供了ー种包括样本获取単元71、原始模型建立単元72、原始音频流获取单元73、分割与聚类单元74、匹配単元75、模型更新単元76的終端,实现了通过监听说话人的原始音频流信息作为声纹训练语料,利用预设的说话人分割与聚类算法处理该原始音频流信息,以获取追加的音频流训练样本,从而根据该追加的音频流训练样本等,对原始声纹特征模型的修正更新操作,保证了在较高的实用性前提下,提高声纹特征模型精确度。进而,在将该修正的原始声纹特征模型应用到终端的声纹解锁方案中吋,大大提高了声纹识别的准确度,且若该原始声纹特征模型为针对多人的语音音频流训练样本建立的,则更新后的该原始声纹特征模型更能够准确地识别该多人的音频信息,以进行解锁等,使得该解锁过程更加智能化。本发明实施例提供的该声纹特征模型更新方法,通过获取包含至少ー个说话者的原始音频流,根据预设的说话人分割与聚类算法,获取该原始音频流中该至少一个说话者中每ー个说话者的分别的音频流,将该至少ー个说话者中每ー个说话者的分别的的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流,并将该匹配成功的音频流作为生成该原始声纹特征模型的追加音频流训练样本,对该原始声纹特征模型进行更新,解决了利用现有方法获取声纹特征模型时,无法保证在较高的实用性前提下,提高声纹特征模型精确度,导致利用该声纹特征模型无法提高识别准确率的问题,使得在不影响用户体验,保证在较高的实用性的情况下,提高了声纹特征模型精确度及识别准确率。
需要说明的是,结合本文中所公开的实施例描述的各示例的単元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互換性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。以上所述的具体实施方式
,对本发明的目的、技术方案和有益效果进行了进ー步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式
而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含 在本发明的保护范围之内。
权利要求
1.一种声纹特征模型更新方法,其特征在于,所述方法包括 获取包含至少一个说话者的原始音频流; 根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每一个说话者的分别的音频流; 将所述至少一个说话者中每一个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流; 将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。
2.如权利要求I所述的方法,其特征在于,所述方法在获取包含至少一个说话者的原始音频流之前还包括 根据预设的音频流训练样本建立原始声纹特征模型。
3.如权利要求I或2所述的方法,其特征在于,所述根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每一个说话者的分别的音频流具体包括 根据预设的说话人分割算法,将所述原始音频流分割成多个音频片段,所述多个音频片段中的每一音频片段仅包含所述至少一个说话者中同一个说话者的音频信息; 根据预设的说话人聚类算法,将所述仅包含所述至少一个说话者中同一个说话者的音频片段进行聚类,生成所述仅包含所述至少一个说话者中同一个说话者音频信息的音频流。
4.如权利要求1-3中任意一项所述的方法,其特征在于,所述将所述至少一个说话者中每一个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流具体包括 根据所述至少一个说话者中每一个说话者的音频流以及原始声纹特征模型,获取所述至少一个说话者中每一个说话者的音频流与所述原始声纹特征模型的匹配度; 选取所述匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流。
5.如权利要求1-4中任意一项所述的方法,其特征在于,所述将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新具体包括 根据所述匹配成功的音频流以及预设的音频流训练样本,生成修正声纹特征模型;其中,所述预设的音频流训练样本为生成所述原始声纹特征模型的音频流; 更新所述原始声纹特征模型为所述修正声纹特征模型。
6.一种终端,其特征在于,所述终端包括原始音频流获取单元、分割与聚类单元、匹配单元以及模型更新单元,其中 所述原始音频流获取单元,用于获取包含至少一个说话者的原始音频流并发送给所述分割与聚类单元; 所述分割与聚类单元,用于接收所述原始音频流获取单元发送的原始音频流并根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每一个说话者的分别的音频流,并将所述至少一个说话者中每一个说话者的分别的音频流发送给所述匹配单元; 所述匹配单元,用于接收所述分割与聚类单元发送的所述至少一个说话者中每一个说话者的分别的音频流,且将所述至少一个说话者中每一个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流,并将所述匹配成功的音频流发送给所述模型更新单元;以及 所述模型更新单元,用于接收所述匹配单元发送的所述匹配成功的音频流,并将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。
7.如权利要求6所述的终端,其特征在于,所述终端还包括样本获取单元以及原始模型建立单元 所述样本获取单元,用于获取预设的音频流训练样本并发送给所述原始模型建立单元;以及 所述原始模型建立单元,用于接收所述样本获取单元发送的所述预设的音频流训练样本并根据所述预设的音频流训练样本建立原始声纹特征模型。
8.如权利要求6或7所述的终端,其特征在于,所述分割与聚类单元具体包括分割单元以及聚类单元 所述分割单元,用于根据预设的说话人分割算法,将所述原始音频流分割成多个音频片段,所述多个音频片段中的每一音频片段仅包含所述至少一个说话者中同一个说话者的音频信息,并将所述仅包含所述至少一个说话者中同一个说话者的音频片段发送给所述聚类单元;以及 所述聚类单元,用于接收所述分割单元发送的所述仅包含所述至少一个说话者中同一个说话者的音频片段,并根据预设的说话人聚类算法,将所述仅包含所述至少一个说话者中同一个说话者的音频片段进行聚类,生成所述仅包含所述至少一个说话者中同一个说话者音频信息的音频流。
9.如权利要求6-8中任意一项所述的终端,其特征在于,所述匹配单元具体包括匹配度获取单元以及匹配音频流获取单元 所述匹配度获取单元,用于根据所述至少一个说话者中每一个说话者的音频流以及原始声纹特征模型,获取所述至少一个说话者中每一个说话者的音频流与所述原始声纹特征模型的匹配度并将所述匹配度发送至所述匹配音频流获取单元;以及 所述匹配音频流获取单元,用于接收所述匹配度获取单元发送的所述至少一个说话者中每一个说话者的音频流与所述原始声纹特征模型的匹配度,选取所述匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流。
10.如权利要求6-9中任意一项所述的终端,其特征在于,所述模型更新单元具体包括修正模型获取单元以及模型更新子单元 所述修正模型获取单元,用于根据所述匹配成功的音频流以及所述预设的音频流训练样本,生成并发送修正声纹特征模型至所述模型更新子单元;以及 所述模型更新子单元,用于接收所述修正模型获取单元发送的所述修正声纹特征模型,更新所述原始声纹特征模型为所述修正声纹特征模型。
全文摘要
本发明适用于语音识别技术领域,提供了一种声纹特征模型更新方法及终端,所述方法包括获取包含至少一个说话者的原始音频流;根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每一个说话者的分别的音频流;将所述至少一个说话者中每一个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流;将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。本发明通过自适应提取通话过程中的有效音频流作为追加的音频流训练样本,用以动态修正原有的声纹特征模型,达到了在保证较高的实用性的前提下,提高声纹特征模型精确度及识别准确率的目的。
文档编号G10L15/02GK102760434SQ20121023559
公开日2012年10月31日 申请日期2012年7月9日 优先权日2012年7月9日
发明者卢霆 申请人:华为终端有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1