语音识别方法、终端设备及计算机可读存储介质与流程

文档序号:14874712发布日期:2018-07-07 05:03阅读:184来源:国知局

本发明属于信息处理技术领域,尤其涉及一种语音识别方法、终端设备及计算机可读存储介质。



背景技术:

生物信息识别技术被广泛应用于信息验证业务中,现有的生物识别技术包括:人脸识别、指纹识别、虹膜识别以及语音识别等。

现有的语音识别方案是在预先录入参考语音后,通过实时采集用户的语音与参考语音进行声学比对,从而根据比对结果完成语音识别。由于人的声音会随着年龄的增长而变化,或者随着自然的生理变化而变化,当人的声音因生理变化而自然变化时,若还以之前预先录入的参考语音作参考,则会导致出现语音识别结果不准确的现象。



技术实现要素:

有鉴于此,本发明实施例提供了一种语音识别方法、终端设备及计算机可读存储介质,以避免因人的声音变化导致的语音识别不准确的现象。

本发明实施例的第一方面提供了一种语音识别方法,包括:

若检测到用于进行语音识别的预设操作,则监听所述预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果;

若所述比对结果为所述第一输入语音与所述第一参考语音相匹配,则对所述第一输入语音设置标记戳;

调用语音拼接工具将设有所述标记戳的第一输入语音与所述第一参考语音进行拼接,得到第二参考语音;

当再次检测到所述预设操作时,将所述第二参考语音段分为第一分段语音和第二分段语音,所述第一分段语音与所述第一参考语音对应,所述第二分段语音与所述第一输入语音对应;

将再次检测到的所述预设操作中接收到的第二输入语音与所述第一分段语音进行声纹特征比对;

若所述第二输入语音与所述第一分段语音比对得到的第一匹配率小于第一预设匹配率,则将所述第二输入语音与所述第二分段语音进行声纹特征比对;

若所述第二输入语音与所述第二分段语音比对得到的第二匹配率等于或大于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

本发明实施例的第二方面提供了一种语音识别装置,包括用于执行第一方面所述方法的单元。

本发明实施例的第三方面提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现上述第一方案所述方法的步骤。

本发明实施例通过在检测到用于进行语音识别的预设操作时,监听在该预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果,并在比对结果为匹配时,对第一输入语音设置标记戳,通过调用语音拼接工具将设有标记戳的第一输入语音与第一参考语音进行拼接,得到第二参考语音;当再次检测到预设操作时,将第二参考语音段分为第一分段语音和第二分段语音,并将再次检测到的第二输入语音与第一分段语音进行声纹特征比对,得到的第一匹配率,并根据该第一匹配率与第一预设匹配率的比较结果决定是否将第二输入语音与第二分段语音进行声纹特征比对,实现了在语音识别的过程中对参考语音进行更新,使参考语音能够随着同一个被识别者的声音自然变化而变化,避免了因人的声音变化导致的语音识别不准确的现象。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音识别方法的实现流程示意图;

图2是本发明另一实施例提供的一种语音识别方法的实现流程示意图;

图3是本发明实施例提供的一种语音识别装置的结构示意图;

图4是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

参见图1,是本发明实施例提供一种语音识别方法的实现流程图,如图1所示语音识别方法可包括:

s11:若检测到用于进行语音识别的预设操作,则监听所述预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果。

在步骤s11中,用于进行语音识别的预设操作可以是在终端上开启预设应用时进行语音识别的触发操作,或者是在使用预设应用过程中手动触发进行语音密码输入的触发操作,再或者是通过获取权限的请求的步骤中,触发当前操作界面跳转至语音识别界面的触发操作,其中,触发操作可以通过触发语音识别按钮的单次点击、两次点击或者持续按压来实现。

需要说明的是,第一输入语音与预设的第一参考语音的比对结果反映本次语音识别所针对的第一输入语音其来源是否与第一参考语音的来源相同。

在本实施例中,如果第一输入语音的来源与第一参考语音的来源相同,则表示可以根据第一输入语音对第一参考语音进行更新。如果第一输入语音其来源与第一参考语音的来源不相同,则表示不可以根据第一输入语音对第一参考语音进行更新。通过监听预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果,可以通过获取语音识别之后的显示界面内容,判断该显示界面内容是否与所述预设操作所对应的界面内容一致,进而确定第一输入语音与预存的第一参考语音的比对结果。

以用户通过语音识别的方式在预设应用中进行资源支付为例,预设操作所对应的界面内容为提示资源支付成功,当获取到的语音识别之后的显示界面内容为提示未完成支付或支付失败时,则确定第一输入语音与预存的第一参考语音的比对结果为不匹配。当获取到的语音识别之后的显示界面内容为提示支付成功时,则确定第一输入语音与预存的第一参考语音的比对结果为匹配。

在其他实施例中,监听预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果,还可以通过判断是否有新增任务或是否有新增进程,或者是通过获取新增任务或新增进程的内容确定第一输入语音与预存的第一参考语音的比对结果。

以语音识别用于账户登录进行举例说明。

例如,预设操作用于录入第一输入语音进行登录验证,当第一输入语音与预存的第一参考语音的比对结果为匹配时,则加载并显示语言识别成功时所对应的已登录界面。当第一输入语音与预存的第一参考语音的比对结果为不匹配时,则不做任何操作。因此通过判断是否有加载和显示已登录界面的新增任务或新增进程,进而能够确定第一输入语音与预存的第一参考语音的比对结果。

s12:若所述比对结果为所述第一输入语音与所述第一参考语音相匹配,则对所述第一输入语音设置标记戳。

在步骤s12中,标记戳用于标记第一输入语音并反映该第一输入语音的来源合法,即该第一输入语音的来源与第一参考语音的来源相同。

需要说明的是,第一输入语音与第一参考语音均分别包括各自对应的数据头协议和语音数据内容,其中,数据头协议至少能够用于反应语音的文件大小、语音内容时长以及语音格式。

在本实施例中,对第一输入语音设置标记戳可以是在第一输入语音所对应的数据头协议中设置标记符,或者对第一输入语音的文件名中设置标记关键字。

作为一种可能实现的方式,步骤s12可以包括:若所述比对结果为所述第一输入语音与所述第一参考语音相匹配,且所述第一输入语音的文件格式与所述第一参考语音的文件格式一致,则对所述第一输入语音设置标记戳;若所述比对结果为所述第一输入语音与所述第一参考语音相匹配,且所述第一输入语音的文件格式与所述第一参考语音的文件格式不一致,则调用语音格式转换工具将所述第一输入语音转换为与所述第一参考语音的文件格式一致目标输入语音,并对该目标输入语音设置标记戳。

可以理解的是,语音格式转换工具可以是现有的语音文件格式转换工具,以第一输入语音为mp3格式,第一参考语音为wav格式为例,通过调用语音文件格式转换工具对第一输入语音的后缀名进行修改,将“.mp3”修改为“.wav”,使第一输入语音与第一参考语音可以被拼接和播放。

s13:调用语音拼接工具将设有所述标记戳的第一输入语音与所述第一参考语音进行拼接,得到第二参考语音。

在步骤s13中,将设有所述标记戳的第一输入语音与所述第一参考语音进行拼接,具体是,将设有标记戳的第一输入语音的语音数据与第一参考语音的语音数据进行拼接,并将拼接后的语音数据与新的数据头协议进行封装,进而得到第二参考语音。

需要说明的是,第二参考语音所对应的语音数据中至少包括第一输入语音的语音数据和第一参考语音的语音数据。

在本实施例中,语音拼接工具是用于拼接设有标记戳的第一输入语音与第一参考语音的脚本文件,其中,脚本文件的面向对象为设有标记戳的第一输入语音的语音数据和第一参考语音的语音数据。

需要说明的是,语音拼接与语音合成不同,语音拼接是将至少两个语音文件中的语音数据进行拼接,可以是语音数据头尾拼接,或者语音数据分段截取拼接,其中,语音数据头尾拼接时,通过在至少两个语音文件中的语音数据中确定拼接后语音数据的起始时间戳位置、拼接点时间戳位置以及终止时间戳位置;分段截取拼接时,通过对至少两个语音文件中的语音数据进行分段,得到多个待拼接的语音段,按照预先约定的语音数据段拼接策略将多个待拼接的语音段拼接成完整的语音数据。

可以理解的是,调用语音拼接工具进行语音拼接得到第二参考语音的过程中,语音拼接工具所对应的脚本文件可以是通过现有的逻辑语言进行编写,即在实际应用中,语音拼接工具的面向对象还可以是语音拼接的过程。

s14:当再次检测到所述预设操作时,将所述第二参考语音段分为第一分段语音和第二分段语音。

在步骤s14中,第一分段语音与第一参考语音对应,第二分段语音与第一输入语音对应。

在本实施例中,第一分段语音与第一参考语音对应是指第一分段语音所对应的语音数据为第一参考语音所对应的语音数据,即第一分段语音的语音内容与第一参考语音的内容相同,同样的,第二分段语音与第一输入语音对应,也即第二分段语音的语音内容与第一输入语音的内容相同。

需要说明的是,将所述第二参考语音段分为第一分段语音和第二分段语音,可以是在第二参考语音段中设置用于区分第一分段语音与第二分段语音的标记点,根据第一参考语音与第一输入语音各自对应的语音数据长短,设置相应的标记位置,实现将第二参考语音段分为第一分段语音和第二分段语音。

s15:将再次检测到的所述预设操作中接收到的第二输入语音与所述第一分段语音进行声纹特征比对。

在步骤s15中,第二输入语音与第一分段语音进行声纹特征比对是通过绘制与第二输入语音对应的目标声纹图与第一分段语音对应的第一声纹图,将目标声纹图中的声纹特征进行提取后,以第一声纹图作为参照进行比对。

需要说明的是,声纹图可以是宽带声纹图、窄带声纹图、振幅声纹图、等高线声纹图、时间波谱声纹图以及断面声纹图中的至少一种,其中,断面声纹图包括断面宽带声纹图和断面窄带声纹图。宽带声纹图与窄带声纹图用于反映语音中语声的频率与强度随时间推移的变化特征;振幅声纹图、等高线声纹图以及时间波谱声纹图用于反映语音强度或声压随时间变化的特征;断面声纹用于反映在某一时间点时,声波强度和频率特征。

在本发明的所有实施例中,语音之间进行声纹图比对时,进行比对的两个声纹图的类别一致。

在本实施例中,第二输入语音与第一分段语音进行声纹特征比对,具体可以是比对第二输入语音与第一分段语音中相同字、词的声纹中的同类特征。例如,通过分别选择第二输入语音与第一分段语音中声纹图中的共振波峰的频率值进行比较,进而找出第二输入语音与第一分段语音之间的相同点和差异点。

可以理解的是,在实际应用中,第二输入语音与第一分段语音之间进行声纹特征比较时,基于不同的声纹图进行比较时,用作比较的特征点也可以不同,现有技术中已存在了具体的声纹特征比对的方案,故此处不再赘述。

s16:若所述第二输入语音与所述第一分段语音比对得到的第一匹配率小于第一预设匹配率,则将所述第二输入语音与所述第二分段语音进行声纹特征比对。

在步骤s16中,第一匹配率用于反映第二输入语音与第一分段语音进行比对结果。第一预设匹配率用于描述第二输入语音与第一分段语音比对结果为匹配时的匹配率最低标准。

需要说明的是,在本发明的所有实施例中,匹配率用于描述进行比对的两个语音之间的相似程度,即匹配率数值越高,则进行声纹特征比对的两个语音就越相似,且属于相同来源的可能性也越大。

在本实施例中,将所述第二输入语音与所述第一分段语音进行声纹特征比对,具体实现方式与步骤s15相似,故此处不再赘述。

可以理解的是,在本发明的其他实施例中,语音识别方法还包括与步骤s16并列的第一并列步骤:若所述第二输入语音与所述第一分段语音比对得到的第一匹配率等于或大于第一预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

需要说明的是,步骤s16与上述第一并列步骤执行顺序不分先后,当执行了步骤s16之后便不再执行第一并列步骤,当执行了第一并列步骤后便不再执行步骤s16。

s17:若所述第二输入语音与所述第二分段语音比对得到的第二匹配率等于或大于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

在步骤s17中,第二匹配率用于反映第二输入语音与第二分段语音进行比对结果。第二预设匹配率用于描述第二输入语音与第二分段语音比对结果为匹配时的匹配率最低标准。

需要说明的是,在本发明的所有实施例中,匹配率用于描述进行比对的两个语音之间的相似程度,即匹配率数值越高,则进行声纹特征比对的两个语音就越相似,且属于相同来源的可能性也越大。

在本实施例中,将所述第二输入语音与所述第二分段语音进行声纹特征比对,具体实现方式与步骤s15相似,故此处不再赘述。

在本实施例中,语音识别方法还包括与步骤s17并列的第二并列步骤:若所述第二输入语音与所述第二分段语音比对得到的第二匹配率小于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音不匹配;其中,所述第一预设匹配率与所述第二预设匹配率相等。

需要说明的是,步骤s17与上述第二并列步骤执行顺序不分先后,当执行了步骤s167之后便不再执行第二并列步骤,当执行了第二并列步骤后便不再执行步骤s17。

以上可以看出,本发明实施例通过在检测到用于进行语音识别的预设操作时,监听在该预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果,并在比对结果为匹配时,对第一输入语音设置标记戳,通过调用语音拼接工具将设有标记戳的第一输入语音与第一参考语音进行拼接,得到第二参考语音;当再次检测到预设操作时,将第二参考语音段分为第一分段语音和第二分段语音,并将再次检测到的第二输入语音与第一分段语音进行声纹特征比对,得到的第一匹配率,并根据该第一匹配率与第一预设匹配率的比较结果决定是否将第二输入语音与第二分段语音进行声纹特征比对,实现了在语音识别的过程中对参考语音进行更新,使参考语音能够随着同一个被识别者的声音自然变化而变化,避免了因人的声音变化导致的语音识别不准确的现象。

参见图2,图2是本发明另一实施例提供一种语音识别方法的示意流程图。如图2所示,本发明另一实施例提供的语音识别方法可包括:

s21:若检测到用于进行语音识别的预设操作,则监听所述预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果。

在步骤s21中,用于进行语音识别的预设操作可以是在终端上开启预设应用时进行语音识别的触发操作,或者是在使用预设应用过程中手动触发进行语音密码输入的触发操作,再或者是通过获取权限的请求的步骤中,触发当前操作界面跳转至语音识别界面的触发操作,其中,触发操作可以通过触发语音识别按钮的单次点击、两次点击或者持续按压来实现。

可以理解的是,在本实施例中,步骤s21的具体实现方式与上一实施例中步骤s11的具体实现方式相同,具体请参阅对步骤s11的说明,此处不再赘述。

s22:若所述比对结果为所述第一输入语音与所述第一参考语音相匹配,则对所述第一输入语音设置标记戳。

在步骤s22中,标记戳用于标记第一输入语音并反映该第一输入语音的来源合法,即该第一输入语音的来源与第一参考语音的来源相同。

可以理解的是,在本实施例中,步骤s22的具体实现方式与上一实施例中步骤s12的具体实现方式相同,具体请参阅对步骤s12的说明,此处不再赘述。

s23:调用语音拼接工具将设有所述标记戳的第一输入语音与所述第一参考语音进行拼接,得到第二参考语音。

在步骤s23中,语音拼接工具包括:数据头协议工具和数据内容拼接工具;第一输入语音与第一参考语音均包括数据头协议和语音数据内容。

作为本实施例一种可能实现的方式,步骤s23具体可以包括:调用所述数据头协议工具分别对所述第一输入语音与所述第一参考语音进行拆分,得到所述第一输入语音对应的第一数据头协议和第一语音数据内容,以及所述第二输入语音对应的第二数据头协议和第二语音数据内容;根据所述第一数据头协议与所述第二数据头协议生成新的数据头协议;调用所述数据内容拼接工具将所述第一语音数据内容与所述第二语音数据内容进行拼接,得到新的语音数据内容;将所述新的数据头协议与所述新的语音数据内容进行封装,得到所述第二参考语音。

在本实施例中,数据头协议工具可以是预先设置的wavheader.h脚本,通过执行脚本中用于解析数据头协议的内容得到第一数据头协议和第一语音数据内容,以及第二数据头协议和第二语音数据内容。

在该wavheader.h脚本中,对语音数据头协议中的各个参数所在数位,以及语音数据内容所占位数进行定义和区分,通过运行该wavheader.h脚本,进而将第一输入语音与第一参考语音进行拆分,得到第一输入语音对应的第一数据头协议和第一语音数据内容,以及第二输入语音对应的第二数据头协议和第二语音数据内容。

在本实施例中,第一数据头协议与第二数据头协议分别用于描述第一输入语音与第一参考语音的语音时长、语音大小等内容。根据第一数据头协议与第二数据头协议所生成的新的数据头协议所描述的语音时长为第一输入语音时长与第一参考语音时长之和,新的数据头协议所描述的语音大小为第一输入语音大小与第一参考语音大小之和。

数据内容拼接工具可以包括语音数据读取工具dataread和语音数据写入工具datawriter。

需要说明的是,语音数据读取工具dataread和语音数据写入工具datawriter均可以经由对应的二进制数据流被封装和被读取。

在本实施例中,将新的数据头协议与新的语音数据内容进行封装,得到第二参考语音,其中,新的数据头协议中各种语音数据参数与新的语音数据内容均对应,也即新的新的数据头协议中语音时长信息和语音大小信息均与语音数据内容的时长和大小一致。

s24:当再次检测到所述预设操作时,将所述第二参考语音段分为第一分段语音和第二分段语音,所述第一分段语音与所述第一参考语音对应,所述第二分段语音与所述第一输入语音对应。

s25:将再次检测到的所述预设操作中接收到的第二输入语音与所述第一分段语音进行声纹特征比对。

s26:若所述第二输入语音与所述第一分段语音比对得到的第一匹配率小于第一预设匹配率,则将所述第二输入语音与所述第二分段语音进行声纹特征比对。

s27:若所述第二输入语音与所述第二分段语音比对得到的第二匹配率等于或大于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

需要说明的是,在本实施例中步骤s24至步骤s27的具体实现方式与上一实施例中步骤s14至步骤s17一一对应,具体请参阅步骤s14至步骤s17的描述内容,此处不再赘述。

可以理解的是,在本实施例中,只有当执行了步骤s26时才会执行步骤s27。

在本实施例中,步骤s27之后还包括步骤s28与步骤s29。

步骤s28:设定计数器中的计数值为in,其中,in≥0且in=in-1+1,当in等于预设匹配阈值n时,对所述第二输入语音设置标记戳。

在步骤s28中,in、n以及n均为整数,n≥1,n>1。

在本实施例中,在每次语音识别过程中,只会出现一次第二输入语音与第二参考语音相匹配的结果。当进行了n次语音识别,且每次语音识别结果均为第二输入语音与第二参考语音相匹配的结果,则设定计数器中的计数值为in。如果确定了所述第二输入语音与所述第二参考语音相匹配,则设定计数器中的计数值为in,其中,in≥0且in=in-1+1。当in等于预设匹配阈值n时,则表明第二输入语音与第二参考语音相匹配是事件为必然事件,即排除了第二输入语音与第二参考语音相匹配是事件为偶然事件的可能性。

在实际应用中,预设匹配阈值可以根据人声变化的周期而定,或者根据第二参考语音被最为对比标准进行比对的次数而定,再或者是根据第二参考语音的使用时长而定。

需要说明的是,对第二输入语音设置标记戳,该标记戳用于标记第二输入语音并反映该第二输入语音的来源合法,即该第二输入语音的来源与第二参考语音的来源相同。

s29:调用语音拼接工具将设有所述标记戳的第二输入语音与所述第二参考语音中目标语音段进行拼接,得到第三参考语音,所述目标语音为所述第一输入语音对应的语音段。

在步骤s29中,第二参考语音中包括第一输入语音对应的语音数据内容和第一参考语音对应的语音数据内容。目标语音为第二参考语音中第一输入语音对应的语音段。

需要说明的是,为了避免随着语音识别的次数不断上升导致参考语音的内容不断增加,调用语音拼接工具将设有标记戳的第二输入语音与第二参考语音中目标语音段进行拼接时,目标语音为第二参考语音中第一输入语音对应的语音段。

在本实施例中,通过设置预设匹配阈值n,且在确定了所述第二输入语音与所述第二参考语音相匹配,则设定计数器中的计数值为in,其中,in≥0且in=in-1+1,当in等于预设匹配阈值n时,对所述第二输入语音设置标记戳,并调用语音拼接工具将设有标记戳的第二输入语音与第二参考语音中目标语音段进行拼接,得到第三参考语音,使得用于语音识别的参考语音能够被不断地更新,在确保参考语音能够随用户声音变化而变化的同时,还避免了因为参考语音的更新而导致的匹配率逐渐变小的现象。

以上可以看出,本发明实施例通过在检测到用于进行语音识别的预设操作时,监听在该预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果,并在比对结果为匹配时,对第一输入语音设置标记戳,通过调用语音拼接工具将设有标记戳的第一输入语音与第一参考语音进行拼接,得到第二参考语音;当再次检测到预设操作时,将第二参考语音段分为第一分段语音和第二分段语音,并将再次检测到的第二输入语音与第一分段语音进行声纹特征比对,得到的第一匹配率,并根据该第一匹配率与第一预设匹配率的比较结果决定是否将第二输入语音与第二分段语音进行声纹特征比对,实现了在语音识别的过程中对参考语音进行更新,使参考语音能够随着同一个被识别者的声音自然变化而变化,避免了因人的声音变化导致的语音识别不准确的现象。

通过设置预设匹配阈值n,且在确定了所述第二输入语音与所述第二参考语音相匹配,则设定计数器中的计数值为in,其中,in≥0且in=in-1+1,当in等于预设匹配阈值n时,对所述第二输入语音设置标记戳,并调用语音拼接工具将设有标记戳的第二输入语音与第二参考语音中目标语音段进行拼接,得到第三参考语音,使得用于语音识别的参考语音能够被不断地更新,在确保参考语音能够随用户声音变化而变化的同时,还避免了因为参考语音的更新而导致的匹配率逐渐变小的现象。

参见图3,图3是本发明实施例提供的一种语音识别装置的示意性框图。本实施例的一种语音识别装置3包括:监听单元31、第一标记单元32、第一拼接单元33、分段单元34、第一比对单元35、第二比对单元36以及确定单元37。具体地:

监听单元31,用于若检测到用于进行语音识别的预设操作,则监听所述预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果。

例如,监听单元31若检测到用于进行语音识别的预设操作,则监听所述预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果。

第一标记单元32,用于若所述比对结果为所述第一输入语音与所述第一参考语音相匹配,则对所述第一输入语音设置标记戳。

例如,第一标记单元32若所述比对结果为所述第一输入语音与所述第一参考语音相匹配,则对所述第一输入语音设置标记戳。

进一步地,所述语音拼接工具包括数据头协议工具和数据内容拼接工具;所述第一输入语音与所述第一参考语音均包括数据头协议和语音数据内容。

第一标记单元32具体用于,调用所述数据头协议工具分别对所述第一输入语音与所述第一参考语音进行拆分,得到所述第一输入语音对应的第一数据头协议和第一语音数据内容,以及所述第二输入语音对应的第二数据头协议和第二语音数据内容;根据所述第一数据头协议与所述第二数据头协议生成新的数据头协议;调用所述数据内容拼接工具将所述第一语音数据内容与所述第二语音数据内容进行拼接,得到新的语音数据内容;将所述新的数据头协议与所述新的语音数据内容进行封装,得到所述第二参考语音。

例如,第一标记单元32调用所述数据头协议工具分别对所述第一输入语音与所述第一参考语音进行拆分,得到所述第一输入语音对应的第一数据头协议和第一语音数据内容,以及所述第二输入语音对应的第二数据头协议和第二语音数据内容;根据所述第一数据头协议与所述第二数据头协议生成新的数据头协议;调用所述数据内容拼接工具将所述第一语音数据内容与所述第二语音数据内容进行拼接,得到新的语音数据内容;将所述新的数据头协议与所述新的语音数据内容进行封装,得到所述第二参考语音。

第一拼接单元33,用于调用语音拼接工具将设有所述标记戳的第一输入语音与所述第一参考语音进行拼接,得到第二参考语音。

例如,第一拼接单元33调用语音拼接工具将设有所述标记戳的第一输入语音与所述第一参考语音进行拼接,得到第二参考语音。

分段单元34,用于当再次检测到所述预设操作时,将所述第二参考语音段分为第一分段语音和第二分段语音,所述第一分段语音与所述第一参考语音对应,所述第二分段语音与所述第一输入语音对应。

例如,分段单元34当再次检测到所述预设操作时,将所述第二参考语音段分为第一分段语音和第二分段语音,所述第一分段语音与所述第一参考语音对应,所述第二分段语音与所述第一输入语音对应。

第一比对单元35,用于将再次检测到的所述预设操作中接收到的第二输入语音与所述第一分段语音进行声纹特征比对。

例如,第一比对单元35将再次检测到的所述预设操作中接收到的第二输入语音与所述第一分段语音进行声纹特征比对。

第二比对单元36,用于若所述第二输入语音与所述第一分段语音比对得到的第一匹配率小于第一预设匹配率,则将所述第二输入语音与所述第二分段语音进行声纹特征比对。

例如,第二比对单元36若所述第二输入语音与所述第一分段语音比对得到的第一匹配率小于第一预设匹配率,则将所述第二输入语音与所述第二分段语音进行声纹特征比对。

确定单元37,用于若所述第二输入语音与所述第二分段语音比对得到的第二匹配率等于或大于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

例如,确定单元37若所述第二输入语音与所述第二分段语音比对得到的第二匹配率等于或大于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

可选地,语音识别装置30还可以包括:第二标记单元38和第二拼接单元39。具体地:

第二标记单元38,用于设定计数器中的计数值为in,其中,in≥0且in=in-1+1,当in等于预设匹配阈值n时,对所述第二输入语音设置标记戳,其中,n≥1,n>1。

例如,第二标记单元38设定计数器中的计数值为in,其中,in≥0且in=in-1+1,当in等于预设匹配阈值n时,对所述第二输入语音设置标记戳,其中,n≥1,n>1。

第二拼接单元39,用于调用语音拼接工具将设有所述标记戳的第二输入语音与所述第二参考语音中目标语音段进行拼接,得到第三参考语音,所述目标语音为所述第一输入语音对应的语音段。

例如,第二拼接单元39调用语音拼接工具将设有所述标记戳的第二输入语音与所述第二参考语音中目标语音段进行拼接,得到第三参考语音,所述目标语音为所述第一输入语音对应的语音段。

以上可以看出,本发明实施例通过在检测到用于进行语音识别的预设操作时,监听在该预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果,并在比对结果为匹配时,对第一输入语音设置标记戳,通过调用语音拼接工具将设有标记戳的第一输入语音与第一参考语音进行拼接,得到第二参考语音;当再次检测到预设操作时,将第二参考语音段分为第一分段语音和第二分段语音,并将再次检测到的第二输入语音与第一分段语音进行声纹特征比对,得到的第一匹配率,并根据该第一匹配率与第一预设匹配率的比较结果决定是否将第二输入语音与第二分段语音进行声纹特征比对,实现了在语音识别的过程中对参考语音进行更新,使参考语音能够随着同一个被识别者的声音自然变化而变化,避免了因人的声音变化导致的语音识别不准确的现象。

通过设置预设匹配阈值n,且在确定了所述第二输入语音与所述第二参考语音相匹配,则设定计数器中的计数值为in,其中,in≥0且in=in-1+1,当in等于预设匹配阈值n时,对所述第二输入语音设置标记戳,并调用语音拼接工具将设有标记戳的第二输入语音与第二参考语音中目标语音段进行拼接,得到第三参考语音,使得用于语音识别的参考语音能够被不断地更新,在确保参考语音能够随用户声音变化而变化的同时,还避免了因为参考语音的更新而导致的匹配率逐渐变小的现象。

参见图4,是本发明另一实施例提供的一种终端示意框图。如图所示的本实施例中的终端设备400可以包括:一个或多个处理器401;一个或多个输入设备402,一个或多个输出设备403和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线405连接。存储器402用于存储,计算机程序包括指令,处理器401通过调用存储器402存储的计算机程序执行如下操作:

处理器401用于:若检测到用于进行语音识别的预设操作,则监听所述预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果。

处理器401用于:若所述比对结果为所述第一输入语音与所述第一参考语音相匹配,则对所述第一输入语音设置标记戳。

处理器401用于:调用语音拼接工具将设有所述标记戳的第一输入语音与所述第一参考语音进行拼接,得到第二参考语音。

处理器401用于:当再次检测到所述预设操作时,将所述第二参考语音段分为第一分段语音和第二分段语音,所述第一分段语音与所述第一参考语音对应,所述第二分段语音与所述第一输入语音对应。

处理器401用于:将再次检测到的所述预设操作中接收到的第二输入语音与所述第一分段语音进行声纹特征比对。

处理器401用于:若所述第二输入语音与所述第一分段语音比对得到的第一匹配率小于第一预设匹配率,则将所述第二输入语音与所述第二分段语音进行声纹特征比对。

处理器401用于:若所述第二输入语音与所述第一分段语音比对得到的第一匹配率等于或大于第一预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

处理器401还用于:若所述第二输入语音与所述第二分段语音比对得到的第二匹配率等于或大于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

处理器401还用于:若所述第二输入语音与所述第二分段语音比对得到的第二匹配率小于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音不匹配;其中,所述第一预设匹配率与所述第二预设匹配率相等。

处理器401还用于:设定计数器中的计数值为in,其中,in≥0且in=in-1+1,当in等于预设匹配阈值n时,对所述第二输入语音设置标记戳,其中,n≥1,n>1。

处理器401还用于:调用语音拼接工具将设有所述标记戳的第二输入语音与所述第二参考语音中目标语音段进行拼接,得到第三参考语音,所述目标语音为所述第一输入语音对应的语音段。

处理器401具体用于:所述调用语音拼接工具将设有所述标记戳的第一输入语音与所述第一参考语音进行拼接,得到第二参考语音,包括:

调用所述数据头协议工具分别对所述第一输入语音与所述第一参考语音进行拆分,得到所述第一输入语音对应的第一数据头协议和第一语音数据内容,以及所述第二输入语音对应的第二数据头协议和第二语音数据内容;

根据所述第一数据头协议与所述第二数据头协议生成新的数据头协议;

调用所述数据内容拼接工具将所述第一语音数据内容与所述第二语音数据内容进行拼接,得到新的语音数据内容;

将所述新的数据头协议与所述新的语音数据内容进行封装,得到所述第二参考语音。

应当理解,在本发明实施例中,所称处理器501可以是中央处理单元(centralprocessingunit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备402可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备403可以包括显示器(lcd等)、扬声器等。

该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。

具体实现中,本发明实施例中所描述的处理器401、输入设备402、输出设备403可执行本发明实施例提供的一种语音识别方法的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的设备的实现方式,在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:

若检测到用于进行语音识别的预设操作,则监听所述预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果;

若所述比对结果为所述第一输入语音与所述第一参考语音相匹配,则对所述第一输入语音设置标记戳;

调用语音拼接工具将设有所述标记戳的第一输入语音与所述第一参考语音进行拼接,得到第二参考语音;

当再次检测到所述预设操作时,将所述第二参考语音段分为第一分段语音和第二分段语音,所述第一分段语音与所述第一参考语音对应,所述第二分段语音与所述第一输入语音对应;

将再次检测到的所述预设操作中接收到的第二输入语音与所述第一分段语音进行声纹特征比对;

若所述第二输入语音与所述第一分段语音比对得到的第一匹配率小于第一预设匹配率,则将所述第二输入语音与所述第二分段语音进行声纹特征比对;

若所述第二输入语音与所述第二分段语音比对得到的第二匹配率等于或大于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

所述计算机程序被处理器执行时还实现:

调用所述数据头协议工具分别对所述第一输入语音与所述第一参考语音进行拆分,得到所述第一输入语音对应的第一数据头协议和第一语音数据内容,以及所述第二输入语音对应的第二数据头协议和第二语音数据内容;

根据所述第一数据头协议与所述第二数据头协议生成新的数据头协议;

调用所述数据内容拼接工具将所述第一语音数据内容与所述第二语音数据内容进行拼接,得到新的语音数据内容;

将所述新的数据头协议与所述新的语音数据内容进行封装,得到所述第二参考语音。

所述计算机程序被处理器执行时还实现:

若所述第二输入语音与所述第一分段语音比对得到的第一匹配率等于或大于第一预设匹配率,则确定所述第二输入语音与所述第二参考语音相匹配。

所述计算机程序被处理器执行时还实现:

若所述第二输入语音与所述第二分段语音比对得到的第二匹配率小于第二预设匹配率,则确定所述第二输入语音与所述第二参考语音不匹配;其中,所述第一预设匹配率与所述第二预设匹配率相等。

所述计算机程序被处理器执行时还实现:

设定计数器中的计数值为in,其中,in≥0且in=in-1+1,当in等于预设匹配阈值n时,对所述第二输入语音设置标记戳,其中,n≥1,n>1;

调用语音拼接工具将设有所述标记戳的第二输入语音与所述第二参考语音中目标语音段进行拼接,得到第三参考语音,所述目标语音为所述第一输入语音对应的语音段。

以上可以看出,本发明实施例通过在检测到用于进行语音识别的预设操作时,监听在该预设操作中接收到的第一输入语音与预存的第一参考语音的比对结果,并在比对结果为匹配时,对第一输入语音设置标记戳,通过调用语音拼接工具将设有标记戳的第一输入语音与第一参考语音进行拼接,得到第二参考语音;当再次检测到预设操作时,将第二参考语音段分为第一分段语音和第二分段语音,并将再次检测到的第二输入语音与第一分段语音进行声纹特征比对,得到的第一匹配率,并根据该第一匹配率与第一预设匹配率的比较结果决定是否将第二输入语音与第二分段语音进行声纹特征比对,实现了在语音识别的过程中对参考语音进行更新,使参考语音能够随着同一个被识别者的声音自然变化而变化,避免了因人的声音变化导致的语音识别不准确的现象。

通过设置预设匹配阈值n,且在确定了所述第二输入语音与所述第二参考语音相匹配,则设定计数器中的计数值为in,其中,in≥0且in=in-1+1,当in等于预设匹配阈值n时,对所述第二输入语音设置标记戳,并调用语音拼接工具将设有标记戳的第二输入语音与第二参考语音中目标语音段进行拼接,得到第三参考语音,使得用于语音识别的参考语音能够被不断地更新,在确保参考语音能够随用户声音变化而变化的同时,还避免了因为参考语音的更新而导致的匹配率逐渐变小的现象。

所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元,例如计算机的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1