语音端点检测方法、装置、终端和存储介质与流程

文档序号：17686709发布日期：2019-05-17 20:41阅读：200来源：国知局

本发明实施例涉及计算机技术领域，尤其涉及一种语音端点检测方法、装置、终端和存储介质。

背景技术：

传统的语音端点检测(voicesactivedefect，vad)算法主要是根据过零率和声音量级等指标去检测一句话是否结束。如果在获取的语音流中前面部分连续预设数量m0帧的语音能量值低于事先指定的能量值阈值elow，并且接下来连续m0帧语音的能量值大于elow，则在语音能量值增大的地方就是语音的开始端点。同样的，如果连续若干帧语音能量值较大，随后的语音帧能量值变小，即小于事先指定的能量值阈值ehigh，并且持续一定的时长，则认为在语音能量值减小的地方就是语音的结束端点。

然而，每个人说话的语速不同，有些人语速快，有些人语速偏慢。如果在语音端点检测过程中，对所有人均使用相同的vad参数阈值，则会导致有些人的语音识别效果较好，而有些人则会被频繁地误截断，例如有些语速慢的人可能还没有说完一句话，基于传统的vad算法就已经判定这句话讲完了，从而导致语音识别不准确。

技术实现要素：

本发明实施例提供一种语音端点检测方法、装置、终端和存储介质，以实现针对不同用户的语音结束端点的个性化检测，提高语音识别的准确性。

第一方面，本发明实施例提供了一种语音端点检测方法，该方法包括：

确定用户的当前语速与历史平均语速的差异是否处于预设差异范围；

如果所述当前语速与历史平均语速的差异不处于所述预设差异范围，则根据所述当前语速调整语音端点检测的语音能量阈值，使得在与当前语音端点检测相邻的下一次语音端点检测过程中，根据调整后的语音能量阈值确定用户的语音结束端点。

第二方面，本发明实施例还提供了一种语音端点检测装置，该装置包括：

语速确定模块，用于确定用户的当前语速与历史平均语速的差异是否处于预设差异范围；

语音能量阈值调整模块，用于如果所述当前语速与历史平均语速的差异不处于所述预设差异范围，则根据所述当前语速调整语音端点检测的语音能量阈值，使得在与当前语音端点检测相邻的下一次语音端点检测过程中，根据调整后的语音能量阈值确定用户的语音结束端点。

第三方面，本发明实施例还提供了一种终端，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的语音端点检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的语音端点检测方法。

本发明实施例通过判断用户的当前语速与历史平均语速的差异是否处于预设差异范围，如果当前语速与历史平均语速的差异不处于预设差异范围，则根据当前语速调整下一次语音端点检测时的语音能量阈值，实现了语音端点检测过程中针对不同用户的语音能量阈值的自适应动态调整，解决了现有语音端点检测方法中由于参数阈值的共用导致语音识别结果准确率降低的问题，实现了针对不同用户的语音结束端点的个性化检测，提高了语音识别的准确性。

附图说明

图1是本发明实施例一提供的语音端点检测方法的流程图；

图2是本发明实施例二提供的语音端点检测方法的流程图；

图3是本发明实施例三提供的语音端点检测装置的结构示意图；

图4是本发明实施例四提供的一种终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的语音端点检测方法的流程图，本实施例可适用于在基于语音的人机交互过程中，检测用户语音端点的情况，该方法可以由语音端点检测装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在具有语音识别功能的终端上，例如智能移动终端和车载设备等。

如图1所示，本实施例提供的语音端点检测方法可以包括：

s110、确定用户的当前语速与历史平均语速的差异是否处于预设差异范围。

在用户与终端的语音交互过程中，终端可以调用语音采集装置，例如麦克风，实时获取用户语音，并基于语音识别技术对用户语音进行识别，同时记录每次交互过程中的用户语速。基于历史记录的多个用户语速，便可确定用户的历史平均语速。历史平均语速可以从整体上反映用户的语速水平。通过当前语速与历史平均语速的比较，可以判断出用户当前语速是否发生变化，进而确定语音端点检测过程中语音能量阈值是否需要调整。

可选的，用户历史平均语速的确定过程包括：

统计用户在预设时间周期内的历史语音，并确定历史语音的开始端点与结束端点分别对应的时刻；

根据历史语音的识别结果的文本长度，以及历史语音的开始端点与结束端点分别对应的时刻，确定用户的历史平均语速。

语音识别结果的文本长度指用户语音中包括的语言元素数量。例如，对于中文，文本长度可以指用户语音中包括的汉字数量；对于英文，文本长度可以指用户语音中包括的单词数量。根据每一段历史语音的开始端点对应的时刻t1和结束端点对应的时刻t2，可以确定该段历史语音的有效时间t2-t1，进而结合该段历史语音的识别结果的文本长度len，便可确定用户输出该段历史语音的语速(t2-t1)/len或者len/(t2-t1)。对预设时间周期内所有历史语音对应的语速求平均值，即得到该预设时间周期内用户的历史平均语速。

其中，预设时间周期包括与当前时间最接近的语音统计周期，预设时间周期的具体长度可以适应性设置，本实施例不作具体限定。选择与当前时间最接近的语音统计周期对应的历史平均语速，作为衡量用户当前语速是否发生变化的语速参考，对于语音端点检测过程中语音能量阈值的调整更具有参考价值，可以确保语音能量阈值调整的必要性和准确性，进而保证语音识别的准确性。用户当前语速与用户历史语速的确定方法相同，在此不再赘述。

本实施例对预设差异范围的具体取值不作限定，可以根据语音检测需求适应性设置为包括零值在内的任意数值范围。例如，当预设差异范围设置为0时，相当于根据用户当前语速与历史平均语速之间的绝对差异，确定是否调整语音能量阈值；当预设差异范围设置为非零的数值范围，例如50毫秒内，相当于根据用户当前语速与历史平均语速之间的相对差异，确定是否调整语音能量阈值。具体的，当用户当前语速与历史平均语速的差异处于预设差异范围，则认为当前语速与历史平均语速相同；当用户当前语速与历史平均语速的差异不处于预设差异范围，则认为当前语速与历史平均语速不同。基于相对差异确定是否调整语音能量阈值，可以避免因用户语速的轻微波动而导致对语音能量阈值的频繁调整，减少终端的资源消耗。

s120、如果当前语速与历史平均语速的差异不处于预设差异范围，则根据当前语速调整语音端点检测的语音能量阈值，使得在与当前语音端点检测相邻的下一次语音端点检测过程中，根据调整后的语音能量阈值确定用户的语音结束端点。

用户当前语速与历史平均语速的差异不在预设差异范围内，即当前语速与历史平均语速不同，用户当前语速发生变化，需要根据当前语速调整语音能量阈值，使得在下一次语音端点检测过程中使用调整后的语音能量阈值确定用户的语音结束端点，实现针对同一用户在不同语速情况下的语音能量阈值的自适应动态调整，而且调整后的语音能量阈值更加贴合该用户的说话特点。例如，若用户语速较快，则可以在与当前相邻的下一次语音端点检测过程中将语音能量阈值适当调大；若语速较慢，则可以在与当前相邻的下一次语音端点检测过程中将语音能量阈值调小。用户每一次语速的确定，均与当前相邻的上一次用户语速与历史平均语速的比较结果有关，随着用户与终端的语音交互的持续，语音能量阈值可以随着用户语速的稳定而逐渐趋于稳定，最终递归出最适合该用户的语音端点检测的语音能量阈值。

对于不同的用户，由于语速特点之间的差异，语音端点检测过程中语音能量阈值的动态调整结果便不同，从而实现针对不同用户，各自拥有符合自身语速特点的语音能量阈值，而非如同现有技术中不加区分的对所有用户均使用相同的语音能量阈值进行语音结束端点的检测，因而实现了针对不同用户的语音结束端点的个性化检测，提高了针对每个用户的语音识别结果的准确性。

本实施例的技术方案通过判断用户的当前语速与历史平均语速的差异是否处于预设差异范围，如果当前语速与历史平均语速的差异不处于预设差异范围，则根据当前语速调整下一次语音端点检测时的语音能量阈值，实现了语音端点检测过程中针对不同用户的语音能量阈值的自适应动态调整，解决了现有语音端点检测方法中由于所有人共用一套参数阈值导致语音识别结果准确率降低的问题，实现了针对不同用户的语音结束端点的个性化检测，避免了语音识别过程中对用户语音的误截断现象，进而确保了获取的用户语音信息的完整性，提高了语音识别的准确性；并且，本实施例方案通过基于用户语速变化对语音能量阈值进行动态调整，相比于基于模型训练确定用户语音能量阈值的方式，在产品落实方面更易实现，不涉及与远程服务器的交互，对终端的功率消耗更少，基于本实施例方案实现的具有准确的语音识别功能的产品，也更易于推广。

实施例二

图2是本发明实施例二提供的语音端点检测方法的流程图，本实施例是在上述实施例的基础上进一步进行优化。如图2所示，该方法可以包括：

s210、确定用户的当前语速与历史平均语速的差异是否处于预设差异范围。

s220、如果当前语速与历史平均语速的差异不处于预设差异范围，在与当前语音端点检测相邻的下一次语音端点检测过程中，基于用户语音能量开始减小的时刻，进行目标时长的延长，将时长延长结束时刻对应的语音能量作为语音能量阈值，其中，目标时长是根据当前语速确定的预设时间长度。

无论用户语速的表示形式是语音有效时间长度与识别结果文本长度的比值(t2-t1)/len，或者语音识别结果的文本长度与语音有效时间长度的比值len/(t2-t1)，均可以根据用户的当前语速，确定用户当前输出一个语言元素的时间，例如用户当前说出一个汉字的时间或者用户说出一个英文单词的时间。在下一次语音端点检测过程中，当检测到语音能量开始减少时，可以按照根据当前用户输出一个语言元素的时间，进行计时延长，例如将用户输出一个语言元素的时间的预设倍数对应的总时间作为目标时长，预设倍数可以根据语音端点检测的准确度要求或者灵敏度要求进行设置。对于不同的用户，预设倍数可以相同也可以不同。

示例性的，在与当前语音端点检测相邻的下一次语音端点检测过程中，用户将要输出的语音是“今天是晴天”，当用户说完“晴天”之后，语音能量开始减小，则基于用户说完“晴天”对应的时刻，进行目标时长的延迟，例如，目标时长是根据用户当前语速确定的输出一个汉字的时间的2倍，时长延迟结束时刻对应的语音能量即在该下一次语音端点检测过程中的语音能量阈值。如果在该时长延迟结束时刻之前，存在连续若干帧语音能量均大于该语音能量阈值，在该时长延迟结束时刻之后，存在连续若干帧语音能量均小于该语音能量阈值，则该时长延迟结束时刻即用户的下一次语音输出结束端点。

相当于，对于语速较快的用户，语音端点检测过程的语音能量阈值可以在较短的延迟时间内确定；对于语速较慢的用户，语音端点检测过程中语音能量阈值则需要在相对于较长的延迟时间内确定。这样便可以避免语速较快和语速较慢的用户，均使用同一固定的语音能量阈值或者采用相同延迟时间确定语音能量阈值，而导致语音端点检测过程中语速较慢的人还未说完话，便被终端误识别为用户语音输出结束的现象，当终端采集的用户语音信息缺失，语音识别结果自然也不准确。

可选的，该方法还包括：如果当前语速与历史平均语速的差异处于预设差异范围，即认为用户当前语速与历史平均语速相同，则根据当前语音端点检测使用的语音能量阈值确定在下一次语音端点检测过程中用户的语音结束端点。即当前语速没有发生变化时，则下一次语音端点检测过程中语音能量阈值无需进行调整。

本实施例的技术方案通过在确定当前语速与历史平均语速的差异不处于预设差异范围时，在与当前语音端点检测相邻的下一次语音端点检测过程中，基于用户语音能量开始减小的时刻，进行目标时长的延长，将时长延长结束时刻对应的语音能量作为语音能量阈值，实现了针对不同用户根据其语速对语音能量阈值的自适应动态调整，解决了现有语音端点检测方法中由于所有人共用一套参数阈值导致语音识别结果准确率降低的问题，实现了针对不同用户的语音结束端点的个性化检测，避免了语音识别过程中对用户语音的误截断现象，进而确保了获取的用户语音信息的完整性，提高了语音识别的准确性。

实施例三

图3是本发明实施例三提供的语音端点检测装置的结构示意图，本实施例可适用于在基于语音的人机交互过程中，检测用户语音端点的情况。该装置可以采用软件和/或硬件的方式实现，并可集成在具有语音识别功能的终端上，例如智能移动终端和车载设备等。

如图3所示，本实施例提供的语音端点检测装置可以包括语速确定模块310和语音能量阈值调整模块320，其中：

语速确定模块310，用于确定用户的当前语速与历史平均语速的差异是否处于预设差异范围；

语音能量阈值调整模块320，用于如果当前语速与历史平均语速的差异不处于预设差异范围，则根据当前语速调整语音端点检测的语音能量阈值，使得在与当前语音端点检测相邻的下一次语音端点检测过程中，根据调整后的语音能量阈值确定用户的语音结束端点。

可选的，语音能量阈值调整模块320具体用于：

在与当前语音端点检测相邻的下一次语音端点检测过程中，基于用户语音能量开始减小的时刻，进行目标时长的延长，将时长延长结束时刻对应的语音能量作为语音能量阈值，其中，目标时长是根据当前语速确定的预设时间长度。

可选的，该装置还包括：

历史语音统计模块，用于统计用户在预设时间周期内的历史语音，并确定历史语音的开始端点与结束端点分别对应的时刻；

历史平均语速确定模块，用于根据历史语音的识别结果的文本长度，以及历史语音的开始端点与结束端点分别对应的时刻，确定用户的历史平均语速。

可选的，该装置还包括：

语音结束端点确定模块，用于如果当前语速与历史平均语速的差异处于预设差异范围，则根据当前语音端点检测使用的语音能量阈值确定在下一次语音端点检测过程中用户的语音结束端点。

本发明实施例所提供的语音端点检测装置可执行本发明任意实施例所提供的语音端点检测方法，具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本发明任意方法实施例中的描述。

实施例四

图4是本发明实施例四提供的一种终端的结构示意图。图4示出了适于用来实现本发明实施方式的示例性终端412的框图。图4显示的终端412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，终端412以通用终端的形式表现。终端412的组件可以包括但不限于：一个或者多个处理器416，存储装置428，连接不同系统组件(包括存储装置428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(industrysubversivealliance，isa)总线，微通道体系结构(microchannelarchitecture，mac)总线，增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation，vesa)局域总线以及外围组件互连(peripheralcomponentinterconnect，pci)总线。

终端412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(randomaccessmemory，ram)430和/或高速缓存存储器432。终端412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(compactdiscread-onlymemory，cd-rom),数字视盘(digitalvideodisc-readonlymemory，dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储装置428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

终端412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信，还可与一个或者多个使得用户能与该终端412交互的终端通信，和/或与使得该终端412能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口422进行。并且，终端412还可以通过网络适配器420与一个或者多个网络(例如局域网(localareanetwork，lan)，广域网(wideareanetwork，wan)和/或公共网络，例如因特网)通信。如图4所示，网络适配器420通过总线418与终端412的其它模块通信。应当明白，尽管图中未示出，可以结合终端412使用其它硬件和/或软件模块，包括但不限于：微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(redundantarraysofindependentdisks，raid)系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在存储装置428中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例所提供的语音端点检测方法，该方法可以包括：

确定用户的当前语速与历史平均语速的差异是否处于预设差异范围；

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的语音端点检测方法，该方法可以包括：

确定用户的当前语速与历史平均语速的差异是否处于预设差异范围；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：欧阳能钧;贺学焱;彭汉迎
技术所有人：百度国际科技（深圳）有限公司
我是此专利的发明人

上一篇：一种基于声波频率的光缆识别装置及其声频发生器的制作方法
上一篇：一种制备石墨层间化合物的装置及方法与流程