一种基于流式语音识别的嘴型检测方法和装置以及设备与流程

文档序号：33174069发布日期：2023-02-04 03:10阅读：147来源：国知局

技术简介：
本专利针对虚拟人嘴型驱动技术依赖人脸表情系数导致成本高、数据难采集、动画不自然等问题，提出基于流式语音识别的音素规则化驱动方法。通过语音信号提取FBANK特征，构建TDNN声学模型生成文本及音素序列，再映射为视素序列驱动嘴型，无需人脸数据，降低硬件要求，提升动画流畅度与自然度。
关键词：流式语音识别,嘴型检测

1.本发明涉及语音识别技术领域，尤其涉及一种基于流式语音识别的嘴型检测方法和装置以及设备。

背景技术：

2.虚拟人的原理是通过视频来捕捉人脸，并且将人的面部动作同步到人物身上，依据摄像头来制造一个虚拟形象。虚拟人也具备说话的功能，通过嘴型和语音同步，其中虚拟人的口型变化一般采用基于图像驱动的图像识别方法，但是基于图像驱动的图像识别方法往往需要用到摄像头去直接获取人脸，这样的方法会涉及到隐私保护的问题，同时获取难度较大、成本较高。其主要的技术问题体现在：
①
当前领域的虚拟形象嘴型驱动技术训练中更多的是依赖于人脸表情系数和语音同步数据集，但是采集这样的数据集需要通过专门的动作捕捉软件录制专业演员的表演视频，成本高，不能保证数据样本的情况下很难获取比较好的判断效果。
②
当前领域的虚拟形象嘴型驱动技术关注于人脸嘴型动漫，导致生成的虚拟人木讷呆滞，有的时候甚至会产生恐怖谷效应。
③
当前领域的虚拟形象嘴型驱动技术存在合成的嘴型和面部动画不够连续，动画流畅度和自然度欠佳。现有技术多采用人脸表情系数建立深度学习模型，对设备端的硬件要求较高。上述技术问题的主要原因为如下三点：
3.①
当前领域的虚拟形象嘴型驱动技术应用到的人脸表情系数。采集过程中需要在人脸出放置传感器和使用结构光摄像头，设备价格昂贵，而且采集过程中还会因为穿戴不适影响到面部运动，从而导致数据采集较为困难，成本高。
4.②
当前领域的虚拟形象嘴型驱动技术依靠的模型输出的人脸表情系数来生成嘴型的表情，但是由于数据量难以保证，有些帧的准确度不好，导致在实际过程中会由于不准确的这些帧导致切换过程中的不自然。
5.③
当前的虚拟形象嘴型驱动技术采用的人脸表情系数，在设备端上通过对人脸表情系数的解析来最终生成人的嘴型，但是该解析引擎计算量大，很难避免跳变现象，因此难以保证流畅度。
6.因此申请人提出一种基于流式语音识别的嘴型检测方法和装置以及设备。

技术实现要素：

7.有鉴于此，本发明的目的在于提出一种基于流式语音识别的嘴型检测方法和装置以及设备，直接采用语音识别结合音素规则化驱动的方法成本更低且更容易实现。
8.根据本发明的一个方面，提供一种基于流式语音识别的嘴型检测方法，包括：提供一种声学模型，该声学模型识别语音信号输出文本序列；基于该文本序列生成音素序列；基于该音素序列生成视素序列；该声学模型的构建方法包括如下步骤：提取语音信号的fbank特征值，该fbank特征值输入高斯混合模型进行聚类输出若干语音聚类帧；每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征；该拼接特征输入tdnn模型构建的
声学模型进行训练。
9.根据本发明的另一个方面，提供一种基于流式语音识别的嘴型检测装置，包括：采集模块、流式语音识别模块、文本转嘴型模块；所述采集模块，用于采集语音信号；所述流式语音识别模块，利用声学模型识别语音信号输出文本序列；还用于训练声学模型，提取语音信号的fbank特征值，该fbank特征值输入高斯混合模型进行聚类输出若干语音聚类帧；每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征；该拼接特征输入tdnn模型构建的声学模型进行训练；所述文本转嘴型模块，用于根据文本序列生成音素序列；基于该音素序列生成视素序列。
10.根据本发明的又一个方面，提供一种基于流式语音识别的嘴型检测设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一项所述的基于流式语音识别的嘴型检测方法。
11.根据本发明的再一个方面，提供一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述任一项所述的基于流式语音识别的嘴型检测方法。
12.可以发现，以上方案，可以提供一种声学模型，该声学模型识别语音信号输出文本序列；和可以基于该文本序列生成音素序列；和可以基于该音素序列生成视素序列；和可以提取语音信号的fbank特征值，该fbank特征值输入高斯混合模型进行聚类输出若干语音聚类帧；每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征；该拼接特征输入tdnn模型构建的声学模型进行训练。本发明方法没有采用人脸表情系数来作为网络的输出，人脸表情系数标签的获取难度大、成本高，而直接采用语音识别结合音素规则化驱动的方法成本更低，更容易实现。现有技术使用人脸表情系数意味着需要在设备端也要搭建相对应的解析引擎，这对设备端硬件的要求更高，本发明方法更易部署，对硬件要求较低，能够在更多设备上实现部署。针对于现有技术的三个技术问题，
①
当前领域的虚拟形象嘴型驱动技术依赖于人脸表情系数：针对这个问题，本发明方法中采用了的是音素规则化方法，音素与视素直接一一对应，直接弃用人脸表情系数。
②
前领域的虚拟形象嘴型驱动技术生成的虚拟人木讷呆滞：针对这个问题，本文方法采用的是音素规则化方法，在音素切换的时候，相对应的嘴型在切换过程中会有相对应的过渡动画使得切换的过程中更加自然。
③
当前领域的虚拟形象嘴型驱动技术存在合成的嘴型和面部动画不够连续：针对这个问题本方法提出的音素序列和音素规则化方法可以很好的解决这一问题。
附图说明
13.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
14.图1是本发明基于流式语音识别的嘴型检测方法一实施例的流程示意图；
15.图2是本发明基于流式语音识别的嘴型检测方法一实施例的声学模型网络构造图；
16.图3是本发明基于流式语音识别的嘴型检测方法一实施例的音素(phoneme)、视素(viseme)和嘴型(output)具体的对应关系图；
17.图4是本发明基于流式语音识别的嘴型检测方法另一实施例的流程示意图；
18.图5是本发明基于流式语音识别的嘴型检测装置一实施例的结构示意图。
具体实施方式
19.下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
20.本发明提供一种基于流式语音识别的嘴型检测方法，直接采用语音识别结合音素规则化驱动的方法成本更低且更容易实现。
21.请参见图1，图1是本发明基于流式语音识别的嘴型检测方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：
22.s101、提供一种声学模型，该声学模型识别语音信号输出文本序列。
23.在本实施例中，该声学模型的构建方法采用如下步骤：
24.步骤s1011、通过下载公开数据集搭建语音识别数据集，按照语音数据的内容生成对应的text标签；
25.步骤s1012、构建训练脚本，对语音信号提取fbank特征值，使用高斯混合模型(gmm)模型对数据进行聚类，为了确保声学模型的推理实时性，保证能够部署在移动端设备上，需要对gmm的聚类类别数量做一个限制，限制为2000类以下，使得最终声学模型的输出维度也在2000以下，最后聚类生成帧级别的对齐标签；gmm模型聚类的结果是作为声学模型标签来进行训练，因此gmm的聚类类别数量直接和声学模型的输出挂钩，gmm的类别多，那么意味着声学模型输出维度就多，网络参数大就会影响到推理速度，但是限制得太少，会影响到识别性能。因此综合考虑，会对gmm的聚类做一个上限的设置，但是实际上，由于gmm聚类是根据语料丰富度自动化计算过程，下限不需要指定，限制在2000以下主要是考虑声学模型的输出，实际的类别数量会在1500-2000之间，所以在这里仅仅对上界做限制。
26.步骤s1013、基于tdnn模型构建声学模型骨干网络，网络构造如图2所示，它由四个tdnn基本单元构成，relu激活函数作为网络的激活函数提高网络的性能。
27.步骤s1014、声学模型的训练，使用高斯混合模型(gmm)聚类结果作为声学模型的输入输出，在网络模型的输入端进行拼帧，前后各拼多帧，输入总共至少5帧的特征数据，使得模型能够学习到语音信号上下文的信息，输出是经过logsoftmax函数，输出对应的label是高斯混合模型(gmm)聚类的类别结果。可以理解，当前后各拼帧数过少，可能导致无法学习到语音信号上下文的信息；当前后各拼帧数过多，可能导致学习到语音信号上下文的信息过大，后续处理复杂。本文提到的语音分帧单位为30ms,每30ms的数据为一帧，在输入特征使用当前帧的左右拼帧的方式来实现模型对时序信号长时相关性的建模，选择左右拼帧长度可长可短，如果选择短的系数，建模效果受限，选择长度较长，会影响到整个模型的参数量，因为选择长度较长，意味着输入维度的提升，输入维度提升势必造成整个网络较大，
因此帧数主要影响到输入维度和网络的大小、以及建模的实际效果。因此，优选的，在网络模型的输入端进行拼帧，前后各拼5-10帧，输入总共至少11～21帧的特征数据。更优选的，在网络模型的输入端进行拼帧，前后各拼6-8帧，输入总共至少13～17帧的特征数据。在其中一个实施例中，在网络模型的输入端进行拼帧，前后各拼7帧，输入总共至少15帧的特征数据。
28.s102、基于该文本序列生成音素序列；
29.在本实施例中，采用搭建语音识别引擎的方式完成s102。s101建立的声学模型输出似然矩阵作为语言模型的输入。需要根据语音数据的文本信息构建语言模型的加权有限状态转移器，直接从公开数据集中的文本语料来生成语言模型一般来说会过大，通过裁剪语言模型来保证在移动端运行的实时性，语言模型能够根据声学模型的输入解码出文本信息以及语音信号的对应的音素序列。
30.s103、基于该音素序列生成视素序列。
31.在本实施例中，将音素序列内的每个音素依据发音将音素与视素进行映射，每个视素对应一个嘴型；若干视素依据音素序列的顺序排序生成视素序列。音素(phoneme)、视素(viseme)和嘴型(output)具体的对应关系如图3所示。语音识别引擎能够输出语音信号的文本信息以及对应的音素序列，利用音素序列来生成嘴型序列，以此为依据切换嘴型。
32.可以发现，以上方案，可以提供一种声学模型，该声学模型识别语音信号输出文本序列；和可以基于该文本序列生成音素序列；和可以基于该音素序列生成视素序列；和可以提取语音信号的fbank特征值，该fbank特征值输入高斯混合模型进行聚类输出若干语音聚类帧；每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征；该拼接特征输入tdnn模型构建的声学模型进行训练。本发明方法没有采用人脸表情系数来作为网络的输出，人脸表情系数标签的获取难度大、成本高，而直接采用语音识别结合音素规则化驱动的方法成本更低，更容易实现。现有技术使用人脸表情系数意味着需要在设备端也要搭建相对应的解析引擎，这对设备端硬件的要求更高，本发明方法更易部署，对硬件要求较低，能够在更多设备上实现部署。针对于现有技术的三个技术问题，
①
当前领域的虚拟形象嘴型驱动技术依赖于人脸表情系数：针对这个问题，本发明方法中采用了的是音素规则化方法，音素与视素直接一一对应，直接弃用人脸表情系数。
②
前领域的虚拟形象嘴型驱动技术生成的虚拟人木讷呆滞：针对这个问题，本文方法采用的是音素规则化方法，在音素切换的时候，相对应的嘴型在切换过程中会有相对应的过渡动画使得切换的过程中更加自然。
③
当前领域的虚拟形象嘴型驱动技术存在合成的嘴型和面部动画不够连续：针对这个问题本方法提出的音素序列和音素规则化方法可以很好的解决这一问题。
33.请参见图4，图4是本发明基于流式语音识别的嘴型检测方法另一实施例的流程示意图。本实施例中，该方法包括以下步骤：
34.s201、提供一种声学模型，该声学模型识别语音信号输出文本序列。
35.可如上s101所述，在此不作赘述。
36.s202、基于该文本序列生成音素序列。
37.可如上s102所述，在此不作赘述。
38.s203、基于该音素序列生成视素序列。
39.可如上s103所述，在此不作赘述。
40.s204：将该视素序列输入虚拟人物模型，依据视素序列中对应的嘴型变更虚拟人物的嘴型。
41.可以发现，在本实施例中，没有采用人脸表情系数(blendshape)来作为网络的输出，本发明方法中采用了的是音素规则化方法，音素与视素直接一一对应。该方法使得模型更易部署，对硬件要求较低，能够在更多设备上实现部署。
42.本发明还提供一种基于流式语音识别的嘴型检测装置，直接采用语音识别结合音素规则化驱动的方法成本更低且更容易实现。
43.请参见图5，图5是本发明基于流式语音识别的嘴型检测装置一实施例的结构示意图。本实施例中，该基于流式语音识别的嘴型检测装置包括采集模块m1、流式语音识别模块m2、文本转嘴型模块m3。
44.该采集模块m1，用于采集语音信号。
45.该流式语音识别模块m2，利用声学模型识别语音信号输出文本序列；还用于训练声学模型，提取语音信号的fbank特征值，该fbank特征值输入高斯混合模型进行聚类输出若干语音聚类帧；每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征；该拼接特征输入tdnn模型构建的声学模型进行训练。
46.该文本转嘴型模块m3，用于根据文本序列生成音素序列；基于该音素序列生成视素序列。
47.可选地，该文本转嘴型模块m3，可以具体用于：
48.所述声学模型输出似然矩阵；提供一语言模型，输入该似然矩阵进行解码输出文本序列及音素序列；该语言模型的加权有限状态转移器基于语音信号的文本信息进行构建，且该语言模型构建完成后进行剪枝。语音模型的生成主要是基于语料对应的文本集，文本集主要是一些关于语音内容的句子，语音模型根据这些句子的各种不同组合来生成加权有限状态转移器的图路径，如果根据所有的文本集来构建语言模型，可能会导致整个模型过大而难以在移动设备端部署，因此将生成语音模型的文本集上做一定的裁剪，缩小文本集可以很好的压缩语言模型的大小。
49.可选地，该文本转嘴型模块m3，还可以具体用于：
50.将音素序列内的每个音素依据发音将音素与视素进行映射，每个视素对应一个嘴型；若干视素依据音素序列的顺序排序生成视素序列。
51.基于流式语音识别的嘴型检测装置还可以包括可视化模块。
52.该可视化模块，用于将该视素序列输入虚拟人物模型，依据视素序列中对应的嘴型变更虚拟人物的嘴型。
53.该基于流式语音识别的嘴型检测装置的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。
54.本发明又提供一种基于流式语音识别的嘴型检测设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的基于流式语音识别的嘴型检测方法。
55.其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围
设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。
56.处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
57.本发明再提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
58.可以发现，以上方案，可以提供一种声学模型，该声学模型识别语音信号输出文本序列；和可以基于该文本序列生成音素序列；和可以基于该音素序列生成视素序列；和可以提取语音信号的fbank特征值，该fbank特征值输入高斯混合模型进行聚类输出若干语音聚类帧；每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征；该拼接特征输入tdnn模型构建的声学模型进行训练。本发明方法没有采用人脸表情系数来作为网络的输出，人脸表情系数标签的获取难度大、成本高，而直接采用语音识别结合音素规则化驱动的方法成本更低，更容易实现。现有技术使用人脸表情系数意味着需要在设备端也要搭建相对应的解析引擎，这对设备端硬件的要求更高，本发明方法更易部署，对硬件要求较低，能够在更多设备上实现部署。针对于现有技术的三个技术问题，
①
当前领域的虚拟形象嘴型驱动技术依赖于人脸表情系数：针对这个问题，本发明方法中采用了的是音素规则化方法，音素与视素直接一一对应，直接弃用人脸表情系数。
②
前领域的虚拟形象嘴型驱动技术生成的虚拟人木讷呆滞：针对这个问题，本文方法采用的是音素规则化方法，在音素切换的时候，相对应的嘴型在切换过程中会有相对应的过渡动画使得切换的过程中更加自然。
③
当前领域的虚拟形象嘴型驱动技术存在合成的嘴型和面部动画不够连续：针对这个问题本方法提出的音素序列和音素规则化方法可以很好的解决这一问题。
59.在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
60.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
61.另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
62.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可
以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
63.以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜维鑫兰泽华蔡如意
技术所有人：睿云联（厦门）网络通讯技术有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！