数据对齐方法、装置、存储介质及电子设备与流程

文档序号:33496534发布日期:2023-03-17 21:10阅读:25来源:国知局
数据对齐方法、装置、存储介质及电子设备与流程

1.本技术涉及音频处理技术领域,尤其涉及一种数据对齐方法、装置、存储介质及电子设备。


背景技术:

2.随着科技的发展,音频处理技术在多个领域得到了广泛的应用,其中,越来越多的场景需要利用音频处理技术进行音频对齐。
3.当前通常使用ctc(connectionist temporal classification,基于时序分类)语音识别网络对音频进行识别,以解码出音频所对应的字符,但由于ctc语音识别网络的解码精度不高,在对音频进行解码的过程中容易出现多字或者漏字的问题,使得音频无法精确地与相应的字符对齐,导致音频对齐的准确率较低。


技术实现要素:

4.本技术实施例提供一种数据对齐方法、装置、存储介质及电子设备,能够缓解当前音频解码过程中出现的多字或者漏字的技术问题。
5.本技术实施例提供一种数据对齐方法,包括:
6.将待对齐音频的特征数据输入已训练的音频识别网络,得到后验概率矩阵;
7.根据所述待对齐音频的音频标签中的字符,对所述后验概率矩阵进行清洗处理,得到概率发射数据;
8.根据所述音频标签中的字符排序,获取状态转移数据;
9.根据所述概率发射数据和所述状态转移数据确定所述待对齐音频在各音频节点对齐的字符。
10.其中,所述后验概率矩阵为全部字符至少在第一音频节点、第二音频节点以及第三音频节点对应的预测概率,所述第二音频节点为所述第一音频节点的下一相邻音频节点,所述第三音频节点为所述第二音频节点的下一相邻音频节点,所述音频标签中的字符为所述全部字符中的至少一个字符,所述根据所述待对齐音频的音频标签中的字符,对所述后验概率矩阵进行清洗处理,得到概率发射数据,包括:
11.将所述至少一个字符作为目标字符,所述目标字符包括第一字符、第二字符和第三字符;
12.在所述后验概率矩阵中将所述第一字符和所述第二字符在所述第三音频节点的预测概率设置为第一预设值,并将所述第二字符和所述第三字符在所述第一音频节点的预测概率设置为所述第一预设值;
13.将所述后验概率矩阵中的所述第一字符、所述第二字符和所述第三字符在所述第一音频节点、所述第二音频节点以及所述第三音频节点的预测概率作为概率发射数据。
14.其中,所述根据所述音频标签中的字符排序,获取状态转移数据,包括:
15.根据所述音频标签中所述目标字符的排序,获取字符转移概率,所述字符转移概
率为各目标字符从所述第一音频节点和所述第二音频节点转移至下一相邻音频节点对应的各目标字符的转移概率;
16.将所述字符转移概率作为状态转移数据。
17.其中,所述根据所述概率发射数据和所述状态转移数据确定所述待对齐音频在各音频节点对齐的字符,包括:
18.根据所述概率发射数据和所述状态转移数据获取所述第二音频节点和所述第三音频节点对应的路径概率;
19.根据各路径概率确定所述待对齐音频在所述第一音频节点、所述第二音频节点以及所述第三音频节点对齐的目标字符。
20.其中,所述根据所述概率发射数据和所述状态转移数据获取所述第二音频节点和所述第三音频节点对应的路径概率,包括:
21.根据所述状态转移数据,得到各目标字符从所述第一音频节点转移至所述第二音频节点的至少一个第一有效转移路径,所述第一有效转移路径为各目标字符从所述第一音频节点转移至所述第二音频节点对应的各目标字符的转移概率为第二预设值的转移路径;
22.根据所述概率发射数据,计算在所述至少一个第一有效转移路径中,与所述第一音频节点对应的各目标字符的预测概率以及各目标字符在所述第二音频节点的预测概率的乘积,得到所述第二音频节点对应的至少一个路径概率;
23.根据所述状态转移数据,得到各目标字符从所述第二音频节点转移至所述第三音频节点的至少一个第二有效转移路径,所述第二有效转移路径为各目标字符从所述第二音频节点转移至所述第三音频节点对应的各目标字符的转移概率为所述第二预设值的转移路径;
24.根据所述概率发射数据,计算在所述至少一个第二有效转移路径中,所述各目标字符在所述第二音频节点对应的路径概率以及各目标字符在所述第三音频节点的预测概率的乘积,得到所述第三音频节点对应的至少一个路径概率。
25.其中,所述根据各路径概率确定所述待对齐音频在所述第一音频节点、所述第二音频节点以及所述第三音频节点对齐的目标字符,包括:
26.在所述至少一个第二有效转移路径中,将所述第三音频节点对应的至少一个路径概率中数值最大的路径概率作为第一最大路径概率,并将与所述第一最大路径概率对应的目标字符确定为第三对齐字符,所述第三对齐字符为与所述第三音频节点对齐的目标字符;
27.根据所述第三对齐字符与所述第二音频节点对应的至少一个路径概率确定第二对齐字符,所述第二对齐字符为与所述第二音频节点对齐的目标字符;
28.根据各目标字符在所述第一音频节点的预测概率确定第一对齐字符,所述第一对齐字符为与所述第一音频节点对齐的目标字符。
29.其中,所述根据所述第三对齐字符与所述第二音频节点对应的至少一个路径概率确定第二对齐字符,包括:
30.确定在所述第二音频节点时,与所述第三对齐字符位于相同所述第二有效转移路径的至少一个目标字符;
31.从所述至少一个目标字符中确定具有第二最大路径概率的目标字符,将所述具有
第二最大路径概率的目标字符作为第二对齐字符,所述第二最大路径概率为所述第二音频节点对应的至少一个路径概率中数值最大的路径概率。
32.其中,所述根据各目标字符在所述第一音频节点的预测概率确定第一对齐字符,包括:
33.确定在所述第一音频节点时,与所述第二对齐字符位于相同所述第一有效转移路径的至少一个目标字符;
34.从所述至少一个目标字符中确定预测概率的数值最大的目标字符,将所述目标字符作为第一对齐字符。
35.本技术实施例还提供了一种数据对齐装置,包括:
36.输入模块,用于将待对齐音频的特征数据输入已训练的音频识别网络,得到后验概率矩阵;
37.概率发射数据获取模块,用于根据所述待对齐音频的音频标签中的字符,对所述后验概率矩阵进行清洗处理,得到概率发射数据;
38.状态转移数据获取模块,用于根据所述音频标签中的字符排序,获取状态转移数据;
39.对齐模块,用于根据所述概率发射数据和所述状态转移数据确定所述待对齐音频在各音频节点对齐的字符。
40.本技术实施例还提供了一种计算机可读存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述任一项数据对齐方法。
41.本技术实施例还提供了一种电子设备,包括处理器和存储器,所述处理器与所述存储器电性连接,所述存储器用于存储指令和数据,所述处理器用于执行上述任一项数据对齐方法中的步骤。
42.本技术实施例提供一种数据对齐方法、装置、存储介质及电子设备,将待对齐音频的特征数据输入已训练的音频识别网络,得到后验概率矩阵,然后根据待对齐音频的音频标签中的字符对后验概率矩阵进行清洗处理,得到概率发射数据,之后根据音频标签中的字符排序获取状态转移数据,最后根据概率发射数据和状态转移数据确定待对齐音频在各音频节点对齐的字符。由于音频标签中的字符反映了与待对齐音频实际包含的字符,相较于直接通过ctc语音识别网络对待对齐音频进行解码,根据待对齐音频的音频标签中的字符得到的概率发射数据和状态转移数据来确定待对齐音频在各音频节点对应的字符,能够有效缓解当前音频解码过程中出现的多字或者漏字的技术问题。
附图说明
43.下面结合附图,通过对本技术的具体实施方式详细描述,将使本技术的技术方案及其它有益效果显而易见。
44.图1为本技术实施例提供的数据对齐方法的流程示意图。
45.图2a为本技术实施例提供的后验概率矩阵示意图。
46.图2b为本技术实施例提供的概率发射数据示意图。
47.图3a为本技术实施例提供的状态转移数据示意图。
48.图3b为本技术实施例提供的状态转移数据的另一示意图。
49.图4为本技术实施例提供的概率发射数据和状态转移数据结合的示意图。
50.图5为本技术实施例提供的音频对齐示意图。
51.图6为本技术实施例提供的数据对齐装置的结构示意图。
52.图7为本技术实施例提供的电子设备的结构示意图。
具体实施方式
53.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
54.本技术实施例提供一种数据对齐方法、装置、存储介质及电子设备。
55.如图1所示,图1是本技术实施例提供的数据对齐方法的流程示意图,具体流程可以如下:
56.101.将待对齐音频的特征数据输入已训练的音频识别网络,得到后验概率矩阵。
57.其中,待对齐音频由多帧音频组成,特征数据用于反映待对齐音频的音频特征,音频识别网络用于根据音频特征得到后验概率矩阵。
58.具体地,后验概率矩阵用于表征全部字符在各音频节点对应的预测概率。其中,全部字符为所有存在的任意形式的字符(例如,汉字、数字、字母和符号),音频节点为待对齐音频持续时间内,一字符切换为另一字符所对应的节点,用于反映在待对齐音频持续时间内,各字符出现时所对应的时刻。
59.例如,待对齐音频的实际持续时间为4s,共有4个音频节点,分别位于待对齐音频中的第1s(第一个音频节点)、第2s(第二个音频节点)、第3s(第三个音频节点)和第4s(第四个音频节点),全部字符为a、b、c、d、t、φ、“中”、“国”、1、2和3,则后验概率矩阵表征了a、b、c、d、t、φ、“中”、“国”、1、2和3分别在第1s、第2s、第3s和第4s对应的预测概率。
60.可选地,由于一个字符可能在待对齐音频中持续涵盖多个时刻(即从一个时刻开始持续至另一时刻结束),因此,任意两音频节点之间可涵盖多个时刻。
61.例如,待对齐音频的实际持续时间为10s,共有4个音频节点,分别位于待对齐音频中的第1s(第一个音频节点)、第6s(第二个音频节点)、第7s(第三个音频节点)和第9s(第四个音频节点),其中第1s与第6s之间涵盖了第2s、第3s、第4s和第5s,第7s与第9s之间涵盖了第8s,全部字符为a、b、c、d、t、φ、“中”、“国”、1、2和3,则后验概率矩阵表征了a、b、c、d、t、φ、“中”、“国”、1、2和3分别在第1s、第6s、第7s和第9s对应的预测概率。
62.可选地,在本实施例中,先将待对齐音频进行分帧和加窗处理,再将处理后的待对齐音频输入至已训练的音频识别网络,以提取出待对齐音频的特征数据,再通过已训练的音频识别网络对待对齐音频的特征数据进行识别,得到用于表征各字符在各个音频节点的预测概率的后验概率矩阵,可选地,音频识别网络为ctc语音识别网络。
63.进一步地,在上述步骤101之前,还包括:
64.将音频样本数据集进行标注,并将已标注的音频样本数据集输入音频识别网络,以提取音频样本数据集的特征数据,以使音频识别网络获取音频样本数据集的特征数据与预测音频特征数据之间的损失值,并根据该损失值对音频识别网络进行参数调节,以降低
损失值,从而得到已训练的音频识别网络。
65.102.根据待对齐音频的音频标签中的字符排序,对后验概率矩阵进行清洗处理,得到概率发射数据。
66.其中,待对齐音频的音频标签反映了待对齐音频对应的文本内容,可选地,可通过人工输入待对齐音频对应的文本内容作为音频标签,或,通过音频内容识别模型获取待对齐音频对应的文本内容作为音频标签。
67.在现有技术中通常直接将待对齐音频输入至ctc语音识别网络得到后验概率矩阵,再根据后验概率矩阵进行解码,以得到字符,由于ctc语音识别网络的解码精度不高,解码得到的字符可能为任意字符(包括除待对齐音频实际包含的字符以外的其他字符),从而降低了待对齐音频与字符对齐的精确度。
68.在本实施例中,根据待对齐音频的音频标签中的字符(全部字符中的至少一个字符)对后验概率矩阵进行清洗处理,得到概率发射数据,优化后的后验概率矩阵仅表征待对齐音频实际包含的字符在各音频节点的预测概率,有效提升了后续待对齐音频与字符对齐过程中的准确率。
69.具体地,后验概率矩阵为全部字符在待对齐音频的各音频节点对应的预测概率,音频标签中的字符为全部字符中的至少一个字符,将至少一个字符作为目标字符,从后验概率矩阵中提取目标字符的预测概率,然后根据目标字符的排序将除初始目标字符以外的其他目标字符在初始音频节点的预测概率设置为第一预设值,并将除末尾目标字符以外的其他目标字符在末尾音频节点的预测概率设置为第一预设值。
70.其中,初始目标字符为目标字符的排序中位于第一个的目标字符,末尾目标字符为目标字符的排序中位于最后一个的目标字符,初始音频节点为各音频节点中的第一个音频节点,末尾音频节点为各音频节点中的最后一个音频节点,最后将各目标字符在各音频节点的预测概率作为概率发射数据。
71.在本实施例中,后验概率矩阵为全部字符至少在第一音频节点(待对齐音频的初始音频节点)、第二音频节点以及第三音频节点(待对齐音频的结束音频节点)的预测概率,其中,第二音频节点为第一音频节点的下一相邻音频节点,第三音频节点为第二音频节点的下一相邻音频节点,并将待对齐音频的音频标签中的字符作为目标字符,目标字符包括第一字符(音频标签中的第一个字符)、第二字符(音频标签中的第二个字符)和第三字符(音频标签中的第三个字符)。
72.进一步地,在后验概率矩阵中将第一字符和第二字符在第三音频节点的预测概率设置为第一预设值,并将第二字符和第三字符在第一音频节点的预测概率设置为第一预设值,然后将后验概率矩阵中的第一字符、第二字符和第三字符在第一音频节点、第二音频节点以及第三音频节点的预测概率作为概率发射数据。
73.需要说明的是,为了遵循ctc准则:在初始音频节点出现待对齐音频中的最后一个字符的预测概率为0,在结束音频节点出现待对齐音频中第一个字符的预测概率为0,故在本实施例中,优选地,将第一预设值设置为0。
74.在另一个实施例中,φ、a、b、c、d、t、6、“天”为全部字符,待对齐音频的时长为4s,共有4个音频节点,分别位于待对齐音频中的第1s(第一个音频节点)、第2s(第二个音频节点)、第3s(第三个音频节点)和第4s(第四个音频节点),其中,a在第1s、第2s、第3s和第4s对
应的预测概率分别为0.023、0.034、0.91和0.059,b在第1s、第2s、第3s和第4s对应的预测概率分别为0.08、0.002、0.015和0.072,c在第1s、第2s、第3s和第4s对应的预测概率分别为0.0083、0.42、0.0056和0.0165,d在第1s、第2s、第3s和第4s对应的预测概率分别为0.026、0.0132、0.011和0.042,t在第1s、第2s、第3s和第4s对应的预测概率分别为0.042、0.071、0.035和0.025,φ在第1s、第2s、第3s和第4s对应的预测概率分别为0.025、0.0021、0.0061和0.56,6在第1s、第2s、第3s和第4s对应的预测概率分别为0.0056、0.0085、0.026和0.027,“天”在第1s、第2s、第3s和第4s对应的预测概率分别为0.0213、0.0811、0.0078和0.0012。
75.在又一实施例中,如图2a和图2b所示,图2a为本技术实施例提供的后验概率矩阵示意图,φ、a、b、c、d、t、6、“天”为全部字符,待对齐音频的时长为10s,共有4个音频节点,分别位于待对齐音频中的第1s(第一个音频节点)、第6s(第二个音频节点)、第7s(第三个音频节点)和第9s(第四个音频节点),其中,a在第1s、第6s、第7s和第9s对应的预测概率分别为0.0049、0.0052、0.91和0.0026,b在第1s、第6s、第7s和第9s对应的预测概率分别为0.0018、0.0032、0.15和0.0022,c在第1s、第6s、第7s和第9s对应的预测概率分别为0.0053、0.93、0.0036和0.0015,d在第1s、第6s、第7s和第9s对应的预测概率分别为0.0036、0.0041、0.0051和0.0032,t在第1s、第6s、第7s和第9s对应的预测概率分别为0.0022、0.0021、0.0035和0.92,φ在第1s、第6s、第7s和第9s对应的预测概率分别为0.95、0.0033、0.0011和0.95,6在第1s、第6s、第7s和第9s对应的预测概率分别为0.0014、0.0017、0.0089和0.0047,“天”在第1s、第6s、第7s和第9s对应的预测概率分别为0.0053、0.021、0.0036和0.0045。
76.待对齐音频的音频标签中依次包含空字符φ、第一字符c,第二字符a以及第三字符t,按照ctc准则,在第1s(第一个音频节点)仅可能为空字符φ或音频标签中的第一个字符(c),在第9s(第四个音频节点)仅可能为空字符φ或音频标签中的最后一个字符(t),因此,将a和t在第1s的预测概率设置为0,并将a和c在第9s的预测概率设置为0,然后将后验概率矩阵中φ、c、a、t在第1s、第6s、第7s和第9s对应的预测概率作为图2b所示的概率发射数据。
77.103.根据音频标签中的字符排序,获取状态转移数据。
78.其中,状态转移数据用于表征音频标签中的字符从当前音频节点转移至下一相邻音频节点对应的字符的概率,优选地,为遵循ctc准则,字符不能从当前音频节点转移为下一音频节点的任一先前字符,也即字符从当前音频节点转移为下一音频节点的任一先前字符的转移概率为0。
79.具体地,根据音频标签中目标字符的排序,获取字符转移概率,该字符转移概率为各目标字符从各音频节点中的一个音频节点转移至下一相邻音频节点对应的目标字符的转移概率,并将该字符转移概率作为状态转移数据。
80.在一个实施例中,根据音频标签中目标字符的排序,获取各目标字符从第一音频节点和第二音频节点转移至下一相邻音频节点对应的各目标字符的转移概率,并将这些转移概率作为状态转移数据。
81.在另一实施例中,如图3a和图3b所示,其中,音频标签中的字符依次为φ(空字符)、c、a和t。
82.具体地,图3a中箭头连接的路径为各字符从当前音频节点转移至下一相邻音频节点对应字符的转移概率为1的转移路径,由于在c、a和t的前后位置均可能存在空字符φ,为
遵循ctc准则,待对齐音频中的各字符只能转移至下一相邻音频节点的相同字符、空字符或者下一相邻字符,因此,位于c之前的空字符φ只能从当前音频节点转移至下一相邻音频节点的φ或者c;c只能从当前音频节点转移至下一相邻音频节点的φ、c或者a;位于c与a之间的φ只能从当前音频节点转移至下一相邻音频节点的φ或者a;a只能从当前音频节点转移至下一相邻音频节点的a、φ或者t;位于a与t之间的φ只能从当前音频节点转移至下一相邻音频节点的φ或者t;t只能从当前音频节点转移至下一相邻音频节点的t或者φ。
83.进一步地,根据图3a所示的转移路径可得到图3b,图3b反映了各字符(横轴)转移至下一相邻音频节点对应的各字符(纵轴)的转移概率。
84.104.根据概率发射数据和状态转移数据确定待对齐音频在各音频节点对齐的字符。
85.其中,由于概率发射数据表征了待对齐音频的音频标签中的字符在各音频节点的预测概率,状态转移数据表征了待对齐音频的音频标签中的字符转移至下一相邻音频节点的概率,因此,通过将概率发射数据和状态转移数据结合,再根据维特比算法(包括前向算法和后向算法)确定待对齐音频在各音频节点对齐的字符,可有效提升字符对齐的精确度。
86.其中,根据状态转移数据得到各目标字符转移至下一相邻音频节点对应的各目标字符的至少一个有效转移路径,该有效转移路径为转移概率等于第二预设值的转移路径,然后根据概率发射数据及至少一个有效转移路径,获取各音频节点中除初始音频节点以外的其他音频节点对应的至少一个路径概率,并根据各路径概率确定待对齐音频在各音频节点对齐的目标字符。
87.具体地,将末尾音频节点对应的至少一个路径概率中数值最大的路径概率作为第一最大路径概率,并将与第一最大路径概率对应的目标字符确定为末尾对齐字符,末尾对齐字符为与末尾音频节点对齐的目标字符,然后根据末尾对齐字符及各音频节点中除初始音频节点以外的其他音频节点对应的至少一个路径概率,得到各音频节点对齐的目标字符。
88.在一个实施例中,通过前向算法,根据概率发射数据和状态转移数据获取第二音频节点和第三音频节点对应的路径概率,该路径概率用于表征各目标字符由第一音频节点转移至第二音频节点对应的各目标字符的转移路径的概率,以及各目标字符由第二音频节点转移至第三音频节点对应的各目标字符的转移路径的概率,然后根据各路径概率确定待对齐音频在第一音频节点、第二音频节点以及第三音频节点对齐的目标字符。
89.具体地,前向算法的具体过程为:根据状态转移数据得到各目标字符从第一音频节点转移至第二音频节点的至少一个第一有效转移路径,该第一有效转移路径为各目标字符从第一音频节点转移至第二音频节点对应的各目标字符的转移概率为第二预设值的转移路径,然后根据概率发射数据计算在至少一个第一有效转移路径中,与第一音频节点对应的各目标字符的预测概率以及各目标字符在第二音频节点的预测概率的乘积,得到第二音频节点对应的至少一个路径概率。
90.类似地,在根据概率发射数据和状态转移数据获取第三音频节点对应的路径概率时,根据状态转移数据得到各目标字符从第二音频节点转移至第三音频节点的至少一个第二有效转移路径,其中,第二有效转移路径为各目标字符从第二音频节点转移至第三音频节点对应的各目标字符的转移概率为第二预设值的转移路径,然后根据概率发射数据计算
在至少一个第二有效转移路径中,各目标字符在第二音频节点对应的路径概率以及各目标字符在第三音频节点的预测概率的乘积,得到第三音频节点对应的至少一个路径概率。
91.其中,第一有效转移路径和第二有效转移路径反映了目标字符之间的有效转移路径(即目标字符之间有转移的可能性),因此,在第一有效转移路径和第二有效转移路径上的目标字符之间的转移概率不为0,优选地,为了遵循ctc规则:字符从当前音频节点转移至下一相邻音频节点的相同字符、空字符或下一相邻字符的转移概率为1,因此,在本实施例中,将第二预设值的数值设置为1。
92.进一步地,在多个第二有效转移路径中,将第三音频节点对应的至少一个路径概率中数值最大的路径概率作为第一最大路径概率,该第一最大路径概率对应的目标字符即为在第三音频节点最可能对齐的目标字符,故将与第一最大路径概率对应的目标字符确定为第三对齐字符(与第三音频节点对齐的目标字符)。
93.接下来通过后向算法计算与第二音频节点以及第一音频节点对齐的目标字符:
94.首先从第二音频节点对应的各目标字符中确定与第三对齐字符位于同一第二有效转移路径的目标字符,再从这些目标字符中确定具有第二最大路径概率(第二音频节点对应的多个路径概率中数值最大的路径概率)的目标字符,并将该目标字符确定为第二对齐字符(与第二音频节点对齐的目标字符)。
95.接下来,从第一音频节点对应的各目标字符中确定与第二对齐字符位于相同第一有效转移路径的目标字符,再从这些目标字符中确定预测概率的数值最大的目标字符,并将该目标字符确定为第一对齐字符(与第一音频节点对齐的目标字符)。
96.上文即为通过后向算法计算与第二音频节点以及第一音频节点对齐的目标字符的过程。
97.需要说明的是,由于上文内容中的前向算法以及后向算法仅与字符的排序以及预测概率相关,因此,上文内容中的前向算法以及后向算法中字符间的运算方法适用于任意形式的字符(例如,数字、汉字、字符或符号),也即无论待对齐音频的音频标签中的字符为何种形式的字符,均可根据上文内容中的前向算法以及后向算法来确定待对齐音频在各音频节点对齐的字符。
98.在另一个实施例中,待对齐音频中包括φ、c、a和t,音频节点为第1s、第6s、第7s和第9s,如图4所示,其中,连线表示该路径的转移概率为1,无连线表示该路径的转移概率为0。在第9s(待对齐音频的结束音频节点)时,第9s对应的位于c前面的φ的路径概率为:0.93*1*0.0053*1*0.0033*1*0.0011=1.79*10-8

99.第9s对应的c的路径概率为:0.93*1*0.0053*1*0.0033*0=0和0.93*1*0.95*1*0.0052*0=0;
100.第9s对应的位于c与a之间的φ的路径概率为:0.93*1*0.0053*1*0.0052*1*0.0011=2.8*10-8
、0.93*1*0.95*1*0.0052*1*0.0011=5.0*10-6
、0.93*1*0.95*1*0.0033*1*0.0011=3.2*10-6
、0.0021*1*0.95*1*0.0033*1*0.0011=7.2*10-9
、0.0021*1*0.0053*1*0.0033*1*0.0011=4*10-11

101.第9s对应的a的路径概率为:0.93*1*0.0053*1*0.0052*1*0=0、0.93*1*0.95*1*0.0052*1*0=0、0.0021*1*0.95*1*0.0052*1*0=0、0.93*1*0.95*1*0.0033*1*0=0、0.0021*1*0.95*1*0.0033*1*0=0、0.93*1*0.95*1*0.82*1*0=0、0.0021*1*0.95*1*0.82*
1*0=0、0.0021*1*0.0053*1*0.82*1*0=0、0.0021*1*0.0035*1*0.82*1*0=0;
102.第9s对应的位于a与t之间的φ的路径概率为:0.93*1*0.95*1*0.82*1*0.0011=8.0*10-4
、0.0021*1*0.95*1*0.82*1*0.0011=1.8*10-6
、0.0021*1*0.0053*1*0.82*1*0.0011=1.0*10-8
、0.0021*1*0.0035*1*0.82*1*0.0011=6.7*10-9
和0.0021*1*0.0035*1*0.0033*1*0.0011=2.7*10-11

103.第9s对应的t的路径概率为:0.93*1*0.95*1*0.82*1*0.76=5.5*10-1
(最大路径概率)、0.0021*1*0.95*1*0.82*1*0.76=1.2*10-3
、0.0021*1*0.0053*1*0.82*1*0.76=6.9*10-6
、0.0021*1*0.0035*1*0.82*1*0.76=4.6*10-6
、0.0021*1*0.0035*1*0.0033*1*0.76=1.8*10-8
和0.0021*1*0.0035*1*0.0021*1*0.76=1.2*10-8

104.第9s对应的位于t后面的φ的路径概率为:0.0021*1*0.0035*1*0.0021*1*0.0011=1.7*10-11

105.通过上述计算结果可知,在第9s时,t的路径概率最大,因此确定t为与第9s对齐的字符,由于第9s对应的t可通过第7s的a、位于a与t之间的φ以及t转移得到,且第7s对应的a的路径概率为:0.93*1*0.95*1*0.82=7.2*10-1
(最大路径概率)、0.0021*1*0.95*1*0.82=1.6*10-3
、0.0021*1*0.0053*1*0.82=9.1*10-6
和0.0021*1*0.0035*1*0.82=6.0*10-6

106.第7s对应的位于a与t之间的φ的路径概率为:0.0021*1*0.0035*1*0.0033=2.4*10-8

107.第7s对应的t的路径概率为:0.0021*1*0.0035*1*0.0021=1.5*10-8

108.由此可见,在第7s时,a的路径概率最大,因此确定a为与第7s对齐的字符。进一步地,由于第7s对应的a可通过第6s的c、位于c和a之间的φ以及a转移得到,且第6s对应的c的路径概率为:0.93*1*0.95=8.8*10-1
(最大路径概率);第6s对应的位于c和a之间的φ的路径概率为:0.0021*1*0.0053=1.1*10-5
;第6s对应的a的路径概率为:0.0021*1*0.0035*=7.4*10-6

109.由于在第6s时,c的路径概率最大,因此确定c为与第6s对齐的字符。进一步地,在第1s时,位于c前面的φ的预测概率比其他字符的预测概率都大,且位于c前面的φ从第1s转移至第6s的c的转移概率为1,所以确定位于c前面的φ为与第1s对齐的字符。
110.因此,待对齐音频在第1s对齐的字符为φ,在第6s对齐的字符为c,在第7s对齐的字符为a,在第9s对齐的字符为t,也即φ从第1s开始持续至第5s结束,c从第6s开始持续至第6s结束,a从第7s开始持续至第8s结束,t从第9s开始持续至第10s结束。如图5所示,图5为本技术实施例提供的音频对齐示意图,在第1s与字符“音”2001对齐,并从第1s开始持续至第1s结束,第2s与字符“频”2002对齐,并从第2s开始持续至第3s结束,第4s与字符“对”2003对齐,并从第4s开始持续至第7s结束,第8s与字符“齐”2004对齐,并从第8s开始持续至第9s结束,第10s与字符“y”2005对齐,并从第10s开始持续至第10s结束,由此可见,通过本技术实施例提供的数据对齐方法,避免了音频对齐过程中出现的多字或者漏字的问题,有效提高了音频对齐的准确率。
111.由上述可知,本技术实施例提供的数据对齐方法,将待对齐音频的特征数据输入已训练的音频识别网络,得到后验概率矩阵,然后根据待对齐音频的音频标签中的字符对后验概率矩阵进行清洗处理,得到概率发射数据,之后根据音频标签中的字符排序获取状态转移数据,最后根据概率发射数据和状态转移数据确定待对齐音频在各音频节点对齐的
字符。由于音频标签中的字符反映了与待对齐音频实际包含的字符,相较于直接通过ctc语音识别网络对待对齐音频进行解码,根据待对齐音频的音频标签中的字符得到的概率发射数据和状态转移数据来确定待对齐音频在各音频节点对应的字符,能够有效缓解当前音频解码过程中出现的多字或者漏字的技术问题。
112.根据上述实施例所描述的方法,本实施例将从数据对齐装置的角度进一步进行描述,该数据对齐装置具体可以作为独立的实体来实现,也可以集成在电子设备中。
113.请参阅图6,图6具体描述了本技术实施例提供的数据对齐装置,该数据对齐装置可以包括:输入模块10、优化模块20、获取模块30和对齐模块40,其中:
114.(1)输入模块10
115.输入模块10,用于将待对齐音频的特征数据输入已训练的音频识别网络,得到后验概率矩阵。
116.(2)概率发射数据获取模块20
117.概率发射数据获取模块20,用于根据待对齐音频的音频标签中的字符,对后验概率矩阵进行清洗处理,得到概率发射数据。
118.(3)状态转移数据获取模块30
119.状态转移数据获取模块30,用于根据音频标签中的字符排序,获取状态转移数据。
120.(4)对齐模块40
121.对齐模块40,用于根据概率发射数据和状态转移数据确定待对齐音频在各音频节点对齐的字符。
122.由上述可知,本技术实施例提供的数据对齐装置,通过输入模块10将待对齐音频的特征数据输入已训练的音频识别网络,得到后验概率矩阵,然后通过概率发射数据获取模块20根据待对齐音频的音频标签中的字符对后验概率矩阵进行清洗处理,得到概率发射数据,之后通过状态转移数据获取模块30根据音频标签中的字符排序获取状态转移数据,最后通过对齐模块40根据概率发射数据和状态转移数据确定待对齐音频在各音频节点对齐的字符。由于音频标签中的字符反映了与待对齐音频实际包含的字符,相较于直接通过ctc语音识别网络对待对齐音频进行解码,根据待对齐音频的音频标签中的字符得到的概率发射数据和状态转移数据来确定待对齐音频在各音频节点对应的字符,能够有效缓解当前音频解码过程中出现的多字或者漏字的技术问题。
123.以上各个设备的具体实施可参见前面的实施例,在此不再赘述。
124.另外,本技术实施例还提供一种电子设备。如图7所示,电子设备包括处理器701、无线模块702、存储器703、音频电路704、显示单元705、输入单元706、传感器707、电源708和射频电路709,用于实施上述实施例中提供的图像处理方法。具体地,存储器703可用于存储软件程序以及模块,存储器703可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器703可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器703还可以包括存储器控制器,以提供处理器701对存储器703的访问。
125.综上,虽然本技术已以优选实施例揭露如上,但上述优选实施例并非用以限制本
申请,本领域的普通技术人员,在不脱离本技术的精神和范围内,均可作各种更动与润饰,因此本技术的保护范围以权利要求界定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1