本发明涉及一种基于大语言模型的语音识别方法,属于语音识别领域。
背景技术:
0、技术背景
1、自动语音识别(asr)系统在实际生活中有广泛的应用场景和应用需求。然而,构建一个具有较高识别准确率的语音识别模型需要依赖大量的语音-文本标注数据进行模型训练,如目前可实用化的中、英文语音识别系统,所使用的训练数据超过数万小时。对于大多数语言而言,构建如此庞大规模的训练数据需要大量的人工和成本。由于缺乏足够的语音-文本标注数据,训练出性能较好的语音识别模型还非常困难。
2、针对低资源语言,目前的方法主要是利用大量无标注语音数据,通过自监督预训练方式让模型学习语音信号中的自相关特性,以获取语音中蕴含着的句法和语义等信息的声学表征。在自监督预训练模型提取语音表征的基础上,使用少量标注数据进行微调,进而将预训练模型适配到语音识别任务。然而,语音自监督预训练方法只关注语音表征,忽略了语音表征与转录文本间的映射关系,导致模型在生成文字转录结果时生成能力不足,识别效果不佳。
技术实现思路
1、本发明要解决的问题是:本发明通过提供一种基于大语言模型的语音识别方法,解决了现有方法只关注语音表征,忽略了语音表征与转录文本间的映射关系,导致模型在生成文字转录结果时生成能力不足,识别效果不佳的问题,本发明能利用少量语音-文本标注数据构建语音识别模型,能够有效缓解对训练数据的依赖,能构建出一个具有较高识别准确率和较好泛化能力的语音识别模型;能生成更加准确的语音识别结果。
2、本发明的技术方案是:一种基于大语言模型的语音识别方法,所述方法包括:
3、通过将原始音频信号输入至语音自监督预训练模型进行声学特征提取,将提取出的声学特征序列进行压缩和特征对齐后输入至大语言模型,利用大语言模型生成对应的识别结果。
4、所述方法的具体步骤包括:
5、step1:预训练声学特征提取:将原始音频信号输入至语音自监督预训练模型hubert,利用hubert提取对应的高维声学特征序列;
6、step2:语音转录文本嵌入的提取:将语音转录文本输入至llama2大语言模型,经过大模型分词后,通过其嵌入层输出其对应的文本嵌入序列;
7、step3:语音-文本特征对齐模块的构建,基于ctc预测概率对声学特征序列进行词边界预测,标记出属于词边界的语音帧后,将词边界内的语音帧进行加权合并,从而将声学特征序列进行长度压缩;将压缩后的声学特征序列输入至语音-文本特征对齐模块进行编码,利用最优传输损失优化语音-文本特征对齐模块,将编码后的声学特征序列映射到大模型文本嵌入空间;
8、step4:语音识别结果的生成:将编码后的声学特征序列输入至llama2大语言模型,采用交叉熵损失训练模型,利用大语言模型以自回归方式生成对应的转录文本。
9、进一步地,所述语音自监督预训练模型为开源hubert预训练模型,利用了librilight公开数据集中6万小时的无标注语音数据进行预训练而成;预训练过程旨在捕捉语音信号中的内容、韵律、情感等声学特征以及上下文语义信息;hubert预训练模型由7层卷积网络和24层transformer编码块构成,hubert预训练模型通过卷积网络实现原始音频信号的下采样,采用离线聚类方法,为掩蔽语言模型的预训练产生噪声标签,从而提取语音高层表征;将原始音频信号输入至hubert预训练模型,提取出的自监督语音特征为:
10、
11、其中表示t时刻hubert预训练模型第l层输出的高维声学特征,m为声学特征序列的长度。
12、进一步地,所述大语言模型为开源llama2-7b模型,基于英文文本数据训练而成;llama2-7b模型为transformer解码器架构,其文本嵌入维度为4096;将文本输入至llama2-7b模型进行分词并提取分词嵌入,得到的大模型文本嵌入为:
13、ellm={e1,e2,...,en}=llm_emb(w1,w2,...,wn)
14、其中,n为文本嵌入序列的长度,wi表示经过大模型分词后的子词。
15、进一步地,所述语音-文本特征对齐模块将声学特征与大语言模型文本嵌入进行映射和对齐,实现大语言模型对输入语音特征的适配;语音-文本特征对齐模块用于进行语音特征序列的压缩和语音特征与文本嵌入的对齐,具体分别采用如下方法完成:基于词边界预测的声学特征序列压缩方法、基于最优传输的语音-文本特征对齐方法。
16、进一步地,所述基于词边界预测的声学特征序列压缩方法包括:
17、利用ctc帧级对齐概率,识别并锚定出声学特征序列中词边界对应的语音帧;对于任意时刻t的语音帧,ctc预测其为blank的概率为p′t(<bk>),预测其为词边界的概率为p′t(<bd>),p′t(<bk>)与p′t(<bd>)的计算过程为:
18、p′t(<bk>)=p(πt=blank)
19、p′t(<bd>)=∑i≠blap(πt=i)p(πt+1≠i)
20、通过设置合适的阈值θ,将p′t(<bd>)大于该阈值的语音帧标记为词或子词的边界,锚定边界帧后,将位于两个词边界之间语音帧对应的声学特征以加权求和方式进行,如下式所示:
21、
22、其中,ht为语音片段seg t′内某个时刻t对应的声学特征,ht′为语音片段seg t′内的声学特征合并结果;通过上述方式,经hubert预训练模型提取的声学特征序列被合并,合并后的声学特征序列长度与对应的转录文本子词序列长度接近。
23、进一步地,所述基于最优传输的语音-文本特征对齐方法包括:
24、利用最优传输损失将压缩后的语音特征与大语言模型的文本嵌入进行映射和对齐;将hubert模型输出的最后四层隐状态在特征维度进行拼接,从而将语音特征的维度与大模型文本嵌入的维度保持一致,拼接过程如下式所示:
25、
26、语音特征序列压缩后的声学表征为:
27、
28、其中,n为经过压缩后的语音特征序列长度;
29、构建的语音-文本特征对齐模块由6层transformer编码块构成,利用最优传输损失lot优化语音-文本特征对齐模块,将压缩语音特征序列hcompress与对应的转录文本嵌入ellm进行映射和对齐:
30、lot=optimaltransport(aligner(hcompress),ellm)。
31、进一步地,将对齐后的语音特征aligner(hcompress)作为大语言模型的输入提示,令大语言模型生成对应的转录文本;在训练过程中,语音预训练模型hubert与大语言模型llama2-7b的模型参数保持冻结,仅更新6层transformer编码块中的参数,整体模型的训练损失为大模型生成的结果与真实标签之间的交叉熵损失以及语音-文本特征序列的对齐损失,如下式所示:
32、l1=-σlogp(yi|y<i,s;θllm)+λlot
33、其中θllm为大语言模型模型参数,λ为超参数,大语言模型通过自回归方式生成语音识别结果。
34、本发明的有益效果是:
35、1、本发明利用词边界预测方法对声学特征序列进行长度压缩,并利用最优传输损失优化模型将语音声学特征与大模型文本嵌入进行映射和对齐,有效消除了语音与文本特征的模态差异,从而实现了大语言模型在语音识别任务上的适配;
36、2、本发明能够减少构建语音识别模型所需的语音标注数据规模,在冻结语音预训练模型和大语言模型的条件下,在少量语音-文本标注数据的条件下,使用少量语音-文本标注数据即可构建出具备较高识别准确率和较好泛化能力的语音识别模型,为缺乏语音标注数据的语言提供了一种可行的语音识别模型构建方法;本发明利用语音预训练模型和大语言模型来增强语音识别模型对声学特征的表示能力以及对识别结果的文字生成能力;
37、3、本发明在语音预训练模型hubert和大语言模型llama2基础上,加入语音-文本特征对齐模块,通过基于词边界预测的语音特征序列压缩方法和基于最优传输的语音-文本特征对齐方法,弥合语音特征与大模型文本嵌入在长度和语义表示方面的模态差异,利用大语言模型生成对应的语音转录文本;本发明在语音和文本预训练模型的基础上,利用少量语音-文本标注数据构建语音识别模型,能够有效缓解对训练数据的依赖;
38、4、本发明在冻结语音预训练模型和大语言模型参数的条件下,仅训练语音-文本对齐模块,训练参数相对要少,且经过压缩后的声学特征序列长度接近文本嵌入长度,计算代价更低。本发明在librispeech测试集上实现了5.24%的识别词错率,达到了较为理想的识别结果。