一种大型语音模型超低位训练后量化方法及系统

文档序号:42296510发布日期:2025-06-27 18:34阅读:69来源:国知局

本发明涉及语音模型领域,尤其涉及一种大型语音模型超低位训练后量化方法及系统。


背景技术:

1、现有的语音大模型(如whisper)因参数量庞大(如1.5b),面临存储和部署难题。训练后量化(ptq)无需重新训练即可压缩模型,但现有方法在低于8位时性能急剧下降,尤其是对transformer架构中普遍存在的权重异常值处理不足。传统线性量化(如gptq)在超低位(如2位)下词错率(wer)显著升高,导致模型失效。此外,现有方法未针对语音模型的特性(如异常值集中分布)进行优化,限制了其实际应用。

2、因此,本领域的技术人员致力于开发一种大型语音模型超低位训练后量化方法及系统。根据异常值密度动态调整量化位数,优化资源利用率;通过选择性保留异常值,避免量化误差,提升模型性能;确保量化模型的泛化能力。


技术实现思路

1、有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是语音大模型性能和精度下降问题。

2、为实现上述目的,本发明提供了一种大型语音模型超低位训练后量化方法,包括以下步骤:

3、步骤1、权重矩阵预处理:提取权重矩阵并按列分组;

4、步骤2、k均值聚类量化:对每列权重进行k均值聚类,生成量化中心点;

5、步骤3、异常值检测与混合精度分配:根据异常值密度动态分配量化精度;

6、步骤4、选择性异常值保留:保留关键异常值为稀疏fp32格式;

7、步骤5、模型推理与性能评估:对量化后的模型进行推理,评估性能。

8、进一步地,所述步骤1包括以下步骤:

9、步骤1.1、权重提取:从预训练的大型语音模型中提取权重矩阵;

10、步骤1.2、列分组:对权重矩阵按列分组,每列作为独立的量化组。

11、进一步地,所述k均值聚类,将数据集划分为个簇,簇内数据相似性最大化、簇间差异性最大化。

12、进一步地,所述步骤2包括以下步骤:

13、步骤2.1、中心点生成:对每一列权重,使用k均值聚类算法生成聚类中心点;

14、步骤2.2、量化映射:将原始权重值量化为聚类中心点索引;

15、步骤2.3、误差优化:更新未量化权重。

16、进一步地,所述k均值聚类算法包括以下步骤:

17、步骤2.1.1、初始化:随机选择个初始簇中心;

18、步骤2.1.2、分配:将每个数据点分配到最近的簇中心;

19、步骤2.1.3、更新:重新计算每个簇的中心点;

20、步骤2.1.4、迭代:重复分配与更新步骤,直到簇中心不再显著变化或达到最大迭代次数。

21、进一步地,所述步骤2.3,使用gptq策略更新未量化权重。

22、进一步地,所述步骤3,根据列级异常值密度动态分配量化位数:异常值密集列分配4位,其他列分配2位。

23、进一步地,所述步骤4包括以下步骤:

24、步骤4.1、异常值筛选:在异常值密集列,保留前5%的异常值为稀疏fp32格式;

25、步骤4.2、权重恢复:将稀疏fp32异常值与量化权重叠加,恢复原始权重分布。

26、进一步地,所述步骤5包括以下步骤:

27、步骤5.1、模型生成:将量化后的权重矩阵与稀疏fp32异常值结合,生成低位模型;

28、步骤5.2、性能评估。

29、本发明还提供了一种大型语音模型超低位训练后量化系统,包括权重矩阵提取模块、k均值聚类模块、混合精度分配模块、异常值保留模块、模型推理模块;

30、所述权重矩阵提取模块,从预训练的大型语音模型中提取权重矩阵;

31、所述k均值聚类模块,对权重矩阵按列进行k均值聚类,生成量化中心点;

32、所述混合精度分配模块,根据异常值密度动态分配量化精度;

33、所述异常值保留模块,保留关键异常值为稀疏fp32格式;

34、所述模型推理模块,对量化后的模型进行推理,评估性能。

35、现有超低位量化下模型性能严重下降。本发明k均值聚类非线性量化。本发明对权重矩阵按列分组,使用k均值算法生成聚类中心点,动态分配量化值,减少分布不匹配导致的误差。本发明在3位量化下,相较于全精度32位模型的性能,在librispeech测试集上词错误率(wer)仅增加0.03%,模型压缩率达90.6%。

36、现有异常值导致量化精度损失。本发明混合精度分配策略。本发明根据列级异常值密度动态分配量化位数:异常值密集列分配高精度(4位),其他列分配低精度(2位)。本发明混合精度量化(2.1位)使词错误率(wer)较纯2位降低57%(如librispeech测试集从14.04%降至6.04%)。

37、现有异常值量化后性能退化。本发明选择性保留关键异常值为稀疏的全精度32位格式。本发明将异常值从量化过程中分离,保留为稀疏fp32矩阵,与量化权重叠加,避免关键信息丢失。本发明2.12位量化下,错误率(wer)恢复至接近全精度水平(librispeech测试集2.19%vs全精度2.02%)。

38、本发明提出了一种基于k均值聚类与混合精度分配的大型语音模型超低位训练后量化方法,具体步骤如下:

39、步骤1:权重矩阵预处理

40、对模型的权重矩阵进行预处理,为后续的量化操作做准备。确保量化操作在列级别进行,减少跨列权重分布差异对量化的影响。

41、1.权重提取:从预训练的大型语音模型(如whisper-large-v3)中提取权重矩阵。

42、2.列分组:对权重矩阵按列分组,每列作为一个独立的量化组。

43、在大型语音模型(如whisper、wav2vec2等)中,异常值(outliers)是影响量化效果的关键因素之一。异常值通常指权重矩阵中那些显著偏离大多数权重分布的极值点。这些异常值在transformer架构中尤为常见,尤其是在注意力机制中,某些注意力头的权重可能包含大量异常值。

44、1.异常值的分布特点

45、集中性:异常值往往集中在某些特定的列(即权重矩阵的某些列),而不是均匀分布在整个矩阵中。例如,在whisper模型中,90%的异常值可能仅集中在10%的列中。

46、重要性:这些异常值通常对模型的性能至关重要。量化过程中如果未能妥善处理这些异常值,会导致模型性能显著下降。

47、2.列级别量化的必要性

48、减少跨列权重分布差异的影响:

49、如果对整个权重矩阵进行全局量化(即不考虑列的分布差异),异常值的存在会导致量化中心点的分布不均匀。具体来说:

50、全局量化的缺点:在全局量化中,异常值会“拉偏”量化中心点的分布,导致大多数正常权重的量化精度不足。例如,异常值的存在可能导致量化中心点集中在异常值附近,而忽略了大多数正常权重的分布。

51、列级别量化的优势:通过按列进行量化,可以针对每一列的权重分布独立生成量化中心点。这样,异常值密集的列可以分配更多的量化中心点(即更高的量化精度),而异常值较少的列则可以分配较少的量化中心点(即较低的量化精度)。这种列级别的量化策略能够更好地适应不同列的分布特点,减少异常值对整体量化效果的影响。

52、3.列级别量化对异常值的处理效果

53、动态适应异常值分布:列级别量化能够动态适应每一列的异常值分布。对于异常值密集的列,可以通过增加量化位数(如4位)来保留更多细节;对于异常值较少的列,则可以使用较低的量化位数(如2位)以减少存储开销。

54、减少量化误差:由于异常值通常集中在某些列中,列级别量化能够避免异常值对其他列的量化精度产生干扰。例如,在异常值密集的列中,量化中心点可以更好地捕捉异常值的分布,从而减少量化误差;而在异常值较少的列中,量化中心点可以更好地拟合正常权重的分布,进一步提升量化效果。

55、步骤2:k均值聚类量化

56、通过k均值聚类生成量化中心点,实现非线性量化。

57、1.中心点生成:对每一列权重w:,j,使用k均值算法生成2n个聚类中心点cj。

58、2.量化映射:将原始权重值wi,j量化为最近的聚类中心点索引q,即:

59、qi,j=argminqcj[q]-wi,j

60、3.误差优化:使用gptq策略更新未量化权重,进一步减少量化误差。

61、动态中心点生成:根据权重分布动态生成中心点,避免线性量化在非均匀分布下的精度损失。

62、资源效率:在权重密集区域生成更多中心点,稀疏区域减少冗余,优化存储利用率。

63、在2位量化下,量化后的whisper-large-v3模型在librispeech test clean测试集上的wer仅由2.02%增加至14.04%,显著优于传统线性量化方法(2.02%->51.13%)。

64、k均值聚类量化:

65、1.k均值聚类量化概述

66、k均值聚类量化是一种基于无监督学习的非线性量化方法,通过动态生成量化中心点,显著提升模型量化性能。其核心思想是利用k均值聚类算法,将权重值划分为k=2n个簇(n为量化位数),并将每个权重值映射到最近的簇中心点,从而实现高效且精确的量化。

67、1.1k均值聚类算法背景

68、k均值聚类是一种经典的无监督学习算法,其目标是将数据集划分为k个簇,使簇内数据相似性最大化、簇间差异性最大化。具体步骤如下:

69、1.初始化:随机选择k个初始簇中心。

70、2.分配:将每个数据点分配到最近的簇中心。

71、3.更新:重新计算每个簇的中心点(即簇内所有数据点的均值)。

72、4.迭代:重复分配与更新步骤,直到簇中心不再显著变化或达到最大迭代次数。

73、在量化任务中,k均值聚类用于将权重矩阵中的权重值划分为k=2n个簇,每个簇的中心点作为量化后的代表值。

74、2.k均值量化相比于均匀量化的性能优势

75、2.1非均匀分布适应性

76、均匀量化缺点:假设权重均匀分布,但实际场景(如transformer模型)常呈现长尾特性,导致量化误差集中于密集区。

77、k均值优势:动态调整中心点密度,在权重密集区生成更多中心点,稀疏区减少冗余,降低整体误差。

78、2.2异常值鲁棒性

79、均匀量化问题:异常值拉大量化范围,压缩正常权重分辨率(如librispeech实验中均匀量化wer增加51.13%)。

80、k均值策略:异常值被单独聚类,避免干扰正常权重。结合gptq微调,进一步修正异常区域的量化误差。

81、2.3动态精度分配

82、混合精度支持:可为不同权重列分配不同量化位数。例如,关键层使用4位,非关键层使用2位,平衡性能与存储。

83、硬件友好性:中心点索引存储仅需log2k位,配合查表机制,计算效率接近均匀量化。

84、2.4实验效果验证

85、d为权重矩阵的维数,i为权重矩阵在输出维度的索引,j为权重矩阵在输入维度的索引

86、量化精度:在whisper-large-v3模型中,2位k均值量化使librispeech的wer仅增加0.17%,而均匀量化导致模型失效(wer>50%)。

87、泛化能力:在common voice等数据集上,k均值量化保持wer增加<1%,优于均匀量化的非线性失真。

88、步骤3:异常值检测与混合精度分配

89、根据异常值密度动态分配量化精度,提升量化效果。

90、1.异常值检测:计算每列权重w:,j的异常值比例rj,公式为:

91、

92、其中,is outlier(wi,j)定义为:

93、

94、2.混合精度分配:根据rj量化精度:

95、

96、动态精度调整:根据异常值密度(由预先设定的超参数λ决定)动态分配量化位数,避免“一刀切”量化策略导致的性能损失。

97、资源优化:在异常值稀疏列使用低精度,显著减少存储和计算开销。

98、在2.1位混合精度量化下,wer较纯2位量化显著降低。例如,量化后的whisper-large-v3模型在librispeech test clean测试集上的wer由14.04%降低至6.04。

99、步骤4:选择性异常值保留

100、通过保留关键异常值为稀疏fp32格式,避免量化误差,进一步提升模型性能。

101、1.异常值筛选:在异常值密集列(rj>13%),保留前5%的异常值为稀疏fp32格式。

102、2.权重恢复:将稀疏fp32异常值与量化权重叠加,恢复原始权重分布。

103、关键信息保留:通过选择性保留异常值,避免量化过程中关键信息丢失。

104、稀疏存储优化:使用稀疏矩阵存储fp32异常值,减少存储开销。

105、在2.12位量化下,wer恢复至接近全精度水平。例如,量化后的whisper-large-v3模型在librispeech test clean测试集上的wer由6.04%降低至2.19%,与全精度模型的2.02%几乎持平。

106、步骤5:模型推理与性能评估

107、对量化后的模型进行推理,评估其性能,验证量化策略的有效性。

108、1.模型生成:将量化后的权重矩阵与稀疏fp32异常值结合,生成最终的低位模型。

109、2.性能评估:在多个数据集(如librispeech、common voice等)上测试模型性能,记录wer(word error rate)。

110、量化模型在多个数据集上wer增加小于1%,保持跨领域鲁棒性。例如:

111、·在librispeech数据集上,wer为2.19%,较全精度模型仅增加0.17%。

112、·在common voice数据集上,wer为11.92%,而传统量化方法会令模型性能崩溃,wer高达210.94%。

113、本发明的k均值聚类量化、异常值检测与混合精度分配以及选择性异常值保留三个步骤共同构成了高效的量化策略。其核心优势在于:

114、1.动态精度分配:根据异常值密度动态调整量化位数,优化资源利用率。

115、2.关键信息保留:通过选择性保留异常值,避免量化误差,提升模型性能。

116、3.跨领域鲁棒性:在多个数据集上wer增加小于1%,确保量化模型的泛化能力。

117、本发明为超低位量化提供了高效且灵活的解决方案,特别适合资源受限的边缘计算场景。

118、本发明一种基于k均值聚类与混合精度分配的大型语音模型超低位训练后量化系统,具体包括以下必要部件:

119、部件1:权重矩阵提取模块

120、从预训练的大型语音模型中提取权重矩阵。为量化操作提供原始权重数据。

121、连接关系:与k均值聚类模块相连,提供输入数据。

122、部件2:k均值聚类模块

123、对权重矩阵按列进行k均值聚类,生成量化中心点。

124、连接关系:与权重矩阵提取模块和混合精度分配模块相连。

125、形状:支持动态生成2n个聚类中心点。

126、原理:通过k均值算法优化中心点分布,减少量化误差。

127、部件3:混合精度分配模块

128、根据异常值密度动态分配量化精度。

129、连接关系:与k均值聚类模块和异常值保留模块相连。

130、形状:支持动态调整量化位数(如2位或4位)。

131、原理:根据异常值比例rj分配精度,避免异常值对量化的负面影响。

132、部件4:异常值保留模块

133、保留关键异常值为稀疏fp32格式。在2.12位量化下,wer恢复至接近全精度水平。

134、连接关系:与混合精度分配模块和模型推理模块相连。

135、形状:支持稀疏fp32格式存储异常值。

136、原理:将异常值从量化过程中分离,避免关键信息丢失。

137、部件5:模型推理模块

138、对量化后的模型进行推理,评估其性能。验证量化模型的实际性能。

139、连接关系:与异常值保留模块相连,生成最终的低位模型。

140、本发明的技术方案通过以下步骤实现:

141、1.权重矩阵预处理:提取权重矩阵并按列分组。

142、2.k均值聚类量化:对每列权重进行k均值聚类,生成量化中心点。

143、3.异常值检测与混合精度分配:根据异常值密度动态分配量化精度。

144、4.选择性异常值保留:保留关键异常值为稀疏fp32格式。

145、5.模型推理与性能评估:对量化后的模型进行推理,评估其性能。

146、本发明的系统包括权重矩阵提取模块、k均值聚类模块、混合精度分配模块、异常值保留模块和模型推理模块,各模块通过数据流连接,协同完成量化任务。

147、其中,wer(word error rate):词错率,用于评估语音识别模型的性能,数值越低表示性能越好。k均值聚类:一种无监督学习算法,用于将数据点划分为k个簇,每个簇由其中心点表示。fp32:32位浮点数格式,用于高精度数值表示。稀疏fp32:仅存储非零值的fp32格式,用于高效存储异常值。

148、本发明与现有技术相比较,具有如下显而易见的实质性特点和显著优点:

149、1.技术优势:支持超低位(2.12位)量化,模型压缩率超过93%,适配边缘设备存储限制。

150、2.性能指标:在多个数据集(librispeech、commonvoice等)上wer增加小于1%,保持模型跨领域鲁棒性。

151、3.生产实施:无需重新训练,3小时内完成1b模型的量化(基于rtx4090 gpu),显著降低部署成本。

152、4.通用性:适用于多种语音模型(如whisper、wav2vec2),扩展性强。

153、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1