基于LLM模型的语音处理方法、系统、电子设备及存储介质与流程

文档序号：40443632发布日期：2024-12-24 15:18阅读：179来源：国知局

技术简介：
本发明针对传统BERT模型在长文本理解、歧义处理及多模型一致性方面的不足，提出基于多LLM模型的语音处理方案。通过统一数据格式、聚类优化标签权重、并行模型预测及评分机制，提升分类准确性和稳定性，减少主观性影响。
关键词：多模型协同,聚类优化

本发明涉及文本分类，尤其涉及基于llm模型的语音处理方法、系统、电子设备及存储介质。

背景技术：

1、传统的bert对于长文本理解能力有限，不能有效学习到更多的上下文信息。其次，它不能更好地处理多样性，对更多的词汇和语法规则理解不透彻。此外，它不能更好地处理歧义，对于更多的语境信息理解不清晰。

2、另外，由于训练样本的差异，大型模型对于同样的文本的理解能力存在不一致的情况。这导致了在处理相同文本时，不同模型的理解能力存在差异。为了提升文本分类的效果，我们采用了多个大型语言模型(llm)进行实验，并通过投票的方式输出文本分类结果，以期获得最优效果。

技术实现思路

1、本发明实施例提供了一种基于llm模型的语音处理方法、系统、电子设备及存储介质，旨在解决传统客户声音诉求分类方法中存在的主观性强、分类结果不稳定等问题。。

2、本发明的技术方案为：

3、第一方面，本技术提供了一种基于llm模型的语音处理方法，其特征在于，包括：

4、获取在同一硬件平台上的多个语言识别学习模型，确保所有语言识别学习模型运行在公平的资源环境下；

5、获取发声诉求文本数据，将该发声诉求文本数据分别输入至各语言识别学习模型中；

6、并行运行所有语言识别学习模型，将该发声诉求文本数据与语言识别学习模型诉求标签库中的诉求标签进行比对分析预测，各语言识别学习模型输出各自的预测结果，其中预测结果包括该预测结果在语言识别学习模型诉求标签库中的权重信息；

7、根据权重信息对各语言识别学习模型输出的预测结果进行统计评分，根据评分的高低获取最匹配的发声诉求文本数据识别结果。

8、进一步地，所述将该发声诉求文本数据与语言识别学习模型诉求标签库中的诉求标签进行比对分析预测，各语言识别学习模型输出各自的预测结果的具体方法包括：

9、对诉求标签库中的诉求标签进行数据清洗，数据清洗后进行特征提取；

10、对特征向量进行聚类并得到初步的预处理,确定聚类中心标签，调整聚类边界，然后迭代更新聚类中心和边界；

11、基于每个簇内标签的数量计算其权重，其中，簇内标签数量越多，对应的聚类中心标签权重越大，反之，权重越小。

12、进一步地，所述对特征向量进行聚类并得到初步的聚类结果,确定聚类中心标签，调整聚类边界，然后迭代更新聚类中心和边界包括:

13、通过k-means算法对预处理后的标签特征向量进行聚类，以确定最优的聚类数量k，并得到初步的聚类结果；

14、选取每个簇的质心作为该簇的代表标签，即聚类中心标签；

15、采用贪婪算法逐步调整聚类边界，以优化聚类结果。

16、进一步地，所述采用贪婪算法逐步调整聚类边界，以优化聚类结果的方法包括：

17、a1、通过k-means算法确定初始聚类中心；

18、a2、基于初始聚类结果确定初始化每个簇的边界；

19、a3、获取每个簇内所有点到其聚类中心的相似度；

20、a4、获取不同簇之间聚类中心的相似度；

21、a5、对标签进行调整迭代；

22、a6、通过将所选标签从一个簇移动到另一个簇的方式调整聚类边界；

23、a7、在标签移动后，重新计算每个簇的聚类中心；

24、a8、重复a5至a7，直至达到预设的迭代次数、聚类边界调整对总相似度的影响小于某个阈值。

25、进一步地，所述通过k-means算法对预处理后的标签特征向量进行聚类以确定最优的聚类数量k的方法包括：对于不同的k值运行k-means算法，计算每个k值对应的总平方误差，获取总平方误差与k的关系图，选择总平均误差下降幅度开始减小的点作为k值或对于不同的k值，获取每个样本的轮廓系数，选择轮廓系数平均值最高的值作为k值，或对于每个k值，计算k-means聚类的总平均误差和一个参照数据集的总平均误差，参照数据集是通过在原数据集上添加随机噪声生成的，然后计算两者的差值，并选择差值最大的作为k值。

26、进一步地，输入至各语言识别学习模型时需要将所述发声诉求文本数据的格式统一。

27、进一步地，根据权重信息对各语言识别学习模型输出的预测结果进行统计评分，根据评分的高低获取最匹配的发声诉求文本数据识别结果的具体方法包括：

28、当各语言识别学习模型输出的诉求标签的内容不同时，对每个模型输出的诉求标签进行权重计算，统计每个标签的权重信息，选择诉求标签权重最高的诉求标签做为本次发声诉求文本数据最匹配的识别结果标签；

29、当各语言识别学习模型输出的诉求标签的内容存在相同时，对每个模型输出的相同内容的诉求标签进行权重计算，对相同内容的诉求标签的权重信息进行求和，再将各求和后的权重信息进行比较，选择得分最高的权重信息对应的诉求标签做为本次发声诉求文本数据最匹配的识别结果标签。

30、第二方面，本技术还提供了一种基于llm模型的语音处理系统，其特征在于，包括：

31、语言识别学习模型获取单元，用于获取在同一硬件平台上的多个语言识别学习模型，确保所有语言识别学习模型运行在公平的资源环境下；

32、发声诉求文本数据获取单元，用于获取发声诉求文本数据，将该发声诉求文本数据分别输入至各语言识别学习模型中；

33、预测结果输出单元，用于并行运行所有语言识别学习模型，将该发声诉求文本数据与各语言识别学习模型诉求标签库中的诉求标签进行比对分析预测，各语言识别学习模型输出各自的预测结果，其中预测结果包括该预测结果在语言识别学习模型诉求标签库中的权重信息；

34、最匹配的发声诉求文本数据识别结果获取单元，根据权重信息对各语言识别学习模型输出的预测结果进行统计评分，根据评分的高低获取最匹配的发声诉求文本数据识别结果。

35、进一步地，所述发声诉求文本数据获取单元还包括文本数据格式统一单元，所述文本数据格式统一单元用于对输入至各语言识别学习模型的发声诉求文本数据的格式进行统一。

36、进一步地，最匹配的发声诉求文本数据识别结果获取单元包括文本数据权重计算比较单元，所述文本数据权重计算比较单元用于

37、当各语言识别学习模型输出的诉求标签的内容不同时，对每个模型输出的诉求标签进行权重计算，统计每个标签的权重信息，选择诉求标签权重最高的诉求标签做为本次发声诉求文本数据最匹配的识别结果标签；

38、当各语言识别学习模型输出的诉求标签的内容存在相同时，对每个模型输出的相同内容的诉求标签进行权重计算，对相同内容的诉求标签的权重信息进行求和，再将各求和后的权重信息进行比较，选择得分最高的权重信息对应的诉求标签做为本次发声诉求文本数据最匹配的识别结果标签。

39、第三方面，本技术还提供了一种计算机存储介质，其特征在于：所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

40、第四方面，本技术还提供了一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

41、本技术一些实施例提供的技术方案带来的有益效果至少包括：本技术摒弃了传统小模型的对长文本理解能力有限，不能有效学习到更多的上下文信息的问题，其次，基于多个大模型的语言识别学习模型，可以对多样性的词汇和语法规则理解更加透彻，此外，可以更好地处理歧义，对于更多的语境信息理解更加清晰，通过引入多个大模型的语言识别学习模型，可以提高分类的准确性和稳定性；评分比较的方式可以充分考虑各个模型的预测结果，减少了主观性的影响，提高了预测的客观性和稳定性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁美璐
技术所有人：中国平安财产保险股份有限公司
我是此专利的发明人

上一篇：一种多天线合成圆极化天线及多天线合成正交圆极化天线的制作方法
下一篇：一种多功能急救盒的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！