一种基于大语言模型的车载数据语音标签系统的制作方法

文档序号:37440904发布日期:2024-03-28 18:24阅读:14来源:国知局
一种基于大语言模型的车载数据语音标签系统的制作方法

本发明涉及汽车数据处理,尤其涉及一种基于大语言模型的车载数据语音标签系统。


背景技术:

1、现有的两种打标签,一种是针对行车外部环境做识别使用的,需要依赖大量的人力去后期处理,没有预处理的分类,另一种是在做智能驾驶道路实车测试的过程中从tb级别的数据量中切片获取关键数据,车载数据的语音标签效率低,开发效率低。

2、中国专利公开号:cn114138789a公开了一种车载数据的采集方法、相关设备及系统,打标签设备获取标签事件触发指令,根据标签事件触发指令触发对应的打标签事件,录制用户对当前标签场景的语音描述信息,基于标签标识和语音描述信息生成标签数据,将标签数据发送至车载采集设备,由车载采集设备将标签数据与对应的车载数据相关联得到结构化数据,完成对车载数据的打标签操作。但该方案仅对车载数据进行简单采集和语音标签,无法提高车载数据的语音标签效率。


技术实现思路

1、为此,本发明提供一种基于大语言模型的车载数据语音标签系统,用以克服现有技术中车载数据的语音标签效率低的问题。

2、为实现上述目的,本发明提供一种基于大语言模型的车载数据语音标签系统,包括:

3、数据记录模块,用以对车辆的路测数据进行采集;

4、语音记录模块,用以根据环境音量对语音记录的开启进行判断,并根据用户记录按钮对语音记录开启的判断过程进行修正,还用以对记录后的语音进行预处理和存储;

5、语音处理模块,用以通过llm大语言模型对已存储的语音进行标签识别,还用以对识别成功的语音设置索引;

6、数据上传模块,用以将语音识别后的语音进行切片处理并上传至云端进行分类存储,还用以对云端中识别失败的语音和识别错误的语音校正索引并存储于云端的语音训练集中;

7、反馈训练模块,用以根据训练时间对llm大语言模型进行训练,还用以计算失效率,并根据失效率对语音处理的有效性进行反馈,还用以对语音处理效率进行判断,并根据判断结果对反馈过程进行补偿。

8、进一步地,所述语音记录模块设有开启判断单元,用以根据环境音量对语音记录的开启进行判断,所述开启判断单元获取环境音量a,并将环境音量a与预设环境音量a0进行比对,根据比对结果对语音记录的开启进行判断,其中:

9、当a≤a0时,所述开启判断单元判定不开启语音记录;

10、当a>a0时,所述开启判断单元判定开启语音记录,通过数据记录仪的声卡进行语音记录。

11、进一步地,所述语音记录模块设有判断修正单元,用以根据用户记录按钮对语音记录开启的判断过程进行修正,所述判断修正单元获取用户记录按钮的使用情况,并根据用户记录按钮的使用情况对语音记录开启的判断过程进行修正,其中:

12、当用户记录按钮处于使用中时,所述判断修正单元判定对语音记录开启的判断过程进行修正,将a≤a0时所述开启判断单元判定不开启语音记录的结果修正为开启语音记录;

13、当用户记录按钮未处于使用中时,所述判断修正单元判定不对语音记录开启的判断过程进行修正;

14、所述语音记录模块设有记录存储单元,用以对已记录的语音进行预处理,并对预处理后的语音进行存储,所述记录存储单元将已记录的语音设置为json格式,并以utc时间戳对所述已记录语音进行命名,以对已记录的语音进行预处理,得到预处理后的语音,所述记录存储单元将预处理后的语音存储于数据记录仪的待识别语音数据库中。

15、进一步地,所述语音处理模块设有语音识别单元,用以通过llm大语言模型对已存储的语音进行标签识别,所述语音识别单元将待识别语音数据库中的已存储的语音输入至llm大语言模型中,对已存储的语音进行标签识别,并获取语音标签识别结果的置信度,将所述语音标签识别结果的置信度b与预设置信度b0进行比对,根据比对结果对识别情况进行判断,其中:

16、当b≤b0时,所述语音识别单元判定所述语音识别失败;

17、当b>b0时,所述语音识别单元判定所述语音识别成功。

18、进一步地,所述语音处理模块设有索引处理单元,用以对识别成功的语音设置索引,所述索引处理单元根据llm大语言模型中识别成功的语音对应的索引目录中对应的标签文字,将识别成功的语音的索引设置为名称和标签文字的组合。

19、进一步地,所述数据上传模块设有语音切片单元,用以对语音识别后的语音进行切片处理,并将切片处理后的语音上传至云端,所述语音切片单元获取语音识别后的语音的时间点,并将所述语音识别后的语音的时间点前后预设时间段内的数据进行切片处理,得到切片处理后的语音,并将切片处理后的语音上传至云端;

20、所述数据上传模块设有第一存储单元,用以对云端中已设置索引的语音进行分类存储,所述第一存储单元根据语音来源车辆的型号将云端中已设置索引的语音分类存储至第一存储数据库中;

21、所述数据上传模块设有第二存储单元,用以对云端中识别失败和识别错误的语音进行存储,所述第二存储单元将云端中识别失败和识别错误的语音存储至第二存储数据库中。

22、进一步地,所述数据上传模块设有数据校正单元,用以将第二存储单元中的数据推送给管理员,由管理员对云端中识别失败的语音和识别错误的语音校正索引,还用以将校正索引后的语音存储于云端的语音训练集中,所述数据校正单元将第二存储单元中的数据推送给管理员,由管理员对云端中识别失败的语音和识别错误的语音校正索引,管理员对识别失败的语音设置索引,对识别错误的语音的索引进行更正,将设置索引后的识别失败的语音和更正索引后识别错误的语音作为校正索引后的语音存储于云端的语音训练集中。

23、进一步地,所述反馈训练模块设有模型训练单元,用以根据训练时间对llm大语言模型进行训练,所述模型训练单元获取当前时间至上一次对llm大语言模型进行训练时间的时间间隔,将其作为训练时间t,并将训练时间t与预设训练时间t0进行比对,根据比对结果对llm大语言模型的训练情况进行判断,其中:

24、当t<t0时,所述模型训练单元判定不对llm大语言模型进行训练;

25、当t≥t0时,所述模型训练单元判定对llm大语言模型进行训练,并通过云端的语音训练集对llm大语言模型进行训练。

26、进一步地,所述反馈训练模块设有反馈判定单元,用以根据云端中识别失败和识别错误的语音数量计算失效率,根据失效率对语音处理的有效性进行反馈,还用以根据反馈结果对模型训练过程进行校正,所述反馈判定单元根据反馈周期内云端中识别失败的语音数量n1和识别错误的语音数量n2计算失效率k,设定k=(n1+n2)/n,n为第一数据库和第二数据库中语音数量的总和,所述反馈判定单元将失效率k与预设失效率k0进行比对,并根据比对结果对语音处理的有效性进行反馈,其中:

27、当k≤k0时,所述反馈判定单元判定反馈语音处理的有效性正常;

28、当k>k0时,所述反馈判定单元判定反馈语音处理的有效性异常,所述反馈判定单元根据失效率k计算校正系数p,设定p=0.7×e-0.2×(k-k0)+0.3×[-0.05×(k-k0)+0.9],e是自然对数的底数,并根据校正系数p对预设训练时间t0进行校正,校正后的预设训练时间为tp0,设定tp0=p×t0。

29、进一步地,所述反馈训练模块设有反馈补偿单元,用以根据用户满意度对语音处理效率进行判断,并根据判断结果对反馈过程进行补偿,所述反馈补偿单元获取反馈周期内的用户满意度s,并将用户满意度s与预设用户满意度s0进行比对,并根据比对结果对语音处理效率进行判断,其中:

30、当s>s0时,所述反馈补偿单元判定语音处理效率正常;

31、当s≤s0时,所述反馈补偿单元判定语音处理效率异常,所述反馈补偿单元根据用户满意度s计算反馈补偿系数f,设定f=0.8×[1-e-0.5×(s0-s)]+0.2×[0.01×a2-0.1×a+1],所述反馈补偿单元根据反馈补偿系数f对预设失效率k0进行反馈补偿,反馈补偿后的预设失效率为kf0,设定kf0=f×k0。

32、与现有技术相比,本发明的有益效果在于,所述系统通过数据记录模块对车辆的路测数据进行采集,以便于后续对车辆的路测数据进行标签和上传,所述系统通过语音记录模块根据环境音量对语音记录的开启进行判断,以智能识别用户的录音行为,从而提高车载数据的语音标签效率,所述系统通过语音记录模块根据用户记录按钮对语音记录开启的判断过程进行修正,以便于用户通过用户记录按钮操纵录音,所述系统通过语音记录模块对记录后的语音进行预处理和存储,以便于后续根据录音内容对车辆的路测数据进行标签,所述系统通过语音处理模块对已存储的语音进行标签识别,以通过llm大语言模型对已存储的语音进行处理,并对识别成功的语音设置索引,所述系统通过数据上传模块将语音识别后的语音进行切片处理并上传至云端进行分类存储,以提取有用数据,节约上传时间,所述系统还通过数据上传模块对云端中识别失败的语音和识别错误的语音校正索引并存储于云端的语音训练集中,以对llm大语言模型的语音处理结果进行优化,进一步提高车载数据的语音标签效率,所述系统通过反馈训练模块根据训练时间对llm大语言模型进行训练,以提高llm大语言模型识别的准确率,从而进一步提高车载数据的语音标签效率,所述系统还通过反馈训练模块计算失效率,并根据失效率对语音处理的有效性进行反馈,并对语音处理效率进行判断,根据判断结果对反馈过程进行补偿,以提高llm大语言模型识别的准确率,从而进一步提高车载数据的语音标签效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1