本发明涉及离线语音识别,具体为电缆ar巡检系统基于openai模型的离线语音识别实现方法。
背景技术:
1、针对高压电缆多敷设在地下,管线错综复杂,运维难度大的问题,研究增强现实技术在电缆线路全过程辅助巡检的技术及其应用具有重大意义,在传统巡检作业过程中,现场巡检情况需录入后台系统当中,由于现场环境复杂,传统系统录入信息的缺点包括:1.速度慢:手动录入信息通常比较耗时,尤其是在大量数据需要处理时,效率低下;2.容易出错:人为操作容易出现错误,例如拼写错误、输入错误等,从而导致数据不准确;3.难以实时更新和共享:传统系统中的信息难以实时更新并且难以与他人分享和共享,不利于协作和信息交流;4.可追溯性差:传统系统的信息录入方式难以追溯修改记录,对信息安全和数据完整性带来挑战,为解决这一现状,提出基于openai模型的离线语音识别电缆ar巡检系统。
技术实现思路
1、本发明的目的在于提供电缆ar巡检系统基于openai模型的离线语音识别实现方法,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:
3、电缆ar巡检系统基于openai模型的离线语音识别实现方法,其离线语音识别实现方法:收集数据→openai模型训练→音频输入→特征提取→模型推理→集成ar功能,包括以下六个步骤:
4、步骤一:收集大量电缆巡检过程中可能遇到的语音指令或相关音频数据,对这些音频数据进行预处理,包括去除噪音,归一化音量,将输入音频分成30秒的片段,将音频数据转换为梅尔频率倒谱系数mfcc;
5、步骤二:使用步骤一收集的数据对openai模型进行训练,并根据训练结果进行微调,使其适应电缆巡检领域的特定任务;
6、步骤三:将步骤二训练好的openai模型部署到电缆ar巡检系统中,确保系统能够在不同设备和环境下稳定运行;
7、步骤四:通过openai模型对捕获的长音频数据分成30秒的片段,将收集到的每个音频片段进行特征提取,通过傅里叶变换fft和mel滤波器组转换成log-mel谱图,然后传入whisper模型中;
8、步骤五:在whisper模型识别到,start of transcript token后开始处理,如果当前无人说话,则识别为no speech,如果有人说话,则识别出当前语音所属的语言languagetag,根据language tag确定任务类型,(1)转录任务transcribe,1)选择是否带时间戳,如果需要并插入相应的时间戳tokens;2)使用相应的语言的语言识别模型进行转录,生成文本tokens;(2)翻译任务translate,1)选择是否带时间戳,如果需要,并插入相应的时间戳tokens,2)使用语言翻译模型,如从源语言到目标语言的翻译模型进行翻译,生成目标语言的文本tokens,将生成的文本tokens,包含时间戳tokens输出,重复步骤五,预测出文本token,直到音频输入处理完毕或遇到eot token,输出转录或翻译结果;
9、步骤六:通过语音指令控制ar界面的交互,利用ar技术展示电缆的3d模型,实时检测电缆状态。
10、优选的,在所述步骤四中,whisper模型共处理四个任务,一是给定英文语音,转录成英文文本;二是给定其他语言语音,转录并翻译成英文文本;三是给定其他语言语音,转录成该语言文本;四是给定只有背景音乐的音频,识别出无人说话。
11、优选的,在所述步骤四中,whisper模型支持windows、android、linux、uwp等多个平台部署,其具有开源、跨平台、易移植等特性,通过训练数据的多样性对whisper模型进行预训练,然后在目标数据上进行微调,提高whisper模型的泛化能力。
12、优选的,在所述步骤五中,transformer模型的输入是文本经转换(embedding/嵌入)后的向量矩阵,矩阵则是由输入文本中每个单词的表示向量组成,表示向量由每个单词的词向量和位置向量相加得到。
13、优选的,在所述步骤六中,如果带时间戳的转录或翻译,需要在模型输出阶段添加时间戳信息,并在转录或翻译结果中混合特殊标记,如特定任务的标识符或控制符号,以区分不同的任务类型或指示时间戳的存在,以便于编码器-解码器transformer模型可以在同一框架内执行多种任务。
14、优选的,在所述步骤六中,在ar系统开发中,将底层的winrt/uwp代码封装成动态链接库,以方便跨平台调用。
15、与现有技术相比,本发明的有益效果是:
16、基于openai大模型数据的离线语音识别且适配ar巡检平台的实现了离线实时录入信息的功能,ar设备兼具有语音识别功能,不需要额外接入互联网,具有实时录入信息的功能,解决了传统的以打键盘为主的录入方式,提高了录入速度以及提高录入效率;通过语音指令控制ar界面的交互,利用ar技术展示电缆的3d模型,实时检测电缆状态,提高巡检的效率和准确性,将离线语言识别功能与ar技术相结合,实现更加智能的巡检;通过数据对openai模型进行训练,并根据训练结果进行微调,使其适应电缆巡检领域的特定任务。
1.电缆ar巡检系统基于openai模型的离线语音识别实现方法,其离线语音识别实现方法:收集数据→openai模型训练→音频输入→特征提取→模型推理→集成ar功能,其特征在于:包括以下六个步骤:
2.根据权利要求1所述的电缆ar巡检系统基于openai模型的离线语音识别实现方法,其特征在于:在所述步骤四中,whisper模型共处理四个任务,一是给定英文语音,转录成英文文本;二是给定其他语言语音,转录并翻译成英文文本;三是给定其他语言语音,转录成该语言文本;四是给定只有背景音乐的音频,识别出无人说话。
3.根据权利要求1所述的电缆ar巡检系统基于openai模型的离线语音识别实现方法,其特征在于:在所述步骤四中,whisper模型支持windows、android、linux、uwp等多个平台部署,其具有开源、跨平台、易移植等特性。
4.根据权利要求1所述的电缆ar巡检系统基于openai模型的离线语音识别实现方法,其特征在于:在所述步骤五中,transformer模型的输入是文本经转换(embedding/嵌入)后的向量矩阵,矩阵则是由输入文本中每个单词的表示向量组成,表示向量由每个单词的词向量和位置向量相加得到。
5.根据权利要求1所述的电缆ar巡检系统基于openai模型的离线语音识别实现方法,其特征在于:在所述步骤六中,如果带时间戳的转录或翻译,需要在模型输出阶段添加时间戳信息,并在转录或翻译结果中混合特殊标记(如特定任务的标识符或控制符号),以区分不同的任务类型或指示时间戳的存在,以便于编码器-解码器transformer模型可以在同一框架内执行多种任务。
6.根据权利要求1所述的电缆ar巡检系统基于openai模型的离线语音识别实现方法,其特征在于:在所述步骤六中,在ar系统开发中,将底层的winrt/uwp代码封装成动态链接库,以方便跨平台调用。