本发明涉及语音识别,具体为一种基于chatgpt的智能方言语音识别方法。
背景技术:
1、语音识别是一门交叉学科,近二十年来,语音识别技术取得显著进步,开始从实验室走向市场,人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域;语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一;很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一;语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
2、公开号为cn113889075a的中国专利公开了一种语音识别方法及相关装置、电子设备、存储介质,其中,语音识别方法包括:获取待识别语音的语谱图;基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果,从语谱图提取再识别语谱片段;基于若干第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果,分析得到再识别语谱片段涉及的目标语种;其中,若干第二滑窗的尺寸各不相同,且第二滑窗的尺寸小于第一滑窗的尺寸,该专利能够提高识别语音所涉及语种的准确性。但是该专利在实际使用过程中存在以下缺陷:
3、由于不同地区的用户,其普通话并不完全标准,带有地区方言,其不能对方言语音进行较好的识别,导致方言语音识别效果差。
技术实现思路
1、本发明的目的在于提供一种基于chatgpt的智能方言语音识别方法,可对方言语音进行较好的识别,提升方言语音识别效果,解决了上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:
3、一种基于chatgpt的智能方言语音识别方法,包括如下步骤:
4、s1:实时采集用户输入的语音信息,且对用户输入的语音信息进行检索及计算处理,确定出用户输入的语音特征信息,基于卷积神经网络,对语音特征信息进行特征提取及学习,确定出用户输入的语音特征类别;
5、s2:根据用户输入的语音特征类别,基于数据挖掘技术,索引智能语音库内存储的语音识别模型,查找出与用户输入的语音特征类别相匹配的语音识别模型,基于查找出来的语音识别模型对用户输入的语音信息进行语音识别,确定出基于chatgpt的用户输入的方言语音。
6、优选的,所述s1中,实时采集用户输入的语音信息,执行以下操作:
7、利用传声器将用户输入的声音信号转换为电信号,确定出实时采集的用户输入的语音信号;
8、获取用户输入的语音信号,且对语音信号进行放大及滤波处理,确定出降噪后的语音信号;
9、获取降噪后的语音信号,且对语音信号进行调制及解调处理,确定出频率适应于传输的数字化语音信息。
10、优选的,所述s1中,对用户输入的语音信息进行检索及计算处理,执行以下操作:
11、获取用户输入的语音信息;
12、基于顺序检索方法,对用户输入的语音信息进行检索处理;
13、过滤掉对基于chatgpt的智能方言语音识别无价值的语音信息,确定出对基于chatgpt的智能方言语音识别有价值的语音信息;
14、获取对基于chatgpt的智能方言语音识别有价值的语音信息,且对语音信息进行计算处理;
15、基于边缘计算,确定出用户输入的语音特征信息。
16、优选的,基于顺序检索方法,对用户输入的语音信息进行检索处理,包括:
17、针对所述用户输入的语音信息进行特征提取,获得目标特征;其中,所述目标特征包括短时能量、过零率和声道特征;
18、利用所述目标特征对用户输入的语音信息进行信息评价,获得信息评价参数;其中,所述信息评价参数通过如下公式获取:
19、s=λ1·s1+λ2·s2+λ3·s3
20、
21、
22、
23、其中,s表示信息评价参数;s1、s2和s3分别表示第一评价因子、第二评价因子和第三评价因子;λ1、λ2和λ3分别表示第一评价因子、第二评价因子和第三评价因子对应的预设的权重;n表示一个语音信息划分后对应的帧数,并且,每一帧对应一个时间窗口;e1i表示第i个时间窗口的语音信息对应的能量值;e0表示预设的能量阈值;ni表示第i个时间窗口对应的语音信息的过零次数;n0表示预设的过零次数阈值;nmax表示用户输入的语音信息中所包含的时间窗口对应的最大过零次数;fi表示第i个时间窗口对应的语音信息的共振峰频率;f0表示预设的共振峰频率阈值;fmax表示用户输入的有效语音信息的最大共振峰频率;hi表示第i个时间窗口对应的语音信息的共振峰幅度;h0表示预设的共振峰幅度阈值;hmax表示用户输入的有效语音信息的最大共振峰幅度;
24、将所述信息评价参数与预设的评价参数阈值进行比较,当所述信息评价参数不低于预设的评价参数阈值时,则将所述信息评价参数对应的语音信息作为有效语音信息;
25、对用户输入的有效语音信息进行检索处理。
26、优选的,对用户输入的有效语音信息进行检索处理,包括:
27、提取所述有效语音信息,并将所述有效语音信息与预先构建的语音索引进行匹配,提取匹配获得的多个语音索引项;
28、从每个所述语音索引项所包含的特征信息和有效语音信息所包含的目标特征之中提取相同类型的特征信息;
29、利用所述相同类型的特征信息获取所述语音索引项与有效语音信息之间的相似度;其中,所述相似度通过如下公式获取:
30、
31、
32、其中,a和b分别表示语音索引项所包含的特征信息对应的特征向量和有效语音信息所包含的目标特征对应的特征向量;"||||"表示向量的模;r表示相似度跟调因数;s1、s2和s3分别表示第一评价因子、第二评价因子和第三评价因子;
33、根据所述相似度由高到低的顺序对所述语音索引项进行排序,并将所述相似度对应数值最高的索引项作为最终索引结果;
34、利用所述最终索引结果生成语音检索后与用户输入的所述有效语音信息对应的音频文件和文本文件。
35、优选的,所述s1中,对语音特征信息进行特征提取及学习,确定出用户输入的语音特征类别,执行以下操作:
36、获取语音特征信息;
37、基于卷积神经网络,对语音特征信息进行特征提取及学习,确定出语音特征提取结果;
38、基于语音特征提取结果,且参照语音特征归类方法,确定出基于用户输入的语音特征信息的语音特征类别。
39、优选的,所述s2中,根据用户输入的语音特征类别,查找出与用户输入的语音特征类别相匹配的语音识别模型,执行以下操作:
40、获取用户输入的语音特征类别;
41、根据语音特征类别,基于数据挖掘技术,从智能语音库内存储的多个语音识别模型中索引查找出与用户输入的语音特征类别相匹配的语音识别模型;
42、获取与用户输入的语音特征类别相匹配的语音识别模型,且将语音识别模型调取出来。
43、优选的,所述s2中,根据用户输入的语音特征类别,查找出与用户输入的语音特征类别相匹配的语音识别模型,还执行以下操作:
44、根据语音特征类别,基于数据挖掘技术,从智能语音库内逐个提取出语音识别模型;
45、且将提取出的语音识别模型与用户输入的语音特征类别进行对比分析;
46、若提取出的语音识别模型与语音特征类别相匹配,则将提取出的语音识别模型调取出来;
47、若提取出的语音识别模型与语音特征类别不匹配,则继续提取出下一个语音识别模型,且将提取出的下一个语音识别模型与用户输入的语音特征类别进行对比分析,直到提取出的下一个语音识别模型与语音特征类别相匹配,则将提取出的下一个语音识别模型调取出来。
48、优选的,所述s2中,基于语音识别模型对用户输入的语音信息进行语音识别,确定出基于chatgpt的用户输入的方言语音,执行以下操作:
49、获取与语音特征类别相匹配的语音识别模型;
50、将用户输入的语音信息输入到语音识别模型中,基于语音识别模型对用户输入的语音信息进行语音识别,确定出基于chatgpt的用户输入的方言语音。
51、优选的,所述s2中,确定出基于chatgpt的用户输入的方言语音,执行以下操作:
52、获取用户输入的方言语音,且对用户输入的方言语音进行校正处理;
53、提取出用户输入的方言语音,参照存储的方言语音标准,对用户输入的方言语音进行分析评定,确定出方言语音分析评定表;
54、获取方言语音分析评定表,基于用户输入的方言语音,确定出相应的方言语音校正策略,按照方言语音校正策略对用户输入的方言语音进行校正处理。
55、与现有技术相比,本发明的有益效果是:
56、本发明的基于chatgpt的智能方言语音识别方法,实时采集用户输入的语音信息,且对用户输入的语音信息进行检索及计算处理,确定出用户输入的语音特征信息,基于卷积神经网络,对语音特征信息进行特征提取及学习,确定出用户输入的语音特征类别,根据用户输入的语音特征类别,基于数据挖掘技术,索引智能语音库内存储的语音识别模型,查找出与用户输入的语音特征类别相匹配的语音识别模型,基于查找出来的语音识别模型对用户输入的语音信息进行语音识别,确定出基于chatgpt的用户输入的方言语音,可对方言语音进行较好的识别,提升方言语音识别效果。