音频数据的获取方法、声学模型、装置及车辆与流程

文档序号:35526878发布日期:2023-09-21 03:45阅读:96来源:国知局

本申请涉及语音识别,尤其涉及一种音频数据的获取方法、声学模型、装置及车辆。


背景技术:

1、语音识别系统的构建过程整体上包括:训练和识别两部分。其中,训练是指分别对声学模型和语言模型的训练,以得到对应的训练好的模型。识别为通过训练好的模型将用户的语音识别为文本的过程。其中,声学模型用于构建输入语音和输出声学单元之间的概率映射关系,即训练时需要音频数据和对应标注的文本。声学模型的训练过程需要大量已经标注好的音频数据作为训练样本。

2、相关技术中,训练样本中的音频数据通常是由人工逐一进行对应标注,需要耗费大量的人力和时间。另外,语音识别系统的目标用户群体一般是成人(泛指12岁以上的人),采用的音频数据也一般来自成人,其对应的文本表达通顺并具有正常语义。基于这样的训练样本所构建的声学模型,可以适用于成人的日常场景中。

3、与成人相比,儿童的表达能力普遍稍差,例如儿童发出的语音内容可能存在停顿较多、发音重复、语序颠倒等多种情形。训练样本中如果缺少童声类型的音频数据,会使声学模型难以对童声音频进行准确识别。然而,涉及童声的音频数据存在资源少,且人工标注更加困难,如果对外定向采购相关训练样本,需要耗费较高的采购成本。


技术实现思路

1、为解决或部分解决相关技术中存在的问题,本申请提供一种音频数据的获取方法、声学模型、装置及车辆,能够节省人力成本,提升数据获取效率,且满足特定群体的语音识别需求。

2、本申请第一方面提供一种音频数据的获取方法,包括:

3、获取目标视频数据中的音频数据和具有字幕的图像帧,单帧所述字幕与待标注的所述音频数据对应;

4、根据预先构建的语音解码图,获得所述音频数据的词网格;

5、根据所述音频数据对应的字幕,在所述词网格中筛选获得目标识别路径;

6、当所述目标识别路径中对应的待确认文本符合预设规则时,将所述待确认文本作为所述音频数据的目标文本并对应标注,以将所述音频数据和对应的目标文本用于声学模型的训练样本。

7、一些实施方式中,所述获取目标视频数据中的音频数据和具有字幕的图像帧,包括:

8、获取目标视频数据中的具有字幕的图像帧,并将具有相同字幕的所述图像帧进行去重;获取所述目标视频数据中的音频数据,并通过语音端点检测,获得分割后的音频片段;根据去重后的所述图像帧的时间戳及所述音频片段的时间戳,将所述音频片段与所述图像帧分别进行对应,以将所述图像帧中的字幕作为对应的所述音频片段的对照文本。

9、一些实施方式中,所述根据预先构建的语音解码图,获得所述音频数据的词网格,包括:

10、预先根据所述字幕中的对照文本,构建偏置语言模型;预先根据已知发音词典、已知声学模型和所述偏置语言模型,生成语音解码图;根据所述语音解码图,分别生成单个所述音频数据对应的词网格。

11、一些实施方式中,所述根据所述音频数据对应的字幕,在所述词网格中筛选获得目标识别路径,包括:

12、获取所述词网格中的候选识别路径;根据所述音频数据对应的字幕作为参考对象,分别获取所述候选识别路径与所述字幕之间的编辑次数;在各所述候选识别路径中,将所述编辑次数最小的候选识别路径筛选为所述目标识别路径。

13、一些实施方式中,所述当所述目标识别路径中对应的待确认文本符合预设规则时,将所述待确认文本作为所述音频数据的目标文本并对应标注,包括:

14、分别获取所述目标识别路径的待确认文本中的各字词的词置信度;根据各所述词置信度进行计算,获得所述目标识别路径的句置信度;当所述句置信度大于或等于预设阈值时,将所述目标识别路径对应的待确认文本作为所述音频数据的目标文本并对应标注。

15、一些实施方式中,所述分别获取所述目标识别路径的待确认文本中的各字词的词置信度之后,还包括:

16、将所述字词对应的词置信度与噪音阈值进行比较;当所述词置信度小于或等于所述噪音阈值时,对所述字词设置噪音标记。

17、一些实施方式中,所述方法还包括:根据所述词网格中的各字词的时间信息,将所述目标文本与所述音频数据进行对齐,获得用于训练声学模型的训练样本。

18、本申请第二方面提供一种音频的音频数据的获取装置,其包括:

19、数据处理模块,用于获取目标视频数据中的音频数据和具有字幕的图像帧,单帧所述字幕与待标注的所述音频数据对应;

20、词图生成模块,用于根据预先构建的语音解码图,获得所述音频数据的词网格;

21、路径筛选模块,用于根据所述音频数据对应的字幕,在所述词网格中筛选获得目标识别路径;

22、文本标注模块,用于当所述目标识别路径中对应的待确认文本符合预设规则时,将所述待确认文本作为所述音频数据的目标文本并对应标注,以将所述音频数据和对应的目标文本用作声学模型的训练样本。

23、本申请第二方面提供一种声学模型,其根据上述的音频数据的获取方法生成的音频数据及对应的目标文本进行训练,获得训练好的声学模型。

24、本申请第三方面提供一种车辆,其包括语音识别系统,所述语音识别系统中包括上述的声学模型。

25、本申请第四方面提供一种电子设备,包括:

26、处理器;以及

27、存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。

28、本申请第五方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。

29、本申请提供的技术方案可以包括以下有益效果:

30、本申请的音频数据的获取方法,可以在基于已知的特定类型的视频素材中获得音频数据,并巧妙借助视频中的字幕作为音频数据的对照,从而辅助获得音频数据的目标文本。相较于直接对外采购训练样本,可以有效降低数据成本。另外,借助偏置语言模型构建的语音解码图所获得的词网格,确保不会遗漏掉更符合最新表达方式的识别文本。而且,将词网格中的候选识别路径按照句置信度筛选出更准确的目标文本,并可以直接将词置信度低的字词标记为噪音字词,无需人工另外耗时进行识别标注,提高标注效率,且做好特殊标记的训练样本可以提高声学模型的表达能力。

31、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。



技术特征:

1.一种音频数据的获取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取目标视频数据中的音频数据和具有字幕的图像帧,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述根据预先构建的语音解码图,获得所述音频数据的词网格,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述根据所述音频数据对应的字幕,在所述词网格中筛选获得目标识别路径,包括:

5.根据权利要求1所述的方法,其特征在于,所述当所述目标识别路径中对应的待确认文本符合预设规则时,将所述待确认文本作为所述音频数据的目标文本并对应标注,包括:

6.根据权利要求5所述的方法,其特征在于,所述分别获取所述目标识别路径的待确认文本中的各字词的词置信度之后,还包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种音频的音频数据的获取装置,其特征在于,包括:

9.一种声学模型,其特征在于,根据权利要求1至7中任一项所述的音频数据的获取方法生成的音频数据及对应的目标文本进行训练,获得训练好的声学模型。

10.一种车辆,其特征在于,包括语音识别系统,所述语音识别系统中包括权利要求9所述的声学模型。

11.一种电子设备,其特征在于,包括:

12.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。


技术总结
本申请涉及一种音频数据的获取方法、声学模型、装置及车辆。该方法包括:获取目标视频数据中的音频数据和具有字幕的图像帧,单帧字幕与待标注的音频数据对应;根据预先构建的语音解码图,获得音频数据的词网格;根据音频数据对应的字幕,在词网格中筛选获得目标识别路径;当目标识别路径中对应的待确认文本符合预设规则时,将待确认文本作为音频数据的目标文本并对应标注,以将音频数据和对应的目标文本用于声学模型的训练样本。本申请的方案,可以定向获得特定群体的音频数据作为训练样本,无需人工标注,节省人力成本,提升数据获取效率,且满足特定群体的语音识别需求。

技术研发人员:封家乐
受保护的技术使用者:广州小鹏汽车科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!