一种混合语种的离线语音识别方法及系统与流程

文档序号:42648201发布日期:2025-08-05 18:33阅读:42来源:国知局

本发明涉及离线语音质检,具体而言,涉及一种混合语种的离线语音识别方法及系统。


背景技术:

1、在呼叫中心的通话录音质检项目中,通常采用切割通话录音中的一部分片段,将该片段送到语种判别引擎来确定整个通话录音的语种,然后送到语种识别引擎进行识别,这种方式对于大多数单一语种的语音录音都能够正确识别出文本。

2、然而,在涉及到客户在通话中切换了不同语种,比如一开始说粤语,但是后面发现自己的粤语能力不足以和坐席流利沟通,又改回说普通话或英语时,那么此时保存下的语音录音就是多语种混合的录音。

3、现有的常规的单次判断语种并执行单一语音识别引擎的方式下,对于这种多语种混合的通话录音,在识别的文本中就会有一部分语音识别错误,造成无法辨读,影响到后续的录音质检。


技术实现思路

1、鉴于此,本发明的目的在于提出一种混合语种的离线语音识别方法及系统,在常规的单次判断语种并对接单一语种识别引擎的基础上,增加校准环节,在第一次语音识别的调用中增加时间边界和标点符号参数请求,然后根据返回结果的时间边界和语句标点符号,按句将原通话录音切割成片段,每个片段都分别再次判断语种,将不符合第一次语种的录音片段,都重新送到正确的语音识别引擎再次识别一遍,使用正确的识别结果修正第一次识别的文本,通过迭代调用语种判别引擎和各语种的专用语音识别引擎的方式,将录音中含有多个语种的录音片段,全部都正确识别出文本,从实现混合语种录音的完整正确识别。

2、本发明提供一种混合语种的离线语音识别方法,包括以下步骤:

3、s1、通过语种判别引擎对原始录音进行第一次整体判断,得到整个通话录音的大概语种;通过对应语种的语音识别引擎对所述原始录音进行第一次识别,识别请求设置为打开标点符号和时间边界参数,返回第一次识别结果;

4、返回的第一次识别结果例如:“0.00-1.20您好,1.30-1.50我 1.50-1.63想 1.70-1.90咨询 1.95-2.30信用卡 2.30-2.60如何 2.70-2.90申请”;

5、s2、根据所述语音识别引擎的第一次识别结果中的时间边界和句子标点符号,将所述原始录音按句切割成识别后的录音片段,将每个所述识别后的录音片段分别送到所述语种判别引擎进行重新判断,按重新判断的语种最终得到完整并且正确的识别结果。

6、进一步地,所述s2步骤的按重新判断的语种最终得到完整并且正确的识别结果的方法包括:

7、如果某个识别后的录音片段的返回语种与所述语种判别引擎的第一次整体判断的语种不符,则将该识别后的录音片段按重新判断的语种送到对应的语音识别引擎进行重新识别,获得正确的识别文本,然后将每个所述识别后的录音片段的正确的识别文本,用于修正所述第一次识别结果;

8、如果某个识别后的录音片段的返回语种与所述语种判别引擎第一次整体判断的语种符合,则所述第一次识别结果为正确的识别结果。

9、进一步地,所述s1步骤的通过语种判别引擎对原始录音进行第一次整体判断的方法包括:

10、从原始录音切割一部分录音片段(例如,从原始录音前部的第5秒到第20秒长),将所述原始录音的录音片段送到语种判别引擎进行判断。

11、进一步地,所述s1步骤的通过对应语种的语音识别引擎对所述原始录音进行第一次识别的方法包括:

12、将第一次整体判断后得到大概语种的所述原始录音的录音片段送到对应语种的语音识别引擎进行识别。

13、本发明还提供一种混合语种的离线语音识别系统,执行如上述所述的混合语种的离线语音识别方法,包括:

14、第一次判断和识别模块:用于通过语种判别引擎对原始录音进行第一次整体判断,得到整个通话录音的大概语种;通过对应语种的语音识别引擎对所述原始录音进行第一次识别,识别请求设置为打开标点符号和时间边界参数,返回第一次识别结果;

15、重新判断和识别模块:用于根据所述语音识别引擎的第一次识别结果中的时间边界和句子标点符号,将所述原始录音按句切割成识别后的录音片段,将每个所述识别后的录音片段分别送到所述语种判别引擎进行重新判断,按重新判断的语种最终得到完整并且正确的识别结果。

16、具体地,所述语种判别引擎用于自动识别输入文本或语音数据所属的语言种类,通过分析特定的语言特征,包括词汇、语法结构、字符集和发音模式,确定文本或语音是哪种语言;

17、所述语音识别引擎用于将人类的语音转换成机器可理解的文本。

18、进一步地,所述第一次判断和识别模块包括:

19、切割原始录音的录音片段单元:用于从原始录音切割一部分录音片段,将所述原始录音的录音片段送到语种判别引擎进行判断;

20、第一次识别单元:用于将第一次整体判断后得到大概语种的所述原始录音的录音片段送到对应语种的语音识别引擎进行识别。

21、采用本发明的技术方案后,从呼叫中心的录音质检项目上的实际测试结果反馈,混合语种的录音都得到了正确的识别文本,原先出现的部分因语种切换而导致识别错误的问题得到了有效解决。

22、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述所述的混合语种的离线语音识别方法的步骤。

23、本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的混合语种的离线语音识别方法的步骤。

24、与现有技术相比,本发明的有益效果在于:

25、本发明提供的混合语种的离线语音识别方法及系统在常规的单次判断语种并对接单一语种识别引擎的基础上,增加校准环节,在第一次语音识别的调用中增加时间边界和标点符号参数请求,然后根据返回结果的时间边界和语句标点符号,按句将原通话录音切割成片段,每个片段都分别再次判断语种,将不符合第一次语种的录音片段,都重新送到正确的语音识别引擎再次识别一遍,使用正确的识别结果修正第一次识别的文本,通过迭代调用语种判别引擎和各语种的专用语音识别引擎的方式,将录音中含有多个语种的录音片段,全部都正确识别出文本,有效实现了混合语种录音的完整正确识别。



技术特征:

1.一种混合语种的离线语音识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的混合语种的离线语音识别方法,其特征在于,所述s2步骤的按重新判断的语种最终得到完整并且正确的识别结果的方法包括:

3.根据权利要求2所述的混合语种的离线语音识别方法,其特征在于,所述s1步骤的通过语种判别引擎对原始录音进行第一次整体判断的方法包括:

4.根据权利要求3所述的混合语种的离线语音识别方法,其特征在于,所述s1步骤的通过对应语种的语音识别引擎对所述原始录音进行第一次识别的方法包括:

5.一种混合语种的离线语音识别系统,其特征在于,执行如权利要求1-4任一项所述的混合语种的离线语音识别方法,包括:

6.根据权利要求5所述的混合语种的离线语音识别系统,其特征在于,所述第一次判断和识别模块包括:

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-4任一项所述的混合语种的离线语音识别方法的步骤。

8.一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述的混合语种的离线语音识别方法的步骤。


技术总结
本发明提供在一种混合语种的离线语音识别方法及系统,方法包括:通过语种判别引擎对原始录音进行第一次整体判断,得到整个通话录音的大概语种;通过对应语种的语音识别引擎对原始录音进行第一次识别,识别请求设置为打开标点符号和时间边界参数,返回第一次识别结果;根据语音识别引擎的第一次识别结果中的时间边界和句子标点符号,将原始录音按句切割成识别后的录音片段,将每个识别后的录音片段分别送到语种判别引擎进行重新判断,按重新判断的语种最终得到完整并且正确的识别结果。本发明通过迭代调用语种判别引擎和各语种的专用语音识别引擎,将录音中含有多个语种的录音片段,全部都正确识别出文本,实现了混合语种录音的完整正确识别。

技术研发人员:胡家鹰,李全忠,何国涛,蒲瑶
受保护的技术使用者:普强时代(珠海横琴)信息技术有限公司
技术研发日:
技术公布日:2025/8/4
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!