语音转录方法、装置及电子设备与流程

文档序号:42654295发布日期:2025-08-05 18:38阅读:50来源:国知局

本公开涉及电子设备领域,具体涉及一种语音转录方法、装置及电子设备。


背景技术:

1、语音转录是一种通过人工智能技术将音频信号自动转换为文本的过程。相关技术中,语音转录难以同时保持实时性和准确性的要求。


技术实现思路

1、本公开的第一个方面提供了一种语音转录方法,所述方法包括:

2、实时获得音频数据;

3、基于第一规则针对所述音频数据采样以获得第一音频数据;

4、通过目标模型处理第一音频数据生成第一文本;

5、基于第二规则针对所述音频数据采样以获得第二音频数据;

6、通过所述目标模型处理第二音频数据生成第二文本;

7、其中,所述第二文本替换所述第一文本;

8、其中,所述第一音频数据的时长小于所述第二音频数据的时长;每个第二音频数据包括相邻的两个第一音频数据,相邻的两个第二音频数据包括相同的第一音频数据。

9、根据本公开实施例,所述基于第一规则针对所述音频数据采样以获得第一音频数据包括:

10、基于第一时长针对所述音频数据顺序采样,以接连获得多个第一音频数据;

11、所述基于第二规则针对所述音频数据采样以获得第二音频数据包括:

12、基于第一时长针对所述音频数据的缓存向前寻址,以获得满足第二时长的数据为目的顺序采样获得多个第二音频数据。

13、根据本公开实施例,所述通过所述目标模型处理第一音频数据生成第一文本包括:

14、基于所述目标模型处理所述第一音频数据,输出第一标识码;

15、基于所述第一标识码查询模型词典,生成第一文本以及缓存标识码与字符第一关系表;每个第一音频数据对应一个第一关系表;

16、所述通过所述目标模型处理第二音频数据生成第二文本包括:

17、基于所述目标模型处理所述第二音频数据,输出第二标识码;

18、基于所述第二标识码查询多个第一关系表,生成第二文本。

19、根据本公开实施例,所述基于所述第二标识码查询多个第一关系表,生成第二文本包括:

20、基于所述第二标识码查询多个第一关系表,确定是否存在与所述第二标识码匹配的字符;

21、在存在与所述第二标识码匹配的字符的情况下,以匹配到的字符作为所述第二文本的第一字符;

22、基于未匹配到字符的第二标识码查询所述模型词典,获得作为第二文本的第二字符。

23、根据本公开实施例,所述方法还包括:

24、所述多个第二文本以与相同的第一音频数据对应部分作为修正部分进行拼接,形成与所述音频数据对应的转录文本;或者

25、显示第一文本;

26、以第二文本覆盖所述第一文本的显示;

27、所述多个第二文本以与相同的第一音频数据对应部分作为修正部分进行拼接,形成与所述音频数据对应的转录文本。

28、根据本公开实施例,所述方法还包括:

29、在所述通过所述目标模型处理第一音频数据的情况下,执行所述基于第一时长针对所述音频数据的缓存向前寻址以满足第二时长的数据顺序采样以获得多个第二音频数据的操作;

30、根据本公开实施例,所述方法还包括:

31、在所述通过目标模型处理第一音频数据之前,确定所述目标模型是否正在处理所述第二音频数据;

32、在所述目标模型没有处理所述第二音频数据的情况下,执行所述通过目标模型处理第一音频数据的操作;

33、在所述目标模型正在处理所述第二音频数据的情况下,等待所述目标模型处理所述第二音频数据输出第二标识码之后,执行所述通过目标模型处理第一音频数据的操作。

34、根据本公开实施例,所述方法还包括:

35、获取所述相同的第一音频数据的第一文本,所述第一文本包括丢失部分和保存部分,一个所述第一文本的至少部分所述保存部分可以覆盖另一个所述第一文本的所述丢失部分;

36、将一个所述第一文本的至少部分所述保存部分覆盖所述另一个所述第一文本的所述丢失部分,得到第二文本。

37、本公开的第二个方面提供了一种处理装置,包括:

38、获得模块,用于实时获得音频数据

39、采样模块,用于基于第一规则针对所述音频数据采样以获得第一音频数据;以及基于第二规则针对所述音频数据采样以获得第二音频数据;其中,所述第一音频数据的时长小于所述第二音频数据的时长;每个第二音频数据包括相邻的两个第一音频数据,相邻的两个第二音频数据包括相同的第一音频数据;

40、目标模型,用于处理所述第一音频数据生成第一文本以及处理第二音频数据生成第二文本;所述第二文本替代所述第一文本。

41、本公开的第三个方面提供了一种电子设备,包括:

42、音频采集元件,用于实时获得音频数据;

43、存储元件,用于存储目标模型;

44、处理器,用于基于第一规则针对所述音频数据采样以获得第一音频数据以及基于第二规则针对所述音频数据采样以获得第二音频数据;其中,所述第一音频数据的时长小于所述第二音频数据的时长;每个第二音频数据包括相邻的两个第一音频数据,相邻的两个第二音频数据包括相同的第一音频数据;基于所述目标模型处理所述第一音频数据生成第一文本以及处理第二音频数据生成第二文本;其中,所述第二文本替代所述第一文本。



技术特征:

1.一种语音转录方法,所述方法包括:

2.根据权利要求1所述的语音转录方法,其中,所述基于第一规则针对所述音频数据采样以获得第一音频数据包括:

3.根据权利要求1所述的语音转录方法,其中,所述通过所述目标模型处理第一音频数据生成第一文本包括:

4.根据权利要求3所述的语音转录方法,其中,所述基于所述第二标识码查询多个第一关系表,生成第二文本包括:

5.根据权利要求3或4所述的语音转录方法,其中,所述方法还包括:

6.根据权利要求2所述的语音转录方法,其中,所述方法还包括:

7.根据权利要求6所述的语音转录方法,其中,所述方法还包括:

8.根据权利要求5所述的语音转录方法,其中,所述方法还包括:

9.一种语音转录装置,包括:

10.一种电子设备,包括:


技术总结
本公开提供了一种语音转录方法、装置及电子设备,方法包括:实时获得音频数据;基于第一规则针对音频数据采样以获得第一音频数据;通过目标模型处理第一音频数据生成第一文本;基于第二规则针对音频数据采样以获得第二音频数据;通过目标模型处理第二音频数据生成第二文本;其中,第二文本替换第一文本;其中,第一音频数据的时长小于第二音频数据的时长;每个第二音频数据包括相邻的两个第一音频数据,相邻的两个第二音频数据包括相同的第一音频数据。

技术研发人员:赵鑫,刘宗华
受保护的技术使用者:联想(北京)有限公司
技术研发日:
技术公布日:2025/8/4
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1