智能语音转写方法、系统、设备及存储介质与流程

文档序号：42370671发布日期：2025-07-08 20:58阅读：22来源：国知局

本发明涉及人工智能，尤其涉及一种智能语音转写方法、系统、设备及存储介质。

背景技术：

1、语音是最自然的沟通方式，很多场合都是通过语音沟通，比如：电话，演讲，看病，庭审，会议等等。这些沟通的内容需要记录，通常使用录制音频或者人工打字的方式来记录沟通内容。但是音频记录不方便检索查询，不能快速定位到需要定位的内容上；而通过书记员打字来快速记录语音沟通的内容，受制于打字速度，有时候语音速度过快，可能会遗漏部分重要的内容，并且也受书记员的状态的影响。

2、语音转写系统是一种可将语音转写为文字的语音处理系统。通过该系统可自动形成会议纪要，以提高会议效率、发挥会议功能，避免人力物力财力浪费、降低会议成本、达成人力资源效率化。但是，现有方案中的语音转写存在不同用户语音转换导致多字、少字、同音异调、近音同调、语义理解不准确等问题，导致语音转写的准确度不高。

3、因此，亟需一种智能语音转写方法，能够有效提高语音转写的准确度。

技术实现思路

1、本发明的主要目的在于提供了一种智能语音转写方法、系统、设备及存储介质，旨在解决现有技术中语音转写的准确度不高的技术问题。

2、为实现上述目的，本发明提供了一种智能语音转写方法，所述方法包括以下步骤：

3、采集语音数据，并对所述语音数据进行人声分离，获得不同用户对应的语音片段；

4、确定所述语音片段对应的待处理文本序列，并通过线性预测分析确定所述语音片段的声学特征信息；

5、对所述待处理文本序列进行特征提取，基于特征提取结果对所述待处理文本序列进行修正处理，获得处理后的文本序列；

6、根据所述处理后的文本序列和所述声学特征信息确定与所述语音片段对应的包括标点符号信息的目标文本序列。

7、可选地，所述对所述语音数据进行人声分离，获得不同用户对应的语音片段的步骤，包括：

8、通过预设声纹识别模型对所述语音数据进行声纹识别，获得声纹特征；

9、对所述声纹特征进行聚类处理，获得聚类结果；

10、若所述聚类结果表示所述语音数据中至少包含两个用户对应的语音片段，则根据聚类结果对所述语音数据进行人声分离，获得不同用户对应的语音片段。

11、可选地，所述对所述声纹特征进行聚类处理，获得聚类结果的步骤之后，还包括：

12、若所述聚类结果表示所述语音数据中仅包含一个用户对应的语音片段，则执行所述确定所述语音片段对应的待处理文本序列，并通过线性预测分析确定所述语音片段的声学特征信息的步骤。

13、可选地，所述确定所述语音片段对应的待处理文本序列，并通过线性预测分析确定所述语音片段的声学特征信息的步骤，包括：

14、对所述语音片段进行意图识别，确定各所述语音片段对应的所有意图；

15、获取预设场景意图集合，将所有意图均不在所述预设场景意图集合中的语音片段记录为待剔除片段；

16、对除所述待剔除片段之外的语音片段进行语音识别，得到对应的待处理文本序列；

17、通过线性预测分析确定所述除所述待剔除片段之外的语音片段的声学特征信息。

18、可选地，所述对所述待处理文本序列进行特征提取，基于特征提取结果对所述待处理文本序列进行修正处理，获得处理后的文本序列的步骤，包括：

19、对所述待处理文本序列进行编码转换，获得编码整型符号信息；

20、通过预设特征提取模型对所述编码整型符号信息进行特征提取，获得语义特征信息和词性特征信息，并将所述语义特征信息和词性特征信息作为特征提取结果；

21、基于所述特征提取结果对所述待处理文本序列进行修正处理，获得处理后的文本序列。

22、可选地，所述基于所述特征提取结果对所述待处理文本序列进行修正处理，获得处理后的文本序列的步骤，包括：

23、对所述所述语义特征信息和所述词性特征信息进行合并处理，得到编码器特征信息；

24、基于所述编码器特征信息进行解码处理，得到所述待处理文本序列对应的修正文本信息；

25、将所述修正文本信息与所述待处理文本序列进行对比，根据对比结果确定所述待处理文本序列中错误位置信息；

26、基于所述错误位置信息和所述修正文本信息对所述待处理文本序列进行修正处理，获得处理后的文本序列。

27、可选地，所述根据所述处理后的文本序列和所述声学特征信息确定与所述语音片段对应的包括标点符号信息的目标文本序列的步骤，包括：

28、根据所述处理后的文本序列，确定与所述语音片段的文本语义信息相关的第一标点符号信息；

29、根据所述第一标点符号信息和所述声学特征信息，确定与所述语音片段的文本语义信息和所述声学特征信息相关的第二标点符号信息；

30、根据所述第二标点符号信息和所述处理后的文本序列，确定与所述语音片段对应的包括标点符号信息的目标文本序列。

31、此外，为实现上述目的，本发明还提出一种智能语音转写系统，所述系统包括：

32、数据采集模块，用于采集语音数据，并对所述语音数据进行人声分离，获得不同用户对应的语音片段；

33、语音识别模块，用于确定所述语音片段对应的待处理文本序列，并通过线性预测分析确定所述语音片段的声学特征信息；

34、文本修正模块，用于对所述待处理文本序列进行特征提取，基于特征提取结果对所述待处理文本序列进行修正处理，获得处理后的文本序列；

35、结果输出模块，用于根据所述处理后的文本序列和所述声学特征信息确定与所述语音片段对应的包括标点符号信息的目标文本序列。

36、此外，为实现上述目的，本发明还提出一种智能语音转写设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的智能语音转写程序，所述智能语音转写程序配置为实现如上文所述的智能语音转写方法的步骤。

37、此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有智能语音转写程序，所述智能语音转写程序被处理器执行时实现如上文所述的智能语音转写方法的步骤。

38、本发明公开了采集语音数据，并对所述语音数据进行人声分离，获得不同用户对应的语音片段；确定所述语音片段对应的待处理文本序列，并通过线性预测分析确定所述语音片段的声学特征信息；对所述待处理文本序列进行特征提取，基于特征提取结果对所述待处理文本序列进行修正处理，获得处理后的文本序列；根据所述处理后的文本序列和所述声学特征信息确定与所述语音片段对应的包括标点符号信息的目标文本序列。由于本发明通过分离语音数据，并将语音片段转成文字，然后根据待处理文本序列的特征提取结果对待处理文本序列进行修正处理，最后根据处理后的文本序列和声学特征信息确定与语音片段对应的包括标点符号信息的目标文本序列，相比于现有技术，本发明有效提高了语音转写的准确度。

技术特征：

1.一种智能语音转写方法，其特征在于，所述方法包括：

2.如权利要求1所述的智能语音转写方法，其特征在于，所述对所述语音数据进行人声分离，获得不同用户对应的语音片段的步骤，包括：

3.如权利要求2所述的智能语音转写方法，其特征在于，所述对所述声纹特征进行聚类处理，获得聚类结果的步骤之后，还包括：

4.如权利要求1所述的智能语音转写方法，其特征在于，所述确定所述语音片段对应的待处理文本序列，并通过线性预测分析确定所述语音片段的声学特征信息的步骤，包括：

5.如权利要求1所述的智能语音转写方法，其特征在于，所述对所述待处理文本序列进行特征提取，基于特征提取结果对所述待处理文本序列进行修正处理，获得处理后的文本序列的步骤，包括：

6.如权利要求5所述的智能语音转写方法，其特征在于，所述基于所述特征提取结果对所述待处理文本序列进行修正处理，获得处理后的文本序列的步骤，包括：

7.如权利要求1所述的智能语音转写方法，其特征在于，所述根据所述处理后的文本序列和所述声学特征信息确定与所述语音片段对应的包括标点符号信息的目标文本序列的步骤，包括：

8.一种智能语音转写系统，其特征在于，所述系统包括：

9.一种智能语音转写设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的智能语音转写程序，所述智能语音转写程序配置为实现如权利要求1至7中任一项所述的智能语音转写方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有智能语音转写程序，所述智能语音转写程序被处理器执行时实现如权利要求1至7任一项所述的智能语音转写方法的步骤。

技术总结
本发明公开了一种智能语音转写方法、系统、设备及存储介质，该方法包括：采集语音数据，并对语音数据进行人声分离，获得不同用户对应的语音片段；确定语音片段对应的待处理文本序列，并通过线性预测分析确定语音片段的声学特征信息；对待处理文本序列进行特征提取，基于特征提取结果对待处理文本序列进行修正处理，获得处理后的文本序列；根据处理后的文本序列和声学特征信息确定与语音片段对应的包括标点符号信息的目标文本序列。由于本发明通过分离语音数据，并将语音片段转成文字，然后对待处理文本序列进行修正处理，最后确定与语音片段对应的包括标点符号信息的目标文本序列，相比于现有技术，本发明有效提高了语音转写的准确度。

技术研发人员：陈昊,余春昊,薛飞,郝雁强
受保护的技术使用者：南京普天天纪楼宇智能有限公司
技术研发日：
技术公布日：2025/7/7

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈昊,余春昊,薛飞,郝雁强
技术所有人：南京普天天纪楼宇智能有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！