基于声纹识别与多模态分析的移动语料转写方法及装置

文档序号：36325556发布日期：2023-12-09 12:28阅读：77来源：国知局

本发明涉及视频语音融合识别，尤其涉及一种基于声纹识别与多模态分析的移动语料转写方法及装置。

背景技术：

1、随着社会的发展和科技的进步，多模态交互和分析在各种应用中越来越受到关注。多模态交互涉及到视觉、听觉、触觉等多个感知模式，可以为用户提供更为丰富和直观的体验。在语料库研究中，传统的研究方法主要基于文本或音频，而缺乏对视频、图像等其他模式的分析。手动转录和标注的方法不仅效率低下，而且可能由于人为因素导致误差。

2、为了克服这些限制，研究者开始探索如何将多模态信息融合到语料库研究中。这种融合可以为研究者提供更为丰富和深入的材料，帮助他们更好地理解和解释交谈内容。然而，这也带来了新的挑战，如如何准确地识别和标注多模态数据中的关键信息，以及如何将这些信息与文本数据相结合。

3、尽管已有一些尝试解决上述问题的技术，但它们大多数都存在一些局限性。首先，许多现有的技术仅仅关注单一的模态，如仅仅处理音频或视频，而缺乏对多模态数据的综合分析。其次，即使有些技术尝试进行多模态分析，但它们通常缺乏深度和准确性，无法为用户提供真正有价值的洞察。

4、此外，现有的多模态分析技术往往依赖于复杂和耗时的手动标注过程。这不仅增加了研究者的工作负担，而且可能导致标注的不一致性和误差。因此，需要一种能够自动、准确、并在多模态数据中进行深入分析的技术。

5、在多人交谈的场景中，尽管传统的语音转写系统已经在一定程度上为用户提供了便利，但在区分不同说话者、处理多模态数据（音频和视频）以及提供准确转写中仍存在明显的技术缺陷。特别是在复杂的交谈场景中，常规系统经常出现将不同说话者的话语混淆，或错失多模态信息的问题。这些问题在社会科学、心理学和语言学等领域的研究中可能导致重大误解。此外，传统系统通常缺乏对视频内容的深度解析功能，使得用户无法全面理解和利用多模态数据。

技术实现思路

1、本发明针对传统转写系统在处理复杂交谈场景时存在技术缺陷的问题，提出了本发明。

2、为解决上述技术问题，本发明提供如下技术方案：

3、一方面，本发明提供了一种基于声纹识别与多模态分析的移动语料转写方法，该方法由电子设备实现，该方法包括：

4、s1、获取待分析的视频数据以及音频数据。

5、s2、将视频数据以及音频数据输入到构建好的数据处理模型，得到数据处理结果。

6、其中，数据处理结果，包括视频数据的关键信息标注结果、音频数据的转写结果以及音频数据的分析结果。

7、s3、对转写结果进行实时校验以及二次标注，得到多模态数据的移动语料转写结果。

8、可选地，s2中的数据处理模型，包括视频数据处理模型以及音频数据处理模型。

9、将视频数据以及音频数据输入到构建好的数据处理模型，得到数据处理结果，包括：

10、s21、将视频数据输入到视频数据处理模型，得到视频数据的关键信息标注结果。

11、s22、将音频数据输入到音频数据处理模型，得到音频数据的转写结果以及音频数据的分析结果。

12、可选地，s21中的关键信息标注结果，包括视频摘要、场景标签、活动识别结果以及情感分析结果。

13、将视频数据输入到视频数据处理模型，得到视频数据的关键信息标注结果，包括：

14、s211、对视频数据进行关键帧提取，得到视频数据的视频摘要。

15、s212、将视频数据输入到深度卷积神经网络cnn，得到视频数据的场景标签。

16、s213、将视频数据输入到视频长短时记忆网络，得到视频数据的活动识别结果。

17、s214、将视频数据输入到3dcnn模型，得到视频数据的情感分析结果。

18、可选地，s22中的分析结果，包括音频可视化结果、音质分析结果以及说话者识别结果。

19、将音频数据输入到音频数据处理模型，得到音频数据的转写结果以及音频数据的分析结果，包括：

20、s221、根据音频数据以及快速傅里叶变换fft，得到音频数据的音频可视化结果。

21、其中，音频可视化结果，包括波形图、频谱图和色谱图。

22、s222、将音频数据输入到音频长短时记忆网络，得到音频数据的音质分析结果。

23、s223、根据音频可视化结果、音质分析结果以及声纹识别技术，得到音频数据的说话者识别结果。

24、可选地，s223中的根据音频可视化结果、音质分析结果以及声纹识别技术，得到音频数据的说话者识别结果，包括：

25、s2231、根据音频可视化结果以及音质分析结果，提取得到音频数据中每个说话者的声纹特征。

26、s2232、根据声纹特征以及支持向量机svm，得到音频数据的说话者识别结果。

27、可选地，s3中的对转写结果进行实时校验以及二次标注，包括：

28、通过文本编辑器功能，对转写结果进行实时校验、标注和修改，并根据上下文输出纠正建议。

29、可选地，在得到多模态数据的移动语料转写结果之后，方法还包括：

30、通过云端同步与多设备支持功能，对移动语料转写结果进行跨设备查看和编辑。

31、通过本地缓存技术，在离线状态时访问移动语料转写结果。

32、可选地，方法还包括：

33、使用加密算法对所有数据进行加密。

34、以及对用户数据进行匿名处理。

35、另一方面，本发明提供了一种基于声纹识别与多模态分析的移动语料转写装置，该装置应用于实现基于声纹识别与多模态分析的移动语料转写方法，该装置包括：

36、数据获取模块，用于获取待分析的视频数据以及音频数据。

37、数据处理模块，用于将视频数据以及音频数据输入到构建好的数据处理模型，得到数据处理结果。

38、其中，数据处理结果，包括视频数据的关键信息标注结果、音频数据的转写结果以及音频数据的分析结果。

39、实时校验以及二次标注模块，用于对转写结果进行实时校验以及二次标注，得到多模态数据的移动语料转写结果。

40、可选地，数据处理模型，包括视频数据处理模型以及音频数据处理模型。

41、数据处理模块，进一步用于：

42、s21、将视频数据输入到视频数据处理模型，得到视频数据的关键信息标注结果。

43、s22、将音频数据输入到音频数据处理模型，得到音频数据的转写结果以及音频数据的分析结果。

44、可选地，关键信息标注结果，包括视频摘要、场景标签、活动识别结果以及情感分析结果。

45、数据处理模块，进一步用于：

46、s211、对视频数据进行关键帧提取，得到视频数据的视频摘要。

47、s212、将视频数据输入到深度卷积神经网络cnn，得到视频数据的场景标签。

48、s213、将视频数据输入到视频长短时记忆网络，得到视频数据的活动识别结果。

49、s214、将视频数据输入到3dcnn模型，得到视频数据的情感分析结果。

50、可选地，分析结果，包括音频可视化结果、音质分析结果以及说话者识别结果。

51、数据处理模块，进一步用于：

52、s221、根据音频数据以及快速傅里叶变换fft，得到音频数据的音频可视化结果。

53、其中，音频可视化结果，包括波形图、频谱图和色谱图。

54、s222、将音频数据输入到音频长短时记忆网络，得到音频数据的音质分析结果。

55、s223、根据音频可视化结果、音质分析结果以及声纹识别技术，得到音频数据的说话者识别结果。

56、可选地，数据处理模块，进一步用于：

57、s2231、根据音频可视化结果以及音质分析结果，提取得到音频数据中每个说话者的声纹特征。

58、s2232、根据声纹特征以及支持向量机svm，得到音频数据的说话者识别结果。

59、可选地，实时校验以及二次标注模块，进一步用于：

60、通过文本编辑器功能，对转写结果进行实时校验、标注和修改，并根据上下文输出纠正建议。

61、可选地，还包括：

62、通过云端同步与多设备支持功能，对移动语料转写结果进行跨设备查看和编辑。

63、通过本地缓存技术，在离线状态时访问移动语料转写结果。

64、可选地，还包括：

65、使用加密算法对所有数据进行加密。

66、以及对用户数据进行匿名处理。

67、一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于声纹识别与多模态分析的移动语料转写方法。

68、一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于声纹识别与多模态分析的移动语料转写方法。

69、上述技术方案，与现有技术相比至少具有如下有益效果：

70、上述方案，提出了一种集成了多模态分析、实时数据校验与查阅功能的先进移动语料转写系统。能够多维度的数据分析：本系统的多模态数据处理不仅增强了对音频的理解，还通过视频数据提供了更为丰富的交互背景信息。这种深入的分析带来了对交谈内容的全方位理解，为研究者揭示了更多的隐藏信息和深层次的交往模式。

71、提高研究的可靠性：传统的语音转写系统在复杂场景中经常出现误识别。而本系统利用深度声纹识别技术，确保在各种情境下都能够准确识别说话者，大大提高了转写的准确性和研究的可靠性。

72、提升研究效率：实时数据校验与二次标注功能使研究者可以即时检查和修正转写结果，这大大缩短了数据整理和预处理的时间，使研究流程更为高效。

73、增强数据可访问性与合作性：云端同步功能使得研究者可以在任何时间、任何地点访问他们的数据，同时也便于团队之间的合作和数据分享，促进了跨学科和多地点的合作研究。

74、确保数据安全性：在数字化时代，数据安全和隐私保护变得尤为重要。本系统采用数据加密技术，确保用户数据在传输和存储过程中的安全。同时，严格的隐私保护措施确保用户的敏感信息不会被误用或泄露。

75、推动学术研究的进步：通过提供如此高效、准确且全面的转写工具，本系统不仅满足了现有研究的需求，还可能为社会科学、心理学和语言学等领域开辟新的研究方向或方法。

76、用户友好的设计：除了高度的技术性能，本系统还注重用户体验，易于上手且界面友好，使得不仅专业研究人员，普通用户也能轻松使用。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李若凡陈良宇
技术所有人：北京语言大学
我是此专利的发明人

上一篇：一种用于光伏焊带的再加工矫直设备的制作方法
上一篇：性能分析方法与流程