一种多方通话时的角色分离方法、系统及终端与流程

文档序号：41537253发布日期：2025-04-07 23:11阅读：78来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及智能识别的领域，尤其是涉及一种多方通话时的角色分离方法、系统及终端。

背景技术：

1、多方通话时的角色分离方法是指用于在至少三个参与者进行通话的场景下，区分不同参与者角色的技术手段。

2、目前，在举行线上集体会议时，由于需要对会议内容进行文字记录，因此通常会采用语音识别的方式对说话人的说话内容进行语音识别，以此来记录在文本内。

3、而当出现集体讨论的情况时，由于参与者众多，导致语音识别的准确度下降，难以准确区分不同参与者的发言，进而导致通话内容记录困难，使得记录的通话内容的准确性降低，有待改进。

技术实现思路

1、为了提高通话内容记录的准确性，本发明提供一种多方通话时的角色分离方法、系统及终端。

2、第一方面，本发明提供一种多方通话时的角色分离方法，采用如下的技术方案：

3、一种多方通话时的角色分离方法，包括：

4、获取预设的语音频道的通话执行信号；

5、基于通话执行信号与预设的基准执行信号一致的情况，于预设的单位时间后，获取历史通话音频；

6、根据历史通话音频从预设的词组数据库中匹配出关键词组；

7、根据关键词组以确定通话领域；

8、根据历史通话音频和通话领域从预设的声学特征库中匹配出声学特征以及与声学特征对应的个人语言习惯；

9、输出声学特征和个人语言习惯至预设的通话记录终端内，控制通话记录终端以声学特征和个人语言习惯进行通话人员分离。

10、通过采用上述技术方案，通过了解通话执行信号与基准执行信号之间的一致情况，来知晓通话情况。基于当前语音频道正在进行多方人员的通话时，通过了解历史通话音频，来知晓关键词组，进而知晓通话领域。再通过了解到的通话领域和历史通话音频，来知晓声学特征和个人语言习惯，以此使得通话记录终端能够进行通过人员分离，提高了通话内容记录的准确性。

11、可选的，还包括预设的终端调整方法，所述终端调整方法包括：

12、获取通话记录终端的终端放置情况；

13、根据终端放置情况、预设的收声装置编号以及收声装置编号对应的收声装置位置以确定装置收声方向；

14、根据收声装置编号从预设的收声数据库中调取收声音量值；

15、根据收声音量值和装置收声方向以确定通话人员方向；

16、基于收声音量值低于预设的最优收音值的情况，根据收声音量值、最优收音值以及通话人员方向以确定装置调整角度和装置调整距离；

17、根据装置调整角度和装置调整距离以控制通话记录终端进行位置调整。

18、通过采用上述技术方案，通过了解终端放置情况、收声装置编号以及收声装置位置，来知晓装置收声方向和收声音量值，进而知晓通话人员方向。再通过了解收声音量值与最优收音值之间的大小关系，来知晓通话记录终端的位置调整情况。当需要进行位置调整时，通过了解收声音量值、最优收音值以及通话人员方向，来知晓装置调整角度和装置调整距离，进而可以对通话记录终端进行位置调整，以此提高了收声装置的收音效果。

19、可选的，还包括预设的音色分离方法，所述音色分离方法包括：

20、获取通话图像信息；

21、根据通话图像信息从预设的人像数据库中匹配出通话人员数量；

22、基于通话人员数量超出预设的基准人员数量的情况，根据通话图像信息和预设的说话特征以确定说话口型特征；

23、获取当前说话录音；

24、根据当前说话录音和说话口型特征以确定个人音色特征以及与个人音色特征对应的单独发言人员；

25、根据个人音色特征从预设的分离数据库中建立角色分离编号，并基于角色分离编号对单独发言人员记录通话内容。

26、通过采用上述技术方案，通过了解通话人员数量和基准人员数量之间的超出情况，来知晓后续分离情况。当需要对通话人员数量对应的通话人员进行分离时，通过了解说话口型特征和当前说话录音，来知晓个人音色特征以及单独发言人员，进而可以对单独发言人员建立角色分离编号，以便进行通话记录，提高了通话内容记录的准确性。

27、可选的，音色分离方法还包括：

28、基于通话图像信息和说话特征确定当前通话录音中是否包含从未单独发言人员；

29、当包含从未单独发言人员时，根据当前说话录音以确定总体音频信号；

30、根据总体音频信号和个人音色特征以确定重合音频信号；

31、根据重合音频信号和总体音频信号以确定剩余音频信号；

32、根据剩余音频信号和重合音频信号以确定从未单独发言人员所对应的个人音色特征，并基于从未单独发言人员所对应的个人音色特征从分离数据库中建立角色分离编号，以对从未单独发言人员记录通话内容。

33、通过采用上述技术方案，通过了解当前通话录音与从未单独发言人员的包含情况，来知晓后续分离情况。当包含时，通过了解当前说话录音和个人音色特征，来知晓总体音频信号和重合音频信号，进而知晓剩余音频信号。再通过对剩余音频信号和重合音频信号进行组合，来知晓未单独发言人员所对应的个人音色特征，进而对从未单独发言人员建立角色分离编号，以便对从未单独发言人员进行通话内容记录，提高了通话内容记录的准确性。

34、可选的，还包括预设的音色跟踪方法，所述音色跟踪方法包括：

35、根据通话图像信息从预设的姿态识别库中匹配出通话人员姿态；

36、根据通话人员姿态从预设的情绪数据库中匹配出通话人员情绪；

37、基于通话人员情绪与预设的平稳通话情绪一致的情况，根据当前说话录音以确定平稳音色特征；

38、基于通话人员情绪与预设的异常通话情绪一致的情况，根据通话人员情绪和平稳音色特征以确定异常音色特征；

39、输出异常音色特征至通话记录终端内，并根据异常音色特征和平稳音色特征以更新声学特征。

40、通过采用上述技术方案，通过了解通话人员情绪，来知晓平稳音色特征和异常音色特征，再通过对平稳音色特征和异常音色特征进行组合，来更新声学特征，以便通话人员出现情绪变化时，对通话人员进行声学特征跟踪，进而进行内容记录，提高了通话内容记录的准确性。

41、可选的，还包括预设的文本插入方法，所述文本插入方法包括：

42、基于通话执行信号与基准执行信号一致的情况，获取实时通话音频；

43、基于实时通话音频以控制通话记录终端进行文本记录，并获取当前语音内容；

44、基于当前语音内容包含预设的插入关键词的情况，根据当前语音内容和插入关键词以确定插入文本位置和插入位置数量；

45、基于插入位置数量超出预设的基准插入数量的情况，获取当前通话信息；

46、基于当前通话信息与预设的通话结束信息一致的情况，控制通话记录终端将插入位置数量对应的插入文本位置进行标记，并提示通话人员。

47、通过采用上述技术方案，通过了解当前语音内容和插入关键词之间的包含情况，来知晓内容插入情况，当需要插入文本内容时，通过了解当前语音内容和插入关键词，来知晓插入文本位置和插入位置数量。再通过了解插入位置数量和基准插入数量之间的超出情况，来知晓插入方法。当需要对工作人员进行插入提示时，通过了解当前通话信息与通话结束信息之间的一致情况，来知晓通话状态。当通话结束时，控制通话记录终端将插入位置数量对应的插入文本位置进行标记，并提示通话人员进行文本插入，提高了后续查看文本的便捷性。

48、可选的，还包括预设的文本校验方法，所述文本校验方法包括：

49、获取通话记录终端的完整通话录音；

50、根据完整通话录音从预设的文本数据库中匹配出通话文本内容；

51、根据通话文本内容、声学特征以及个人语言习惯从文本数据库中建立内容对话框；

52、将通话文本内容放入对应的内容对话框中，并根据通话领域和通话文本内容从预设的领域数据库中识别出异常记载内容和异常内容位置；

53、根据异常记载内容和通话领域从预设的修改数据库中匹配出修改内容；

54、将修改内容放入异常内容位置对应的内容对话框上预设的修改区域中，并基于异常内容位置以提示通话人员。

55、通过采用上述技术方案，通过了解完整通话录音，来知晓通话文本内容，进而可以对文本内容建立内容对话框，以便后续查看。再通过了解通话领域和通话文本内容，来知晓异常记载内容和异常内容位置，进而知晓修改内容，以此来对异常记载内容进行内容修改。提高了文本内容的准确性。

56、可选的，还包括用于计算装置调整角度和装置调整距离的算法公式，所述算法公式为：

57、和，其中，θ1为通话记录终端调整前，收声装置与通话人员的角度，θ2为装置调整角度，v1为收声音量值，v2为最优收音值，d1为通话记录终端调整前，收声装置与通话人员的距离，d2为装置调整距离。

58、通过采用上述技术方案，通过使用上述算法公式，能够更加精准的得出装置调整角度和装置调整距离，进而提高通话记录终端位置调整的准确性。

59、第二方面，本技术提供一种多方通话时的角色分离系统，采用如下的技术方案：

60、一种多方通话时的角色分离系统，包括：

61、获取模块，用于获取通话执行信号、历史通话音频、终端放置情况、通话图像信息、当前说话录音、实时通话音频、当前语音内容、当前通话信息以及完整通话录音；

62、存储器，用于存储上述任一种多方通话时的角色分离方法的程序；

63、处理器，用于加载执行且实现存储器中所存储的程序。

64、第三方面，本技术提供一种智能终端，采用如下的技术方案：

65、一种智能终端，包括存储器和处理器，存储器上存储有能够被处理器加载并执行上述任一种多方通话时的角色分离方法的计算机程序。

66、综上所述，本技术包括以下至少一种有益技术效果：

67、1.通过了解通话执行信号与基准执行信号之间的一致情况，来知晓通话情况。基于当前语音频道正在进行多方人员的通话时，通过了解历史通话音频，来知晓关键词组，进而知晓通话领域。再通过了解到的通话领域和历史通话音频，来知晓声学特征和个人语言习惯，以此使得通话记录终端能够进行通话人员分离，提高了通话内容记录的准确性；

68、2.通过了解通话人员数量和基准人员数量之间的超出情况，来知晓后续分离情况。当需要对通话人员数量对应的通话人员进行分离时，通过了解说话口型特征和当前说话录音，来知晓个人音色特征以及单独发言人员，进而可以对单独发言人员建立角色分离编号，以便进行通话记录，提高了通话内容记录的准确性；

69、3.通过了解完整通话录音，来知晓通话文本内容，进而可以对文本内容建立内容对话框，以便后续查看。再通过了解通话领域和通话文本内容，来知晓异常记载内容和异常内容位置，进而知晓修改内容，以此来对异常记载内容进行内容修改。提高了文本内容的准确性。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈剑,叶鑫,穆抓刚,吴镔峰
技术所有人：浙江连连科技有限公司
我是此专利的发明人

上一篇：一种发光装置的制作方法
下一篇：一种高强度C276耐蚀合金带材及其制备方法与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！