一种说话人语音分割方法、装置、电子设备和存储介质与流程

文档序号:29959176发布日期:2022-05-11 08:41阅读:207来源:国知局
一种说话人语音分割方法、装置、电子设备和存储介质与流程

1.本技术涉及说话人语音分割技术领域,特别是涉及一种说话人语音分割方法、装置、电子设备和存储介质。


背景技术:

2.目前主流的说话人分割流程是:输入语音-》前端处理-》语音端点检测得到语音段-》对检测到的语音段提取说话人声纹信息-》对声纹做聚类得到最终的聚类结果-》后处理,由于语音段端点检测错误率高,导致最终聚类错误率高,错误包括语音漏检,语音误纳,混淆错误等。
3.假如对话过程中,不同的话说人中间没有停顿,也就是一个片段内会至少出现两个以上的说话人,那么该片段的聚类结果肯定是错误的。对有强噪音的情况,语音端点检测很容易将噪音检测成语音,这样就造成错误。假如语音的能量很低,语音端点检测可能就检测不出语音,这样就会造成错误。


技术实现要素:

4.基于上述语音段端点检测错误率高等问题,本技术提供一种说话人语音分割方法、装置、电子设备和存储介质。
5.第一方面,本技术实施例提供一种说话人语音分割方法,包括:
6.获取说话人语音;
7.识别说话人语音得到说话人语音对应的文本;
8.根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段;
9.提取多个语音片段对应的说话人声纹信息;
10.根据说话人声纹信息对多个语音片段进行聚类得到每个说话人的语音。
11.进一步地,上述一种说话人语音分割方法中,说话人语音包括:至少两人的对话语音。
12.进一步地,上述一种说话人语音分割方法中,根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段是通过标点预测模型进行断句得到多个语音片段。
13.进一步地,上述一种说话人语音分割方法中,标点预测模型的训练步骤如下:
14.获取多个带有标点符号的文本;
15.训练多个带有标点符号的文本得到标点预测模型。
16.进一步地,上述一种说话人语音分割方法中,识别说话人语音得到说话人语音对应的文本是通过语音识别引擎进行识别的。
17.进一步地,上述一种说话人语音分割方法中,根据说话人声纹信息对多个语音片段进行聚类得到每个说话人的语音,是通过凝聚层次聚类算法实现的。
18.进一步地,上述一种说话人语音分割方法中,通过标点预测模型进行断句得到多个语音片段包括:基于文本语义自动对说话人语音对应的文本进行断句,加标点得到多个
语音片段。
19.第二方面,本技术实施例还提供一种说话人语音分割装置,包括:
20.获取模块:用于获取说话人语音;
21.识别模块:用于识别说话人语音得到说话人语音对应的文本;
22.断句模块:用于根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段;
23.提取模块:用于提取多个语音片段对应的说话人声纹信息;
24.聚类模块:用于根据说话人声纹信息对多个语音片段进行聚类得到每个说话人的语音。
25.第三方面,本技术实施例还提供一种电子设备,包括:处理器和存储器;
26.处理器通过调用存储器存储的程序或指令,用于执行上述任一项一种说话人语音分割方法。
27.第四方面,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述任一项一种说话人语音分割方法。
28.本技术实施例的优点在于:本技术涉及一种说话人语音分割方法、装置、电子设备和存储介质,该方法包括:获取说话人语音;识别说话人语音得到说话人语音对应的文本;根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段;提取多个语音片段对应的说话人声纹信息;根据说话人声纹信息对所述多个语音片段进行聚类得到每个说话人的语音。本技术通过语音识别引擎识别说话人语音得到说话人语音对应的文本,标点预测模型根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段,提取多个语音片段中不同说话人的声纹信息,凝聚层次聚类算法将相同声纹信息的语音片段进行聚类得到每个说话人的语音,通过语音识别引擎和标点预测模型对语音进行断句,避免了使用语音段端点检测,改善了使用语音段端点检测对语音进行分割错误率高的问题。
附图说明
29.为了更清楚地说明本技术实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
30.图1为本技术实施例提供的一种说话人语音分割方法示意图一;
31.图2为本技术实施例提供的一种说话人语音分割方法示意图二;
32.图3为本技术实施例提供的一种说话人语音分割装置示意图;
33.图4是本技术实施例提供的一种电子设备的示意性框图。
具体实施方式
34.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵时做类似改进,因此本技术不受下面公开的具体实施的限制。
35.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
36.图1为本技术实施例提供的一种说话人语音分割方法示意图一。
37.第一方面,本技术实施例提供一种说话人语音分割方法,结合图1,包括s101至s105五个步骤:
38.s101:获取说话人语音。
39.具体的,本技术实施例中,说话人语音可以是电话中的对话语音,视频中的多个人的语音。
40.s102:识别说话人语音得到说话人语音对应的文本。
41.具体的,本技术实施例中,识别话人语音得到说话人语音对应的文本可以是通过语音识别引擎进行识别。示例性的:识别说话人语音得到说话人语音对应的文本如“你吃饭了吗?我吃过了。你吃了什么呀?我吃了北京烤鸭”。
42.s103:根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段。
43.具体的,本技术实施例中,如根据说话人语音对应的文本“你吃饭了吗?我吃过了。你吃了什么呀?我吃了北京烤鸭”进行断句得到“你吃饭了吗?”和“我吃过了”和“你吃了什么呀?”和“我吃了北京烤鸭”多个语音片段。
44.s104:提取多个语音片段对应的说话人声纹信息。
45.具体的,本技术实施例中,每个语音片段对应的声纹信息可能不是同一个人的,如提取“你吃饭了吗?”“我吃过了”“你吃了什么呀?”“我吃了北京烤鸭”多个语音片段中的两个说话人的声纹信息得到“你吃饭了吗?”和“你吃了什么呀?”是同一个人的声纹信息,“我吃过了”和“我吃了北京烤鸭”是同一个人的声纹信息。
46.s105:根据说话人声纹信息对多个语音片段进行聚类得到每个说话人的语音。
47.具体的,本技术实施例中,根据说话人声纹信息对多个语音片段进行聚类是将同一个说话人的声纹信息进行聚类得到每个说话人的语音。如将“你吃饭了吗?”和“你吃了什么呀?”进行聚类得到第一个说话人的语音,将“我吃过了”和“我吃了北京烤鸭”进行聚类得到第二个说话人的语音。
48.进一步地,上述一种说话人语音分割方法中,说话人语音包括:至少两人的对话语音。
49.进一步地,上述一种说话人语音分割方法中,根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段是通过标点预测模型进行断句得到多个语音片段。
50.图2为本技术实施例提供的一种说话人语音分割方法示意图二。
51.进一步地,上述一种说话人语音分割方法中,标点预测模型的训练步骤包括s201至s202两个步骤:
52.s201:获取多个带有标点符号的文本。
53.s202:训练多个带有标点符号的文本得到标点预测模型。
54.具体的,本技术实施例中,通过获取大量的带有标点符号的文本,然后对大量的带有标点符号的文本进行训练得到标点预测模型,从而标点预测模型根据说话人语音对应的
文本可以预测文本中的标点符号,对说话人语音对应的文本通过标点符号进行断句得到多个语音片段。
55.进一步地,上述一种说话人语音分割方法中,识别说话人语音得到说话人语音对应的文本是通过语音识别引擎进行识别的。
56.具体的,本技术实施例中,如通过语音识别引擎识别电话中的对话语音得到说话人语音对应的文本“你吃饭了吗?我吃过了。你吃了什么呀?我吃了北京烤鸭”。
57.进一步地,上述一种说话人语音分割方法中,根据说话人声纹信息对多个语音片段进行聚类得到每个说话人的语音,是通过凝聚层次聚类算法实现的。
58.具体的,本技术实施例中,如根据说话人声纹信息对多个语音片段进行聚类是将同一个说话人的声纹信息进行聚类得到每个说话人的语音。如将“你吃饭了吗?”和“你吃了什么呀?”通过凝聚层次聚类算法进行聚类得到第一个说话人的语音,将“我吃过了”和“我吃了北京烤鸭”通过凝聚层次聚类算法进行聚类得到第二个说话人的语音。
59.进一步地,上述一种说话人语音分割方法中,通过标点预测模型进行断句得到多个语音片段包括:基于文本语义自动对说话人语音对应的文本进行断句,加标点得到多个语音片段。
60.具体的,本技术实施例中,通过标点预测模型,基于文本语义自动对说话人语音对应的文本预测文本中的标点符号,对说话人语音对应的文本通过添加标点符号进行断句得到多个语音片段。
61.图3为本技术实施例提供的一种说话人语音分割装置示意图。
62.第二方面,本技术实施例还提供一种说话人语音分割装置,结合图3,包括:
63.获取模块301:用于获取说话人语音。
64.具体的,本技术实施例中,获取模块301获取的说话人语音可以是电话中的对话语音,视频中的多个人的语音。
65.识别模块302:用于识别说话人语音得到说话人语音对应的文本。
66.具体的,本技术实施例中,识别模块302识别话人语音得到说话人语音对应的文本可以是通过语音识别引擎进行识别。示例性的:识别说话人语音得到说话人语音对应的文本如“你吃饭了吗?我吃过了。你吃了什么呀?我吃了北京烤鸭”。
67.断句模块303:用于根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段。
68.具体的,本技术实施例中,如断句模块303根据说话人语音对应的文本“你吃饭了吗?我吃过了。你吃了什么呀?我吃了北京烤鸭”进行断句得到“你吃饭了吗?”和“我吃过了”和“你吃了什么呀?”和“我吃了北京烤鸭”多个语音片段。
69.提取模块304:用于提取多个语音片段对应的说话人声纹信息。
70.具体的,本技术实施例中,每个语音片段对应的声纹信息可能不是同一个人的,如提取模块304提取“你吃饭了吗?”“我吃过了”“你吃了什么呀?”“我吃了北京烤鸭”多个语音片段中的两个说话人的声纹信息得到“你吃饭了吗?”和“你吃了什么呀?”是同一个人的声纹信息,“我吃过了”和“我吃了北京烤鸭”是同一个人的声纹信息。
71.聚类模块305:用于根据说话人声纹信息对多个语音片段进行聚类得到每个说话人的语音。
72.具体的,本技术实施例中,聚类模块305根据说话人声纹信息对多个语音片段进行聚类是将同一个说话人的声纹信息进行聚类得到每个说话人的语音。如聚类模块305将“你吃饭了吗?”和“你吃了什么呀?”进行聚类得到第一个说话人的语音,聚类模块305将“我吃过了”和“我吃了北京烤鸭”进行聚类得到第二个说话人的语音。
73.第三方面,本技术实施例还提供一种电子设备,包括:处理器和存储器;
74.处理器通过调用存储器存储的程序或指令,用于执行上述任一项一种说话人语音分割方法。
75.第四方面,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述任一项一种说话人语音分割方法。
76.图4是本公开实施例提供的一种电子设备的示意性框图。
77.如图4所示,电子设备包括:至少一个处理器401、至少一个存储器402和至少一个通信接口403。电子设备中的各个组件通过总线系统404耦合在一起。通信接口403,用于与外部设备之间的信息传输。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图4中将各种总线都标为总线系统404。
78.可以理解,本实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
79.在一些实施方式中,存储器402存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
80.其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(media player)、浏览器(browser)等,用于实现各种应用业务。实现本技术实施例提供的一种说话人语音分割方法中任一方法的程序可以包含在应用程序中。
81.在本技术实施例中,处理器401通过调用存储器402存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器401用于执行本技术实施例提供的一种说话人语音分割方法各实施例的步骤。
82.获取说话人语音;
83.识别说话人语音得到说话人语音对应的文本;
84.根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段;
85.提取多个语音片段对应的说话人声纹信息;
86.根据说话人声纹信息对多个语音片段进行聚类得到每个说话人的语音。
87.本技术实施例提供的一种说话人语音分割方法中任一方法可以应用于处理器401中,或者由处理器401实现。处理器401可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
88.本技术实施例提供的一种说话人语音分割方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成一种说话人语音分割方法的步骤。
89.本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。
90.本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
91.以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1