一种语音分离方法及系统与流程

文档序号：16848099发布日期：2019-02-12 22:29阅读：267来源：国知局

本发明涉及语音识别技术领域，尤指一种语音分离方法及系统。

背景技术：

用户在使用家教机朗读工具的时候，点击开始朗读进行录音，直至朗读结束进行回放，但是此过程中没有对收集回来的音频信息进行任何的处理，回放的时候是多种声音混合的效果。在课堂上、课后，学生们喜欢一起大声朗读，此时朗读录音，家教机接收的是来自不同用户的声音，朗读回放的时候也会呈现多个用户同时朗读合成的混杂的声音，无法辨别单个用户朗读的准确性。因此，急需一种对混合的语音进行分离的方法及系统。

技术实现要素：

本发明的目的是提供一种语音分离方法及系统，实现从一个多人混合语音中分离出每个用户各自产生的单人语音，从而便于用户对单人语音进行处理。

本发明提供的技术方案如下：

本发明提供一种语音分离方法，包括：

获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库；

获取多人混合语音；

将所述多人混合语音和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

进一步的，所述的获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立所述基本波形库具体包括：

获取用户语音以及对应的用户信息；

分析所述用户语音，得到对应的用户的声音的基本波形；

根据所述基本波形和所述用户信息建立所述基本波形库，在所述基本波形库建立所述基本波形和所述用户信息之间的映射关系。

进一步的，所述的将所述多人混合语音和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音具体包括：

根据所述多人混合语音得到对应的混合语音波形；

将所述混合语音波形和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

进一步的，还包括：

获取所述多人混合语音对应的混合语音用户信息，得到所述多人混合语音中包含的人数；

统计分离出的所述单人语音的个数；

当所述个数小于所述人数时，根据所述基本波形库获取将所述单人语音对应的单人语音用户信息；

将所述单人语音用户信息和所述混合语音用户信息进行对比，获取所述多人混合语音中未分离的语音对应的未分离语音用户信息；

根据所述未分离语音用户信息获取对应的未分离语音基本波形；

根据所述未分离语音基本波形和对应的所述未分离语音用户信息更新所述基本波形库；

根据所述未分离语音基本波形分离所述多人混合语音。

进一步的，所述的将所述多人混合语音和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音之后包括：

将所述用户信息作为标记信息标记对应的所述单人语音；

根据所述标记信息存储所述单人语音；

根据存储的所述单人语音分析对应的用户的语音质量。

本发明还提供一种语音分离系统，包括：

波形库建立模块，获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库；

语音获取模块，获取多人混合语音；

分离模块，将所述语音获取模块获取的所述多人混合语音和所述波形库建立模块建立的所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

进一步的，所述波形库建立模块具体包括：

获取单元，获取用户语音以及对应的用户信息；

分析单元，分析所述获取单元获取的所述用户语音，得到对应的用户的声音的基本波形；

波形库建立单元，根据所述分析单元得到的所述基本波形和所述获取单元获取的所述用户信息建立所述基本波形库，在所述基本波形库建立所述基本波形和所述用户信息之间的映射关系。

进一步的，所述分离模块具体包括：

处理单元，根据所述多人混合语音得到对应的混合语音波形；

分离单元，将所述处理单元得到的所述混合语音波形和所述波形库建立模块建立的所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

进一步的，还包括：

信息获取模块，获取所述多人混合语音对应的混合语音用户信息，得到所述多人混合语音中包含的人数；

统计模块，统计所述分离模块分离出的所述单人语音的个数；

获取模块，当所述统计模块统计的所述个数小于所述信息获取模块得到的所述人数时，根据所述波形库建立模块建立的所述基本波形库获取将所述单人语音对应的单人语音用户信息；

对比模块，将所述获取模块获取的所述单人语音用户信息和所述信息获取模块获取的所述混合语音用户信息进行对比，获取所述多人混合语音中未分离的语音对应的未分离语音用户信息；

波形获取模块，根据所述对比模块得到的所述未分离语音用户信息获取对应的未分离语音基本波形；

更新模块，根据所述波形获取模块获取的所述未分离语音基本波形和所述对比模块得到的对应的所述未分离语音用户信息更新所述基本波形库；

控制模块，根据所述波形获取模块获取的所述未分离语音基本波形分离所述语音获取模块获取的所述多人混合语音。

进一步的，还包括：

标记模块，将所述波形库建立模块获取的所述用户信息作为标记信息标记对应的所述单人语音；

存储模块，根据所述标记模块得到的所述标记信息存储所述单人语音；

分析模块，根据所述存储模块存储的所述单人语音分析对应的用户的语音质量。

通过本发明提供的一种语音分离方法及系统，能够带来以下至少一种有益效果：

1、本发明中，通过每个用户声音的基本波形将多人混合语音分离成多个单人语音，便于识别每个用户对应的单人语音。

2、本发明中，通过将分离出来的单人语音对应的用户信息和多人混合语音所包含的用户信息进行对比，从而确定未分离出的单人语音，并采取相应的措施进行分离，以及更新基本波形库。

3、本发明中，将分离出的单人语音按照对应的用户信息进行标记以及存储，以便后续进行单独分析。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种语音分离方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种语音分离方法的一个实施例的流程图；

图2是本发明一种语音分离方法的另一个实施例的流程图；

图3是本发明一种语音分离方法的另一个实施例的流程图；

图4是本发明一种语音分离方法的另一个实施例的流程图；

图5是本发明一种语音分离方法的另一个实施例的流程图；

图6是本发明一种语音分离系统的一个实施例的结构示意图；

图7是本发明一种语音分离系统的另一个实施例的结构示意图；

图8是本发明一种语音分离系统的另一个实施例的结构示意图；

图9是本发明一种语音分离系统的另一个实施例的结构示意图；

图10是本发明一种语音分离系统的另一个实施例的结构示意图。

附图标号说明：

1000语音分离系统

1100波形库建立模块1110获取单元1120分析单元1130波形库建立单元

1200语音获取模块

1300分离模块1310处理单元1320分离单元

1400信息获取模块

1450统计模块1500获取模块1550对比模块1600波形获取模块

1650更新模块1700控制模块1800标记模块1850存储模块

1900分析模块

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为了使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

本发明的一个实施例，如图1所示，一种语音分离方法，包括：

s100获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

具体的，每一种声音都有各自的基本波形，称为基波。获取用户声音的基本波形以及对应的用户信息，该用户信息包括用户姓名、年龄、性别等信息。然后根据基本波形和用户信息建立基本波形库。

s200获取多人混合语音。

具体的，获取多人混合语音。例如在课堂上、课后，学生们喜欢一起大声朗读，如果此时进行录音，家教机接收的是来自不同用户的声音所形成的多人混合语音。

s300将所述多人混合语音和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

具体的，将多人混合语音和基本波形库进行匹配，由于基本波形库中包含多个用户声音的基本波形，因此根据每个用户声音的基本波形将多人混合语音分离为多个单人语音。

本实施例中，获取每个用户声音独特的基本波形，然后通过每个用户声音的基本波形将获取的多人混合语音分离成多个单人语音，从而便于识别每个用户对应的单人语音。

本发明的另一个实施例，是在上述实施例基础上的优化实施例，如图2所示，包括：

s100获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

s200获取多人混合语音。

s300将所述多人混合语音和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

s800将所述用户信息作为标记信息标记对应的所述单人语音。

具体的，根据基本波形库确定分离出来的单人语音对应的用户信息，然后将该用户信息作为标记信息对对应的单人语音进行标记，便于对单人语音进行区分。

s850根据所述标记信息存储所述单人语音。

具体的，将分离出来的单人语音存储起来，根据标记信息进行标记，例如存储时将标记信息作为对应的单人语音的文件命名，便于后续用户寻找需要的单人语音。

s900根据存储的所述单人语音分析对应的用户的语音质量。

具体的，根据存储的单人语音分析对应的用户的语音质量，单人语音是根据标记信息进行存储，因此用户可以明确每一个单人语音对应的用户。例如，在课堂上、课后，学生们一起大声朗读，此时朗读录音，家教机接收的是来自不同用户的声音，分离出每个学生各自产生的单人语音，并进行存储，那么用户后续可以随时回放和老师检查每一个学生的朗读效果。

本实施例中，将分离出的单人语音按照对应的用户信息进行标记以及存储，一方面便于查找对应的用户的单人语音，另一方面便于后续针对每一个单人语音进行单独分析。

本发明的另一个实施例，是在上述实施例基础上的优化实施例，如图3所示，包括：

s100获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

所述的s100获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库具体包括：

s110获取用户语音以及对应的用户信息。

s120分析所述用户语音，得到对应的用户的声音的基本波形。

具体的，获取用户语音以及对应的用户信息，分析用户语音得到对应的用户的声音的基本波形。由于获取用户语音是用于分析对应的基本波形，因此用户语音的内容并没有特定的限制。另外该用户信息包括用户姓名、年龄、性别等信息。

s130根据所述基本波形和所述用户信息建立所述基本波形库，在所述基本波形库建立所述基本波形和所述用户信息之间的映射关系。

具体的，根据基本波形和用户信息建立基本波形库，在基本波形库中建立基本波形和用户信息之间的映射关系，便于后续确定分离出的单人语音对应的用户信息。

s200获取多人混合语音。

s300将所述多人混合语音和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

s800将所述用户信息作为标记信息标记对应的所述单人语音。

s850根据所述标记信息存储所述单人语音。

s900根据存储的所述单人语音分析对应的用户的语音质量。

本实施例中，根据基本波形和用户信息建立基本波形库，在基本波形库中建立基本波形和用户信息之间的映射关系，便于后续确定分离出的单人语音对应的用户信息。

本发明的另一个实施例，是在上述实施例基础上的优化实施例，如图4所示，包括：

s100获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

s200获取多人混合语音。

s300将所述多人混合语音和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

所述的s300将所述多人混合语音和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音具体包括：

s310根据所述多人混合语音得到对应的混合语音波形。

s320将所述混合语音波形和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

具体的，根据多人混合语音得到对应的混合语音波形，便于和基本波形库中的基本波形进行对比以及匹配，然后将混合语音波形和基本波形库进行匹配，将多人混合语音分离为多个单人语音。

例如，在课堂上、课后，学生们一起大声朗读，此时朗读录音，家教机接收的是来自不同用户的声音所组成的多人混合语音，根据多人混合语音得到对应的混合语音波形，然后根据预先获取的每个学生的声音对应的基本波形从混合语音波形中分离出每个学生各自产生的单人语音，并进行存储，那么用户后续可以随时回放和老师检查每一个学生的朗读效果。

s800将所述用户信息作为标记信息标记对应的所述单人语音。

s850根据所述标记信息存储所述单人语音。

s900根据存储的所述单人语音分析对应的用户的语音质量。

本实施例中，根据获取的多人混合语音得到对应的混合语音波形，然后通过每个用户声音的基本波形将混合语音波形分离成多个单人语音，便于识别每个用户对应的单人语音。

本发明的另一个实施例，是在上述实施例基础上的优化实施例，如图5所示，包括：

s100获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

s200获取多人混合语音。

s300将所述多人混合语音和所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

s400获取所述多人混合语音对应的混合语音用户信息，得到所述多人混合语音中包含的人数。

具体的，获取多人混合语音对应的混合语音用户信息，得到多人混合语音中包含的人数。例如，在课堂上、课后，学生们一起大声朗读，此时朗读录音，家教机接收的是来自不同用户的声音所组成的多人混合语音，获取一起朗读的学生的姓名以及人数。

s450统计分离出的所述单人语音的个数。

具体的，统计上述根据基本波形库从多人混合语音中分离出来的单人语音的个数。

s500当所述个数小于所述人数时，根据所述基本波形库获取将所述单人语音对应的单人语音用户信息。

具体的，当分离出来的单人语音的个数小于多人混合语音中包含的人数时，说明存在部分用户对应的单人语音没有从多人混合语音中分离出来。根据所述基本波形库中基本波形与用户信息之间的对应关系，获取分离出来的单人语音对应的单人语音用户信息。

s550将所述单人语音用户信息和所述混合语音用户信息进行对比，获取所述多人混合语音中未分离的语音对应的未分离语音用户信息。

s600根据所述未分离语音用户信息获取对应的未分离语音基本波形。

具体的，将分离出来的单人语音对应的单人语音用户信息和多人混合语音对应的混合语音用户信息进行对比，从而得到多人混合语音中未分离的语音对应的未分离语音用户信息，获取该未分离语音用户信息对应的用户的语音。然后分析得出对应的未分离语音基本波形。

例如，在课堂上、课后，10个学生们一起大声朗读，此时朗读录音，家教机接收的是来自10个用户的声音所组成的多人混合语音，但是只分离出9个单人语音，对比得到学生甲的单人语音没有被分离出来，获取学生甲的语音，从中分析得到学生甲的声音的基本波形。

s650根据所述未分离语音基本波形和对应的所述未分离语音用户信息更新所述基本波形库。

s700根据所述未分离语音基本波形分离所述多人混合语音。

具体的，将未分离语音基本波形和对应的未分离语音用户信息添加进基本波形库，从而更新基本波形库。然后根据得到的未分离语音基本波形从多人混合语音中分离出之前没有分离出来的单人语音。上述更新基本波形库以及分离之前没有分离出来的单人语音的步骤没有先后之分。

s800将所述用户信息作为标记信息标记对应的所述单人语音。

s850根据所述标记信息存储所述单人语音。

s900根据存储的所述单人语音分析对应的用户的语音质量。

本实施例中，通过将分离出来的单人语音对应的用户信息和多人混合语音所包含的用户信息进行对比，从而确定未分离出的单人语音，并采取相应的措施急需进行分离，以及更新基本波形库。

本发明的一个实施例，如图6所示，一种语音分离系统1000，包括：

波形库建立模块1100，获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

具体的，每一种声音都有各自的基本波形，称为基波。波形库建立模块1100获取用户声音的基本波形以及对应的用户信息，该用户信息包括用户姓名、年龄、性别等信息。然后根据基本波形和用户信息建立基本波形库。

语音获取模块1200，获取多人混合语音。

具体的，语音获取模块1200获取多人混合语音。例如在课堂上、课后，学生们喜欢一起大声朗读，如果此时进行录音，家教机接收的是来自不同用户的声音所形成的多人混合语音。

分离模块1300，将所述语音获取模块1200获取的所述多人混合语音和所述波形库建立模块1100建立的所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

具体的，分离模块1300将多人混合语音和基本波形库进行匹配，由于基本波形库中包含多个用户声音的基本波形，因此根据每个用户声音的基本波形将多人混合语音分离为多个单人语音。

本发明的另一个实施例，是在上述实施例基础上的优化实施例，如图7所示，包括：

波形库建立模块1100，获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

语音获取模块1200，获取多人混合语音。

标记模块1800，将所述波形库建立模块1100获取的所述用户信息作为标记信息标记对应的所述单人语音。

具体的，标记模块1800根据基本波形库确定分离出来的单人语音对应的用户信息，然后将该用户信息作为标记信息对对应的单人语音进行标记，便于对单人语音进行区分。

存储模块1850，根据所述标记模块1800得到的所述标记信息存储所述单人语音。

具体的，存储模块1850将分离出来的单人语音存储起来，根据标记信息进行标记，例如存储时将标记信息作为对应的单人语音的文件命名，便于后续用户寻找需要的单人语音。

分析模块1900，根据所述存储模块1850存储的所述单人语音分析对应的用户的语音质量。

具体的，分析模块1900根据存储的单人语音分析对应的用户的语音质量，单人语音是根据标记信息进行存储，因此用户可以明确每一个单人语音对应的用户。例如，在课堂上、课后，学生们一起大声朗读，此时朗读录音，家教机接收的是来自不同用户的声音所组成的多人混合语音，分离出每个学生各自产生的单人语音，并进行存储，那么用户后续可以随时回放和老师检查每一个学生的朗读效果。

本发明的另一个实施例，是在上述实施例基础上的优化实施例，如图8所示，包括：

波形库建立模块1100，获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

所述波形库建立模块1100具体包括：

获取单元，获取用户语音以及对应的用户信息。

分析单元，分析所述获取单元获取的所述用户语音，得到对应的用户的声音的基本波形。

具体的，获取单元获取用户语音以及对应的用户信息，分析单元分析用户语音得到对应的用户的声音的基本波形。由于获取用户语音是用于分析对应的基本波形，因此用户语音的内容并没有特定的限制。另外该用户信息包括用户姓名、年龄、性别等信息。

具体的，波形库建立单元根据基本波形和用户信息建立基本波形库，在基本波形库中建立基本波形和用户信息之间的映射关系，便于后续确定分离出的单人语音对应的用户信息。

语音获取模块1200，获取多人混合语音。

标记模块1800，将所述波形库建立模块1100获取的所述用户信息作为标记信息标记对应的所述单人语音。

存储模块1850，根据所述标记模块1800得到的所述标记信息存储所述单人语音。

分析模块1900，根据所述存储模块1850存储的所述单人语音分析对应的用户的语音质量。

本发明的另一个实施例，是在上述实施例基础上的优化实施例，如图9所示，包括：

波形库建立模块1100，获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

语音获取模块1200，获取多人混合语音。

所述分离模块1300具体包括：

处理单元，根据所述多人混合语音得到对应的混合语音波形。

分离单元，将所述处理单元得到的所述混合语音波形和所述波形库建立模块1100建立的所述基本波形库进行匹配，将所述多人混合语音分离为多个单人语音。

具体的，处理单元根据多人混合语音得到对应的混合语音波形，便于和基本波形库中的基本波形进行对比以及匹配，然后分离单元将混合语音波形和基本波形库进行匹配，将多人混合语音分离为多个单人语音。

标记模块1800，将所述波形库建立模块1100获取的所述用户信息作为标记信息标记对应的所述单人语音。

存储模块1850，根据所述标记模块1800得到的所述标记信息存储所述单人语音。

分析模块1900，根据所述存储模块1850存储的所述单人语音分析对应的用户的语音质量。

本发明的另一个实施例，是在上述实施例基础上的优化实施例，如图10所示，包括：

波形库建立模块1100，获取用户声音的基本波形以及对应的用户信息，根据所述基本波形和所述用户信息建立基本波形库。

语音获取模块1200，获取多人混合语音。

信息获取模块1400，获取所述多人混合语音对应的混合语音用户信息，得到所述多人混合语音中包含的人数。

具体的，信息获取模块1400获取多人混合语音对应的混合语音用户信息，得到多人混合语音中包含的人数。例如，在课堂上、课后，学生们一起大声朗读，此时朗读录音，家教机接收的是来自不同用户的声音所组成的多人混合语音，获取一起朗读的学生的姓名以及人数。

统计模块1450，统计所述分离模块1300分离出的所述单人语音的个数。

具体的，统计模块1450统计上述根据基本波形库从多人混合语音中分离出来的单人语音的个数。

获取模块1500，当所述统计模块1450统计的所述个数小于所述信息获取模块1400得到的所述人数时，根据所述波形库建立模块1100建立的所述基本波形库获取将所述单人语音对应的单人语音用户信息。

具体的，当分离出来的单人语音的个数小于多人混合语音中包含的人数时，说明存在部分用户对应的单人语音没有从多人混合语音中分离出来。获取模块1500根据所述基本波形库中基本波形与用户信息之间的对应关系，获取分离出来的单人语音对应的单人语音用户信息。

对比模块1550，将所述获取模块1500获取的所述单人语音用户信息和所述信息获取模块1400获取的所述混合语音用户信息进行对比，获取所述多人混合语音中未分离的语音对应的未分离语音用户信息。

波形获取模块1600，根据所述对比模块1550得到的所述未分离语音用户信息获取对应的未分离语音基本波形。

具体的，对比模块1550将分离出来的单人语音对应的单人语音用户信息和多人混合语音对应的混合语音用户信息进行对比，从而得到多人混合语音中未分离的语音对应的未分离语音用户信息，波形获取模块1600获取该未分离语音用户信息对应的用户的语音。然后分析得出对应的未分离语音基本波形。

更新模块1650，根据所述波形获取模块1600获取的所述未分离语音基本波形和所述对比模块1550得到的对应的所述未分离语音用户信息更新所述基本波形库。

控制模块1700，根据所述波形获取模块1600获取的所述未分离语音基本波形分离所述语音获取模块1200获取的所述多人混合语音。

具体的，更新模块1650将未分离语音基本波形和对应的未分离语音用户信息添加进基本波形库，从而更新基本波形库。然后控制模块1700根据得到的未分离语音基本波形从多人混合语音中分离出之前没有分离出来的单人语音。上述更新模块1650更新基本波形库以及控制模块1700分离之前没有分离出来的单人语音的步骤没有先后之分。

标记模块1800，将所述波形库建立模块1100获取的所述用户信息作为标记信息标记对应的所述单人语音。

存储模块1850，根据所述标记模块1800得到的所述标记信息存储所述单人语音。

分析模块1900，根据所述存储模块1850存储的所述单人语音分析对应的用户的语音质量。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔颖
技术所有人：广东小天才科技有限公司
我是此专利的发明人

上一篇：快速将人员加入群组与新建群组的方法及装置与流程
上一篇：一种山羊饲养用秸秆饲料的制作方法