审讯场景下的说话人角色分离方法及系统与流程

文档序号：14504534阅读：851来源：国知局

本发明涉及语音信号处理领域，具体涉及一种审讯场景下的说话人角色分离方法及系统。

背景技术：

目前，每年全国有大量的审讯案件处理，检察机关在审讯中需要对审讯情况和问答的内容进行详细记录，相关工作耗费大量的人力。同时，因为个人原因存在记录疏漏或不准确的情况，语音识别技术的发展为解决这个问题提供了有效的途径。

当前审讯录音大多采用普通拾音器设备，可能是一个或者多个，设备一般放置在审讯室的墙边或桌上，对审讯全过程的语音进行录制。但是该种审讯录音设备具有以下缺点：不管是一个拾音器还是多个拾音器，都会同时录制所有人的语音，为后续的回听回看造成诸多不便。

技术实现要素：

本发明实施例提供一种审讯场景下的说话人角色分离方法及系统，以准确识别审讯场景下的说话人角色。

为此，本发明提供如下技术方案：

一种审讯场景下的说话人角色分离方法，所述方法包括：

获取审讯场景下的语音数据；

从所述语音数据中提取每个分析单元的角色识别特征，每个分析单元只包含一个说话人语音段；

依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型，根据模型输出确定当前分析单元对应的说话人角色；所述说话人角色包括：讯问人和被讯问人。

可选地，按以下方式构建说话人角色识别模型包括：

确定说话人角色识别模型的拓扑结构；

收集大量审讯场景下的语音数据作为训练数据；

标注所述训练数据中每个分析单元对应的说话人角色；

提取每个分析单元的角色识别特征；

根据提取的角色识别特征及标注信息训练得到模型参数。

可选地，所述方法还包括：

对所述语音数据进行端点检测，得到各有效语音段；

对所述有效语音段进行分割，得到每个分析单元。

可选地，所述角色识别特征包括以下任意一项或多项：说话人类别特征、语音特征、语义特征；所述语音特征包括平均能量、和/或语音连惯性；所述语义特征包括：句式、和/或时长。

可选地，所述方法还包括：

预先对审讯场景下各说话人进行语音采集，并根据采集的语音数据建立各说话人对应的声纹模型；

利用所述说话人对应的声纹模型确定每个分析单元的说话人类别。

可选地，所述方法还包括：

预先构建所述审讯场景下的句式判断模型；

确定每个分析单元的句式包括：

提取所述分析单元中各有效语音段的词向量，将所述词向量输入所述句式判断模型，根据所述句式判断模型的输出确定各有效语音段的句式。

可选地，所述角色识别特征还包括以下任意一项或多项：讯问人的位置、讯问人的数量、案件类型。

一种审讯场景下的说话人角色分离系统，所述系统包括：

语音数据获取模块，用于获取审讯场景下的语音数据；

特征提取模块，用于从所述语音数据中提取每个分析单元的角色识别特征，每个分析单元只包含一个说话人语音段；

角色分离模块，用于依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型，根据模型输出确定当前分析单元对应的说话人角色；所述说话人角色包括：讯问人和被讯问人。

可选地，所述系统还包括：

角色识别模型构建模块，用于构建说话人角色识别模型；所述角色识别模型构建模块包括：

拓扑结构确定单元，用于确定说话人角色识别模型的拓扑结构；

数据收集单元，用于收集大量审讯场景下的语音数据作为训练数据；

标注单元，用于标注所述训练数据中每个分析单元对应的说话人角色；

特征提取单元，用于提取每个分析单元的角色识别特征；

参数训练单元，用于根据提取的角色识别特征及标注信息训练得到模型参数。

可选地，所述系统还包括：

端点检测模块，用于对所述语音数据进行端点检测，得到各有效语音段；

分割模块，用于对所述有效语音段进行分割，得到每个分析单元。

可选地，所述系统还包括：

声纹注册模块，用于预先对审讯场景下各说话人进行语音采集，并根据采集的语音数据建立各说话人对应的声纹模型；

所述特征提取模块利用所述说话人对应的声纹模型确定每个分析单元的说话人类别。

可选地，所述系统还包括：

句式判断模型构建模块，用于预先构建所述审讯场景下的句式判断模型；

所述特征提取模块提取所述分析单元中各有效语音段的词向量，将所述词向量输入所述句式判断模型，根据所述句式判断模型的输出确定各有效语音段的句式。

可选地，所述角色识别特征还包括以下任意一项或多项：讯问人的位置、讯问人的数量、案件类型。

本发明实施例提供的审讯场景下的说话人角色分离方法及系统，充分考虑审讯场景下的对话特点、不同角色说话人特点等信息，首先从审讯场景下的语音数据中提取每个分析单元的角色识别特征，基于预先构建的说话人角色识别模型，以及所述角色识别特征，实现讯问人和被讯问人这两种角色的自动识别，进而可以为语音转写提供有效的辅助信息。

进一步地，利用多维度的角色识别特征解决审讯场景下角色分离问题，充分保证了不同说话人角色分离的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例审讯场景下的说话人角色分离方法的流程图；

图2是本发明实施例中构建说话人角色识别模型的流程图；

图3是本发明实施例审讯场景下的说话人角色分离系统的结构示意图；

图4是本发明实施例中角色识别模型构建模块的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例审讯场景下的说话人角色分离方法的流程图，包括以下步骤：

步骤101，获取审讯场景下的语音数据。

步骤102，从所述语音数据中提取每个分析单元的角色识别特征，每个分析单元只包含一个说话人语音段。

每个分析单元是一个完整的有效语音段，具体地，在确定每个分析单元时，可以先对所述语音数据进行端点检测，得到各有效语音段，然后再对所述有效语音段进行分割，得到各分析单元。

具体地，可以使用VAD(Voice Activity Detection，语音活动检测)技术，在信号中找到有效语音段，去除非语音段，从而可以精确地切分出每个有效语音段，并且标记出每个有效语音段的准确位置。

在对所述有效语音段进行分割时，首先提取所述有效语音段的语音信号特征，所述语音信号特征可以是PLP(Perceptual Linear Predictive，感知线性预测系数)、MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)、LPC(Linear Prediction Coefficient，线性预测系数)等；然后基于提取的语音信号特征，按照贝叶斯信息准则，对有效语音段进行说话人变化点检测，根据检测到的说话人变化点，将有效语音段分割成多个语音子段，每个语音子段即一个分析单元。每个语音子段对应了一个说话人，即为一个完整语音段，每个完整语音段包括一个或多个有效语音段。进一步地，还可以对所述语音子段进行聚类，得到多个语音信号类，所述语音信号类的数目大于等于说话人数目。

当然，也可以采用深度学习的说话人分离技术，得到每个语音信号类。

所述角色识别特征包括以下任意一种或多种：说话人类别特征、语音特征、语义特征。其中，所述语音特征包括平均能量、和/或语音连惯性；所述语义特征包括：句式、和/或时长。

下面对上述各特征分别进行详细说明。

1.说话人类别

对于每个语音信号类，可以利用说话人声纹模型，确定该类语音信号的说话人类别，即具体为哪一个说话人。

所述说话人声纹模型可以预先通过声纹注册过程来建立，具体地，对审讯场景下各说话人(包括讯问人和被讯问人)进行语音采集，并根据采集的语音数据建立各说话人对应的声纹模型。所述声纹模型的构建可以采用现有技术，比如首先提取语音数据的声纹特征，再基于声学特征构建声纹模型，如基于说话人因子向量构建声纹模型。当然，所述声纹模型还可以为高斯混合模型、隐马尔可夫模型、动态时间规整模型、向量化模型等，对此本发明实施例不做限定。

对各说话人进行语音采集可以通过麦克风现场采集，也可以通过录音设备采集，当然，也可以通过通讯设备比如移动电话远程采集。

为了使采集的各说话人的注册语音数据满足注册要求，还可以通过一定的规则对所述注册语音数据进行处理，例如去掉语音中能量较低、截幅、振铃、彩铃、多个说话人、有效时长较短等的语音数据。另外，还要保证有效语音时长满足注册要求。

比如，设定以下规则：

1)当采集的注册语音的能量低于能量阈值Te或截幅、并且占整个有效语音段的比例大于比例阈值P时，直接剔除，不使用该语音；

2)当采集的注册语音段中含有振铃、彩铃时，人工去除振铃、彩铃，并且保证有效语音长度满足要求，否则直接剔除，不使用该语音；

3)当采集的注册语音段中含有多个说话人语音，保证剩余语音类纯度的情况下，人工去除非目标人语音，并且保证有效语音长度满足要求，否则直接剔除，不使用该语音。

2.平均能量

所述平均能量定义为一个分析单元单位时间内的能量均值，即将所述分析单元中所有有效语音段的能量除以有效时长，得到的值即为能量均值。

3.语音连惯性

在审讯的时候，由于被讯问人心理、精神状态等问题，导致说话具有一定的不连续性，具体表现为语速慢、说话磕巴不连续、语义前后不一致或矛盾等。因此，在本发明实施例中，可以将语音连惯性作为角色识别特征之一，所述语音连贯性可以是一个一维向量，也可以是根据分析单元内单位时间有效字数、连续两有效语音之间的时间间隔得到的N维向量，N的取值取决于分析单元内有效语音段的数目。

4.句式

在审讯场景下，讯问人和被讯问人说话的语义信息具有较明显的差异，表现为讯问人讯问过程中常采用一些固定的问话模板，且多包含疑问和质询语气，疑问句较多；被讯问人说话无固定模式，且常包含肯定、否定、陈述语气，陈述句较多。

鉴于上述特点，在本发明实施例中，可以预先构建审讯场景下的句式判断模型，基于该句式判断模型确定每个分析单元的句式。

所述句式判断模型的构建可以基于一些关键词/字列表，如，请问、吗、啊、是否等，收集一些审讯人常用句式，训练得到句式判断模型。所述句式判断模型可以采用回归模型或分类模型，模型的输入为所述分析单元中各有效语音段的词向量，模型的输出具体可以是直接的句式类型结果，也可以是属于每种句式类型的概率。

5.时长

在审讯场景下，通常讯问人对应的分析单元说话时长往往较短，而被讯问人对应的分析单元说话时长较长，因此将该特征加入到角色识别判断中，可以进一步提高角色识别判断的准确性。

步骤103，依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型，根据模型输出确定当前分析单元对应的说话人角色；所述说话人角色包括：讯问人和被讯问人。

如图2所示，是本发明实施例中构建说话人角色识别模型的流程图，包括以下步骤：

步骤201，确定说话人角色识别模型的拓扑结构；

在本发明实施例中，说话人角色识别模型的拓扑结构可以采用DNN、RNN、CNN、SVM(支持向量机)等，以DNN为例，所述拓扑结构包括输入层、隐层、输出层。

步骤202，收集大量审讯场景下的语音数据作为训练数据；

步骤203，标注所述训练数据中每个分析单元对应的说话人角色；

所述分析单元如前所述，是一个完整的有效语音段，具体地，在确定每个分析单元时，可以先对所述训练数据进行端点检测，得到各有效语音段，然后再对所述有效语音段进行分割，得到各分析单元。

步骤204，提取每个分析单元的角色识别特征；

所述角色识别特征如前面所述，可以包括以下任意一项或多项：说话人类别特征、语音特征、语义特征；所述语音特征包括平均能量、和/或语音连惯性；所述语义特征包括：句式、和/或时长。各角色识别特征的具体含义在前面已有详细说明，在此不再赘述。需要说明的是，上述各角色识别特征，可以直接为其数值，即一维向量。

步骤205，根据提取的角色识别特征及标注信息训练得到模型参数。

本发明实施例提供的审讯场景下的说话人角色分离方法，充分考虑审讯场景下的对话特点、不同角色说话人特点等信息，首先从审讯场景下的语音数据中提取每个分析单元的角色识别特征，基于预先构建的说话人角色识别模型，以及所述角色识别特征，实现讯问人和被讯问人这两种角色的自动识别。

进一步地，考虑到在审讯场景下，被讯问人为一人，而讯问人通常为一人或多人，而且，为了考虑设备的安全以及录音的效果及有效性，通常需要将录音设备放置在审讯桌上，并远离被讯问人一方。因此，讯问人和被讯问人语音段的能量会因距离录音设备的远近而有明显的差异，因此，在本发明方法另一实施例中，还可以将讯问人的位置和/或数量这些特征作为角色识别特征，利用多维度的角色识别特征对审讯场景下不同角色进行自动识别，充分保证了不同说话人角色分离的准确性。

本发明实施例提供的审讯场景下的说话人角色分离方法，可以基于不同审讯场景的自身特点，构建针对该审订场景的说话人角色识别模型，利用该说话人角色识别模型对该审讯场景中的说话人角色进行识别。所述审讯场景比如可以是刑事案件审讯场景、经济案件审讯场景等。

进一步地，还可以综合不同案件审讯特点，收集大量不同案件审讯场景下的语音数据进行说话人角色识别模型训练，由于案件类型通常在审讯前都已经确定，因此在该模型训练中，可以将案件类型作为所述角色识别特征中的一个向量，提高不同审讯场景下说话人角色识别的准确性。

相应地，本发明实施例还提供一种审讯场景下的说话人角色分离系统，如图3所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

语音数据获取模块301，用于获取审讯场景下的语音数据；

特征提取模块302，用于从所述语音数据中提取每个分析单元的角色识别特征，每个分析单元只包含一个说话人语音段；

角色分离模块303，用于依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型，根据模型输出确定当前分析单元对应的说话人角色；所述说话人角色包括：讯问人和被讯问人。

每个分析单元对应了一个说话人，包括一个或多个有效语音段。

进一步地，在本发明系统另一实施例中，还可包括：端点检测模块和分割模块，其中：

所述端点检测模块用于对所述语音数据进行端点检测，得到各有效语音段，比如可以使用VAD技术得到各有效语音段；

所述分割模块用于对所述有效语音段进行分割，得到每个分析单元，具体可以提取有效语音段的语音信号特征，所述语音信号特征可以是PLP、MFCC、LPC等；然后基于提取的语音信号特征，按照贝叶斯信息准则，对有效语音段进行说话人变化点检测，根据检测到的说话人变化点，将有效语音段分割成多个完整语音段。

上述特征提取模块302在提取所述分析单元的说话人类别特征时，

可以利用预先建立的各说话人对应的声纹模型确定每个分析单元的说话人类别。所述声纹模型可以由相应的声纹注册模块(未图示)来预先构建，具体地，对审讯场景下各说话人进行语音采集，并根据采集的语音数据建立各说话人对应的声纹模型。

所述声纹注册模块可以作为本发明系统的一部分，也可以独立于本系统，对此本发明实施例不做限定。

上述特征提取模块303在提取所述分析单元的句式特征时，可以根据预先构建的审讯场景下的句式判断模型来确定每个分析单元中包含的句式信息。

所述句式判断模型可以由相应的句式判断模型构建模块(未图示)预先构建，具体地，基于一些关键词/字列表，如，请问、吗、啊、是否等，收集一些审讯人常用句式，训练得到句式判断模型。

相应地，所述特征提取模块从所述分析单元中每个有效语音段提取词向量，将所述词向量输入所述句式判断模型，根据所述句式判断模型的输出确定所述分析单元中每个有效语音段的句式。

上述说话人角色识别模型可以由相应的角色识别模型构建模块采用离线方式构建，所述角色识别模型构建模块可以作为本发明系统的一部分，也可以独立于本系统，对此本发明实施例不做限定。

如图4所示，是本发明实施例中角色识别模型构建模块的结构示意图，包括以下各单元：

拓扑结构确定单元401，用于确定说话人角色识别模型的拓扑结构；

数据收集单元402，用于收集大量审讯场景下的语音数据作为训练数据；

标注单元403，用于标注所述训练数据中每个分析单元对应的说话人角色；

特征提取单元404，用于提取每个分析单元的角色识别特征；

参数训练单元405，用于根据提取的角色识别特征及标注信息训练得到模型参数。

在本发明实施例中，所述角色识别特征包括以下任意一项或多项：说话人类别特征、语音特征、语义特征；所述语音特征包括平均能量、和/或语音连惯性；所述语义特征包括：句式、和/或时长。其中，各特征的具体含义前面已有详细说明，在此不再赘述。

本发明实施例提供的审讯场景下的说话人角色分离系统，充分考虑审讯场景下的对话特点、不同角色说话人特点等信息，首先从审讯场景下的语音数据中提取每个分析单元的角色识别特征，基于预先构建的说话人角色识别模型，以及所述角色识别特征，实现讯问人和被讯问人这两种角色的自动识别。

进一步地，考虑到在审讯场景下，被讯问人为一人，而讯问人通常为一人或多人，而且，为了考虑设备的安全以及录音的效果及有效性，通常需要将录音设备放置在审讯桌上，并远离被讯问人一方。因此，讯问人和被讯问人语音段的能量会因距离录音设备的远近而有明显的差异，相应地，在本发明方法另一实施例中，还可以将讯问人的位置及数量这些特征作为角色识别特征，利用多维度的角色识别特征对审讯场景下不同角色进行自动识别，充分保证了不同说话人角色分离的准确性。

本发明实施例提供的审讯场景下的说话人角色分离系统，可以基于不同审讯场景的自身特点，构建针对该审讯场景的说话人角色识别模型，利用该说话人角色识别模型对该审讯场景中的说话人角色进行识别。所述审讯场景比如可以是刑事案件审讯场景、经济案件审讯场景等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。而且，以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2 3