说话人识别方法和装置的制造方法

文档序号：9490332阅读：349来源：国知局

说话人识别方法和装置的制造方法
【技术领域】
[0001]本发明实施例涉及语音监控技术，尤其涉及一种说话人识别方法和装置。
【背景技术】
[0002]随着信息时代的到来，语音监控已经成为公共安全领域的重要技术手段之一。
[0003]现有技术中，主要采取人工侦听的方式来进行语音监控，随着互联网数据量的海量爆发，人工侦听方法存在的在线侦听工作量大、工作效率较低、侦听人员不足的问题曰益突出，导致无法提前追踪侦测音频数据中所存在的大量违法犯罪线索信息。特别是对于地域分布广和语种分布多样的案件，熟悉小语种和各种方言的工作人员非常少，导致数据量的积压。因此，现有技术中采用人工侦听方法的语音监控的效率较低。

【发明内容】

[0004]有鉴于此，本发明实施例提供一种说话人识别方法和装置，以提高语音监控的效率。
[0005]第一方面，本发明实施例提供了一种说话人识别方法，所述方法包括:
[0006]采集说话人的音频数据；
[0007]提取所述音频数据的声纹特征；
[0008]在声纹数据库中搜索具有所述声纹特征的声纹样本，所述声纹数据库保存身份信息和声纹样本的对应关系；
[0009]根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息。
[0010]第二方面，本发明实施例还提供了一种说话人识别装置，所述装置包括:
[0011]音频数据采集模块，用于采集说话人的音频数据；
[0012]声纹特征提取模块，用于提取所述音频数据的声纹特征；
[0013]声纹样本搜索模块，用于在声纹数据库中搜索具有所述声纹特征的声纹样本，所述声纹数据库保存身份信息和声纹样本的对应关系；
[0014]身份信息确定模块，用于根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息。
[0015]本发明实施例通过将采集到的说话人的音频数据的声纹特征，与声纹数据库中的声纹样本的声纹特征进行比对，得到特征接近的声纹样本，根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息，提高了语音监控的效率，为公共安全提供了保障。
【附图说明】
[0016]图1是本发明实施例一提供的一种说话人识别方法的流程图；
[0017]图2是本发明实施例提供的说话人识别方法中的说话人识别系统的整体架构图；
[0018]图3是本发明实施例提供的说话人识别方法中的麦克风阵列语音增强系统的应用环境的示意图；
[0019]图4是本发明实施例提供的说话人识别方法中的录入声纹样本时录入身份信息的界面示意图；
[0020]图5是本发明实施例二提供的一种说话人识别方法的流程图；
[0021]图6是本发明实施例三提供的一种说话人识别装置的结构示意图。
【具体实施方式】
[0022]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。
[0023]实施例一
[0024]图1是本发明实施例一提供的一种说话人识别方法的流程图，本实施例可适用于识别语音监控中得到的音频数据的说话人身份信息的情况，该方法可以由说话人识别系统来执行，该系统可通过软件和/或硬件的方式实现。
[0025]图2是本发明实施例提供的说话人识别方法中的说话人识别系统的整体架构图，如图2所示，该说话人识别系统包括数据应用层、服务层、数据层和声纹采集层。其中，声纹采集层用于采集说话人的音频数据或者采集声纹样本，采集手段包括电信监控(如手机电话)、网络监控(如网络电话、米聊和微信等)、人员注册、出入境采集、路面核查采集、重点人员采集及其他采集手段；数据层用于存储声纹数据和系统数据，由于数据量比较大，主要采取分布式文件存储的方式，同时对存储的数据进行标准管理、质量管理和运行管理，系统数据主要存储声纹比对的结果数据；服务层包括声纹工具集、分析研判工具集、应用开发工具集和数据交换服务，其中，声纹工具集包括声纹比对服务、声纹注册服务和分布式计算服务，分析研判工具集包括语种方言、关键词和内容识别，应用开发工具集包括声纹查询、声纹比对和统计分析，数据交换服务包括交换接口、服务注册和服务管理；数据应用层包括声纹采集装备、路面核查系统、入境声纹比对和语音比对，可以用于采集声纹数据，或者通过调用服务层中的应用开发工具集进行实时的声纹比对，确定嫌疑人。其中，声纹工具集主要用于将采集到声纹样本分布式存储到数据层的数据库中；分析研判工具集主要用于根据关键信息进行人工研判，应用开发工具集主要用于根据说话人的音频数据对说话人进行身份识别；数据交换服务主要用于与音频数据的采集系统、声纹样本的录入系统及其他系统进行数据对接。
[0026]由于数据信息安全的需要，在涉及到系统数据对接时，将使用虚拟VPN (VirtualPrivate Network，虚拟专用网络)作为数据传输通道。由于在采集音频数据时，会存在与移动端的通信，必须在移动端与语音后台之间使用安全的数据网络，移动端的网络连通性也需要提供有效的保障，满足随时需要进行数据传输的需求，为了降低成本，可以借助于运营商提供的3G或4G网络，通过加密专线的方式接入到语音后台，可以采用VPDN(VirtualPrivate Dial — up Networks，虚拟专用拨号网)的虚拟网络专线，实现移动端与语音后台之间的互联通信。
[0027]该方法具体包括如下步骤:
[0028]步骤110，采集说话人的音频数据。
[0029]通过电信监控、网络监控、路面核查采集、出入境采集、重点人员采集及其他语音采集手段采集说话人的音频数据。其中，重点人员采集是指对重点关注对象的语音采集，主要包括监狱在押犯人等。通过上述监控，当监控到说话人的音频数据可疑时，采集该音频数据。
[0030]音频数据的采集来源多样，增加了后续声纹识别的难度。其中，出入境环境下背景噪声严重、说话人远离麦克风，难以有效采集目标人员的语音数据；路面核查环境中，目标对象所在的背景噪声环境和问答式的对话风格，会对声纹识别性能造成较大影响。针对这种难度极大的采集场景，使用麦克风阵列硬件系统采集音频数据，并对采集到的音频数据使用麦克风阵列语音增强系统进行增强。图3是本发明实施例提供的说话人识别方法中的麦克风阵列语音增强系统的应用环境的示意图。如图3所示，麦克风阵列语音增强系统应用的环境比较复杂，对目标源的直达信号造成的干扰包括:干扰源产生的干扰、背景噪声及目标源的反射信号等。
[0031]步骤120，提取所述音频数据的声纹特征。
[0032]其中，声纹(Voic印rint)是指能唯一识别某人或某物的声音特征，用电声学仪器显示的携带言语信息的声波频谱。声纹具有特定性和相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。基于声纹的这两个特征，侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹，通过声纹鉴定技术进行检验对比，迅速认定罪犯，为侦查破案

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王旭东;
技术所有人：北京锐安科技有限公司;
我是此专利的发明人

上一篇：一种数字音乐版权保护方法及装置的制造方法
上一篇：一种文件加密方法和电子设备的制造方法