基于声纹识别的录音文件分离方法及装置的制造方法

文档序号：9930283阅读：875来源：国知局

基于声纹识别的录音文件分离方法及装置的制造方法
【技术领域】
[0001]本发明涉及录音技术领域，尤其涉及一种基于声纹识别的录音文件分离方法及装置。
【背景技术】
[0002]目前，使用手机等移动终端进行录音，所记录的声音数据非常多且复杂，例如，对于会议录音，通常包含多个会议参与人的声音数据，在回顾会议内容或进行会议记要工作时，需要听取录音文件，但由于参与会议的人较多，可能无法听清录音内容，给用户的工作生活带来不便。

【发明内容】

[0003]有鉴于此，本发明实施例期望提供一种基于声纹识别的录音文件分离方法及装置，以使得用户可以从录制文件中听到清晰的录音内容，方便用户的工作生活。
[0004]本发明的实施例一方面提供了一种基于声纹识别的录音文件分离装置，所述装置包括:声纹提取模块、对比模块和编码存储模块；
[0005]其中，所述声纹提取模块，用于提取录音信号中的声纹特征数据；
[0006]所述对比模块，用于将所述声纹特征数据与预设语音模型进行对比；
[0007]所述编码存储模块，用于根据所述对比模块的对比结果，对与相同的声纹特征数据对应的录音信号单体进行单独编码，存储为单独的声音文件。
[0008]可选的，所述声纹提取模块具体用于:
[0009]通过小波变换技术，提取所述录音信号中如下声纹特征数据:基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹、线性预测倒谱、线谱对、自相关和对数面积比、Mel频率倒谱系数MFCC、感知线性预测。
[0010]可选的，所述预设语音模型包括以下至少一项:矢量化模型、随机模型和神经网络模型。
[0011 ]可选的，所述编码存储模块具体用于:
[0012]将与相同的声纹特征数据对应的录音信号单体进行加强放大处理;对经过加强放大处理后的录音信号单体进行单独编码。
[0013]可选的，所述装置还包括降噪模块，用于对采集到的音频信号进行降噪处理，得到所述录音信号。
[0014]本发明的实施例另一方面提供了一种基于声纹识别的录音文件分离方法，所述方法包括:
[0015]提取录音信号中的声纹特征数据；
[0016]将所述声纹特征数据与预设语音模型进行对比；
[0017]根据对比结果，对与相同的声纹特征数据对应的录音信号单体进行单独编码，存储为单独的声音文件。
[0018]可选的，所述提取录音信号中的声纹特征数据，包括:
[0019]通过小波变换技术，提取所述录音信号中如下声纹特征数据:基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹、线性预测倒谱、线谱对、自相关和对数面积比、Mel频率倒谱系数MFCC、感知线性预测。
[0020]可选的，所述预设语音模型包括以下至少一项:矢量化模型、随机模型和神经网络模型。
[0021]可选的，所述对与相同的声纹特征数据对应的录音信号单体进行单独编码，包括:
[0022]将与相同的声纹特征数据对应的录音信号单体进行加强放大处理；
[0023]对经过加强放大处理后的录音信号单体进行单独编码。
[0024]可选的，所述提取录音信号中的声纹特征数据之前，所述方法还包括:
[0025]对采集到的音频信号进行降噪处理，得到所述录音信号。
[0026]本发明实施例所提供的一种基于声纹识别的录音文件分离方法及装置，基于声纹识别的录音文件分离装置提取录音信号中的声纹特征数据;将所述声纹特征数据与预设语音模型进行对比；根据对比结果，对与相同的声纹特征数据对应的录音信号单体进行单独编码，存储为单独的声音文件。如此，在录制的声音数据多且复杂时，通过将不同的声音分离开并单独存储，使得用户可以听到清晰的录音内容，方便用户的工作生活。
【附图说明】
[0027]图1为实现本发明实施例的一种可选的移动终端的硬件结构示意图；
[0028]图2为本发明实施例提供的移动终端能够操作的通信系统结构示意图；
[0029]图3为本发明实施例提供的基于声纹识别的录音文件分离装置的结构示意图；
[0030]图4为本发明实施例提供的基于声纹识别的录音文件分离方法的流程图。
【具体实施方式】
[0031]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。
[0032]现在将参考附图1来描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。
[0033]移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。
[0034]图1为实现本发明各个实施例一种可选的移动终端的硬件结构示意图。
[0035]移动终端100可以包括无线通信单元110、音频/视频(A/V)输入单元120、用户输入单元130、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件，可以替代地实施更多或更少的组件，将在下面详细描述移动终端的元件。
[0036]无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。
[0037]移动通信模块112将无线电信号发送到基站(例如，接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
[0038]无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(W1-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。
[0039]短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。
[0040]位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块115的典型示例是GPS(全球定位系统)。根据当前的技术，GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法，从而根据经度、玮度和高度准确地计算三维当前位置信息。当前，用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外，GPS模块115能够通过实时地连续计算当前位置信息来计算速度信息。
[0041]A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风122，相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送，可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风122接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
[0042]用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖娟娟;
技术所有人：努比亚技术有限公司;
我是此专利的发明人

上一篇：一种基于量化特性的语音篡改定位检测方法
上一篇：车载语音识别系统的制作方法