一种电子设备及其基于声纹特征处理音频文件的方法

文档序号:9727503阅读:415来源:国知局
一种电子设备及其基于声纹特征处理音频文件的方法
【技术领域】
[0001]本发明涉及电子技术领域,具体涉及一种电子设备及其基于声纹特征处理音频文件的方法。
【背景技术】
[0002]现实生活中,很多时候需要录音或者录影,从而形成音频文件便于日后查看。比如某个连续剧正在热播的时候因为某些原因来不及看,或者是开会、学习培训、讨论等等,往往也需要录音或录影,日后抽时间查看或整理。
[0003]有些录音或录影文件,日后抽时间查看整理时,往往需要记录每个人的说话内容、对白的角色是谁等等。常规的都是通过回放录音或录影等音频文件,然后通过人为去听去识别每个人以及每个人的说话内容,再进行记录。比如针对某次讨论会,会后作为会议记录者可能会需要记录到会的所有人以及每个人的发言内容,以记录作为会议记录保存。但是现有的整理方式,需要耗费较多的人力时间,从而导致这样的分类记录效率不高且准确度不高,整理过程较为繁琐。

【发明内容】

[0004]本发明主要解决的技术问题是如何自动识别音频文件中的不同记录目标对象及其对应的音频内容并分类记录。本发明实施例提供一种电子设备及其基于声纹特征处理音频文件的方法,通过声纹特征识别,能够对音频文件进行自动识别特定目标对象,从而对特定目标对象的音频内容进行分类处理保存。
[0005]为解决上述技术问题,本发明采用的一个技术方案是:提供一种电子设备基于声纹特征处理音频文件的方法,所述方法包括:获取音频文件;对所述音频文件进行声音识别获取声纹特征;判断所述识别获取的声纹特征是否与预设目标对象的声纹特征匹配;若所述识别获取的声纹特征与预设目标对象的声纹特征匹配,从所述音频文件中提取与所述目标对象的声纹特征对应的音频内容,将所述音频内容独立于所述音频文件外保存。
[0006]其中,从所述音频文件中提取与所述目标对象的声纹特征对应的音频内容,将所述音频内容独立于所述音频文件外保存包括:从所述音频文件中以帧为单位逐一截取出与所述目标对象的声纹特征对应的音频内容,将截取出的音频内容合成子音频文件,独立于所述音频文件之外保存;或从所述音频文件中逐一截取出与所述目标对象的声纹特征对应的音频内容,将所述音频内容中的语音转换为文字形成文本文件,将所述文本文件独立于所述音频文件之外保存。
[0007]其中,所述方法还包括:采集目标对象的声音,从所述声音中提取出声纹特征并与所述目标对象的标识对应保存。
[0008]其中,所述方法还包括:获取所述目标对象的标识,将所述目标对象的标识写入所述目标对象的声纹特征对应的音频内容中。
[0009]其中,所述方法还包括:获取所述预设目标对象的标识,将所述预设目标对象的标识作为所述目标对象的声纹特征对应的音频内容保存的文件名。
[0010]为解决上述技术问题,本发明采用的另一个技术方案是:提供一种电子设备,所述电子设备包括获取模块、判断模块以及处理模块,其中:所述获取模块用于获取音频文件,对音频文件进行声音识别获取声纹特征;所述判断模块用于判断所述识别获取的声纹特征是否与预设目标对象的声纹特征匹配;所述处理模块用于在所述识别获取的声纹特征与预设目标对象的声纹特征匹配时,从所述音频文件中提取与所述目标对象的声纹特征对应的音频内容,将所述音频内容独立于所述音频文件外保存。
[0011 ]其中,所述处理模块用于从所述音频文件中以帧为单位逐一截取出与所述目标对象的声纹特征对应的音频内容,将截取出的音频内容合成子音频文件,独立于所述音频文件之外保存;或所述处理模块用于从所述音频文件中逐一截取出与所述目标对象的声纹特征对应的音频内容,将所述音频内容中的语音转换为文字形成文本文件,将所述文本文件独立于所述音频文件之外保存。
[0012]其中,所述电子设备还包括预存模块,所述预存模块用于采集目标对象的声音,从所述声音中提取出声纹特征并与所述目标对象的标识对应保存。
[0013]其中,所述获取模块还用于获取所述目标对象的标识;所述处理模块用于将所述目标对象的标识写入所述目标对象的声纹特征对应的音频内容中。
[0014]其中,所述获取模块还用于获取所述目标对象的标识;所述处理模块用于将所述目标对象的标识作为所述目标对象的声纹特征对应的音频内容保存的文件名。
[0015]本发明的有益效果是:区别于现有技术的情况,本发明获取音频文件,对音频文件进行声音识别获取声纹特征,在识别获取的声纹特征与预设目标对象的声纹特征匹配时,从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。通过这样的方式,能够对音频文件自动识别特定目标对象,并对音频文件中特定目标对象对应的音频内容进行提取,从而实现对音频文件的分类处理。
【附图说明】
[0016]图1是本发明实施例提供的一种电子设备基于声纹特征处理音频文件的方法的流程图;
[0017]图2是本发明实施例提供的一种电子设备的结构示意图;
[0018]图3是本发明实施例提供的另一种电子设备的结构示意图。
【具体实施方式】
[0019]请参阅图1,图1是本发明实施例提供的一种电子设备基于声纹特征处理音频文件的方法的流程图,如图所示,本实施例方法包括以下步骤:
[0020]S101:获取音频文件。
[0021]这里的音频文件,可以是预先存储在本地的或者从互联网下载的音频文件,也可以是当前现场录制的音频文件,比如会议现场录制的会议录音或者录影等等。
[0022]S102:对音频文件进行声音识别获取声纹特征。
[0023]本发明实施例中,具体是通过声纹特征识别来确定预定目标对象从而提取预定目标对象的音频内容的。所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。通过声纹可以辨认和确认不同的说话人。
[0024]声纹识别,也称为说话人识别,有两类,即说话人辨认和说话人确认。
[0025]本发明实施例是基于声纹特征来实现具体目标对象的确认的,因此通过预先设定需要识别的目标对象。具体来说,通过录制目标对象的声音,从声音中提取出对应的声纹特征并与目标对象的标识对应保存。也就是说,目标对象的标识与目标对象的声纹特征是一一对应的。另外,从声音中提取出对应的声纹特征,具体是指从声音中提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征,对于声纹特征的提取可以通过现有技术中所有特征提取的方式来实现,本发明实施例对此不再详细说明。
[0026]其中,目标对象可以是一个也可以是多个,目标对象的标识用于标识和区分目标对象,比如当存在多个目标对象时,可以通过每个目标对象的姓名或者特定的编号来区分不同的目标对象。
[0027]电子设备对获取的音频文件进行声音识别从而获取声纹特征。其中,对音频文件进行声音识别获取的声纹特征可能是一个,也可能是多个。比如当音频文件是会议讨论音频文件时,从音频文件中可能提取到多个与会人员的声纹特征。
[0028]在具体识别过程中,可以识别获取一个声纹特征即执行以下匹配及之后的步骤,完成后再返回识别获取另一个声纹特征然后再执行以下匹配及之后的步骤……以此类推,直至音频文件中的不同声纹特征都完成上述识别获取以及之后的步骤。或者可以通过一次性对音频文件进行声音识别而获取其中所有的声纹特征,然后逐一对每个声纹特征执行后续的匹配及之后的步骤。只要能过实现本发明的目的,本发明对具体的执行过程不做严格限定。
[0029]S103:判断识别获取的声纹特征是否与预设目标对象的声纹特征匹配。
[0030]对音频文件识别获取到声纹特征,将识别获取到的声纹特征与预设目标对象的声纹特征进行匹配。
[0031 ]当识别获取到的声纹特征为多个时,将识别获取的声纹特征分别逐一与预设目标对象进行对比匹配。
[0032]具体实现过程中,考虑到每个个体对象的声音可能在一定时间内发生变化,为了提高识别效果,可以预先设置匹配程度达到预定阈值即表示匹配成功,比如当前录音中提取的声纹特征与预设目标对象的声纹特征匹配度达到80%或以上,即表示匹配成功,否则,表示匹配不成功。
[0033]当存在多个预定目标对象以及当前音频文件中识别获取到的声纹特征也存在多个时,对所有识别获取到的声纹特征逐一与多
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1