基于声纹信息对音频/视频文件进行操作的方法及装置与流程

文档序号:11776322阅读:591来源:国知局
基于声纹信息对音频/视频文件进行操作的方法及装置与流程

本申请是2012年12月05日提交的名称为“基于声纹信息对音频/视频文件进行操作的方法及装置”的中国专利申请no.201210518118.4的分案申请。

本发明涉及移动设备通信应用领域,尤其涉及根据特定联系人声纹对终端设备音视频操作的方法及装置。



背景技术:

现有终端设备上的录音器或摄像器可以方便用户录制和拍摄音频和视频文件。随着终端设备的性能提高,存储容量增大,多媒体应用程序的种类增多等条件,用户很容易录制或拍摄大量的音频/视频文件。然而,面对着大量音频/视频文件,当用户需要查找所有录制有某个特定联系人的音频/视频文件,或查找和播放某个特定联系人在某个音频/视频文件中的某一段特定信息时,由于无法快速定位,会遇到无从查找的情况。只有一个一个文件的播放查看,才能得到所需文件或片段。

有鉴于此,需要提供一种快速查找和分类目标音频/视频文件,并定位特定联系人在该文件中出现时间点的方法和终端设备,以方便用户查找录制有特定人员声音和视频的文件。



技术实现要素:

为了解决上述技术问题,实现用户快速查找录制有特定人员声音或视频的文件。

本发明的目的之一在于提供一种基于声纹信息对音/视频文件进行操作的方法,包括如下步骤:采集发声目标的声纹信息;以及根据所述声纹信息搜索音/视频文件;其中,所述音/视频文件中的所有被录制的声音被分割为多个语音单元,每个语音单元只包含其中一个发声目标的语音,并记录所述发声目标在所述音/视频文件中的时间点。

本发明的另一目的在于提供一种终端设备,包括:声纹提取模块,用于采集发声目标的声纹信息;以及执行模块,用于根据所述声纹信息搜索音/视频文件;其中,所述音/视频文件中的所有被录制的声音被分割为多个语音单元,每个语音单元只包含其中一个发声目标的语音,并记录所述发声目标在所述音/视频文件中的时间点。

本发明提供的方法和装置,能够快速查找录制有特定人员声音或视频的文件,以提高用户的搜索效率。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施方法的描述中将变得明显和容易理解,其中:

图1示出了根据本发明一实施例的流程示意图;

图2示出了根据本发明的一实施例的终端设备进行音频采集之前的界面示意图;

图3示出了根据本发明实施例的音频采集的流程图;

图4示出了根据本发明的一实施例的终端设备进行音频采集时的界面示意图;

图5示出了搜索出录制的视频和音频文件后终端设备显示出在文件中标注有发声目标的声纹信息出现和/或结束的时间点的界面示意图;

图6示出了根据本发明的一实施例的通过终端设备查看联系人媒体库的流程图;

图7示出了根据本发明实施例的录制联系人声音的流程图;

图8示出了根据本发明一实施例的整体结构示意图;

图9示出了根据本发明一实施例的结构示意图。

具体实施方式

现在参照附图来具体描述本发明的示例性实施方法。然而,本发明可以用许多不同形式来实施并且不应该认为局限于这里阐述的具体实施方法;相反,提供这些实施方法是为了使本发明的公开彻底和完整,并向本领域技术人员完整地传达本发明的思想、观念、目的、构思、参考方案和保护范围。附图中示例的具体示例性实施方法的详细描述中使用的术语并不是为了限制本发明。附图中,相同标号指代相同要素。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

如图1所示,本发明提供了一种基于声纹信息对音/视频文件进行操作的方法,包括如下步骤:s1、采集发声目标的声纹信息;以及s2、根据声纹信息搜索音/视频文件。

例如,步骤s1通过如下方法实现:当联系人x1给用户y打电话时,终端设备开启内置录音器录制一段联系人x1单独讲话的语音(例如,录制的该讲话语音,时间长度7-10秒),并从中提取声纹信息;接着,停止通话后,终端设备根据录制的声纹信息生成说话人模型m1后,将该样本存入媒体库中;接着,终端设备将说话人模型对应通讯录中联系人x的名录。

例如,步骤s1还通过如下方法实现:当用户y带儿子x2去公园游玩时,终端设备在通讯录中儿子x2的记录中开启“录制声纹样本”选项并录制儿子x2的声纹信息;接着,停止录制后,终端设备根据录制的声纹信息生成说话人模型m2后,该样本存入终端存储器中;接着,终端设备将说话人模型对应媒体库中联系人x2的文件。当然,可以理解是,媒体库是存储多媒体文件集合的一种表述,也可以表述为文件夹、文件管理器、媒体管理器、视频管理器、音频管理器等等。如图5所示,当以后再遇到包括有说话人模型m1和m2的声纹信息,终端设备将这些视频和音频文件根据特定对象(例如,“我”和“儿子”)进行分类并标记。在分类存储之后,可以生成相应分类的主题栏、文件夹、媒体库等信息。

步骤s1还可以通过如下步骤实现:步骤s11、当选中通讯录应用程序中的一个发声目标(例如,张三)时,显示屏上提供录制声纹样本选项;步骤s12、当用户点击录制声纹样本选项后,终端设备采集声纹信息,并将根据声纹信息生成的说话人模型存储在联系人媒体库中;以及步骤s13、当进入联系人媒体库页面后,显示屏呈现出搜索到的音/视频文件。因此,采集发声目标的声纹信息包括:当选中某个发声目标时,采集声纹信息;以及存储采集的声纹信息。

图2示出了根据本发明的一实施例的终端设备进行音频采集之前的界面示意图。图3示出了根据本发明实施例的音频采集的流程图。音频采集流程包括如下步骤:步骤101:进入通讯录,打开电话簿上特定联系人。接着,步骤102:按“录制声纹样本”选项(如图2所示),录制联系人声音(即,采集联系人的声纹信息)。接着,步骤103:录制完成后,对联系人的声音进行建模,以生成说话人模型,并将说话人模型保存到联系人信息中。因此,采集和存储声纹信息包括:根据声纹信息生成说话人模型;以及将说话人模型存储在本地存储模块中。

图4示出了根据本发明一实施方式的建模过程。利用声纹信息识别说话人身份的技术可以称为说话人识别(speakerrecognition,sr),相应的模型可以称为说话人模型(speakermodel,sm)。说话人识别系统通常采用ubm-gmm的方法进行建模,即通过大量训练音频(不止一位说话人)训练一个通用背景模型(universalbackgroundmodel,ubm),然后在此ubm的基础上通过自适应的方法对特定的说话人进行建模,得到说话人模型(sm)。无论是通用背景模型还是说话人模型,通常都采用混合高斯模型(gaussianmixturemodel,gmm)结构。

图4示出了根据本发明的一实施例的终端设备进行音频采集时的界面示意图。例如,在终端设备录制声纹样本时通讯录联系人界面(如图4所示)下,点击添加录制声纹样本按钮就可以录制联系人声音。

进一步地,如图3所示,声纹识别流程包括如下步骤:步骤104:确定音/视频文件。接着,步骤105:对音/视频文件中的语音进行说话人分割,并生成n个语音单元,每个语音单元只包含单一的说话人语音。接着,步骤106:对分割出的每个语音单元(例如,n个语音单元)进行联系人声纹识别并判断是否匹配。接着,步骤107:如果识别结果是匹配的,则为终端设备建立一个联系人和本音/视频文件之间对应关系的数据库。进一步地,对应关系的数据库可以记录出现联系人声音的音/视频文件。进一步地,对应关系的数据库还可以记录联系人声音出现在音/视频文件中的时间点。也就是说,通过时间点映射音/视频出现在相应文件中的位置。

图6示出了根据本发明的一实施例的通过终端设备查看联系人媒体库的流程图。通过终端设备查看联系人媒体库的流程可以包括如下步骤:步骤201:打开媒体库,选择进入“联系人媒体库”菜单。接着,步骤202:开始读取联系人和音/视频文件关系数据库。接着,步骤203:读取完成后显示联系人及其对应媒体文件及时间点203。

图5示出了搜索出录制的视频和音频文件后终端设备显示出在文件中标注有发声目标的声纹信息出现和/或结束的时间点的界面示意图。例如,打开媒体库,选择进入“联系人媒体库”菜单,这时查看联系人媒体库的界面呈现给用户。界面上提供了经读取联系人和音/视频文件关系数据库后的各项信息。因此,根据声纹信息搜索音/视频文件包括:当打开本地存储模块时,显示音/视频文件。

进一步地,从图5所示的界面中可以看出,该实施方式的媒体库中有“儿子”和“我”两类媒体文件,其中:“儿子”文件的“六一儿童节”项目里有三个时间点,即3’45”、18’23”、45’34”。这三个时间点就是“六一儿童节”项目里出现“儿子”声音的时间点。例如,用户可以选择“3’45””,这时终端设备可以自动进去到“六一儿童节”项目中3分钟45秒时开始播放。因此,存储采集的声纹信息包括:根据说话人模型进行分类存储。进一步地,根据声纹信息搜索音/视频文件包括:当打开本地存储模块时,显示音/视频文件。进一步地,所述分类包括:根据说话人模型对音/视频文件进行分类显示。进一步地,所述显示包括:显示发声目标出现在音/视频文件中的时间点。进一步地,所述分类包括:根据发声目标的种类对音/视频文件进行分类搜索。进一步地,所述时间点包括:当选中分类显示中的时间点时,播放音/视频文件中含有的发声目标的音频/视频。

如图1-6所示,根据本发明的另一实施方式,当终端设备对音/视频文件根据特定联系人进行分类时,首先需要在通讯录模块中针对其重点联系人进行声纹的建模和存储。本发明在终端设备通讯录模块中,为每个联系人记录增加一个“声纹样本”字段,用于存储联系人的声纹样。具体操作方法为:用户新建或编辑其关注的重要联系人(例如“孩子”)。随后,录制一段该特定联系人(“孩子”)的音频(例如,录制正常讲话,时间长度7-10秒)。终端设备根据声音样本对该特定联系人(“孩子”)声纹进行建模,并保存到通讯录该联系人记录(“孩子”)的声纹样本字段中。接着,用户录制并保存在终端设备上的音/视频文件。本发明可以进行重要联系人声纹分析并根据联系人进行分类,标记联系人声音发生时间点的对象。接着,利用说话人分割技术将音/视频文件中的所有被录制的说话人的声音提取并分割为多个语音单元,每个语音单元只包含其中一个说话人的语音。接着,利用说话人模型对每个语音单元进行声纹识别。接着,对声纹识别后存放联系人和音/视频关系的数据库,用于记录联系人和音/视频文件的对应关系,及联系人声音在本音/视频文件中出现的时间点。本发明提到的声纹是指:用户声音的声波频谱即该用户声音的生物特征。通过声纹比较,移动终端可以找出存储的多媒体中的相应目标。因此,当发声目标为联系人应用程序中的某个联系人时,采集发声目标的声纹信息的方法包括:当与该联系人进行通话时,记录联系人的一段声音,该段声音时间长度7-10秒及以上且该段声音中只有该联系人的声音。使用该段声音提取声纹信息并生成声纹模板。进一步地,当发声目标为联系人应用程序中的某个联系人时,采集发声目标的声纹信息包括:当与该联系人进行通话时,记录联系人的声纹信息。进一步地,当发声目标为联系人应用程序中的某个联系人时,采集发声目标的声纹信息包括:用户手动录制该联系人语音,记录联系人的声纹信息。进一步地,当发声目标为联系人应用程序中的某个联系人时,搜索音/视频文件包括:当选中该联系人时,播放映射联系人的音/视频。

图7示出了根据本发明实施例的录制联系人声音的流程图。录制联系人声音的流程包括:步骤301:打开通讯录上某个联系人。接着,步骤302:判断是否是第一次录制。

当判断结果是第一次录制时,进入步骤303:开始录制。接着,步骤304:录制完成后保存本音频。接着,步骤305:对该音频进行声纹建模。接着,步骤306:保存声纹建模信息。接着,步骤307:用本声纹信息识别现有音/视频文件。接着,步骤308:将识别出的文件及时间点保存到联系人和音/视频关系数据库中。最后,步骤309:声纹录制工作结束。

当判断结果不是第一次录制时,则进入步骤310:进一步判断提示是否重新录制。如果需要重新录制,则进入步骤311:删除原来录音文件。删除原来录音文件后,则进入步骤303。随后依次执行上述步骤303至309。如果不需要重新录制,则不录制,过程结束(309)。

根据本发明的另一实施方式,一种基于声纹识别技术对终端设备上视频和音频进行分类和标识的方法,包括如下步骤之一:录制联系人声音以提前声纹信息。接着,将音/视频文件进行说话人分割,分割为多个语音单元,且每个语音单元只含有一个说话人的语音,对这些语音单元逐个进行声纹识别。接着,将识别结果保存到联系人和音/视频关系数据库中。当进入联系人媒体库时,或者当用户在终端设备任意媒体库或文件管理器中进行“根据联系人分类”或“根据联系人查找”操作时,或者在联系人应用程序中直接查看该联系人相关音视频时,读取联系人和音/视频的关系数据库并将他们的关系显示出来。本发明不仅可以以在媒体库中以某一菜单项的方式显示联系人和音/视频的关系,也可以在联系人或文件管理器中以菜单形式显示。

进一步地,根据本发明的另一实施方式,在终端设备媒体库、联系人管理器、文件管理器等应用程序中,选择“根据联系人分类”或“根据联系人查找”来进行音频、视频的分类显示和查找。进一步地,根据本发明的另一实施方式,可以在联系人应用程序中直接查看该联系人相关的音/视频。

因此,本发明提供的基于声纹信息对音/视频文件进行操作的方法能够根据特定联系人的声纹信息对音/视频文件进行分类。因此,当用户想找到包含有特定联系人的音/视频文件,不必一个一个文件的播放查看,而是直接通过媒体库、联系人管理器、文件管理器显示信息进行选择,从而方便用户查找含有特定人员声音或视频的文件。进一步地,本发明提供的基于声纹信息对音/视频文件进行操作的方法可以直接跳转到音/视频中某个联系人说话的时间节点进行播放,从而提供用户的搜索效率。

如图8所示,本发明的整体方案利用声纹信息识别说话人身份的技术可以称为说话人识别(speakerrecognition,sr),相应的模型可以称为说话人模型(speakermodel,sm)。说话人识别系统通常采用ubm-gmm的方法进行建模,即通过大量训练音频(不止一位说话人)训练一个通用背景模型(universalbackgroundmodel,ubm),然后在此ubm的基础上通过自适应的方法对特定的说话人进行建模,得到说话人模型(sm)。无论是通用背景模型还是说话人模型,通常都采用混合高斯模型(gaussianmixturemodel,gmm)结构。如图8所示,本发明提供的基于声纹信息对音/视频文件进行操作的方法可以包括:建模过程,识别过程。建模过程可以包括以下步骤:步骤1:训练音频;步骤2:静音检测;步骤3:语音分割;步骤4:特征提取;步骤5:根据通用背景模型进行交叉自适应;步骤6:生成说话人模型;步骤7:基于假冒者音频进行z-norm处理;步骤8:归一化说话人模型。识别过程可以包括以下步骤:步骤1:检测待识别音频;步骤2:静音检测;步骤3:语音分割;步骤4:特征提取;步骤5:根据归一化说话人模型进行得分计算;步骤6:基于假冒者音频进行t-norm处理;步骤7:判决;步骤8:输出识别结果。其中:归一化说话人模型和假冒者模型组成说话人模型。根据本发明的一实施方式,说话人模型的建模过程可以大致描述为以下几个阶段:1、特征提取阶段:利用静音检测技术(voiceactivitydetection,vad),将有效的语音从输入音频中检测出来,并根据语音间的静音长度将输入音频分割成若干句语音,然后从分割出来的每一句语音提取说话人识别所需要的语音特征;2、ubm建模阶段:利用从训练音频提取的大量语音特征,计算通用背景模型(ubm);3、sm建模阶段:利用通用背景模型和少量特定说话人的语音特征,通过自适应方法计算该说话人的模型(sm);4、sm归一化阶段:为了增强说话人模型的抗干扰能力,完成说话人模型建模以后,经常利用一些假冒说话人的语音特征对说话人模型进行归一化(normalization)操作,最终得到归一化后的说话人模型(normalizedsm)。根据本发明的一实施方式,说话人识别的识别过程可以大致描述为以下几个阶段:1、特征提取阶段:此阶段与建模过程的特征提取阶段相同;2、得分计算阶段:利用说话人模型,计算输入语音特征的得分;3、得分归一化阶段:利用归一化的说话人模型,对上一步得到的得分进行归一化,并做出最终判决。进一步而言,在上文所描述的建模和识别过程中,部分步骤可以有不同的实现方法:1、特征提取阶段的静音检测技术:本申请采用的方法是首先利用输入音频的能量信息和基频信息,将静音与非静音区分出来,再利用一个支持向量机(supportvectormachine,svm)模型将非静音部分的语音和非语音区分出来。确定了语音的部分,就可以根据语音段之间的间隔长度,将输入音频分成若干句语音;2、利用通用背景模型计算说话人模型的自适应方法:本申请采用的是本征音(eigenvoice)方法,约束最大似然线性回归(constrainedmaximumlikelihoodlinearregression,cmllr)方法以及结构化最大后验概率(structuredmaximumaposterior,smap)方法相结合的方法;3、说话人模型归一化方法:本申请采用的是z-norm方法;4、得分归一化方法:本申请采用的是t-norm方法。z-norm和t-norm方法相结合的归一化方法是目前在说话人识别技术中最流行的归一化方法,前者用于建模阶段,后者用于识别阶段。

如图9所示,本发明的另一目的在于提供一种终端设备,包括:声纹提取模块,用于采集发声目标的声纹信息;以及执行模块,用于根据声纹信息搜索音/视频文件。

进一步地,声纹提取模块包括:声纹信息采集单元,用于在选中某个发声目标时采集声纹信息;声纹样本生成单元,用于根据声纹信息生成说话人模型。

进一步地,装置还包括:存储模块,用于存储采集的声纹信息。

进一步地,存储模块还用于:存储声纹模板样。

进一步地,声纹提取模块包括:目标分类单元,根据说话人模型进行分类存储。

进一步地,装置还包括:显示器,当打开本地存储模块时,显示音/视频文件。

进一步地,显示器用于:根据目标分类单元基于发声目标的种类对音/视频文件进行分类显示。

进一步地,显示器用于:显示发声目标出现在音/视频文件中的时间点。

进一步地,目标分类单元还用于:根据发声目标的种类对音/视频文件进行分类搜索。

进一步地,执行模块还用于:当选中分类显示中的时间点时,播放音/视频文件中含有的发声目标的音频/视频。

进一步地,当发声目标为联系人应用程序中的某个联系人时,声纹提取模块用于:当与该联系人进行通话时,记录联系人的声纹信息。

进一步地,当发声目标为联系人应用程序中的某个联系人时,声纹提取模块用于:用户手动录制该联系人语音,记录联系人的声纹信息。

进一步地,当发声目标为联系人应用程序中的某个联系人时,执行模块还用于:当选中该联系人时,播放映射联系人的音/视频。

本发明提供的方法和装置,能够快速查找录制有特定人员声音或视频的文件,以提高用户的搜索效率。

本技术领域技术人员可以理解,本发明可以涉及用于执行本申请中所述操作中的一项或多项操作的设备。所述设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备,所述通用计算机有存储在其内的程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、随即存储器(ram)、只读存储器(rom)、电可编程rom、电可擦rom(eprom)、电可擦除可编程rom(eeprom)、闪存、磁性卡片或光线卡片。可读介质包括用于以由设备(例如,计算机)可读的形式存储或传输信息的任何机构。例如,可读介质包括随即存储器(ram)、只读存储器(rom)、磁盘存储介质、光学存储介质、闪存装置、以电的、光的、声的或其他的形式传播的信号(例如载波、红外信号、数字信号)等。

本技术领域技术人员可以理解,上面参照根据本发明的实施方法的方法、方法、系统以及计算机程序产品的结构图和/或框图和/或流图对本发明进行了描述。应该理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步而言,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步而言,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

附图和说明书中公开了本发明的示例性实施方法。尽管采用了特定术语,但是它们仅用于一般以及描述的意义,而并不是出于限制的目的。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本发明的保护范围应以本发明的权利要求书来限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1