一种语音处理的方法及终端的制作方法

文档序号:10612889阅读:399来源:国知局
一种语音处理的方法及终端的制作方法
【专利摘要】本发明实施例提供了一种语音处理的方法,所述方法包括:获取待处理音频数据;提取所述待处理音频数据的声纹信息;根据所述声纹信息从预设音频数据库中匹配出目标身份标识,其中,所述预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标识;根据所述目标身份标识对所述待处理音频数据进行标记。本发明实施例还提供了一种终端。通过本发明实施例可以提高音频标记的效率。
【专利说明】
一种语音处理的方法及终端
技术领域
[0001 ]本发明涉及多媒体技术领域,具体涉及一种语音处理的方法及终端。【背景技术】
[0002]目前,用户在进行通话或者会议过程中,常常会使用终端(如手机、平板电脑等等) 进行录音,以记录重要信息,即通过使用终端中的音频功能在通话中或者会议等场景中记录重要信息,方便通话结束或者会议结束后进行整理。但是,现有技术中,只能人为对录音进行处理,例如,对于录音结束后,对录音得到的音频进行整理,对需用户对录音中的人物的身份加以标记,则用户需一一认真听录音在各个时间点的内容进行甄别,并挑选出需要的讲话内容,该标记方式效率较低。
【发明内容】

[0003]本发明实施例提供了一种语音处理的方法及终端,可以提高音频标记的效率。
[0004]本发明实施例第一方面提供了一种语音处理的方法,包括:
[0005]获取待处理音频数据;
[0006]提取所述待处理音频数据的声纹信息;
[0007]根据所述声纹信息从预设音频数据库中匹配出目标身份标识,其中,所述预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标识;
[0008]根据所述目标身份标识对所述待处理音频数据进行标记。
[0009]本发明实施例第二方面提供了一种终端,包括:
[0010]获取单元,用于获取待处理音频数据;
[0011]提取单元,用于提取所述获取单元获取的所述待处理音频数据的声纹信息;
[0012]匹配单元,用于根据所述提取单元提取的所述声纹信息从预设音频数据库中匹配出目标身份标识,其中,所述预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标识;
[0013]第一标记单元,用于根据所述匹配单元匹配的所述目标身份标识对所述待处理音频数据进行标记。
[0014]实施本发明实施例,具有如下有益效果:
[0015]通过本发明实施例,终端在获取待处理音频数据,并提取该待处理音频数据的声纹信息,由于终端中已存储预设音频数据库,且该预设音频数据库中包含多个声纹信息,每个声纹信息对应一个身份标识,从而,可根据该声纹信息从预设音频数据库中匹配出目标身份标识,并根据该目标身份标识对该待处理音频数据进行标记。因此,可提高对待处理音频数据进行标记的效率。【附图说明】
[0016]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本发明实施例提供的一种语音处理的方法的第一实施例流程示意图;
[0018]图2是本发明实施例提供的一种语音处理的方法的第二实施例流程示意图;
[0019]图2a是本发明实施例提供的一种待处理音频数据标记的示意图;[〇〇2〇]图3是本发明实施例提供的一种语音处理的方法的第三实施例流程示意图;[0021 ]图4a是本发明实施例提供的一种终端的第一实施例结构示意图;[〇〇22]图4b是本发明实施例提供的一种终端的第一实施例又一结构示意图;[〇〇23]图4c是本发明实施例提供的一种终端的第一实施例又一结构示意图;
[0024]图5是本发明实施例提供的一种终端的第二实施例结构示意图。【具体实施方式】[〇〇25]本发明实施例提供了一种语音处理的方法及终端,可以提高音频标记的效率。
[0026]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[〇〇27] 本发明实施例所描述的终端可以包括智能手机(如Android手机、1S手机、 Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备(MID,Mobile Internet Devices)或穿戴式设备等,上述终端仅是举例,而非穷举,包含但不限于上述终端。[〇〇28]需要说明的是,现有技术中,声纹(Voiceprint)信息,是用电声学仪器显示的携带言语信息的声波频谱。声纹信息不仅具有特定性,而且有相对稳定性的特点。人在成年后, 声音可保持长期相对稳定不变。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不相同。在刑事侦查中,基于声纹的这两个特征,侦查人员可将获取的犯罪分子的声纹和嫌疑人的声纹进行比对,迅速认定罪犯。因而,本发明实施例中依据声纹信息的特性对待处理音频进行标记。[〇〇29]请参阅图1,为本发明实施例提供的一种语音处理的方法的第一实施例流程示意图。本实施例中所描述的语音处理的方法,包括以下步骤:
[0030]101、获取待处理音频数据。
[0031]本发明实施例中,待处理音频数据可为已经录好的音频数据,或者正在进行录音的音频数据。终端可读取待处理音频数据,即待处理音频数据可为正在进行录音过程中采集到的音频数据。进一步地,该待处理音频数据可为终端中原有的保存的一段音频,或者, 聊天软件中的音频(如微信、QQ中的音频),或者,视频中的音频等等。
[0032]在实施步骤101之前,终端可设置预设音频数据库,具体方法可为,终端可对至少一个用户进行录音,从而,获取该至少一个用户的声纹信息,并对该至少一个用户的声纹信息分别设置一个身份标识,其中,一个用户的声音对应一个声纹信息,每个声纹信息可设置一个身份标识。例如,A的声纹信息,那么,该身份标识可为A,B的声纹信息,那么,该身份标识可为B,C的声纹信息,那么,该身份标识可为C等等。可选地,若在设置预设音频数据库的过程中,已经设置好A的身份标识,那么,当再次用A的声纹信息设置身份标识时,则提示用户该A的声纹信息已被设置身份标识。[〇〇33]102、提取所述待处理音频数据的声纹信息。[〇〇34]本发明实施例中,终端可对待处理音频数据进行频谱分析,从而,提取该待处理数据的声纹信息。在待处理音频数据为已经录好的音频数据时,在对待处理音频数据进行处理的过程中,该待处理音频数据中可能包含多个声纹信息,如,一段待处理音频数据,前面一个片段的音频数据为A的声音,中间一个片段的音频数据为B的声音,后一个片段的音频数据为C的声音,那么,可提取该待处理音频数据中的3个声纹信息,S卩A的声纹信息,B的声纹信息和C的声纹信息。在待处理音频数据可为正在进行音频过程中采集到的音频数据时, 终端可提取正在进行音频的待处理音频数据的声纹信息,若该正在音频的待处理音频数据中有多个人的声音,那么,可提取该多个人的声纹信息,若该正在音频的待处理音频数据中有1个人的声音,那么,可提取该人的声纹信息。[〇〇35]可选地,在待处理音频数据中包含多个声纹信息时,终端可提取该待处理音频数据中音调最高的声音的声纹信息。其中,该多个声纹信息对应多个不同的人的说话的声音, 那么,在不同的声音中,音调也有高有低,因而,终端可提取音调最高的声音对应的声纹信息,或者,终端可提取音调最低的声音对应的声纹信息,或者,终端可提取音调处于某个音调范围的声音,例如,50?80美(mel)、或者,大于100美等等。[〇〇36]进一步可选地,在待处理音频数据中包含多个声纹信息时,终端还可提取待处理音频数据中频率最高的声音的声纹信息。由于不同的人的话,声音的频率有高有低。那么, 终端可提取频率最高的声音对应的声纹信息,或者,终端可提取频率最低的声音对应的声纹信息,或者,终端可提取频率处于某个音调范围的声音,例如,500?800赫兹(Hz)、或者, 大于1000Hz等等。[〇〇37]进一步可选地,在待处理音频数据中包含多个声纹信息时,终端还可提取待处理音频数据中音色符合预设要求的声音的声纹信息。例如,提取待处理音频数据中符合儿童声音特性的音色对应的声音的声纹信息,或者,提取待处理音频数据中符合女性声音特征的音色对应的声音的声纹信息,或者,提取待处理音频数据中符合男性声音特性的音色对应的声纹信息等等。[〇〇38]进一步地,在待处理音频数据中包含多个声纹信息时,终端可提取该待处理音频数据中音调处于第一预设范围且频率处于第二预设范围的声纹信息。[〇〇39]进一步可选地,在待处理音频数据中包含多个声纹信息时,终端可提取该待处理音频数据中音调处于第一预设范围且音色符合预设要求的声音的声纹信息。
[0040]进一步可选地,在待处理音频数据中包含多个声纹信息时,终端可提取该待处理音频数据中频率处于第二预设范围且音色符合预设要求的声音的声纹信息。
[0041]进一步地,在待处理音频数据中包含多个声纹信息时,终端可提取该待处理音频数据中音调处于第一预设范围且频率处于第二预设范围,同时,音色符合预设要求的声音的声纹信息。
[0042]可选地,若待处理音频数据中含有其他噪声,那么在提取该待处理音频数据的声纹信息之前,可对该待处理音频数据进行去噪,以滤除掉除了声纹信息以外的的其他声音,进一步地,若滤除过后的待处理音频数据中仍然含有其他噪声,例如,待处理音频数据为开会时候录制中,其中,包含某个领导的讲话,该领导在讲话时,下面有人正在窃窃私语,且该窃窃私语的声音刚好录入待处理音频数据,那么,可设置音调的阈值,从而,通过该阈值对该窃窃私语的声音进行去噪。进一步地,若待处理音频数据中含有其他的杂音,例如,含有待处理音频数据中有关于背景音乐的数据,即待处理音频数据在某人在唱歌过程中录入的,那么,该待处理音频数据中不仅有该某人唱歌时候的声音,还可能有伴唱的声音,那么, 此时,则可对该待处理音频数据进行去噪,以滤除掉除了该某人声音以外的其他声音。
[0043]103、根据所述声纹信息从预设音频数据库中匹配出目标身份标识,其中,所述预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标识。
[0044]本发明实施例中,由于预设音频数据库中包含多个声纹信息,且每一声纹信息对应一个身份标识,因而,终端可依据待处理音频数据中的声纹信息从预设数据库中匹配出与之对应的目标声纹信息,然后,根据该目标声纹信息确定该目标声纹信息对应的身份标识。
[0045]可选地,终端分别将待处理音频数据中的声纹信息与预设音频数据库中的多个声纹信息进行匹配,以得到与该待处理音频数据中的声纹信息相匹配的目标声纹信息,其中, 预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标识,从而,可确定与该目标声纹信息对应的目标身份标识。具体地,终端可分别将声纹信息与预设音频数据库中的多个声纹信息进行匹配,若该预设音频数据库中存在一个声纹信息与待处理音频数据中的声纹信息匹配成功,那么,可将预设音频数据库中与待处理音频数据中的声纹信息匹配成功的声纹信息作为目标声纹信息。由于预设音频数据库中,每一声纹信息对应一个身份标识,那么,终端可根据目标声纹信息确定与该目标声纹信息对应的一个身份标识作为目标身份标识。
[0046]104、根据所述目标身份标识对所述待处理音频数据进行标记。[〇〇47]本发明实施例中,终端在识别出待处理音频数据中包含的声纹信息,那么,可根据该声纹信息对待处理音频数据进行标记。终端可确定待处理音频数据中声纹信息的起始时刻和结束时刻,那么,根据该起始时刻和结束时刻对应在待处理音频数据中的音频片段标记为目标身份标识。进一步地,若待处理音频数据中的空白片段(即待处理音频数据中有一段时间没有录入用户的声音),那么,若该空白片段的持续时间小于预设阈值,终端可忽略掉该空白片段。若该空白片段的持续时间大于或等于预设阈值,终端可标记该空白片段。 [〇〇48]以包含某个领导讲话的待处理音频数据为例进行说明,在某个领导在讲过过程中,每句话之间有短暂的停顿,那么,只要停顿的时间在允许时间内,可认为该领导说话是连续的,那么,可根据该领导的声纹信息确定该领导讲话的起始时刻和结束时刻,将待处理音频数据中该领导的音频片段标记为目标身份标识。若停顿的时间过长,那么,标记该停顿的时间为空白片段。若该领导讲话时间较长,中间若有段时间停顿时间过长,例如,按照时间顺序,将该领导的讲话分为3段,即时间段A,时间段B为停顿的时间(即空白片段的持续时间大于或等于预设阈值),时间段C,那么,在对待处理音频数据进行标记的过程中,时间段A 所对应的音频片段被标记为该领导的身份标识,时间段C所对应的音频片段也被标记为该领导的身份标识。[〇〇49]通过本发明实施例,终端在获取待处理音频数据,并提取该待处理音频数据的声纹信息,由于终端中已存储预设音频数据库,且该预设音频数据库中包含多个声纹信息,每个声纹信息对应一个身份标识,从而,可根据该声纹信息从预设音频数据库中匹配出目标身份标识,并根据该目标身份标识对该待处理音频数据进行标记。因此,可提高对待处理音频数据进行标记的效率。
[0050]请参阅图2,为本发明实施例提供的一种语音处理的方法的第二实施例流程示意图。本实施例中所描述的语音处理的方法,包括以下步骤:[0051 ]201、获取待处理音频数据。[〇〇52]202、提取所述待处理音频数据的声纹信息。[〇〇53]203、根据所述声纹信息从预设音频数据库中匹配出目标身份标识,其中,所述预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标识。[〇〇54]本发明实施例中,步骤201-步骤203的具体描述,可参照图1中所描述的实施例步骤101-步骤103。
[0055]204、确定所述声纹信息所表示的声音在所述待处理音频数据中的起始时刻和结束时刻。[〇〇56]本发明实施例中,终端可根据声纹信息获取该声纹信息所表示的声音在待处理音频数据的起始时刻和结束时刻。由于声纹信息的特性,那么,可检测该声纹信息在待处理音频数据中的持续时间,即由某个时刻开始到某个时刻结束。[〇〇57]205、将所述起始时刻和所述结束时刻之间对应在所述待处理音频数据的音频片段标记为所述目标身份标识。
[0058]本发明实施例中,终端可根据起始时刻和结束时刻确定一个时间段,该时间段即为包含待处理音频数据中的声纹信息的音频片段,那么,将该起始时刻和结束时刻之间的时间段对应的音频片段标记为目标身份标识。如图2a所示,图2a中显示为一段待处理音频数据,其中,确定某个声纹信息的起始时刻和结束时刻,将该起始时刻和结束时刻之间的音频片段标记为张三。[〇〇59]206、将所述标记后的所述待处理音频数据按照时间顺序转换为文字数据。
[0060]本发明实施例中,终端可将标记后的待处理音频数据转换为文字数据,可选地,该文字数据的类型可为中文文字,或者,其他国家或者地区的文字。[0061 ]可选地,终端还可将标记后的待处理音频数据转化为其他形式的语音数据,例如, 若待处理音频数据为汉语,那么,可将标记后的待处理音频数据转化为英语的音频数据,或者。或者,若待处理音频数据为普通话,那么,可将标记后的待处理音频数据转化为地方方言(如重庆话、广东话、武汉话等等)的音频数据。[〇〇62]207、将所述文字数据按照所述时间顺序在显示屏上进行显示,并将所述目标身份标识显示在所述文字数据的目标位置,其中,所述目标位置为所述目标身份标识所标记的音频片段的起始时刻对应在所述文字数据中的位置。[〇〇63] 本发明实施例中,终端可将上述文字数据按照时间顺序在显示屏上进行显示,同时,在目标位置显示该目标身份标识,例如,在标记的待处理音频数据中将目标身份标识标记在目标声纹信息对应的声音的音频片段的起始时刻,那么,按照时间顺序将标记后的待处理音频数据转换为文字,也可在该起始时刻将该目标身份标识转换为文字,可选地,还可以隐藏该目标身份标识。例如,A说“How are you?”,B说“Fine,thanks”,那么,转换成为文字则是:A:How are you?B:Fine,thanks。即在A说话的起始时刻显示A的身份标识,同理,在 B说话的起始时刻显示B的身份标识。可选地,还可以将A或者B说话时候的英文翻译成中文或者其他国家或者地区的语言,这样,可扩大本实施例中所描述的方法的使用范围。[〇〇64]通过本发明实施例,终端在获取待处理音频数据,并提取该待处理音频数据的声纹信息,由于终端中已存储预设音频数据库,且该预设音频数据库中包含多个声纹信息,每个声纹信息对应一个身份标识,从而,可根据该声纹信息从预设音频数据库中匹配出目标身份标识,并根据该目标身份标识对该待处理音频数据进行标记,并可将标记后的待处理音频数据转化为文字,且显示该文字和目标身份标识。因此,可提高对待处理音频数据进行标记的效率,并且可方便用户对待处理音频数据进行整理。[〇〇65]请参阅图3,为本发明实施例提供的一种语音处理的方法的第三实施例流程示意图。本实施例中所描述的语音处理的方法,包括以下步骤:[〇〇66]301、获取待处理音频数据。[〇〇67]302、提取所述待处理音频数据的声纹信息。
[0068]303、根据所述声纹信息从预设音频数据库中匹配出目标身份标识,其中,所述预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标识。[〇〇69]304、根据所述目标身份标识对所述待处理音频数据进行标记。
[0070]本发明实施例中,步骤301-步骤304的具体描述,可参照图1中所描述的实施例步骤101-步骤104。[〇〇71]305、根据所述目标身份标识对所述标记后的所述待处理音频数据进行剪切。
[0072]本发明实施例中,终端可根据目标身份标识对标记后的待处理音频数据进行剪切,从而,可得到与该目标身份标识对应的音频片段,即剪切出被标记为目标身份标识的音频片段。[〇〇73]306、将所述剪切后包含所述目标身份标识的音频片段进行拼接。
[0074]本发明实施例中,终端可将包含目标身份标识对应的音频片段按照时间顺序进行拼接。[〇〇75]可选地,若标记后的待处理音频数据包含多个目标身份标识,那么,终端可根据该多个目标身份标识对标记后的待处理音频数据进行剪切,并将剪切后的包含该多个目标身份标识中的任一身份标识的待处理音频数据进行拼接。
[0076]例如,在某次会议中,录下的一段待处理音频数据,其中,包含张某某的讲话内容, 且该张某某是多次讲话,那么,终端可根据张某某的声纹信息从待处理音频数据中确定与该声音信息对应的目标身份标识,并根据该目标身份标识对待处理音频数据进行标记。其中,标记过程可如下,将检测到的张某某声音的声纹信息的起始时刻和结束时刻标记为目标身份标识,从而,可根据目标身份标识对标记后的待处理音频数据进行剪切,以得到包含目标身份标识对应的至少一个音频片段,其中,每一音频片段均包含一个起始时刻和结束时刻,那么,可按照时间先后顺序,将包含目标身份标识对应的音频片段进行拼接,那么,拼接后得到的一个音频片段中就只包含目标身份标识的音频片段,或者,拼接后的音频片段就只包含张某某的声音信息的音频片段。[〇〇77]通过本发明实施例,终端在获取待处理音频数据,并提取该待处理音频数据的声纹信息,由于终端中已存储预设音频数据库,且该预设音频数据库中包含多个声纹信息,每个声纹信息对应一个身份标识,从而,可根据该声纹信息从预设音频数据库中匹配出目标身份标识,并根据该目标身份标识对该待处理音频数据进行标记,根据目标身份标识对待处理音频数据进行剪切,并拼接包含目标身份标识的音频片段。因而,一方面,可提高对待处理音频数据进行标记的效率,另一方面,可从待处理音频数据中快速提取用户感兴趣的人的讲话内容。
[0078]请参阅图4a,为本发明实施例提供的一种终端的第一实施例流程示意图。本实施例中所描述的终端,包括:[〇〇79]获取单元401,用于获取待处理音频数据。[〇〇8〇]提取单元402,用于提取所述获取单元401获取的所述待处理音频数据的声纹信息。
[0081]匹配单元403,用于根据所述提取单元402提取的所述声纹信息从预设音频数据库中匹配出目标身份标识,其中,所述预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标识。[〇〇82]第一标记单元404,用于根据所述匹配单元403匹配的所述目标身份标识对所述待处理音频数据进行标记。[〇〇83]在一些可行的实施例中,在所述待处理音频数据中包含多个声纹信息时,所述提取单元402具体用于:
[0084]提取所述待处理音频数据中音调最高的声音的声纹信息。[〇〇85]可选地,在一些可行的实施例中,在所述待处理音频数据中包含多个声纹信息时, 提取所述待处理音频数据中频率最高的声音的声纹信息。[〇〇86]可选地,在一些可行的实施例中,在所述待处理音频数据中包含多个声纹信息时, 提取所述待处理音频数据中音色符合预设要求的声音的声纹信息。[〇〇87] 可选地,所述第一标记单元404包括:[〇〇88]确定单元4041,用于确定所述提取单元402提取的所述声纹信息所表示的声音在所述待处理音频数据中的起始时刻和结束时刻。[〇〇89] 第二标记单元4042,用于将所述确定单元4041确定的所述起始时刻和所述结束时刻之间对应在所述待处理音频数据的音频片段标记为所述目标身份标识。
[0090]作为一种可能的实施方式,如图4b所示,图4a中所描述的终端还可包括:[0〇91 ]转换单元405,用于所述第二标记单元4042将所述确定单元4041确定的所述起始时刻和所述结束时刻之间对应在所述待处理音频数据的音频片段标记为所述目标身份标识之后,将所述标记后的所述待处理音频数据按照时间顺序转换为文字数据。[〇〇92]显示单元406,用于将所述转换单元405转换的所述文字数据按照所述时间顺序在显示屏上进行显示,并将所述目标身份标识显示在所述文字数据的目标位置,其中,所述目标位置为所述目标身份标识所标记的音频片段的起始时刻对应在所述文字数据中的位置。 [〇〇93]作为一种可能的实施方式,如图4c所示,图4a中所描述的终端还可包括:[〇〇94]剪切单元407,用于根据所述第一标记单元404根据所述目标身份标识对所述待处理音频数据进行标记之后,根据所述目标身份标识对所述标记后的所述待处理音频数据进行剪切。[〇〇95]拼接单元408,用于将所述剪切单元407剪切后包含所述目标身份标识的音频片段进行拼接。
[0096]通过本发明实施例所描述的终端可在获取待处理音频数据,并提取该待处理音频数据的声纹信息,由于终端中已存储预设音频数据库,且该预设音频数据库中包含多个声纹信息,每个声纹信息对应一个身份标识,从而,可根据该声纹信息从预设音频数据库中匹配出目标身份标识,并根据该目标身份标识对该待处理音频数据进行标记。因此,可提高对待处理音频数据进行标记的效率。
[0097]请参阅图5,为本发明实施例提供的一种终端的第二实施例结构示意图。本实施例中所描述的终端,包括:至少一个输入设备1000;至少一个输出设备2000;至少一个处理器 3000,例如CPU;和存储器4000,上述输入设备1000、输出设备2000、处理器3000和存储器 4000通过总线5000连接。[〇〇98]其中,上述输入设备1000具体可为触控面板、物理按键或者鼠标等等。[〇〇99] 上述输出设备2000具体可为显示屏。[〇1〇〇] 上述存储器4000可以是高速RAM存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。上述存储器4000用于存储一组程序代码,上述输入设备1000、输出设备2000和处理器3000用于调用存储器4000中存储的程序代码,执行如下操作:[〇1〇1] 上述处理器3000,用于:[〇1〇2]获取待处理音频数据;[〇1〇3]提取所述待处理音频数据的声纹信息;
[0104]根据所述声纹信息从预设音频数据库中匹配出目标身份标识,其中,所述预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标识;
[0105]根据所述目标身份标识对所述待处理音频数据进行标记。
[0106]可选地,在所述待处理音频数据中包含多个声纹信息时,上述处理器3000提取所述待处理音频数据的声纹信息,包括:
[0107]提取所述待处理音频数据中音调最高的声音的声纹信息;
[0108]或者,
[0109]提取所述待处理音频数据中频率最高的声音的声纹信息;
[0110]或者,提取所述待处理音频数据中音色符合预设要求的声音的声纹信息。[〇112]可选地,上述处理器3000根据所述目标身份标识对所述待处理音频数据进行标记,包括:
[0113]确定所述声纹信息所表示的声音在所述待处理音频数据中的起始时刻和结束时刻;
[0114]将所述起始时刻和所述结束时刻之间对应在所述待处理音频数据的音频片段标记为所述目标身份标识。
[0115]进一步可选地,上述处理器3000将所述起始时刻和所述结束时刻之间对应在所述待处理音频数据的音频片段标记为所述目标身份标识之后,所述方法还包括:
[0116]将所述标记后的所述待处理音频数据按照时间顺序转换为文字数据;[〇117]将所述文字数据按照所述时间顺序在显示屏上进行显示,并将所述目标身份标识显示在所述文字数据的目标位置,其中,所述目标位置为所述目标身份标识所标记的音频片段的起始时刻对应在所述文字数据中的位置。
[0118]可选地,上述处理器3000根据所述目标身份标识对所述待处理音频数据进行标记之后,所述方法还包括:
[0119]根据所述目标身份标识对所述标记后的所述待处理音频数据进行剪切;
[0120]将所述剪切后包含所述目标身份标识的音频片段进行拼接。
[0121]具体实现中,本发明实施例中所描述的输入设备1000、输出设备2000和处理器 3000可执行本发明实施例提供的一种语音处理的方法的第一实施例、第二实施例、第三实施例中所描述的实现方式,也可执行本发明实施例提供的一种终端的第一实施例中所描述的终端的实现方式,在此不再赘述。
[0122]本发明所有实施例中的单元,可以通过通用集成电路,例如CPU ( Central Processing Unit,中央处理器),或通过ASIC(Applicat1n Specific Integrated Circuit,专用集成电路)来实现。
[0123]本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
[0124]本发明实施例终端中的单元可以根据实际需要进行合并、划分和删减。
[0125]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random Access Memory,简称RAM)等。
[0126]以上对本发明实施例所提供的一种语音处理的方法及终端进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【主权项】
1.一种语音处理的方法,其特征在于,包括:获取待处理音频数据;提取所述待处理音频数据的声纹信息;根据所述声纹信息从预设音频数据库中匹配出目标身份标识,其中,所述预设音频数 据库包含多个声纹信息,每个声纹信息对应一个身份标识;根据所述目标身份标识对所述待处理音频数据进行标记。2.根据权利要求1所述的方法,其特征在于,在所述待处理音频数据中包含多个声纹信 息时,所述提取所述待处理音频数据的声纹信息,包括:提取所述待处理音频数据中音调最高的声音的声纹信息;或者,提取所述待处理音频数据中频率最高的声音的声纹信息;或者,提取所述待处理音频数据中音色符合预设要求的声音的声纹信息。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标身份标识对所述待处理 音频数据进行标记,包括:确定所述声纹信息所表示的声音在所述待处理音频数据中的起始时刻和结束时刻; 将所述起始时刻和所述结束时刻之间对应在所述待处理音频数据的音频片段标记为 所述目标身份标识。4.根据权利要求3所述的方法,其特征在于,所述将所述起始时刻和所述结束时刻之间 对应在所述待处理音频数据的音频片段标记为所述目标身份标识之后,所述方法还包括:将所述标记后的所述待处理音频数据按照时间顺序转换为文字数据;将所述文字数据按照所述时间顺序在显示屏上进行显示,并将所述目标身份标识显示 在所述文字数据的目标位置,其中,所述目标位置为所述目标身份标识所标记的音频片段 的起始时刻对应在所述文字数据中的位置。5.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述目标身份标识对 所述待处理音频数据进行标记之后,所述方法还包括:根据所述目标身份标识对所述标记后的所述待处理音频数据进行剪切;将所述剪切后包含所述目标身份标识的音频片段进行拼接。6.—种终端,其特征在于,包括:获取单元,用于获取待处理音频数据;提取单元,用于提取所述获取单元获取的所述待处理音频数据的声纹信息;匹配单元,用于根据所述提取单元提取的所述声纹信息从预设音频数据库中匹配出目 标身份标识,其中,所述预设音频数据库包含多个声纹信息,每个声纹信息对应一个身份标 识;第一标记单元,用于根据所述匹配单元匹配的所述目标身份标识对所述待处理音频数 据进行标记。7.根据权利要求6所述的终端,其特征在于,在所述待处理音频数据中包含多个声纹信 息时,所述提取单元具体用于:提取所述待处理音频数据中音调最高的声音的声纹信息;或者,提取所述待处理音频数据中频率最高的声音的声纹信息;或者,提取所述待处理音频数据中音色符合预设要求的声音的声纹信息。8.根据权利要求6所述的终端,其特征在于,所述第一标记单元包括:确定单元,用于确定所述提取单元提取的所述声纹信息所表示的声音在所述待处理音 频数据中的起始时刻和结束时刻;第二标记单元,用于将所述确定单元确定的所述起始时刻和所述结束时刻之间对应在 所述待处理音频数据的音频片段标记为所述目标身份标识。9.根据权利要求8所述的终端,其特征在于,所述终端还包括:转换单元,用于所述第二标记单元将所述确定单元确定的所述起始时刻和所述结束时 刻之间对应在所述待处理音频数据的音频片段标记为所述目标身份标识之后,将所述标记 后的所述待处理音频数据按照时间顺序转换为文字数据;显示单元,用于将所述转换单元转换的所述文字数据按照所述时间顺序在显示屏上进 行显示,并将所述目标身份标识显示在所述文字数据的目标位置,其中,所述目标位置为所 述目标身份标识所标记的音频片段的起始时刻对应在所述文字数据中的位置。10.根据权利要求6至8任一项所述的终端,其特征在于,所述终端还包括:剪切单元,用于根据所述第一标记单元根据所述目标身份标识对所述待处理音频数据 进行标记之后,根据所述目标身份标识对所述标记后的所述待处理音频数据进行剪切;拼接单元,用于将所述剪切单元剪切后包含所述目标身份标识的音频片段进行拼接。
【文档编号】G06F17/30GK105975569SQ201610288418
【公开日】2016年9月28日
【申请日】2016年5月3日
【发明人】金妍敏, 唐榆, 肖志龙, 钟婉平
【申请人】深圳市金立通信设备有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1