一种音频信息处理方法及电子设备的制作方法

文档序号:6621615阅读:182来源:国知局
一种音频信息处理方法及电子设备的制作方法
【专利摘要】本发明公开了一种音频信息处理方法,用于解决现有技术中电子设备显示效果较差的技术问题。该方法包括:在输出一语音文件的过程中,解析出所述语音文件中的具有第一声纹特征的M段音频信息;将所述M段音频信息与所述N段音频样本进行比对,确定所述N段音频样本中与所述第一声纹特征相同的声纹特征所对应的第一音频样本,并根据音频样本与用户标识信息的对应关系,确定与所述M段音频信息对应的第一用户标识信息;输出所述语音文件;其中,当播放具有所述第一声纹特征的音频信息时,控制所述电子设备以第一显示效果显示所述第一用户标识信息。本发明还公开了用于实现该方法的电子设备。
【专利说明】一种音频信息处理方法及电子设备

【技术领域】
[0001] 本发明涉及计算机【技术领域】,特别涉及一种音频信息处理方法及电子设备。

【背景技术】
[0002] 随着科技的迅速发展和市场竞争的日益激烈,电子设备的性能及外观得到了大力 提升,其中笔记本电脑以其小巧轻便、便于携带、娱乐性强等优点正受到越来越多的人们的 喜爱,成为学习和生活中不可缺少的一部分。用户利用电子设备可以做的事也越来越多, 如:用户可以通过具有语音功能的手机或平板电脑进行通信、录音等。
[0003] 目前,大部分的电子设备均有录音功能,能够满足多种场景的录音需求,例如会 议、课堂的录音等。通常,由于录音场景的复杂性,在用户使用电子设备获取录音后,会导致 播放录音时不容易区分语音内容具体对应的说话者,特别是针对声音比较近似的说话者, 或者收听者还不熟悉的说话者,都会造成收听时的分辨难度。例如,在会议中,用户使用电 子设备对会议内容进行录音,在后期播放录音进行回顾时,若存在多人同时讨论的情况时, 可能会出现播放声音很嘈杂,无法较快地区分具体是哪些参会人在说话,则收听者在听取 录音的过程中还需用心辨别播放录音对应的发话人,并且为了能够快速地反应与录音内容 对应的发话人,可能需要反复播放录音,从而使得电子设备的负担较重,用户体验也较差。
[0004] 综上可知,现有技术中存在电子设备录音效果较差的技术问题。


【发明内容】

[0005] 本发明实施例提供一种音频信息处理方法及电子设备,用于解决电子设备录音效 果较差的技术问题。
[0006] -种音频信息处理方法,应用于电子设备中,所述电子设备中存储有N段音频样 本,所述N段音频样本中的每段音频样本分别对应一个用户标识信息,所述用户标识信息 包含能够用于表征与音频信息对应的音频对象的信息,N为正整数,所述方法包括:
[0007] 在输出一语音文件的过程中,解析出所述语音文件中的具有第一声纹特征的Μ段 音频信息,Μ为正整数;
[0008] 将所述Μ段音频信息与所述Ν段音频样本进行比对,确定所述Ν段音频样本对应 的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特征;
[0009] 若存在,确定所述Ν段音频样本中与所述第一声纹特征相同的声纹特征所对应的 第一音频样本,并根据音频样本与用户标识信息的对应关系,确定与所述Μ段音频信息对 应的第一用户标识信息;
[0010] 输出所述语音文件;其中,当播放具有所述第一声纹特征的音频信息时,控制所述 电子设备以第一显示效果显示所述第一用户标识信息。
[0011] 可选的,所述方法还包括:
[0012] 检测到所述语音文件中包含的音频信息段中同时具有第二声纹特征及第三声纹 特征时,根据所述第二声纹特征及所述第三声纹特征从所述音频信息段中分离出具有所述 第二声纹特征的第二音频信息,以及具有所述第三声纹特征的第三音频信息;
[0013] 通过将所述第二音频信息及所述第三音频信息分别与所述N段音频样本进行比 对,确定出与所述第二声纹特征相对应的第二音频样本,以及与第三声纹特征相对应的第 三音频样本;并根据音频样本与用户标识信息的对应关系,确定出与所述第二声纹特征相 对应第二用户标识信息,以及与所述第三声纹特征相对应的第三用户标识信息;
[0014] 控制所述电子设备在播放所述音频信息的过程中,同时显示所述第二用户标识信 息和所述第三用户标识信息。
[0015] 可选的,控制所述电子设备在播放所述音频信息端的过程中,同时显示所述第二 用户标识信息和所述第三用户标识信息,还包括:
[0016] 检测具有所述第二声纹特征的音频信息对应的第二音频强度,及具有所述第三声 纹特征的音频信息对应的第三音频强度;
[0017] 比较所述第二声音强度和所述第三声音强度,将其中声音强度大的音频信息确定 为主音频信息,及将声音强度小的音频信息确定为副音频信息;
[0018] 根据声音强度与显示效果的对应关系,控制所述电子设备以第一显示效果显示与 所述主音频信息对应的用户标识信息,及以第二显示效果显示与所述副音频信息对应的用 户标识信息。
[0019] 可选的,将所述Μ段音频信息与所述N段音频样本进行比对,确定所述N段音频样 本对应的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特征,还包括:
[0020] 若所述Ν段音频样本对应的Ν个声纹特征中不存在与所述第一声纹特征相同的声 纹特征,判断所述Μ段音频信息是否为关键音频信息;其中,所述关键音频信息为与所述电 子设备中存储的联系对象相关的音频信息;
[0021] 若所述Μ段音频信息为所述关键音频信息,根据所述联系对象建立与所述Μ段音 频信息对应的用户标识信息;或者
[0022] 若所述Μ段音频信息不为所述关键音频信息,设置第一特定标识信息作为与所述 Μ段音频信息对应的用户标识信息;其中,所述第一特定标识信息为所述电子设备中特定 图像?目息、特定文字?目息及特定语首彳目息中任一?目息或组合?目息。
[0023] 可选的,在若所述Μ段音频信息为所述关键音频信息,根据所述联系对象建立与 所述Μ段音频信息对应的用户标识信息的同时或之后,所述方法还包括:
[0024] 根据所述Μ段音频信息,获取第一音频片断;
[0025] 将所述第一音频片断作为第Ν+1段音频样本进行存储;其中,所述Ν+1段音频样本 与所述Μ段音频信息对应于同一用户标识信息。
[0026] -种电子设备,所述电子设备中存储有Ν段音频样本,所述Ν段音频样本中的每段 音频样本分别对应一个用户标识信息,所述用户标识信息包含能够用于表征与音频信息对 应的音频对象的信息,Ν为正整数,所述电子设备包括:
[0027] 解析模块,用于在输出一语音文件的过程中,解析出所述语音文件中的具有第一 声纹特征的Μ段音频信息,Μ为正整数;
[0028] 比对模块,用于将所述Μ段音频信息与所述Ν段音频样本进行比对,确定所述Ν段 音频样本对应的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特征;
[0029] 第一确定模块,用于若存在,确定所述Ν段音频样本中与所述第一声纹特征相同 的声纹特征所对应的第一音频样本,并根据音频样本与用户标识信息的对应关系,确定与 所述Μ段音频信息对应的第一用户标识信息;
[0030] 输出模块,用于输出所述语音文件;其中,当播放具有所述第一声纹特征的音频信 息时,控制所述电子设备以第一显示效果显示所述第一用户标识信息。
[0031] 可选的,所述电子设备还包括:
[0032] 分离模块,用于检测到所述语音文件中包含的音频信息段中同时具有第二声纹特 征及第三声纹特征时,根据所述第二声纹特征及所述第三声纹特征从所述音频信息段中分 离出具有所述第二声纹特征的第二音频信息,以及具有所述第三声纹特征的第三音频信 息;
[0033] 第二确定模块,用于通过将所述第二音频信息及所述第三音频信息分别与所述Ν 段音频样本进行比对,确定出与所述第二声纹特征相对应的第二音频样本,以及与第三声 纹特征相对应的第三音频样本;并根据音频样本与用户标识信息的对应关系,确定出与所 述第二声纹特征相对应第二用户标识信息,以及与所述第三声纹特征相对应的第三用户标 识息;
[0034] 控制模块,用于控制所述电子设备在播放所述音频信息的过程中,同时显示所述 第二用户标识信息和所述第三用户标识信息。
[0035] 可选的,所述电子设备还包括:
[0036] 检测模块,用于检测具有所述第二声纹特征的音频信息对应的第二音频强度,及 具有所述第三声纹特征的音频信息对应的第三音频强度;
[0037] 比较模块,用于比较所述第二声音强度和所述第三声音强度,将其中声音强度大 的音频信息确定为主音频信息,及将声音强度小的音频信息确定为副音频信息;
[0038] 第一处理模块,用于根据声音强度与显示效果的对应关系,控制所述电子设备以 第一显示效果显示与所述主音频信息对应的用户标识信息,及以第二显示效果显示与所述 副音频信息对应的用户标识信息。
[0039] 可选的,所述电子设备还包括:
[0040] 判断模块,用于若所述N段音频样本对应的N个声纹特征中不存在与所述第一声 纹特征相同的声纹特征,判断所述Μ段音频信息是否为关键音频信息;其中,所述关键音频 信息为与所述电子设备中存储的联系对象相关的音频信息;
[0041] 第二处理模块,用于若所述Μ段音频信息为所述关键音频信息,根据所述联系对 象建立与所述Μ段音频信息对应的用户标识信息;或者,若所述Μ段音频信息不为所述关键 音频信息,设置第一特定标识信息作为与所述Μ段音频信息对应的用户标识信息;其中,所 述第一特定标识信息为所述电子设备中特定图像信息、特定文字信息及特定语音信息中任 一信息或组合信息。
[0042] 可选的,所述电子设备还包括:
[0043] 获取模块,用于根据所述Μ段音频信息,获取第一音频片断;
[0044] 存储模块,将所述第一音频片断作为第Ν+1段音频样本进行存储;其中,所述Ν+1 段音频样本与所述Μ段音频信息对应于同一用户标识信息。
[0045] 本发明实施例中,由于所述电子设备中存储的所述Ν段音频样本均具有对应用户 标识信息,且每个用户标识信息包含能够用于表征与音频信息对应的音频对象的信息,因 此在输出所述育语音文件时,通过解析可以获知具有所述第一声纹特征的所述Μ段音频信 息,并根据声纹特征,将所述Μ段音频信息与所述Ν段音频样本进行比对,则可以确定具有 与所述第一声纹特征相同的声纹特征的所述第一音频样本,从而根据与所述第一音频样本 对应的第一用户标识信息,从而可以使得在播放具有所述第一声纹特征的音频信息时,即 播放至所述Μ段音频信息中的任一音频信息时,均可显示所述第一用户标识信息。因此,即 便播放的录音内容具有多个发话人,那么由于每个发话人对应的声纹特征均不相同,故通 过确定录音内容中具有相同声纹特征的多段音频信息后,通过比对确定对应的用户标识信 息后,则在播放该音频信息时,可显示对应的用户标识信息,从而可以快速的获知当前播放 的语音文件中对应的音频对象,而无需用户再花多余的时间进行辨别,故增强了电子设备 的录音效果,也提高了用户的体验。

【专利附图】

【附图说明】
[0046] 图1为本发明实施例中音频信息处理方法的主要流程图;
[0047] 图2为本发明实施例中显示第一用户标识信息的示意图;
[0048] 图3为本发明实施例中显示第二用户标识信息和第三用户标识信息的示意图;
[0049] 图4为本发明实施例中电子设备的主要模块图。

【具体实施方式】
[0050] 本发明实施例公开了一种音频信息处理方法,应用于电子设备中,所述电子设备 中存储有Ν段音频样本,所述Ν段音频样本中的每段音频样本分别对应一个用户标识信息, 所述用户标识信息包含能够用于表征与音频信息对应的音频对象的信息,Ν为正整数,所述 方法包括:在输出一语音文件的过程中,解析出所述语音文件中的具有第一声纹特征的Μ 段音频信息,Μ为正整数;将所述Μ段音频信息与所述Ν段音频样本进行比对,确定所述Ν段 音频样本对应的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特征;若存在, 确定所述Ν段音频样本中与所述第一声纹特征相同的声纹特征所对应的第一音频样本,并 根据音频样本与用户标识信息的对应关系,确定与所述Μ段音频信息对应的第一用户标识 信息;输出所述语音文件;其中,当播放具有所述第一声纹特征的音频信息时,控制所述电 子设备以第一显示效果显示所述第一用户标识信息。
[0051] 本发明实施例中,由于所述电子设备中存储的所述Ν段音频样本均具有对应用户 标识信息,且每个用户标识信息包含能够用于表征与音频信息对应的音频对象的信息,因 此在输出所述育语音文件时,通过解析可以获知具有所述第一声纹特征的所述Μ段音频信 息,并根据声纹特征,将所述Μ段音频信息与所述Ν段音频样本进行比对,则可以确定具有 与所述第一声纹特征相同的声纹特征的所述第一音频样本,从而根据与所述第一音频样本 对应的第一用户标识信息,从而可以使得在播放具有所述第一声纹特征的音频信息时,即 播放至所述Μ段音频信息中的任一音频信息时,均可显示所述第一用户标识信息。因此,即 便播放的录音内容具有多个发话人,那么由于每个发话人对应的声纹特征均不相同,故通 过确定录音内容中具有相同声纹特征的多段音频信息后,通过比对确定对应的用户标识信 息后,则在播放该音频信息时,可显示对应的用户标识信息,从而可以快速的获知当前播放 的语音文件中对应的音频对象,而无需用户再花多余的时间进行辨别,故增强了电子设备 的录音效果,也提高了用户的体验。
[0052] 请参见图1,本发明实施例公开了一种音频信息处理方法,应用于一具有显示单元 的电子设备中,所述电子设备中存储有N段音频样本,所述N段音频样本中的每段音频样本 分别对应一个用户标识信息,所述用户标识信息包含能够用于表征与音频信息对应的音频 对象的信息,N为正整数,所述方法可以包括以下步骤:
[0053] 步骤11 :在输出一语音文件的过程中,解析出所述语音文件中的具有第一声纹特 征的Μ段音频信息,Μ为正整数。
[0054] 本发明实施例中,所述语音文件可以是录制的对应特殊场合的录音文件。例如,会 议内容的录音文件或课堂的录音文件等。通常,所述语音文件可以是存储在本地的录音文 件,例如将通过自身或其它设备录制的文件存储在本地,或者所述语音文件也可以是获取 的来自其他电子设备或云端的录音文件。
[0055] 可选的,本发明实施例中,所述第一声纹特征可以是指在将所述语音文件进行输 出的过程中,通过声纹识别确定的所述语音文件对应的声纹特征。
[0056] 通常,所谓声纹是指用电声学仪器显示的携带言语信息的声波频谱,且任何两个 人的声纹图谱都有差异。因此,通过声纹识别,可以确定所述语音文件中各个音频信息对应 的声纹特征,故可识别出具有相同声纹特征的音频信息,并且当所述语音文件是录制有多 个说话人对应的发言内容时,所述语音文件可以对应有多个声纹特征。
[0057] 可选的,通过声纹识别可以确定所述语音文件中具有所述第一声纹特征的所述Μ 段音频信息,故可以认为所述Μ段音频信息是来自于同一说话人的说话内容,且所述Μ段音 频信息可以是处于所述语音文件中不同音频位置。例如,当该说话人与多个其它说话人处 于同一场景下时,该说话人时不时的进行发言,则与其对应的所述Μ段音频信息是按照发 言时间顺序被录制进所述语音文件,从而在播放所述语音文件时,会将录制的包括所有说 话人的说话内容按照录制顺序进行播放,此时,所述Μ段音频信息就可能是穿插在所述语 音文件中的多个位置的音频信息。
[0058] 步骤12 :将所述Μ段音频信息与所述Ν段音频样本进行比对,确定所述Ν段音频 样本对应的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特征。
[0059] 本发明实施例中,由于每个人对应的声纹特征均不相同,因此在确定出所述Μ段 音频信息,且将所述Μ段音频信息与所述Ν段音频样本进行比对时,可以是通过声纹识别技 术来进行判断,若能检测到与所述第一声纹特征相同的声纹特征,则说明所述Ν个声纹特 征中存在与所述第一声纹特征相同的声纹特征,即具有与所述Μ段音频信息匹配的音频样 本,否则,则不存在与所述Μ段音频信息对应的音频样本,故也不能通过当前存储的所述Ν 段音频样本确定与所述Μ段音频信息对应的音频对象。
[0060] 本发明实施例中,所述Ν段音频样本可以是预先根据一个或多个录音文件设置 的。例如,从预先录制或存储的录音文件中提取出与相关联系人对应的音频信息作为音频 样本,或者,也可以根据联系人为其录制对应的音频片段作为与该联系人对应的音频样本。 其中,所述Ν段音频样本中的每一段音频样本均可是来自语音段的音频信息。例如,从语音 文件的语音段中获取多个音频信息。
[0061] 可选的,本发明实施例中,所述Ν段音频样本中的每段音频样本分别对应一个用 户标识信息,所述用户标识信息可以是包含能够用于表征与音频信息对应的音频对象的信 息。例如,所述用户标识信息可以包含联系人头像、姓名、工作性质等信息。
[0062] 步骤13 :若存在,确定所述N段音频样本中与所述第一声纹特征相同的声纹特征 所对应的第一音频样本,并根据音频样本与用户标识信息的对应关系,确定与所述Μ段音 频信息对应的第一用户标识信息。
[0063] 本发明实施例中,由于每个音频信息具有不同的在通过声纹识别技术确定出与所 述第一声纹特征相同的所述第一音频样本时,可以进一步确定与所述第一音频样本对应的 所述第一用户标识信息,从而可以确定与所述Μ段音频信息对应的音频对象。
[0064] 可选的,本发明实施例中,音频样本与用户标识信息之间的对应关系可以是用户 预先设置好的。例如,用户可以在设置所述Ν段音频样本时,将与每个音频样本相关的信息 设置为与该音频样本对应的用户标识信息。例如,将与该段音频样本对应的音频对象的头 像、名字等信息中的一个或组合确定为对应的用户标识信息。
[0065] 例如,用户手机中存储有说话人甲的第一音频样本,说话人甲的说话声音对应声 纹特征1,且与所述第一音频样本对应的第一用户标识信息中包含说话人甲的头像信息、姓 名信息,则当用户使用手机播放一个录音文件时,若该录音文件中包含有说话人甲的声音, 则在播放该录音文件时,若确定该录音文件中识别出的声纹特征中具有与声纹特征1相同 的声纹特征,则可以认为录音文件中具有声纹特征1的音频信息均为说话人甲对应的音频 信息,故这些音频信息均可以为与第一用户标识信息相关联的音频信息。
[0066] 在实际操作过程中,在将所述Μ段音频信息与所述Ν段音频样本进行比对,确定 所述Ν段音频样本对应的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特征 时,还可以包括:若所述Ν段音频样本对应的Ν个声纹特征中不存在与所述第一声纹特征相 同的声纹特征,判断所述Μ段音频信息是否为关键音频信息;其中,所述关键音频信息为与 所述电子设备中存储的联系对象相关的音频信息;若所述Μ段音频信息为所述关键音频信 息,根据所述联系对象建立与所述Μ段音频信息对应的用户标识信息;或者,若所述Μ段音 频信息不为所述关键音频信息,设置第一特定标识信息作为与所述Μ段音频信息对应的用 户标识信息;其中,所述第一特定标识信息为所述电子设备中特定图像信息、特定文字信息 及特定语首?目息中任一?目息或组合?目息。
[0067] 其中,判断所述Μ段音频信息是否为所述关键音频信息,可以具有以下两种实现 判断的方法。
[0068] 第一种:通过用户进行判断。该过程可以是根据所述电子设备中存储的联系对象 进行确定的,若存储的所述联系对象时未存储有对应的音频段,则以上所述判断过程可以 是用户来进行实现的。例如,在播放的所述语音文件时,若确定播放的音频信息为未匹配成 功的音频信息,则用户可以根据自己对联系人对应的声音的熟悉程度,辨别该音频信息是 否为联系人对应的声音信息,若是,则可以将该音频信息确定为所述关键音频信息,否则, 可以不对该段音频信息进行过多的设置。故通过用户自身来进行判断时,可以具有较大的 自主选择性,提高了用户的体验度,同时也使得所述电子设备的录音效果具有较强的灵活 性。
[0069] 第二种,通过电子设备进行判断。如果在存储所述联系对象的时候,也存储有与 所述联系对象对应的音频信息,则判断所述Μ段音频信息是否为所述关键音频信息可以是 通过所述电子设备通过声纹识别及匹配来实现的。例如,若用户在建立所述联系对象的信 息的同时或之后,还为联系对象存储了一段对应的语音,从而在所述第一声纹特征与所述N 段声纹特征未匹配成功时,可以通过将所述第一声纹特征与所述联系对象的语音段对应的 声纹特征进行匹配,从而可以确定所述第一声纹特征是否与所述联系对象相关,进而确定 所述Μ段音频信息是否为所述关键音频信息。
[0070] 本发明实施例中,若判断结果表明所述Μ段音频信息为所述关键音频信息,则可 以根据所述联系对象建立与所述Μ段音频信息对应的用户标识信息。通常,用户在存储联 系对象时,会包含相关的对象姓名、头像、工作单位等信息,若确定所述Μ段音频信息对应 的所述联系对象为联系对象1时,则可将头像信息及姓名信息设置为与所述Μ段音频信息 设置对应的用户标识信息所包含的内容。
[0071] 此外,在通过某些没有设置相应头像的联系对象建立与所述Μ段音频信息对应的 用户标识信息时,可通过从本地或云端获取与该联系对象相关的图像进行设置,以便通过 该用户标识信息可以快速进行辨别。例如,使用手机中存储的、与确定的联系对象相关的图 像设置所述用户标识信息中的头像信息时,则可将该图像包含的头像部分进行截图,从而 设置为该联系对象的头像信息,提高辨别度。
[0072] 或者,若判断表面所述Μ段音频信息不为所述关键音频信息,则可以设置第一特 定标识信息作为与所述Μ段音频信息对应的用户标识信息;其中,所述第一特定标识信息 为所述电子设备中特定图像信息、特定文字信息及特定语音信息中任一信息或组合信息。
[0073] 其中,所述特定图像可以是指所述电子设备默认或用户预先指定的、用于为声纹 匹配不成功的音频信息设置的对应的图像,并且可以为该图像设置对应的文字信息,例如 "未识别"、"未知"等。或者,所述特定图像也可以就是具有易识别的标识或图像,而不需要 搭配特殊的文字,例如可以显示为未知人物头像的图像,使得用户一看便知此时播放的音 频信息为与联系人不相关的信息。
[0074] 可选的,本发明实施例中,在若所述Μ段音频信息为所述关键音频信息,根据所述 联系对象建立与所述Μ段音频信息对应的用户标识信息的同时或之后,所述方法还可以包 括:根据所述Μ段音频信息,获取第一音频片断;将所述第一音频片断作为第Ν+1段音频样 本进行存储;其中,所述Ν+1段音频样本与所述Μ段音频信息对应于同一用户标识信息。即 在确定所述Μ段音频信息为所述关键音频信息时,可在所述Μ段音频信息中截取任意一个 音频片断作为所述第一音频片断,并将所述第一音频片断作为所述第Ν+1段音频样本进行 存储,从而不断地增加音频样本的数量,以使在进行声纹匹配时具有更多的可进行比对的 声纹特征,以能够尽量多的识别出所述语音文件中的不同声纹特征对应的用户标识信息, 从而获知对应的音频对象等,提高了所述电子设备对录音文件分析的准确性。
[0075] 步骤14 :输出所述语音文件;其中,当播放具有所述第一声纹特征的音频信息时, 控制所述电子设备以第一显示效果显示所述第一用户标识信息。
[0076] 本发明实施例中,在确定出所述语言文件中具有相同声纹特征的音频信息后,即 可确定与所述音频信息对应的用户标识信息。从而在播放所述语音文件时,若通过声纹识 别确定当前播放的音频信息在所述Ν段音频样本中具有对应的音频样本,则可将与具有该 声纹特征的音频信息均显示相同的用户标标识信息。例如,与该音频信息对应的音频对象 的头像信息、姓名信息等。
[0077] 请参加图2,数字20代表所述电子设备,此处以手机为例;数字21代表所述电子 设备的显示单元,所述显示单元中正在播放所述语音文件,且当前播放的音频为所述Μ段 音频信息中的任意一段,数字22代表所述用户标识信息,此处以用户头像信息为例,其中, 标号为1的用户标识信息代表所述第一用户标识信息,其余用户标识表示与所述语音文件 所包含的其他声纹特征对应的用户标识信息。
[0078] 本发明实施例中,所述音频信息处理方法还可以包括:检测到所述语音文件中包 含的段音频信息段中同时具有第二声纹特征及第三声纹特征时,根据所述第二声纹特征及 所述第三声纹特征的特征参数,从所述音频信息段中分离出具有所述第二声纹特征的第二 音频信息,以及具有所述第三声纹特征的第三音频信息;通过将所述第二音频信息及所述 第三音频信息分别与所述Ν段音频样本进行比对,确定出与所述第二声纹特征相对应的第 二音频样本,以及与第三声纹特征相对应的第三音频样本;根据音频样本与用户标识信息 的对应关系,确定出与所述第二声纹特征相对应第二用户标识信息,以及与所述第三声纹 特征相对应的第三用户标识信息;控制所述电子设备在播放所述音频信息段的过程中,同 时显示所述第二用户标识信息和所述第三用户标识信息。
[0079] 其中,所述音频信息段可以是指所述语音文件中的同时包含多段音频信息的语音 段。例如,单位时间内,播放所述语音文件时可能同时包含多个说话人的发言内容,则根据 每个人对应的音频信息可以确定出多个声纹特征。所述第二声纹特征和所述第三声纹特征 可以是指不同说话对象的音频信息各自对应的声纹特征。
[0080] 在确定所述语音文件中包含的一段音频信息中同时存在所述第二声纹特征和所 述第三声纹特征后,可根据所述第二声纹特征及所述第三声纹特征的特征参数对所述音频 信息段进行提取,从而分离出具有所述第二声纹特征的第二音频信息,以及具有所述第三 声纹特征的第三音频信息。其中,所述参数特征可以是声纹频谱中共振峰的频率值。一般 来说,声纹频谱中共振峰的频率值及其走向是最稳定的特征参数,而且具有很强的特定性, 而时长、音强、波形等特征参数稳定性较差,也可做参考。
[0081] 可选的,本发明实施例中,在确定出与所述第二声纹特征相对应第二用户标识信 息,以及与所述第三声纹特征相对应的第三用户标识信息后,则在播放所述音频信息的过 程中,可以同时显示所述第二用户标识信息和所述第三用户标识信息,以使得听者获知当 前多人同时说话时对应的多人头像。例如,所述语音文件中包含同时发言的说话人甲和说 话人乙的音频信息段1,则当播放至该音频信息段时,与说话人甲对应的头像a和说话人乙 对应的头像b将同时进行显示,以表示当前播放的音频信息段为这两个头像分别对应的音 频对象对应的声音。
[0082] 请参见图3,数字30代表所述电子设备,此处以手机为例;数字31代表所述电子 设备的显示单元,所述显示单元中正在播放所述音频信息段,且所述音频信息段同时包含 有所述第二声纹特征对应的第二音频信息和所述第三声纹特征的第三音频信息,数字1和 数字2分别代表所述第二用户标识信息和所述第三用户标识信息,且所述第二用户标识信 息和所述第三用户标识信息相对于其它用户标识信息的状态为处于放大的状态,表示当前 正在播放与所述第二用户标识信息和所述第三用户标识信息对应的音频信息。
[0083] 可选的,本发明实施例中,所述控制所述电子设备在播放所述音频信息段的过程 中,同时显示所述第二用户标识信息和所述第三用户标识信息,还可以包括:检测具有所述 第二声纹特征的音频信息对应的第二音频强度,及具有所述第三声纹特征的音频信息对应 的第三音频强度;比较所述第二声音强度和所述第三声音强度,将其中声音强度大的音频 信息确定为主音频信息,及将声音强度小的音频信息确定为副音频信息;根据声音强度与 显示效果的对应关系,控制所述电子设备以第一显示效果显示与所述主音频信息对应的用 户标识信息,及以第二显示效果显示与所述副音频信息对应的用户标识信息。
[0084] 即在播放所述音频信息段时,由于同时显示有所述第二用户标识信息和所述第三 用户标识信息,为了便于区分具体用户标识信息对应的音频信息,可以根据音频信息对应 的声音强度确定对应的用户标识的显示效果。
[0085] 例如,与声音强度大的音频信息对应显示效果可以是用户标识信息以高频率进行 跳动,而与声音强度小的音频信息对应显示效果可以是用户标识信息以低频率进行跳动, 从而通过观察用户标识的跳动频率,可以将用户标识信息与说话人的声音强弱程度联系起 来,从而在播放具有多人同时说话的音频信息段时,可以使得听者通过声音的响亮程度及 用户标识信息的跳动频率来区分声音对应的用户标识信息,而避免了同时播放的录音文件 中同时含有多个声音时导致不易区分的情况。
[0086] 请参见图4,基于同一发明构思,本发明实施例还提供一种电子设备,所述电子设 备中存储有N段音频样本,所述N段音频样本中的每段音频样本分别对应一个用户标识信 息,所述用户标识信息包含能够用于表征与音频信息对应的音频对象的信息,N为正整数, 所述电子设备可以包括解析模块401、比对模块402、第一确定模块403和输出模块404。 [0087] 所述解析模块401可以用于在输出一语音文件的过程中,解析出所述语音文件中 的具有第一声纹特征的Μ段音频信息,Μ为正整数。
[0088] 所述比对模块402可以用于将所述Μ段音频信息与所述Ν段音频样本进行比对, 确定所述Ν段音频样本对应的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特 征。
[0089] 说是第一确定模块403可以用于若存在,确定所述Ν段音频样本中与所述第一声 纹特征相同的声纹特征所对应的第一音频样本,并根据音频样本与用户标识信息的对应关 系,确定与所述Μ段音频信息对应的第一用户标识信息;
[0090] 所述输出模块404可以用于输出所述语音文件;其中,当播放具有所述第一声纹 特征的音频信息时,控制所述电子设备以第一显示效果显示所述第一用户标识信息。
[0091] 可选的,本发明实施例中,所述电子设备还包括:
[0092] 分离模块,用于检测到所述语音文件中包含的音频信息段中同时具有第二声纹特 征及第三声纹特征时,根据所述第二声纹特征及所述第三声纹特征从所述音频信息段中分 离出具有所述第二声纹特征的第二音频信息,以及具有所述第三声纹特征的第三音频信 息;
[0093] 第二确定模块,用于通过将所述第二音频信息及所述第三音频信息分别与所述Ν 段音频样本进行比对,确定出与所述第二声纹特征相对应的第二音频样本,以及与第三声 纹特征相对应的第三音频样本;并根据音频样本与用户标识信息的对应关系,确定出与所 述第二声纹特征相对应第二用户标识信息,以及与所述第三声纹特征相对应的第三用户标 识息;
[0094] 控制模块,用于控制所述电子设备在播放所述音频信息的过程中,同时显示所述 第二用户标识信息和所述第三用户标识信息。
[0095] 可选的,本发明实施例中,所述电子设备还包括:
[0096] 检测模块,用于检测具有所述第二声纹特征的音频信息对应的第二音频强度,及 具有所述第三声纹特征的音频信息对应的第三音频强度;
[0097] 比较模块,用于比较所述第二声音强度和所述第三声音强度,将其中声音强度大 的音频信息确定为主音频信息,及将声音强度小的音频信息确定为副音频信息;
[0098] 第一处理模块,用于根据声音强度与显示效果的对应关系,控制所述电子设备以 第一显示效果显示与所述主音频信息对应的用户标识信息,及以第二显示效果显示与所述 副音频信息对应的用户标识信息。
[0099] 可选的,本发明实施例中,所述电子设备还包括:
[0100] 判断模块,用于若所述N段音频样本对应的N个声纹特征中不存在与所述第一声 纹特征相同的声纹特征,判断所述Μ段音频信息是否为关键音频信息;其中,所述关键音频 信息为与所述电子设备中存储的联系对象相关的音频信息;
[0101] 第二处理模块,用于若所述Μ段音频信息为所述关键音频信息,根据所述联系对 象建立与所述Μ段音频信息对应的用户标识信息;或者,若所述Μ段音频信息不为所述关键 音频信息,设置第一特定标识信息作为与所述Μ段音频信息对应的用户标识信息;其中,所 述第一特定标识信息为所述电子设备中特定图像信息、特定文字信息及特定语音信息中任 一信息或组合信息。
[0102] 可选的,本发明实施例中,所述电子设备还包括:
[0103] 获取模块,用于根据所述Μ段音频信息,获取第一音频片断;
[0104] 存储模块,将所述第一音频片断作为第Ν+1段音频样本进行存储;其中,所述Ν+1 段音频样本与所述Μ段音频信息对应于同一用户标识信息。
[0105] 本发明实施例公开了一种音频信息处理方法,应用于电子设备中,所述电子设备 中存储有Ν段音频样本,所述Ν段音频样本中的每段音频样本分别对应一个用户标识信息, 所述用户标识信息包含能够用于表征与音频信息对应的音频对象的信息,Ν为正整数,所述 方法包括:在输出一语音文件的过程中,解析出所述语音文件中的具有第一声纹特征的Μ 段音频信息,Μ为正整数;将所述Μ段音频信息与所述Ν段音频样本进行比对,确定所述Ν段 音频样本对应的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特征;若存在, 确定所述Ν段音频样本中与所述第一声纹特征相同的声纹特征所对应的第一音频样本,并 根据音频样本与用户标识信息的对应关系,确定与所述Μ段音频信息对应的第一用户标识 信息;输出所述语音文件;其中,当播放具有所述第一声纹特征的音频信息时,控制所述电 子设备以第一显示效果显示所述第一用户标识信息。
[0106] 本发明实施例中,由于所述电子设备中存储的所述Ν段音频样本均具有对应用户 标识信息,且每个用户标识信息包含能够用于表征与音频信息对应的音频对象的信息,因 此在输出所述育语音文件时,通过解析可以获知具有所述第一声纹特征的所述Μ段音频信 息,并根据声纹特征,将所述Μ段音频信息与所述Ν段音频样本进行比对,则可以确定具有 与所述第一声纹特征相同的声纹特征的所述第一音频样本,从而根据与所述第一音频样本 对应的第一用户标识信息,从而可以使得在播放具有所述第一声纹特征的音频信息时,即 播放至所述Μ段音频信息中的任一音频信息时,均可显示所述第一用户标识信息。因此,即 便播放的录音内容具有多个发话人,那么由于每个发话人对应的声纹特征均不相同,故通 过确定录音内容中具有相同声纹特征的多段音频信息后,通过比对确定对应的用户标识信 息后,则在播放该音频信息时,可显示对应的用户标识信息,从而可以快速的获知当前播放 的语音文件中对应的音频对象,而无需用户再花多余的时间进行辨别,故增强了电子设备 的录音效果,也提高了用户的体验。
[0107] 具体来讲,本申请实施例中的信息处理方法对应的计算机程序指令可以被存储在 光盘,硬盘,U盘等存储介质上,当存储介质中的与音频信息处理方法对应的计算机程序指 令被一电子设备读取或被执行时,包括如下步骤:
[0108] 在输出一语音文件的过程中,解析出所述语音文件中的具有第一声纹特征的Μ段 音频信息,Μ为正整数;
[0109] 将所述Μ段音频信息与所述Ν段音频样本进行比对,确定所述Ν段音频样本对应 的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特征;
[0110] 若存在,确定所述Ν段音频样本中与所述第一声纹特征相同的声纹特征所对应的 第一音频样本,并根据音频样本与用户标识信息的对应关系,确定与所述Μ段音频信息对 应的第一用户标识信息;
[0111] 输出所述语音文件;其中,当播放具有所述第一声纹特征的音频信息时,控制所述 电子设备以第一显示效果显示所述第一用户标识信息。
[0112] 可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令用于执 行步骤:检测到所述语音文件中包含的音频信息段中同时具有第二声纹特征及第三声纹特 征时,根据所述第二声纹特征及所述第三声纹特征从所述音频信息段中分离出具有所述第 二声纹特征的第二音频信息,以及具有所述第三声纹特征的第三音频信息;
[0113] 通过将所述第二音频信息及所述第三音频信息分别与所述Ν段音频样本进行比 对,确定出与所述第二声纹特征相对应的第二音频样本,以及与第三声纹特征相对应的第 三音频样本;并根据音频样本与用户标识信息的对应关系,确定出与所述第二声纹特征相 对应第二用户标识信息,以及与所述第三声纹特征相对应的第三用户标识信息;
[0114] 控制所述电子设备在播放所述音频信息的过程中,同时显示所述第二用户标识信 息和所述第三用户标识信息。
[0115] 可选的,所述存储介质中存储的与步骤在控制所述电子设备在播放所述音频信息 端,同时显示所述第二用户标识信息和所述第三用户标识信息对应的计算机指令在具体被 执行过程中,还包括如下步骤:
[0116] 检测具有所述第二声纹特征的音频信息对应的第二音频强度,及具有所述第三声 纹特征的音频信息对应的第三音频强度;
[0117] 比较所述第二声音强度和所述第三声音强度,将其中声音强度大的音频信息确定 为主音频信息,及将声音强度小的音频信息确定为副音频信息;
[0118] 根据声音强度与显示效果的对应关系,控制所述电子设备以第一显示效果显示与 所述主音频信息对应的用户标识信息,及以第二显示效果显示与所述副音频信息对应的用 户标识信息。
[0119] 可选的,所述存储介质中存储的与步骤在将所述Μ段音频信息与所述Ν段音频样 本进行比对,确定所述Ν段音频样本对应的Ν个声纹特征中是否存在与所述第一声纹特征 相同的声纹特征对应的计算机指令在具体被执行过程中,还包括如下步骤:
[0120] 若所述N段音频样本对应的N个声纹特征中不存在与所述第一声纹特征相同的声 纹特征,判断所述Μ段音频信息是否为关键音频信息;其中,所述关键音频信息为与所述电 子设备中存储的联系对象相关的音频信息;
[0121] 若所述Μ段音频信息为所述关键音频信息,根据所述联系对象建立与所述Μ段音 频信息对应的用户标识信息;或者
[0122] 若所述Μ段音频信息不为所述关键音频信息,设置第一特定标识信息作为与所述 Μ段音频信息对应的用户标识信息;其中,所述第一特定标识信息为所述电子设备中特定 图像?目息、特定文字?目息及特定语首彳目息中任一?目息或组合?目息。
[0123] 可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步 骤:若所述Μ段音频信息为所述关键音频信息,根据所述联系对象建立与所述Μ段音频信息 对应的用户标识信息对应的计算机指令在具体被执行被执行的同时或之后被执行,在被执 行时包括如下步骤:
[0124] 根据所述Μ段音频信息,获取第一音频片断;
[0125] 将所述第一音频片断作为第Ν+1段音频样本进行存储;其中,所述Ν+1段音频样本 与所述Μ段音频信息对应于同一用户标识信息。
[0126] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
【权利要求】
1. 一种音频信息处理方法,应用于电子设备中,所述电子设备中存储有N段音频样本, 所述N段音频样本中的每段音频样本分别对应一个用户标识信息,所述用户标识信息包含 能够用于表征与音频信息对应的音频对象的信息,N为正整数,所述方法包括: 在输出一语音文件的过程中,解析出所述语音文件中的具有第一声纹特征的Μ段音频 信息,Μ为正整数; 将所述Μ段音频信息与所述Ν段音频样本进行比对,确定所述Ν段音频样本对应的Ν 个声纹特征中是否存在与所述第一声纹特征相同的声纹特征; 若存在,确定所述Ν段音频样本中与所述第一声纹特征相同的声纹特征所对应的第一 音频样本,并根据音频样本与用户标识信息的对应关系,确定与所述Μ段音频信息对应的 第一用户标识信息; 输出所述语音文件;其中,当播放具有所述第一声纹特征的音频信息时,控制所述电子 设备以第一显示效果显示所述第一用户标识信息。
2. 如权利要求1所述的方法,其特征在于,所述方法还包括: 检测到所述语音文件中包含的音频信息段中同时具有第二声纹特征及第三声纹特征 时,根据所述第二声纹特征及所述第三声纹特征从所述音频信息段中分离出具有所述第二 声纹特征的第二音频信息,以及具有所述第三声纹特征的第三音频信息; 通过将所述第二音频信息及所述第三音频信息分别与所述Ν段音频样本进行比对,确 定出与所述第二声纹特征相对应的第二音频样本,以及与第三声纹特征相对应的第三音频 样本;并根据音频样本与用户标识信息的对应关系,确定出与所述第二声纹特征相对应第 二用户标识信息,以及与所述第三声纹特征相对应的第三用户标识信息; 控制所述电子设备在播放所述音频信息的过程中,同时显示所述第二用户标识信息和 所述第三用户标识信息。
3. 如权利要求2所述的方法,其特征在于,控制所述电子设备在播放所述音频信息端 的过程中,同时显示所述第二用户标识信息和所述第三用户标识信息,还包括: 检测具有所述第二声纹特征的音频信息对应的第二音频强度,及具有所述第三声纹特 征的音频信息对应的第三音频强度; 比较所述第二声音强度和所述第三声音强度,将其中声音强度大的音频信息确定为主 音频信息,及将声音强度小的音频信息确定为副音频信息; 根据声音强度与显示效果的对应关系,控制所述电子设备以第一显示效果显示与所述 主音频信息对应的用户标识信息,及以第二显示效果显示与所述副音频信息对应的用户标 识息。
4. 如权利要求1-3任一权项所述的方法,其特征在于,将所述Μ段音频信息与所述N段 音频样本进行比对,确定所述Ν段音频样本对应的Ν个声纹特征中是否存在与所述第一声 纹特征相同的声纹特征,还包括: 若所述Ν段音频样本对应的Ν个声纹特征中不存在与所述第一声纹特征相同的声纹特 征,判断所述Μ段音频信息是否为关键音频信息;其中,所述关键音频信息为与所述电子设 备中存储的联系对象相关的首频息; 若所述Μ段音频信息为所述关键音频信息,根据所述联系对象建立与所述Μ段音频信 息对应的用户标识信息;或者 若所述Μ段音频信息不为所述关键音频信息,设置第一特定标识信息作为与所述Μ段 音频信息对应的用户标识信息;其中,所述第一特定标识信息为所述电子设备中特定图像 /[目息、特定文字?目息及特定语首彳目息中任一?目息或组合?目息。
5. 如权利要求4所述的方法,其特征在于,在若所述Μ段音频信息为所述关键音频信 息,根据所述联系对象建立与所述Μ段音频信息对应的用户标识信息的同时或之后,所述 方法还包括: 根据所述Μ段音频信息,获取第一音频片断; 将所述第一音频片断作为第Ν+1段音频样本进行存储;其中,所述Ν+1段音频样本与所 述Μ段音频信息对应于同一用户标识信息。
6. -种电子设备,所述电子设备中存储有Ν段音频样本,所述Ν段音频样本中的每段音 频样本分别对应一个用户标识信息,所述用户标识信息包含能够用于表征与音频信息对应 的音频对象的信息,Ν为正整数,所述电子设备包括: 解析模块,用于在输出一语音文件的过程中,解析出所述语音文件中的具有第一声纹 特征的Μ段音频信息,Μ为正整数; 比对模块,用于将所述Μ段音频信息与所述Ν段音频样本进行比对,确定所述Ν段音频 样本对应的Ν个声纹特征中是否存在与所述第一声纹特征相同的声纹特征; 第一确定模块,用于若存在,确定所述Ν段音频样本中与所述第一声纹特征相同的声 纹特征所对应的第一音频样本,并根据音频样本与用户标识信息的对应关系,确定与所述Μ 段音频信息对应的第一用户标识信息; 输出模块,用于输出所述语音文件;其中,当播放具有所述第一声纹特征的音频信息 时,控制所述电子设备以第一显示效果显示所述第一用户标识信息。
7. 如权利要求6所述的电子设备,其特征在于,所述电子设备还包括: 分离模块,用于检测到所述语音文件中包含的音频信息段中同时具有第二声纹特征及 第三声纹特征时,根据所述第二声纹特征及所述第三声纹特征从所述音频信息段中分离出 具有所述第二声纹特征的第二音频信息,以及具有所述第三声纹特征的第三音频信息; 第二确定模块,用于通过将所述第二音频信息及所述第三音频信息分别与所述Ν段音 频样本进行比对,确定出与所述第二声纹特征相对应的第二音频样本,以及与第三声纹特 征相对应的第三音频样本;并根据音频样本与用户标识信息的对应关系,确定出与所述第 二声纹特征相对应第二用户标识信息,以及与所述第三声纹特征相对应的第三用户标识信 息; 控制模块,用于控制所述电子设备在播放所述音频信息的过程中,同时显示所述第二 用户标识信息和所述第三用户标识信息。
8. 如权利要求7所述的电子设备,其特征在于,所述电子设备还包括: 检测模块,用于检测具有所述第二声纹特征的音频信息对应的第二音频强度,及具有 所述第三声纹特征的音频信息对应的第三音频强度; 比较模块,用于比较所述第二声音强度和所述第三声音强度,将其中声音强度大的音 频信息确定为主音频信息,及将声音强度小的音频信息确定为副音频信息; 第一处理模块,用于根据声音强度与显示效果的对应关系,控制所述电子设备以第一 显示效果显示与所述主音频信息对应的用户标识信息,及以第二显示效果显示与所述副音 频信息对应的用户标识信息。
9. 如权利要求6-8任一权项所述的电子设备,其特征在于,所述电子设备还包括: 判断模块,用于若所述N段音频样本对应的N个声纹特征中不存在与所述第一声纹特 征相同的声纹特征,判断所述Μ段音频信息是否为关键音频信息;其中,所述关键音频信息 为与所述电子设备中存储的联系对象相关的音频信息; 第二处理模块,用于若所述Μ段音频信息为所述关键音频信息,根据所述联系对象建 立与所述Μ段音频信息对应的用户标识信息;或者,若所述Μ段音频信息不为所述关键音频 信息,设置第一特定标识信息作为与所述Μ段音频信息对应的用户标识信息;其中,所述第 一特定标识信息为所述电子设备中特定图像信息、特定文字信息及特定语音信息中任一信 息或组合信息。
10. 如权利要求9所述的电子设备,其特征在于,所述电子设备还包括: 获取模块,用于根据所述Μ段音频信息,获取第一音频片断; 存储模块,将所述第一音频片断作为第Ν+1段音频样本进行存储;其中,所述Ν+1段音 频样本与所述Μ段音频信息对应于同一用户标识信息。
【文档编号】G06F3/16GK104123115SQ201410364822
【公开日】2014年10月29日 申请日期:2014年7月28日 优先权日:2014年7月28日
【发明者】高扬 申请人:联想(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1