一种音频处理方法及装置的制造方法

文档序号:10472271阅读:378来源:国知局
一种音频处理方法及装置的制造方法
【专利摘要】本发明实施例提供一种音频处理方法及装置,其中的方法可包括:对待处理音频文件进行偏移切片处理,获得至少一个音频分片;采集所述至少一个音频分片的指纹信息,并将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对;根据比对结果获取所述待处理音频文件对应的文本文件。本发明能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件,有效提升音频处理的效率和准确度。
【专利说明】
-种音频处理方法及装置
技术领域
[0001] 本发明设及互联网技术领域,具体设及音频技术领域,尤其设及一种音频处理方 法及装置。
【背景技术】
[0002] 音频文件可W分为两类,一类指音乐类音频文件,如歌曲,主要由唱片公司或者网 络歌手提供;另一类指非音乐类音频文件,包括电台类节目或相声类等语音类节目,主要由 电台主播或表演者所提供。对于音乐类音频文件对应的文本文件(即歌词文件)一般已由唱 片公司或网络歌手提供;而对于非音乐类音频文件,由于运类音频文件可能由许多音乐片 断及人声混合交叉组合而成,而电台主播或表演者并不会提供相对应的文本文件,因此,针 对非音乐类音频文件对应的文本文件的查找及输出成为一个空白。

【发明内容】

[0003] 本发明实施例提供一种音频处理方法及装置,能够自动为非音乐类音频文件生成 对应的歌词、人声等文本文件,有效提升音频处理的效率和准确度。
[0004] 本发明实施例第一方面提供一种音频处理方法,可包括:
[0005] 对待处理音频文件进行偏移切片处理,获得至少一个音频分片;
[0006] 采集所述至少一个音频分片的指纹信息,并将所述至少一个音频分片的指纹信息 分别与预置指纹信息库进行比对;
[0007] 根据比对结果获取所述待处理音频文件对应的文本文件。
[000引优选地,所述对待处理音频文件进行偏移切片处理,获得至少一个音频分片,包 括:
[0009] 从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频 分片;
[0010] 依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片的时间属 性;
[0011] 其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的 起始位置的偏移时间。
[0012] 优选地,所述对待处理音频文件进行偏移切片处理,获得至少一个音频分片之前, 还包括:
[0013] 创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件的标识、所 述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,W及所述至少一个音频 文件对应的文本文件。
[0014] 优选地,所述将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比 对,包括:
[0015] 按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片, 将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指 纹信息进行比对;
[0016] 若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的 指纹信息相匹配,则将相匹配的音频文件的标识和名称,W及所述当前音频分片在相匹配 的音频文件中的映射位置保存为所述当前音频分片的一条比对记录;
[0017] 对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,所述比对结 果包括与所述待处理音频文件相匹配的目标音频文件的标识W及所述待处理音频文件在 相匹配的目标音频文件中的映射位置。
[0018] 优选地,所述对所述至少一个音频分片的比对记录进行去重处理,获得比对结果, 包括:
[0019] 如果存在至少两条比对记录包含名称相同但标识不同的音频文件,分别统计与所 述标识不同的音频文件相匹配的音频分片的数量;
[0020] 选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音 频文件的标识;
[0021 ]将与目标音频文件相匹配的连续音频分片进行拼接处理;
[0022] 将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理 音频文件在目标音频文件中的映射位置。
[0023] 优选地,所述根据比对结果获取所述待处理音频文件对应的文本文件,包括:
[0024] 从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对 应的目标文本文件;
[0025] 根据所述待处理音频文件在所述目标音频文件中的映射位置,从所述目标文本文 件中提取所述映射位置对应的文本片段;
[0026] 将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
[0027] 本发明实施例第二方面一种音频处理装置,可包括:
[0028] 处理单元,用于对待处理音频文件进行偏移切片处理,获得至少一个音频分片;
[0029] 采集单元,用于采集所述至少一个音频分片的指纹信息;
[0030] 比对单元,用于将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行 比对;
[0031] 获取单元,用于根据比对结果获取所述待处理音频文件对应的文本文件。
[0032] 优选地,所述处理单元包括:
[0033] 音频分片提取单元,从待处理音频文件的起始位置每隔预置偏移时间提取一段预 置分片时长的音频分片;
[0034] 存储单元,用于依次存储所获得的至少一个音频分片,并记录所述至少一个音频 分片的时间属性;
[0035] 其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的 起始位置的偏移时间。
[0036] 优选地,该装置还包括:
[0037] 创建单元,用于创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频 文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,W及所述 至少一个音频文件对应的文本文件。
[0038] 优选地,所述比对单元包括:
[0039] 当前选取单元,用于按照偏移时间由小到大的顺序依次从所述至少一个音频分片 选取当前音频分片;
[0040] 当前比对单元,用于将所选取的当前音频分片的指纹信息与所述预置指纹信息库 中的至少一个音频文件的指纹信息进行比对.
[0041] 比对记录保存单元,用于若所述预置指纹信息库中存在音频文件的指纹信息与所 选取的当前音频分片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,W及所述 当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记 录;
[0042] 去重处理单元,用于对所述至少一个音频分片的比对记录进行去重处理,获得比 对结果,所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识W及所述 待处理音频文件在相匹配的目标音频文件中的映射位置。
[0043] 优选地,所述去重处理单元包括:
[0044] 数量统计单元,用于如果存在至少两条比对记录包含名称相同但标识不同的音频 文件,分别统计与所述标识不同的音频文件相匹配的音频分片的数量;
[0045] 标识确定单元,用于选取数量最大的音频文件的标识确定为与所述待处理音频文 件相匹配的目标音频文件的标识;
[0046] 拼接处理单元,用于将与目标音频文件相匹配的连续音频分片进行拼接处理;
[0047] 映射位置确定单元,用于将拼接处理后的音频分片在所述目标音频文件中的映射 位置确定为所述待处理音频文件在目标音频文件中的映射位置。
[004引优选地,所述获取单元包括:
[0049] 查找单元,用于从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目 标音频文件对应的目标文本文件;
[0050] 文本片段提取单元,用于根据所述待处理音频文件在所述目标音频文件中的映射 位置,从所述目标文本文件中提取所述映射位置对应的文本片段;
[0051] 文本文件确定单元,用于将所提取的文本片段确定为所述待处理音频文件对应的 文本文件。
[0052] 本发明实施例可W对待处理音频文件进行偏移切片处理,获得至少一个音频分 片,采用预置指纹信息库来比对至少一个音频分片的指纹信息,根据比对结果获取所述待 处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌 词、人声等文本文件,无需人工干预节省人力成本,并且能够有效地提升音频处理的效率和 准确度。
【附图说明】
[0053] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据运些附图获得其他的附图。
[0054] 图1为本发明实施例提供的一种音频处理方法的流程图;
[0055] 图2为本发明实施例提供的另一种音频处理方法的流程图;
[0056] 图3为本发明实施例提供的一种音频处理装置的结构示意图。
【具体实施方式】
[0057] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0058] 音频文件可W分为两类,一类指音乐类音频文件,如歌曲;另一类指非音乐类音频 文件,包括电台类节目或相声类等语音类节目。本发明实施例的音频处理方案优选适用于 对非音乐类音频文件进行处理,为了更为准确地进行音频处理,本发明后续各实施例中所 述的音频文件,优选指非音乐类的、原始音频格式的文件,即优选为8K采样率、16bit量化位 数、单声道wav(-种声音文件格式)文件。若待处理音频文件为其他音频格式的文件,例如: MP3(Moving Pierre Experts Group Audio Layer III,动态影像专家压缩标准音频层面 3)、WMA(Windows Media Audio,数字音频格式)、APE(-种数字音频无损压缩格式)等格式 的音频文件,则需要首先对其进行格式转换处理。
[0059] 本发明实施例可W对待处理音频文件进行偏移切片处理,获得至少一个音频分 片,采用预置指纹信息库来比对至少一个音频分片的指纹信息,根据比对结果获取所述待 处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌 词、人声等文本文件,无需人工干预节省人力成本,并且能够有效地提升音频处理的效率和 准确度。
[0060] 基于上述描述,本发明实施例提供了一种音频处理方法,请参见图1,该方法可包 括W下步骤S101-步骤S104。
[0061] S101,对待处理音频文件进行偏移切片处理,获得至少一个音频分片。
[0062] 偏移分片处理是指每隔一定的偏移时间即切取一段一定时长的音频分片,例如: 假设偏移时间为Is,而分片时长为10s,那么,可从待处理音频文件的开始位置起,偏移Os时 切时长为10s的第一音频分片,该第一音频分片的偏移时间为Os,起止时间为Os-lOs;偏移 1S时切时长为10s的第二音频分片,该第二音频分片的偏移时间为1S,起止时间为1S-11S; 偏移2s时切时长为10s的第Ξ音频分片,该第Ξ音频分片的偏移时间为2s,起止时间为2s- 12s; W此类推。由此可见,偏移处理后所获得的至少一个音频分片中每个音频分片的时长 相同,每个音频分片所包含的音频数据存在重叠,但每个音频分片的起止时间和偏移时间 均不相同。具体实现中,可W采用一些音频处理工具来对待处理音频文件进行偏移切片处 理,此处的音频处理工具可W包括但不限于:ffmpeg(化st化rward Mpeg,用于记录、转换 数字音频、视频,并将其转化为流的开源计算机程序)工具。优选地,音频分片为8K采样率、 1化i t量化位数、单声道wav文件。
[0063] S102,采集所述至少一个音频分片的指纹信息。
[0064] 音频的指纹信息是指可W代表一段音频的重要声学特征、基于该音频所包含的内 容的紧致数字签名,具备如下主要优点:①鲁棒性,即使音频出现比较严重的失真、噪声、变 调等情况,指纹信息仍然能够识别并表征该音频的重要声学特征;②区分性,一个指纹信息 可唯一标识一段音频,不同音频之间的指纹信息具有差异;③可靠性,即通过指纹信息识别 音频时其错误识别的概率较低。也就是说,音频分片的指纹信息是指可W代表该音频分片 的重要声学特征的基于内容的紧致数字签名。具体实现中,可W采用一些音频指纹提取算 法来采集每个音频分片的指纹信息,此处的音频指纹提取算法可包括但不限于:最大指纹 特征算法、哈希算法、复倒谱变换算法、小波包变换算法等等。一个音频分片对应一个指纹 信息。
[0065] S103,将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对。
[0066] 预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名 称、所述至少一个音频文件的指纹信息,W及所述至少一个音频文件对应的文本文件。具体 实现中,可依次将所述至少一个音频分片的指纹信息分别与预置指纹信息库中的各音频文 件的指纹信息进行比对,如果某个音频分片的指纹信息与某个音频文件的指纹信息的相似 度达到预设值(此处的预设值可根据实际需要设定,例如:85%、90%等)W上,那么可认为 该音频分片与预置指纹信息库中的该音频文件相匹配。
[0067] S104,根据比对结果获取所述待处理音频文件对应的文本文件。
[0068] 比对结果可包括与所述待处理音频文件相匹配的目标音频文件的标识W及所述 待处理音频文件在相匹配的目标音频文件中的映射位置。那么,根据目标音频文件的标识 可从预置指纹信息库中获得目标音频文件对应的文本文件,进一步,根据待处理音频文件 在目标音频文件中的映射位置,那么可从目标音频文件对应的文本文件中提取映射位置对 应的文本片段,此文本片段即为待处理音频文件对应的文本文件。
[0069] 本发明实施例的音频处理方法,可W对待处理音频文件进行偏移切片处理,获得 至少一个音频分片,采用预置指纹信息库来比对至少一个音频分片的指纹信息,根据比对 结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文 件生成对应的歌词、人声等文本文件,无需人工干预节省人力成本,并且能够有效地提升音 频处理的效率和准确度。
[0070] 本发明实施例还提供了另一种音频处理方法,本实施例的方法侧重于描述如何定 位目标音频文件的片头位置的过程。请参见图2,该方法可包括W下步骤S201-步骤S210。
[0071] S201,创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件的标 识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,W及所述至少一个 音频文件对应的文本文件。
[0072] 本实施例中,预置指纹信息库可W采用下述表一进行表示:
[0073] 表一:预置指纹信息库
[0074]
[0075] 上述表一可知,一个标识可唯一标识一个音频文件,预置指纹信息库中可包含相 同名称不同标识的音频文件,例如上述表一中的标识为al的歌曲A及标识为a2的歌曲A。预 置指纹信息库中也可包含名称不同、标识不同的音频文件,例如上述表一中的标识为b的歌 曲B及标识为C的歌曲C。一般地,具备相同名称不同标识的音频文件通常可能是同一音乐的 不同版本,例如:歌曲A可包含原唱版、演唱会版、网络版等不同版本。
[0076] S202,从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的 音频分片。
[0077] S203,依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片的时 间属性。其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起 始位置的偏移时间。
[0078] 本实施例的步骤S202-S203可W为图1所示实施例的步骤S101的具体细化步骤。步 骤S202-S203中,预置偏移时间及预置分片时长均可W根据实际需要进行设定。本实施例可 假设预置偏移时间为Is,预置分片时长为10s,那么假设待处理音频文件为歌曲A,从歌曲A 的开始位置即Os的时刻,偏移Os时切时长为10s的第一音频分片,该第一音频分片相对歌曲 A的起始位置的偏移时间为Os,起止时间为Os-lOs;偏移Is时切时长为10s的第二音频分片, 该第二音频分片相对歌曲A的起始位置的偏移时间为1S,起止时间为1S-11S;偏移2s时切时 长为10s的第Ξ音频分片,该第Ξ音频分片相对歌曲A的起始位置的偏移时间为2s,起止时 间为2s-12s;W此类推。所获得的至少一个音频分片可W采用下述表二进行表示:
[00巧]表二:音频分片 [0080]
[0081] S204,采集所述至少一个音频分片的指纹信息。本步骤可参见图1所示实施例的步 骤S102,在此不寶述。
[0082] S205,按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频 分片。
[0083] S206,将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个 音频文件的指纹信息进行比对。
[0084] S207,若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分 片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,W及所述当前音频分片在相 匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录。
[0085] 步骤S205-S207中,按照偏移时间由小到大的顺序,参照上述表二首先选取第一音 频分片为当前音频分片,将第一音频分片的指纹信息与预置指纹信息库中的各音频文件的 指纹信息进行比对,如果存在与第一音频分片的指纹信息相匹配的音频文件,那么将相匹 配的音频文件的标识和名称,W及第一音频分片在相匹配的音频文件中的映射位置保存为 第一音频分片的一条比对记录;然后再按照上述表二依次选取第二音频分片为当前音频分 片,重复上述步骤。如果预置指纹信息库中不存在与第一音频分片的指纹信息相匹配的音 频文件,那么直接按照上述表二依次选取第二音频分片为当前音频分片,重复上述步骤。经 过步骤S205-S207,可W将待处理音频文件偏移切片得到的所有音频分片进行比对,得到若 干条比对记录。此处需要说明的是,由于音频分片是不完整的音频数据,而预置指纹信息库 中的音频文件通常是完整的音频数据,因此,音频分片的指纹信息与音频文件的指纹信息 进行比对的过程中,除了匹配指纹信息之间的相似度之外,同时可获得音频分片在相匹配 的音频文件中的映射位置,例如:第八音频分片在歌曲B中的映射位置为第25s开始持续7s; 或者,第九音频分片在歌曲B中的映射位置为第26s开始持续6s;或者,第十音频分片在歌曲 B中的映射位置为第27s开始持续5s;等等。
[0086] S208,对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,所述比 对结果包括与所述待处理音频文件相匹配的目标音频文件的标识W及所述待处理音频文 件在相匹配的目标音频文件中的映射位置。
[0087] 由于音频分片的数量较多且相互之间存在重叠,那么所获得的若干条比对记录中 包含许多重复数据,为了保证音频处理的准确性,本步骤需要对若干条比对记录进行去重 处理,得到最终的比对结果。该方法在执行步骤S208的过程中,具体执行如下步骤S11-S14:
[0088] sll,如果存在至少两条比对记录包含名称相同但标识不同的音频文件,分别统计 与所述标识不同的音频文件相匹配的音频分片的数量。
[0089] sl2,选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目 标音频文件的标识。
[0090] 步骤S11-S12是针对同名音频文件的去重步骤,例如:假设某Ξ条比对记录中均包 含歌曲A,但歌曲A在Ξ条比对记录中的标识不同,分别为标识为al的歌曲A为原唱版,标识 为曰2的歌曲A为演唱会版,标识为曰3的歌曲A为网络版;那么,本步骤则统计歌曲A不同版本 相匹配的音频分片的数量,进一步假设与歌曲A的原唱版相匹配的音频分片的数量为20片, 与歌曲A的演唱会版相匹配的音频分片的数量为18片,与歌曲A的网络版相匹配的音频分片 的数量为16片,由此可见歌曲A的原唱版相匹配的音频分片的数量为最多,则可认为歌曲A 的原唱版的置信度最高;由于与歌曲A的原唱版相匹配的音频分片均来自待处理音频文件, 因此可将歌曲A的原唱版确定为与待处理音频文件相匹配的目标音频文件,其标识为al。
[0091] sl3,将与目标音频文件相匹配的连续音频分片进行拼接处理。
[0092] S14,将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待 处理音频文件在目标音频文件中的映射位置。
[0093] 步骤S13-S14是针对重复音频分片的去重步骤;如前述例子可知,目标音频文件为 歌曲A的原唱版,其相匹配的音频分片的数量为20片,那么,运20片中出现的连续音频分片 可W进行拼接处理,具体是否连续可依据各音频分片的时间属性确定,例如:假设20片音频 分片为第一音频分片至第二十音频分片,其偏移时间从Os至19s,因此运20片音频分片即为 连续音频分片,根据比对记录,第一音频分片在歌曲A的原唱版中的映射位置为第11s开始 持续9s,第二音频分片在歌曲A的原唱版中的映射位置为第12s开始持续8s,W此类推,第二 十音频分片在歌曲A的原唱版中的映射位置为第31s开始持续2s,则可得到拼接处理后的连 续音频分片在歌曲A的原唱版的映射位置为11S-33S,可确定待处理音频文件在目标音频文 件中的映射位置为11S-33S。可W理解的是,上述例子中,如果20片音频分片中除了连续音 频分片之外还存在单个的音频分片,那么待处理音频文件在目标音频文件中的映射位置由 拼接处理后的连续音频分片在目标音频文件中的映射位置,W及单个音频分片在目标音频 文件中的映射位置共同组成。
[0094] 本实施例的步骤S204-S208可W为图1所示实施例的步骤S103的具体细化步骤。 [00M] S209,从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文 件对应的目标文本文件。
[0096] S210,根据所述待处理音频文件在所述目标音频文件中的映射位置,从所述目标 文本文件中提取所述映射位置对应的文本片段。
[0097] S211,将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
[0098] 本实施例的步骤S209-S211可W为图1所示实施例的步骤S104的具体细化步骤。步 骤S209-S211中,由于比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识 W及所述待处理音频文件在相匹配的目标音频文件中的映射位置。那么,根据目标音频文 件的标识可从预置指纹信息库中获得目标音频文件对应的文本文件,进一步,根据待处理 音频文件在目标音频文件中的映射位置,那么可从目标音频文件对应的文本文件中提取映 射位置对应的文本片段,此文本片段即为待处理音频文件对应的文本文件。按照本实施例 所示例子,待处理音频文件在歌曲A的原唱版中的映射位置为11S-33S,那么,从歌曲A的原 唱版的歌词文件中提取11S-33S的歌词片段,确定为待处理音频文件对应的文本文件。可W 理解的是,由于待处理音频文件可能由许多音乐片断及人声混合交叉组合而成,因此通过 本发明实施例得到的待处理音频文件对应的文本文件也可能是由多个音乐歌词片段及语 音文本片段共同构成。
[0099] 本发明实施例的音频处理方法,可W对待处理音频文件进行偏移切片处理,获得 至少一个音频分片,采用预置指纹信息库来比对至少一个音频分片的指纹信息,根据比对 结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文 件生成对应的歌词、人声等文本文件,无需人工干预节省人力成本,并且能够有效地提升音 频处理的效率和准确度。
[0100] 基于上述方法实施例的描述,下面将结合附图3,对本发明实施例提供的音频处理 装置进行详细介绍。需要说明的是,下述的音频处理装置可用于执行上述图1-图2所示的音 频处理方法。具体地,本发明实施例提供了一种音频处理装置,请一并参见图3,该装置运行 如下单元:
[0101] 处理单元101,用于对待处理音频文件进行偏移切片处理,获得至少一个音频分 片。
[0102] 采集单元102,用于采集所述至少一个音频分片的指纹信息。
[0103] 比对单元103,用于将所述至少一个音频分片的指纹信息分别与预置指纹信息库 进行比对。
[0104] 获取单元104,用于根据比对结果获取所述待处理音频文件对应的文本文件。
[0105] 具体实现中,该装置在运行所述处理单元101的过程中,具体运行如下单元:
[0106] 音频分片提取单元1001,从待处理音频文件的起始位置每隔预置偏移时间提取一 段预置分片时长的音频分片。
[0107] 存储单元1002,用于依次存储所获得的至少一个音频分片,并记录所述至少一个 音频分片的时间属性。其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理 音频文件的起始位置的偏移时间。
[0108] 具体实现中,该装置还运行如下单元:
[0109] 创建单元105,用于创建预置指纹信息库,所述预置指纹信息库中包含至少一个音 频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,W及所 述至少一个音频文件对应的文本文件。
[0110] 具体实现中,该装置在运行所述比对单元103的过程中,具体运行如下单元:
[0111] 当前选取单元2001,用于按照偏移时间由小到大的顺序依次从所述至少一个音频 分片选取当前音频分片。
[0112] 当前比对单元2002,用于将所选取的当前音频分片的指纹信息与所述预置指纹信 息库中的至少一个音频文件的指纹信息进行比对。
[0113] 比对记录保存单元2003,用于若所述预置指纹信息库中存在音频文件的指纹信息 与所选取的当前音频分片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,W及 所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比 对记录;
[0114] 去重处理单元2004,用于对所述至少一个音频分片的比对记录进行去重处理,获 得比对结果,所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识W及 所述待处理音频文件在相匹配的目标音频文件中的映射位置。
[0115] 具体实现中,该装置在运行所述去重处理单元2004的过程中,具体运行如下单元:
[0116] 数量统计单元2401,用于如果存在至少两条比对记录包含名称相同但标识不同的 音频文件,分别统计与所述标识不同的音频文件相匹配的音频分片的数量。
[0117]标识确定单元2402,用于选取数量最大的音频文件的标识确定为与所述待处理音 频文件相匹配的目标音频文件的标识。
[0118] 拼接处理单元2403,用于将与目标音频文件相匹配的连续音频分片进行拼接处 理。
[0119] 映射位置确定单元2404,用于将拼接处理后的音频分片在所述目标音频文件中的 映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
[0120] 具体实现中,该装置在运行所述获取单元104的过程中,具体运行如下单元:
[0121] 查找单元3001,用于从所述预置指纹信息库中查找与所述待处理音频文件相匹配 的目标音频文件对应的目标文本文件。
[0122] 文本片段提取单元3002,用于根据所述待处理音频文件在所述目标音频文件中的 映射位置,从所述目标文本文件中提取所述映射位置对应的文本片段。
[0123] 文本文件确定单元3003,用于将所提取的文本片段确定为所述待处理音频文件对 应的文本文件。
[0124] 由于图3所示的音频处理装置可用于执行图1-图2所示实施例的方法,因此,图3所 示的各单元的功能可参见图1-图2所示方法各步骤的相关描述,在此不寶述。需要特别说明 的是,图3所示的音频处理装置可W是运行于实体设备中的一个应用程序,并且至少存在W 下两种可行的实施方式:
[0125] 在一种可行的实施方式中,该音频处理装置可W是运行于一个实体设备中独立工 作,例如:该音频处理装置可W运行于一个终端中,该终端可包括但不限于:PC(Personal Computer,个人计算机)、手机、PDA(平板电脑)、智能可穿戴设备等等,由终端独立实现图1- 图2所示的方法流程;或者,该音频处理装置也可W运行于一个服务器中,由服务器独立实 现图1-图2所示的方法流程。
[0126] 在另一种可行的实施方式中,该音频处理装置可W是分布运行于多个实体设备 中,分布部分协调工作,例如:该音频处理装置的一部分可W运行于一个终端中,而另一部 分可W运行于一个服务器中,由终端与服务器协调工作从而实现图1-图2所示的方法流程。 在此实施方式中,图3所示的创建单元105、比对单元103和获取单元104可W位于服务器中, 而处理单元101和采集单元102可W位于终端中;而对应在执行图1-图2所示的方法流程时, 创建预置指纹信息库的过程、比对过程W及获得文本文件的过程可W发生于服务器中,而 其他过程包括获得至少一个音频分片,采集至少一个音频分片的指纹信息可W发生于终端 中。具体地,终端可W将音频分片的指纹信息发送至服务器进行比对,服务器根据比对结果 获取待处理音频文件对应的文本文件并反馈给终端输出。
[0127] 与方法同理,本发明实施例的音频处理装置,可W对待处理音频文件进行偏移切 片处理,获得至少一个音频分片,采用预置指纹信息库来比对至少一个音频分片的指纹信 息,根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非 音乐类音频文件生成对应的歌词、人声等文本文件,无需人工干预节省人力成本,并且能够 有效地提升音频处理的效率和准确度。
[0128] 本领域普通技术人员可W理解实现上述实施例方法中的全部或部分流程,是可W 通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质 中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁 碟、光盘、只读存储记忆体(Read-Only Memoir,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0129] W上所掲露的仅为本发明较佳实施例而已,当然不能W此来限定本发明之权利范 围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
【主权项】
1. 一种音频处理方法,其特征在于,包括: 对待处理音频文件进行偏移切片处理,获得至少一个音频分片; 采集所述至少一个音频分片的指纹信息,并将所述至少一个音频分片的指纹信息分别 与预置指纹信息库进行比对; 根据比对结果获取所述待处理音频文件对应的文本文件。2. 如权利要求1所述的方法,其特征在于,所述对待处理音频文件进行偏移切片处理, 获得至少一个音频分片,包括: 从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片; 依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片的时间属性; 其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始 位置的偏移时间。3. 如权利要求1或2所述的方法,其特征在于,所述对待处理音频文件进行偏移切片处 理,获得至少一个音频分片之前,还包括: 创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件的标识、所述至 少一个音频文件的名称、所述至少一个音频文件的指纹信息,以及所述至少一个音频文件 对应的文本文件。4. 如权利要求3所述的方法,其特征在于,所述将所述至少一个音频分片的指纹信息分 别与预置指纹信息库进行比对,包括: 按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片,将所 选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信 息进行比对; 若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹 信息相匹配,则将相匹配的音频文件的标识和名称,以及所述当前音频分片在相匹配的音 频文件中的映射位置保存为所述当前音频分片的一条比对记录; 对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,所述比对结果包 括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹 配的目标音频文件中的映射位置。5. 如权利要求4所述的方法,其特征在于,所述对所述至少一个音频分片的比对记录进 行去重处理,获得比对结果,包括: 如果存在至少两条比对记录包含名称相同但标识不同的音频文件,分别统计与所述标 识不同的音频文件相匹配的音频分片的数量; 选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文 件的标识; 将与目标音频文件相匹配的连续音频分片进行拼接处理; 将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频 文件在目标音频文件中的映射位置。6. 如权利要求5所述的方法,其特征在于,所述根据比对结果获取所述待处理音频文件 对应的文本文件,包括: 从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的 目标文本文件; 根据所述待处理音频文件在所述目标音频文件中的映射位置,从所述目标文本文件中 提取所述映射位置对应的文本片段; 将所提取的文本片段确定为所述待处理音频文件对应的文本文件。7. -种音频处理装置,其特征在于,包括: 处理单元,用于对待处理音频文件进行偏移切片处理,获得至少一个音频分片; 采集单元,用于采集所述至少一个音频分片的指纹信息; 比对单元,用于将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比 对; 获取单元,用于根据比对结果获取所述待处理音频文件对应的文本文件。8. 如权利要求7所述的装置,其特征在于,所述处理单元包括: 音频分片提取单元,从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分 片时长的音频分片; 存储单元,用于依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片 的时间属性; 其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始 位置的偏移时间。9. 如权利要求7或8所述的装置,其特征在于,还包括: 创建单元,用于创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件 的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,以及所述至少 一个音频文件对应的文本文件。10. 如权利要求9所述的装置,其特征在于,所述比对单元包括: 当前选取单元,用于按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取 当前音频分片; 当前比对单元,用于将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的 至少一个音频文件的指纹信息进行比对; 比对记录保存单元,用于若所述预置指纹信息库中存在音频文件的指纹信息与所选取 的当前音频分片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,以及所述当前 音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录; 去重处理单元,用于对所述至少一个音频分片的比对记录进行去重处理,获得比对结 果,所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处 理音频文件在相匹配的目标音频文件中的映射位置。11. 如权利要求10所述的装置,其特征在于,所述去重处理单元包括: 数量统计单元,用于如果存在至少两条比对记录包含名称相同但标识不同的音频文 件,分别统计与所述标识不同的音频文件相匹配的音频分片的数量; 标识确定单元,用于选取数量最大的音频文件的标识确定为与所述待处理音频文件相 匹配的目标音频文件的标识; 拼接处理单元,用于将与目标音频文件相匹配的连续音频分片进行拼接处理; 映射位置确定单元,用于将拼接处理后的音频分片在所述目标音频文件中的映射位置 确定为所述待处理音频文件在目标音频文件中的映射位置。12.如权利要求11所述的装置,其特征在于,所述获取单元包括: 查找单元,用于从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音 频文件对应的目标文本文件; 文本片段提取单元,用于根据所述待处理音频文件在所述目标音频文件中的映射位 置,从所述目标文本文件中提取所述映射位置对应的文本片段; 文本文件确定单元,用于将所提取的文本片段确定为所述待处理音频文件对应的文本 文件。
【文档编号】G06F17/30GK105825850SQ201610286452
【公开日】2016年8月3日
【申请日】2016年4月29日
【发明人】孙嘉骏, 王志豪, 赵伟峰, 杨雍, 车斌, 周旋, 许华彬
【申请人】腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1