一种音频处理方法及装置的制造方法

文档序号：10472271阅读：378来源：国知局

一种音频处理方法及装置的制造方法
【专利摘要】本发明实施例提供一种音频处理方法及装置，其中的方法可包括：对待处理音频文件进行偏移切片处理，获得至少一个音频分片；采集所述至少一个音频分片的指纹信息，并将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对；根据比对结果获取所述待处理音频文件对应的文本文件。本发明能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件，有效提升音频处理的效率和准确度。
【专利说明】
-种音频处理方法及装置
技术领域
[0001] 本发明设及互联网技术领域，具体设及音频技术领域，尤其设及一种音频处理方法及装置。
【背景技术】
[0002] 音频文件可W分为两类，一类指音乐类音频文件，如歌曲，主要由唱片公司或者网络歌手提供;另一类指非音乐类音频文件，包括电台类节目或相声类等语音类节目，主要由电台主播或表演者所提供。对于音乐类音频文件对应的文本文件（即歌词文件)一般已由唱片公司或网络歌手提供;而对于非音乐类音频文件，由于运类音频文件可能由许多音乐片断及人声混合交叉组合而成，而电台主播或表演者并不会提供相对应的文本文件，因此，针对非音乐类音频文件对应的文本文件的查找及输出成为一个空白。

【发明内容】

[0003] 本发明实施例提供一种音频处理方法及装置，能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件，有效提升音频处理的效率和准确度。
[0004] 本发明实施例第一方面提供一种音频处理方法，可包括：
[0005] 对待处理音频文件进行偏移切片处理，获得至少一个音频分片；
[0006] 采集所述至少一个音频分片的指纹信息，并将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对；
[0007] 根据比对结果获取所述待处理音频文件对应的文本文件。
[000引优选地，所述对待处理音频文件进行偏移切片处理，获得至少一个音频分片，包括：
[0009] 从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片；
[0010] 依次存储所获得的至少一个音频分片，并记录所述至少一个音频分片的时间属性；
[0011] 其中，一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
[0012] 优选地，所述对待处理音频文件进行偏移切片处理，获得至少一个音频分片之前，还包括：
[0013] 创建预置指纹信息库，所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息，W及所述至少一个音频文件对应的文本文件。
[0014] 优选地，所述将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对，包括：
[0015] 按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片，将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对；
[0016] 若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配，则将相匹配的音频文件的标识和名称，W及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录；
[0017] 对所述至少一个音频分片的比对记录进行去重处理，获得比对结果，所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识W及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
[0018] 优选地，所述对所述至少一个音频分片的比对记录进行去重处理，获得比对结果，包括：
[0019] 如果存在至少两条比对记录包含名称相同但标识不同的音频文件，分别统计与所述标识不同的音频文件相匹配的音频分片的数量；
[0020] 选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识；
[0021 ]将与目标音频文件相匹配的连续音频分片进行拼接处理；
[0022] 将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
[0023] 优选地，所述根据比对结果获取所述待处理音频文件对应的文本文件，包括：
[0024] 从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件；
[0025] 根据所述待处理音频文件在所述目标音频文件中的映射位置，从所述目标文本文件中提取所述映射位置对应的文本片段；
[0026] 将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
[0027] 本发明实施例第二方面一种音频处理装置，可包括：
[0028] 处理单元，用于对待处理音频文件进行偏移切片处理，获得至少一个音频分片；
[0029] 采集单元，用于采集所述至少一个音频分片的指纹信息；
[0030] 比对单元，用于将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对；
[0031] 获取单元，用于根据比对结果获取所述待处理音频文件对应的文本文件。
[0032] 优选地，所述处理单元包括：
[0033] 音频分片提取单元，从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片；
[0034] 存储单元，用于依次存储所获得的至少一个音频分片，并记录所述至少一个音频分片的时间属性；
[0035] 其中，一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
[0036] 优选地，该装置还包括：
[0037] 创建单元，用于创建预置指纹信息库，所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息，W及所述至少一个音频文件对应的文本文件。
[0038] 优选地，所述比对单元包括：
[0039] 当前选取单元，用于按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片；
[0040] 当前比对单元，用于将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对.
[0041] 比对记录保存单元，用于若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配，则将相匹配的音频文件的标识和名称，W及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录；
[0042] 去重处理单元，用于对所述至少一个音频分片的比对记录进行去重处理，获得比对结果，所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识W及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
[0043] 优选地，所述去重处理单元包括：
[0044] 数量统计单元，用于如果存在至少两条比对记录包含名称相同但标识不同的音频文件，分别统计与所述标识不同的音频文件相匹配的音频分片的数量；
[0045] 标识确定单元，用于选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识；
[0046] 拼接处理单元，用于将与目标音频文件相匹配的连续音频分片进行拼接处理；
[0047] 映射位置确定单元，用于将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
[004引优选地，所述获取单元包括：
[0049] 查找单元，用于从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件；
[0050] 文本片段提取单元，用于根据所述待处理音频文件在所述目标音频文件中的映射位置，从所述目标文本文件中提取所述映射位置对应的文本片段；
[0051] 文本文件确定单元，用于将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
[0052] 本发明实施例可W对待处理音频文件进行偏移切片处理，获得至少一个音频分片，采用预置指纹信息库来比对至少一个音频分片的指纹信息，根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件，无需人工干预节省人力成本，并且能够有效地提升音频处理的效率和准确度。
【附图说明】
[0053] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可W 根据运些附图获得其他的附图。
[0054] 图1为本发明实施例提供的一种音频处理方法的流程图；
[0055] 图2为本发明实施例提供的另一种音频处理方法的流程图；
[0056] 图3为本发明实施例提供的一种音频处理装置的结构示意图。
【具体实施方式】
[0057] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0058] 音频文件可W分为两类，一类指音乐类音频文件，如歌曲；另一类指非音乐类音频文件，包括电台类节目或相声类等语音类节目。本发明实施例的音频处理方案优选适用于对非音乐类音频文件进行处理，为了更为准确地进行音频处理，本发明后续各实施例中所述的音频文件，优选指非音乐类的、原始音频格式的文件，即优选为8K采样率、16bit量化位数、单声道wav(-种声音文件格式)文件。若待处理音频文件为其他音频格式的文件，例如： MP3(Moving Pierre Experts Group Audio Layer III，动态影像专家压缩标准音频层面 3)、WMA(Windows Media Audio,数字音频格式）、APE(-种数字音频无损压缩格式)等格式的音频文件，则需要首先对其进行格式转换处理。
[0059] 本发明实施例可W对待处理音频文件进行偏移切片处理，获得至少一个音频分片，采用预置指纹信息库来比对至少一个音频分片的指纹信息，根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件，无需人工干预节省人力成本，并且能够有效地提升音频处理的效率和准确度。
[0060] 基于上述描述，本发明实施例提供了一种音频处理方法，请参见图1，该方法可包括W下步骤S101-步骤S104。
[0061] S101，对待处理音频文件进行偏移切片处理，获得至少一个音频分片。
[0062] 偏移分片处理是指每隔一定的偏移时间即切取一段一定时长的音频分片，例如：假设偏移时间为Is,而分片时长为10s，那么，可从待处理音频文件的开始位置起，偏移Os时切时长为10s的第一音频分片，该第一音频分片的偏移时间为Os，起止时间为Os-lOs;偏移 1S时切时长为10s的第二音频分片，该第二音频分片的偏移时间为1S，起止时间为1S-11S; 偏移2s时切时长为10s的第Ξ音频分片，该第Ξ音频分片的偏移时间为2s，起止时间为2s- 12s; W此类推。由此可见，偏移处理后所获得的至少一个音频分片中每个音频分片的时长相同，每个音频分片所包含的音频数据存在重叠，但每个音频分片的起止时间和偏移时间均不相同。具体实现中，可W采用一些音频处理工具来对待处理音频文件进行偏移切片处理，此处的音频处理工具可W包括但不限于：ffmpeg(化st化rward Mpeg,用于记录、转换数字音频、视频，并将其转化为流的开源计算机程序)工具。优选地，音频分片为8K采样率、 1化i t量化位数、单声道wav文件。
[0063] S102,采集所述至少一个音频分片的指纹信息。
[0064] 音频的指纹信息是指可W代表一段音频的重要声学特征、基于该音频所包含的内容的紧致数字签名，具备如下主要优点:①鲁棒性，即使音频出现比较严重的失真、噪声、变调等情况，指纹信息仍然能够识别并表征该音频的重要声学特征;②区分性，一个指纹信息可唯一标识一段音频，不同音频之间的指纹信息具有差异;③可靠性，即通过指纹信息识别音频时其错误识别的概率较低。也就是说，音频分片的指纹信息是指可W代表该音频分片的重要声学特征的基于内容的紧致数字签名。具体实现中，可W采用一些音频指纹提取算法来采集每个音频分片的指纹信息，此处的音频指纹提取算法可包括但不限于:最大指纹特征算法、哈希算法、复倒谱变换算法、小波包变换算法等等。一个音频分片对应一个指纹信息。
[0065] S103,将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对。
[0066] 预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息，W及所述至少一个音频文件对应的文本文件。具体实现中，可依次将所述至少一个音频分片的指纹信息分别与预置指纹信息库中的各音频文件的指纹信息进行比对，如果某个音频分片的指纹信息与某个音频文件的指纹信息的相似度达到预设值(此处的预设值可根据实际需要设定，例如:85%、90%等）W上，那么可认为该音频分片与预置指纹信息库中的该音频文件相匹配。
[0067] S104,根据比对结果获取所述待处理音频文件对应的文本文件。
[0068] 比对结果可包括与所述待处理音频文件相匹配的目标音频文件的标识W及所述待处理音频文件在相匹配的目标音频文件中的映射位置。那么，根据目标音频文件的标识可从预置指纹信息库中获得目标音频文件对应的文本文件，进一步，根据待处理音频文件在目标音频文件中的映射位置，那么可从目标音频文件对应的文本文件中提取映射位置对应的文本片段，此文本片段即为待处理音频文件对应的文本文件。
[0069] 本发明实施例的音频处理方法，可W对待处理音频文件进行偏移切片处理，获得至少一个音频分片，采用预置指纹信息库来比对至少一个音频分片的指纹信息，根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件，无需人工干预节省人力成本，并且能够有效地提升音频处理的效率和准确度。
[0070] 本发明实施例还提供了另一种音频处理方法，本实施例的方法侧重于描述如何定位目标音频文件的片头位置的过程。请参见图2,该方法可包括W下步骤S201-步骤S210。
[0071] S201，创建预置指纹信息库，所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息，W及所述至少一个音频文件对应的文本文件。
[0072] 本实施例中，预置指纹信息库可W采用下述表一进行表示：
[0073] 表一:预置指纹信息库
[0074]
[0075] 上述表一可知，一个标识可唯一标识一个音频文件，预置指纹信息库中可包含相同名称不同标识的音频文件，例如上述表一中的标识为al的歌曲A及标识为a2的歌曲A。预置指纹信息库中也可包含名称不同、标识不同的音频文件，例如上述表一中的标识为b的歌曲B及标识为C的歌曲C。一般地，具备相同名称不同标识的音频文件通常可能是同一音乐的不同版本，例如:歌曲A可包含原唱版、演唱会版、网络版等不同版本。
[0076] S202,从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片。
[0077] S203,依次存储所获得的至少一个音频分片，并记录所述至少一个音频分片的时间属性。其中，一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
[0078] 本实施例的步骤S202-S203可W为图1所示实施例的步骤S101的具体细化步骤。步骤S202-S203中，预置偏移时间及预置分片时长均可W根据实际需要进行设定。本实施例可假设预置偏移时间为Is,预置分片时长为10s，那么假设待处理音频文件为歌曲A，从歌曲A 的开始位置即Os的时刻，偏移Os时切时长为10s的第一音频分片，该第一音频分片相对歌曲 A的起始位置的偏移时间为Os，起止时间为Os-lOs;偏移Is时切时长为10s的第二音频分片，该第二音频分片相对歌曲A的起始位置的偏移时间为1S，起止时间为1S-11S;偏移2s时切时长为10s的第Ξ音频分片，该第Ξ音频分片相对歌曲A的起始位置的偏移时间为2s，起止时间为2s-12s;W此类推。所获得的至少一个音频分片可W采用下述表二进行表示：
[00巧]表二:音频分片 [0080]
[0081] S204,采集所述至少一个音频分片的指纹信息。本步骤可参见图1所示实施例的步骤S102,在此不寶述。
[0082] S205,按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片。
[0083] S206,将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对。
[0084] S207,若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配，则将相匹配的音频文件的标识和名称，W及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录。
[0085] 步骤S205-S207中，按照偏移时间由小到大的顺序，参照上述表二首先选取第一音频分片为当前音频分片，将第一音频分片的指纹信息与预置指纹信息库中的各音频文件的指纹信息进行比对，如果存在与第一音频分片的指纹信息相匹配的音频文件，那么将相匹配的音频文件的标识和名称，W及第一音频分片在相匹配的音频文件中的映射位置保存为第一音频分片的一条比对记录;然后再按照上述表二依次选取第二音频分片为当前音频分片，重复上述步骤。如果预置指纹信息库中不存在与第一音频分片的指纹信息相匹配的音频文件，那么直接按照上述表二依次选取第二音频分片为当前音频分片，重复上述步骤。经过步骤S205-S207,可W将待处理音频文件偏移切片得到的所有音频分片进行比对，得到若干条比对记录。此处需要说明的是，由于音频分片是不完整的音频数据，而预置指纹信息库中的音频文件通常是完整的音频数据，因此，音频分片的指纹信息与音频文件的指纹信息进行比对的过程中，除了匹配指纹信息之间的相似度之外，同时可获得音频分片在相匹配的音频文件中的映射位置，例如:第八音频分片在歌曲B中的映射位置为第25s开始持续7s; 或者，第九音频分片在歌曲B中的映射位置为第26s开始持续6s;或者，第十音频分片在歌曲 B中的映射位置为第27s开始持续5s;等等。
[0086] S208，对所述至少一个音频分片的比对记录进行去重处理，获得比对结果，所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识W及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
[0087] 由于音频分片的数量较多且相互之间存在重叠，那么所获得的若干条比对记录中包含许多重复数据，为了保证音频处理的准确性，本步骤需要对若干条比对记录进行去重处理，得到最终的比对结果。该方法在执行步骤S208的过程中，具体执行如下步骤S11-S14:
[0088] sll，如果存在至少两条比对记录包含名称相同但标识不同的音频文件，分别统计与所述标识不同的音频文件相匹配的音频分片的数量。
[0089] sl2,选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识。
[0090] 步骤S11-S12是针对同名音频文件的去重步骤，例如:假设某Ξ条比对记录中均包含歌曲A，但歌曲A在Ξ条比对记录中的标识不同，分别为标识为al的歌曲A为原唱版，标识为曰2的歌曲A为演唱会版，标识为曰3的歌曲A为网络版;那么，本步骤则统计歌曲A不同版本相匹配的音频分片的数量，进一步假设与歌曲A的原唱版相匹配的音频分片的数量为20片，与歌曲A的演唱会版相匹配的音频分片的数量为18片，与歌曲A的网络版相匹配的音频分片的数量为16片，由此可见歌曲A的原唱版相匹配的音频分片的数量为最多，则可认为歌曲A 的原唱版的置信度最高；由于与歌曲A的原唱版相匹配的音频分片均来自待处理音频文件，因此可将歌曲A的原唱版确定为与待处理音频文件相匹配的目标音频文件，其标识为al。
[0091] sl3,将与目标音频文件相匹配的连续音频分片进行拼接处理。
[0092] S14,将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
[0093] 步骤S13-S14是针对重复音频分片的去重步骤;如前述例子可知，目标音频文件为歌曲A的原唱版，其相匹配的音频分片的数量为20片，那么，运20片中出现的连续音频分片可W进行拼接处理，具体是否连续可依据各音频分片的时间属性确定，例如:假设20片音频分片为第一音频分片至第二十音频分片，其偏移时间从Os至19s，因此运20片音频分片即为连续音频分片，根据比对记录，第一音频分片在歌曲A的原唱版中的映射位置为第11s开始持续9s，第二音频分片在歌曲A的原唱版中的映射位置为第12s开始持续8s，W此类推，第二十音频分片在歌曲A的原唱版中的映射位置为第31s开始持续2s，则可得到拼接处理后的连续音频分片在歌曲A的原唱版的映射位置为11S-33S，可确定待处理音频文件在目标音频文件中的映射位置为11S-33S。可W理解的是，上述例子中，如果20片音频分片中除了连续音频分片之外还存在单个的音频分片，那么待处理音频文件在目标音频文件中的映射位置由拼接处理后的连续音频分片在目标音频文件中的映射位置，W及单个音频分片在目标音频文件中的映射位置共同组成。
[0094] 本实施例的步骤S204-S208可W为图1所示实施例的步骤S103的具体细化步骤。 [00M] S209,从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件。
[0096] S210，根据所述待处理音频文件在所述目标音频文件中的映射位置，从所述目标文本文件中提取所述映射位置对应的文本片段。
[0097] S211，将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
[0098] 本实施例的步骤S209-S211可W为图1所示实施例的步骤S104的具体细化步骤。步骤S209-S211中，由于比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识 W及所述待处理音频文件在相匹配的目标音频文件中的映射位置。那么，根据目标音频文件的标识可从预置指纹信息库中获得目标音频文件对应的文本文件，进一步，根据待处理音频文件在目标音频文件中的映射位置，那么可从目标音频文件对应的文本文件中提取映射位置对应的文本片段，此文本片段即为待处理音频文件对应的文本文件。按照本实施例所示例子，待处理音频文件在歌曲A的原唱版中的映射位置为11S-33S，那么，从歌曲A的原唱版的歌词文件中提取11S-33S的歌词片段，确定为待处理音频文件对应的文本文件。可W 理解的是，由于待处理音频文件可能由许多音乐片断及人声混合交叉组合而成，因此通过本发明实施例得到的待处理音频文件对应的文本文件也可能是由多个音乐歌词片段及语音文本片段共同构成。
[0099] 本发明实施例的音频处理方法，可W对待处理音频文件进行偏移切片处理，获得至少一个音频分片，采用预置指纹信息库来比对至少一个音频分片的指纹信息，根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件，无需人工干预节省人力成本，并且能够有效地提升音频处理的效率和准确度。
[0100] 基于上述方法实施例的描述，下面将结合附图3,对本发明实施例提供的音频处理装置进行详细介绍。需要说明的是，下述的音频处理装置可用于执行上述图1-图2所示的音频处理方法。具体地，本发明实施例提供了一种音频处理装置，请一并参见图3,该装置运行如下单元：
[0101] 处理单元101，用于对待处理音频文件进行偏移切片处理，获得至少一个音频分片。
[0102] 采集单元102,用于采集所述至少一个音频分片的指纹信息。
[0103] 比对单元103,用于将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对。
[0104] 获取单元104,用于根据比对结果获取所述待处理音频文件对应的文本文件。
[0105] 具体实现中，该装置在运行所述处理单元101的过程中，具体运行如下单元：
[0106] 音频分片提取单元1001，从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片。
[0107] 存储单元1002,用于依次存储所获得的至少一个音频分片，并记录所述至少一个音频分片的时间属性。其中，一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
[0108] 具体实现中，该装置还运行如下单元：
[0109] 创建单元105,用于创建预置指纹信息库，所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息，W及所述至少一个音频文件对应的文本文件。
[0110] 具体实现中，该装置在运行所述比对单元103的过程中，具体运行如下单元：
[0111] 当前选取单元2001，用于按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片。
[0112] 当前比对单元2002,用于将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对。
[0113] 比对记录保存单元2003,用于若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配，则将相匹配的音频文件的标识和名称，W及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录；
[0114] 去重处理单元2004,用于对所述至少一个音频分片的比对记录进行去重处理，获得比对结果，所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识W及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
[0115] 具体实现中，该装置在运行所述去重处理单元2004的过程中，具体运行如下单元：
[0116] 数量统计单元2401，用于如果存在至少两条比对记录包含名称相同但标识不同的音频文件，分别统计与所述标识不同的音频文件相匹配的音频分片的数量。
[0117]标识确定单元2402,用于选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识。
[0118] 拼接处理单元2403,用于将与目标音频文件相匹配的连续音频分片进行拼接处理。
[0119] 映射位置确定单元2404，用于将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
[0120] 具体实现中，该装置在运行所述获取单元104的过程中，具体运行如下单元：
[0121] 查找单元3001，用于从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件。
[0122] 文本片段提取单元3002，用于根据所述待处理音频文件在所述目标音频文件中的映射位置，从所述目标文本文件中提取所述映射位置对应的文本片段。
[0123] 文本文件确定单元3003，用于将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
[0124] 由于图3所示的音频处理装置可用于执行图1-图2所示实施例的方法，因此，图3所示的各单元的功能可参见图1-图2所示方法各步骤的相关描述，在此不寶述。需要特别说明的是，图3所示的音频处理装置可W是运行于实体设备中的一个应用程序，并且至少存在W 下两种可行的实施方式：
[0125] 在一种可行的实施方式中，该音频处理装置可W是运行于一个实体设备中独立工作，例如：该音频处理装置可W运行于一个终端中，该终端可包括但不限于:PC(Personal Computer,个人计算机）、手机、PDA(平板电脑）、智能可穿戴设备等等，由终端独立实现图1- 图2所示的方法流程;或者，该音频处理装置也可W运行于一个服务器中，由服务器独立实现图1-图2所示的方法流程。
[0126] 在另一种可行的实施方式中，该音频处理装置可W是分布运行于多个实体设备中，分布部分协调工作，例如:该音频处理装置的一部分可W运行于一个终端中，而另一部分可W运行于一个服务器中，由终端与服务器协调工作从而实现图1-图2所示的方法流程。在此实施方式中，图3所示的创建单元105、比对单元103和获取单元104可W位于服务器中，而处理单元101和采集单元102可W位于终端中；而对应在执行图1-图2所示的方法流程时，创建预置指纹信息库的过程、比对过程W及获得文本文件的过程可W发生于服务器中，而其他过程包括获得至少一个音频分片，采集至少一个音频分片的指纹信息可W发生于终端中。具体地，终端可W将音频分片的指纹信息发送至服务器进行比对，服务器根据比对结果获取待处理音频文件对应的文本文件并反馈给终端输出。
[0127] 与方法同理，本发明实施例的音频处理装置，可W对待处理音频文件进行偏移切片处理，获得至少一个音频分片，采用预置指纹信息库来比对至少一个音频分片的指纹信息，根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件，无需人工干预节省人力成本，并且能够有效地提升音频处理的效率和准确度。
[0128] 本领域普通技术人员可W理解实现上述实施例方法中的全部或部分流程，是可W 通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memoir，ROM)或随机存储记忆体（Random Access Memory，RAM)等。
[0129] W上所掲露的仅为本发明较佳实施例而已，当然不能W此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。
【主权项】
1. 一种音频处理方法，其特征在于，包括：对待处理音频文件进行偏移切片处理，获得至少一个音频分片；采集所述至少一个音频分片的指纹信息，并将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对；根据比对结果获取所述待处理音频文件对应的文本文件。2. 如权利要求1所述的方法，其特征在于，所述对待处理音频文件进行偏移切片处理，获得至少一个音频分片，包括：从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片；依次存储所获得的至少一个音频分片，并记录所述至少一个音频分片的时间属性；其中，一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。3. 如权利要求1或2所述的方法，其特征在于，所述对待处理音频文件进行偏移切片处理，获得至少一个音频分片之前，还包括：创建预置指纹信息库，所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息，以及所述至少一个音频文件对应的文本文件。4. 如权利要求3所述的方法，其特征在于，所述将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对，包括：按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片，将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对；若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配，则将相匹配的音频文件的标识和名称，以及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录；对所述至少一个音频分片的比对记录进行去重处理，获得比对结果，所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。5. 如权利要求4所述的方法，其特征在于，所述对所述至少一个音频分片的比对记录进行去重处理，获得比对结果，包括：如果存在至少两条比对记录包含名称相同但标识不同的音频文件，分别统计与所述标识不同的音频文件相匹配的音频分片的数量；选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识；将与目标音频文件相匹配的连续音频分片进行拼接处理；将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。6. 如权利要求5所述的方法，其特征在于，所述根据比对结果获取所述待处理音频文件对应的文本文件，包括：从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件；根据所述待处理音频文件在所述目标音频文件中的映射位置，从所述目标文本文件中提取所述映射位置对应的文本片段；将所提取的文本片段确定为所述待处理音频文件对应的文本文件。7. -种音频处理装置，其特征在于，包括：处理单元，用于对待处理音频文件进行偏移切片处理，获得至少一个音频分片；采集单元，用于采集所述至少一个音频分片的指纹信息；比对单元，用于将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对；获取单元，用于根据比对结果获取所述待处理音频文件对应的文本文件。8. 如权利要求7所述的装置，其特征在于，所述处理单元包括：音频分片提取单元，从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片；存储单元，用于依次存储所获得的至少一个音频分片，并记录所述至少一个音频分片的时间属性；其中，一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。9. 如权利要求7或8所述的装置，其特征在于，还包括：创建单元，用于创建预置指纹信息库，所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息，以及所述至少一个音频文件对应的文本文件。10. 如权利要求9所述的装置，其特征在于，所述比对单元包括：当前选取单元，用于按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片；当前比对单元，用于将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对；比对记录保存单元，用于若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配，则将相匹配的音频文件的标识和名称，以及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录；去重处理单元，用于对所述至少一个音频分片的比对记录进行去重处理，获得比对结果，所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。11. 如权利要求10所述的装置，其特征在于，所述去重处理单元包括：数量统计单元，用于如果存在至少两条比对记录包含名称相同但标识不同的音频文件，分别统计与所述标识不同的音频文件相匹配的音频分片的数量；标识确定单元，用于选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识；拼接处理单元，用于将与目标音频文件相匹配的连续音频分片进行拼接处理；映射位置确定单元，用于将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。12.如权利要求11所述的装置，其特征在于，所述获取单元包括：查找单元，用于从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件；文本片段提取单元，用于根据所述待处理音频文件在所述目标音频文件中的映射位置，从所述目标文本文件中提取所述映射位置对应的文本片段；文本文件确定单元，用于将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
【文档编号】G06F17/30GK105825850SQ201610286452
【公开日】2016年8月3日
【申请日】2016年4月29日
【发明人】孙嘉骏, 王志豪, 赵伟峰, 杨雍, 车斌, 周旋, 许华彬
【申请人】腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙嘉骏;王志豪;赵伟峰;杨雍;车斌;周旋;许华彬;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人