用于从混合音频记录选择性去除音频内容的系统和方法与流程

文档序号：11459433阅读：192来源：国知局

本申请是分案申请，原案的国家申请号是201380040395.1，申请日是2013年6月10日，发明名称是“用于从混合音频记录选择性去除音频内容的系统和方法”。

相关申请的交叉引用

本申请要求于2012年6月18日提交的名为“systemandmethodforselectiveremovalofaudiocontentfromamixedaudiorecording”的美国临时申请no.61/661,225和于2012年12月28日提交的名为“systemandmethodforselectiveremovalofaudiocontentfromamixedaudiorecording”的美国非临时申请no.13/730,076的益处，其每一个的全部结合于此作为参考。

本公开总体涉及音频处理，并且更具体地涉及从混合音频记录选择性地去除音频内容。

背景技术：

经常地，音频记录(例如，音频文件)包括多个声音记录。例如，音频记录可以是作为声学捕捉(例如，麦克风)或音频混合(例如，将多个声音记录混合为单个音频记录的音频过程)的结果的混合音频记录。在一个示例中，混合音频记录可以包括与所记录的歌曲交织的语音(例如，来自一些人说话的音频)。然而，在特定情形下，期望从音频记录去除一个或多个声音记录(例如，记录的歌曲)。

技术实现要素：

以下提供说明书的简化概要，以提供说明书的一些方面的基本理解。本概要不是说明书的广泛概述。其既不旨在识别说明书的关键或重要元素，也不旨在描绘说明书的特定实现的任何范围或者权利要求的任何范围。其唯一目的在于以简化形式呈现说明书的一些概念，作为随后呈现的更详细说明的前奏。

根据一个实现，一种系统包括识别组件、第一减法组件和第二减法组件。识别组件识别混合音频记录中的声音记录。第一减法组件确定声音记录的局部线性变换，并且从混合音频记录减去声音记录的局部线性变换，以生成新的混合音频记录。第二减法组件将声音记录的一个或多个片段与新的混合音频记录的一个或多个相应片段进行比较，并且至少部分地基于一个或多个相应片段与一个或多个片段的关联，来减小新的混合音频记录的功率水平。在一个示例中，一个或多个片段和/或一个或多个相应片段是时频片段。

根据另一个实现，一种系统包括识别组件、处理组件和修改组件。识别组件识别嵌入在媒体文件中的第一音频文件中的一个或多个声音记录。处理组件实现一个或多个信号处理算法，以从第一音频文件去除一个或多个声音记录中的至少一个，以生成第二音频文件。修改组件用第二音频文件替换嵌入在媒体文件中的第一音频文件。

另外，一个非限制性实现提供用于识别混合音频记录中的声音记录，确定声音记录的局部线性变换，从混合音频记录减去声音记录的局部线性变换，以生成新的混合音频记录，将声音记录的一个或多个片段与新的混合音频记录的一个或多个相应片段进行比较，并且至少部分地基于一个或多个相应片段与一个或多个片段的关联，来减小新的混合音频记录的功率水平。

特别阐述的以下说明和附图示出说明书的多个方面。然而，这些方面指示可以采用说明书的原理的多种方式中的几种。当结合附图考虑时，说明书的其他优点和新特征将从说明书的以下详细说明变得显而易见。

附图说明

当结合附图考虑以下详细说明时，本发明的多个方面、实现、目标和优点将变得显而易见，其中，类似参考符号指示类似部件，并且其中：

图1示出根据在此描述的多个方面和实现的示例性过滤组件的高级框图；

图2示出根据在此描述的多个方面和实现的用于从音频记录去除声音记录的示例性系统；

图3示出根据在此描述的多个方面和实现的用于从音频记录去除由用户选择的声音记录的示例性系统；

图4示出根据在此描述的多个方面和实现的用于从音频记录去除声音记录的另一个示例性系统；

图5示出根据在此描述的多个方面和实现的示例性音频记录；

图6示出根据在此描述的多个方面和实现的示例性用户界面；

图7示出根据在此描述的多个方面和实现的用于从音频记录去除声音记录的示例性方法的流程图；

图8描述根据在此描述的多个方面和实现的用于实现信号处理以从音频记录去除声音记录的示例性方法的流程图；

图9描述根据在此描述的多个方面和实现的用于从嵌入在媒体文件中的音频记录去除声音记录的示例性方法的流程图；

图10描述根据在此描述的多个方面和实现的用于从嵌入在媒体文件中的音频记录去除由用户选择的声音记录的示例性方法的流程图；

图11是示出适当的操作环境的示意性框图；以及

图12是采样计算环境的示意性框图。

具体实施方式

现在参考附图描述本公开的多个方面，其中，类似参考数字被用于指代类似元件。在以下说明书中，为了解释的目的，阐述大量特定细节，以提供一个或多个方面的彻底理解。然而，将理解本公开的某些方面可以在没有这些特定细节或者具有其他方法、组件、材料等的情况下被实践。在其他实例中，众所周知的结构和设备以框图形式示出，以便于描述一个或多个方面。

许多常规服务提供商允许用户将媒体内容(例如，音频和/或视频内容)上载到服务器(例如，媒体内容服务器)。然后，媒体内容可以被传送(例如，流送)至其他用户。通常，服务提供商提供用于用户的网络基础设施，但是其他非常少。从而，这些服务提供商对什么媒体内容正由用户上载和/或流送具有非常有限的控制，诸如例如受版权保护的媒体内容。

当前版权保护方案将上载的媒体内容与有效和受保护内容的索引进行比较。版权持有者可以上载受版权保护的媒体内容作为参考。另外，版权持有者可以设置用于处理匹配的策略(例如，由用户上载的与受版权保护的媒体内容匹配的媒体内容)。如果进行匹配，则对照上载的媒体内容生成版权要求。例如，由用户上载到服务器(例如，媒体内容服务器)的媒体文件(例如，视频文件)可以包括受版权保护的媒体内容(例如，一个或多个受版权保护的歌曲)。从而，根据由版权持有者设置的策略，受版权保护的媒体内容可能需要从媒体文件被去除。

用于从媒体文件(例如，视频文件)去除受版权保护的内容的一种常规解决方案包括：消除受版权保护的内容的声音(例如，消除受版权保护的歌曲的声音)。替选解决方案包括从服务器去除媒体文件。然而，用于从上载到服务器的媒体文件(例如，视频文件)去除受版权保护的音频内容的常规技术没有有效地从具有多个声音记录的混合音频记录(例如，嵌入在媒体文件中的音频记录)去除受版权保护的音频内容。例如，用于视频文件的声音记录可以包括某个人说话以及背景中的歌曲。然而，背景中的歌曲可能是受版权保护的内容。结果，期望在保留所记录的语音(例如，非歌曲音频内容)的同时，从视频文件去除歌曲(例如，受版权保护的内容)。

为此，提供用于从混合音频记录选择性地去除音频内容的技术。例如，可以从混合音频记录(例如，声迹)去除一个或多个歌曲。在此公开的系统和方法涉及在保留混合音频记录的不同部分(例如，非受版权保护的部分、非歌曲部分等)的同时，去除混合音频记录的被识别部分。从而，可以保护混合音频记录的不同部分(例如，非受版权保护的部分)。

首先参考图1，示出根据本公开的一个方面的从音频记录(例如，嵌入在媒体文件中的音频记录)选择性地去除一个或多个声音记录的示例性系统100。在一个示例中，系统100可以在托管用户上载的媒体内容的服务器上或者与其结合被实现。在本公开中解释的系统、装置或过程的多个方面可以构成在机器中具体化的机器可执行组件，例如，在与一个或多个机器相关联的一个或多个计算机可读介质中具体化。当由一个或多个机器执行时，例如计算机、计算设备、虚拟机等的这样的组件可以使得机器执行所描述的操作。

具体地，系统100可以向过滤器组件提供在大多数任何联网应用中可以利用的识别特征(例如，识别组件104)和处理特征(例如，处理组件106)。识别特征可以识别混合音频记录中的声音记录。例如，识别特征可以识别嵌入在媒体文件(例如，视频文件)中的第一音频文件中的一个或多个声音记录。处理特征可以实现一个或多个信号处理算法，以从混合音频记录(例如，第一音频文件)去除一个或多个声音记录中的至少一个，以生成新的混合音频记录(例如，第二音频文件)。

处理特征可以包括第一减法特征(例如，第一减法组件108)和第二减法特征(例如，第二减法组件110)。第一减法特征可以确定声音记录的局部线性变换。第一减法特征还可以从混合音频记录(例如，第一音频文件)减去声音记录的局部线性变换，以生成新的混合音频记录(例如，第二音频文件)。第二减法特征可以将声音记录(例如，第一音频文件)的一个或多个片段与新的混合音频记录(例如，第二音频文件)的一个或多个相应片段进行比较。第二减法特征还可以至少部分地基于一个或多个相应片段与一个或多个片段的关联，来减小新的混合音频记录(例如，第二音频文件)的功率水平。例如，第二减法特征可以至少部分地基于一个或多个相应片段与一个或多个片段的关联，来调节新的混合音频记录(例如，第二音频文件)的至少一个片段(例如，一个或多个相应片段中的至少一个)的功率水平。

系统100可以被多种系统采用，诸如但不限于网络系统、计算机网络系统、通信系统、路由器系统、服务器系统、高可用性服务器系统(例如，电信服务器系统)、web服务器系统、文件服务器系统、媒体服务器系统、媒体内容服务器系统、磁盘阵列系统、电动插板系统、基于云的系统等。

具体地，系统100可以包括过滤器组件102。在图1中，过滤器组件102包括识别组件104和处理组件106。过滤器组件102可以接收混合音频记录(例如，图1中所示的混合音频记录)。例如，混合音频记录可以是混合声音记录(例如，混合声音信号、声迹等)。混合音频记录可以包括与其他音频记录(例如，非歌曲音频内容、语音等)混合的一个或多个声音记录(例如，一个或多个歌曲、受版权保护的媒体内容等)。响应于接收混合音频记录，过滤器组件102可以生成新的混合音频记录(例如，图1中所示的新的混合音频记录)。新的混合音频记录可以是没有一个或多个声音记录中的至少一个的音频记录(例如，可以从音频记录去除一个或多个歌曲)。然而，可以保存(例如，仍然完整无缺)新的混合音频记录中的其他音频记录(例如，非歌曲音频内容)。

识别组件104可以识别(或者被配置成识别)混合音频记录(例如，第一音频文件)中的声音记录(例如，一个或多个声音记录)。声音记录可以是参考声音记录。在一个示例中，声音记录可以是受版权保护的歌曲。混合音频记录可以被嵌入在媒体文件(例如，视频文件)中。媒体文件可以被存储在远程服务器(例如，媒体内容服务器)上。在一个示例中，混合音频记录可以通过声学捕捉(例如，麦克风)被记录。在另一个示例中，混合音频记录可以是音频混合(例如，混合音轨)。

在一个示例中，声音记录可以至少部分地基于声音记录的先前识别的部分片段，由识别组件104识别。例如，与声音记录的部分片段相关联的内容识别可以被用于识别哪个声音记录(例如，哪个参考轨道)用于减法，识别频段，确定片段在声音记录中的放置等。识别组件104可以存储和/或访问被识别的片段(例如，先前识别的片段)的库。因而，库可以被实现为交叉参考，以识别部分片段。库可以被存储在例如与识别组件104通信的服务器上。将理解不同类型的散列方案可以被实现，以找到和/或识别部分片段(例如，先前识别的部分片段)。

处理组件106可以实现(或者被配置成实现)一个或多个信号处理算法，以从混合音频记录(例如，第一音频文件)去除一个或多个声音记录中的至少一个，和/或生成新的混合音频记录(例如，第二音频文件)。处理组件106可以包括第一减法组件108和第二减法组件110。

第一减法组件108可以在时域中实现一个或多个信号处理算法。例如，第一减法组件108可以实现自适应过滤(例如，线性过滤)。在一个示例中，第一减法组件108可以实现相干减法。相干减法可以基于线性过滤。第一减法组件108可以实现时域互相关，以使声音记录与混合音频记录对准(例如，找到理想对准)。另外，第一减法组件108可以确定混合音频记录中的声音记录的等级(例如，声音等级、幅度等级等)。而且，第一减法组件108可以识别用于声音记录的开始时间和结束时间。

第一减法组件108可以确定声音记录的局部线性变换。例如，第一减法组件108可以找到最接近(例如，最佳匹配)混合音频记录的声音记录的局部线性变换。第一减法组件108可以从混合音频记录(例如，第一音频文件)减去声音记录的局部线性变换，以生成新的混合音频记录(例如，第二音频文件)。

第一减法组件108可以实现局部线性变换，以以不同偏移量缩放声音记录的采样。在一个示例中，声音记录的局部线性变换可以经由局部线性过滤器被实现。第一减法组件108可以对声音记录的重叠块操作。在一个示例中，第一减法组件108可以实现矩阵运算，以执行局部线性变换。这样，新的混合音频记录可以是对由第一减法组件108执行的过滤的有限脉冲响应。然而，将理解可以实现其他类型的过滤操作，以执行局部线性变换。在一个示例中，可以经由有限脉冲响应过滤器实现声音记录的局部线性变换。这样，可以连续地更改声音记录的各个系数。

第二减法组件110可以在频域中实现一个或多个信号处理算法。第二减法组件110可以执行谱分析。例如，第二减法组件110可以实现谱减法(例如，非线性减法)。在一个示例中，第二减法组件110可以实现非相干减法。非相干减法可以基于功率谱(例如，新的混合音频记录的功率谱)。第二减法组件110可以被实现，以从声音记录减小剩余音频。例如，剩余声音可以是没有被线性过滤器(例如，第一减法组件108)取消的声音记录的声音。

第二减法组件110可以计算(例如确定)用于新的混合音频记录(例如，第二音频文件)的全光谱图。第二减法组件110可以将声音记录的一个或多个片段与新的混合音频记录的一个或多个相应片段进行比较。例如，第二减法组件110可以找到在光谱上类似于新的混合音频记录的一个或多个片段(例如，一个或多个切片)的声音记录的一个或多个片段(例如，一个或多个切片)。在一个示例中，一个或多个片段和/或一个或多个相应片段可以被实现为时频片段。这样，在音频的短时切片(例如，声音记录和/或新的混合音频记录)内可以修改各个频带的水平。第二减法组件110可以将光谱图划分为幅度和相位。

第二减法组件110可以至少部分地基于一个或多个相应片段与一个或多个片段的关联(例如，所确定的关联、谱相似性等)，调节(例如，减小)新的混合音频记录的功率水平。例如，第二减法组件110可以至少部分地基于一个或多个相应片段与一个或多个片段的谱关联，来调节(例如，减小)新的混合音频记录的一个或多个相应片段中的至少一个的功率水平。在一个示例中，响应于的新混合音频记录中的剩余声音不相关(例如，新的混合音频记录中的剩余声音低于预定阈值水平)的确定，一个或多个相应片段中的特定相应片段的功率水平可以被减小到零。例如，至少部分地基于特定相应片段的相关等级，一个或多个相应片段中的特定相应片段的功率水平可以被减小到零。

第二减法组件110可以将声音记录的一个或多个片段的幅度与新的混合音频记录的一个或多个相应片段的相应幅度进行比较。因而，可以从新的混合音频记录的一个记录(log)幅度谱片段(例如，切片)减去声音记录的一个记录幅度谱片段(例如，切片)。另外，可以确定剩余物的变化(例如，作为减法的结果)。对于低变化片段(例如，切片)，可以确定剩余物的平均等级。

在一个示例中，第二减法组件110可以使用短时傅里叶变换(stft)算法，将声音记录的一个或多个片段与新的混合音频记录的一个或多个相应片段进行比较。因而，新的混合音频记录的功率水平可以被选择性地作为谱关联的函数减小。这样，第二减法组件110可以减小用于新的混合音频记录的不同时频容器(bin)的功率水平(例如，在不同频率处减小功率)。第二减法组件110可以使用新的混合音频记录的相减后的幅度谱和原始相位，重新合成新的混合音频记录。这样，可以从新的混合音频记录(例如，在没有声音记录的情况下，可以重新处理新的混合音频记录)去除声音记录。因而，可以在保持非歌曲音频的同时，从音频文件去除一个或多个歌曲。将理解功率水平的另一种类型的关联或减小可以通过第二减法组件110实现，以从新的混合音频记录去除声音记录。还将理解可以使用其他类型的信号处理算法，以从新的混合音频记录去除声音记录。

虽然图1示出了系统100中的单独组件，但是将理解组件可以在公共组件中被实现。在一个示例中，识别组件104和处理组件106(例如，第一减法组件108和/或第二减法组件110)可以包括在单个组件中。而且，可以理解系统100的设计可以包括其他组件选择、组件放置等，以从音频记录去除声音记录。

现在参考图2，示出根据本公开的多个方面和实现的系统200的非限制性实现。系统200包括过滤器组件102和修改组件202。过滤器组件102包括识别组件104和处理组件106。处理组件106包括第一减法组件108和第二减法组件110。

过滤器组件102可以接收具有混合音频记录(例如，第一音频文件)的媒体文件(例如，视频文件)。例如，混合音频记录可以被嵌入在媒体文件中。媒体文件可以被上载到和/或存储在远程服务器(例如，媒体内容服务器)上。修改组件102可以接收由过滤器组件102生成的新的混合音频记录(例如，第二音频文件)。修改组件202可以用新的混合音频记录(例如，第二音频文件)代替嵌入在媒体文件中的混合音频记录(例如，第一音频文件)。例如，修改组件202可以重新处理媒体文件，以包括新的混合音频记录(例如，第二音频文件)。这样，可以从媒体文件去除一个或多个声音记录(例如，受版权保护的内容)。另外或替选地，修改组件202可以将一个或多个歌曲添加至新的混合音频记录(例如，第二音频文件)。例如，修改组件202可以将翻唱歌曲(例如，重新记录的歌曲、歌曲的非受版权保护的版本)添加至新的混合音频记录。因而，由过滤器组件102去除的受版权保护的声音记录(例如，受版权保护的歌曲)可以用声音记录的非受版权保护的版本(例如，受版权保护的歌曲的非受版权保护版本)代替。

现在参考图3，示出根据本公开的多个方面和实现的系统300的非限制性实现。系统300包括过滤器组件102、修改组件202和界面组件302。过滤器组件102包括识别组件104和处理组件106。处理组件106包括第一减法组件108和第二减法组件110。

系统300可以与基于云的视频编辑器集成。界面组件302可以向用户呈现从媒体文件去除一个或多个声音记录的选项。例如，界面组件302可以生成用于用户的用户界面，以允许用户查看混合音频记录中(例如，在媒体文件中)的一个或多个声音记录中的每一个。一个或多个声音记录中的至少一个可以由用户选择(例如，用户可以选择从混合音频记录去除一个或多个声音记录中的哪个)。因而，用户可以手动地指定将从混合音频记录去除的声音记录。在一个示例中，界面组件302可以向用户呈现一个或多个声音记录的一个或非受版权保护的版本。因而，界面组件302可以允许用户用一个或多个声音记录的一个或多个非受版权保护的版本代替媒体文件中的一个或多个声音记录。

界面组件302还可以向用户呈现关于用于一个或多个声音记录的策略(例如，所有权和/或许可策略)的信息(例如，通知、电子邮件通知等)。另外，界面组件302还可以向用户呈现不从混合音频记录(例如，媒体文件)去除一个或多个声音记录的结果(例如，效果)。例如，界面组件302可以通知用户与用户相关联的账户可能为了不去除包含一个或多个声音记录的媒体文件(例如，视频文件)被处罚，可以从服务器等去除媒体文件。

在一个示例中，界面组件302向用户提供不从媒体文件去除一个或多个声音记录(例如，一个或多个受版权保护的歌曲)中的每个的一个或多个已经存在的策略结果的列表。例如，界面组件302可以向用户呈现在视频(例如，视频文件)中留下一个或多个受版权保护的歌曲的已经存在的策略结果。已经存在的策略结果可以包括但不限于消除用于视频的整个音轨的声音，阻挡一个或多个地理位置(例如，国家)内的视频的播放，不允许视频显示广告等。另外，界面组件302可以通知用户已经存在的策略结果可以通过从视频去除(例如，擦除)相关声音记录(例如，受版权保护的歌曲)被翻转(reverse)。例如，界面组件302可以向用户呈现说明由于存在特定受版权保护的歌曲导致在一个或多个国家阻挡特定视频的通知。另外，通知可以说明特定受版权保护的歌曲的去除将导致视频在全球不被阻挡(例如，在一个或多个国家中的每个内都不被阻挡)。

参考图4，示出根据本公开的多个方面和实现的系统400的非限制性实现。系统400包括过滤器组件102、修改组件202、界面组件302和服务器402。过滤器组件102包括识别组件104和处理组件106。处理组件106包括第一减法组件108和第二减法组件110。

过滤器组件102可以从服务器402接收具有混合音频记录(例如，第一音频文件)的媒体文件(例如，视频文件)。例如，混合音频记录可以被嵌入在存储在服务器402上的媒体文件中。媒体文件可以被上载到和/或存储在服务器402(例如，媒体内容服务器402)上。在一个示例中，服务器402可以是远程服务器(例如，远程媒体内容服务器)。修改组件202可以接收由过滤器组件102生成的新的混合音频记录(例如，第二音频文件)。修改组件202可以用新的混合音频记录(例如，第二音频文件)代替嵌入在媒体文件中的混合音频记录(例如，第一音频文件)。例如，修改组件202可以重新处理媒体文件(例如，生成新媒体文件)，以包括新的混合音频记录(例如，第二音频文件)。这样，可以从媒体文件去除一个或多个声音记录(例如，受版权保护的内容)，和/或可以生成没有一个或多个声音记录(例如，受版权保护的内容)的新媒体文件。而且，修改组件202可以用新媒体文件(例如，具有新的混合音频记录的新媒体文件)代替存储在服务器402上的媒体文件(例如，具有混合音频记录的媒体文件)。这样，没有受版权保护的内容的新媒体文件(例如，重新处理的媒体文件)可以被存储在服务器402上。

参考图5，示出根据本公开的多个方面和实现的系统500的非限制性实现。系统500包括混合音频记录502。例如，混合音频记录502可以是混合声音记录(例如，混合声音信号、声迹等)。混合音频记录502包括一个或多个声音记录504a-n和至少一个其他声音记录506。在一个示例中，一个或多个声音记录504a-n可以是一个或多个歌曲(例如，一个或多个受版权保护的歌曲)。至少一个其他声音记录506可以例如是非歌曲音频内容(例如，语音)和/或非受版权保护的声音记录(例如，非受版权保护的歌曲、非受版权保护的音频记录等)。

过滤器组件102可以接收混合音频记录502。响应于接收混合音频记录，过滤器组件102(例如，识别组件104和/或处理组件106)可以生成新的混合音频记录508。新的混合音频记录508可以是没有一个或多个声音记录504a-n中的至少一个的音频记录。例如，如图5中所示，新的混合音频记录包括至少一个其他声音记录506。然而，从新的混合音频记录508去除一个或多个声音记录504a-n。

参考图6，示出根据本公开的多个方面和实现的系统600的非限制性实现。系统600示出示例性网页602(例如，用户界面，以允许用户查看和/或去除嵌入在视频604中的一个或多个声音记录)。在一个示例中，网页602可以是视频托管网站。网页602可以包括视频(例如，媒体内容)604、被识别的歌曲部分606和替选歌曲部分612。被识别的歌曲部分606可以包括一个或多个歌曲(例如，被识别的歌曲)608a-n和一个或多个去除按钮610a-n。这样，用户可以查看嵌入在视频604(例如，视频604的混合音频记录)中的一个或多个歌曲608a-n中的每个。用户可以通过选择相应去除按钮610a-n，来从视频604(例如，混合音频记录)去除一个或多个歌曲608a-n中的至少一个。因而，用户可以手动指定将从视频604去除的歌曲(例如，声音记录)。而且，替选歌曲部分612可以向用户呈现一个或多个歌曲608a-n的一个或非受版权保护的版本和/或其他非受版权保护的歌曲。因而，用户可以选择用一个或多个非受版权保护的歌曲代替视频604中的一个或多个歌曲608a-n中的至少一个。将理解网页602仅是示例。因而，视频604、被识别的歌曲部分606和/或替选歌曲部分612的位置和/或内容可以改变。而且，网页602可以包括图6中未示出的其他特征、内容和/或功能。

关于多个组件之间的交互描述了上述系统和/或设备。将理解这样的系统和组件可以包括在此指定的那些组件或子组件、指定组件或子组件中的一些、和/或附加组件。子组件还可以被实现为可通信地耦合至其他组件而不是包括在父组件中的组件。而且，一个或多个组件和/或子组件可以被结合到提供聚合功能的单个组件中。组件还可以与为了简单起见在此未具体描述但是本领域技术人员已知的一个或多个其他组件交互。

图7至图10示出根据公开的主题的方法和/或流程图。为了解释的简单起见，方法被示出和描述为一系列动作。将理解并且想到，本创新不受所示动作和/或动作的顺序限制，例如，动作可以与在此未呈现和描述的其他动作以多种顺序和/或同时发生。而且，不是所有所示动作都可能被要求实现根据所公开的主题的方法。另外，本领域技术人员将理解和想到，方法可以经由状态图或事件替选地表示为一系列相关状态。另外，应该进一步理解此后公开并且贯穿本说明书的方法能够被存储在制品上，以便于将这样的方法传送和转移到计算机。如在此使用的术语制品旨在包括从任何计算机可读设备或存储介质可访问的计算机程序。

参考图7，示出根据本创新的一方面的用于从音频记录去除声音记录的方法700。作为示例，方法700可以在多种应用中被利用，诸如但不限于网络系统、计算机网络系统、通信系统、路由器系统、服务器系统、高可用性服务器系统(例如，电信服务器系统)、web服务器系统、文件服务器系统、媒体服务器系统、磁盘阵列系统、电动插板系统、基于云的系统等。具体地，方法700可以从音频文件去除一个或多个声音记录，以生成没有一个或多个声音记录的新音频文件。

在702处，可以接收混合音频记录(例如，通过识别组件104)。例如，可以接收嵌入在媒体文件(例如，视频文件)中的混合音频文件。在704处，可以识别混合音频记录中的一个或多个声音记录(例如，通过识别组件104)。例如，可以识别混合音频文件中的一个或多个歌曲。在706处，可以实现一个或多个信号处理算法(例如，通过第一减法组件108和/或第二减法组件110)，以从混合音频记录去除一个或多个声音记录中的至少一个和/或生成新的混合音频记录。例如，可以通过实现自适应过滤和/或谱减法，从混合音频文件去除混合音频文件中的一个或多个歌曲中的至少一个。在一个示例中，用户可以手动地选择从混合音频记录中去除的至少一个声音记录。这样，可以生成没有一个或多个歌曲中的至少一个的新混合音频文件(例如，修改后的音频文件)。

参考图8，示出用于实现信号处理以从音频记录去除声音记录的示例性方法800。方法800可以提供用于706的进一步细节。在802处，可以确定声音记录的局部线性变换(例如，使用第一减法组件108)。例如，可以以不同偏移量来缩放声音记录。在804处，可以从混合音频记录减去声音记录的局部线性变换，以生成新的混合音频记录(例如，使用第一减法组件108)。例如，可以实现自适应过滤，以从混合音频记录减去声音记录的局部非线性变换。这样，可以生成相减后的波形(例如，新的混合音频记录)。在806处，可以将声音记录的一个或多个片段与新的混合音频记录的一个或多个相应片段进行比较(例如，使用第二减法组件110)。例如，可以将声音记录的一个或多个片段的幅度与新的混合音频记录的一个或多个相应片段的相应幅度进行比较。在一个示例中，可以将声音记录的一个或多个片段的短时傅里叶变换与新的混合音频记录的一个或多个相应片段的短时傅里叶变换进行比较。在808处，可以至少部分地基于一个或多个相应片段与一个或多个片段的关联，减小新的混合音频记录的功率水平(例如，使用第二减法组件110)。例如，第二减法组件110可以至少部分地基于一个或多个相应片段与一个或多个片段的关联，减小新的混合音频记录的一个或多个相应片段中的每个的功率水平。在一个示例中，可以基于谱关联，来减小新的混合音频记录的功率水平。

参考图9，示出用于从嵌入在媒体文件(例如，视频文件)中的音频记录去除声音记录的示例性方法900。在902处，可以接收原始音频记录。例如，可以接收某个人说话的音频记录。在904处，可以接收现有声音记录。例如，可以接收歌曲(例如，受版权保护的歌曲)的声音记录。在906处，可以通过声学捕捉或音频混合来从原始音频记录和现有声音记录生成混合声音记录。例如，可以经由音频记录设备(例如，麦克风)或经由音频混合(例如，音频混合过程)来从原始音频记录和现有声音记录生成混合声音记录。在908处，混合声音记录可以被嵌入在媒体文件中并且上载到服务器。例如，混合声音记录(例如，声迹)可以被嵌入在存储在服务器(例如，远程服务器、媒体内容服务器等)上的视频文件中。在910处，可以识别现有声音记录(例如，通过识别组件104)。例如，可以识别混合声音记录中的一个或多个现有声音记录。在912处，可以实现一个或多个信号处理算法(例如，通过第一减法组件108和/或第二减法组件110)，以从混合音频记录去除现有声音记录。例如，可以通过实现自适应过滤和/或谱减法来从混合声音记录去除混合声音记录中的一个或多个现有声音记录中的至少一个。在914处，可以生成具有原始音频记录和不具有现有声音记录的修改后的音频记录(例如，通过第一减法组件108和/或第二减法组件110)。例如，修改后的音频记录可以仅包括原始音频记录。

参考图10，示出用于从嵌入在媒体文件(例如，视频文件)中的音频记录去除由用户选择的声音记录的示例性方法1000。在1002处，可以接收原始音频记录。例如，可以接收某个人说话的音频记录。在1004处，可以接收现有声音记录。例如，可以接收歌曲的声音记录(例如，受版权保护的歌曲)。在1006处，可以通过声学捕捉或音频混合来从原始音频记录和现有声音记录生成混合声音记录。例如，可以经由音频记录设备(例如，麦克风)或经由音频混合(例如，音频混合过程)，从原始音频记录和现有声音记录生成混合声音记录。在1008处，混合声音记录可以被嵌入在媒体文件中并且被上载到服务器。例如，混合声音记录可以被嵌入在存储在服务器(例如，远程服务器、媒体内容服务器等)上的视频文件中。在1010处，可以识别现有声音记录(例如，通过识别组件104)。例如，可以识别混合声音记录中的一个或多个现有声音记录。在1012处，可以向用户(例如，通过界面组件302)呈现去除现有声音记录中的一个或多个的选项。例如，可以向用户呈现混合声音记录中的每个现有声音记录。另外，可以向用户呈现去除现有声音记录中的至少一个的选项。在1014处，可以响应于用户选择(例如，使用界面组件302)从混合声音记录去除的现有声音记录中的至少一个，确定要从混合声音记录去除哪个现有声音记录。例如，用户可以选择从媒体文件(例如，视频文件)去除的现有声音记录中的至少一个。在1016处，可以实现一个或多个信号处理算法(例如，通过第一减法组件108和/或第二减法组件110)，以从混合音频记录去除至少一个现有声音记录。例如，可以通过实现自适应过滤和/或谱减法，从混合声音记录去除由用户选择的一个或多个现有声音记录中的至少一个。在1018处，可以生成具有原始音频记录并且不具有至少一个现有声音记录(例如，通过第一减法组件108和/或第二减法组件110)的修改后的音频记录。例如，可以生成不具有由用户选择的至少一个现有声音记录的修改后的音频记录。

为了提供用于所公开的主题的多个方面的上下文，图11和图12以及以下讨论旨在提供可以实现所公开的主题的多个方面的适当环境的简短和一般说明。

参考图11，用于实现本公开的多个方面的适当环境1100包括计算机1112。计算机1112包括处理单元1114、系统存储器1116、以及系统总线1118。系统总线1118将包括但不限于系统存储器1116的系统组件耦合至处理单元1114。处理单元1114可以是多种可用处理器中的任一个。双微型处理器和其他多处理器架构也可以被实现为处理单元1114。

系统总线1118可以是多种类型的总线结构中的任一种，包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用任何种类可用总线架构的局部总线，包括但不限于工业标准架构(isa)、微信道架构(msa)、扩展isa(eisa)、智能驱动电子设备(ide)、vesa局部总线(vlb)、外围组件互连(pci)、卡总线、通用串行总线(usb)、高级图形端口(agp)、个人计算机存储卡国际协会总线(pcmcia)、火线(ieee1394)、以及小计算机系统接口(scsi)。

系统存储器1116包括易失性存储器1120和非易失性存储器1122。包含用于在计算机1112内的元件之间传送信息(诸如，在启动期间)的基本例程的基本输入/输出系统(bios)被存储在非易失性存储器1122中。举例说明并且不限制，非易失性存储器1122可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)、闪存、或非易失性随机存取存储器(ram)(例如，铁电ram(feram))。易失性存储器1120包括随机存取存储器(ram)，其用作外部缓存。举例说明并且不限制，ram以很多形式可用，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据速率sdram(ddrsdram)、增强sdram(esdram)、synchlinkdram(sldram)、直接总线式ram(drram)、直接总线式动态ram(drdram)、以及总线式动态ram。

计算机1112还包括可移动/非可移动、易失性/非易失性计算机存储介质。图11示出例如磁盘存储器1124。磁盘存储器1124包括但不限于像磁盘驱动器、软盘驱动器、带驱动器、jaz驱动器、zip驱动器、ls-100驱动器、闪存卡、或存储棒的设备。磁盘存储器1124还可以独立地或者与其他存储介质结合地包括存储介质，包括但不限于光盘驱动器，诸如光盘rom设备(cd-rom)、cd可记录驱动器(cd-r驱动器)、cd可写驱动器(cd-rw驱动器)、或者数字通用盘rom驱动器(dvd-rom)。为了便于磁盘存储设备1124到系统总线1118的连接，通常使用可移动或非可移动接口，诸如接口1126。

图11还示出用作在适当操作环境1100中描述的用户和基本计算机资源之间的中间物的软件。这样的软件包括例如操作系统1128。可以被存储在盘存储器1124上的操作系统1128用于控制和分配计算机系统1112的资源。系统应用1130通过例如存储在系统存储器1116中或磁盘存储器1124上的程序模块1132和程序数据1134，由操作系统1128利用资源的管理。将理解本公开可以通过多种操作系统或操作系统的结合被实现。

用户通过输入设备1136将命令或信息输入到计算机1112中。输入设备1136包括但不限于指示设备，诸如鼠标、跟踪球、笔、触控板、键盘、麦克风、操纵杆、游戏垫、卫星盘、扫描仪、tv调谐器卡、数码相机、数字摄像机、web相机等。这些和其他输入设备经由接口端口1138通过系统总线1118连接至处理单元1114。接口端口1138包括例如串行端口、并行端口、游戏端口、以及通用串行总线(usb)。输出设备1140使用一些相同类型的端口作为输入设备1136。因而，例如，usb端口可以被用于将输入提供给计算机1112，并且将信息从计算机1112输出到输出设备1140。提供输出适配器1142，以示出存在一些输出设备1140，像监视器、扬声器、以及打印机、以及要求特殊适配器的其他输出设备1140。举例说明并且不限制，输出适配器1142包括视频和声卡，其提供输出设备1140和系统总线1118之间的连接手段。应该注意，其他设备和/或设备的系统提供诸如远程计算机1144的输入和输出能力。

计算机1112可以使用到诸如远程计算机1144的一个或多个远程计算机的逻辑连接来在联网环境中操作。远程计算机1144可以是个人计算机、服务器、路由器、网络pc、工作站、基于微处理器的用具、对等设备或其他公共网络节点等，并且通常包括很多或所有关于计算机1112描述的元件。为了简短的目的，仅通过远程计算机1144示出存储器存储设备1146。远程计算机1144通过网络接口1148在逻辑上连接至计算机1112，并且然后经由通信连接1150在物理上被连接。网络接口1148包括有线和/或无线通信网络，诸如局域网(lan)、广域网(wan)、蜂窝网络等。lan技术包括光纤分布式数据接口(fddi)、铜线分布式数据接口(cddi)、以太网、令牌环等。wan技术包括但不限于点到点链路、电路交换网络(像集成服务数字网络(isdn)和对其的改变的电路交换网络)、分组交换网络、以及数字用户线(dsl)。

通信连接1150是指用于将网络接口1148连接至总线1118的硬件/软件。虽然通信连接1150被清楚地示出在计算机1112内，但是其还可以在计算机1112之外。仅为了示例性目的，到网络接口1148的连接所必须的硬件/软件包括内部和外部技术，诸如包括常规电话级调制解调器、电缆调制解调器和dsl调制解调器的调制解调器、isdn适配器、以及以太网卡。

将理解计算机1112可以关于实现结合图1至图5中示出和描述的系统或组件中的一个或多个被使用。根据多个方面和实现，计算机1112可以被用于从音频记录(例如，嵌入在视频文件中的音频记录)去除声音记录。在某些示例性实施例中，计算机1112包括过滤器组件1106(例如，过滤器组件102)，其可以包含例如识别组件、处理组件、检测组件、第一减法组件、第二减法组件、修改组件和/或界面组件，其每个都可以分别起作用，如在此更全面公开的。

图12是本公开的主题可以与其交互的采样计算环境1200的示意性框图。系统1200包括一个或多个客户端1210。客户端1210可以是硬件和/或软件(例如，线程、过程、计算设备)。系统1200还包括一个或多个服务器1230。因而，系统1200可以对应于两层客户端服务器模型或多层模型(例如，客户端、中间层服务器、数据服务器)或其他模型。服务器1230也可以是硬件和/或软件(例如，线程、过程、计算设备)。例如，服务器1230可以容纳用于通过采用本公开来执行变换的线程。客户端1210和服务器1230之间的一种可能通信可以为在两个或更多计算机过程之间发送的数据分组的形式。

系统1200包括可以用于便于客户端1210和服务器1230之间的通信的通信架构1250。客户端1210可操作地连接至一个或多个客户端数据存储1220，其可以用于存储客户端1210本地的信息。类似地，服务器1230可操作地连接至一个或多个服务器数据存储1240，其可以用于存储服务器1230本地的信息。

注意，本公开的多个方面或特征可以在基本任何无线电信或无线电技术中被使用，例如wifi、蓝牙、全球微波互连接入(wimax)、增强通用分组无线电服务(增强gprs)、第三代合作伙伴计划(3gpp)长期演进(lte)、第三代合作伙伴计划2(3gpp2)超移动宽带(umb)、3gpp通用移动电信系统(umts)、高速分组接入(hspa)、高度下行链路分组接入(hsdpa)、高速上行链路分组接入(hsupa)、gsm(全球移动通信系统)、edge(增强型数据速率gsm演进技术)、无线电接入网(geran)、umts陆地无线电接入网(utran)、先进的lte(lte-a)等。另外，在此描述的一些或所有方面可以在遗传电信技术中使用，例如gsm。另外，移动以及非移动网络(例如，互联网、诸如网际协议电视(iptv)的数据服务网等)可以采用在此描述的多个方面或特征。

虽然以上在于一个和/或多个计算机上运行的计算机程序的计算机可执行指令的一般上下文中描述了本主题，但是本领域技术人员将认识到本公开还可以或可能结合其他程序模块被实现。通常，程序模块包括例程、程序、组件、数据结构等，其执行特定任务和/或实现特定抽象数据类型。而且，本领域技术人员将理解发明方法可以通过其他计算机系统配置被实践，包括单处理器或多处理器计算机系统、微型计算设备、大型计算机、以及个人计算机、手持式计算设备(例如pda、电话)、基于微处理器的或可编程用电设备或工业电子设备等。所示方面还可以在分布式计算环境中实现，其中，通过经由通信网络链接的远程处理设备执行任务。然而，本公开的一些而不是所有方面可以在独立计算机上被实现。在分布式计算环境中，程序模块可以被定位在本地和远程存储器存储设备中。

如在本申请中使用的，术语“组件”、“系统”、“平台”、“接口”等可以指和/或可以包括计算机相关实体或者关于具有一个或多个特定功能的操作机器的实体。在此公开的实体可以是硬件、硬件和软件的结合、软件、或被执行的软件。例如，组件可以是但不限于在处理器上运行的过程、处理器、对象、可执行对象、执行的线程、程序、和/或计算机。举例说明，在服务器上运行的应用和服务器可以是组件。一个或多个组件可以位于执行的过程和/或线程内，并且组件可以被定位在一个计算机上和/或分布在两个或更多计算机之间。

在另一个示例中，各个组件可以从在其上存储多种数据结构的多种计算机可读介质执行。组件可以诸如根据具有一个或多个数据分组(例如，来自与本地系统、分布式系统中的另一个组件和/或经由信号跨越诸如互联网的网络与其他系统交互的一个组件的数据)的信号，经由本地和/或远程过程通信。作为另一个示例，组件可以是具有由通过电或电子电路操作的机械部件提供的特定功能的装置，其通过由处理器执行的软件或固件应用操作。在这样的情况下，处理器可以在装置的内部或外部，并且可以执行软件或固件应用的至少一部分。作为还有的另一个示例，组件可以是经由不具有机械部件的电子组件提供特定功能的装置，其中，电子组件可以包括处理器或其他装置，以执行至少一部分授予电子组件的功能的软件或固件。在一方面中，组件可以经由例如云计算系统内的虚拟机，仿效电子组件。

另外，术语“或者”旨在意味着包括性“或者”而不是排他性“或者”。即，除非另外指出或者从上下文清楚地看出，“x采用a或b”旨在意味着任何自然包括性置换。即，如果x采用a，x采用b，或者x采用a和b，则“x采用a或b”在任何以上实例中被满足。而且，除非另外指出或者从上下文清楚地看出是指单数形式，在本说明书和附图中使用的冠词“一(a)”和“一个(an)”通常被解释为意味着“一个或多个”。

如在此使用的，术语“示例性”和/或“示范性”被用于指用作实例、示例、或说明。为了避免怀疑，在此公开的主题不受这样的示例限制。另外，在此描述为“示例性”和/或“示范性”的任何方面或设计都不必须被解释为比其他方面或设计更优选或有利，也不意味着排除本领域普通技术人员已知的等效示例性结构和技术。

在此描述的多个方面或特征可以被实现为使用标准编程或工程技术的方法、装置、系统或制品。另外，在本公开中公开的多个方面或特征可以通过实现在此公开的至少一个或多个方法的程序模块被实现，程序模块被存储在存储器中并且至少由处理器执行。硬件和软件或者硬件和固件的其他结合可以使能或实现在此描述的多个方面，包括所公开的方法。在此使用的术语“制品”可以包括从任何计算机可读设备、载体、或者存储介质可访问的计算机程序。例如，计算机可读存储介质可以包括但不限于磁性存储设备(例如，硬盘、软盘、磁带…)、光盘(例如，压缩盘(cd)、数字多媒体盘(dvd)、蓝光盘(bd)…)、智能卡、以及闪存设备(例如，卡、棒、键驱动器)等。

当在本说明书中被采用时，术语“处理器”可以指基本任何计算处理单元或设备，包括但不限于单核处理器、具有软件多线程执行能力的单处理器、多核处理器、具有软件多线程执行能力的多核处理器、具有硬件多线程技术的多核处理器、并行平台、以及具有分布式共享存储器的并行平台。另外，处理器可以指集成电路、专用集成电路(asic)、数字信号处理器(dsp)、场可编程门阵列(fpga)、可编程逻辑控制器(plc)、复杂可编程逻辑设备(cpld)、离散门或晶体管逻辑、离散硬件组件、或者被设计成执行在此描述的功能的其任何结合。而且，处理器可以采用纳米级架构，诸如但不限于基于分子和量子点的晶体管、开关和门，以最优化空间利用或增强用户设备的性能。处理器还可以被实现为计算处理单元的结合。

在本公开中，诸如“存储”、“存储器”、“数据存储”、“数据存储器”、“数据库”的术语以及与组件的操作和功能相关的基本任何其他信息存储组件被用于指被具体化为“存储器”的“存储器组件”实体或包括存储器的组件。将理解在此描述的存储器和/或存储器组件可以是易失性存储器或非易失性存储器，或者可以包括易失性和非易失性存储器。

举例说明并且不限制，非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除rom(eeprom)、闪存、或非易失性随机存取存储器(ram)(例如，铁电ram(feram))。例如，易失性存储器可以包括ram，其可以用作外部缓存。举例说明并且不限制，ram以很多形式可用，诸如同步ram(sram)、动态ram(dram)、同步dram(sdram)、双数据速率sdram(ddrsdram)、增强型sdram(esdram)、synchlinkdram(sldram)、直接总线式ram(drram)、直接总线式动态ram(drdram)、以及总线式动态ram(rdram)。另外，在此公开的系统或方法的存储器组件旨在包括而不限于包括这些和任何其他合适类型的存储器。

将想到并且理解关于特定系统或方法描述的组件(例如，过滤器组件、识别组件、处理组件、检测组件、第一减法组件、第二减法组件、修改组件、界面组件等)可以包括与关于在此公开的其他系统或方法描述的相应组件(例如，相应命名的组件或类似命名的组件)相同或类似的功能。

以上描述的内容包括提供本公开的优点的系统和方法的示例。当然，为了描述本公开的目的，其不可能描述组件或方法的每一种可想到结合，但是本领域普通技术人员可以认识到本公开的很多进一步组合和置换都是可以的。而且，在术语“包括”、“具有”、“拥有”等在具体实施例方式、权利要求、附录和附图中被使用的程度上，如当在权利要求中被用作传统词语时解释“包括”那样，以类似于术语“包括”的方式，这样的术语旨在是包括性的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：克里斯托弗·拉罗萨;萨姆·克瓦伦;托马斯·查德威克·沃尔特斯;理查德·弗朗西斯·莱恩;罗伯特·史蒂文·格利克斯坦;鲁沙巴·阿肖克·多希;莫莉·卡斯尔·尼克斯;杰森·马修·托夫
技术所有人：谷歌公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。