自动音频记录器－播放器及其操作方法

文档序号：2821011阅读：352来源：国知局

专利名称：自动音频记录器－播放器及其操作方法
技术领域：
本发明通常涉及音频娱乐系统。更具体而言，本发明涉及结合了一种音频记录器-播放器的音频娱乐系统，所述音频记录器-播放器允许对音频信号的记录、处理和对所记录的音频信号的选择性回放。有利地，所述音频记录器-播放器允许用户基于用于先前记录的音频信号采样的处理结果来播放现场或记录的音频选择。
背景技术：
用于以可接受的精度，即好于95％来执行对现场音频信号或音频信号文件的语音识别的软件是可商用的。例如，U.S.专利No.4,277,644和6,101,467覆盖了语音识别软件的各个方面。而且，用于表征音频内容的可比方法是已知的。U.S.专利No.6,054,646和6,173,260覆盖了用于通过节拍、能量、音高等来表征音乐的方法。另外，大多数汽车收音机包括扫描模式，其允许收音机自动步进经过AM或FM频带，在每个现有音频信号源，即频道处停止几秒。
尽管有针对语音识别和音频信号分析和表征两者的近些年来的进步和正在进行中的发展，当前音频产品中的趋势或者照常是商业，即依赖于市场力而在各种类型的广播节目之间进行区分，或者依赖于单个实体而将音乐分类成各种频道。这些频道然后通过卫星或在互联网上广播。
近些年来，几种“增强的收音机”已被引入(其大多数已从市场被撤销)，其中未知的“音频节目编排者(programmer)”选择进入多个频道的音乐。例如，根据内容来分类的几个音频频道可从诸如Spinner的提供商或服务在互联网上获得。最近引入的XM收音机提供了专业编排的音乐、体育、新闻等的100个以上的频道。然而，在接收卫星广播的过程中采用的收音机并不比在十年前提供的汽车收音机的功能多。通过提供在互联网上可用的音频源的数据库，即内容是根据公司的标准而不是用户的喜好来分类的，可替换的Kerbango收音机(和调谐服务)提供了一些高级的功能。相反，由AudioRamp.com提供的互联网收音机设备存储了近似1000个MP3文件。然而，由于用户从在线流动源获得这样的文件，音频文件同样是通过流动源而不是用户来选择的。
所需的是这样一种音频记录器-播放器，其允许来自多个音频源的音频信号被分析和表征以使根据用户的喜好来选择由用户重放的音频源。将有益的是如果音频记录器-播放器可被结合到许多装置中，包括但不局限于汽车娱乐系统、个人计算机、置顶盒等。将理想的是如果音频记录器-播放器可对高水平声音命令做出响应。最后，这样的音频记录器-播放器将是特别有利的所选元件可以是真实的，或虚拟的，即由处理器来展示的软件功能。

发明内容
基于以上和先前所述，可以理解，目前在本领域中需要一种克服了上述缺陷的音频记录器/播放器和对应的操作方法。本发明的动机在于这样的愿望克服目前可用的技术的障碍和缺点并由此满足本领域的这种需要。
依照一个方面，本发明提供了一种音频记录器-播放器，包括第一装置，用于调谐到至少两个音频源以由此产生第一和第二音频信号；第二装置，用于响应于第一和第二音频信号来产生并表征第一和第二音频信号特征；第三装置，用于存储第一和第二音频信号以及第一和第二音频信号特征两者；以及第四装置，用于响应于对第一和第二音频信号特征之一的选择来再现第一和第二音频信号之一。如果需要，音频记录器-播放器可有利地被包括在收音机、计算机或置顶盒之一中。有益的是，存储装置可包括硬盘。在示例的实施例中，调谐装置包括由处理器来执行的软件例行程序。而且，产生装置可包括由处理器来执行的声音识别例行程序。如果需要，音频记录器-播放器亦包括用于施加响应于所说的命令而产生的控制信号以由此控制再现装置的装置。
依照另一个方面，本发明提供了一种音频记录器-播放器，包括M个调谐器，其产生由N个音频源发送的N个音频信号；分析器，其从所述N个音频信号中提取RxN个音频信号特征；存储器，其存储所述RxN个音频信号特征；以及输出电路，其响应于对所述RxN个音频信号特征的至少一个的选择而再现对应于所述N个音频信号之一的音频信号，其中R是正整数而M和N是大于1的正整数。如果需要，M个调谐器的每个都包括由处理器来执行的软件例行程序。另外，分析器有利地包括由处理器来执行的声音识别例行程序。在示例的情况下，声音识别例行程序可被用于响应于所说的命令而产生控制输出电路的信号。
依照进一步的方面，本发明提供了一种用于包括M个调谐器、分析器、存储装置和音频输出电路的音频记录器-播放器的操作方法，包括用于以下的步骤操作M个调谐器以从N个音频源采集N个音频信号；操作分析器以表征所述N个音频信号并产生RxN个音频信号特征；将所述N个音频信号和RxN个音频信号特征两者存储在存储装置中；以及响应于对所述RxN个音频信号特征之一的选择而通过音频输出电路再现所述N个音频信号的所选的一个，其中R是正整数而M和N是大于1的正整数。如果需要，M可等于N，特别是当每个调谐器都是由处理器来执行的调谐器例行程序时。在示例的情况下，N个音频信号之一在M个调谐器之一被调谐到N个音频源的相应的一个时被存储，并且RxN个音频信号特征从所存的N个音频信号中被提取。优选的是，RxN个音频信号特征的所选的一个对应于用于被包括在N个音频信号中的音乐的拍子、音调和能量。可替换的是，RxN个音频信号特征的所选的一个对应于从被包括在N个音频信号中的语音中提取的词。在任何情况下，所述操作方法可包括这样的步骤，其用于产生控制信号以便于使音频输出电路响应于RxN个音频信号特征的用户所选的一个而再现N个音频信号的所选的一个。
依照又进一步的方面，本发明提供了一种用于包括M个调谐器、分析器、存储装置和音频输出电路的音频记录器-播放器的操作方法，包括用于以下的步骤操作M个调谐器以从N个音频源采集N个音频信号段；操作分析器以表征所述N个音频信号段并产生RxN个音频信号特征；将所述RxN个音频信号特征存储在存储装置中；以及响应于对所述RxN个音频信号特征之一的选择而通过音频输出电路再现由N个音频源的所选的一个产生的音频信号，其中R是正整数而M和N是大于1的正整数。如果需要，M可等于N。在示例的情况下，N个音频信号段之一在每次M个调谐器之一被调谐到N个音频源的相应的一个时被临时存储，并且RxN个音频信号特征从临时存储的N个音频信号段中被提取。优选的是，RxN个音频信号特征的所选的一个对应于用于被包括在N个音频信号段中的音乐的拍子、音调和能量。可替换的是，RxN个音频信号特征的所选的一个对应于从被包括在N个音频信号段中的语音中提取的词。在任何情况下，所述操作方法可包括这样的步骤，其用于产生控制信号以便于使音频输出电路响应于RxN个音频信号特征的用户所选的一个而再现N个音频信号的所选的一个。

参照结合附图而进行的以下详述将容易理解本发明的这些和各种其它特点和方面，在附图中始终使用相同或类似的数字，并且图1是依照本发明第一优选实施例的音频记录器-播放器的高水平方块图；图2是依照本发明第二优选实施例的音频记录器-播放器的高水平方块图；图3是说明在图1和2中所说明的音频记录器-播放器的各个操作方面的流程图；并且图4A和4B说明了可被用在图1和2中所述的音频记录器-播放器中的可替换的示例存储器组织。
具体实施例方式
现在将参照图1来描述依照本发明的第一优选实施例，该图是音频记录器-播放器1的高水平方块图。优选的是，音频记录器-播放器包括在工作上被耦合于天线10的调谐器20和22。优选的是，调谐器20、22的每个都由处理器30来控制，该处理器有利地通过输入/输出(I/O)端口32将控制信号提供给调谐器。
处理器30在工作上被耦合于随机存取存储器(RAM)42、非易失性随机存取存储器(NVRAM)44和只读存储器(ROM)46。RAM 42为通过由处理器30来执行的程序和例行程序产生的数据而提供临时存储，而NVRAM存储表征结果，即指示音频信号特征的数据。ROM 46存储程序和由这些程序使用的永久数据。在这点上应提及的是，处理器30有利地可以是微处理器或数字信号处理器(DSP)之一；在示例的情况下，处理器30可包括这两种类型的处理器。在另一个示例情况下，处理器是执行分析器的DSP，其如在以下较详细讨论而工作。亦应提及的是NVRAM 44有利地可以是静态RAM(SRAM)或铁磁RAM(FERAM)等，而ROM 46可以是SRAM或电可编程ROM(EPROM或EEPROM)，其将允许待更新为新程序版本的程序和“永久”数据变得可用。可替换的是，由RAM 42、NVRAM 44和ROM 46提供的功能有利地可在本发明中被实施为单个硬驱动器。在此情况下，离散的存储器42、44和46可被结合到单个存储器装置40中，例如硬驱动器或硬盘中。
调谐器20、22的每个都在工作上被连接于输出电路，其在示例的情况下包括选择器开关24、数字到模拟转换器(DAC)50、放大器60和扬声器70。输出电路中的各种装置以常规方式被耦合于接地80。将指出，当调谐器20、22是模拟装置时，DAC 50有利地可被省略。然而，由于调谐器20、22的输出亦通过I/O端口32而提供给处理器30以便于分析和表征，为简单起见，调谐器20、22被说明为数字装置，即具有数字输出的调谐器。基于阅读本公开内容，本领域的普通技术人员将想到其它安排，并且所有这样的安排被认为是处于本发明的范围内。
将指出，图1中所说明的音频记录器-播放器1的配置适合于被包括在用无线电或通过例如线缆的陆线来接收多个音频源传输的装置。这样的装置包括收音机，即汽车收音机、卫星收音机等，以及置顶盒(STB)，例如线缆和卫星STB。亦将指出，音频记录器-播放器1分析和表征音频内容的速度受被包括在所述装置中的调谐器的数量的约束。例如，当音频记录器-播放器1仅包括所说明的调谐器20、22(尽管有利地可包括更多)，并且调谐器20正在播放用户喜爱的收音机站，仅调谐器22可用于进行音频采样。由于每个采样都是几秒钟长，由于对每个站的内容的分析和表征的质量通常与用于那个站的采样的数量成反比，并且由于当调谐器从一个音频源被调谐到另一个时在所接收的音频信号中存在有限的间隙，可能需要几分钟或甚至几小时来分析和表征为特定的听众提供服务的所有音频源。将有利的是如果能操作多个虚拟调谐器的装置是可用的，例如由读取所存调谐器程序或软件例行程序的处理器来执行的调谐器。这样的装置被说明于图2中。
依照本发明的另一个示例实施例被说明于图2中，该图是音频记录器-播放器100的高水平方块图。将理解，在音频记录器-播放器100中采用的几个部件是软件装置，如在以下较详细讨论的。将理解，音频记录器-播放器100有利地可被连接于各种流动音频源；在这一点上仅在美国就有工作中的2500个之多的这种源。优选的是，处理器130从互联网(I)通过I/O端口132来接收这些流动音频源。将指出，连接到互联网所需的实际硬件包括调制解调器，例如模拟、线缆或DSL调制解调器等，并且在一些情况下包括网络接口卡(NIC)。不形成本发明部分的这种常规装置将不在以下做进一步讨论。
仍参考图2，处理器130优选地被连接于共同形成存储器140的RAM 142、NVRAM 144和ROM 146。如以上针对图1所描述的，RAM142为通过由处理器130来执行的程序和例行程序产生的数据而提供临时存储，而NVRAM 144存储表征结果，即指示音频信号特征的数据。ROM 146存储程序和由这些程序使用的永久数据。应提及的是，NVRAM 144有利地可以是静态RAM(SRAM)或铁磁RAM(FERAM)等，而ROM 146可以是SRAM或电可编程ROM(EPROM或EEPROM)，其将允许待更新为新程序版本的程序和“永久”数据变得可用。可替换的是，RAM 142、NVRAM 144和ROM 146的功能有利地可在本发明中被实施为单个硬驱动器，即单个存储器装置140。将理解，当处理器30(130)包括多个处理器时，每个处理器都有利地可共享存储器装置140或具有相应的存储器装置。其它安排，例如所有DSP都采用存储器装置140并且所有微处理器都采用存储器装置140A(未示出)，亦是可能的。
从图2将理解，处理器130执行与处理器资源所允许的一样多的虚拟调谐器，例如TCP/IP调谐器120a-120n。TCP/IP调谐器120a-120n之一通过I/O端口132在工作上连接于输出电路，其在示例情况下包括任选的数字到模拟转换器(DAC)150、放大器160和扬声器170。输出电路中的各种装置以常规方式被耦合于接地180。同样，基于阅读本公开内容，本领域的普通技术人员将想到其它安排，并且所有这样的安排被认为是处于本发明的范围内。将指出，当音频记录器-播放器包括数字放大器160时，即不需要DAC时，DAC 150可被省略。
现在将参考图3来描述音频记录器-播放器1和100的总体工作，该图说明了操作依照本发明的音频记录器-播放器的方法的流程图。在步骤S10期间，音频记录器-播放器被通电并初始化。对于图1和2中所说明的任何一个音频记录器-播放器，初始化例行程序有利地可包括初始化RAM 42(142)以接受数字音频信号采样；而且，音频记录器-播放器1(100)的处理器30(130)可从ROM 46(146)检索这两个软件并读取先前存储在NVRAM 44(144)中的音频信号特征。
在描述用于音频记录器-播放器1(100)的操作方法中的其余步骤之前，可能有用的是讨论例如存储器40的组织，该存储器有利地提供归因于RAM 42、NVRAM 44和ROM 46的功能。从图4A将理解，ROM 46或存储器40的等效部分有利地存储可由处理器30执行或在处理器30上执行的软件程序和例行程序。这些软件程序和例行程序可例如是分析器软件(AN)、TCP/IP调谐器软件(TS)、声音识别软件(VR)、重合软件(CS)、声音导航软件(VN)和操作系统(OS)。亦将理解，假定例如TCP/IP调谐器(TS)的例行程序的多个副本可被同时执行，则程序的仅一个副本需要被存储。相反，存储器40的RAM部分被组织成库、高速缓存、缓冲器或队列AS1-ASN以便于从调谐器接收音频信号采样。多个存储位置被提供，每个待采样的音频信号源一个。对于在存储器40的RAM部分中建立的每个高速缓存或缓冲器，存在对应的NVRAM部分ASC1-ASCN，在其中存储了用于对应音频信号采样的音频信号特征。
图4B说明了可替换的存储器配置，其中存储器40(140)的相当部分被分成大容量音乐存储区域48。将指出，当大的硬驱动器时，例如大于1 GB时，所述存储区域可被省略以有利于将采样存储高速缓存AS1-ASN增加到这样的程度这些高速缓存或缓冲器的至少一些可包含来自用户喜爱的音频源的几分钟且优选为几小时的材料，不论压缩与否。在这点上应提及的是，由于各种高速缓存AS1-ASN和ASC1-ASCN是由音频记录器-播放器建立的，每个高速缓存的大小可被任意设置。例如，高速缓存AS1可存储来自“全谈话”或“全天气”音频源(站)的音频信号采样或段，这需要相对小的采样大小。然而，用户建立的关键词，用户感兴趣的短语词，可如此广泛以使音频信号特征的数量可能需要对应于那个音频源专用的存储器42的存储器44中的区域比被分配给该音频源的区域大。其它安排是可能的，并且所有这样的安排被认为是处于本发明的范围内。
应理解，当音频记录器-播放器1被结合到汽车中的收音机中时，高速缓存大小可被限制以从所有可能的音频信号源收集音频信号采样；由于用户的喜好被音频记录器-播放器学习，高速缓存位置的数量可被减小以增加剩余高速缓存的大小。换句话说，音频记录器-播放器不需要存储来自用户不想要播放的音频信号源的音频信号采样。例如，如果用户简单地不欣赏歌剧和说唱音乐，则分析来自在歌剧和说唱音乐方面专业化的站的传输是没有意义的。
再次参考图3，在步骤S12期间，音频采样(或节目)有利地从可用的音频信号源或其子集被获得。将理解，当有几个真实或虚拟调谐器，例如调谐器20、22或TCP/IP调谐器120a-120n可用时，有利的是可并行地执行采样。例如，当用户正在操作结合了依照本发明的音频记录器-播放器1的汽车娱乐系统的CD播放器时，调谐器20和22两者均可在后台主动扫描音频信号源。当用户正在收听由调谐器20“捕捉”的站时，仅调谐器22可用于执行音频采样步骤。将指出，音频记录器-播放器100的处理器130仅执行与正被执行的其它功能相当数量的TCP/IP调谐器120a-120n。例如，当音频记录器-播放器100被结合到个人计算机中时并且该计算机正被用作字处理器时，处理器130可执行TCP/IP调谐器(和其它软件装置)直到字处理例行程序的性能开始降级。应指出，在此情况下，当用户起动他/她的电子表格程序时，处理器130上载，即删除一个或多个TCP/IP调谐器以维持计算机的性能水平。
应提及的是，由于仅有有限数量的真实甚至虚拟调谐器，并由于音频源不能用一个长、连续的采样来表征，并且它可具有覆盖较长时间段的几个音频采样段，因此可用的调谐器可重复地扫描经过可用的音频信号源。这样，每次当第N个音频信号源被选择时，音频信号段被存储在ASN中以便于随后的分析。相反，在用户的喜好被音频记录器-播放器1(100)学习之后，音频记录器-播放器有利地可记录来自优选音频源的几分钟或甚至几小时的内容以使当例如所述优选音频源不可用时，例如当用户正在旅行并且他/她喜爱的收音机站不能被接收时，材料可用于回放。
在步骤S14期间，音频记录器-播放器分析所存的音频信号采样并产生识别音频信号特征的一个或多个数据。例如，在AS1中存储的音频信号采样或段有利地可由语音识别软件或音乐分类软件或两者来处理。将理解，当音频信号采样经历这两种类型的处理时，这样的处理优选地被并行执行。然而，串行处理并未被排除。而且，当先前存储的音频信号特征指示特定的音频信号源，例如站，是“全谈话”音频信号源时，音频记录器-播放器不需要执行音乐分类处理，这是因为大多数“音乐”将与广告关联。有关在步骤S14期间被执行的分析和表征例行程序的附加细节被提供于以下。
在步骤S16期间，对应于在存储器40的存储器位置AS1-ASN中存储的音频信号采样中的音频信号特征的数据被存储在对应的存储器位置ASC1-ASCN中。将理解，音频信号特征数据是永久数据，即该数据有利地在电源关闭事件和初始化中自始至终被保留，即步骤S10；被存储在例如RAM 42中的存储器位置AS1-ASN处的音频信号采样通常在下一次用户对他/她的结合音频记录器-播放器的汽车娱乐系统通电时不可用。
音频记录器-播放器1(100)周期性地检查以了解是否已由用户输入了命令。更具体而言，在步骤S18中执行检查以确定是否已由用户输入了声音命令。可替换的是，或者同时，在步骤S20期间，音频记录器-播放器执行检查以确定是否已通过例如用户激励音频记录器-播放器的控制面板中(或与音频记录器-播放器关联的远程控制装置(未示出)中)的键而产生了键命令。当这些检查的任何一个或两者处的回答是否定(N)时，例行程序跳回到步骤S12的起始并且开始采集附加的音频信号段或采样。然而，当任何一个检查的结果是肯定(Y)时，例行程序跳到步骤S22。
在步骤S22期间，调谐器控制信号(TCS)被产生，其对应于在步骤S18或步骤S20期间输入的命令。在步骤S24期间，该信号被施加给预定的调谐器，例如调谐器20或TCP/IP调谐器120a，从而使该调谐器跳到在TCS中标识的音频信号源。将理解，TCS有利地可包括有关待由调谐器播放音频信号的方式的指令，例如有关音量、低音和高音设置等的指令。
在步骤S26期间，执行检查以确定是否切断命令已被施加给音频记录器-播放器1(100)。切断命令可采取对娱乐系统的电源按钮的操作的形式。可替换的是，特别是在音频记录器-播放器100的情况下，它将采取对用户的互联网连接的故意切断(或丢失)的形式。将理解，不论何时当例如用户起动了足够的其它程序以至于没有足够的处理器资源来执行各种音频记录器-播放器软件模块时，可由处理器130本身来提供切断命令。在任何情况下，当所述确定的结果是否定(N)时，所述操作方法返回到步骤S12的起始。当所述结果是肯定(Y)时，音频记录器-播放器在步骤S28期间切断。
这样，依照本发明的音频记录器-播放器提供了这样一种系统，其可自动扫描经过不同的收音机(或互联网收音机)节目并从每个收音机站或音频信号源收集音频信号采样。而且，音频记录器-播放器有利地可执行音频个性化功能，例如暂停和搜索以及/或者分类所收集的音频信号采样。当被结合到汽车的娱乐系统中时，音频记录器-播放器可自动扫描并将内容分类成音乐或语音。
将理解，音频分段和分类包括将音频信号划分成对应于不同种类，例如语音、音乐等的部分。第一步是将音频数据的连续位流划分成不同的不重叠的段以使每段都在其类别上是均匀的。然后使用低水平音频特点，如带宽、能量和音高来分类每个音频段，如在以上详细讨论的。音频分段和分类在本领域是已知的，并且被概括说明于D.Li，I.K.Sethi，N.Dimitrova和T.Mcgee的出版物，题为“Classification ofGeneral Audio Data For Content-Based Retrieval”，Pattern RecognitionLetters，pp.533-544，Vol.22，No.5，2001年4月，其整个公开内容在此引入作为参考。该论文致力于通过分类特点将连续通用音频数据分类成七个种类的问题。在依照本发明的音频记录器-播放器中使用的七个音频种类包括无声、单个说话者语音、音乐、环境噪声、多个说话者的语音、同时的语音和音乐、以及语音和噪声。有利的是，该论文提出了适用于被用于提取六组声学特点的低水平特点检测的基本定义和算法，包括Mel Cepstral频率系数(MFCC)、线性预测编码系数(LPC)、德尔塔MFCC、德尔塔LPC、自相关MFCC以及几个时间和谱特点。
应提及的是，有关对音频信号采样和段进行分类和特点提取的附加细节被公开于例如U.S.专利No.5,918,223和6,320,623 B1中。具体而言，U.S.专利No.6,320,623公开了一种电视，其当借助被耦合于数据和声音检测器的辅助调谐器，即画中画(PIP)调谐器而检测到预定音频事件时触发事件，例如频道切换事件。另外，U.S.专利No.5,918,223公开了一种用于执行对音频数据文件的分析和比较的装置。将理解，后者的专利在执行特点提取的过程中，即产生特点矢量的过程中采用了以上提及的MFCC算法。而且，Serhan Dagtas和Mohamed Abdel-Mottaleb的论文，题为“Extraction of TV Highlights using MultimediaFeatures”，Proceedings International Workshop on Multimedia SignalProcessing，2001年10月(法国戛纳)，提供了有关特点提取的附加细节。
此外，来自可用音频源的音乐可被分类并被音频记录器-播放器控制以使调谐器之一留在对应于用户个人概况的站上。例如，如果用户是爵士乐迷，则在汽车从一个广播区域行进到另一个时，汽车娱乐系统将保持被调谐到爵士乐站。将理解，第一和第二站之间的切换可由音频记录器-播放器来协调以避免音乐流中的可察觉的不连续，例如，当两个站正在播放商业广告时可发生切换，或者可以用已存储在音频记录器-播放器的存储器中的爵士乐来填充间隙。在任何情况下，当用户发出诸如“找一些有趣的东西”的高水平声音命令时，音频记录器-播放器可被置于该工作模式中，其中“有趣的”对应于与那个用户关联的音乐的一个或多个种类。
对于收音机新闻站，音频记录器-播放器有利地可为错过的项目或用户感兴趣的项目提供搜索机构。这些项目可被“忙碌地”预定或建立。优选地，新闻可被存储并传送给用户的PDA或蜂窝电话以便于以后(以音频或文本格式)回放，或者被高速缓存并在次日被继续，即在下一次用户驾驶他/她的汽车时被继续。将理解，该工作模式可被扩展以记录有关天气和交通的更新报告以便于立即回放，这将消除等待当前报告来到，或者听到过时的报告。将指出，对应于“即时天气”或“即时比分”的专用键和高水平声音命令可被结合到音频记录器-播放器中。
亦应指出，在扫描模式下，音频记录器-播放器有利地可监视某些频道并当某些用户标识的事件发生时警告用户。对此的示例情况是在用户收听新闻频道的同时，扫描器监视广播几个不同体育事件，例如几个大学篮球或足球比赛的广播的几个频道。不论何时当兴趣事件发生时，例如广播员指示“触地”已被记分或者比赛正进入加时时，音频记录器-播放器简短地切换到那些频道并输出相应的音频信号。换句话说，不论何时当有利地可被存储在存储器44(144)中的“整体(global)”音频信号特征被满足，即被识别为正被监视的音频信号之一的特征时，音频记录器-播放器输出所监视的音频信号之一。应当理解，事件不需要通过声音识别软件模块借助分析来检测；事件可以是指示人群激动水平的一般兴趣事件被标识的音频信号采样。在任何情况下，依照本发明的音频记录器-播放器以自动方式将事件检测和监视特点提供给用户。
另外，音频记录器-播放器可以以自动方式将所标识的内容添加给其仓库。例如，被监视的音频源(频道或站)可被缓存以给出足够的存储。有益的是，当用户选择记录节目时，当前歌曲的起始点被检测并且整个节目被记录。相反，当用户希望跳过当前现场节目时，所记录的材料可被重放以确保增强的用户体验。将理解，通过精选被重复的歌曲或消除商业广告以及新闻、天气和交通报告，音频记录器-播放器可最优化所存音乐的量。用户亦可通过另一个高水平声音命令从存储器中消除不想要的歌曲。假定用户将认为在音频记录器-播放器1的存储器40中存储的所有或至少大部分歌曲是吸引人的，则当没有站可用时，音频记录器-播放器有利地可以以对音乐的随机选择来对“有趣准则”做出响应。简而言之，由于音频记录器-播放器具有多个调谐器和用于节目材料存储的存储器，音频记录器-播放器有利地提供时间偏差能力。
优选地，音频记录器-播放器通常针对多个音频源来扫描和存储音频信号采样或段，因此所存的音乐的量应当是仅几秒钟。这对于音频记录器-播放器提取音乐特点、对语音段执行语音到文本转换以及分析音频内容来说是足够的音频信号采样。将指出，一旦从音频提取了特点，音频记录器-播放器有利地可执行分类和总结功能。这些功能然后被用于对音频记录器-播放器进行个性化以提供增强的扫描、检索、存储和传送功能。依照本发明的音频记录器-播放器的示例功能包括1)音乐分类回放功能音频记录器-播放器能识别可被用于基于节拍、能量、音高、旋律类型、旋律反复等来标识音乐类型的音频特点。这可以是对用户来说特别吸引人的音乐的亚属(subgenera)。尽管收音机站被分类成爵士乐、柔和的、古典的、摇滚乐，该分类方案对于用户来说常常是过宽的，即仍存在用户将宁愿不听见的艺术家或歌曲。当用户例如通过按压该用户喜欢的音乐风格中的许多歌曲上的“喜欢”按钮向音频记录器-播放器提供特定实例时，音频记录器-播放器可帮助用户选择兴趣内容或歌曲。将理解，这将发生在用户收听音频记录器-播放器输出的音乐时，或在用户收听许多音乐作品的预定部分，即15秒期间。
2)看门狗功能用户可向音频记录器-播放器中的音频分析器唱或哼出一个样式(pattern)，然后音频记录器-播放器可针对那个特定音调来监视不同的频道。而且，用户可通过声音识别软件将所说的词输入给音频记录器-播放器，然后音频记录器-播放器可针对包含这些词的一些或全部的对话和独白而监视不同的频道。将理解，高级匹配算法，即当短语在预定的秒数中出现两次或三次时宣布匹配的算法，亦可由处理器30(130)来执行。
3)新闻回顾功能音频记录器-播放器有利地可总结用户感兴趣的所有新闻段，同时跳过不感兴趣的项目。事实上，音频记录器-播放器可被设置成仅重放新闻的经整理的版本，即仅重放已由声音识别软件处理的新闻。在用户请求时，音频记录器-播放器可回放整个故事，或甚至链接到更长的版本，其可从网站被自动下载。将理解，许多声音识别软件程序具有文本到声音的能力；这样，音频记录器-播放器可下载长文本文件然后将其读给用户。而且，音频记录器-播放器可总结不同频道上的新闻，并且当用户想要检索新闻时，提供快速概述选项。该功能可通过声音识别用户界面来访问。
4)时间移位功能音频记录器-播放器可存储歌曲或新闻或节目(比如Schikely在周六混合的)，然后如果用户正在收听另一个站或没有打开收音机，则可通过专门的声音命令来检索它们。
5)自动导航功能音频记录器-播放器可通过音频说话者标识来标识用户并且进入自动导航模式，在此期间，音频记录器-播放器以与用户将操作音频记录器-播放器的方式相类似的方式来表现，即音频记录器-播放器首先扫描经过新闻然后播放古典音乐(如果是在早上)或者摇滚乐喜爱(如果是在傍晚的早期)，这是因为那是当她/他操作包含音频记录器-播放器的汽车娱乐系统时用户日常所做的。
应提及的是，音频信号特征可包括流派信息，其典型地被存储在MP3文件中，并且可伴随/标识一些流动音频轨迹。流派信息可以是熟悉解释文件或流的音频记录器-播放器可容易读取而无需认真处理的数字值或串，例如“newage”或“New Age”。将理解，当离开互联网而收听流动音频频道时，这就是用户如何了解“现在播放”信息；用户接收歌曲标题、艺术家等。附加的预定特征信息可被发送给音频记录器-播放器以补充或优化通过处理器30(130)所展示的软件来执行的分析和表征。
另外，亦将理解，在20世纪90年代早期开始的欧洲内的收音机站和信号标准允许“使能的”收音机获得有关收音机站的信息，包括呼号。一旦收音机被调谐到网络中的经编排的服务广播，通过使用RDS(收音机数据系统)特点增强的其它网络(EON)，有关来自相同广播装置的其它节目的附加数据将被接收。这使听者能根据其选择使其收音机为旅游信息或优选节目类型(PTY，例如新闻)而在自动切换模式下工作，并且该信息来自于在给定时间处不必包含这样的旅游信息甚至不广播所需节目类型的服务。该附加信息有利地可被结合到音频信号特征中。将指出，尽管美国内的几个收音机站在不同地理区域内工作于相同的频率上，所有的站都采用唯一的呼号。这样，被装备有依照本发明的音频记录器-播放器的汽车将能存储有关在分离的市场中运行的摇滚乐站99 FM和爵士乐站99 FM的音频特征数据。
简而言之，依照本发明的音频记录器-播放器允许自动监视音频频道(模拟和数字广播或相反互联网)并通过允许对来自多个现场和所记录的音频源的节目材料的自动记录或回放而增强了用户的收听体验。
将指出，众多专利在以上被讨论。这些专利的每个都在此被整体引入作为参考。
尽管在此详述了本发明的当前优选实施例，应清楚理解，可展现给所属领域的技术人员的在此所教导的基本发明概念的许多变化和/或修改将仍属于如在所附权利要求中所限定的本发明的精神和范围内。
权利要求
1.一种音频记录器-播放器(1、100)，包括调谐装置(20、22或120a-120n)，用于调谐到至少两个音频源以由此产生第一和第二音频信号；产生装置(30、130)，用于响应于第一和第二音频信号来产生第一和第二音频信号特征；存储装置(40、140)，用于存储第一和第二音频信号以及第一和第二音频信号特征两者；以及再现装置(60、160)，用于响应于对第一和第二音频信号特征之一的选择来再现第一和第二音频信号之一。
2.权利要求1的音频记录器-播放器，其中调谐装置(120a-120n)包括由处理器来执行的软件例行程序。
3.权利要求1的音频记录器-播放器，其中产生装置包括由处理器(30、130)来执行的声音识别例行程序。
4.权利要求1的(30、130)，进一步包括用于施加响应于所说的命令而产生的控制信号以由此控制再现装置的装置(32)。
5.一种音频记录器-播放器(1、200)，包括调谐装置(20、22或120a-120n)，用于调谐到至少两个音频源以由此产生第一和第二音频信号；产生装置(30、130)，用于为第一和第二音频信号产生N个音频信号特征，包括无声、单个说话者语音、音乐、环境噪声、多个说话者的语音、同时的语音和音乐、以及语音和噪声；存储装置(40、140)，用于存储第一和第二音频信号以及第一和第二音频信号特征两者；以及再现装置(60、160)，用于响应于对所述N个音频信号特征之一的选择来再现第一和第二音频信号之一。
6.一种音频记录器-播放器(1、100)，包括M个调谐器(20、22或120a-120n)，其产生由N个音频源发送的N个音频信号；分析器(30、130)，其从所述N个音频信号中提取R×N个音频信号特征；存储器(40、140)，其存储所述R×N个音频信号特征；以及输出电路(60、70-160、70)，其响应于对所述R×N个音频信号特征的至少一个的选择而再现对应于所述N个音频信号之一的音频信号，其中R是正整数而M和N是大于1的正整数。
7.一种用于包括M个调谐器(20、22或120a-120n)、分析器(30、130)、存储装置(40、140)和音频输出电路(60、70-160、70)的音频记录器-播放器(1、100)的操作方法，包括操作M个调谐器以从N个音频源采集N个音频信号；操作分析器以表征所述N个音频信号并产生R×N个音频信号特征；将所述N个音频信号和R×N个音频信号特征两者存储在存储装置中；以及响应于对所述R×N个音频信号特征之一的选择而通过音频输出电路再现所述N个音频信号的所选的一个，其中R是正整数而M和N是大于1的正整数。
8.权利要求7的操作方法，其中N个音频信号之一在M个调谐器之一被调谐到N个音频源的相应的一个时被存储；并且R×N个音频信号特征从所存的N个音频信号中被提取。
9.权利要求7的操作方法，其中R×N个音频信号特征的所选的一个对应于用于被包括在N个音频信号中的音乐的拍子、音调和能量。
10.权利要求7的操作方法，其中R×N个音频信号特征的所选的一个对应于从被包括在N个音频信号中的语音中提取的词。
11.权利要求7的操作方法，进一步包括产生控制信号以便于使音频输出电路响应于R×N个音频信号特征的用户所选的一个而再现N个音频信号的所选的一个。
12.一种用于包括M个调谐器(20、22或120a-120n)、分析器(30、130)、存储装置(40、140)和音频输出电路(60、70或160、70)的音频记录器-播放器(1、100)的操作方法，包括操作M个调谐器以从N个音频源采集N个音频信号段；操作分析器以表征所述N个音频信号段并产生R×N个音频信号特征；将所述R×N个音频信号特征存储在存储装置中；以及响应于对所述R×N个音频信号特征之一的选择而通过音频输出电路再现由N个音频源的所选的一个产生的音频信号，其中R是正整数而M和N是大于1的正整数。
13.权利要求12的操作方法，进一步包括产生控制信号以便于不论何时当音频信号指示用户感兴趣的事件的发生时，使音频输出电路在N个音频信号的所输出的一个和N个音频信号的所监视的一个之间切换。
14.一种存储器(40、140)，其存储计算机可读的指令，用于使与音频记录器-播放器(1、100)关联的处理器(30、130)执行至少一个预定功能，包括音乐分类功能，允许音频记录器-播放器基于音频特点来自动分类所接收的音频信号中的音乐，看门狗功能，允许音频记录器-播放器对预定音频事件的发生自动做出响应，新闻回顾功能，允许音频记录器-播放器积累并播放对应于音频记录器-播放器的用户感兴趣的新闻的音频信号，时间移位功能，允许音频记录器-播放器积累音频信号节目以在以后的时间处被播放，以及自动导航功能，允许音频记录器-播放器基于由用户建立的操作喜好而自动工作。
全文摘要
一种音频记录器－播放器(1、100)包括M个调谐器(20、22或120a－120n)，其产生由N个音频源发送的N个音频信号；分析器(30、130)，其从所述N个音频信号中提取RxN个音频信号特征；存储器(40、140)，其存储所述RxN个音频信号特征；以及输出电路(60、70或160、70)，其响应于对所述RxN个音频信号特征的至少一个的选择而再现对应于所述N个音频信号之一的音频信号，其中R是正整数而M和N是大于1的正整数。如果需要，所述音频记录器－播放器有利地可被包括在收音机、计算机或置顶盒之一中。用于操作该音频记录器－播放器的方法亦被描述。
文档编号G10L19/00GK1639975SQ03804852
公开日2005年7月13日申请日期2003年2月21日优先权日2002年3月1日
发明者N·迪米特罗瓦, S·达格塔斯申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：N.迪米特罗瓦;S.达格塔斯
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人