用于适应音频信号的装置和方法

文档序号：7856039阅读：142来源：国知局

专利名称：用于适应音频信号的装置和方法
技术领域：
本发明涉及到用于适应音频信号的装置和方法；并且，更具体的说，涉及到使音频信号适应诸如用户特性，用户的自然环境，和用户终端性能等不同使用环境的装置和方法。
背景技术：
运动图象专家组(MPEG)提出了新标准工作项，数字项适应(DIA)。数字项(DI)是具有标准表示、身份认证和元数据的结构化数字对象，并且DIA是指用于通过在源适应机和/或描述符适应机中通过修改DI生成适应的DI的过程。
这里，源是指能够单独标识的资产，诸如视频或音频剪辑，图象或原文资产。源也可以代表物理目标(physical object)。描述符是指涉及到DI的组件或其一些项的信息。同样，用户被指定为包括DI的所有生产者，所有人，发布者和消费者。媒体源是指能够直接被数字化表示的内容。在此说明书中，术语“内容”与DI，媒体源和源作为同样的意思使用。
传统的技术有个问题，它们不能提供单源复用(single-source multi-use)的环境，即在此环境中通过利用数字音频内容使用信息，也就是用户特性、用户的自然环境和用户终端的性能，将一项数字内容适应和使用在不同的使用环境。
这里，‘单源’表示为在多媒体源中生成的内容，并且‘复用’是指各种具有不同的使用环境的用户终端以适应于它们使用环境的方式消费‘单源’。
单源复用是有益的，因为它能够通过将内容适应于不同的使用环境而仅以一项内容提供多样化的内容，此外当它提供适应于各种使用环境的单源时能有效的降低网络的带宽。
因此，内容的提供者能够节约用于生产和传输多项内容以将音频信号匹配使用环境的不必要的开支。另一方面，内容消费者能被提供不同环境下对他们的听力和爱好最优的音频内容。
传统技术甚至在能够支持单源复用的通用多媒体访问(UMA)环境下也不能利用单源复用。即，传统技术不考虑使用环境，比如用户的自然环境和用户终端的性能，而无区别地传输音频内容。用户终端有音频播放器软件，比如windows媒体播放器，MP3播放器，real播放器等等，它以不改变从多媒体源接收到的格式消费音频内容。因此，传统技术不能支持单源复用环境。
如果多媒体源考虑到不同使用环境提供多媒体内容去解决传统技术的问题并支持单源复用环境，那么许多工作量(load)增加到内容的生成和传输上。

发明内容
因此，本发明的目标是提供用于通过利用预先描述消费音频内容的用户终端的使用环境的信息将音频内容适应于使用环境的装置和方法。
依照本发明的一个方面，提供了一种用于将音频信号适应于单源复用的装置，包括音频使用环境信息管理部件，用于获取、描述和管理从消费音频信号的用户终端来的音频使用环境信息；和音频适应部件，用于将音频信号适应于音频使用环境信息以生成适应的音频信号并且输出适应的音频信号到用户终端，并且其中音频使用环境信息包括描述用户对音频信号优选的用户特性信息。
依照本发明的另一个方面，提供了一种用于为单源复用适应音频信号的方法，包括步骤a)从消费音频信号的用户终端获取、描述和管理音频使用环境信息；和b)将音频信号适应于音频使用环境信息以生成适应的音频信号并输出适应的音频信号到用户终端，并且其中音频使用环境信息包括描述用户对音频信号优选的用户特性信息。
本发明的技术能够提供单源复用的环境，即在该环境中一项音频信号通过利用关于消费音频内容的环境的信息，比如用户的特性，用户的自然环境，和用户终端的性能，适应于不同的使用环境。

本发明的上述和其它特点根据下面对优选的实施例与相应附图的描述是显而易见的，其中图1是说明提供了依据本发明的实施例的音频适应装置的用户终端的方块图；
图2是描述依据本发明的实施例能够用图1的音频适应装置实施的用户终端的方块图；图3是说明图1中，在音频适应装置中执行的音频适应过程的流程图；和图4是描述图3的适应过程的流程图。
具体实施例方式
本发明的其它目标和方面根据下面参照后面所列出的附图对实施例的描述是显而易见的。
下面的描述仅提供本发明的原理的范例。甚至在本说明书中它们没有被明确的描述或说明时，本领域的一般技术人员能够在本发明的概念和范围之内具体实现本发明的原理和发明各种装置。
本说明书中介绍的条件项和实施例仅仅试图使得本发明的概念易于理解，并且它们并不限制本说明书中提到的实施例和条件。
此外，所有对原理、观点和实施例以及本发明具体的实施例的详细描述应当理解为包括它们结构和功能上的等价物。等价物不仅包括目前已知的等价物，而且包括将在将来发展起来的等价物，即，不管其结构，所有发明出的执行同样功能的设备。
例如，本发明的方块图应被理解为作为范例的具体实现本发明原理的电路的概念性观点。相似的，所有的流程图、状态变换图、伪码等等能够充分的表示在计算机可读的媒体上，并且不论在说明书中是否明确的提到计算机或处理器，它们应被理解为表示被计算机或处理器操作的过程。
图中说明的各种设备的功能包括表示为处理器或不仅能够通过利用专用的硬件，也能够通过利用能够运行正确的软件的硬件所提供的相似的概念。当功能是由处理器提供的时，提供者可以是单个的专用处理器、单个的共享处理器、或部分共享的多个分立的处理器。
明确的术语使用，“处理器”、“控制”或相似的概念，应当不能理解为只涉及到能运行软件的一块硬件，而应当毫无疑问的理解为包括数字信号处理器(DSP)、硬件、以及只读存储器(ROM)、随机存储器(RAM)和用于存储软件的非易失性内存。其它已知和通常使用的硬件也包含在其中。
在本说明书中的权利要求中，用于执行在详细描述中描述的功能并表示为“部件”的单元要包括所有用于执行包括所有形式的软件的功能的方法，比如实现功能的电路组合，固件/微码等等。为实现预期的功能，该单元与用于运行该软件的适当的电路合作。要求权利的发明包括各种用于执行特定功能的方法，并且这些方法以权利声明中要求的方式互相连结。因此，任意能够提供功能的方法应当理解为等价于根据本说明书所领会到的方法。
本发明的其它目的和方面根据下面对实施例参照后面的附图的描述是清楚的。尽管单元在不同的图中出现，同一附图标记给了同一单元。此外，如果关于相关背景技术的更多的详细描述被认为使得本发明的要点不清楚时，描述将被省略。下面，本发明优选的实施例将被详细描述。
图1是说明提供了依据本发明实施例的音频适应装置的用户终端的方块图。参照图1，本发明实施例的音频适应装置100包括音频适应部分13和音频使用环境信息管理部分107。音频适应部分103和音频使用环境信息管理部分107的任意一个能够彼此独立地提供给音频处理系统。
音频处理系统包括膝上型计算机、笔记本计算机、桌上型计算机、工作站、大型计算机和其它类型的计算机。数据处理或信号处理系统，比如个人数字助理(PDA)和无线通信移动站，也包含在音频处理系统中。
音频系统可以是从形成网络路由的节点中任意选择的一个节点，例如，多媒体源节点系统、多媒体中继节点和最终(end)用户终端。
最终用户终端包括音频播放器，例如windows媒体播放器，MP3播放器和Real播放器。
例如，如果将音频适应装置100安装在多媒体源节点并运行，它接收关于使用环境的预先描述的信息，在此环境下音频内容被消费，将音频内容适应于使用环境，并且传送适应后的内容到最终用户终端。
对于音频编码过程，即音频适应装置100处理音频数据的过程，国际标准化组织(ISO)/国际电工技术委员会(IEC)的技术委员会的ISO/IEC标准文件也作为本说明书的一部分包括在本说明书中，只要它有助于描述本发明实施例的功能和操作。
音频数据源部分101接收在多媒体源中生成的音频数据。音频数据源部分101可以包含在多媒体源节点系统中，或者接收通过有线/无线网络从多媒体源节点系统传输的音频数据的多媒体中继节点系统中，或者在最终用户终端中。
音频适应部分103从音频数据源部分101接收音频数据并通过利用由音频使用环境信息管理部分107预先描述的使用环境信息将音频数据适应于使用环境，例如，用户的特性，用户的自然环境和用户终端的性能。这里，图中所说的音频适应部分103的功能并不需要在形成网络路由的任意一个节点系统中都包括，但是能够被分布到节点系统中。
例如，音频适应单元具有控制音量的功能，它不涉及到网络带宽，包含在最终用户终端处，但是音频适应单元具有在时间(temporal)区域上控制音频信号的强度的功能，即，音频信号的电平，它涉及到网络的带宽，可以包括在多媒体源节点系统中。
音频使用环境信息管理部分107从用户，用户终端和用户的自然环境收集信息，然后提前预先描述和管理使用环境信息。
涉及到音频适应部分103的功能的使用环境信息能够分布到形成网络路由的节点系统中，这正如音频适应部分103那样。
音频内容/元数据输出部分105输出被音频适应部分103适应后的音频数据。输出的音频数据可以通过有线/无线网络传输到最终用户终端的音频播放器，或者到多媒体中继节点系统或最终用户终端。
图2是描述依据本发明的实施例能够用图1的音频适应装置实施的用户终端的方块图。如图中所述，音频数据源部分101包括音频元数据201和音频内容203。
音频数据源部分101从多媒体源中收集音频内容和元数据并存储它们。这里，音频内容203包括接各种编码方式存储的多种音频格式，比如MPEG-1Layer III(MP3)、Audio Coder-3，(AC-3)、高级音频编码(AAC)、Windows媒体音频(WMA)、Real音频(RA)、Code Excited Linear Predictive(CELP)等等，或者以流的形式传输。
音频元数据201是涉及到相应音频内容的描述数据，比如音频内容的编码方法，采样速率，通道数(例如单声道/立体声，5.1通道等)和比特率。音频元数据能够基于扩展标签语言(extensible Markup Language，XML)计划定义和描述。
音频使用环境信息管理部分107包括用户特性信息管理单元207，用户特性信息输入单元217，用户自然环境信息管理单元209，使用自然环境信息输入单元219，音频终端性能信息管理单元211和音频终端性能信息输入单元221。
用户特性信息管理单元207通过用户特性信息输入单元217从用户终端接收用户特性的信息，比如能听度特性，优选的(preferred)声音音量，频率频谱的优选均衡模式等等，并且管理用户特性的信息。输入的用户特性信息以能够被机器可读的语言管理，例如，XML格式。
使用自然环境信息管理单元209通过使用自然环境信息输入单元219接收消费音频内容处的自然环境的信息(它被称为‘自然环境信息’)并且管理自然环境信息。自然环境信息以能够被机器可读的语言管理，例如，XML格式。
使用自然环境信息输入单元219传输能够通过在特定位置收集数据，分析和处理数据预先确定或得到的噪声环境分类表所定义的噪声环境信息。
音频终端性能信息管理单元211通过音频终端性能信息输入单元221接收终端的性能信息。输入的终端性能信息以能够被机器可读的语言管理，例如，XML格式。
音频终端性能信息输入单元221将预先建立在用户终端或通过用户输入的终端性能信息传输到音频终端性能信息管理单元211。
音频适应部分103包括音频元数据适应单元213和音频内容适应单元215。
音频内容适应单元215析取(parse)被使用自然环境信息管理单元209管理的自然环境信息，并基于使用自然环境信息执行音频信号处理过程，比如噪声屏蔽，以使音频内容适应于自然环境并且对噪声环境是清晰响亮(strong)的。
类似的，音频内容适应单元215分别析取在用户特性信息输入单元217和音频终端性能信息管理单元211中管理的用户特性信息和音频终端性能信息，然后将音频信号合适的适应于用户特性和用户终端性能。
音频元数据适应处理单元213提供在音频内容适应过程中所需的元数据，并基于音频内容适应的结果去适应相应的音频元数据信息的内容。
图3是说明在图1的音频适应装置中执行的音频适应过程的流程图。参照图3，在步骤S301，音频使用环境信息管理部分107从用户、用户终端和自然环境获取音频使用环境信息，并且指定用户特性、用户的自然环境和用户终端性能的信息。
然后，在步骤S303，音频数据源部分101接收音频内容/元数据。在步骤S305，音频适应部分103将在步骤S303接收到的音频内容/元数据通过利用在步骤S301描述的使用环境信息合适地适应于使用环境，即用户特性、用户的自然环境和用户终端性能。在步骤S307，音频内容/元数据输出部分105输出在步骤S305适应后的音频数据。
图4是描述图3中的适应过程(S305)的流程图。如图4所示，在步骤S401，音频适应部分103标识(identify)音频数据源部分101接收的音频内容和音频元数据。在步骤S403，音频适应部分103适应那些需要被合适地适应于用户特性、用户的自然环境和用户终端性能的音频内容。在步骤S405，音频适应部分103基于在步骤S403中执行的音频内容适应的结果去适应相应于音频内容的音频元数据。
在此将描述在音频使用环境信息管理部分107中管理的描述信息的结构。
依据本发明，为了将音频内容通过利用预先描述的使用环境即音频内容消耗处的信息来适应使用环境，使用环境信息，例如，用户特性、用户的自然环境和用户终端性能的信息，应当被管理。
表1描述了依据本发明实施例，用于结构化地适应音频信号的描述信息。
表1

下面所示是基于XML Schema的定义，表达被图1所示的音频使用环境信息管理部分107管理的使用环境的描述信息结构的语法的例子。
<element name＝“UsageEnvironment”>
<complexType>
<all>
<element ref＝“USERCHARACTERISTICS”/>
<elementref＝“NATURALENVIRONMENTCHARACTERISTICS”/>
<element ref＝“TERMINALCAPABILITIES”/>
</all>
</complexType>
</element>
表1中，用户特性描述用户的能听度和其优选结果。下面展示了基于XMLSchema的定义，表达被图1的音频使用环境信息管理部分107管理的描述信息结构的语法的例子。
<element name＝“USERCHARACTERISTICS”>
<complexType>
<all>
<elementname＝“LeftAudibility”type＝”Audibility”/>
<elementname＝“RightAudibility”type＝”Audibility”/>
<element name＝“AudioPower”type＝“integer”/>
<element name＝“FrequencyEqualizer”>
<complexType>
<sequence>
<element name＝Period type＝“mpeg7vector”/>
<element name＝Level type＝“float”/>
</sequence>
</complexType>
</element>
<element name＝“PresetEqualizer”>
<complexType>
<sequence>
<enumeration Item＝“Rock”>
<enumeration Item＝“Classic”>
<eumeration Item＝“POP>
</sequence>
</complexType>
</element>
<element name＝“Mute”type＝“boolean”/>
</all>
</complexType>
</element>
<complexType name＝“Audibility”>
<sequence>
<element name＝“AudibleFrequencyRange”>
<complexType>
<mpeg7vector dim＝“2”type＝“positiveInteger”/>
</complexType>
</element>
<element name＝“AudibleLevelRange”>
<complexType>
<mpeg7vector dim＝“2”type＝“positiveInteger”/>
</complexType>
</element>
</sequence>
</complexType>
表2展示了用户特性的元素。
表2

表2中，左边能听度和右边能听度都有听觉的数据类型，并代表了关于用户左边和右边耳朵的音频优选。
听觉的数据类型有两个元素AudibleFrequencyRange和AudibleLevelRange。
AudibleFrequencyRange描述用户对特定频率范围的优先选择。StartFrequency是特定频率范围的起点而EndFrequency是频率范围的终点并且单位给定为赫兹(Hz)。AudibleFrequencyRange描述信息表示用户优选的听觉频率范围。如果给用户的网络带宽是安装的，当使用AudibleFrequencyRange描述信息对音频信号编码时，音频适应部分103能通过对听觉频率范围内的音频信号分配比位于频率范围外的音频信号更多的比特以提供给用户改善了品质的音频信号。同样，音频适应部分103基于AudibleFrequencyRange描述信息能减少网络带宽或通过在描述的频率范围内传输音频信号以增加诸如文本、图象和视频信号等额外的信息到剩余的带宽。
下面的例子展示了用户优选的听觉频率范围是从20Hz到2000Hz。
<AudibleFrequencyRange>
<StartFrequency>20</StartFrequency>
<EndFrequency>2000</EndFrequency>
</AudibleFrequencyRange>
AudibleLevelRange描述用户在时间区域内对音频信号的特定电平范围的优选。信号电平值低于音频信号的电平范围下限LowLimitedLevel变为静音，并且信号电平值高于音频信号电平范围的上限HighLimitLevel被限制为上限拐角(corner)电平。LowLimitLevel和HighLimitLevel有从0.0到1.0的规格化的度量范围，这里0.0和1.0分别代表了静音和最大信号电平。应注意AudibleLevelRange描述信息提供了用户想听到的音频电平的最大值和最小值。
音频适应部分103能够使用AudibleLevelRange描述信息以使用户能够以最好的品质体验音频内容。例如，如果给用户的网络带宽是安装的并且最大电平和最小电平的绝对差较小，音频适应部分103能够通过利用AudibleLevelRange描述信息提高采样速率或量化阶的数目并且传输音频信号。同样，音频适应部分103能够通过消除超出能听度范围的音频信号来有效地使用网络带宽。同样，它能够增加其它类型的附加消息，比如文本，图象和视频信号到剩余的带宽。
下面的例子表示被用户优选的音频信号电平范围从值为0.30的最小电平到最大电平0.70。
<AudibleLevelRange>
<LowLimitLevel>0.30</LowLimitLevel>
<HighLimitLevel>0.70</HighLimitLevel>
</AudibleLevelRange>
AudioPower描述用户对音频音量的优选。AudioPower能够表示为整数值，或者它是一个取值在0.0到1.0的规格化的数字范围内的值，其中0.0代表静音而1.0表示最大值。音频适应部分103基于在音频使用环境信息管理部分107中管理的AudioPower描述信息控制音频信号。
下面的例子展示了用户优选的音频音量是0.85。
<AudioPower>0.85</AudioPower>
这里描述的描述元素代表了用户关于音频信号的优选。这些描述元素能够使用在没有音频处理能力的用户终端。
FrequencyEqualizer描述关于以频率范围和减小或放大值表示的特定均衡合成的优选。FrequencyEqualizer描述信息表示用户对特定频率的优选。FrequencyEqualizer描述信息描述了频率波段和相应的用户优选值。
如果用户终端不具备均衡性能，音频适应部分103能够使用FrequencyEqualizer描述信息以对用户提供期望的品质。为有效的分配比特，FrequencyEqualizer描述信息能够基于人类频率掩蔽现象而应用在音频编码过程。同样，音频适应部分103基于FrequencyEqualizer描述信息执行均衡，并将适应后的音频信号作为均衡结果传输到用户终端。
Period，FrequencyEqualizer的固有属性，定义了表示为Hz的均衡范围的拐角频率的下限和上限。Level，FrequencyEqualizer的一项属性，定义了表示为分贝(decibel，dB)这个单位的频率范围的减小或放大。Level指出了用户均衡的最优值。
下面的例子展示了用户优选的特定的均衡合成。
<FrequencyEqualizer>
<FrequencyBand>
<Period>
<StartFrequency>20</StartFrequency>
<EndFrequency>499</EndFrequency>
</Period>
<Level>0.8</Level>
</FrequencyBand>
<FrequencyBand>
<Period>
<StartFrequency>500</StartFrequency>
<EndFrequency>1000</EndFrequency>
</Period>
<Level>0.5</Level>
</FrequencyBand>
<FrequencyBand>
<Period>
<StartFrequency>1000</StartFrequency>
<EndFrequency>10000</En dFrequency>
</Period>
<Level>0.5</Level>
</FrequencyBand>
<FrequencyBand>
<Period>
<StartFrequency>10000</StartFrequency>
<EndFrequency>20000</EndFrequency>
</Period>
<Level>0.0</Level>
</FrequencyBand>
</FrequencyEqualizer>
PresetEqualizer描述了表示用均衡器预置文字(verbal)描述表示的对特定均衡合成的优选。即，PresetEqualizer描述信息代表了用户对清楚分辨出的特定类型的音频的优选，比如摇滚、古典音乐和流行音乐。如果用户终端不具备预置最优均衡器的能力，音频适应部分103能够利用PresetEqualizer描述信息以使用户能以最好的品质体验音频内容。
如下面的例子所示，音频适应部分103能够执行均衡器预置功能，这里设置为摇滚音效，并且将适应后的音频信号传输到用户终端。
<PresetEqualizer>Rock</PresetEqualizer>
Mute描述了用于将DI的音频部分处理为静音的优选。即，Mute描述信息代表了是否消费内容的音频部分的优选。该功能在大多数音频设备中都有提供，即最终用户终端的音频播放器，但是音频适应部分103能够利用该信息不去传输音频信号以确保网络的带宽。
下面的例子代表了不使用DI的音频内容。
<Mute>true</Mute>
同时，表1的自然环境特性描述特定用户的自然环境。根据由图1中音频使用环境信息管理部分107管理的自然环境特性的描述信息的结构，基于XML Schema定义的示范的语法表达如下。
<element name＝“NATURALENVIRONMENTCHARACTERISTICS”>
<complexType>
<element name＝“NoiseLevel”type＝“integer”/>
<element name＝“NoiseFrequencySpectrum”>
<complexType>
<sequence>
<element name＝FrequencyPeriodtype＝“mpeg7vector”/>
<element name＝FrequencyValue type＝“float”/>
</sequence>
</complexType>
</element>
</complexType>
</element>
NoiseLevel描述了噪声的电平。NoiseLevel描述信息能够通过从用户终端处理噪声信号得到。它表示为基于dB的声压电平。
音频适应部分103能够通过利用NoiseLevel描述信息自动地为用户终端控制音频信号的电平。同时，音频适应部分103能够安装在最终用户终端并能够应付位于终端处的自然环境的不同噪声电平。如果噪声相对较高，音频适应部分103提高音频信号的规模以使用户能够在嘈杂的的环境下听到音频信号。如果增加的信号电平到达了用户预定的极限，音频适应部分103停止传输音频信号并分配可用的带宽到其它的媒体，比如文本、图象、图形和视频。
例如，如果自然环境的噪声是20dB，NoiseLevel描述如下。
<NoiseLevel>20</NoiseLevel>
NoiseFrequencySpectrum描述信息能够通过处理从用户终端输入的噪声信号得到，并且噪声电平用基于dB的声压电平来衡量。
为基于频率掩蔽现象有效地完成音频编码，音频适应部分103能够使用NoiseFrequencySpectrum描述信息。音频适应部分103能够基于NoiseFrequencySpectrum描述信息通过对含较多的噪声的频率衰减噪声或增大音频信号来有效地完成音频编码，然后它传输适应后的信号到用户终端。
例如，在下面的例子中，Frequency Period的第一个和第二个值分别代表了起始频率和终止频率值。随后，Frequency Value是音频的功率并且它以dB为单位表示。基于Frequency Value信息，音频适应部分103完成均衡器的功能并将合成的音频信号传输到用户终端。
<NoiseFrequencySpectrum>
<FrequencyPeriod>20 499</FrequencyPeriod>
<FrequencyValue>30</FrequencyValue>
<FrequencyPeriod>500 1000</FrequencyPeriod>
<FrequencyValue>10</FrequencyValue>
<FrequencyPeriod>1000 10000</FrequencyPeriod>
<FrequencyValue>50</FrequencyValue>
<FrequencyPeriod>10000 20000</FrequencyPeriod>
<FrequencyValue>10</FrequencyValue>
</NoiseFrequencySpectrum>
同时，表1的终端能力描述了终端在处理音频上的性能，诸如音频数据格式，类(profile)和不同的电平，动态范围和扬声器的合成。下面是基于XMLSchema定义，描述在图1中音频使用环境信息管理部分107内管理的终端性能的描述信息的结构的示范性语法。
<element name＝″TERMINALCAPABILITIES″>
<complexType>
<element name＝″AudioChanneINumer″type＝integer/>
<element name＝”Headphone”type＝”boolean″/>
<element name＝″DecodersType″type＝”DecodersType”/>
</complexType>
</element>
<complexType name＝”DecodersType″>
<sequence>
<element name＝″DecoderType″/>
<enumeration Item＝″AAC″/>
<enumeration Item＝″MP3″/>
<enumeration Item＝″TTS″/>
<enumeration Item＝″SAOL″/>
<element name＝″Profile″type＝″string″/>
<element name＝″Level″type＝″string″>
</element>
</sequence>
</complexType>
这里，AudioChannelNumber信息指示了由用户终端处理的输出通道的数目。音频适应部分103基于AudioChannelNumber信息传输音频信号。
HeadPhone是表达为被呼叫的值(called value)的信息。如果耳机未使用，音频适应部分103能够用关于自然环境的噪声电平的信息和频率频谱的信息完成屏蔽编码。如果耳机使用了，从自然环境来的噪声能被衰减。
DecoderType是代表终端的音频格式和类/电平处理能力的信息。音频适应部分103通过利用DecoderType信息传输最适合于用户终端的音频信号。
如上所述，本发明的技术能够通过基于用户的噪声环境信息和用户的能听度和优选的信息将音频内容适应于不同的使用环境和不同特性与品位的用户以对多个使用环境提供一个单源。
尽管本发明用某些优选的实施例进行了描述，不偏离由下面的权利要求定义的本发明的精神和范围，各种修改和改变都对本领域技术人员是显而易见的。
权利要求
1.一种用于将音频信号适应于单源复用的装置，包括音频使用环境信息管理部件，用于获取、描述和管理从消费音频信号的用户终端来的音频使用环境信息；和音频适应部件，用于将音频信号适应于音频使用环境信息以生成适应的音频信号并且输出适应的音频信号到用户终端，并且其中音频使用环境信息包括描述用户对音频信号优选的用户特性信息。
2.如权利要求1所述的装置，其中用户特性信息包括表明对音频信号而言用户右耳和左耳每一个优选的能听度信息。
3.如权利要求2所述的装置，其中能听度信息包括用户对音频信号特定频率范围的优选。
4.如权利要求2所述的装置，其中能听度信息包括用户对音频信号的特定电平范围的优选。
5.如权利要求1所述的装置，其中用户特性信息包括用户对音频信号音量的优选。
6.如权利要求1所述的装置，其中用户特性信息包括表示为用户对音频信号特定频率范围衰减或放大的优选。
7.如权利要求1所述的装置，其中用户特性信息包括用户对特定类型的音频，包括摇滚、古典音乐和流行音乐的优选。
8.如权利要求1所述的装置，其中用户特性信息包括用户是否消费多媒体内容中的音频部分的优选。
9.如权利要求3所述的装置，其中音频适应部件包含在将适应后的音频信号提供给用户终端的网络系统中，并且其中音频适应部件基于用户对特定频率范围的优选适应音频信号以使在特定频率范围之内的音频信号比在特定频率范围之外的信号被分配给更多的比特。
10.如权利要求3所述的装置，其中音频适应部件包含在将适应后的音频信号提供给用户终端的网络系统中，并且其中音频适应部件基于用户对特定频率范围的优选适应音频信号以使仅有在特定频率范围之内的音频信号传输到用户终端。
11.如权利要求4所述的装置，其中音频适应部件包含在将适应后的音频信号提供给用户终端的网络系统中，并且其中，在用户优选的特定电平范围中，如果特定电平范围的最大电平和最小电平的绝对差较小，音频适应部件适应音频信号以使采样速率增加或量化阶增加的音频信号被传输到用户终端。
12.如权利要求4所述的装置，其中音频适应部件包含在将适应后的音频信号提供给用户终端的网络系统中，并且其中音频适应部件适应音频信号以使在用户优选的特定电平范围内，在特定电平范围之外的音频信号不传输到用户终端。
13.如权利要求6所述的装置，其中音频适应部件包含在将适应后的音频信号提供给不含均衡功能的用户终端的网络系统中，并且其中音频适应部件适应音频信号以使基于表示为对音频信号的特定频率范围衰减或放大的优选进行编码的音频信号能传输到用户终端。
14.如权利要求7所述的装置，其中音频适应部件包含在将适应后的音频信号提供给不含预置均衡器功能的用户终端的网络系统中，并且其中音频适应部件基于用户对特定音乐类型的优选适应音频信号以使含有预置均衡器的音频信号能传输到用户终端。
15.如权利要求8所述的装置，其中音频适应部件包含在将适应后的音频信号提供给用户终端的网络系统中，并且其中如果优选显示多媒体内容的音频部分未被消费，音频适应部件适应音频信号以使多媒体内容的音频部分不被传输到用户终端。
16.如权利要求1所述的装置，其中音频使用环境信息进一步包括描述音频信号被用户消费处的自然环境的自然环境特性信息。
17.如权利要求16所述的装置，其中自然环境特性信息包括通过处理从用户终端输入的噪声信号得到的噪声电平信息。
18.如权利要求16所述的装置，其中自然环境特性信息包括通过处理从用户终端输入的噪声信号得到的噪声频率频谱信息。
19.如权利要求18所述的装置，其中音频适应部件包含在将适应后的音频信号提供给用户终端的网络系统中，并且其中音频适应部件基于噪声电平信息适应音频信号以使在噪声电平中可听的音频信号被传输到用户终端，并且如果噪声的电平增加并到达预先确定的极限，音频适应部件适应音频信号使之不被传输到用户终端。
20.如权利要求1所述的装置，其中音频使用环境信息进一步包括描述关于处理音频信号的用户终端的性能的终端性能信息。
21.如权利要求20所述的装置，其中终端性能信息包括用户终端输出通道数目。
22.一种用于为单源复用适应音频信号的方法，包括步骤a)从消费音频信号的用户终端获取、描述和管理音频使用环境信息；和b)将音频信号适应于音频使用环境信息以生成适应的音频信号并输出适应的音频信号到用户终端，并且其中音频使用环境信息包括描述用户对音频信号优选的用户特性信息。
23.如权利要求22所述的方法，其中用户特性信息包括表明对音频信号而言用户右耳和左耳中每一个优选的能听度信息。
24.如权利要求23所述的方法，其中能听度信息包括用户对音频信号的特定频率范围的优选。
25.如权利要求23所述的方法，其中能听度信息包括用户对音频信号的特定电平范围的优选。
26.如权利要求22所述的方法，其中用户特性信息包括用户对音频信号音量的优选。
27.如权利要求22所述的方法，其中用户特性信息包括表示为音频信号的特定频率范围衰减或放大的用户优选。
28.如权利要求22所述的方法，其中用户特性信息包括用户对特定音频类型，包括摇滚、古典音乐和流行音乐的优选。
29.如权利要求22所述的方法，其中用户特性信息包括用户对是否消费多媒体内容的音频部分的优选。
30.如权利要求24所述的方法，其中步骤b)执行在将适应后的信号提供到用户终端的网络系统中，并且其中音频信号基于用户对特定频率范围的优选被适应以使在特定频率范围之内的音频信号比在特定频率范围之外的信号分配给更多的比特。
31.如权利要求24所述的方法，其中步骤b)执行在将适应后的信号提供到用户终端的网络系统中，并且其中音频基于用户对特定的频率范围被适应以使仅有在特定频率范围内的音频信号被传输到用户终端。
32.如权利要求25所述的方法，其中步骤b)执行在将适应后的信号提供到用户终端的网络系统中，并且其中，在用户优选的特定电平范围中，如果特定电平范围的最大电平和最小电平的决定差较小，音频适应部件适应音频信号以使采样速度增加或量化阶增加的音频信号被传输到用户终端。
33.如权利要求25所述的方法，其中步骤b)执行在将适应后的信号提供到用户终端的网络系统中，并且其中步骤b)适应音频信号以使在用户对特定电平范围的优选内的特定电平范围之外的音频信号不被传输到用户终端。
34.如权利要求27所述的方法，其中步骤b)执行在将适应后的信号提供到不具均衡功能用户终端的网络系统中，并且其中在步骤b)中，音频信号被适应以使基于表示为对音频信号的特定频率范围减小或放大的优选进行编码的音频信号能传输到用户终端。
35.如权利要求28所述的方法，其中步骤b)执行在将适应后的信号提供到不含预置均衡器功能的用户终端的网络系统中，并且其中音频信号基于用户对具体的音乐类型的优选被适应以使含有预置均衡器的音频信号能被传输到用户终端。
36.如权利要求29所述的方法，其中步骤b)执行在将适应后的信号提供到用户终端的网络系统中，并且其中如果优选表明多媒体内容的音频部分未被消费，音频信号被适应以使多媒体的音频部分不被传输到用户终端。
37.如权利要求22所述的方法，其中音频使用环境信息进一步包括描述用户消费音频信号处的自然环境的自然环境特性信息。
38.如权利要求22所述的方法，其中自然环境特性信息包括通过处理从用户终端输入的噪声信号得到的噪声电平信息。
39.如权利要求37所述的方法，其中自然环境特性信息包括通过处理从用户终端输入的噪声信号得到的噪声频率频谱信息。
40.如权利要求38所述的方法，其中步骤b)执行在将适应后的信号提供到用户终端的网络系统中，并且其中音频信号基于噪声电平信息被适应以使在噪声电平中可听的音频信号被传输到用户终端，并且如果噪声的电平增大并到达预先确定的极限，音频信号被适应为不被传输到用户终端。
41.如权利要求22所述的方法，其中音频使用环境信息包括描述关于处理音频信号的用户终端的性能的终端性能信息。
42.如权利要求41所述的方法，其中终端性能信息包括用户终端的输出通道的数目。
全文摘要
提供了用户适应(adapt)音频信号的装置和方法。该装置将音频信号适应于包含了对应于用户适应请求的用户特性、终端性能和用户自然环境，从而有效地将高质量的数字内容提供给用户。
文档编号H04L29/06GK1659507SQ03813037
公开日2005年8月24日申请日期2003年4月26日优先权日2002年4月26日
发明者南济镐, 金海光, 金在俊, 洪镇佑, 金镇雄, 金炯中, 赵南翊, 金鳞澈, 金万培申请人:韩国电子通信研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：南济镐;金海光;金在俊;洪镇佑;金镇雄;金炯中;赵南翊;金鳞澈;金万培
技术所有人：韩国电子通信研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。