信号处理装置及其方法、程序以及数据记录介质的制作方法

文档序号：7510065阅读：200来源：国知局

专利名称：信号处理装置及其方法、程序以及数据记录介质的制作方法
技术领域：
本技术涉及一种信号处理装置及其方法、程序以及数据记录介质，更具体地，涉及一种使得能够更容易且高效地增强音频信号的再现水平而无需预先分析的额外信息的信号处理装置及其方法、程序以及数据记录介质。
背景技术：
例如，当通过其中嵌入有小型扬声器的便携式设备再现音量的动态范围宽的电影内容或音乐内容时，不仅声音的总音量变小，而且音量特别低的对话等变得难以辨认出来。因此，作为用于使得这些内容的声音更易听见的技术，存在归一化和自动增益控制技术，但是除非预取了足够长度的数据，否则从听觉的角度来看，音量控制变得不稳定。
此外，还存在如下技术该技术通过针对声音的动态范围使用压缩处理，提升具有低音量的声音部分以及压缩具有高音量的部分。然而，对于压缩处理，如果使得音量的提升和压缩的特性可适用于多种情况，则将难以获得显著的声音增强效果，并且为了获得显著效果，必须针对每个内容改变特性。例如，存在如下技术该技术以通过对话归一化指定的声压水平作为基准，并且提升具有较低声压水平的信号以及压缩具有较高声压水平的信号。然而，利用该技术，为了获得充分的效果，需要在对音频信号编码时指定对话归一化的声压水平和关于提升和压缩的特性。此外，关于压缩声音的音量的动态范围的情况，还提出了如下技术该技术通过将音频信号乘以由音频信号的绝对值的平均值确定的系数，使得音频信号的小声音更易听见(例如，参见 JP H05-275950A)。

发明内容
现在，近年来，其中嵌入有小型扬声器的便携式设备再现各种类型的内容，诸如电影、音乐、自制内容等。然而，这些内容的多数不包括如上所述的基于编码时的预先分析的、用于有效音量控制的额外信息。因此，期望如下技术即使通过预先分析获得的额外信息没有被添加到内容的音频信号，该技术也执行有效音量控制。通过使用JP H05-275950A中描述的技术，可以在抑制声音水平的急剧改变的同时通过压缩处理而使得音频信号的小声音更易听见，而不需要对音频信号的预先分析。然而，该技术没有充分增强音频信号的再现水平。例如，JP H05-275950A中描述的技术仅将幅度衰减音频信号的恒定倍数，因此限制了关于幅度变换的特性的自由度且很难说音频信号的再现水平被有效增强。另外，仅当通过音频信号的幅度变换缩窄音量的动态范围时才可以使用该技术，并且不允许在不改变音量的动态范围或不加宽音量的动态范围的情况下执行幅度变换。本技术是考虑到上述情形而做出的，并且使得能够更容易且高效地增强音频信号的再现水平，而不需要预先分析的额外信息。
根据本公开内容的实施例，提供了一种信号处理装置，其包括分析单元，用于分析输入信号的特性并生成分析特征；映射控制信息确定单元，用于基于分析特征以及通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息；以及映射处理单元，用于基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。针对每个信号处理装置可以已学习了用于获得映射控制信息的信息。用于获得映射控制信息的信息可以是用于获得如下函数或表的信息该函数用于从分析特征推出映射控制信息，该表用于从分析特征获得映射控制信息。该函数可包括与分析特征无关的项。分析单元可对用于学习的学习声音源信号的特性进行分析并生成分析特征。还可设置学习单元，其用于通过使用学习声音源信号的分析特征和用户添加到学习声音源信号的映射控制信息进行的学习，生成用于获得映射控制信息的信息。、分析特征可以是输入信号的均方值、输入信号的对数均方值、输入信号的均方根、输入信号的对数均方根或者输入信号的过零率。在针对多个声道中的每个声道对输入信号执行幅度变换并且生成每个声道的输出信号的情况下，分析单元可基于多个声道中的每个声道的输入信号，生成每个声道共同的一个分析特征。信号处理装置还可包括用于将输入信号划分成多个频带的信号的带划分单元。分析单元可通过对信号的均方值、信号的对数均方值、信号的均方根或者信号的对数均方根执行加权相加而生成分析特征。根据本公开内容的实施例，一种信号处理方法或程序包括分析输入信号的特性并生成分析特征；基于分析特征和通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息；以及基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。根据本公开内容的实施例，一种数据记录介质，其记录通过如下步骤获得的输出信号分析输入信号的特性并生成分析特征；基于分析特征和通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息；以及基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换。根据本公开内容的实施例，分析输入信号的特性，生成分析特征，基于分析特征和通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息，基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。根据本公开内容的实施例，可以更容易且高效地增强音频信号的再现水平，而不需要预先分析的额外信息。

图I是示出音频信号处理装置的实施例的示例配置的图；图2是示出学习装置的示例配置的图；图3是描述学习处理的流程图4是示出映射函数的示例的图；图5是示出基于映射控制模型的回归曲线的示例的图；图6是示出变换处理的流程图；图7是示出音频信号处理装置的另一示例配置的图；图8是示出音频信号处理装置的另一示例配置的图；图9是描述变换处理的流程图；
图10是示出音频信号处理装置的另一示例配置的图；图11是描述变换处理的流程图；以及图12是示出计算机的示例配置的图。
具体实施例方式在下文中，将参照附图详细描述本公开内容的优选实施例。注意，在该说明书和附图中，具有基本上相同的功能和配置的结构元件以相同的附图标记来表示，并且省略这些结构元件的重复说明。以下，将参照附图描述采用本技术的实施例。(第一实施例)[音频信号处理装置的示例配置]图I是示出采用本技术的音频信号处理装置的实施例的示例配置的图。该音频信号处理装置11被设置在便携式再现装置中，并且对输入音频信号执行幅度变换以增强再现水平，并输出执行了幅度变换的音频信号，其中，该便携式再现装置用于再现由例如视频信号和音频信号构成的内容。另外，以下将输入到音频信号处理装置11的音频信号称为输入信号，并且将通过对输入信号执行幅度变换而获得的音频信号称为输出信号。音频信号处理装置11由分析单元21、映射控制信息确定单元22、记录单元23、映射处理单元24、输出单元25以及驱动器26构成。分析单元21分析已提供的输入信号的特性，并且将指示分析结果的分析特征提供到映射控制信息确定单元22。映射控制信息确定单元22基于从分析单元21提供的分析特征和记录在记录单元23中的映射控制模型，确定要用于输入信号的映射处理的映射控制信息，并且将该映射控制信息提供到映射处理单元24。另外，映射处理是映射处理单元24执行的处理，并且对于映射处理，使用基于映射控制信息确定的线性或非线性映射函数，且对输入信号执行线性或非线性幅度变换。此夕卜，映射控制模型是用于从分析特征获得映射控制信息的信息。记录单元23记录从外部装置提供的映射控制模型，并且根据需要将该映射控制模型提供到映射控制信息确定单元22。映射处理单元24使用从映射控制信息确定单元22提供的映射控制信息，对所提供的输入信号执行映射处理，并且增强输入信号的再现水平。映射处理单元24将通过映射处理获得的输出信号提供到输出单元25。输出单元25将从映射处理单元24提供的输出信号输出到后级的音频输出单元等，或者将该输出信号提供到驱动器26。驱动器26记录从输出单元25提供的输出信号，并且将该信号记录在可移除介质27中，可移除介质27是可以自由地附接到驱动器26或从驱动器26拆卸的记录介质。[学习装置的示例配置]一般地，输入信号的记录水平取决于内容而不同，并且有效的是，由音频信号处理装置在动态地改变映射函数的特性的同时通过映射处理而将输入信号的再现水平调整到适当的水平。
然而，可以再现的声音的水平可取决于音频信号处理装置而不同，或者听见声音的方式可能取决于用户而不同。因此，如果对于映射处理使用同一映射控制模型，则即使通过映射处理获得的输出信号被再现，从听觉的角度来看，取决于用于再现的音频信号处理装置或取决于用户，声音的音量也可能过大或过小。因此，对于音频信号处理装置11，通过使用多个声音源执行学习而获得的映射控制模型被每个音频信号处理装置11 (例如，每个单独的音频信号处理装置11或每种类型的音频信号处理装置11)使用。例如，如图2所示地配置学习装置，其通过学习获得音频信号处理装置11使用的映射控制模型。学习装置51由输入单元61、映射控制信息添加单元62、映射处理单元63、扬声器64、分析单元65、映射控制模型学习单元66以及记录单元67构成。在学习装置51处，将要用于映射控制模型的学习的学习声音源信号提供到映射控制信息添加单元62、分析单元65以及映射处理单元63。输入单元61例如是要由用户操作的按钮等，并且将根据用户的操作的信号提供到映射控制信息添加单元62。映射控制信息添加单元62根据来自输入单元61的信号将映射控制信息添加到所提供的学习声音源信号的每个样本，并且将该映射控制信息提供到映射处理单元63或映射控制模型学习单元66。映射处理单元63使用来自映射控制信息添加单元62的映射控制信息对所提供的学习声音源信号执行映射处理，并且将作为结果获得的学习输出信号提供到扬声器64。扬声器64基于从映射处理单兀63提供的学习输出信号而再现声音。分析单元65分析所提供的学习声音源信号的特性，并且将指示分析结果的分析特征提供到映射控制模型学习单元66。映射控制模型学习单元66通过统计学习获得映射控制模型，并且将该映射控制模型提供到记录单元67，其中，统计学习使用来自分析单元65的分析特征和来自映射控制信息添加单元62的映射控制信息。记录单元67记录从映射控制模型学习单元66提供的映射控制模型。将以此方式记录在记录单元67中的映射控制模型提供并记录在音频信号处理装置11的记录单元23中。[学习处理的说明]接下来，将参照图3的流程图描述学习装置51的学习处理。根据该学习处理，一个或多个学习声音源信号被提供到学习装置51。另外，在该情况下，假设分析单兀65、映射处理单兀63、扬声器64等与音频信号处理装置11的每个相应块(诸如分析单元21、映射处理单元24等)相同，其中通过学习获得的映射控制模型被提供到音频信号处理装置11。即，假设块的特性或用于处理的算法相同。在步骤Sll中，输入单元61从用户接收映射控制信息的输入或调整。例如，如果输入了学习声音源信号，则映射处理单元63将已提供的学习声音源信号按原样提供到扬声器64，并且使得输出基于学习声音源信号的声音。然后，当听到输出的声音时，用户操作输入单元61，以取学习声音源信号的预定样本作为处理目标样本，并且给出用于将映射控制信息添加到处理目标样本的指令。另外，例如，通过用户直接输入映射控制信息或从多条映射控制信息中指定期望的映射控制信息而给出用于添加映射控制信息的指令。另外，可通过用户给出用于调整曾经指定的映射控制信息的指令而给出用于添加映射控制信息的指令。当用户以此方式操作输入单元61时，映射控制信息添加单元62根据用户的操作将映射控制信息添加到处理目标样本。然后，映射控制信息添加单元62将已添加到处理目标样本的映射控制信息提供到映射处理单元63。在步骤S12中，映射处理单元63使用从映射控制信息添加单元62提供的映射控制信息对已提供的学习声音源信号的处理目标样本执行映射处理，并且将作为结果获得的学习输出信号提供到扬声器64。例如，映射处理单兀63通过将学习声音源信号的处理目标样本的样本值X代入以下公式(I)中示出的非线性映射函数f(x)来执行幅度变换。即，通过将样本值X代入映射函数f(x)而获得的值被视为学习输出信号的处理目标样本的样本值。
f I ^f (x) —-T- X--—- (_1- 0 ^ X ^ I. 0) (I)
a — } a ^另外，在公式⑴中，假设学习声音源信号的样本值X已被归一化为-I与I之间的值。另外，在公式⑴中，a指示映射控制信息。如图4所示，该映射函数f(x)是这样的函数随着映射控制信息a变得越小，该函数变化越陡。另外，在图4中，水平轴指示学习声音源信号的样本值X，并且垂直轴指示映射函数f(x)的值。另外，曲线fll至fl3表示映射函数f(x)，其中映射控制信息a分别为“3”、“5” 以及 “50”。如从图4可以看出，使用映射函数f(x)对学习声音源信号执行幅度变换，根据映射函数f (X),当映射控制信息a越小时，f (X)关于样本值X的改变的改变量总体越大。当以此方式改变映射控制信息a时，关于学习声音源信号的放大量改变。返回到图3的流程图的说明，在步骤S13中，扬声器64再现从映射处理单元63提供的学习输出信号。另外，更具体地，再现通过对包括处理目标样本的预定片段执行映射处理而获得的学习输出信号。这里，例如，作为再现目标的片段是由针对其已指定映射控制信息的样本构成的片段。在该情况下，使用为这些样本指定的映射控制信息对作为再现目标的片段的每个样本执行映射处理，并且再现作为结果获得的学习输出信号。当以此方式再现学习输出信号时，收听从扬声器64输出的声音的用户评估映射处理的效果。即，评估学习输出信号的声音的音量是否合适。然后，用户操作输入单元61，并且基于评估结果，给出用于调整映射控制信息的指令，或者在假设所指定的映射控制信息最优的情况下，给出用于固定所指定的映射控制信息的指令。
在步骤S14中，映射控制信息添加单元62基于根据从输入单元61输入的用户操作的信号，判定是否获得了最优映射控制信息。例如，在用户给出用于固定映射控制信息的指令的情况下，判定获得了最优映射控制信息。在步骤S14中判定尚未获得最优映射控制信息的情况下，S卩，在给出了用于调整映射控制信息的指令的情况下，处理返回到步骤S11，并且重复上述处理。在该情况下，将新的映射控制信息添加到作为处理目标的样本，并且执行映射控制信息的评估。以此方式，通过在实际收听学习输出信号的声音的同时评估映射处理的效果，可以添加从听觉的角度而言最优的映射控制信息。另一方面，在步骤S14中判定获得了最优映射控制信息的情况下，处理前进到步骤S15。在步骤S15中，映射控制信息添加单元62将已添加到作为处理目标的样本的映射控制信息提供到映射控制模型学习单元66。在步骤S16中，分析单元65分析所提供的学习声音源信号的特性，并且将作为结果而获得的分析特征提供到映射控制模型学习单元66。例如，当假设学习声音源信号的第n个样本是作为处理目标的样本时，分析单元65执行以下公式(2)的计算，并且计算关于学习声音源信号的第n个样本的均方根RMS (n)作为第n个样本的分析特征。
权利要求
1.一种信号处理装置，包括分析单元，用于分析输入信号的特性并生成分析特征；映射控制信息确定单元，用于基于所述分析特征以及通过学习生成的且用于从所述分析特征获得映射控制信息的信息，确定所述映射控制信息；以及映射处理单元，用于基于根据所述映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并且生成输出信号。
2.根据权利要求I所述的信号处理装置，其中，已针对每个信号处理装置学习了所述用于获得映射控制信息的信息。
3.根据权利要求2所述的信号处理装置，其中，所述用于获得映射控制信息的信息是用于获得以下函数或表的信息所述函数用于从所述分析特征推出所述映射控制信息，所述表用于从所述分析特征获得所述映射控制信息。
4.根据权利要求3所述的信号处理装置，其中，所述函数包括与所述分析特征无关的项。
5.根据权利要求4所述的信号处理装置，其中，所述分析单元对用于学习的学习声音源信号的特性进行分析并生成所述分析特征，以及其中，所述信号处理装置还包括学习单元，所述学习单元通过使用所述学习声音源信号的分析特征和用户添加到所述学习声音源信号的所述映射控制信息进行的学习，生成所述用于获得映射控制信息的信息。
6.根据权利要求5所述的信号处理装置，其中，所述分析特征是所述输入信号的均方值、所述输入信号的对数均方值、所述输入信号的均方根、所述输入信号的对数均方根或者所述输入信号的过零率。
7.根据权利要求5所述的信号处理装置，其中，在针对多个声道中的每个声道对输入信号执行幅度变换并且生成每个声道的输出信号的情况下，所述分析单元基于所述多个声道中的每个声道的输入信号生成每个声道共同的一个分析特征。
8.根据权利要求5所述的信号处理装置，还包括带划分单元，用于将所述输入信号划分成多个频带的信号，其中，所述分析单元通过执行所述信号的均方、所述信号的对数均方、所述信号的均方根或所述信号的对数均方根的加权相加来生成所述分析特征。
9.一种信号处理装置的信号处理方法，所述信号处理装置包括分析单元，用于分析输入信号的特性并生成分析特征；映射控制信息确定单元，用于基于所述分析特征以及通过学习生成的且用于从所述分析特征获得映射控制信息的信息，确定所述映射控制信息；以及映射处理单元，用于基于根据所述映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号，所述信号处理方法包括通过所述分析单元生成所述分析特征；通过所述映射控制信息确定单元确定所述映射控制信息；以及通过所述映射处理单元输出所述输出信号。
10.一种用于使得计算机执行以下处理的程序，所述处理包括分析输入信号的特性并生成分析特征；基于所述分析特征以及通过学习生成的且用于从所述分析特征获得映射控制信息的信息，确定所述映射控制信息；以及基于根据所述映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。
11.一种数据记录介质，用于记录通过以下处理获得的输出信号分析输入信号的特性并生成分析特征；基于所述分析特征以及通过学习生成的且用于从所述分析特征获得映射控制信息的信息，确定所述映射控制信息；以及基于根据所述映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换。
全文摘要
本发明提供了一种信号处理装置及其方法、程序以及数据记录介质，该信号处理装置包括分析单元，用于分析输入信号的特性并生成分析特征；映射控制信息确定单元，用于基于分析特征以及通过学习生成的且用于从分析特征获得映射控制信息的信息，确定映射控制信息；以及映射处理单元，用于基于根据映射控制信息确定的线性或非线性映射函数对输入信号执行幅度变换，并生成输出信号。
文档编号H03G7/00GK102761312SQ20121011918
公开日2012年10月31日申请日期2012年4月20日优先权日2011年4月28日
发明者河野明文, 知念彻, 辻实申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：河野明文;知念彻;辻实
技术所有人：索尼公司
我是此专利的发明人

上一篇：模拟到数字转换器和信号处理系统的制作方法
上一篇：模拟数字转换器和信号处理系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、田老师：1: 建筑节能绿色建筑能耗的模拟与检测(EnergyPlus)；建筑碳排放和生命周期评价；城市微气候、建筑能耗与太阳能技术的相互影响；地理信息系统(GIS)和空间回归方法用于城市建筑能耗分析；不确定性、敏感性分析和机器学习方法应用于建筑能耗分析(R)；贝叶斯方法用于城市和单体建筑能源分析 2: 过
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。