空间音频信号滤波的制作方法

文档序号:7994834阅读:196来源:国知局
空间音频信号滤波的制作方法
【专利摘要】一种装置,包括:分析器,其被配置为分析至少一个输入以确定所述至少一个输入内的一个或多个表达;以及控制器,其被配置为根据有关所述一个或多个表达的所述确定,控制与所述至少一个输入关联的至少一个音频信号。
【专利说明】空间音频信号滤波

【技术领域】
[0001]本发明涉及空间音频信号处理。更具体但非独占地说,本发明涉及用于便携式装置的空间音频信号处理。

【背景技术】
[0002]现代电子设备允许用户同时使用多个视听内容源。例如,移动电话可被配置为使用麦克风录制音频信号,使用摄像机录制视频图像,以及经由无线通信网络接收实时的音频信号和/或音频视频流,然后播放或恢复存储在装置上(例如,存储在微型SD卡或装置的内置存储器中)的音频信号和/或视听数据。此外,可以同时使用(查看/聆听)这些多个视听内容源,并且允许用户使用用户界面切换或聚焦其中一个源。因此,例如用户可使用用户界面在存储于装置上的音乐MP3音频流与经由无线网络接收的流式电视节目之间切换,从而在这两个源之间切换。


【发明内容】

[0003]实施例尝试解决上述问题。
[0004]根据第一方面,提供一种方法,包括:分析至少一个输入以确定所述至少一个输入内的一个或多个表达;以及根据有关所述一个或多个表达的所述确定控制与所述至少一个输入关联的至少一个音频信号。
[0005]控制所述至少一个音频信号可包括以下至少一者:根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理;根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理;根据有关所述一个或多个表达的所述确定暂停与所述至少一个输入关联的所述至少一个音频信号;根据有关所述一个或多个表达的所述确定关闭与所述至少一个输入关联的所述至少一个音频信号;以及根据有关所述一个或多个表达的所述确定播放与所述至少一个输入关联的所述至少一个音频信号。
[0006]根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理可包括根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将与所述至少一个输入关联的所述至少一个音频信号空间处理到前旦-5^ ο
[0007]所述方法可进一步包括根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将至少一个进一步的音频信号空间处理到背景。
[0008]根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理可包括:产生与所述至少一个音频信号关联的头部相关传递函数,其中所述头部相关传递函数依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及将所述头部相关传递函数应用于与所述至少一个输入关联的所述至少一个音频信号。
[0009]根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理可包括根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将与所述至少一个输入关联的所述至少一个音频信号音量处理到前旦
-5^ O
[0010]所述方法可进一步包括根据确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将至少一个进一步的音频信号音量处理到背景。
[0011]根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理可包括:产生与所述至少一个音频信号关联的音量级,其中所述音量级依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及将所述音量级应用于与所述至少一个输入关联的所述至少一个音频信号。
[0012]分析至少一个输入以确定所述至少一个输入内的一个或多个表达可包括以下至少一者:音频信号分析,以在所述至少一个输入为音频信号时确定音频表达;文本信号分析,以在所述至少一个输入为文本输入时确定文本表达;数据信号分析,以在所述至少一个输入为数据输入时确定数据表达;图像信号分析,以在所述至少一个输入为图像输入时确定图像表达;以及视频信号分析,以在所述至少一个输入为视频输入时确定视频表达。
[0013]分析至少一个输入以确定所述至少一个输入内的一个或多个表达包括以下至少一者:隐马尔可夫模型分析;模式检测分析;动态时间归整语音识别分析;神经网络模式识别分析;最大熵马尔可夫模型分析;贝叶斯网络分析;音调分析;以及拍频波形图分析。
[0014]所述方法可进一步包括选择作为要进行分析的一个或多个表达。
[0015]所述方法可进一步包括产生作为要进行分析的一个或多个表达。
[0016]产生所述一个或多个表达可包括:选择至少一个输入;选择所述至少一个输入的一部分;以及根据所述至少一个输入的所述一部分产生一个或多个表达。
[0017]所述至少一个输入可包括以下至少一者:音频信号;文本输入;数据输入;图像输入;以及视频输入。
[0018]所述方法可进一步包括从以下至少一者接收所述至少一个输入:被配置为存储预记录或下载的文件的存储器;收发器;被配置为接收传输信号的接收器;被配置为根据装置周围的声场产生信号的至少一个麦克风;以及被配置为根据装置的特性产生信号的传感器。
[0019]所述一个或多个表达可包括以下至少一者:至少一个音素;定义的音符序列;定义的图像;图像组件定义动作;定义的文本表达;定义的数据表达;定义的静默时间;定义的滴答声;定义的突发噪声;以及定义的拍手声。
[0020]所述方法可进一步包括接收至少两个音频信号,其中所述至少两个音频信号中的至少一者是至少一个输入,该至少一个输入被分析以确定其内的表达。
[0021]所述方法可进一步包括控制所述至少一个音频信号,所述至少一个音频信号独立于所述至少一个输入,其中所述控制依赖于确定所述至少一个输入内的所述表达。
[0022]根据第二方面,提供一种装置,其包括至少一个处理器和至少一个包括一个或多个程序的计算机代码的存储器,所述至少一个存储器和所述计算机代码被配置为通过所述至少一个处理器导致所述装置执行以下至少一者:分析至少一个输入以确定所述至少一个输入内的一个或多个表达;以及根据有关所述一个或多个表达的所述确定控制与所述至少一个输入关联的至少一个音频信号。
[0023]控制所述至少一个音频信号导致所述装置执行以下至少一者:根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理;根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理;根据有关所述一个或多个表达的所述确定暂停与所述至少一个输入关联的所述至少一个音频信号;根据有关所述一个或多个表达的所述确定关闭与所述至少一个输入关联的所述至少一个音频信号;以及根据有关所述一个或多个表达的所述确定播放与所述至少一个输入关联的所述至少一个音频信号。
[0024]根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理可导致所述装置根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将与所述至少一个输入关联的所述至少一个音频信号空间处理到前景
[0025]所述装置可进一步执行根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将至少一个进一步的音频信号空间处理到背景。
[0026]根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理可导致所述装置执行:产生与所述至少一个音频信号关联的头部相关传递函数,其中所述头部相关传递函数依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及将所述头部相关传递函数应用于与所述至少一个输入关联的所述至少一个音频信号。
[0027]根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理可导致所述装置执行根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将与所述至少一个输入关联的所述至少一个音频信号音量处理到前景。
[0028]所述装置可进一步被导致执行根据确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将至少一个进一步的音频信号音量处理到背景。
[0029]根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理可导致所述装置执行:产生与所述至少一个音频信号关联的音量级,其中所述音量级依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及将所述音量级应用于与所述至少一个输入关联的所述至少一个音频信号。
[0030]分析至少一个输入以确定所述至少一个输入内的一个或多个表达可导致所述装置执行以下至少一者:音频信号分析,以在所述至少一个输入为音频信号时确定音频表达;文本信号分析,以在所述至少一个输入为文本输入时确定文本表达;数据信号分析,以在所述至少一个输入为数据输入时确定数据表达;图像信号分析,以在所述至少一个输入为图像输入时确定图像表达;以及视频信号分析,以在所述至少一个输入为视频输入时确定视频表达。
[0031]分析至少一个输入以确定所述至少一个输入内的一个或多个表达可导致所述装置执行以下至少一者:隐马尔可夫模型;模式检测分析;动态时间归整语音识别分析;神经网络模式识别分析;最大熵马尔可夫模型分析;贝叶斯网络分析;音调分析;以及拍频波形图分析。
[0032]所述装置可进一步执行选择作为要进行分析的一个或多个表达。
[0033]所述装置可进一步执行产生作为要进行分析的一个或多个表达。
[0034]产生所述一个或多个表达可导致所述装置执行:选择至少一个输入;选择所述至少一个输入的一部分;以及根据所述至少一个输入的所述一部分产生一个或多个表达。
[0035]所述至少一个输入包括以下至少一者:音频信号;文本输入;数据输入;图像输入;以及视频输入。
[0036]所述装置可进一步执行从以下至少一者接收所述至少一个输入:被配置为存储预记录或下载的文件的存储器;收发器;被配置为接收传输信号的接收器;被配置为根据装置周围的声场产生信号的至少一个麦克风;以及被配置为根据装置的特性产生信号的传感器。
[0037]所述一个或多个表达可包括以下至少一者:至少一个音素;定义的音符序列;定义的图像;图像组件定义动作;定义的文本表达;定义的数据表达;定义的静默时间;定义的滴答声;定义的突发噪声;以及定义的拍手声。
[0038]所述装置可进一步执行接收至少两个音频信号,其中所述至少两个音频信号中的至少一者是至少一个输入,该至少一个输入被分析以确定其内的表达。
[0039]所述装置可进一步执行控制所述至少一个音频信号,所述至少一个音频信号独立于所述至少一个输入,其中所述控制依赖于确定所述至少一个输入内的所述表达。
[0040]根据第三方面,提供一种装置,包括:用于分析至少一个输入以确定所述至少一个输入内的一个或多个表达的构件;以及用于根据有关所述一个或多个表达的所述确定控制与所述至少一个输入关联的至少一个音频信号的构件。
[0041]所述用于控制所述至少一个音频信号的构件可包括以下至少一者:用于根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理的构件;用于根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理的构件;用于根据有关所述一个或多个表达的所述确定暂停与所述至少一个输入关联的所述至少一个音频信号的构件;用于根据有关所述一个或多个表达的所述确定关闭与所述至少一个输入关联的所述至少一个音频信号的构件;以及用于根据有关所述一个或多个表达的所述确定播放与所述至少一个输入关联的所述至少一个音频信号的构件。
[0042]用于根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理的构件可包括用于根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将与所述至少一个输入关联的所述至少一个音频信号空间处理到前景的构件。
[0043]所述装置可进一步包括用于根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将至少一个进一步的音频信号空间处理到背景的构件。
[0044]所述用于根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理的构件可包括:用于产生与所述至少一个音频信号关联的头部相关传递函数的构件,其中所述头部相关传递函数依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及用于将所述头部相关传递函数应用于与所述至少一个输入关联的所述至少一个音频信号的构件。
[0045]所述用于根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理的构件可包括用于根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将与所述至少一个输入关联的所述至少一个音频信号音量处理到前景的构件。
[0046]所述装置可包括用于根据确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将至少一个进一步的音频信号音量处理到背景的构件。
[0047]所述用于根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理的构件可包括:用于产生与所述至少一个音频信号关联的音量级的构件,其中所述音量级依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及用于将所述音量级应用于与所述至少一个输入关联的所述至少一个音频信号的构件。
[0048]所述用于分析至少一个输入以确定所述至少一个输入内的一个或多个表达的构件可包括以下至少一者:用于音频信号分析,以在所述至少一个输入为音频信号时确定音频表达的构件;用于文本信号分析,以在所述至少一个输入为文本输入时确定文本表达的构件;用于数据信号分析,以在所述至少一个输入为数据输入时确定数据表达的构件;用于图像信号分析,以在所述至少一个输入为图像输入时确定图像表达的构件;以及用于视频信号分析,以在所述至少一个输入为视频输入时确定视频表达的构件。
[0049]所述用于分析至少一个输入以确定所述至少一个输入内的一个或多个表达的构件可包括以下至少一者:用于隐马尔可夫模型分析的构件;用于模式检测分析的构件;用于动态时间归整语音识别分析的构件;用于神经网络模式识别分析的构件;用于最大熵马尔可夫模型分析的构件;用于贝叶斯网络分析的构件;用于音调分析的构件;以及用于拍频波形图分析的构件。
[0050]所述装置可进一步包括用于选择作为要进行分析的一个或多个表达的构件。
[0051]所述装置可进一步包括用于产生作为要进行分析的一个或多个表达的构件。
[0052]所述用于产生所述一个或多个表达的构件可包括:用于选择至少一个输入的构件;用于选择所述至少一个输入的一部分的构件;以及用于根据所述至少一个输入的所述一部分产生一个或多个表达的构件。
[0053]所述至少一个输入包括以下至少一者:音频信号;文本输入;数据输入;图像输入;以及视频输入。
[0054]所述装置可进一步包括用于从以下至少一者接收所述至少一个输入的构件:被配置为存储预记录或下载的文件的存储器;收发器;被配置为接收传输信号的接收器;被配置为根据装置周围的声场产生信号的至少一个麦克风;以及被配置为根据装置的特性产生信号的传感器。
[0055]所述一个或多个表达可包括以下至少一者:至少一个音素;定义的音符序列;定义的图像;图像组件定义动作;定义的文本表达;定义的数据表达;定义的静默时间;定义的滴答声;定义的突发噪声;以及定义的拍手声。
[0056]所述装置可进一步包括用于接收至少两个音频信号的构件,其中所述至少两个音频信号中的至少一者是至少一个输入,该至少一个输入被分析以确定其内的表达。
[0057]所述装置可进一步包括用于控制所述至少一个音频信号的构件,所述至少一个音频信号独立于所述至少一个输入,其中所述控制依赖于确定所述至少一个输入内的所述表达。
[0058]根据第四方面,提供一种装置,包括:分析器,其被配置为分析至少一个输入以确定所述至少一个输入内的一个或多个表达;以及控制器,其被配置为根据有关所述一个或多个表达的所述确定控制与所述至少一个输入关联的至少一个音频信号。
[0059]所述控制器可包括以下至少一者:音量控制器,其被配置为根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理;空间控制器,其被配置为根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理;暂停控制器,其被配置为根据有关所述一个或多个表达的所述确定暂停与所述至少一个输入关联的所述至少一个音频信号;关闭控制器,其被配置为根据有关所述一个或多个表达的所述确定关闭与所述至少一个输入关联的所述至少一个音频信号;以及播放控制器,其被配置为根据有关所述一个或多个表达的所述确定播放与所述至少一个输入关联的所述至少一个音频信号。
[0060]所述空间控制器可被配置为根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将与所述至少一个输入关联的所述至少一个音频信号空间处理到前旦
-5^ O
[0061]所述空间控制器可被配置为根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将至少一个进一步的音频信号空间处理到背景。
[0062]所述空间控制器可包括:传递函数产生器,其被配置为产生与所述至少一个音频信号关联的头部相关传递函数,其中所述头部相关传递函数依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及函数应用器,其被配置为将所述头部相关传递函数应用于与所述至少一个输入关联的所述至少一个音频信号。
[0063]所述音量控制器可被配置为根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将与所述至少一个输入关联的所述至少一个音频信号音量处理到前旦
-5^ O
[0064]所述音量控制器可被配置为根据确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定将至少一个进一步的音频信号音量处理到背景。
[0065]所述音量控制器可包括:音量级产生器,其被配置为产生与所述至少一个音频信号关联的音量级,其中所述音量级依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及放大器,其被配置为将所述音量级应用于与所述至少一个输入关联的所述至少一个音频信号。
[0066]所述分析器可包括以下至少一者:音频分析器,其被配置为在所述至少一个输入为音频信号时确定音频表达;文本分析器,其被配置为在所述至少一个输入为文本输入时确定文本表达;数据分析器,其被配置为在所述至少一个输入为数据输入时确定数据表达;图像分析器,其被配置为在所述至少一个输入为图像输入时确定图像表达;以及视频分析器,其被配置为在所述至少一个输入为视频输入时确定视频表达。
[0067]所述分析器可包括以下至少一者:隐马尔可夫模型分析器;模式检测分析器;动态时间归整语音识别分析器;神经网络模式识别分析器;最大熵马尔可夫模型分析器;贝叶斯网络分析器;音调分析器;以及拍频波形图分析器。
[0068]所述装置可进一步包括被配置为选择作为要进行分析的一个或多个表达的控制器。
[0069]所述装置可进一步包括被配置为产生作为要进行分析的一个或多个表达的学习模块。
[0070]所述学习模块可包括:选择器,其被配置为选择至少一个输入;剖析器,其被配置为选择所述至少一个输入的一部分;以及产生器,其被配置为根据所述至少一个输入的所述一部分产生一个或多个表达。
[0071]所述至少一个输入可包括以下至少一者:音频信号;文本输入;数据输入;图像输入;以及视频输入。
[0072]所述装置可进一步包括输入接收器,其被配置为从以下至少一者接收所述至少一个输入:被配置为存储预记录或下载的文件的存储器;收发器;被配置为接收传输信号的接收器;被配置为根据装置周围的声场产生信号的至少一个麦克风;以及被配置为根据装置的特性产生信号的传感器。
[0073]所述一个或多个表达可包括以下至少一者:至少一个音素;定义的音符序列;定义的图像;图像组件定义动作;定义的文本表达;定义的数据表达;定义的静默时间;定义的滴答声;定义的突发噪声;以及定义的拍手声。
[0074]所述装置可进一步被配置为接收至少两个音频信号,其中所述至少两个音频信号中的至少一者是至少一个输入,该至少一个输入被分析以确定其内的表达。
[0075]所述控制器可被配置为控制所述至少一个音频信号,所述至少一个音频信号独立于所述至少一个输入,其中所述控制器依赖于确定所述至少一个输入内的所述表达。
[0076]一种电子设备可包括上述装置。
[0077]一种芯片组可包括上述装置。

【专利附图】

【附图说明】
[0078]为了更好地理解本发明,现在将借助实例参考附图,其中:
[0079]图1示意性地示出采用本发明的某些实施例的电子设备;
[0080]图2示意性地示出根据某些实施例的表达控制音频信号处理器的实例概观;
[0081]图3示意性地示出根据某些实施例相对于音频信号输入的表达控制音频信号处理装置;
[0082]图4示意性地示出根据某些实施例相对于学习模块的表达控制音频处理装置;
[0083]图5示意性地示出根据某些实施例的表达控制音频处理装置的学习模块的操作;
[0084]图6示意性地示出根据某些实施例相对于图3所示的音频信号输入的表达控制音频处理装置的操作;以及
[0085]图7示意性地示出根据某些实施例相对于图2所示的音频和视听输入的表达控制音频处理装置的操作。

【具体实施方式】
[0086]下面描述用于音频信号呈现或视听信号呈现的可能的空间和音量音频信号处理。在此方面,首先参考图1,其中示出示例性电子设备或装置10的示意性框图,该电子设备或装置集成根据本发明的实施例的关键字或表达控制音频信号处理装置。
[0087]装置10例如可以是无线通信网络的移动终端或用户设备。在其它实施例中,装置10可以是音频-视频设备,例如摄像机、电视(TV)接收器、诸如mp3录音机/播放器之类的录音机或音频播放器、媒体录像机(也称为mp4录像机/播放器),或任何适合于音频信号处理的计算机。
[0088]在某些实施例中,电子设备或装置10包括麦克风11,其经由模拟-数字转换器(ADC) 14连接到处理器21。处理器21进一步经由数字-模拟(DAC)转换器32连接到扬声器33。处理器21进一步连接到收发器(RX/TX)13、用户接口(UI) 15和存储器22。
[0089]在某些实施例中,装置包括处理器21。在某些实施例中,处理器21可被配置为执行多种程序代码。在某些实施例中,所实现的程序代码包括此处描述的表达或关键字控制音频信号处理代码。
[0090]在某些实施例中,装置包括一个或多个存储器22。在某些实施例中,一个或多个存储器22可包括数据区间24和程序代码区间23。在某些实施例中,所实现的程序代码23例如可被存储在存储器22 (具体是指存储在程序代码区间23)中,以便在需要时由处理器21取出。存储器22的数据区间24可被配置为存储数据,例如已根据本发明处理的数据。[0091 ] 在某些实施例中,表达控制音频处理代码可在硬件或固件中实现。
[0092]在某些实施例中,装置包括用户接口 15。用户接口 15允许用户例如经由数字小键盘将指令输入电子设备10,和/或例如经由显示器从电子设备10获取信息。在某些实施例中,触摸屏可同时提供用户接口的输入和输出功能。
[0093]在某些实施例中,装置10包括收发器13,该收发器适合于例如经由无线通信网络实现与其它装置的通信。
[0094]将再次理解,装置10的结构可通过多种方式补充和改变。
[0095]装置10例如可使用麦克风11 (在某些实施例中,该麦克风可以是麦克风阵列)输入语音或其它音频信号,这些信号然后被处理,或者被存储在存储器22的数据区间24中。
[0096]在某些实施例中,模拟-数字转换器(ADC) 14将输入模拟音频信号转换为数字音频信号,并将该数字音频信号提供给处理器21。在某些实施例中,麦克风11可包括集成的麦克风和ADC功能,并将数字音频信号直接提供给处理器进行处理。
[0097]在这些实施例中,处理器21然后根据此处描述的实施例处理数字音频信号。
[0098]在某些实施例中,最后经过处理的音频比特流可被“实时地”输出,或者被存储在存储器22的数据区间24中或在该数据区间内“接收”,例如以便于在以后发送或便于同一装置10在以后呈现。
[0099]在某些实施例中,装置10还可经由收发器13接收进一步的音频信号输入或视频信号输入。在该实例中,处理器21可执行存储器22中存储的表达或关键字控制音频信号处理代码。在这些实施例中,处理器21根据此处描述的某些实施例处理所接收的数据。
[0100]而且,在某些实施例中,装置10可被配置为处理从存储器22(具体是指从存储器22的数据区间24)取出或恢复的音频信号或视频信号。
[0101]此外,在某些实施例中,处理器21可被配置为提供经由处理(或者混合和空间化)形成的经过处理的音频信号输出、从外部装置接收的音频信号、装置产生的音频信号,以及从存储器恢复到数字-模拟转换器32的音频信号。数字-模拟转换器32可被配置为将经过处理的输出音频信号转换为模拟音频数据,并且在某些实施例中,可经由扬声器33输出模拟音频。将理解,在某些实施例中,该扬声器可被取代,或被实现为听筒、收话器、耳机,或者被配置为产生声波的任何适当的换能器。
[0102]在某些实施例中,处理程序代码的执行可被用户经由用户接口 15调用的应用触发。
[0103]在某些实施例中,装置包括被配置为捕捉视频或图像数据的相机或视频图像捕捉装置,所述视频或图像数据可被用作根据此处描述的实施例的表达(关键字)控制音频信号处理器的输入。
[0104]将理解,图2和4所述的示意性结构以及图3、5、6和7所示的方法或操作步骤仅表示装置的一部分操作(具体是指被示意性地示出为在图1所示的装置中实现的表达或关键字控制(空间)音频信号处理装置或方法)。
[0105]如此处所述,根据某些实施例的电子设备或装置可被配置为同时使用多个音频和/或视频内容源,并且被配置为在其中一个源输入期间产生某种兴趣时,基于可切换的方式聚焦或显示一个源。如此处描述的那样,从一个内容源切换到另一内容源一般需要用户与装置交互。例如,从诸如音乐(MP3)音频流之类的第一内容源切换到诸如电视节目之类的另一内容源需要用户与显示器进行物理交互。
[0106]与用户界面进行的此交互在某些情况下可能比较困难或费力,例如需要用户在切换源之前打开或解锁装置。此外,在某些实施例中,切换内容可能不切实际或者不合法,例如在驾驶期间尝试切换源。
[0107]在此处描述的实施例中,装置可被配置为控制音频信号的音频改变或诸如音频信号(或源)空间化之类的信号处理,具体取决于确定特定表达,也称为关键字或指纹,例如视听源中的“音频表达”或“可视表达”或“文本输入表达”。
[0108]例如,在某些实施例中,装置可被配置为从存储器进行检索,同时输出音乐音频信号流和所记录的新闻广播音频信号流。在这些实施例中,装置最初可被配置为处理音频信号,以使音乐音频信号位于“前景”(换言之,具有较高的音量,在空间上位于听众的前面或侧面)中并且新闻广播音频信号位于“背景”(换言之,具有较低或较轻柔的音量,在空间上位于听众的后面)中,而且装置可被配置为确定新闻广播音频信号何时提及被关注话题的定义的表达(关键字)。已检测到表达或关键字的新闻广播音频信号的装置信号处理可被配置为控制混音器,以便音乐音频信号被移到背景(在音量和/或空间方面)中,并且新闻广播音频信号被移到前景(在空间和/或音量方面)中。此外,尽管如此处所述,相对于表达形成检测的音频信号控制是音频信号处理(例如空间信号处理或音量信号处理),但是将理解,在某些实施例中,可根据确定来自关联的输入或关联的输入内的表达实现任何适当的音频信号处理或音频控制。例如,针对音频信号执行的控制操作可以是初始化或播放音频信号、暂停音频信号、在音频信号之间切换以及停止音频信号。
[0109]如此处所述,在某些实施例中,输入可以是“实时”音频信号源,例如,其中音频信号源输入从用户所在的位置捕捉。例如,在某些实施例中,装置的麦克风可产生音频源信号。在这些实施例中,装置可被配置为分析麦克风音频信号,并在确定适当定义的关键字或音频“指纹”或表达之后处理麦克风音频信号以将该麦克风音频信号作为前景音频信号输出。例如,当在议程中包含多个话题,而用户只对其中一个话题感兴趣的演讲期间使用装置时,装置可被配置为在背景中输出演讲的麦克风音频信号,直到装置确定被关注话题的表达“关键字”,然后混合或处理音频信号输入以使演讲的麦克风音频信号置于前景中。
[0110]如此处所述,在某些实施例中,表达(关键字)可被视为诸如语音之类的“音频指纹”,但是也可被视为能够在音频信号中识别的其它任何适当的特征参数或特性。例如,广播或电视频道特定的“主题”或节拍轨可识别电视或广播节目,或者片段“sound ident (声音识别)”可识别电视或广播节目内的一个片段。而且,表达可以是任何选定的或适当的非语音信号,例如滴答声、突发噪声以及拍手声,甚至缺少音频内容,例如定义的或预定义的静默时间。
[0111]类似地,在某些实施例中,表达(关键字)可被视为可视指纹或文本指纹。在某些实施例中,可视指纹、文本指纹或音频指纹可分别确定音频处理器控制。但是将理解,在某些实施例中,可使用定义的表达或指纹的任何适当的组合或序列作为控制音频操作(例如,识别特定的关联音频信号的焦点选择)的触发器。
[0112]例如,可分析同时包括读物的音频版本和文本版本的有声读物,并且在到达读物中的特定语句或短语时,分析器使用文本数据作为焦点或空间化的触发器。将理解,如此处所述,可使用音频和文本数据的任何组合以及电子转换格式(例如,文本转语音、语音转文本)作为表达(关键字)或内容分析。
[0113]类似地,在某些实施例中,输入源可包括与音频信号同步或与音频信号关联的可视媒体信号。例如,会议中使用的新闻广播或幻灯片的视频图像可被用作辅助媒体源以进行表达或内容分析以及表达或关键字检测。例如,表达或关键字可在视频图像中呈现为文本,或者呈现为诸如节目片头之类的特定图像。
[0114]参考图2,其中示出集成基于表达(或指纹)分析的音频源信号空间处理和音量处理的实例音频信号处理器的概观。在某些实施例中,音频处理器包括至少两个音频信号输入。在图2中,示出两个音频信号输入:音频输入I 1l1和音频输入N 1Ino将理解,音频信号输入可以是任何适当的音频信号。例如,音频信号输入可以是存储器取出或恢复的信号。其实例可以是记录的语音、音乐音频信号或类似的信号。此外,在某些实施例中,音频信号输入可以是通过任何适当的方式接收的已接收音频输入信号,例如经由无线或有线耦合接收的信号,或者是诸如已下载或流式传输的音频信号之类的信号。在某些实施例中,音频信号可经由收发器或接收器接收。在某些实施例中,音频信号输入可以是例如从麦克风或麦克风阵列产生的音频信号,或者是内部产生的音频信号,例如警报信号。
[0115]在某些实施例中,音频输入可被传递到分析器111以及混合器119。而且,在某些实施例中,音频输入可被传递到学习模块107。
[0116]在某些实施例中,信号处理装置包括至少一个视频信号输入或视频源。在图2所示的实例中,单个视频信号输入被示出为视频输入A 103,但是将理解,在某些实施例中,可实现多于或少于一个视频信号输入。在图2所不的实例中,视频输入A 103与分析器111率禹合,并且在某些实施例中,与学习模块107耦合。将理解,在某些实施例中,视频信号输入与至少一个音频信号输入关联。例如,在某些实施例中,视频输入A 103可与音频输入I 1l1关联,其中视频输入A是装置摄像机产生的视频图像,音频输入I 1l1是麦克风产生的音频输入。此外,在某些实施例中,单独的视频信号输入和音频信号输入可作为组合的音频视频输入被接收或恢复。例如,在某些实施例中,音频和视频输入可以是流式传输或取出的视频程序的音频视频输入。
[0117]在某些实施例中,装置包括文本信号或数据输入。在图2所示的实例中,存在单个文本输入-文本输入α 105。但是将理解,在某些实施例中,可以存在多于或少于一个的文本输入。在某些实施例中,文本或数据输入与音频输入中的至少一者关联。在某些实施例中,文本输入可以是例如从用户界面提供的实时捕捉的文本或数据输入,例如来自与音频流关联的元数据流的已接收文本或数据输入,或者来自与音频信号输入(同时也从存储器取出)关联的存储器的已取出文本输入。
[0118]在某些实施例中,文本或数据输入可被配置为被传递到学习模块107。此外,在某些实施例中,文本或数据输入可被传递到分析器以接收分析,从而产生混合器119的信号控制数据。
[0119]在某些实施例中,装置包括学习模块107。学习模块可被配置为从音频、文本或视频输入中的每一者接收输入以识别任何新的表达或关键字(音频、视频或文本指纹),这些表达或关键字将被存储在表达数据库109中。此外在某些实施例中,学习模块可被配置为基于用户界面输入控制“活动”表达式(关键字)或表达式(关键字)集的选择。学习模块107可被配置为与表达数据库109耦合。
[0120]在某些实施例中,装置包括表达(关键字)数据库109。表达(关键字)数据库109可被配置为从学习模块107接收输入以将表达或关键字(或视频、文本或音频指纹)添加到表达(关键字)数据库109。此外,表达(关键字)数据库109可被配置为与分析器111耦合。分析器111可从表达(关键字)数据库109请求任何通过检测或搜索来使用分析器的适当表达(关键字),并且可从适当的音频、文本或视频信号输入请求表达(关键字)。
[0121]在某些实施例中,装置包括分析器111。分析器被配置为接收诸如音频信号输入、文本信号输入和视频信号输入之类的信号输入,并且分析这些输入以确定输入中是否包含表达或关键字(例如,音频指纹、文本指纹或视频指纹),并且根据检测到此类表达或关键字,控制控制器(例如,混合器)119以产生适当混合的音频信号。
[0122]在某些实施例中,分析器111包括音频分析器113。音频分析器113可被配置为接收音频输入中的至少一者并检测表达或关键字(或音频指纹)是否包含在音频输入内,并且产生混合器控制以在检测到表达或关键字时选择至少一个音频输入。
[0123]在某些实施例中,分析器111包括文本分析器115。文本分析器115可被配置为接收至少一个文本数据输入,并且根据文本数据输入确定文本或数据是否包含适当选择的表达或关键字(或文本指纹)。文本分析器115然后可被配置为在检测到文本数据输入中的适当表达或关键字时产生适当的混合器控制以在控制器(例如,混合器)119中选择与文本数据输入关联的音频输入。
[0124]在某些实施例中,分析器111包括图像/视频分析器117。图像/视频分析器117被配置为接收至少一个图像和/或视频输入信号,并且确定图像/视频输入是否包含适当的表达或关键字(或视频指纹)。当检测到适当的视频表达或关键字时,图像/视频分析器117被配置为产生适当的控制信号以便控制器(混合器)119选择与视频输入关联的音频输入。
[0125]在某些实施例中,装置包括控制器119。在此处描述的以下实例中,控制器是混合器119。混合器119被配置为从分析器111接收控制输入。此外,混合器被配置为接收至少两个音频输入。在图2所示的实例中,存在N个输入,其中明确地示出音频输入I 1l1和音频N 1Ino混合器119被配置为混合音频输入,以便适当混合的音频输出流反映音频输入或关联的视频或文本输入中的任一者是否包含适当的表达或关键字。换言之,音频输出依赖于有关适当的表达或关键的确定(关键字是音频、文本/数据还是图像/视频)。在某些实施例中,音频控制器或用于控制音频信号的适当装置可被实现为控制音频混合以及其它任何适当的音频控制操作。
[0126]在某些实施例中,控制器119 (混合器)包括音量控制器121,其被配置为相对于音频输出信号控制音频输入之间的混合量。
[0127]在某些实施例中,控制器119 (混合器)包括空间控制器123,其被配置为根据分析器111的输出,通过音频输入产生在空间上修改的音频输出。
[0128]将理解,在某些实施例中,控制器119可包括任何适当的音频输入控制器,例如被配置为暂停音频输入(或临时停止音频输入的输出)的暂停控制器、被配置为播放(或输出)音频输入的播放控制器,以及被配置为停止或终止音频输入的输出的停止控制器。将理解,在某些实施例中,控制器119可被配置为接收音频输入之外的输入,并根据有关适当表达的分析和确定控制这些输入的输出。
[0129]参考图3,其中示出仅相对于音频输入的根据某些实施例的处理装置。处理器包括组合的音频输入201,其被配置为接收或取出音频源信号数据。此外,参考图6,其中示出图3所示的仅相对于音频输入的处理装置的操作。
[0130]如图3所示,具有3个音频流,它们形成3个音频输入。这些在途中示出为:第一音频输入1l1,其被配置为接收第一音频信号Aud1l ;第二音频输入1l2,其被配置为接收第二音频信号Aud12 ;以及第三音频输入1l3,其被配置为接收第三音频信号Aud13。在某些实施例中,视频输入如图3所示被传递到分析器111。
[0131 ] 此外如图3所示,在某些实施例中,音频输入可与关键字数据库109耦合以便选择输入或学习新的表达或关键字。
[0132]接收/输入/取出音频源的操作在图6中的步骤551示出。
[0133]在某些实施例中,处理装置包括分析器111。分析器111可包括被配置为分析音频输入信号的音频分析器113。此外在某些实施例中,音频分析器113可以是隐马尔可夫模型(HMM)分析器203。隐马尔可夫模型分析器203可被配置为应用隐马尔可夫模型语音识别以使用傅里叶变换和余弦变换检测或计算短时间窗口的系数,并且使用统计分布估计确定或估计音频信号内的音素。此外,HMM分析器203可被配置为检测以特定顺序包含多个音素的复杂单词。
[0134]因此在某些实施例中,HMM分析器203可被配置为从关键字数据库109接收至少一个关键字以在音频信号输入的至少一者内检测它。因此在某些实施例中,关键字数据库109可包括一系列音素,这些因素被传递到HMM分析器203以确定音频流中的任一者内是否包含表达或关键字。
[0135]使用HMM分析来分析音频源以检测表达的操作在图6中的步骤553示出。
[0136]尽管在该实例中,HMM语音识别装置被用于检测表达或关键字,但是将理解,可使用任何适当的模式检测或识别装置。例如,在某些实施例中,可使用动态事件归整(DTW)语音识别、神经网络模式识别、最大熵马尔可夫模型(MEMM)或贝叶斯网络分析以检测语音音素。此外在某些实施例中,可通过模式识别确定任何适当的音调或拍频波形图。
[0137]在某些实施例中,分析器111根据关键字检测产生混合器控制。例如在某些实施例中,分析器111可被配置为控制混合器,以便将检测到关键字的音频信号输入流置于“前景”中,将其它音频流移到“背景”中。
[0138]根据关键字检测产生混合器控制在图6中的步骤555示出。
[0139]在某些实施例中,处理器包括采取混合器119形式的控制器。此外在某些实施例中,混合器包括空间化控制121和音量控制123。音量控制123可被配置为接收音频信号输入中要被输出的每一者并控制要被输出的音频信号输入的音量,以便在分析器确定音频输入中要被输出的一者中的表达或关键字时,产生控制信号以控制音量控制123以创建以下效应:其中包含表达或关键字的音频信号输入的音量明显大于其它音频信号输入的音量,从而将包含关键字的音频信号输入置于“前景”中,将其它音频信号输入置于“背景”中。
[0140]此外在某些实施例中,当具有多个产生空间输出效应的通道音频信号输出时,空间化控制121可被配置为混合要被输出的音频信号输入以产生音频信号输出,其中包含表达或关键字的音频信号输入在空间上被混合或处理为位于用户的前面或“前景”中,而其它音频信号输入被混合或处理为在空间上位于用户的背景中或后面。在某些实施例中,空间化控制121可通过应用头部相关传递函数(HRTF,head related transfer funct1n)或类似的脉冲响应或将音频信号输入转换为空间定位的音频信号输出的传递函数来实现。
[0141]此外,混合器119可被配置为混合音频源音频信号以产生单个输出。
[0142]混合经过处理的音频源的操作在图6中的步骤557示出。
[0143]此外,输出混合的音频信号在图6中的步骤559示出。
[0144]参考图4和5,其中参考音频信号输入进一步详细地示出相对于音频和/或处理装置的学习模块和表达数据库操作的处理装置以及处理装置的操作。在图4所示的实例中,音频信号输入501包括有声读物播放器音频输入1015和音乐播放器音频输入1016。在某些实施例中,有声读物播放器音频输入1015可以是在装置的处理器上操作或运行的有声读物程序或应用(app)的一部分。类似地,音乐播放器音频输入1016可以是同样在装置的处理器上运行的音乐或音频播放器程序或应用的一部分。
[0145]在某些实施例中,学习模块107可包括自动空间化控制器503。自动空间化控制器503被配置为控制表达数据库109的操作。例如,控制表达数据库109被配置为接收、学习或创建新的关键字(或表达),还是输出或选择要被检测的关键字(或表达)。在这些实施例中,用户可使用装置的用户界面选择有声读物播放器应用或程序(或音频信号输入)的自动空间化功能,并导致装置在屏幕上呈现菜单,以便根据现有表达集创建新的表达(集)或表达选择。在某些实施例中,表达集可被存储在装置的外部,例如存储在用于存储表达的中央位置上。在某些实施例中,装置可允许用户提供定义的标签或名称以及有关早期识别的每个关键字集的更详细信息。例如,第一表达集可以是“电视音频”,用于识别来自电视节目的表达,另一标签是“演讲”,用于识别演讲期间的表达等。而且,用户可选择创建新的关键字或表达集。
[0146]在某些实施例中,自动空间化控制器505可被配置为将选择信息传递到表达数据库,以便传递到分析器。
[0147]因此在某些实施例中,自动空间化控制器503接收用户界面输入,并且可与表达数据库耦合以选择特定的表达或表达集。
[0148]在某些实施例中,学习模块包括学习模块创建器504。学习模块创建器504可被配置为从自动空间化控制器503接收有关需要创建新的表达或表达集的指示。在某些实施例中,表达模块107 (具体指示表达模块创建器504)然后可被配置为接收新的表达。在某些实施例中,新的表达可通过将它们记录到装置麦克风内来确定,其中在某些实施例中,学习模块创建器504产生要存储在表达数据库109中的适当格式的信号。在某些实施例中,学习模块创建器504可被配置为接收要被创建的表达的文本或数据表示,这样导致学习模块创建器504产生表达数据库109中的适当格式的信号。表达数据库109然后可以接收适当设置格式的表达。
[0149]参考图5,其中示出相对于新的表达创建实例的学习模块创建器504的操作。
[0150]在某些实施例中,学习模块创建器504可被配置为确定是否存在创建新的表达集的输入。当不需要创建新的表达集时,学习模块创建器504的操作便可终止。
[0151]检查新表达集创建的操作在图5中的步骤301示出。
[0152]当需要创建新的表达集时,则在某些实施例中,学习模块创建器504确定集中是否需要新的表达。
[0153]检测是否需要插入新表达的操作在图5中的步骤303示出。
[0154]当学习模块创建器504确定表达集不需要新的表达时,学习模块创建器504可将新的表达集保存到数据库,然后执行创建新表达集检查,如步骤301所示。
[0155]将表达集保存到数据库的操作在图5中的步骤313示出。
[0156]当学习模块创建器504确定表达集需要新的表达时,学习模块创建器504可被配置为确定表达是音频还是文本表达。
[0157]检测新的表达是音频还是文本的操作在图5中的步骤305示出。
[0158]当新的表达为文本时,学习模块创建器504可被配置为接收文本输入,并且处理文本输入以针对表达数据库109产生适当格式的表达。
[0159]接收文本输入的操作在图5中的步骤309示出。
[0160]当新的表达为音频表达时,学习模块创建器504可被配置为接收音频信号,并且处理音频信号输入以针对表达数据库109产生适当格式的表达。
[0161]接收音频信号的操作在图5中的步骤307示出。
[0162]在接收音频或文本输入之后,学习模块创建器504可被配置为将新的表达存储到表达集,并且执行另一检查以查看新的表达是否作为表达集的一部分被插入,换言之,返回步骤303。
[0163]将新的表达存储到表达集的操作在图5中的步骤311示出。
[0164]在图4中,表达数据库109包括多个表达集,被示出为表达集I ;表达集2 ;以及表达集N。表达数据库109的输出然后被传递到组合的音频分析和混合部,该部分在图4中被示出为509的一部分。音频分析和混合部509可包括图3所示的空间化控制121和音量控制123,并且被进一步配置为将音频输出到特定的音频输出端,例如听筒、耳机、扬声器等。
[0165]参考图7,其中示出例如图2所示的处理器装置的操作的进一步实例,其中输入至少一个视频图像进行分析。如此处以及某些实施例中的音频信号分析所述,分析器可被配置为分析与被处理的音频信号关联的文本/数据信号输入,和/或图像/视频信号输入。在这些实施例中,可将此处参考图3至6描述的实例视为这些实施例的简化版本。
[0166]因此在某些实施例中,图像/视频信号输入A 103被配置为接收视频图像。
[0167]视频图像的接收在图7中的步骤401示出。
[0168]此外,存在至少一个与视频图像信号关联的第一音频信号输入。在某些实施例中,此信息可被存储在存储器中并由分析器111使用。
[0169]在某些实施例中,处理装置包括与视频/图像信号输入A关联的第一音频信号输入——音频输入1 101:。此外,处理装置包括第二音频信号输入——音频输入N 101N。
[0170]接收与视频图像信号关联的第一音频信号在图7中的步骤403示出。
[0171]接收第二或进一步的音频信号(不与视频图像关联)的操作在图7中的步骤405示出。
[0172]在某些实施例中,分析器111包括视频分析器117,其被配置为分析视频信号以查找表达(关键字或视频/图像指纹)或特定的表达(关键字或视频/图像指纹)模式。
[0173]检查或分析视频信号以查找表达(关键字或指纹)的操作在图7中的步骤407示出。
[0174]分析器111 (具体是指视频分析器117)然后可被配置为检测是否已经相对于视频图像输入检测表达(关键字)。当视频图像包含表达(关键字)时,分析器111可被配置为控制混合器对音频输出信号的混合,以使第一音频信号(音频输入1 lOli)为主音频输出,换言之,作为音频混合的前景,使第二音频信号(音频输入N 101N)作为背景。
[0175]当尚未在视频(或第一音频信号)中检测到表达(关键字)时,分析器可被配置为控制混合器,以便混合器输出第二音频信号(音频输入n1in)作为主音频输出,换言之,作为前景音频信号,并且输出第一音频信号(音频输入1 log作为背景或第二音频信号。
[0176]检测是否在视频图像中检测到表达(关键字)的操作在图7中的步骤409示出。
[0177]混合音频以使第一音频为主音频输出,第二音频信号为背景的操作在图7中的步骤411示出。
[0178]混合音频以使第二音频信号为主音频输出,第一音频信号为背景的操作在图7中的步骤413示出。
[0179]应该理解,术语“用户设备”旨在涵盖任何适当类型的无线用户设备,例如移动电话、便携式数据处理设备或便携式Web浏览器。
[0180]而且,公共陆地移动网络(PLMN)的元件也可包括上述音频处理。
[0181]一般而言,本发明的多个实施例可通过硬件或专用的电路、软件、逻辑或它们的组合实现。例如,某些方面可通过硬件实现,而其它方面可通过能够被控制器、微处理器或其它计算设备执行的固件或软件实现,尽管本发明不限于此。虽然本发明的多个方面被示出和描述为框图、流程图或使用其它某种图形表示,但是很容易理解,作为非限制性实例,此处描述的这些块、装置、系统、技术或方法可通过硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备,或者它们的某一组合实现。
[0182]因此,至少某些实施例可以是包括至少一个处理器和至少一个存储器的装置,该存储器包括计算机程序代码,所述至少一个存储器和所述计算机程序代码被配置为通过所述至少一个处理器导致所述装置执行以下至少一者:分析至少一个输入以确定所述至少一个输入内的一个或多个表达;以及根据有关所述一个或多个表达的所述确定控制与所述至少一个输入关联的至少一个音频信号。
[0183]本发明的实施例可通过能够被移动设备的数据处理器执行(例如在处理器实体中执行)的计算机软件、硬件或硬件和软件的组合实现。进一步地在此方面,应该注意,附图中的逻辑流程的任何块都可表示程序步骤,或互连的逻辑电路、块和功能,或者程序步骤和逻辑电路、块和功能的组合。
[0184]因此,至少某些实施例可以是包括通过指令编码的计算机可读介质,当被计算机执行时,所述指令执行:分析至少一个输入以确定所述至少一个输入内的一个或多个表达;以及根据有关所述一个或多个表达的所述确定控制与所述至少一个输入关联的至少一个音频信号。
[0185]存储器可具有适合于本地技术环境并且可使用任何适当的数据存储技术实现的任何类型,例如,基于半导体的存储器件、磁存储器件和系统、光存储器件和系统、固定存储器和可移动存储器。数据处理器可具有任何适合于本地技术环境的类型,并且可包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一者或多者作为非限制性实例。
[0186]本发明的实施例可通过诸如集成电路模块之类的多种组件实现。集成电路设计总的来说是高度自动化的过程。可使用复杂强大的软件工具将逻辑级设计转换为很容易在半导体衬底上蚀刻和形成的半导体电路设计。
[0187]位于加州山景城的Synopsys Inc.和位于加州圣何塞的Cadence Design之类的公司提供的程序使用完善的设计规则以及预存设计模块库在半导体芯片上路由导线和定位组件。一旦半导体电路的设计完成,以标准电子格式(例如,Opus、GDSII等)形成的设计便可被发送到半导体制造设备或“fab”以进行制造。
[0188]如在本文中使用的那样,术语“电路”指示以下所有项:
[0189](a)仅硬件电路实现(例如,仅通过模拟和/或数字电路的实现),以及
[0190](b)电路和软件(和/或固件)的组合,例如⑴处理器的组合或(ii)协同工作以导致诸如移动电话或服务器之类的装置执行多个功能的处理器/软件(包括数字信号处理器)、软件和存储器的多个部分,以及
[0191](C)电路,例如即使软件或固件在物理上不存在,也需要软件或固件才能执行操作的微处理器或微处理器的一部分。
[0192]“电路”定义适用于该术语在本申请中的所有使用,其中包括在任何权利要求中的使用。作为进一步的实例,如在本申请中使用的那样,术语“电路”还包含仅处理器(或多个处理器),或者处理器及其附属软件和/或固件的一部分。例如在适用于特定权利要求元素的情况下,术语“电路”还包含用于移动电话的基带集成电路或应用处理器集成电路,或者服务器、蜂窝网络设备或其它网络设备中的类似集成电路。
[0193]上面的描述借助示例性和非限制性的实例提供了有关本发明示例性实施例的全面、详细的说明。但是,当结合附图和所附权利要求阅读上述描述时,多个修改和改变对于相关领域的技术人员而言可变得显而易见。但是,针对本发明教导的所有这些修改和类似的修改仍落在所附权利要求定义的本发明范围内。
【权利要求】
1.一种方法,包括: 分析至少一个输入以确定所述至少一个输入内的一个或多个表达;以及 根据有关所述一个或多个表达的所述确定,控制与所述至少一个输入关联的至少一个音频信号。
2.根据权利要求1所述的方法,其中控制所述至少一个音频信号包括以下至少一者: 根据有关所述一个或多个表达的所述确定,对与所述至少一个输入关联的所述至少一个音频信号进行音量处理; 根据有关所述一个或多个表达的所述确定,对与所述至少一个输入关联的所述至少一个音频信号进行空间处理; 根据有关所述一个或多个表达的所述确定,暂停与所述至少一个输入关联的所述至少一个音频信号; 根据有关所述一个或多个表达的所述确定,关闭与所述至少一个输入关联的所述至少一个音频信号;以及 根据有关所述一个或多个表达的所述确定,播放与所述至少一个输入关联的所述至少一个音频信号。
3.根据权利要求2和3所述的方法,其中根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理包括,根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定,将与所述至少一个输入关联的所述至少一个音频信号空间处理到前景。
4.根据权利要求3所述的方法,进一步包括根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定,将至少一个进一步的音频信号空间处理到背景。
5.根据权利要求3和4所述的方法,其中根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理包括: 产生与所述至少一个音频信号关联的头部相关传递函数,其中所述头部相关传递函数依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及将所述头部相关传递函数应用于与所述至少一个输入关联的所述至少一个音频信号。
6.根据权利要求2至5所述的方法,其中根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理包括,根据有关所述关联的至少一个输入内的所述一个或多个表达的所述确定,将与所述至少一个输入关联的所述至少一个音频信号音量处理到前景。
7.根据权利要求6所述的方法,进一步包括根据确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定,将至少一个进一步的音频信号音量处理到背景。
8.根据权利要求6和7所述的方法,其中根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理包括: 产生与所述至少一个音频信号关联的音量级,其中所述音量级依赖于确定有关所述关联的至少一个输入内的所述一个或多个表达的所述确定;以及 将所述音量级应用于与所述至少一个输入关联的所述至少一个音频信号。
9.根据权利要求1至8所述的方法,其中分析至少一个输入以确定所述至少一个输入内的一个或多个表达包括以下至少一者: 音频信号分析,以在所述至少一个输入为音频信号时确定音频表达; 文本信号分析,以在所述至少一个输入为文本输入时确定文本表达; 数据信号分析,以在所述至少一个输入为数据输入时确定数据表达; 图像信号分析,以在所述至少一个输入为图像输入时确定图像表达;以及 视频信号分析,以在所述至少一个输入为视频输入时确定视频表达。
10.根据权利要求1至8所述的方法,分析至少一个输入以确定所述至少一个输入内的一个或多个表达包括以下至少一者: 隐马尔可夫模型分析; 模式检测分析; 动态时间归整语音识别分析; 神经网络模式识别分析; 最大熵马尔可夫模型分析; 贝叶斯网络分析; 音调分析;以及 拍频波形图分析。
11.根据权利要求1至10所述的方法,进一步包括选择要进行分析的一个或多个表达。
12.根据权利要求1至11所述的方法,进一步包括产生要进行分析的一个或多个表达。
13.根据权利要求12所述的方法,其中产生所述一个或多个表达包括: 选择至少一个输入; 选择所述至少一个输入的一部分;以及 根据所述至少一个输入的所述一部分产生一个或多个表达。
14.根据权利要求1至13所述的方法,其中所述至少一个输入包括以下至少一者: 音频信号; 文本输入; 数据输入; 图像输入;以及 视频输入。
15.根据权利要求1至14所述的方法,进一步包括从以下至少一者接收所述至少一个输入: 被配置为存储预记录或下载的文件的存储器; 收发器; 被配置为接收传输信号的接收器; 被配置为根据装置周围的声场产生信号的至少一个麦克风;以及 被配置为根据装置的特性产生信号的传感器。
16.根据权利要求1至15所述的方法,其中所述一个或多个表达包括以下至少一者: 至少一个音素; 定义的音符序列; 定义的图像; 图像组件定义的动作; 定义的文本表达; 定义的数据表达; 定义的静默时间; 定义的滴答声; 定义的突发噪声;以及 定义的拍手声。
17.根据权利要求1至16所述的方法,进一步包括接收至少两个音频信号,其中所述至少两个音频信号中的至少一者是至少一个输入,该至少一个输入被分析以确定其内的表达。
18.根据权利要求1至16所述的方法,进一步包括控制所述至少一个音频信号,所述至少一个音频信号独立于所述至少一个输入,其中所述控制依赖于确定所述至少一个输入内的所述表达。
19.一种装置,其包括至少一个处理器和至少一个包括一个或多个程序的计算机代码的存储器,所述至少一个存储器和所述计算机代码被配置为通过所述至少一个处理器导致所述装置执行以下至少一者: 分析至少一个输入以确定所述至少一个输入内的一个或多个表达;以及根据有关所述一个或多个表达的所述确定,控制与所述至少一个输入关联的至少一个音频信号。
20.根据权利要求18所述的装置,其中控制所述至少一个音频信号导致所述装置执行以下至少一者: 根据有关所述一个或多个表达的所述确定,对与所述至少一个输入关联的所述至少一个音频信号进行音量处理; 根据有关所述一个或多个表达的所述确定,对与所述至少一个输入关联的所述至少一个音频信号进行空间处理; 根据有关所述一个或多个表达的所述确定,暂停与所述至少一个输入关联的所述至少一个音频信号; 根据有关所述一个或多个表达的所述确定,关闭与所述至少一个输入关联的所述至少一个音频信号;以及 根据有关所述一个或多个表达的所述确定,播放与所述至少一个输入关联的所述至少一个音频信号。
21.根据权利要求19至20所述的装置,其中分析至少一个输入以确定所述至少一个输入内的一个或多个表达导致所述装置执行以下至少一者: 音频信号分析,以在所述至少一个输入为音频信号时确定音频表达; 文本信号分析,以在所述至少一个输入为文本输入时确定文本表达; 数据信号分析,以在所述至少一个输入为数据输入时确定数据表达; 图像信号分析,以在所述至少一个输入为图像输入时确定图像表达;以及 视频信号分析,以在所述至少一个输入为视频输入时确定视频表达。
22.根据权利要求19至21所述的装置,进一步执行从以下至少一者接收所述至少一个输入: 被配置为存储预记录或下载的文件的存储器; 收发器; 被配置为接收传输信号的接收器; 被配置为根据装置周围的声场产生信号的至少一个麦克风;以及 被配置为根据装置的特性产生信号的传感器。
23.一种装置,包括: 用于分析至少一个输入以确定所述至少一个输入内的一个或多个表达的构件;以及用于根据有关所述一个或多个表达的所述确定,控制与所述至少一个输入关联的至少一个音频信号的构件。
24.根据权利要求23所述的装置,其中所述用于控制所述至少一个音频信号的构件包括以下至少一者: 用于根据有关所述一个或多个表达的所述确定,对与所述至少一个输入关联的所述至少一个音频信号进行音量处理的构件; 用于根据有关所述一个或多个表达的所述确定,对与所述至少一个输入关联的所述至少一个音频信号进行空间处理的构件; 用于根据有关所述一个或多个表达的所述确定,暂停与所述至少一个输入关联的所述至少一个音频信号的构件; 用于根据有关所述一个或多个表达的所述确定,关闭与所述至少一个输入关联的所述至少一个音频信号的构件;以及 用于根据有关所述一个或多个表达的所述确定,播放与所述至少一个输入关联的所述至少一个音频信号的构件。
25.根据权利要求23至24所述的装置,其中所述用于分析至少一个输入以确定所述至少一个输入内的一个或多个表达的构件包括以下至少一者: 用于音频信号分析,以在所述至少一个输入为音频信号时确定音频表达的构件; 用于文本信号分析,以在所述至少一个输入为文本输入时确定文本表达的构件; 用于数据信号分析,以在所述至少一个输入为数据输入时确定数据表达的构件; 用于图像信号分析,以在所述至少一个输入为图像输入时确定图像表达的构件;以及 用于视频信号分析,以在所述至少一个输入为视频输入时确定视频表达的构件。
26.根据权利要求23至25所述的装置,进一步包括用于从以下至少一者接收所述至少一个输入的构件: 被配置为存储预记录或下载的文件的存储器; 收发器; 被配置为接收传输信号的接收器; 被配置为根据装置周围的声场产生信号的至少一个麦克风;以及 被配置为根据装置的特性产生信号的传感器。
27.一种装置,包括: 分析器,其被配置为分析至少一个输入以确定所述至少一个输入内的一个或多个表达;以及 控制器,其被配置为根据有关所述一个或多个表达的所述确定,控制与所述至少一个输入关联的至少一个音频信号。
28.根据权利要求27所述的装置,其中所述控制器包括以下至少一者: 音量控制器,其被配置为根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行音量处理; 空间控制器,其被配置为根据有关所述一个或多个表达的所述确定对与所述至少一个输入关联的所述至少一个音频信号进行空间处理; 暂停控制器,其被配置为根据有关所述一个或多个表达的所述确定暂停与所述至少一个输入关联的所述至少一个音频信号; 关闭控制器,其被配置为根据有关所述一个或多个表达的所述确定关闭与所述至少一个输入关联的所述至少一个音频信号;以及 播放控制器,其被配置为根据有关所述一个或多个表达的所述确定播放与所述至少一个输入关联的所述至少一个音频信号。
29.根据权利要求27至28所述的装置,其中所述分析器包括以下至少一者: 音频分析器,其被配置为在所述至少一个输入为音频信号时确定音频表达; 文本分析器,其被配置为在所述至少一个输入为文本输入时确定文本表达; 数据分析器,其被配置为在所述至少一个输入为数据输入时确定数据表达; 图像分析器,其被配置为在所述至少一个输入为图像输入时确定图像表达;以及 视频分析器,其被配置为在所述至少一个输入为视频输入时确定视频表达。
30.根据权利要求27至29所述的装置,进一步包括输入接收器,其被配置为从以下至少一者接收所述至少一个输入: 被配置为存储预记录或下载的文件的存储器; 收发器; 被配置为接收传输信号的接收器; 被配置为根据装置周围的声场产生信号的至少一个麦克风;以及 被配置为根据装置的特性产生信号的传感器。
31.根据权利要求19至30所述的装置,其中所述至少一个输入包括以下至少一者: 音频信号; 文本输入; 数据输入; 图像输入;以及 视频输入。
32.根据权利要求19至31所述的装置,其中所述一个或多个表达包括以下至少一者: 至少一个音素; 定义的音符序列; 定义的图像; 图像组件定义的动作; 定义的文本表达; 定义的数据表达; 定义的静默时间;定义的滴答声;定义的突发噪声;以及定义的拍手声。
【文档编号】H04R5/00GK104285452SQ201280073149
【公开日】2015年1月14日 申请日期:2012年3月14日 优先权日:2012年3月14日
【发明者】R·O·耶尔维宁, K·J·耶尔维宁, J·H·阿拉斯沃里, M·维勒尔莫 申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1