用于移动装置的智能音频记录的系统和方法

文档序号:9601015阅读:423来源:国知局
用于移动装置的智能音频记录的系统和方法
【专利说明】用于移动装置的智能音频记录的系统和方法
[0001]分案串请的相关信息
[0002]本申请是国际申请号为PCT/US2011/031859、申请日为2011年4月8日、发明名称为“用于移动装置的智能音频记录的系统和方法”的PCT申请进入中国国家阶段后申请号为201180025888.9的中国发明专利申请的分案申请。
[0003]相关串请案
[0004]本发明主张2010年4月8日申请的题目为“智能音频记录(SMART AUD1LOGGING) ”的第61/322,176号美国临时申请案的优先权,所述临时申请案转让给本受让人且特此明确地以引用的方式并入本文中。
技术领域
[0005]本发明大体上涉及音频和语音信号俘获。更具体地说,本发明涉及能够基于音频上下文信息的分析来起始且/或终止音频和语音信号俘获操作或(可互换地说)记录操作的移动装置。
【背景技术】
[0006]由于专用集成电路(ASIC)的功率控制技术进步以及例如数字信号处理器(DSP)等移动处理器或微处理器的计算能力增加,越来越多的移动装置现在能够实现复杂得多的特征,所述特征归因于缺少所需要的计算能力或硬件(HW)支持而直到现在才被视为切实可行的。举例来说,最初开发移动台(MS)或移动电话以使得能够经由传统的基于电路的无线蜂窝式网络进行话音或语音通信。因此,原先设计MS以解决基本的话音应用,如话音压缩、声学回声消除(AEC)、噪声抑制(NS)和话音录入。
[0007]实施话音压缩算法的过程被称为声码,且实施设备被称为声码器或“语音译码器”。存在若干种标准化声码算法以支持需要语音通信的不同数字通信系统。第三代合作伙伴计划2(3GPP2)是实例标准化组织,其指定码分多址(CDMA)技术,例如IS_95、CDMA20001x无线电发射技术(lxRTT)和CDMA2000演进数据优化(EV-D0)通信系统。第三代合作伙伴计划(3GPP)是另一实例标准化组织,其指定全球移动通信系统(GSM)、通用移动电信系统(UMTS)、高速下行链路包接入(HSDPA)、高速上行链路包接入(HSUPA)、高速包接入演进(HSPA+)和长期演进(LTE)。因特网协议话音(V0IP)是在3GPP和3GPP2中所定义的通信系统以及其它系统中使用的实例协议。此类通信系统和协议中所采用的声码器的实例包括国际电信联盟(ITU)-T G.729、自适应性多速率(AMR)编解码器和增强型可变速率编解码器(EVRC)语音服务选项3、68和70。
[0008]话音录入是用以录入人类话音的应用。话音录入常常被可互换地称为话音记录或话音存储。话音录入允许用户将由一个或一个以上麦克风拾取的语音信号的某部分保存到存储器空间中。所保存的话音录入可稍后在同一装置中播放,或其可通过话音通信系统发射到不同装置。虽然话音录入器可录入一些音乐信号,但所录入的音乐的质量通常并不是极好的,因为话音录入器是针对人类声道所发出的语音特性来优化的。
[0009]音频录入或音频记录有时可与话音录入互换地使用,但其有时被理解成用以录入包括人类话音、乐器和音乐在内的任何可听声音的不同应用,因为其能够俘获频率比人类声道所产生的信号高的信号。在本申请案的上下文中,“音频记录”或“音频录入”术语将广泛地用以指代话音录入或音频录入。
[0010]音频记录使得能够录入通常由一个或一个以上移动装置中的一个或一个以上麦克风拾取的所关注的音频信号的全部或一些部分。音频记录有时被可互换地称为音频录入或音频备忘录。

【发明内容】

[0011]本文献描述一种针对移动装置处理数字音频信号的方法。所述方法包括:通过至少一个麦克风接收声学信号;将所述所接收的声学信号转换为所述数字音频信号;从所述数字音频信号提取至少一个听觉上下文信息;响应于自动检测到开始事件指示符,针对所述数字音频信号执行音频记录;以及响应于自动检测到结束事件指示符,结束所述音频记录。此至少一个听觉上下文信息可与音频分类、关键词识别或说话者识别相关。此至少一个听觉上下文信息可至少部分基于信号能量、信噪比、频谱倾斜或过零率。此至少一个听觉上下文信息可至少部分基于非听觉信息,例如日程安排信息或日历信息。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。
[0012]本文献还描述一种针对移动装置处理数字音频信号的方法。所述方法包括:通过至少一个麦克风接收声学信号;将所述所接收的声学信号变换为电信号;基于用于每一经取样数据的取样频率和数据宽度来取样所述电信号以获得所述数字音频信号;将所述数字音频信号存储到缓冲器中;从所述数字音频信号提取至少一个听觉上下文信息;响应于自动检测到开始事件指示符,针对所述数字音频信号执行音频记录;以及响应于自动检测到结束事件指示符,结束所述音频记录。此检测所述开始或结束事件指示符可至少部分基于非听觉信息,例如日程安排信息或日历信息。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。
[0013]本文献还描述一种检测开始事件指示符的方法。此方法包括从所述至少一个听觉上下文信息选择至少一个上下文信息;将所述选定上下文信息与至少一个预定阈值进行比较;以及基于所述将所述选定上下文信息与至少一个预定阈值进行比较来确定是否已检测到所述开始事件指示符。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。
[0014]本文献还描述一种检测结束事件指示符的方法。此方法包括:从所述至少一个听觉上下文信息选择至少一个上下文信息;将所述选定上下文信息与至少一个预定阈值进行比较;以及基于所述将所述选定上下文信息与至少一个预定阈值进行比较来确定是否已检测到所述结束事件指示符。此检测结束事件指示符可至少部分基于在预定时间周期期间不出现听觉事件。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。
[0015]本文献还描述一种执行音频记录的方法。此方法包括:至少部分基于所述至少一个听觉上下文信息来更新与所述转换相关的至少一个参数;响应于至少部分基于所述至少一个听觉上下文信息来确定是否需要额外处理,将所述额外处理应用于所述数字音频信号以获得经处理的音频信号;以及将所述经处理的音频信号存储到存储器存储装置中。所述额外处理可为信号增强处理,例如声学回声消除(AEC)、接收话音增强(RVE)、主动噪声消除(ANC)、噪声抑制(NS)、声学增益控制(AGC)、声学音量控制(AVC)或声学动态范围控制(ADRC) ο所述噪声抑制可基于基于单个麦克风或多个麦克风的解决方案。所述额外处理可为信号压缩处理,例如语音压缩或音频压缩。可基于听觉上下文信息来确定例如压缩模式、位率或通道数目等压缩参数。所述存储器存储装置包括在所述移动装置内部的本地存储器或通过无线信道连接到所述移动装置的远程存储器。本地存储器与远程存储器之间的选择可至少部分基于所述听觉上下文信息。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。
[0016]本文献还描述一种用于移动装置的方法,其包括:自动检测开始事件指示符;响应于检测到开始事件指示符而处理音频输入信号的第一部分以获得第一信息;基于所述第一信息来确定至少一个录入参数;以及基于所述所确定的至少一个录入参数来重新配置所述移动装置的音频俘获单元。此重新配置可出现在所述音频输入信号的不活动部分期间。此至少一个录入参数包括指示用于所述移动装置的A/D转换器的取样频率或数据宽度的信息。此至少一个录入参数包括指示所述移动装置的活动麦克风的数目的信息或指示至少一个麦克风的唤醒时间间隔或活动持续时间的定时信息。此第一信息可为描述其中所述移动装置正在进行录入的环境或所述音频输入信号的特性的上下文信息。此开始事件指示符可基于经由无线信道发射的信号。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。
[0017]本文献还描述一种用于移动装置的方法,其包括:自动检测开始事件指示符;响应于检测到开始事件指示符而处理音频输入信号的第一部分以获得第一信息;基于所述第一信息来确定至少一个录入参数;基于所述所确定的至少一个录入参数来重新配置所述移动装置的音频俘获单元;处理所述音频输入信号的第二部分以获得第二信息;通过抑制背景噪声来增强所述音频输入信号以获得经增强的信号;编码所述经增强的信号以获得经编码的信号;以及将所述经编码的信号存储在所述移动装置内的本地存储装置处。此编码所述经增强的信号包括:基于所述第二信息来确定编码类型;确定用于所述所确定的编码的至少一个编码参数;以及基于所述所确定的编码类型和所述所确定的至少一个编码参数来处理所述经增强的信号以获得所述经编码的信号。此处,此至少一个编码参数包括位率或编码模式。另外,此方法可包括基于所述第二信息来确定所述增强所述音频输入信号的程度。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。
[0018]本文献还描述一种用于移动装置的方法,其包括:自动检测开始事件指示符;响应于检测到开始事件指示符而处理音频输入信号的第一部分以获得第一信息;基于所述第一信息来确定至少一个录入参数;基于所述所确定的至少一个录入参数来重新配置所述移动装置的音频俘获单元;处理所述音频输入信号的第二部分以获得第二信息;通过抑制背景噪声来增强所述音频输入信号以获得经增强的信号;编码所述经增强的信号以获得经编码的信号;以及将所述经编码的信号存储在所述移动装置内的本地存储装置处。另外,此方法可包括:自动检测结束事件指示符;以及响应于检测到结束事件指示符,在所述移动装置内的所述本地存储装置与通过无线信道连接到所述移动装置的网络存储装置之间确定用于所述经编码的信号的长期存储位置。此确定所述长期存储位置可基于所述经编码的信号的优先级。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。
【附图说明】
[0019]通过结合附图参看以下详细描述将更容易明白本文中所描述的实施例的方面和伴随优点,其中:
[0020]图1A为说明智能音频记录系统的概念的图。
[0021]图1B为说明智能音频记录系统的概念的另一图。
[0022]图1C为说明常规音频记录系统的概念的图。
[0023]图2为智能音频记录系统的示范性实施例的图。
[0024]图3为输出处理单元240的实施例的图。
[0025]图4为输入处理单元250的实施例的图。
[0026]图5为音频记录处理器230的实施例的图。
[0027]图6为说明上下文信息S600的实例的图。
[0028]图7为上下文识别器560的实施例的图。
[0029]图8为上下文识别器560和上下文信息S600的示范性实施例的图。
[0030]图9A为单等级开始事件指示符的产生机制的实施例。
[0031]图9B为单等级开始事件指示符的产生机制的另一实施例。
[0032]图10为结束事件指示符的产生机制的实施例。
[0033]图11为说明音频记录处理器230状态及其转变的第一示范性实施例的图。
[0034]图12为说明音频记录处理器230状态及其转变的第二示范性实施例的图。
[0035]图13为在被动音频监视状态S1或音频监视状态S4期间的音频俘获单元215的实施例的流程图。
[0036]图14为用于在被动音频监视状态S1或音频监视状态S4期间将数字音频输入存储到音频俘获单元215处的缓冲器220的实例的图。
[0037]图15为在被动音频监视状态S1期间的音频记录处理器230的实施例的流程图。
[0038]图16为在主动音频监视状态S2期间的音频俘获单元215的实施例的流程图。
[0039]图17为用于在主动音频监视状态S2期间将数字音频输入存储到音频俘获单元215处的缓冲器220的实例的图。
[0040]图18为在主动音频监视状态S2期间的音频记录处理器230的实施例的流程图。
[0041]图19为在主动音频监视状态S2期间的在音频记录处理器230处的上下文识别实施例的实例的图。
[0042]图20为在活动音频记录状态S3或S5期间的音频俘获单元215的实施例的流程图。
[0043]图21为在活动音频记录状态S3期间的音频记录处理器230的实施例的流程图。
[0044]图22为在音频监视状态S4期间的音频记录处理器230的实施例的流程图。
[0045]图23为在活动音频记录状态S5期间的音频记录处理器230的实施例的流程图。
[0046]图24为在活动音频记录状态S3或S5期间的核心音频记录模块的实施例的流程图。
[0047]图25为单个麦克风开启和关闭控制的实施例的图。
[0048]图26为单个麦克风开启和关闭控制的第一实施例的图。
[0049]图27为单个麦克风开启和关闭控制的第二实施例的图。
[0050]图28为多个麦克风开启和关闭控制的第一实施例的图。
[0051]图29为
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1