环境敏感自动语音识别的方法和系统与流程

文档序号:11519571阅读:863来源:国知局
环境敏感自动语音识别的方法和系统与流程



背景技术:

随着越来越多基于计算机的装置使用语音识别来接收来自用户的命令、以便执行某个动作以及将语音转换为文本以供听写应用或者甚至保持与用户的会话(其中沿一个或两个方向来交换信息),语音识别系统或自动语音识别器已经变得越来越重要。这种系统可以是扬声器相关的(其中通过使用户重复字词来训练系统)或者是扬声器无关的(其中任何人可提供即时直接识别字词)。例如,一些系统还可配置成理解单个字词命令的固定集合,例如以用于操作移动电话(其理解术语“呼叫”或“应答”)或者锻炼腕带(其理解字词“开始”以激活定时器)。

因此,自动语音识别(asr)对穿戴装置、智能电话和其他小装置是所期望的。但是,由于asr的计算复杂度,小装置的许多asr系统是基于服务器的,使得远离装置来执行计算,这能够导致显著延迟。具有板载计算能力的其他asr系统也过于缓慢,提供相对较低质量的字词识别,和/或消耗小装置的太多功率来执行计算。因此,预期以较低功率消耗来提供快速字词识别的良好质量的asr系统。

附图说明

通过附图、作为举例的方式而不是限制的方式来图示本文所述的资料。为了图示的简洁和清晰起见,图中所图示的元件不一定按比例来绘制。例如,为了清晰起见,一些元件的尺寸可能相对于其他元件经过放大。此外,在被认为适当的情况下,在附图之内已经重复参考标号,以便表示对应或相似的元件。附图中包括:

图1是示出自动语音识别系统的示意图;

图2是示出执行自动语音识别的环境敏感系统的示意图;

图3是环境敏感自动语音识别过程的流程图;

图4是环境敏感自动语音识别过程的详细流程图;

图5是根据信噪比(snr)将字词差错率(wer)与实时因数(rtf)相比的图表;

图6是示出与wer和rtf相比并且根据snr的波束宽度的asr参数修改的表格;

图7是示出与字词差错率相比并且根据snr的声学比例因子的asr参数修改的表格;

图8是图5的图表上的一个点的示例asr参数以及比较声学比例因子、波束宽度、当前令牌缓冲器大小、snr、wer和rtf的表格;

图9是示出操作中的环境敏感asr系统的示意图;

图10是示例系统的说明图;

图11是另一个示例系统的说明图;以及

图12图示全部依照本公开的至少一些实现所布置的另一个示例装置。

具体实施方式

现在参照附图来描述一个或多个实现。虽然论述特定配置和布置,但是应当理解,这只是为了说明的目的而执行。相关领域的技术人员将会知道,可采用其他配置和布置,而没有背离本描述的精神和范围。相关领域的技术人员将会清楚地知道,本文所述的技术和/或布置也可在除了本文所述之外的多种其他系统和应用中来采用。

虽然以下描述提出在例如芯片上系统(soc)架构等的架构中会是显而易见的各种实现,但是本文所述技术和/或布置的实现并不是局限于具体架构和/或计算系统,以及可为了类似目的而通过任何架构和/或计算系统来实现。例如,采用例如多个集成电路(ic)芯片和/或封装的各种架构和/或例如移动装置(包括智能电话)等的各种计算装置和/或消费者电子(ce)装置以及例如智能手表、智能腕带、智能手持机和智能眼镜的穿戴装置而且还有膝上型或台式计算机、视频游戏面板或控制台、电视机顶盒、听写机、车辆或环境控制系统等可实现本文所述的技术和/或布置。此外,虽然以下描述可提出诸如系统组件的逻辑实现、类型和相互关系、逻辑划分/集成选择等的许多特定细节,但是要求保护的主题即使没有这类具体细节也可被实施。在其他情况下,一些材料、例如控制结构和全软件指令序列可能没有详细被示出,以免影响对本文所公开资料的理解。本文所公开的资料可通过硬件、固件、软件或者它们的任何组合来实现。

本文所公开的资料还可被实现为所存储在机器可读介质或存储器上的指令,该指令可由一个或多个处理器来读取和运行。机器可读介质可包括用于存储或传送机器(例如计算装置)可读形式的信息的任何介质和/或机制。例如,机器可读介质可包括:只读存储器(rom);随机存取存储器(ram);磁盘存储介质;光存储介质;闪速存储器装置;电、光、声或其他形式的传播信号(例如载波、红外信号、数字信号等)等等。按照另一种形式,非暂时产品、例如非暂时计算机可读介质可与上述示例的任一个或者其他示例(除了它没有包括暂时信号本身之外)配合来使用。它确实包括除了信号本身之外的那些元件,该元件可按照例如ram等的“暂时”方式暂时保存数据。

本说明书中提到“一个实现”、“实现”、“示例实现”等指示所述的实现可包括具体特征、结构或特性,但是每一个实现可能不一定都包括该具体特征、结构或特性。此外,这类短语不一定指同一个实现。此外,在结合实现来描述具体特征、结构或特性时,无论是否明确描述,均认为结合其他实现来对这种特征、结构或特性起作用处于本领域的技术人员的知识范围之内。

环境敏感自动语音识别的系统、产品和方法。

电池寿命是小型计算机装置、例如穿戴装置以及特别是具有常通音频激活范式的那些装置的最关键区分特征。因此,延长这些小型计算机装置的电池寿命极为重要。

自动语音识别(asr)通常在这些小型计算机装置上被用来接收执行某个任务(例如发起或应答电话呼叫、在因特网上搜索关键字或者开始对锻炼时段计时,这里只列举几个示例)的命令。但是,asr是计算要求高、通信繁重和数据密集的工作负荷。当穿戴装置在无需来自具有较大电池容量的远程连结装置(例如智能电话、平板等)的帮助的情况下支持嵌入式独立介质或大词汇asr能力时,电池寿命延长是特别期望的。这即使在asr计算是瞬变而不是连续工作负荷时也成立,因为asr在被激活时将应用繁重计算负荷和存储器存取。

要避免这些缺点并且延长使用asr的小装置上的电池寿命,本文所提供的环境敏感asr方法优化asr性能指示符,并且降低asr引擎的计算负荷,以便延长穿戴装置上的电池寿命。这通过基于环境(其中正在操作音频捕获装置(例如话筒))动态选择asr参数来实现。特定地,例如像字词差错率(wer)和实时因数(rtf)等的asr性能指示符能够根据捕获音频(其形成环境噪声特性)的装置处或周围的环境以及扬声器变化和asr本身的不同参数显著改变。wer是asr精度的常见度量。它可被计算为在给定所说字词的数量的情况下的asr输出中的识别错误的相对数量。错误所插入字词、所删除的字词或者一个所说字词被另一个所取代被视为识别错误。rtf是asr的处理速度或性能的常见度量。它可通过将用于处理话语所需的时间除以话语的时长来计算。

当环境是asr系统事先已知时,asr参数能够按照使得在无需质量的显著降低(对应于wer的增加)的情况下降低计算负荷(因而rtf的降低)并且又降低所消耗能量的方式来调谐。备选地,环境敏感方法可改进性能,使得可相对维持计算负荷以增加质量和速度。能够通过分析所捕获音频信号、得到与音频装置的位置和持有音频装置的用户的活动有关的其他传感器数据以及例如使用用户简档(如以下所述)的其他因素,来得到与话筒周围的环境有关的信息。当前方法可使用这个信息来调整asr参数,并且包括:(1)根据环境来调整特征提取期间的噪声降低算法,(2)选择不强调音频数据中的一个或多个具体所识别声音或噪声的声学模型,(3)根据音频数据的snr和用户活动将声学比例因子应用于被提供给语言模型的声学得分,(4)还根据音频数据的snr和/或用户活动来设置语言模型的其他asr参数、例如波束宽度和/或当前令牌缓冲器大小,以及(5)基于用户的环境信息及其他/她的身体的活动来选择使用加权因子来强调相关子词汇的语言模型。下面说明这些参数的每个。当环境信息准许asr在无需质量和速度的显著下降的情况下降低搜索大小时,例如当音频具有相对较低噪声或者可识别噪声(其可从语音中被去除)时,或者当识别目标相关子词汇以供搜索时,这些参数细化的大多数可提高asr的效率。因此,可调谐参数,以得到期望或者可接受性能指示符值,同时降低或抑制asr引擎的计算负荷。下面说明本asr系统和方法的细节。

现在参照图1,环境敏感自动语音识别系统10可以是语音使能人机接口(hmi)。虽然系统10可以是或者可具有处理音频的任何装置,但是语音使能hmi特别适合于其中其他形式的用户输入(键盘、鼠标、触摸等)因大小限制而不可能的装置(例如在智能手表、智能眼镜、智能锻炼腕带等上)。在这类装置上,功率消耗通常是使极有效语音识别实现是必要的关键因素。在这里,asr系统10可具有音频捕获或接收装置14、例如,诸如话筒,以接收来自用户12的声波,并且其将波转换为原始电声学信号(其可被记录在存储器中)。系统10可具有:模拟前端16,其提供模拟预处理和信号调节;以及模/数(a/d)转换器,向声学前端单元18提供数字声学信号。备选地,话筒单元可直接经过两个二线数字接口、例如脉冲密度调制(pdm)接口来数字被连接。在这种情况下,数字信号直接被馈送到声学前端18。声学前端单元18可执行预处理,其可包括信号调节、噪声消除、取样率转换、信号均衡和/或预加重过滤以使信号变平。声学前端单元18还可将声学信号划分为作为一个示例,为10ms的帧。所预处理数字信号然后可被提供给特征提取单元19,其可以是或者可以不是asr引擎或单元20的部分。特征提取单元19可执行或者可被链接到话音活动检测单元(未示出),其执行语音激活检测(vad)以识别话语的结束点以及线性预测、梅尔倒谱和/或添加(例如能量量度)以及增量和加速度系数以及其他处理操作(例如权重函数、特征向量叠加和变换、维度降低和归一化)。特征提取单元19还使用傅立叶变换等从声学信号中提取声学特征或特征向量,以识别信号中所提供的音素。特征提取可如以下所说明来修改,以省略不合需要的所识别噪声的提取。声学评分单元22(其也可以或者可以不被认为是asr引擎20的部分)则使用声学模型来确定要被识别的上下文相关现象的概率得分。

对于本文所执行的环境敏感操作,环境识别单元32可被提供,并且其可包括分析音频信号的算法,例如以便确定信噪比或者识别音频中的特定声音(例如用户的沉重呼吸、风声、人群或交通噪声,这里只列举几个示例)。否则,环境识别单元32可具有一个或多个其他传感器31或者从其中接收数据,该传感器31识别音频装置的位置以及又识别装置的用户和/或由装置的用户所正在执行的活动、例如锻炼。来自传感器的所识别环境的这些指示然后可被传递给参数细化单元34,其编译传感器信息的全部,形成关于装置周围的环境的最终(或最后更是最终)结论,并且确定如何调整asr引擎的参数,以及具体来说至少在声学评分单元和/或解码器更有效(或者更准确)地执行语音识别。

特定地,如以下所说明,根据信噪比(snr)以及在一些情况下也根据用户活动,声学比例因子(或倍增器)可在得分被提供给解码器之前被应用于声学得分的全部,以便分解信号相对于环境噪声的清晰度,如以下详细说明。与语言模型得分相比,声学比例因子影响对声学得分的相对依靠。可有益的是根据存在的噪声量来改变声学得分对总体识别结果的影响。另外,可细化(包括调零)声学得分,以强调或者不强调从环境所识别的某些声音(例如风声或沉重呼吸),以便有效地充当过滤器。这后一种声音特定参数细化将被称作选择适当声学模型,以便不会与基于snr的细化混淆。

解码器23使用声学得分来识别话语假设并且计算其得分。解码器23使用可被表示为网络(或图表或网格)的运算,网络可被称作所加权有限状态换能器(wfst)。wfst具有圆弧(或边缘)以及通过圆弧所互连的在节点处的状态。圆弧是从wfst上从状态-状态延伸的箭头,并且示出流程或传播的方向。另外,wfst解码器23可动态创建字词或字词序列假设,其可采取字词网格(其提供置信量度)的形式以及在一些情况下采取多个字词网格(其提供备选结果)的形式。wfst解码器23形成wfst,其可在正在被用于解码之前按照任何顺序来确定化、最小化、权重或标签推送或者以其他方式变换(例如通过根据权重、输入或输出符号对圆弧进行整理)。wfst可以是决定性或者非决定性有限状态换能器,其可含有ε(epsilon)弧。wfst可具有一个或多个初始状态,并且可静态或动态地由词典wfst(l)和语言模型或语法wfst(g)来组成。备选地,wfst可具有词典wfst(l),其可被实现为没有附加语法或语言模型的树,或者wfst可静态或动态地采用上下文敏感wfst(c)或者采用隐马尔可夫模型(hmm)wfst(h)(其可具有hmm过渡、hmm状态id、高斯混合模型(gmm)密度或者作为输入符号的深度神经网络(dnn)输出状态id)来组成。在传播之后,wfst可含有一个或多个最终状态,其可具有单独权重。wfst解码器23将已知特定规则、构造、操作和性质用于单最佳(sigle-best)语音解码,以及在这里不相关的这些的细节没有进一步说明,以便提供对本文所述新特征的布置的清楚描述。这里所使用的基于wfst的语音解码器可以是与“juicer:aweightedfinite-statetransducerspeechdecoder”(moore等人,3rdjointworkshoponmultimodalinteractionandrelatedmachinelearningalgorithmsmlmi’06)中所述类似的解码器。

假设字词序列或字格可由wfst解码器通过使用声学得分和令牌传递算法以形成话语假设来形成。单个令牌表示所说话语的一个假设,并且表示按照那个假设所说字词。在解码期间,若干令牌被置于wfst的状态中,其每个表示一直到那个时间点可能已经说出的不同可能话语。在解码开始,单个令牌被置于wfst的开始状态中。在离散时间点(所谓的帧),各令牌沿wfst的圆弧来传送或传播。如果wfst状态具有一个以上出局圆弧,则复制该令牌,从而创建各目标状态的一个令牌。如果令牌沿具有非ε输出符号(即,输出不为空,使得存在被附连到圆弧的字词假设)的wfst中的圆弧来传递,则输出符号可被用来以形成字词序列假设或者字格。在单最佳解码环境中,仅考虑wfst的各状态中的最佳令牌是充分的。如果一个以上令牌被传播到相同状态中,则重组发生,其中这些令牌除一个以外全部从活动搜索空间中被移除,使得若干不同话语假设被重组为单个假设。在一些形式中,可在令牌传播期间或之后根据wfst的类型来收集来自wfst的输出符号,以形成一个最可能的字格或备选字格。

在这里相关地,环境识别单元32还可向参数细化单元34提供信息,以细化解码器23的参数并且还细化语言模型。特定地,各换能器具有波束宽度和当前令牌缓冲器大小,其也能够根据snr来修改,并且选择wer与rtf之间的适合折衷。波束宽度参数与作为语音识别过程的部分的最佳句子假设的广度优先搜索相关。在各时间实例,保持有限数量的最佳搜索状态。波束宽度越大,则保有越多状态。换言之,波束宽度是通过状态所表示的令牌的最大数量,并且能够在时间中的任何一个实例存在于换能器上。这可通过限制当前令牌缓冲器的大小(其匹配波束宽度的大小,并且保留经过wfst传播的令牌的当前状态)来控制。

wfst的另一个参数是圆弧的过渡权重,其能够被修改以便在目标子词汇由环境识别单元32来识别时强调或者不强调总可用词汇的某个相关子词汇部分以获得更准确语音识别。然后可如由参数细化单元34所确定来调整加权。这将被称作选择适当词汇特定语言模型。否则,特征提取期间的噪声降低也可根据用户活动来调整,如以下所说明。

使(一个或多个)输出字格(或者其他形式的(一个或多个)输出假设句子)是语言解释器和运行单元(或者解释引擎)24可用的,以确定用户意图。这个意图确定或所说话语分类可基于决策树、表单填充算法或统计分类(例如使用支持向量网络(svn)或深度神经网络(dnn))。

一旦对话语确定用户意图,解释引擎24还可输出响应或者发起动作。例如,响应可采取经过扬声器组件26的音频形式或者作为显示器组件28上的文本的视觉形式。否则,可发起动作以控制另一个终端装置30(无论被认为是语音识别系统10的组成部分、在其中还是与其相同的装置)。例如,用户可陈述“呼叫家里”以在电话装置上激活电话呼叫,用户可通过对车辆钥匙扣陈述字词来启动车辆,或者智能电话或智能手表上的话音模式可发起智能电话上的某些任务的执行、例如搜索引擎上的关键字搜索,或者发起用户的锻炼时段的计时。终端装置30可以只是软件而不是物理装置或硬件或者它们的任何组合,并且不是具体被限制到除了具有理解产生于语音识别确定的命令或请求并且根据那个命令或请求来执行或发起动作的能力之外的任何方面。

参照图2,示出具有详细环境识别单元206和asr引擎216的环境敏感asr系统200。模拟前端204如以上针对模拟前端16(图1)所说明来接收和处理音频信号,以及声学前端205如同声学前端18那样来接收和处理数字信号。通过一种形式,特征提取单元224如同特征提取单元19那样可由asr引擎来执行。特征提取可以不发生,直到在音频信号中检测到话音或语音。

所处理的音频信号从声学前端205被提供给snr估计单元208和音频分类单元210,其可以是或者可以不是环境识别单元206的部分。snr估计单元208计算音频信号(或音频数据)的snr。另外,提供音频分类单元210,以识别已知的非语音模式,例如风力、人群噪声、交通、飞机或者其他车辆噪声、用户的沉重呼吸等。这也可分解所提供或学习的用户简档、例如性别,以指示较低或较高话音。根据一个选项,音频声音和snr的这个指示或分类可被提供给语音活动检测单元212。话音活动检测单元212确定语音是否存在,以及如果是的话,则激活asr引擎,并且可激活传感器202以及也激活环境识别单元206中的其他单元。备选地,系统10或200可经常停留在常通监测状态,从而分析语音的入局音频。

(一个或多个)传感器202可向环境识别单元提供所感测数据用于asr,但是也可由其他应用来激活或者根据需要可由话音活动检测单元212来激活。否则,传感器也可具有常通状态。

传感器可包括可指示与在其中捕获音频信号或音频数据的环境有关的信息的任何传感器。这包括指示音频装置的定位或位置的传感器,从而又表明用户或者可能对装置讲话的人的位置。这可包括全球定位系统(gps)或类似传感器,其可识别装置的全球坐标、装置附近的地理环境(热沙漠或冷山)、装置是否在建筑物或其他结构内部以及结构的使用标识(例如健身俱乐部、办公建筑物、工厂或家庭)。这个信息可也可被用来推断用户的活动、例如锻炼。传感器202还可包括温度计和气压计(其提供空气压力并且其能够被用来测量海拔高度),以提供气候条件和/或细化gps计算。光电二极管(光检测器)也可被用来确定用户是在具体种类或数量的光之外、之内还是之下。

其他传感器可被用来确定音频装置相对于用户的定位和运动。这包括接近传感器(其可检测用户是否将装置像电话一样正持有在用户面部)或者皮肤电响应(gsr)传感器(其可检测电话是否完全由用户所携带)。其他传感器(例如加速计、陀螺仪、磁力计、超声反射传感器或者其他锻炼传感器或者形成计步器的这些或其他技术的任一种)可被用来确定用户是否正在跑步或者执行一些另外的锻炼。例如电子心率或脉搏传感器等的其他健康相关传感器也可被用来提供与用户的当前活动有关的信息。

一旦(一个或多个)传感器向环境识别单元206提供传感器数据,装置定位器单元218可使用该数据来确定音频装置的位置,并且然后向参数细化单元214提供那个位置信息。同样,活动分类器单元220可使用传感器数据来确定用户的活动,并且然后也向参数细化单元214提供活动信息。

参数细化单元214编译环境信息的许多或全部,并且然后使用音频和其他信息来确定如何调整asr引擎的参数。因此,如本文所说明,snr被用来确定对波束宽度、声学比例因子和当前令牌缓冲器大小限制的细化。将这些确定传递给asr引擎中的asr参数控制222以供对正进行音频分析的实现。参数细化单元还从音频分类单元210接收噪声标识,并且确定哪些声学模型(或者换言之,对声学得分计算的哪些修改)最佳地不强调(一个或多个)不合需要的所识别声音(或噪声)或者强调作为用户的男低音的某个声音。

否则,参数细化单元214可使用位置和活动信息来识别与用户的当前活动相关的具体词汇。因此,参数细化单元214可具有例如用于特定锻炼时段(例如跑步或骑行)的预定义词汇的列表,并且可通过例如选择适当基于跑步的子词汇语言模型来强调。声学模型226和语言模型230单元分别接收所选声学和语言模型,以被用于经过模型(或者采取网格形式时的网格)来传播令牌。可选地,参数细化单元214也能够通过强化来修改特征提取期间的所识别声音的噪声降低。因此,按照处理顺序,特征提取可对音频数据进行,其中具有或者没有所识别声音的所修改噪声降低。然后,声学似然评分单元228可按照所选声学模型来执行声学评分。此后,在将得分提供给解码器之前可应用(一个或多个)声学比例因子。解码器232然后可使用通过所选asr参数(例如波束宽度和令牌缓冲器大小)所调整的所选语言模型来执行解码。将会理解,本系统可以只提供这些参数细化其中之一或者细化的任何预期组合。假设字词和/或短语然后可由asr引擎来提供。

参照图3,提供用于语音识别的计算机实现方法的示例过程300。在所图示实现中,过程300可包括如通过偶数编号的操作302至306中的一个或多个所图示的一个或多个操作、功能或动作。通过非限制性示例的方式,本文中可参照图1、图2和图9-12以及相关部分的示例语音识别装置的任一个来描述过程300。

过程300可包括“得到包括人类语音的音频数据”302,以及具体来说例如从一个或多个话筒得到音频记录或即时流播数据。

过程300可包括“确定在其中得到音频数据的环境的至少一个特性”304。如本文更详细说明,环境可表示音频装置的用户的位置和周围环境以及用户的当前活动。可通过分析音频信号本身以建立snr(其指示环境是否有噪)以及识别音频数据的背景或噪声中的声音(例如风声)的类型,来确定与环境有关的信息。环境信息还可从其他传感器(其指示如本文所述的用户的位置和活动)来得到。

过程300可包括“根据特性来修改被用来对音频数据执行语音识别的至少一个参数”306。又如本文更详细说明,被用来使用声学模型和/或语言模型来执行asr引擎计算的参数可根据特性来修改,以便降低计算负荷或者增加语音识别的质量而无需增加计算负荷。对于一个可选示例,特征提取期间的噪声降低可避免所识别噪声或声音的提取。对于其他示例,音频数据的噪声中的声音的类型的识别码或者用户话音的标识可被用来选择不强调音频数据中的非预期声音的声学模型。另外,音频的snr以及asr指示符(例如上述wer和rtf)然后可被用来设置声学比例因子,以细化来自声学模型的声学得分以及对语言模型使用的波束宽度值和/或当前令牌缓冲器大小。用户的所识别活动然后可被用来选择用于解码器的适当词汇特定语言模型。这些参数细化引起执行asr的计算负荷的显著降低。

参照图4,提供用于环境敏感自动语音识别的示例计算机实现过程400。在所图示实现中,过程400可包括如通过偶数编号的操作402至432中的一个或多个所图示的一个或多个操作、功能或动作。通过非限制性示例的方式,本文中可参照图1、图2和图10-12以及相关部分的示例语音识别装置的任一个来描述过程400。

本环境敏感asr过程利用如下事实:穿戴或移动装置通常可具有许多传感器,其提供广泛环境信息以及分析话筒所捕获的音频的背景噪声以确定与待分析音频相关的环境信息供语音识别的能力。与其他传感器数据相结合的音频信号的噪声和背景的分析可准许识别对音频装置讲话的用户的位置、活动和周围环境。这个信息然后能够被用来细化asr参数,这能够帮助降低asr处理的计算负荷要求并且因此改进asr的性能。下面提供细节。

过程400可包括“得到包括人类语音的音频数据”402。这可包括从由一个或多个话筒所捕获的声学信号来读取音频输入。音频可先前被记录或者可以是音频数据的即时流。这个操作可包括所清洁或所预处理的音频数据,其对如上所述asr计算准备就绪。

过程400可包括“计算snr”404,并且具体确定音频数据的信噪比。snr可由snr估计模块或单元208并且基于来自asr系统中的音频前端的输入来提供。snr可通过使用已知方法(例如全局snr(gsnr)、分段snr(ssnr)和算术ssnr(ssnra))来估计。语音信号的snr的众所周知定义是如同下式中一样通过对数域中所表达的语音活动期间的信号功率与噪声功率的比率。snr=10×log10(s/n),其中s是语音活动存在时的所估计信号功率,以及n是相同时间期间的噪声功率,其被表达为全局snr。但是,由于语音信号在各为10ms至30ms的小帧中处理,所以snr对这些帧的每个来估计并且对时间求平均。对于ssnr,求平均跨对每帧取比率的对数之后的帧进行。对于ssnra,对数计算在跨帧的比率的求平均之后进行,从而简化计算。为了检测语音活动,存在所采用的多种技术,例如时域、频域和基于其他特征的算法,其是本领域的技术人员众所周知的。

可选地,过程400可包括“如果检测到话音则激活asr”406。根据一个可选形式,不激活asr操作,除非在音频中首先检测到话音或语音,以便延长电池寿命。通常,当没有单个话音能够准确被分析以供语音识别时,话音活动检测触发和语音识别器在嘈杂语噪声环境中被激活。这使电池消耗增加。与噪声有关的环境信息而是可被提供给语音识别器,以激活第二级或备选话音活动检测,其对具体嘈杂语噪声环境已经参数化(例如使用更激进阈值)。这将计算负荷保持为较低,直到用户说话。

已知话音活动检测算法根据等待时间、话音检测的精度、计算成本等变化。这些算法可在时域或频域上工作,并且可涉及噪声降低/噪声估计级、特征提取级和分类级,以检测话音/语音。通过xiaolingyang(hubeiuniv.oftechnol.,wuhan,china)、baohuatan、jiehuading、jinyezhang的“comparativestudyonvoiceactivitydetectionalgorithm”来提供vad算法的比较。采用操作416更详细说明声音类型的分类。被用来激活asr系统的这些考虑因素可提供更为准确的话音激活系统,其通过在没有或极少可识别语音存在时避免激活而显著降低所浪费能量。

一旦确定具有可识别语音的至少一个话音存在于音频中,则可激活asr系统。备选地,这种激活可被省略,以及asr系统可例如处于常通模式。不管怎样,激活asr系统可包括修改特征提取期间的噪声降低,使用snr来修改asr参数,使用所分类背景声音来选择声学模型,使用其他传感器数据来确定装置的环境并且根据环境选择语言模型,以及最后激活asr引擎本身。下面详述这些功能的每个。

过程400可包括“根据snr和用户活动来选择参数值”408。如所述,在asr引擎中存在多个参数,其能够基于以上所述来被调整以优化性能。一些示例包括波束宽度、声学比例因子和当前令牌缓冲器大小。甚至在asr为活动时,附加环境信息、例如snr(其指示音频的背景的噪度)也能够被利用来通过调整关键参数的一些进一步改进电池寿命。调整能够在音频数据清楚和更易于确定音频数据上的用户字词时降低算法复杂度和数据处理并且又降低计算负荷。

当输入音频信号的质量良好(音频例如是清楚的,其中具有低噪声级)时,snr将较大,而当输入音频信号的质量较差(音频噪声极大)时,snr将较小。如果snr充分大以允许准确语音识别,则能够放宽许多参数以降低计算负荷。放宽参数的一个示例是将波束宽度从13降低到11,并且因而将rtf或计算负荷从0.0064降低到0.0041,其中当snr较高时,如同图6中一样仅具有wer的0.5%降低。备选地,如果snr较小并且音频噪声极大,则这些参数能够按照如下方式来调整:使得仍然取得最大性能,即使以更多能量和更少电池寿命为代价。例如,如图6所示,当snr较低时,将波束宽度增加到13,使得能够以更高rtf(或增加能量)为代价来维持17.3%的wer。

根据一个形式,通过根据用户活动修改snr值或设定来选择参数值。这可在操作424所得到的用户活动表明一种类型的snr应当存在(高、中等或低)但是实际snr不是预计情况时发生。在这种情况下,覆写可发生,并且实际snr值可被忽略或调整,以使用(高、中等或低snr的)snr值或预计snr设定。

参照图5,可通过确定哪些参数值最可能取得预期asr指示符值以及特定地是字词差错率(wer)和平均实时因素(rtf)值(如上所述),来设置参数。如所述,wer可以是对所说字词的数量的识别错误的数量,以及rtf可通过将处理话语所需的时间除以话语的时长来计算。rtf对计算成本和响应时间具有直接影响,因为这确定asr花费多少时间来识别字词或短语。图表500示出对不同snr等级的话语集合上的语音识别系统以及对asr参数的各种设定的wer与rtf之间的关系。改变三个不同的asr参数—波束宽度、声学比例因子和令牌大小。图表是对高和低snr情形的声学比例因子、波束宽度和令牌大小的参数网格搜索,以及图表示出三个参数跨其范围来变化时的wer与rtf之间的关系。为了执行这个搜索或实验,一个参数以特定步长大小来变化,同时将其他两个参数保持为恒定并且捕获rtf和wer的值。通过每次仅变化一个参数并且将其他两个参数保持为恒定,对其他两个参数重复进行实验。在收集所有数据之后,通过合并所有结果并且绘制wer与rtf之间的关系,来生成绘图。对高snr和低snr情形重复进行实验。例如,声学比例因子按照0.01的步长从0.05被变化成为0.11,同时将波束宽度和令牌大小的值保持为恒定。类似地,波束宽度按照1的步长从8被变化成为13,将声学比例因子和令牌大小保持为相同。令牌大小再次从64k被变化成为384k,将声学比例因子和波束宽度保持为相同。

在图表500上,水平轴是rtf,以及垂直轴是wer。对低和高snr情形存在两个不同系列。对于低和高snr情形两者,最佳点存在于图表中(参见以下所论述的图8),其中具有对被调整的三个相关变量的特定值的最低rtf。wer的较低值对应于较高精度,而rtf的较低值对应于较少计算成本或者降低电池使用。由于通常不可能同时使两种度量为最小,所以常常选择参数以便对所有snr等级使平均rtf保持在0.5%左右(表600上的0.005),而使wer为最小。任何进一步rtf降低产生降低电池消耗。

参照图6,过程400可包括“选择波束宽度”410。通常,对于较大波束宽度设定,asr变得更准确但是更慢,即,wer减少而rtf增加,以及对于波束宽度的较小值则反过来。按常规,波束宽度对于所有snr等级被设置成固定值。在表600上提供示出用于不同波束宽度的不同wer和rtf值的实验数据。创建这个表图以图示波束宽度对wer和rtf的作用。要生成这个表图,波束宽度按照1的步长从8被变化成为13,以及对三种不同情形(即,高snr、中等snr和低snr)来测量wer和rtf。如所示,当波束宽度等于12时,wer跨所有snr等级接近最佳,其中高和中等wer值小于通常预期的15%最大数,以及低snr情形提供17.5%、比15%只高2.5%。尽管低snr在0.0087,但rtf对高和中等snr接近0.005目标,示出当音频信号有噪时,系统减慢以甚至得到相称wer。

但是,不是对所有snr值维持相同波束宽度,环境信息、例如本文所述的snr的使用准许snr相关波束宽度参数的选择。例如,波束宽度可对较高snr条件被设置为9,而对低snr条件被维持在12。对于高snr状况,将波束宽度从常规固定波束宽度设定12降低到9将精度维持在可接受等级(12.5%wer,其小于15%),而对高snr条件取得降低了许多的计算成本,如通过从波束宽度12的0.0051到波束宽度9的0.0028的较低rtf显而易见。但是对于低snr,其中最佳wer变得更为重要以取得相称可用性,使波束宽度为最大(在12),并且准许rtf增加到0.0087,如上所述。

上述实验能够在所模拟环境或实际硬件装置中来执行。在所模拟环境中来执行时,具有不同snr情形的音频文件能够被预先记录,并且asr参数能够经过脚本语言来调整,其中这些参数通过脚本来修改。asr引擎能够通过使用这些被修改参数来操作。在实际硬件装置中,能够实现特殊计算机程序,以便修改参数并且在不同snr情形(例如户外、室内等)下执行实验,以捕获wer和rtf值。

参照图7,过程400还可包括“选择声学比例因子”412。能够被修改的另一个参数是基于声学条件或者换言之基于与如由例如snr所揭示的以及在音频装置拾取声波并且形成音频信号时在其周围的环境有关的信息的声学比例因子。声学比例因子确定声学与语言模型得分之间的加权。它对解码速度具有极小影响,但是对取得良好wer是重要的。表700提供实验数据,其包括可能的声学比例因子列以及不同snr(高、中等和低)的wer。这些值从采用不同噪声条件下的等效音频记录的实验来得到,以及表700示出识别精度可通过使用基于snr的不同声学比例因子来改进。

如所述,声学比例因子可以是被应用于从声学模型所输出的声学得分的全部的倍增器。根据其他备选方案,声学比例因子能够被应用于所有声学得分的子集、例如表示静寂或某种噪声的声学得分。这可在如果识别特定声学环境以便强调更可能在这类状况中被发现的声学事件时来执行。声学比例因子可通过查找使对表示特定音频环境的开发语音音频文件集合的字词差错率为最小的声学比例因子来确定。

根据又一种形式,声学比例因子可基于其他环境和上下文数据来调整,例如像当装置用户涉及户外活动(例如跑步、骑行等)时,其中语音能够在风噪声以及交通噪声和呼吸噪声中消耗。这个上下文能够通过来自惯性运动传感器的信息以及从环境音频传感器所得到的信息来得到。在这个示例中,可提供某个值的声学比例因子,其较低以便不强调非语音声音。这类非语音声音在被检测到用户例如正在锻炼时能够是沉重呼吸或者在被检测到用户在户外时能够是风声。通过收集用于以上所说明的所选环境上下文(具有风噪声的跑步、没有风噪声的跑步、具有交通噪声的骑行、没有交通噪声的骑行等)的大音频数据集并且按照经验确定降低wer的正确声学比例因子,来得到用于这些情形的声学比例因子。

参照图8,表800示出从图表500所选的两个示例特定最佳点(其中每个snr情形(图表500上所示的高和低)一个)的数据。wer对高snr被维持为低于12%以及对低snr被维持为低于17%,而对有噪音频(其可能要求较繁重计算负荷以获得良好质量语音识别)将rtf维持为合理地低(其中最大数为0.6)。又关于图8,可注意令牌大小的影响。特定地,在高snr情形中,较小令牌大小也降低能量消耗,使得较小存储器(或令牌)大小限制导致较少存储器存取并且因此导致较低能量消耗。

将会理解,asr系统可细化单独的波束宽度、单独的比例因子或两者,或者提供细化任一个的选项。要确定使用哪些选项,能够使用没有被用于训练语音识别引擎的语音话语的开发集合。根据环境条件给予识别速率与计算速度之间的最好折衷的参数可使用经验方式来确定。这些选项的任一个可能考虑如上所论述的wer和rtf两者。

应当注意,rtf示出,被用来确定本文中以及图表500和表600、700、800上的rtf值的实验基于运行于以2-3ghz来定时的多核台式pc和膝上型电脑的asr算法。但是,在穿戴装置上,rtf应当具有一般在大约0.3%至0.5%的范围中的更加大的值(取决于哪些其他程序运行于处理器上),其中处理器以小于500mhz的时钟速度运行,并且因此具有采用动态asr参数的负荷降低的更高可能性。

根据另一个备选方案,过程400可包括“选择令牌缓冲器大小”414。因此,除了选择波束宽度和/或声学比例因子之外,还可设置较小令牌缓冲器大小,以显著降低能够存在于语言模型上的同时活动搜索假设的最大数量,这又降低存储器存取并且因此降低能量消耗。换言之,缓冲器大小是能够由语言换能器在任何一个时间点所处理的令牌的数量。如果使用直方图剪枝或者类似的自适应波束剪枝方式,则令牌缓冲器大小可对实际波束宽度具有影响。如以上对声学比例因子和波束宽度所说明,令牌缓冲器大小可通过评估开发集合上的wer与rtf之间的最好妥协来选择。

除了确定snr之外,asr过程400还可包括“根据声音类型来分类音频数据中的声音”416。因此,还可分析采取来自模拟前端的音频数据的形式的话筒样本,以便识别(或分类)音频数据(包括话音或语音)中的声音以及音频的背景噪声中的声音。如上所述,所分类声音可被用来确定音频装置和装置用户周围的环境以获得较低功率消耗asr,以及如上所述确定是否首先激活asr。

这个操作可包括将入局或所记录音频信号的预期信号部分与所学习语音信号模式进行比较。这些可以是标准化模式或者在由具体用户使用音频装置期间所学习的模式。

这个操作还可包括将其他已知声音与预先存储信号模式进行比较,以确定那些已知类型或类的声音的任一个是否存在于音频数据的背景中。这可包括与风声、交通或单独车辆声音(无论是来自飞机或汽车外部或内部)、人群(例如谈话或欢呼)、如来自锻炼的沉重呼吸、其他锻炼相关声音(例如来自自行车或踏车)或者能够被识别并且指示音频装置周围的环境的任何其他声音关联的音频信号模式。一旦识别声音,标识或环境信息可被提供用于由激活单元来激活asr系统(如上所说明并且当检测话音或语音时),但是否则可被提供以便在声学模型中不强调。

这个操作还可包括通过使用来自其他传感器的环境信息数据来确认标识声音类型,这在下文更详细说明。因此,例如,如果在音频数据中发现沉重呼吸,则可通过使用其他传感器发现用户正在锻炼或跑步的环境信息来确认音频实际上是沉重呼吸。根据一种形式,如果没有确认存在,则声学模型将不会单独基于可能的沉重呼吸声音来选择。这个确认过程可对各不同类型或类的声音发生。在其他形式中,不使用确认。

以其他方式的,过程400可包括“根据音频数据中所检测的声音类型来选择声学模型”418。基于音频分析,可选择声学模型,其滤出或者不强调所识别背景噪声、例如沉重呼吸,使得提供话音或语音的音频信号更清楚地被识别和强调。

这可由参数细化单元并且通过对音频数据中的所识别声音的音素提供相对较低声学得分来实现。特定地,声学事件、例如沉重呼吸的先验概率可基于声学环境是否含有这种事件来调整。如果例如在音频信号中检测到沉重呼吸,则与这种事件相关的声学得分的先验概率被设置成表示那种类型的环境中的这种事件的相对频率的值。因此,这里的参数(声学得分)的细化实际上是选择各不强调背景中的不同声音或者声音组合的具体声学模型。向asr引擎提供所选声学模型或者其指示。这个更有效声学模型最终以较少计算负荷以更快地将asr引擎引导到适当字词和句子,由此降低功率消耗。

要确定音频装置和装置的用户的环境,过程400还可包括“得到传感器数据”420。如所述,现有穿戴装置(例如健身腕带、智能手表、智能耳机、智能眼镜等)和其他音频装置(例如智能电话等)等的许多从集成传感器(例如加速计、陀螺仪、气压计、磁力计、皮肤电反应(gsr)传感器、接近传感器、光电二极管、话筒和照相装置)收集不同种类的用户数据。另外,穿戴装置的一些将具有从gps接收器和/或wifi接收器(若适用的话)可用的位置信息。

过程400可包括“从传感器数据确定运动、位置和/或周围环境信息”422。因此,来自gps和wifi接收器的数据可指示音频装置的位置,其可包括全局坐标以及音频装置是否处于建筑物(其作为家庭或者特定类型的商行或者指示某些活动的其他结构(例如诸如健身俱乐部、高尔夫球场或者体育馆))中。皮肤电响应(gsr)传感器可检测装置是否完全由用户所携带,而接近传感器可指示用户是否像电话一样持有音频装置。如上所述,当确定用户携带/穿戴装置时,其他传感器可被用来检测电话的运动以及又检测用户的运动,例如计步器或其他类似传感器。这可包括加速计、陀螺仪、磁力计、超声反射传感器或者另一运动传感器(其感测例如音频装置的前后运动等的模式以及又感测用户的某些运动(其可指示用户正在跑步、骑行等))。例如电子心率或脉搏传感器等的其他健康相关传感器也可被用来提供与用户的当前活动有关的信息。

传感器数据还能够与预先存储的用户简档信息(例如用户的年龄、性别、职业、锻炼养生、爱好等)结合来使用,并且其可被用来更好地识别话音信号与背景噪声或者来识别环境。

过程400可包括“从信息确定用户活动”424。因此,参数细化单元可收集音频信号分析数据的全部,包括snr、音频语音和噪声识别以及传感器数据(例如用户的可能位置和运动以及任何相关用户简档信息)。该单元然后可生成与音频装置和装置的用户周围的环境有关的结论。这可通过编译环境信息的全部并且将所收集数据与预先存储的活动指示数据组合(其指示特定活动)进行比较来实现。基于来自运动传感器的数据的活动分类是众所周知的,如mohdfikriazlibinabdullah、alifahmiperwiranegara、md.shohelsayeed、deok-jaichoi、kalaiarasisonaimuthu等人在“classificationalgorithmsinhumanactivityirecognitionusingsmartphones”(“worldacademyofscience,engineeringandtechnologyvol:62012-08-27”,第372-379页)中所述。类似地,音频分类也是完全所研究领域。来自microsoftresearch(research.microsoft.com/pubs/69879/tr-2001-79.pdf)的lielu、haojiang和hongjiangzhang示出一种基于knn(k最近邻居)的方法以及用于音频分类的基于规则的方式。所有分类问题涉及关键特征(时域、频域等)的提取,其表示类(物理活动、音频类(例如语音、非语音、音乐、噪声等))并且使用分类算法(例如基于规则的方式、knn、hmm和其他人工神经网络算法)来分类数据。在分类过程期间,在每个类的训练阶段期间所保存的特征模板将与所生成特征进行比较,以判定最接近匹配。来自snr检测块的输出、活动分类、音频分类、其他环境信息(例如位置)则能够相结合,以生成与用户有关的更准确和高等级抽象。如果所检测物理活动是游泳,所检测背景噪声是游泳池噪声,并且水传感器示出肯定检测,则能够确定用户肯定正在游泳。这将允许asr要被调整到游泳简档,其将语言模型调整到游泳,并且还将声学比例因子、波束宽度和令牌大小更新到这个特定简档。

为了提供几个示例,在一种状况中,snr是低的,音频分析指示沉重呼吸声音和/或其他户外声音,以及其他传感器指示沿户外自行车道的脚的跑步运动。在这种情况下,可得出用户在户外跑步的相当可信结论。在少许被修改的情况下,在音频中检测到风声并且运动传感器检测到音频装置和/或用户沿自行车道的已知骑行速度的快速运动时,可推断用户在风中户外骑自行车。同样,当音频装置以类似车辆的速度移动以及交通噪声存在并且检测到沿公路的移动时,可得出结论:用户在车辆中,并且根据已知音量等级甚至可推断车辆窗户是开启还是关闭。在其他示例中,当用户没有被检测到与音频装置(其在具有办公室的建筑物以及可能具有wifi和高snr的特定办公室内部被检测)接触时,可推断音频装置被放下以便被用作扩音器(并且可以有可能确定在音频装置上激活扩音器模式),并且用户在相对安静(低噪声-高snr)环境中空闲。许多其他可能示例存在。

过程400可包括“根据所检测用户活动来选择语言模型”428。如所述,本发明的一个方面是收集和利用从系统的其余部分可用的相关数据来调谐asr的性能并且降低计算负荷。以上给出的示例集中于不同环境与使用状况之间的声学差异。当有可能通过使用环境信息确定什么是和不是用户将使用的可能子词汇表来限制(可用词汇的)搜索空间时,语音识别过程还变得不太复杂并且因而是更为计算有效的。这可通过根据环境信息增加更可能被使用的字词的语言模型中的权重值和/或降低将不会被使用的字词的权重来被实现。被限制到与对例如地图上的物理位置的搜索相关的信息的一个常规方法示例是对词汇中的不同字词(例如地址、地点)进行加权,如bocchieri、caseiro的“useofgeographicalmeta-datainasrlanguageandacousticmodels”(“2010ieeeinternationalconferenceonacousticsspeechandsignalprocessing(icassp)”,第5118-5121页)所提供。但是,相比之下,本环境敏感asr过程更为有效,因为穿戴装置“知道”比只是位置要多许多的关于用户的情况。例如,当用户主动进行跑步的健身活动时,由用户所发出的短语和命令与这个活动相关变得更有可能。用户将在健身活动期间常常询问“我当前脉搏率怎样”,但是在坐于家中电视机前时几乎从不询问。因此,字词和字词序列的似然是根据在其中陈述字词的环境。所提出的系统架构允许语音识别器平衡用户的环境信息(例如活动状态),以便适配语音识别器的统计模型以更好地匹配用户能够对系统说出的字词和短语的真正概率分布。在健身活动期间,例如,语言模型将具有来自健身领域(“脉搏率”)的字词和短语的增加似然以及来自其他领域(“远程控制”)的字词的降低似然。平均起来,适配语言模型将引起语音识别引擎的更少计算工作努力,并且因此降低所消耗功率。

根据从环境信息所确定的更可能子词汇来修改语言模型的权重实际上可被称作选择对那个具体子词汇所调谐的语言模型。这可通过预先定义多个子词汇并且将子词汇与可能环境(例如用户和/或音频装置的某个活动或位置等)进行匹配来实现。当发现环境存在时,系统将检索对应子词汇,并且将那个子词汇中的字词的权重设置在更准确值。

除了确定子词汇之外,还将会理解,来自位置、活动和其他传感器的环境信息也可被用来帮助识别声音以供声学数据分析,以及帮助在生成声学模型之前从所预处理声学数据的特征提取。例如,当系统检测到用户在户外移动时,所提出系统可实现特征提取中的风噪声降低。因此,过程400还可选地可包括“根据环境来调整特征提取期间的噪声降低”426。

又如所述,这里所使用的参数设定单元将分析来自可用来源的全部的环境信息的全部,使得环境可通过一个以上来源来确认,以及如果信息的一个来源不足,则该单元可强调来自另一个来源的信息。根据又一个备选方案,虽然参数可基于snr本身来调整,但是参数细化单元可使用从asr系统的覆写模式中的不同传感器所收集的附加环境信息数据来优化那个具体环境的性能。例如,如果用户正在移动,则在没有提供snr时或者即使snr高并且与传感器数据冲突,也将会假定音频应当相对有噪。在这种情况下,可忽略snr,并且可使参数是严格的(将参数值严格地设置成最大搜索容量等级以搜索整个词汇等)。这准许产生较低wer,以便优先化得到优于速度和功率效率的良好质量识别。这通过监测“用户活动信息”424并且当用户在运动中时除了snr监测之外还识别是跑步、行走、骑行游泳等来执行。如先前所述,如果存在所检测的运动,则asr参数值在操作408与snr为低和中等时已所设置方式相似地来设置,即使snr被检测为极高。这确保甚至在所说字词难以被检测的情形中也能够取得最小wer,因为它们可通过用户活动进行少许修改。

过程400可包括“执行asr引擎运算”430,以及具体来说可包括(1)当因环境信息而假定某些声音存在时,调整特征提取期间的噪声降低,(2)使用所选声学模型来生成从音频数据所提取并且强调或者不强调某些所识别声音的音素和/或字词的声学得分,(3)根据snr采用声学比例因子来调整声学得分,(4)设置语言模型的波束宽度和/或当前令牌缓冲器大小,并且(5)根据所监测环境来选择语言模型权重。这些参数细化的全部在语音更易于识别时导致计算负荷上的降低,以及在语音更难以识别时增加计算负荷,最终导致所消耗功率的总体降低并且又引起延长的电池寿命。

语言模型可以是wfst或其他格构式换能器或者使用声学得分和/或准许如本文所述的语言模型的选择的任何其他类型的语言模型。通过一种方式,特征提取和声学评分在wfst解码开始之前发生。作为另一个示例,声学评分可及时发生。如果评分及时执行,则它可按需来执行,使得仅计算wfst解码期间所需的得分。

由这种wfst所使用的核心令牌传递算法可包括得出令牌传播的弧度的声学得分,其可包括相加旧(先前)得分加上弧度(或过渡)权重加上目标状态的声学得分。如上所述,这可包括使用词典、统计语言模型或者语法和音素上下文相关性和hmm状态拓扑信息。所生成的wfst资源可以是单个静态组成的wfst或者与动态组成配合来使用的两个或更多wfst。

过程400可包括“话语结束”432。如果检测到话语结束,则asr过程已经结束,并且系统可继续监测任何新入局话音的音频信号。如果话语结束尚未发生,则过程循环到在操作402和420分析话语的下一个部分。

参照图9,通过另一种方式,过程900图示依照本公开的至少一些实现的语音识别系统1000的一个示例操作,其执行环境敏感自动语音识别,包括环境识别、参数细化和asr引擎计算。更详细来说,在所图示形式中,过程900可包括如通过偶数编号的动作902至922中的一个或多个所图示的一个或多个操作、功能或动作。通过非限制性示例的方式,本文中将参照图10来描述过程900。特定地,系统或装置1000包括逻辑单元1004,其包括具有环境识别单元1010、参数细化单元1012的语音识别单元1006以及asr引擎或单元1014连同其他模块。系统的操作可如下被描述。这些操作的细节的许多在本文中的其他部分已经被说明。

过程900可包括“接收输入音频数据”902,其可以是预先记录或流播即时数据。过程900然后可包括“分类音频数据中的声音类型”904。具体来说,音频数据如上所述来分析,以识别将要不强调的非语音声音或者话音或语音,以便更好地分类语音信号。通过一个选项,来自其他传感器的环境信息可如上所说明被用来帮助识别或确认音频中存在的声音类型。过程900还可包括“计算snr”906和音频数据。

过程900可包括“接受传感器数据”908,以及如以上详细说明,传感器数据可来自许多不同来源,其提供与音频装置的位置以及音频装置的运动和/或音频装置附近的用户的运动有关的信息。

过程900可包括“从传感器数据来确定环境信息”910。又如上所说明,这可包括从单独来源确定所建议环境。因此,这些是与用户是否携带音频装置或者像电话一样持有装置、位置是内部还是外部、用户按照跑步运动移动还是空闲等有关的中间结论。

过程900可包括“从环境信息确定用户活动”912,其是来自与音频装置位置和用户的活动有关的来源的全部、与环境信息有关的最终或者更是最终结论。因此,这可以是如下结论:使用一个非限制性示例,用户在有风条件下在自行车道上户外快速跑步并且大力呼吸。许多不同示例存在。

过程900可包括在向声学模型提供特征之前“修改特征提取期间的噪声降低”913。这可基于声音识别或者其他传感器数据信息或者两者。

过程900可包括“基于snr和用户活动来修改语言模型参数”914。实际snr设定可被用来设置参数(如果这些设定与某个用户活动存在(例如在风中户外)时的预计snr设定没有冲突)。参数的设定可包括修改如上所述的波束宽度、声学比例因子和/或当前令牌缓冲器大小。

过程900可包括“至少部分根据音频数据中的所检测声音类型来选择声学模型”916。又如本文所述,这表示修改声学模型或者选择分别不强调不同具体声音的声学模型集合其中之一。

过程900可包括“至少部分根据用户活动来选择语言模型”918。这可包括通过修改那个词汇中的字词的权重来修改语言模型或者选择强调具体子词汇的语言模型。

过程900可包括“使用所选和/或修改模型(并且如上所述使用所修改特征提取设定、具有或没有此后被应用于得分的本文所述声学比例因子的所选声学模型以及具有或没有(一个或多个)所修改语言模型参数的所选语言模型)来执行asr引擎计算”920。过程900可包括以及向语言解释器单元“提供假设字词和/或短语”922,例如以形成单句。

将会理解,过程300、400和/或900可由样本asr系统10、200和/或1000来提供,以操作本公开的至少一些实现。这包括语音识别处理系统1000(图10)(并且对系统10(图1)也类似)中的环境识别单元1010、参数细化单元1012和asr引擎或单元1014等的操作。将会理解,过程300、400和/或900的一个或多个操作可被省略或者按照与本文所述顺序不同的顺序来执行。

另外,图3-4和图9的操作的任何一个或多个可响应一个或多个计算机程序产品所提供的指令而进行。这类程序产品可包括提供指令的信号承载介质,其中指令在由例如处理器来运行时可提供本文所述的功能性。计算机程序产品可采取一个或多个机器可读介质的任何形式来提供。因此,例如,包括一个或多个处理器核心的处理器可响应由一个或多个计算机或机器可读介质传送给处理器的程序代码和/或指令或指令集而进行本文的示例过程的操作的一个或多个。一般来说,机器可读介质可传送采取程序代码和/或指令或指令集的形式的软件,该软件可使装置和/或系统的任一个如本文所述来执行。机器或计算机可读介质可以是非暂时产品或介质(例如非暂时计算机可读介质),并且可与上述示例的任一个或者其他示例(除了它没有包括暂时信号本身之外)配合来使用。它确实包括除了信号本身之外的那些元件,其可按照例如ram等的“暂时”方式暂时保留数据。

如本文所述的任何实现中所使用的,术语“模块”表示配置成提供本文所述功能性的软件逻辑、固件逻辑和/或硬件逻辑的任何组合。软件可体现为软件包、代码和/或指令集或指令,以及如本文所述的任何实现中所使用的“硬件”可单独或者按照任何组合来包括例如硬连线电路、可编程电路、状态机电路和/或存储由可编程电路所运行的指令的固件。模块可共同或者单独地体现为形成较大系统的部分的电路,例如集成电路(ic)、芯片上系统(soc)等。例如,模块可体现在经由本文所论述译码系统的软件、固件或硬件的实现的逻辑电路中。

如本文所述的任何实现中所使用的,术语“逻辑单元”表示配置成提供本文所述功能性的固件逻辑和/或硬件逻辑的任何组合。逻辑单元可共同或者单独地体现为形成较大系统的组成部分的电路,例如集成电路(ic)、芯片上系统(soc)等。例如,逻辑单元可体现在经由本文所述译码系统的实现固件或硬件的逻辑电路中。本领域的技术人员之一将会理解,由硬件和/或固件所执行的操作备选地可经由软件(其可体现为软件包、代码和/或指令集或指令)来实现,并且还会理解,逻辑单元还可利用软件的部分来实现其功能性。

如本文所述的任何实现中所使用的,术语“组件”可表示模块或逻辑单元,如以上所述这些术语。相应地,术语“组件”可表示配置成提供本文所述功能性的软件逻辑、固件逻辑和/或硬件逻辑的任何组合。例如,本领域的技术人员之一将会理解,由硬件和/或固件所执行的操作备选地可经由软件模块(其可体现为软件包、代码和/或指令集)来实行,并且还会理解,逻辑单元还可利用软件的部分来实现其功能性。

参照图10,示例语音识别系统1000依照本公开的至少一些实现来布置。在各种实现中,示例语音识别处理系统1000可具有(一个或多个)音频捕获装置1002,以形成或接收声学信号数据。这能够按照各种方式来实现。因此,按照一种形式,语音识别处理系统1000可以是音频捕获装置(例如话筒),并且音频捕获装置1002在这种情况下可以是话筒硬件和传感器软件、模块或组件。在其他示例中,语音识别处理系统1000可具有音频捕获装置1002(其包括或者可以是话筒),以及逻辑模块1004可与音频捕获装置1002远程通信或者可与其在通信上耦合,以供进一步处理声学数据。

在任一种情况下,这种技术可包括穿戴装置(例如智能电话)、手腕计算机(例如智能手表或锻炼腕带)或智能眼镜但以其他方式的电话、听写机、其他声音记录机、移动装置或板载装置或者这些的任何组合。本文所使用的语音识别系统实现用于在小规模cpu上的生态系统(穿戴装置、智能电话)的asr,因为本环境敏感系统和方法不一定要求连接到云以执行如本文所述的asr。

因此,按照一种形式,音频捕获装置1002可包括音频捕获硬件,其包括一个或多个传感器以及致动器控件。这些控件可以是音频信号传感器模块或组件的部分,以用于操作音频信号传感器。音频信号传感器组件可以是音频捕获装置1002的部分、或者可以是逻辑模块1004的部分或者是两者。这种音频信号传感器组件能够被用来将声波转换为电声学信号。音频捕获装置1002还可具有a/d转换器、其他滤波器等,以提供用于语音识别处理的数字信号。

系统1000还可具有或者在通信上耦合到一个或多个其他传感器或传感器子系统1038,其可被用来提供与在其中曾捕获或在捕获音频数据的环境有关的信息。特定地,一个或多个传感器1038可包括可指示与在其中曾捕获音频信号或音频数据的环境有关的信息的任何传感器,包括全球定位系统(gps)或类似传感器、温度计、加速计、陀螺仪、气压计、磁力计、皮肤电响应(gsr)传感器、面部接近传感器、运动传感器、光电二极管(光检测器)、超声反射传感器、电子心率或脉搏传感器、这些的任一个或者形成计步器、其他健康相关传感器等的其他技术。

在所图示示例中,逻辑模块1004可包括:声学前端单元1008,其提供如对单元18(图1)所述的预处理,并且其识别声学特征;环境识别单元1010;参数细化单元1012;以及asr引擎或单元1014。asr引擎1014可包括:特征提取单元1015;声学评分单元1016,其提供声学特征的声学得分;以及解码器1018,其可以是wfst解码器,并且其提供字词序列假设(其可采取所了解并且如本文所述的语言或字词换能器和/或网格的形式)。可提供语言解释器运行单元1040,其确定用户意图并且相应地做出反应。解码器单元1014可由(或者甚至完全或部分位于)(一个或多个)处理器1020(其可包括或者被连接到加速计1022)来操作,以执行环境确定、参数细化和/或asr引擎计算。逻辑模块1004可在通信上被耦合到音频捕获装置1002的组件和传感器1038,以便接收原始声学数据和传感器数据。逻辑模块1004可以或者可以不被认为是音频捕获装置的部分。

语音识别处理系统1000可具有:一个或多个处理器1020,可包括加速计1022,其可以是专用加速计、例如intelatom加速计;存储器存储单元1024,可以或者可以不保留令牌缓冲器1026以及字词历史、音素、词汇和/或上下文数据库等;至少一个扬声器单元1028,向输入声学信号提供听觉响应;一个或多个显示器1030,提供作为对声学信号的视觉响应的文本或其他内容的图像1036;其他终端装置1032,响应声学信号而执行动作;以及天线1034。在一个示例实现中,语音识别系统1000可具有:显示器1030;至少一个处理器1020,在通信上被耦合到显示器;至少一个存储器1024,在通信上被耦合到处理器,并且作为一个示例具有令牌缓冲器1026,以用于存储如上所述的令牌。可提供天线1034,以用于向其他装置(其可对用户输入起作用)传送相关命令。否则,语音识别过程的结果可被存储在存储器1024中。如所图示,这些组件的任一个可以能够相互通信和/或与逻辑模块1004和/或音频捕获装置1002的部分进行通信。因此,处理器1020可在通信上被耦合到音频捕获装置1002、传感器1038和逻辑模块1004,以用于操作这些组件。根据一种方式,虽然如图10所示,语音识别系统1000可包括与具体组件或模块关联的一组具体块或动作,但是这些块或动作可与不同于这里所图示特具体组件或模块的组件或模块关联。

作为另一个备选方案,将会理解,语音识别系统1000或本文所述的其他系统(例如系统1100)可以是服务器,或者可以是基于服务器的系统或网络的部分而不是移动系统。因此,采取服务器形式的系统1000可以没有或者可以不直接被连接到移动元件、例如天线,而是仍然可具有语音识别单元1006的相同组件,并且例如通过计算机或电信网络提供语音识别服务。同样,系统1000的平台1002反而可以是服务器平台。使用服务器平台上的所公开语音识别单元将节省能量并且提供更好的性能。

参照图11,依照本公开的示例系统1100操作本文所述语音识别系统的一个或多个方面。从以下所述系统组件的性质将会理解,这类组件可关联或者被用来操作上述语音识别系统的某个或某些部分。在各种实现中,系统1100可以是媒体系统,但是系统1100并不局限于这个上下文。例如,系统1100可被结合到穿戴装置(例如智能手表、智能眼镜或锻炼腕带)、话筒、个人计算机(pc)、膝上型计算机、超膝上型计算机、平板、触摸板、便携计算机、手持计算机、掌上计算机、个人数字助理(pda)、蜂窝电话、组合蜂窝电话/pda、电视机、其他智能装置(例如智能电话、智能平板或者智能电视机)、移动因特网装置(mid)、消息传递装置、数据通信装置等。

在各种实现中,系统1100包括被耦合到显示器1120的平台1102。平台1102可从诸如(一个或多个)内容服务装置1130或者(一个或多个)内容传递装置1140之类的内容装置或者其他类似内容源来接收内容。包括一个或多个导航特征的导航控制器1150可被用来与例如平台1102、至少一个扬声器或扬声器子系统1160、至少一个话筒1170和/或显示器1120进行交互。下面更详细描述这些组件的每个。

在各种实现中,平台1102可包括芯片组1105、处理器1110、存储器1112、存储装置1114、音频子系统1104、图形子系统1115、应用1116和/或无线电设备1118的任何组合。芯片组1105可提供处理器1110、存储器1112、存储装置1114、音频子系统1104、图形子系统1115、应用1116和/或无线电设备1118之内的相互通信。例如,芯片组1105可包括存储装置适配器(未示出),其能够提供与存储装置1114的相互通信。

处理器1110可被实现为复杂指令集计算机(cisc)或简化指令集计算机(risc)处理器、x86指令集兼容处理器、多核心或者任何其他微处理器或中央处理器(cpu)。在各种实现中,处理器1110可以是(一个或多个)双核处理器、(一个或多个)双核移动处理器等。

存储器1112可被实现为易失性存储器装置,非限制性地例如随机存取存储器(ram)、动态随机存取存储器(dram)或静态ram(sram)。

存储装置1114可被实现为非易失性存储装置,非限制性地例如磁盘驱动器、光盘驱动器、磁带驱动器、内部存储装置、附连存储装置、闪速存储器、电池备用sdram(同步dram)和/或网络可访问存储装置或者任何其他可用存储装置。在各种实现中,例如,存储装置1114可包括在包括多个硬盘驱动器时增加有价值数字媒体的存储性能增强保护的技术。

音频子系统1104可执行音频的处理,例如本文所述的环境敏感自动语音识别和/或话音识别和其他音频相关任务。音频子系统1104可包含一个或多个处理单元和加速计。这种音频子系统可被集成到处理器1110或芯片组1105中。在一些实现中,音频子系统1104可以是通信上被耦合到芯片组1105的独立卡。接口可被用来将音频子系统1104在通信上耦合到至少一个扬声器1160、至少一个话筒1170和/或显示器1120。

图形子系统1115可执行诸如静止或视频之类的图像的处理供显示。例如,图形子系统1115可以是图形处理单元(gpu)或者视觉处理单元(vpu)。模拟或数字接口可被用来在通信上耦合图形子系统1115和显示器1120。例如,接口可以是高清晰度多媒体接口、显示器端口、无线hdmi和/或符合无线hd的技术中的任一个。图形子系统1115可被集成到处理器1110或芯片组1105中。在一些实现中,图形子系统1115可以是通信上被耦合到芯片组1105的独立卡。

本文所述的音频处理技术可通过各种硬件架构来实现。例如,音频功能性可被集成在芯片组中。备选地,可使用分立音频处理器。作为又一实现,音频功能可通过包括多核处理器的通用处理器来提供。在其他实现中,功能可在消费电子装置中来实现。

无线电设备1190可包括一个或多个无线电设备,其能够使用各种适当的无线通信技术来传送和接收信号。这类技术可涉及跨一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网(wlan)、无线个人区域网络(wpan)、无线城域网(wman)、蜂窝网络和卫星网络。在跨这类网络的通信中,无线电设备1190可依照任何版本的一个或多个适用标准进行操作。

在各种实现中,显示器1120可包括任何电视机类型监视器或显示器。显示器1120可包括例如计算机显示屏幕、触摸屏显示器、视频监视器、类似电视机的装置和/或电视机。显示器1120可以是数字和/或模拟的。在各种实现中,显示器1120可以是全息显示器。另外,显示器1120可以是可接收视觉投影的透明表面。这类投影可传送各种形式的信息、图像和/或对象。例如,这类投影可以是移动增强现实(mar)应用的视觉覆盖。在一个或多个软件应用1116的控制下,平台1102可在显示器1120上显示用户界面1122。

在各种实现中,(一个或多个)内容服务装置1130可由任何国家、国际和/或单独服务来托管,并且因而是平台1102经由例如因特网可访问的。(一个或多个)内容服务装置1130可被耦合到平台1102和/或显示器1120、扬声器1160和话筒1170。平台1102和/或(一个或多个)内容服务装置1130可被耦合到网络1165,以便向/从网络1165传递(例如发送和/或接收)媒体信息。(一个或多个)内容传递装置1140还可被耦合到平台1102、扬声器1160、话筒1170和/或显示器1120。

在各种实现中,(一个或多个)内容服务装置1130可包括话筒、有线电视盒、个人计算机、网络、电话、因特网使能装置或者能够传递数字信息和/或内容的设备以及能够在内容提供商与平台1102和扬声器子系统1160、话筒1170和/或显示器1120之间经由网络1165或者直接地单向或双向传递内容的任何其他类似装置。将会理解,可经由网络1160向/从系统1100中的组件的任一个和内容提供商单向和/或双向传递内容。内容的示例可包括任何媒体信息,其中包括例如视频、音乐、医疗和游戏信息等。

(一个或多个)内容服务装置1130可接收内容,例如包括媒体信息的有线电视节目、数字信息和/或其他内容。内容提供商的示例可包括任何有线或卫星电视或无线电或者因特网内容提供商。所提供示例并不是要以任何方式来限制依照本公开的实现。

在各种实现中,平台1102可从具有一个或多个导航特征的导航控制器1150接收控制信号。例如,控制器1150的导航特征可被用来与用户界面1122进行交互。在实现中,导航控制器1150可以是指针装置,其可以是允许用户将空间(例如连续并且多维的)数据输入计算机中的计算机硬件组件(特定地是人性化界面装置)。诸如图形用户界面(gui)之类的许多系统以及电视机和监视器允许用户使用身体姿态来控制并且将数据提供给计算机或电视机。音频子系统1104还可被用来控制界面1122上的产品的运动或者命令的选择。

通过显示器上所显示的指针、光标、聚焦环或者其他视觉指示符的移动或者通过音频命令,可在显示器(例如显示器1120)上复制控制器1150的导航特征的移动。例如,在软件应用1116的控制下,位于导航控制器1150上的导航特征可被映射到例如用户界面1122上所显示的虚拟导航特征。在实现中,控制器1150可以不是独立组件,而是可被集成到平台1102、扬声器子系统1160、话筒1170和/或显示器1120中。但是,本公开并不局限于本文所示或所述的元件或上下文中。

在各种实现中,驱动程序(未示出)可包括使用户能够例如通过在引导之后触摸按钮(在被启用时)或者通过听觉命令来立即接通和关断平台1102、例如电视机的技术。程序逻辑可允许平台1102甚至在平台“关断”时,也将内容流播到媒体适配器或者(一个或多个)其他内容服务装置1130或者(一个或多个)内容传递装置1140。另外,芯片组1105可包括例如对8.1环绕声音频和/或高清晰度(7.1)环绕声音频的硬件和/或软件支持。驱动程序可包括用于集成听觉或图形平台的听觉或图形驱动程序。在实现中,听觉或图形驱动程序可包含外设组件互连(pci)express图形卡。

在各种实现中,可集成系统1100中所示组件的任一个或多个。例如,可集成平台1102和(一个或多个)内容服务装置1130,或者可集成平台1102和(一个或多个)内容传递装置1140,或者例如可集成平台1102、(一个或多个)内容服务装置1130和(一个或多个)内容传递装置1140。在各种实现中,平台1102、扬声器1160、话筒1170和/或显示器1120可以是集成单元。可集成显示器1120、扬声器1160和/或话筒1170和(一个或多个)内容服务装置1130,或者例如可集成显示器1120、扬声器1160和/或话筒1170和(一个或多个)内容传递装置1140。这些示例并不是要限制本公开。

在各个实施例中,系统800可被实现为无线系统、有线系统或者两者的组合。当被实现为无线系统时,系统800可包括适合于通过无线共享介质(例如一个或多个天线、发射器、接收器、收发器、放大器、滤波器、控制逻辑等)进行通信的组件和接口。无线共享介质的一个示例包括无线谱的部分,例如rf谱等。当被实现为有线系统时,系统1100可包括适合于通过有线通信介质(例如输入/输出(i/o)适配器、将i/o适配器与对应有线通信介质连接的物理连接器、网络接口卡(nic)、磁盘控制器、视频控制器、音频控制器等)进行通信的组件和接口。有线通信介质的示例可包括电线、线缆、金属引线、印刷电路板(pcb)、底板、交换构造、半导体材料、双绞线、同轴电缆、光纤等。

平台1102可建立一个或多个逻辑或物理信道以传递信息。信息可包括媒体信息和控制信息。媒体信息可表示预计送往用户的内容的任何数据。内容的示例可包括例如来自语音转换的数据、视频电视会议、流播视频和音频、电子邮件(“email”)消息、语音邮件消息、字母数字符号、图形、图像、视频、音频、文本等。来自语音转换的数据可以是例如话音信息、静寂周期、背景噪声、舒适噪声、信号音等。控制信息可指预计用于自动化系统的命令、指令或控制字的任何数据。例如,控制信息可被用于通过系统路由媒体信息,或者指示节点以预定方式处理媒体信息。但是,实现并不局限于图11中所示或所述的元件或上下文中。

参照图12,小形状因数装置1200是变化物理样式或形状因数(其中可体现系统1000或1100)的一个示例。通过这种方式,装置1200可被实现为具有无线能力的移动计算装置。例如,移动计算装置可指具有处理系统和移动电源或电力供应、例如一个或多个电池的任何装置。

如上所述,移动计算装置的示例可包括具有音频子系统的任何装置,例如智能装置(例如智能电话、智能平板或智能电视机)、个人计算机(pc)、膝上型计算机、超膝上型计算机、平板、触摸板、便携计算机、手持计算机、掌上计算机、个人数字助理(pda)、蜂窝电话、组合蜂窝电话/pda、电视机、移动因特网装置(mid)、消息传递装置、数据通信装置等以及可接受音频命令的任何其他板载(例如车辆上)计算机。

移动计算装置的示例还可包括被布置成供人穿戴的计算机,例如耳机、头箍、助听器、手腕计算机(例如锻炼腕带)、手指计算机、指环计算机、眼镜计算机(例如智能眼镜)、皮带夹计算机、臂章计算机、靴式计算机、服饰计算机和其他可穿戴计算机。在各种实现中,例如,移动计算装置可被实现为智能电话,其能够运行计算机应用以及进行语音通信和/或数据通信。虽然作为举例可采用被实现为智能电话的移动计算装置来描述一些实现,但是可理解,其他实现也可使用其他无线移动计算装置来实现。实现并不局限于这个上下文中。

如图12所示,装置1200可包括壳体1202、显示器1204(包括屏幕1210)、输入/输出(i/o)装置1206和天线1208。装置1200还可包括导航特征1212。显示器1204可包括适合于移动计算装置、用于显示信息的任何适当显示单元。i/o装置1206可包括用于将信息输入移动计算装置中的任何适当i/o装置。i/o装置1206的示例可包括字母数字键盘、数字键盘、触摸板、输入按键、按钮、开关、摇臂开关、软件等。信息也可通过话筒1214的方式被输入到装置1200中。这种信息可由如本文所述的语音识别装置以及话音识别装置并且作为装置1200的组成部分来数字化,并且可经由扬声器1216提供音频响应或者经由屏幕1210提供视觉响应。实现并不局限于这个上下文中。

本文所述的各种形式的装置和过程可使用硬件元件、软件元件或者两者的组合来实现。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(asic)、可编程逻辑装置(pld)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序接口(api)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或者它们的任何组合。确定实现是否使用硬件元件和/或软件元件来实现的步骤可依照任何数量的因素而变化,例如预期计算速率、功率等级、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计和性能限制。

至少一个实现的一个或多个方面可通过机器可读介质上存储的、表示处理器中的各种逻辑的代表指令来实现,其在由机器读取时使机器制作执行本文所述技术的逻辑。被称作“ip核心”的这类表示可存储在有形机器可读介质上,并且被供应给各种客户或制造设施,以加载到实际制作逻辑或处理器的制造机器中。

虽然参照各种实现已经描述了本文所提出的某些特征,但是本描述不意味着要理解为限制性的。因此,本公开所涉及的领域的技术人员清楚知道的本文所述实现的各种修改以及其他实现被认为落入本公开的精神和范围之内。

以下示例涉及其他实现。

通过一个示例,语音识别的计算机实现方法包括:得到包括人类语音的音频数据;确定在其中得到音频数据的环境的至少一个特性;以及根据特性修改要用来执行语音识别的至少一个参数。

通过另一个实现,该方法还可包括其中特性与下列至少一个关联:

(1)音频数据的内容,其中特性包括下列至少一个:音频数据的背景中的噪声量、音频数据中的声学效果的量度以及音频数据中的至少一个可识别声音。

(2)其中特性是音频数据的信噪比(snr);其中参数是下列至少一个:(a)语言模型的波束宽度,生成音频数据的语音的可能部分,并且该波束宽度根据音频数据的信噪比来调整;其中波束宽度除了根据音频数据的snr之外还根据期望字词差错率(wer)值(其是相对于所说的字词数量的差错数量)和期望实时因数(rtf)值(其是相对于话语的时长的处理话语所需的时间)来选择;其中波束宽度对较高snr比对较低snr的波束宽度更低;(b)声学比例因子,该声学比例因子被应用于待用于语言模型上的声学得分以生成音频数据的语音的可能部分,并且该声学比例因子根据音频数据的信噪比来调整;其中声学比例因子除了根据snr之外还根据预期wer来选择;以及(c)有效令牌缓冲器大小,该有效令牌缓冲器大小根据snr来改变。

(3)其中特性是下列至少一个的声音:风噪声、沉重呼吸、车辆噪声、来自人群的声音以及指示音频装置是在大体上或基本上封闭的结构的外部还是内部的噪声。

(4)其中特性是用户简档中的特征,该特征指示包括用户的性别的用户的话音的至少一个潜在声学特性。

(5)其中特性与下列至少一个关联:形成音频数据的装置的地理位置;形成音频数据的装置所在的地点、建筑物或结构的类型或用途;形成音频数据的装置的运动或取向;形成音频数据的装置周围的空气的特性;以及形成音频数据的装置周围的磁场的特性。

(6)其中特性被用来确定形成音频数据的装置是否为下列至少一个:由装置的用户所携带;在执行特定类型的活动的用户上;在锻炼的用户上;在执行特定类型的锻炼的用户上;以及在车辆上处于运动中的用户上。

该方法还可包括选择声学模型,该声学模型不强调不是语音并且与特性关联的音频数据中的声音;以及至少部分根据特性来修改词汇搜索空间中的字词的似然。

通过又一个实现,环境敏感自动语音识别的计算机实现系统包括:至少一个声学信号接收单元,得到包括人类语音的音频数据;至少一个处理器,在通信上被连接到声学信号接收单元;至少一个存储器,在通信上被耦合到至少一个处理器;环境识别单元,确定在其中得到音频数据的环境的至少一个特性;以及参数细化单元,根据特性来修改要用来对音频数据执行语音识别的至少一个参数。

通过另一个示例,该系统提供其中特性与下列至少一个关联:

(1)音频数据的内容,其中特性包括下列至少一个:音频数据的背景中的噪声量、音频数据中的声学效果的量度以及音频数据中的至少一个可识别声音。

(2)其中特性是音频数据的信噪比(snr);其中参数是下列至少一个:(a)语言模型的波束宽度,生成音频数据的语音的可能部分,并且该波束宽度根据音频数据的信噪比来调整;其中波束宽度除了根据音频数据的snr之外还根据期望字词差错率(wer)值(其是相对于所说的字词数量的差错数量)和期望实时因数(rtf)值(其是相对于话语的时长的处理话语所需的时间)来选择;其中波束宽度对较高snr比对较低snr的波束宽度更低;(b)声学比例因子,该声学比例因子被应用于待用于语言模型上的声学得分以生成音频数据的语音的可能部分,并且该声学比例因子根据音频数据的信噪比来调整;其中声学比例因子除了根据snr之外还根据预期wer来选择;以及(c)有效令牌缓冲器大小,该有效令牌缓冲器大小根据snr来改变。

(3)其中特性是下列至少一个的声音:风噪声、沉重呼吸、车辆噪声、来自人群的声音以及指示音频装置是在大体上或基本上封闭的结构的外部还是内部的噪声。

(4)其中特性是用户简档中的特征,该特征指示包括用户的性别的用户的话音的至少一个潜在声学特性。

(5)其中特性与下列至少一个关联:形成音频数据的装置的地理位置;形成音频数据的装置所在的地点、建筑物或结构的类型或用途;形成音频数据的装置的运动或取向;形成音频数据的装置周围的空气的特性;以及形成音频数据的装置周围的磁场的特性。

(6)其中特性被用来确定形成音频数据的装置是否为下列至少一个:由装置的用户所携带;在执行特定类型的活动的用户上;在锻炼的用户上;在执行特定类型的锻炼的用户上;以及在车辆上处于运动中的用户上。

另外,该系统可包括参数细化单元以选择声学模型,该声学模型不强调不是语音并且与特性关联的音频数据中的声音;以及至少部分根据特性来修改词汇搜索空间中的字词的似然。

通过一种方式,至少一个计算机可读介质包括多个指令,该指令响应被运行于计算装置而使计算装置:得到包括人类语音的音频数据;确定在其中得到音频数据的环境的至少一个特性;以及根据特性来修改要用来对音频数据执行语音识别的至少一个参数。

通过另一种方式,指令包括其中特性与下列至少一个关联:

(1)音频数据的内容,其中特性包括下列至少一个:音频数据的背景中的噪声量、音频数据中的声学效果的量度以及音频数据中的至少一个可识别声音。

(2)其中特性是音频数据的信噪比(snr);其中参数是下列至少一个:(a)语言模型的波束宽度,生成音频数据的语音的可能部分,并且该波束宽度根据音频数据的信噪比来调整;其中波束宽度除了根据音频数据的snr之外还根据期望字词差错率(wer)值(其是相对于所说的字词数量的差错数量)和期望实时因数(rtf)值(其是相对于话语的时长的处理话语所需的时间)来选择;其中波束宽度对较高snr比对较低snr的波束宽度更低;(b)声学比例因子,该声学比例因子被应用于待用于语言模型上的声学得分以生成音频数据的语音的可能部分,并且该声学比例因子根据音频数据的信噪比来调整;其中声学比例因子除了根据snr之外还根据预期wer来选择;以及(c)有效令牌缓冲器大小,该有效令牌缓冲器大小根据snr来改变。

(3)其中特性是下列至少一个的声音:风噪声、沉重呼吸、车辆噪声、来自人群的声音以及指示音频装置是在大体上或基本上封闭的结构的外部还是内部的噪声。

(4)其中特性是用户简档中的特征,该特征指示包括用户的性别的用户的话音的至少一个潜在声学特性。

(5)其中特性与下列至少一个关联:形成音频数据的装置的地理位置;形成音频数据的装置所在的地点、建筑物或结构的类型或用途;形成音频数据的装置的运动或取向;形成音频数据的装置周围的空气的特性;以及形成音频数据的装置周围的磁场的特性。

(6)其中特性被用来确定形成音频数据的装置是否为下列至少一个:由装置的用户所携带;在执行特定类型的活动的用户上;在锻炼的用户上;在执行特定类型的锻炼的用户上;以及在车辆上处于运动中的用户上。

另外,介质,其中指令使计算装置选择声学模型,该声学模型不强调不是语音并且与特性关联的音频数据中的声音;以及至少部分根据特性来修改词汇搜索空间中的字词的似然。

在另一示例中,至少一个机器可读介质可包括多个指令,该指令响应被运行于计算装置而使计算装置执行按照以上示例中的任一个所述的方法。

在又一示例中,设备可包括用于执行按照以上示例的任一个所述方法的部件。

上述示例可包括特征的特定组合。但是,上述示例并不局限于这个方面,以及在各种实现中,上述示例可包括仅采取这类特征的子集、采取这类特征的不同顺序、采取这类特征的不同组合和/或采取除了明确所示的那些特征之外的附加特征。例如,针对本文的任何示例方法所述的所有特征可针对任何示例设备、示例系统和/或示例产品来实现,反过来也是一样。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1