改善车辆中暂时受损语音识别的方法与流程

文档序号:16188386发布日期:2018-12-08 05:26阅读:686来源:国知局
改善车辆中暂时受损语音识别的方法与流程

本公开涉及一种改善车辆中远程通信的暂时受损语音清晰度的方法。

背景技术

现代机动车辆越来越频繁地具有能够对车辆功能进行语音控制的语音处理系统。语音处理系统内语音识别的质量受到在公共道路上行驶期间发生的叠加外部噪音的损害。特别地,来自车辆环境的时变噪音或噪音变化性质和/或幅度实质上削弱了语音控制的性能。

us7725315b1公开了一种改善语音信号质量的系统,其中可以使用特征信号特性来识别源于道路的暂时驾驶噪音,并且可以将暂时驾驶噪音与语音信号区分开。对应的信号特征例如是时间相关的声音事件对,是否首先前轮并且然后后轮通过道路的不平坦,以及信号强度和频率的其他特征时间曲线。为了更好地识别暂时驾驶噪音,对暂时驾驶噪音的不同时间和频谱特征进行建模并且将暂时驾驶噪音的不同时间和频谱特征与刚捕获的麦克风信号进行比较。

语音识别的一个特殊挑战是由突然发生的与其他噪音不相关或彼此不相关的环境噪音造成的。时间变化的环境噪音尤其是当车辆彼此接近时源自车辆环境中的其他车辆的噪音,但是例如也是驾驶者自己的车辆在其非常接近地经过声音反射表面(例如移动或静止的卡车、房屋墙壁、隔音屏障或交通标志)的情况下的行驶噪音和发动机噪音。这种类型的时变环境噪音通常在公共道路上行驶时非常频繁地发生并且变化无数。

语音控制系统通常使用特定的数据集进行训练,并且这些数据也可以包含有限的变化量,例如乘客舱的声学模型的变化等。语音控制系统的训练数据集将必须包含的用于甚至能够应对发生上述时变环境发生的一些情况的模型和变体将会太多。而且由于语音控制系统不知道或不能预测何时会发生这种干扰噪音,所以它不能通过对策或修改的系统设置及时做出响应。因此环境噪音的这种突然变化总是会损害语音控制系统的性能。

对语音控制系统中的声级的了解提高了语音识别能力,并且可以作为附加参数包含在系统中。这已经在澳大利亚布里斯班于2015年4月举行的2015声学、语音及信号处理年会(icassp)的x.feng、b.richardson、s.amman、j.glass的出版物第4385-4389页中示出:关于使用异构数据进行基于车辆的语音识别:基于深度神经网络(dnn)的方法(onuseheterogeneousdataforvehicle-basedspeechrecognition:adnn-basedapproach)。其中提出使用关于安装在车辆中的系统状态的知识,例如鼓风机设置或开窗程度,以改善语音识别。



技术实现要素:

本发明的目的是能够更准确地估计来自车辆环境的时变噪音对自动语音识别的质量的影响,并且因此通过相应的适应和调整语音识别和语音控制来减少上述影响。

根据本发明的方法实现了车辆附近的时变干扰噪音源的动态和时变预测、影响估计和消除。

根据本发明,利用安装在车辆中或车辆上的一个或多个传感器来至少观察车辆前方行驶方向上的环境。使用从传感器获得的观察数据,确定表示潜在的时变噪音源的并且基于物体与车辆之间的检测到的相对运动预期车辆足够近地接近以损害车辆中的语音识别或语音清晰度的车辆附近的物体。计算以这种方式确定的物体对语音识别或语音清晰度的预期影响的开始和结束,并且以这种方式确定的物体经过的持续时间而采取的对策。

根据本发明的方法实现了车辆附近的时变干扰噪音源的动态和时变预测、影响估计和消除。

在一个优选实施例中,基于至少包含物体速度或相对于车辆的物体速度以及物体的尺寸的参数,但是还有诸如物体结构、表面积、表面结构、会合角等参数,将每个物体分类为落入多个物体类别中的一个中。

优选地为每类物体存储至少一个特征噪音模式,其中考虑最接近根据上述物体的参数的当前检测到的物体的所存储的噪音模式之一来执行对策。

在一个优选实施例中,安装在车辆中的至少一个麦克风在驾驶操作期间被使用以连续地记录声音信号以从经过的物体拾取噪音,其中这些噪音的噪音模式和/或特征参数(例如噪音如何迅速增音和消退)被存储并且随后用作经验值以改善语音识别或语音清晰度。如果驾驶员在正当出现噪音时正在发出命令,则还可以确定并且存储对语音识别质量或语音清晰度的即时影响程度。

传感器优选地是或包含用于获取二维或三维图像的一个或多个摄像机、激光雷达、雷达和/或超声波。

在一个优选实施例中,观察到的执行该方法的物体是公共道路交通中的车辆。该方法特别适用于在移动车辆中执行,但也可以在车辆静止时执行。

在优选地用于改善车辆中的语音控制系统的自动语音识别的该方法的范围内,针对暂时受损的自动语音识别的对策优选地包括在确定的物体对语音识别的预期影响的持续时间内——即在根据预期影响的性质,被确定为潜在干扰噪音源的物体经过的持续时间内——将语音识别转换为降低了词语识别的误差率的更加稳健或更灵敏的操作模式。

此外或另外地,针对暂时受损的自动语音识别或语音清晰度的对策可以包括暂时执行噪音抑制方法,用于在确定的物体对语音识别或语音清晰度的预期影响的持续时间内降低噪音对语音信号的影响。

参照附图来描述示例实施例。车辆可以正在移动,但也可以是静止的。

附图说明

图1示出了机动车辆中受损自动语音识别的典型情况。

具体实施方式

根据需要,此处公开了本公开的详细实施例;然而,应该理解的是所公开的实施例仅仅是可以以各种和替代形式实施的本公开的示例。附图不一定按比例;一些特征可以被夸大或最小化以显示特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅作为用于教导本领域技术人员以各种方式采用本公开的代表性基础。

图1描绘了在道路3上朝向物体2行进的车辆1的示意图。机动车辆1包含语音控制系统4和环境传感器系统5,环境传感器系统5包含至少一个成像传感器系统6,诸如例如在可见或不可见范围内操作的至少观察车辆1前方的环境的一个或多个摄像机、激光雷达系统(例如激光扫描仪)、雷达传感器和/或超声波传感器,但是也可以为了这个目的而优选地使用侧面和/或后方观察到的任何环境传感器。

使用从其获取的传感器信号或环境信息,针对车辆1当前所在的公共道路3上的情况,即通常伴随有对语音控制系统4具有影响的时变噪音的情况,执行临时识别和分类。

对于以这种方式识别的每种情况,确定预期对语音控制系统4的语音识别质量的可能影响的开始和结束的时间,以及确定将用于基于确定的识别情况预期的噪音的确定情况类别的最可能幅度和/或分布。

可以使用来自成像传感器系统6的环境传感器的组合来非常容易地确定用于对语音识别质量预期影响的开始和结束的两个参数,成像传感器系统6包含前述传感器或适合于提供与车辆1的紧邻处的物体的相对运动和尺寸有关的信息。

通过融合车辆中可用并且适合于观察的所有传感器数据可以实现特别可靠的物体识别和类别。这种本身已知的传感器融合也使得更容易得出正确的结论并且估计物体对语音识别质量的影响。

这意味着,为了最小化语音识别错误,首先获取环境信息,并且在第二步中执行物体2的识别和类别。该识别包括对可能干扰语音识别的相关物体2的识别,并且该分类确定最接近地匹配来自用于最可能的物体2类别的多个预定义类别的传感器数据的物体2类别,物体2即是那些最频繁在道路交通中遇到的例如乘用车、卡车、摩托车、有轨电车等。

包括预期噪音模式、对语音识别的影响的预期强度、物体尺寸、物体速度或物体相对于车辆1的速度、物体结构等的描述性参数分别在不同情况下被分配给这些类别或分配给包括在其中的物体2。

如果物体2被识别为其中一个预定义类别的成员,则物体2可以通过可以根据可用的统计数据预先部分预先确定的一组特定的这种类型的参数来描述,并且可以部分地由例如预先在测试驱动器中记录和评估所有可能类别的物体2的噪音模式来确定,和/或可以在正在进行的驾驶操作中获取和/或可以例如通过自学改进。

这使得能够使用根据传感器数据最可能的识别物体2的类别和在此类别中存储的最邻近的噪音模式来预测已知物体2和可能的新物体2(即,在正常驾驶操作中新类别的物体2)的影响。基于物体尺寸、物体结构、物体速度等(即物体2的几何结构或动态或结构参数)来确定最邻近。所有这些参数都是通过车辆1的环境传感器系统6确定的。

根据分类参数和这些类别最靠近所识别物体2的成员的参数从物体参数中预测噪音参数,其中分类参数和这些类别最靠近所识别物体2的成员的参数通过记录相应物体噪音的影响来确定。

在第一步骤中,对于参数定义、几何和动态物体参数(例如物体尺寸、物体结构、物体速度等)是从用于环境监测的可用车辆传感器6确定的。

在第二步骤中,在记录的数据中确定噪音影响的参数。这些数据应该利用所有可用的传感器6(例如麦克风)来记录,以便优化语音控制系统4的噪音提取能力和语音分析。

此外,如果记录空间(麦克风的数量)增加,诸如例如esprit(estimationofsignalparametersviarotationalinvariancetechniques,通过旋转不变性技术估计信号参数)或music(multiplesignalclassification,多种信号分类)的噪音抑制方法或其他“信号子空间”的噪音抑制方法是更有效的。

可以将识别出的物体2和它们的类别的标识符存储在数据库中,该数据库可以由物体2的类别和适当时的物体经过事件(尤其是许多这种物体2或事件的平均值)组成。然后可以将靠近车辆1的当前识别的物体2与数据库中的物体2进行比较,以便根据经过当前识别的物体2来调整语音控制系统4。

图1示出了典型情况,其中乘用车1中的语音识别受到损害,即当乘用车1在由箭头指示的方向上移动经过物体2(或者在本例中为卡车2)或者通过超越卡车2、通过朝向卡车2行驶或者在静止卡车2的情况下在公共道路3上靠近卡车2经过时。

乘用车1包含分布在乘客舱(未示出)中的多个麦克风(未示出),并且还包括能够通过语音识别由乘用车1的驾驶员(未示出)语音控制车辆功能的语音控制系统4。

乘用车1还包含环境传感器系统5,该系统能够预先获取卡车2的参数,尤其是卡车速度或其相对于乘用车1的速度、已知的卡车2的固有速度、预期噪音损害的持续时间、卡车2的尺寸和类型、经过期间的距离等。

卡车2借助于传感器系统5被扫描并且被分类为例如半挂车卡车2。在经过各种车辆和车辆类型时通常发生的许多噪音模式被存储在语音控制系统4中,并且从半挂车卡车2存储的噪音模式中选择最接近匹配卡车2的所获取参数的模式。

使用选择的噪音模式,乘用车1中的语音控制系统4在其经过卡车2时以本身已知的方式或采取适当的对策得到改善。

特别地,可以在预测的源于经过卡车2的驾驶噪音的持续时间内采取防止或至少导致较不可能的语音识别错误(特别是对同时发出的语音命令的内容的错误解释或者将驾驶噪音错误解释为任何语音命令)的措施。

尽管以上描述了示例性实施例,但是这些实施例不意图描述本公开的所有可能的形式。相反,说明书中使用的词语是描述性词语而不是限制性词语,并且应该理解的是在不脱离本公开的精神和范围的情况下可以做出各种改变。另外,各种实施的实施例的特征可以被组合以形成本公开的另外的实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1