提供工作谱的方法和设备及对音调信号进行分类的方法与流程

文档序号:24530054发布日期:2021-04-02 10:08阅读:65来源:国知局
提供工作谱的方法和设备及对音调信号进行分类的方法与流程

本发明涉及用于为被构造为对音调信号进行分类的机器学习算法提供工作谱的方法和设备,并且涉及特别是在车辆的处理器上对音调信号进行分类的方法。



背景技术:

在也可以称为神经网络的机器学习算法中,可以分析音调信号以获得包含在所述音调信号中的信息。例如,使用对应训练或学习的神经网络,可以对说出的语言进行语言识别,并且可以输出说出的内容的文本。

例如,为了进行语言识别使用卷积神经网络(cnn)来进行语义解析和句子分类。在此,可以将所述音调信号的谱图作为输入参数提供给所述神经网络。



技术实现要素:

在这种背景下,利用这里提出的方案提出了根据独立权利要求的一种用于为被构造为对音调信号进行分类的机器学习算法提供工作谱的方法,一种用于对音调信号进行分类的方法,一种对应的设备,最后是对应的计算机程序产品,以及一种机器可读存储介质。这里提出的方案的有利的扩展和改进从说明书中得出并且在从属权利要求中加以描述。

本发明的优点

本发明的实施例可以有利地使得可以提供为了在神经网络或机器学习算法中使用而设置的包含在音调信号中的具有提高的映射质量的信息。从而特别是可以改善对道路交通中的紧急信号和/或特殊信号的识别,特别是通过自主车辆的识别。

建议了一种用于为被构造为对音调信号进行分类的机器学习算法提供工作谱的方法,其中使用s形频率标度从所读入的所述音调信号的输入谱中来提供所述工作谱。

此外,建议了一种用于对音调信号进行分类的方法,其中使用谱分析来创建所述音调信号的输入谱,使用所述输入谱和所述s形频率标度为被构造为对所述音调信号进行分类的机器学习算法提供工作谱,并且使用所述工作谱和所述算法来提供所述算法的结果。

本发明的实施方式的思想尤其可以被认为是基于以下描述的思想和认识。

音调信号可以是电信号,并且可以映射噪声。所述音调信号例如可以使用特别是车辆的麦克风来予以检测。例如可以使用傅立叶分析从所述音调信号中导出所述噪声的包含在所述音调信号中的频率的频率谱。所述工作谱也可以是所述音调信号的功率谱或幅度谱。所述频率谱可以映射各个频率的强度或信号强度。所述强度可以通过灰度或色调表示。例如,可以将包含在所述噪声中的音调的频率映射为所述频率谱中的最大值。所述频率谱可以称为输入谱。

在这里提出的方案中,将所述输入谱用作使用s形频率标度进行的变换的输入变量。所述变换的输出变量可以称为工作谱,并用作所述机器学习算法的输入变量。特别地,作为算法可以使用神经网络或卷积神经网络(cnn)。所述输出谱可以是所述输入谱的经过变换的版本。

使用s形频率标度的变换可以使所述输入谱失真,使得在所述工作谱中突出显示所述输入谱的至少一个期望频率范围。在所述期望频率范围中可以包含要评估的信息。包含在所述输入谱中的信息可以基本上完全包含在所述工作谱中。

通过所述变换还可以将所述输入谱的分辨率适配于所述机器学习算法或所述神经网络的所需分辨率。为了降低分辨率,可以在所述工作谱的工作带中组合所述输入谱的频率。特别地,可以降低分辨率,其中所述工作谱包括的工作带比所述输入谱具有的频率更少。通过降低变换过程中的分辨率,可以减少所述输入谱的数据量。通过降低分辨率,可以丢弃包含在所述输入谱中的信息。

可以通过所述算法对所述音调信号中映射的噪声进行分类。通过所述分类可以将所述噪声分配给特定类别。该算法的结果可以表明所述噪声对该类别的归属性。所述结果也可以是所述归属性的概率。

可以从时间上彼此跟随的多个工作谱中提供所述音调信号的工作谱图。所述工作谱图可以映射频率强度的时间变化过程。所述工作谱可以映射预定时间段。从而可以很好地识别出上升和下降的音调。同样可以很好地识别不同音调的音调序列。从而,通过视觉对比或颜色对比来可视化来自应急车辆的紧急信号和/或特殊信号。

所述输入谱的通过s形频率标度定义的期望频率范围可以以高分辨率映射在所述工作谱中。替代地或补充地,所述输入谱的通过s形频率标度定义的非期望频率范围可以以低分辨率映射在所述工作谱中。在所述神经网络中,可以搜索映射在所述音调信号中的特定音调和/或噪声。可以在至少一个期望频率范围内预期这些音调和/或噪声。通过突出显示所述期望频率范围,可以使用通用的机器学习算法,并且可以使用自适应的s形频率标度将所述输入谱变换为与预期的音调和/或噪声相适配的工作谱。

所述期望频率范围可以在300hz和4khz之间。特别地,所述期望频率范围可以在1khz和3.3khz之间。该期望频率范围不同于有利于识别语言的频率范围。在所述期望频率范围内可以映射特别是来自应急车辆的紧急信号和/或特殊信号。特别是对于自主车辆而言,识别道路交通中的紧急信号和特殊信号是有利的。例如,警报器可以在所述期望频率范围内从300hz开始发射信号。滚动噪声和风噪声的频率远低于1khz,因此可以得到显著抑制。所述谱分析、所述变换和所述算法可以在车辆的处理器上进行。可以使用该结果来操控所述车辆。可以基于该结果来操控所述车辆的反应。例如,在识别出应急车辆时,可以降低车辆的速度。替代地或补充地,可以将所述车辆偏转到其车道的边缘,以便形成用于所述应急车辆的紧急车道。所述车辆也可以停在车道边缘。

所述工作谱可以具有固定数量的工作带,每个工作带具有通过s形频率标度定义的传输频宽。可以将所述输入谱的输入频率分配给不同的工作带。所述s形频率标度可以代表输入频率与分配的工作带之间的明确关系。在此,来自非期望频率范围的大量输入频率可以映射在几个工作带中。在所述期望频率范围中可以对每个工作带映射几个输入频率。因此,所述非期望频率范围内的工作带具有比来自所述期望频率范围的工作带更大的传输频宽。

可以将一个工作带的所有输入频率的输入强度平均为该工作带的工作强度。通过求取多个输入强度的平均,可以减少所述工作谱的数据量,并且所述神经网络可以更有效地工作。通过求取平均还可以实现平滑,所述平滑同样导致所述机器学习算法的工作负担的减少。

从由s形变换得到的谱图中可以计算出其他谱图,所述其他谱图必要时更适合于作为所述机器学习算法或所述神经网络的输入变量。例如,代替像迄今为止那样基于mel带,可以将倒谱系数计算为基于s形带的mel频率倒谱系数(mfcc),并称为s形频率倒谱系数(sfcc)。

在此,可以使用所述输入谱和所述s形频率标度来提供减少的谱。可以将所述减少的谱求对数以获得对数谱。可以执行所述对数谱的傅立叶变换以获得所述工作谱。在此,所述工作谱可以包括至少一个s形频率标度倒谱系数。对于所述傅立叶变换可以选择余弦变换。在此,不一定需要实数变换。也可以选择复数傅立叶变换。

所述方法可以例如以软件或硬件或以软件和硬件的混合形式例如在控制设备中实现。

这里提出的方案还创建了一种设备,该设备被构造为在对应的装置中执行、操控或实施这里提出的方法的变型的步骤。

所述设备可以是电气设备,具有至少一个用于处理信号或数据的处理单元、至少一个用于存储信号或数据的存储单元以及至少一个接口和/或用于读入或输出嵌入在通信协议中的数据的通信接口。所述计算单元可以是例如信号处理器、所谓的系统asic或微控制器,用于处理传感器信号并根据传感器信号输出数据信号。所述存储单元可以例如是闪存、eprom或磁存储单元。所述接口可以被构造为用于从传感器读入传感器信号的传感器接口和/或被构造为用于向执行器输出数据信号和/或控制信号的执行器接口。所述通信接口可以构造为以无线和/或有线方式读入或输出数据。所述接口还可以是例如与其他软件模块一起存在于微控制器上的软件模块。

具有程序代码的计算机程序产品或计算机程序也是有利的,所述程序代码可以存储在诸如半导体存储器、硬盘或光学存储器的机器可读载体或存储介质上,并且用于执行、实施和/或操控根据上述实施方式之一的方法的步骤,特别是在所述程序产品或程序在计算机或设备上执行时。

应当注意,本文参考不同的实施方式描述了本发明的一些可能的特征和优点。本领域技术人员认识到,可以以适当的方式组合、适配或更换所述设备和所述方法的特征,以便获得本发明的其他实施方式。

附图说明

下面参照附图描述本发明的实施方式,其中附图和说明书均不应限制性地解释本发明。

图1示出了根据一个实施例的mel频率标度和s形频率标度的图示;以及

图2a至图2g示出了借助于s形频率标度和借助于mel频率标度变换的工作谱图的对比图。

这些图仅是示意性的,并非按比例绘制。在这些图中,相同的附图标记表示相同或相同作用的特征。

具体实施方式

图1示出了根据一个实施例的s形频率标度100的图示。在图表中示出了s形频率标度100。该图表在其横坐标上以赫兹hz为单位从0hz到5khz绘出了示例性输入谱102的频率f。该图表在其纵坐标上从零到32绘出了示例性工作谱106的工作带104的示例性工作带宽度。在此,在替代的实施例中,输入谱102同样可以具有更大或更小的传输频宽f。同样,在替代的实施例中,工作谱106可以具有更大或更小的工作带宽度。s形频率标度100的曲线图在此代表输入谱102的输入频率108与工作谱106中分配的工作带104之间的关系。

除了s形频率标度100之外,这里还示出了mel频率标度110以进行比较。mel频率标度110可以用于例如将输入谱102变换为用于识别语言的工作谱。

s形频率标度100在低输入频率108和具有小数字的工作带104的情况下具有较小的斜率。所述斜率稳定地一直增加到中等输入频率108和具有中等数字的工作带104。s形频率标度100在所述中等输入频率108和具有中等数字的工作带104的区域中具有转折点。然后,该斜率稳定地一直下降到所述传输频宽和所述工作带宽度的末端,直到s形频率标度100在高输入频率108和具有大数字的工作带104的情况下再次具有较小的斜率为止。

特别地,s形频率标度100在大约2200hz和大约第十六工作带104时具有所述转折点。s形频率标度100在所述转折点的区域中具有最大的斜率。在此,在所述转折点的两侧,所述斜率在大约500hz的频率范围内保持近似恒定。

由于在s形频率标度100的中间区域中的大斜率,在许多工作带104中以增大的分辨率显示出300hz和4khz之间的输入频率108。特别地,以特别高的分辨率显示出在1500hz和3khz之间的输入频率108。在此,通过组合每个工作带104的几个输入频率108来实现高分辨率。低于300hz的输入频率108在几个工作带104中以低分辨率显示。同样,以低分辨率显示出4000hz以上的输入频率108。在此,通过组合每个工作带104的许多输入频率108来实现低分辨率。

换句话说,图1示出了根据这里提出的方法用于创建s形标度谱的映射规则的图示。

在自主驾驶的范围中,存在识别道路交通中的紧急信号和特殊信号的需求。借助于卷积神经网络(cnn)来实现当前的最佳结果,所述卷积神经网络使用各种变化形式的谱图作为输入参数。目前,色谱图、mel频率倒谱系数(mfcc)和mel频率倒谱(mfc)特别有前途。由于这些特殊的谱图从历史上来自语言传输,因此这些谱图对于紧急信号的分类不是最佳的。在这里提出的方案中,为神经网络提供了改进的工作谱。

在此提出了频率标度,可以利用所述频率标度来变换声音谱图,以突出显示特别适合于特殊信号的频率范围。完全无需带通滤波器就自动抑制不吸引人的频率范围内的背景噪声。

从而利用相同的输入参数(频带数或工作带数)来用于所述神经网络(cnn),可以在不增加计算耗费的情况下实现特殊信号的更好的分类结果。在此抑制低沉的噪声,并散开相关的频率范围。

类似于mel标度的情况,将所述谱图或输入谱减少到几个频带或工作带。在此,将所述谱图或输入谱的输入频率组合为所述工作谱的不同大小的频带或工作带。新频带或新工作带的频率范围通过这里显示的函数与所述谱图或输入谱的原始频率或输入频率逻辑关联。

在图1中示出新的s形映射函数。为了进行比较,附加地显示了广泛使用的mel带。

这里用于变换为s形带的方程为

其中

a=500

b=1700

c=0.8。

替代地,也可以利用更简单的函数(例如正弦或余弦)和根据需要适配的参数来表示s形映射函数。

图2a至图2g分别示出了相同音调信号的借助于s形频率标度变换后的工作谱图200和借助于mel频率标度变换后的工作谱图202的对比图。在此,每个图中映射了不同的音调信号。用于所述变换的频率标度在此基本上对应于图1中所示的频率标度。在工作谱图200、202的图像下边缘处分别绘制了以秒为单位的时间t。在工作谱图200、202的图像左边缘处分别绘制了以赫兹为单位的所示工作带104的极限频率f。在此,由于不同的频率标度,工作带104的极限频率f分别是不同的。

在此,工作谱图200、202分别示出了在八秒的时间段内的音调信号的谱变化过程。工作谱图200、202被示为由各个像素组成的图像。每个像素被分配给一个工作带104和时间步长t,并映射强度值。在每个工作带104中,通过使用相应的频率标度的变换来组合所述输入谱的一个或多个频率。所述强度值在此是经过组合的频率的平均强度。

这些强度值的时间变化过程给出超出多个时间步长的图形显示的线条或图案。这些线条204或图案206特别是表征来自应急车辆的紧急信号和特殊信号的音调序列。

换句话说,以下示例性图像将道路交通中的不同特殊信号显示为用于对紧急信号进行分类的神经网络的工作谱。示出了有利的s形谱图(左)和经典的mel谱图(右)。s形谱图更好地映射所述紧急信号并且因此导致更好的分类结果。

在图2a中示出了紧急信号或特殊信号的工作谱图200、202,具有缓慢连续上升和又下降的音调变化过程。在此,所述紧急信号或特殊信号对应于德国和美国的应急车辆的信号。所述音调变化过程被显示为彼此远离的线条204。在此,同时在多个频率上发射所述紧急信号或特殊信号。在借助于s形频率标度变换的工作谱图200中,线条204近似在所有工作带104上延伸。在借助于mel频率标度变换的工作谱图202中,线条204仅在工作带104的一部分上延伸。

在图2b中示出了具有突然改变的频率的紧急信号或特殊信号的工作谱图200、202。所述紧急信号或特殊信号在此对应于德国的应急车辆的信号。所述改变的频率作为图案206示出。在此,同时在多个频率上发射所述紧急信号或特殊信号。在借助于s形频率标度变换的工作谱图200中,图案206近似在所有工作带104上延伸。在借助于mel频率标度变换的工作谱图202中,图案206仅在工作带104的一部分上延伸。

在图2c中示出了紧急信号或特殊信号的工作谱图200、202,具有快速连续上升和又下降的音调变化过程。所述紧急信号或特殊信号在此对应于西班牙的应急车辆的信号。所述音调变化过程作为紧密靠近分布的线条204示出。在此,同时在多个频率上发射所述紧急信号或特殊信号。在借助于s形频率标度变换的工作谱图200中,线条204近似在所有工作带104上延伸。在借助于mel频率标度变换的工作谱图202中,线条204仅在工作带104的一部分上延伸。

在图2d中示出了紧急信号或特殊信号的工作谱图200、202,具有缓慢连续上升和又下降的音调变化过程。所述紧急信号或特殊信号在此对应于德国和美国的应急车辆的信号。所述音调变化过程作为线条204示出,因为每次仅在一个频率上同时发射所述紧急信号或特殊信号。在借助于s形频率标度变换的工作谱图200中,线条204显示在工作谱图200的下边缘。在该线条204上方,泛音被映射为弱显现的线条。在借助于mel频率标度变换的工作谱202中,线条204近似被映射在工作谱图200的中心。在该线条204上方,泛音被映射为弱显现的线条。在线条204下方,工作带104的一部分未被使用。

在图2e中示出了紧急信号或特殊信号的工作谱图200、202,所述紧急信号或特殊信号以中断方式发射并且具有突然改变的频率。所述紧急信号或特殊信号在此对应于法国的应急车辆的信号。所述改变的频率作为图案206示出。在此,同时在多个频率上发射所述紧急信号或特殊信号。在借助于s形频率标度变换的工作谱图200中,图案206近似在所有工作带104上延伸。在借助于mel频率标度变换的工作谱图202中,图案206仅在工作带104的一部分上延伸。

在图2f中示出了紧急信号或特殊信号的工作谱图200、202,具有局部快速下降的音调变化过程和局部缓慢下降的音调变化过程。所述紧急信号或特殊信号在此对应于美国的应急车辆的信号。所述音调变化过程作为紧密靠近分布的线条204示出。在此,同时在两个频率上发射所述紧急信号或特殊信号。在借助于s形频率标度变换的工作谱图200中,线条204近似在所有工作带104上延伸。在借助于mel频率标度变换的工作谱图202中,线条204仅在工作带104的一部分上延伸。

在图2g中示出了紧急信号或特殊信号的工作谱图200、202,具有快速连续上升和又下降的音调变化过程。所述紧急信号或特殊信号在此对应于美国的应急车辆的信号。所述音调变化过程作为图案206示出。在一个频率上发射所述特殊信号。在借助于s形频率标度变换的工作谱图200中,图案206被显示在工作谱图200的下边缘处。在图案206上方,泛音被映射为弱显现的图案。在借助于mel频率标度变换的工作谱202中,图案206被近似映射在工作谱图200的中心。在图案206上方,泛音被映射为弱显现的图案。在图案206下方,工作带104的一部分未被使用。

最后应当指出,诸如“具有”、“包括”等术语不排除其他元件或步骤,并且诸如“一个”的术语不排除多个。权利要求中的附图标记不应视为限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1