一种获取交通广播语音中路况信息的方法及系统的制作方法

文档序号：9889522阅读：409来源：国知局

一种获取交通广播语音中路况信息的方法及系统的制作方法
【技术领域】
[0001] 本发明设及语音端点检测技术、广播语音识别技术、交通路况信息相关的词典的建立方法W及路况信息抽取技术。
【背景技术】
[0002] 无人车是一种集感知、控制和智能决策等理论和技术于一体，能够自主驾驶的智能车辆。无人车研究的核屯、内容之一是智能行为决策。从20世纪70年代开始，美国、英国、德国等发达国家开始进行无人驾驶汽车的研究，在可行性和实用化方面都取得了突破性的进展。据报道，谷歌无人驾驶汽车一共记录的里程数据已经达到了 70万英里，我国在无人驾驶汽车的开发方面比国外稍晚，而如今国防科技大学自主研制的无人驾驶汽车已完成了286 公里的无人驾驶实验。本发明的目的是从大量的交通广播语音中提取有用信息，为无人车的行驶提供智能决策支持。例如，通过交通广播中的路况信息定位交通拥堵路段，从而在路径选择时避开相应的路段。目前，相关发明还没有兴起。

【发明内容】

[0003] 为了能够从收音机发出的广播音频流中提取出交通路况信息，本发明设计并开发了一套服务于无人车的交通广播语音识别与抽取系统。整个系统从收音机中获取广播音频流，利用语音端点检测算法从收音机的音频流中检测出语音片段。在数据准备阶段，需要离线采集大量与交通领域相关的文本和声学数据，它们可W被用于声学模型训练、语言模型训练W及词典构建中。在语音转文本的过程中，利用训练好的大词汇量语音识别系统对语音片段进行解码识别，得到相应的文本识别结果。在路况信息抽取阶段，构建了多模式的文本抽取器，利用抽取器对交通路况信息进行了快速且准确的抽取。
[0004] 根据本发明一方面，其提供了一种获取交通广播语音中路况信息的方法，其特征在于，包括下列步骤：
[0005] 步骤1:接收来自于收音机的广播音频信号，对输入的广播音频信号进行预处理；
[0006] 步骤2:通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帖；
[0007] 步骤3:利用语音识别系统对所述目标语音帖进行识别处理，得到相应的识别文本结果；
[000引步骤4:利用多模式文本抽取器和路况词典对所述识别文本结果进行抽取，得到最终的路况信息；其中，所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器;所述路况词典是通过采集到的路况信息样本，预先建立的与交通路况信息相关的词典。
[0009] 其中，所述步骤2具体包括：
[0010] 步骤201:计算输入的广播音频信号中音频帖的差分过零率DZCR;
[0011] 步骤202:计算所述广播音频信号的段级信噪比MSSNR;
[0012] 步骤203:计算所述广播音频信号的长时信噪比；
[0013] 步骤204:计算背景信号的波动估计值；
[0014] 步骤205:根据所述差分过零率和段级信噪比确定语音端点检测的决策规则;具体如下表示：
[0015]
[0016] 其中，thrvad为端点检测阔值，根据长时信噪比和背景信号的波动估计值确定;vad =1表示......，vad = 0表示......〇
[0017] 步骤202具体包括：
[0018] 对于所述广播音频信号中的每个音频帖，划分成多个非等分的子带；
[0019] 计算所划分的多个非等分子带的信噪比，具体如下表示：
[0023] 其中，snr(i)当前帖第i个子带的信噪比，Eb(i)当前帖的第i个子带的能量，Ebo(i) 表示前一帖的第i个子带的能量，α是权重因子，是估计的背景噪声的平均能量谱，Μ 为所划分的子带数目；
[0024] 计算所划分的多个非等分子带的改进信噪比，具体如下表示：
[0025]
[00%]其中，msnr(i)为第i个子带的改进信噪比;α、β和δ为常量，取经验值。
[0027]计算所述广播音频信号的段级信噪比，具体如下表示：
[002引
[0029]步骤203中所述广播音频信号的长时信噪比如下计算：
[0033]
[0034] 其中，Isnr表示所述广播音频信号的长时信噪比
分别是第m帖和第m-1帖的前景信号的长时均方根，&是自适应因子；
分别是第m帖和第 m-1帖的背景信号的长时均方根，化是自适应因子，s(i)是第i个采样点，N为采样点个数。 [0(X3日]步骤3具体包括：
[0036] 利用预先构建好的语音识别系统，对通过语音端点检测算法得到的目标语音帖进行识别处理，得到逐帖梅尔频率倒谱系数特征解码出的文本序列。
[0037] 步骤4中所述路况词典包括位置词、方位词和交通状况描述词。
[0038] 步骤4中所述多模式文本抽取器如下建立：
[0039] 遍历所述路况词典，将路况词典中的词转换成路况音素序列，建立包含所有路况音素序列的集合W及含有不带音调的路况音素序列与词的匹配哈希表；
[0040] 对于所建立的包含路况音素序列的集合，构造状态转移表、匹配失败跳转表和输出表，所述状态转移表为所述包含路况音素序列的集合中路况音素序列的所有转移模式构成的状态转移自动机;所述匹配失败跳转表为匹配时根据所述状态转移表转移失败后状态跳转的依据;所述输出表为根据所述状态转移表匹配成功任意一个模式所对应的路况音素序列。
[0041] 步骤4中将所述语音识别系统输出的文本序列转换成音素序列，并将所述音素序列根据所述状态转移表进行匹配，若匹配成功，则从所述输出表中得到对应的路况音素序列，根据所述路况音素序列与词的匹配哈希表得到所述文本序列对应的路况信息。
[0042] 根据本发明另一方面，其提供了一种获取交通广播语音中路况信息的系统，其特征在于，包括：
[0043] 预处理模块，接收来自于收音机的广播音频信号，对输入的广播音频信号进行预处理；
[0044] 目标语音帖检测模块，通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帖；
[0045] 文本识别模块，利用语音识别系统对所述目标语音帖进行识别处理，得到相应的识别文本结果；
[0046] 路况信息识别模块，利用多模式文本抽取器和路况词典对所述识别文本结果进行抽取，得到最终的路况信息;其中，所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器;所述路况词典是通过采集到的路况信息样本，预先建立的与交通路况信息相关的词典。
[0047] 本发明的有益效果:本发明为了给无人车的智能行驶决策提供有效的帮助，提出了一种获取交通广播语音中路况信息的方法及系统，W从交通广播语音中提取出有用信息。音素级的多模式抽取方法更强调对音素序列进行模式捜索。运种方法能够利用实体词的发音相似性，在一定程度上达到了对语音识别结果的错误进行纠正的目的，最终降低抽取系统的实体词错误率。除此之外，语音端点检测算法利用了差分过零率、改良的段级信噪比估计、长时信噪比估计及背景波动估计等多个特征来构造决策规则，运样在一定程度上提高了语音端点检测的鲁棒性。
【附图说明】
[0048] 本发明进一步的特色和优点将参考说明性的附图在下面描述。
[0049] 图1是本发明中获取交通广播语音中路况信息的方法的流程图；
[0050] 图2是本发明中语音端点检测算法的流程图；
[0051 ]图3是本发明中语音识别系统的流程图；
[0052] 图4是本发明中构建与交通领域相关的词典的方法的流程图；
[0053] 图5是本发明中音素级的多模式抽取算法的流程图。
【具体实施方式】
[0054] 应当理解，不同示例W及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例;被描述的说明性实施例仅仅是例证本发明的各个步骤，其范围由附加的权利要求来定义。
[0055] 本发明设计并开发了一套服务于无人车的交通广播语音识别与抽取系统。整个系统从收音机中获取广播音频流，利用语音端点检测算法从收音机的音频流中检测出语音片段。在数据准备阶段，需要离线采集大量与交通领域相关的文本和声学数据，它们可W被用于声学模型训练、语言模型训练W及词典构建中。在语音转文本的过程中，利用训练好的大词汇量语音识别系统对语音片段进行解码识别，得到相应的文本识别结果。在路况信息抽取阶段，构建了多模式的文本抽取器，利用抽取器对交通路况信息进行了快速且准确的抽取。
[0056] 如图1所示，本发明提出了一种获取交通广播语音中路况信息的方法。该方法的具体步骤如下：
[0057] 步骤1:接收来自于收音机的广播音频信号，对输入的广播音频信号进行分帖、加窗函数W及预加重等预处理；
[0058] 步骤2:通过多特征融合的语音端点检测算法从经过预处理的所述广播音频信号中检测出目标语音帖；
[0059] 步骤3:利用语音识别系统对所述目标语音帖进行识别处理，得到相应的识别文本结果；
[0060] 步骤4:利用多模式文本抽取器和词典对识别结果进行抽取，得到最终的路况信息;其中，所述多模式文本抽取器是预先构建的交通路况领域相关的多模式文本抽取器;所述词典是通过采集到的路况信息样本，预先建立的与交通路况信息相关的词典。
[0061 ]下面对上述各个步骤做详细介绍。
[0062] 图2示出了本发明中语音端点检测算法的流程图。如图2所示，步骤2中所述语音端点检测算法，用于检测出广播音频流中的语音片段，主要步骤包括：
[0063] 步骤201，计算输入的广播音频流中音频帖的差分过零率DZCR，如式(1)所示：
[0064]
(1)
[00化]其中，ZCR是过零率，云瓦是估计的背景信号的运行时平均过零率。ZCR可w表示为：
[0066]
[0067]其中，N表示每个音频帖的采样点的个数，s(i)是第i个采样点。iE云可表示为： [006引
[0069] 其中，ZCR(i)表示第i帖的过零率。
[0070] 步骤202,进行改良的段级信噪比计算。首先，输入音频帖的频谱被划分为Μ个(如 16个)非等分的子带，当前帖的第i个子带的能量可表示为：
[0071]
[0072] 其中，l(i)表示第i个子带的下边界，h(i)表示第i个子带的上边界，S化)表示第i 个子带中第k个频点的能量谱，抗。(。表示前一帖的第i个子带的能量，α是权重因子。然后

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘文举;谭应伟;
技术所有人：中国科学院自动化研究所;
我是此专利的发明人

上一篇：一种基于spce061a的语音控制系统的制作方法
上一篇：用于语音识别的设备和方法