基于语音交互的数字楼盘展示系统的制作方法

文档序号：9236337阅读：323来源：国知局

基于语音交互的数字楼盘展示系统的制作方法
【技术领域】
[0001] 本发明语音识别领域，更具体的涉及一种能够语音交互的数字楼盘展示系统。
【背景技术】
[0002] 随着现代科学技术的迅猛发展，信息资源变得越来越重要，通信或信息交换已经成为人类社会存在的必要条件，同时也成为了未来战场胜负的决定因素，语言是人类区别于动物所特有的功能，而语音则是语言的语音表现，是人类传递信息最重要，最有效，最方便的交换信息形式。一些语音识别系统相继问世，语音识别系统的任务就是让机器能够听懂人类的语言，即通过一定的信号处理算法把人类的语音信号转变为相应的文本，指令或控制信号，使机器具有与人类一样的听觉功能，能理解说话人的意图并迅速做出反应，从而实现人机交互。
[0003]现有技术中的语音交互技术中，从说话者与识别系统的相关性考虑，将语音识别系统分为W下H类。
[0004] 1、特定人语音识别系统：特定人语音识别系统用户需要事先对待识别的每一个词条进行训练，在训练阶段，用户将词汇表中的每一个词依次说数遍，系统将其特征矢量序列存入模板库中。在识别阶段，系统将输入语音的特征依次与模板库中的每一个模板进行相似度比较，将相似度最高者作为识别结果输出。特定人识别系统识别的词条数目一般在 100条W下，识别性能随着识别词条数目的增加会有明显的下降，并且在不同的噪声环境中，W及不同的时间，不同的用户生理、也理状态下，系统的性能都会受到明显的影响。
[0005] 2、非特定人语音识别系统；非特定人语音识别系统采用基于统计模型的算法，系统开发者事先采集大量的语音数据进行训练，得到语音模型。在识别阶段，机器将用户的输入语音特征与通过语音模型构建的识别网络进行匹配解码，得到识别结果。
[0006] 非特定人语音识别系统对于用户而言，不需要引入繁琐的训练过程，方便了用户的使用；同时，它可W供不同的人使用，大大拓宽了产品的应用范围。另一方面，由于采用了基于统计模型的算法，其稳健性和识别性能都比特定人识别系统大大地提高。非特定人识别系统识别的词条数目可W达到1000条，识别性能不会随着识别词条数目的增加有明显的下降，并且具有一定的抗噪能力。
[0007] 3、多人识别系统；通常能识别一组人的语音，该系统通常要求对该组人的语音进行学习，通常可W识别3~5个人的语音。
[0008]现有技术中存在的问题是存在识别模式的选择时，由于特定人识别模式在使用前需要进行语音模型的反复训练，且其识别的词条较少，不能满足需求，并且该些识别系统性能的评测不太稳定，经常遇到干扰，性能会急剧下降，甚至无法识别。

【发明内容】

[0009] 1、本发明的目的。
[0010] 本发明为了解决现有展示系统的适应性差、识别模型有待提高、在连续语音识别中去除语气词等问题，而提出了一种语音交互的数字楼盘展示系统。
[0011] 2、本发明所采用的技术方案。
[0012] 基于语音交互的数字楼盘展示系统，包括语音特征提取模块、语音模型与模式匹配模块、控制模块，语音特征提取模块从语音波形中提取随时间变化的语音特征序列，语音模型与模式匹配模块在识别时将未知的语音特征同语音模型进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离并对识别结果进行语法、语义分析，控制模块通过语音模型与模式匹配模块输出的结果对计算机系统做出相应的户型展示控制。2. 根据权利要求1所述的基于语音交互的数字楼盘展示系统，其特征在于：语音模型与模式匹配模块包括预处理单元、特征提取单元、模式识别、训练单元，预处理单元包括预加重、分窗与分峽和端点检测，用于从语音信号中提取有声段，抑制无声段对识别结果的影响；特征提取单元用于保证类内距离最小和类间距离最大。
[0013] 在本发明的一具体实施例中，所述的模式识别首先选取初始模型，确定初始参数，对模型初始化后对状态序列进行分割，分割后每段用均值估计，判断模型是否收敛确定模型，然后通过训练单元得到最终的控制结果。
[0014] 在本发明的另一具体实施例中，预加重是提升语音信号的高频部分，利用一阶高通滤波器，具体如下：
其中//为预加重系数，优选的/I为0. 9375。
[0015] 在本发明的另一具体实施例中，分窗与分峽单元，首先设定窗序列的长度，通过滑动窗序列对原始语音信号分峽，并采用交叠分段方法，如果令原始语音信号为，窗函数为tv〇:>，则加窗过程可W表示如下： F(?) =s{n) * uf{n}。
[0016] 在本发明的另一具体实施例中，端点检测单元通过语音信号的短时能量和短时过零率进行检测。
[0017] 在本发明的另一具体实施例中，特征提取单元首先用离散傅里叶变换将语音信号从时域转化到频域，之后对其对数能量谱用依照Mel刻度分布的滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换，保证类内距离最小和类间距离最大。
[0018] 3、本发明的有益效果。
[0019] 本发明具有适应环境能力强、识别率高的效果，能够在连续语音识别中去除语气词并对楼盘展示进行控制，通过语音交互实时展示楼盘的全貌。
【附图说明】
[0020] 图1为本发明的逻辑结构图。
[0021] 图2为本发明预处理逻辑结构图。
【具体实施方式】
[0022] 为了使专利局的审查员尤其是公众能够更加清楚地理解本发明的技术实质和有益效果，申请人将在下面w实施例的方式作详细说明，但是对实施例的描述均不是对本发明方案的限制，任何依据本发明构思所作出的仅仅为形式上的而非实质性的等效变换都应视为本发明的技术方案范畴。实施例
[0023] 如图1所示，基于语音交互的数字楼盘展示系统，包括语音特征提取模块、语音模型与模式匹配模块、控制模块，语音特征提取模块从语音波形中提取随时间变化的语音特征序列，语音模型与模式匹配模块是识别系统的底层模型，并且是语音识别系统中最关键的一部分，语音模型通常由获取的语音特征通过训练产生，目的是为每个发音建立发音模板，在识别时将未知的语音特征同语音模型进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离并对识别结果进行语法、语义分析，语音模型与模式匹配模块包括预处理单元、特征提取单元、模式识别、训练单元，预处理单元包括预加重、分窗与分峽和端点检测，用于从语音信号中提取有声段，抑制无声段对识别结果的影响；特征提取单元用于保证类内距离最小和类间距离最大。控制模块通过语音模型与模式匹配模块输出的结果对计算机系统做出相应的户型展示控制。
[0024] 所述的模式识别首先选取初始模型，确定初始参数，对模型初始化后对状态序列进行分割，分割后每段用均值估计，判断模型是否收敛确定模型，然后通过训练单元得到最终的控制结果。
[00巧]如图2所示，预处理单元包括预加重、分窗与分峽和端点检测： (1)预加重；是提升语音信号的高频部分，利用一阶高通滤波器，具体如下：
其中为预加重系数为0. 9375。
[0026] (2)分窗与分峽单元；首先设定窗序列的长度，通过滑动窗序列对原始语音信号分峽，并采用交叠分段方法，如果令原始语音信号为，窗函数为则加窗过程可 W表不如下： s(n) = s(n} * win}。
[0027] (3);端点检测单元通过语音信号的短时能量和短时过零率进行检测。
[0028] 特征提取单元首先用离散傅里叶变换将语音信号从时域转化到频域，之后对其对数能量谱用依照Mel刻度分布的滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换，保证类内距离最小和类间距离最大。
[0029] 本发明具有适应环境能力强、识别率高的效果，能够在连续语音识别中去除语气词并对楼盘展示进行控制，通过语音交互实时展示楼盘的全貌。
【主权项】
1. 一种基于语音交互的数字楼盘展示系统，其特征在于：包括语音特征提取模块、语音模型与模式匹配模块、控制模块，语音特征提取模块从语音波形中提取随时间变化的语音特征序列，语音模型与模式匹配模块在识别时将未知的语音特征同语音模型进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离并对识别结果进行语法、语义分析，控制模块通过语音模型与模式匹配模块输出的结果对计算机系统做出相应的户型展示控制。2. 根据权利要求1所述的基于语音交互的数字楼盘展示系统，其特征在于：语音模型与模式匹配模块包括预处理单元、特征提取单元、模式识别、训练单元，预处理单元包括预加重、分窗与分帧和端点检测，用于从语音信号中提取有声段，抑制无声段对识别结果的影响；特征提取单元用于保证类内距离最小和类间距离最大。3. 根据权利要求2所述的基于语音交互的数字楼盘展示系统，其特征在于：所述的模式识别首先选取初始模型，确定初始参数，对模型初始化后对状态序列进行分割，分割后每段用均值估计，判断模型是否收敛确定模型，然后通过训练单元得到最终的控制结果。4. 根据权利要求2所述的基于语音交互的数字楼盘展示系统，其特征在于：所述的预加重是提升语音信号的宫疏都心?泪丨田一15介宫诵姑！?且彳太加下"?其中#为预加重系数。5. 根据权利要求4所述的基于语音交互的数字楼盘展示系统，其特征在于：#为 0?9375。6. 根据权利要求2所述的基于语音交互的数字楼盘展示系统，其特征在于：所述的分窗与分帧单元，首先设定窗序列的长度，通过滑动窗序列对原始语音信号分帧，并采用交叠分段方法，如果令原始语音信号为窗函数为则加窗过程可以表不如下：7. 根据权利要求2所述的基于语音交互的数字楼盘展示系统，其特征在于：端点检测单元通过语音信号的短时能量和短时过零率进行检测。8. 根据权利要求2所述的基于语音交互的数字楼盘展示系统，其特征在于：特征提取单元首先用离散傅里叶变换将语音信号从时域转化到频域，之后对其对数能量谱用依照 Mel刻度分布的滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换，保证类内距离最小和类间距离最大。
【专利摘要】本发明公开了一种基于语音交互的数字楼盘展示系统，包括语音特征提取模块、语音模型与模式匹配模块、控制模块，语音特征提取模块从语音波形中提取随时间变化的语音特征序列，语音模型与模式匹配模块在识别时将未知的语音特征同语音模型进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离并对识别结果进行语法、语义分析，控制模块通过语音模型与模式匹配模块输出的结果对计算机系统做出相应的户型展示控制。本发明具有适应环境能力强、识别率高的效果，能够在连续语音识别中去除语气词并对楼盘展示进行控制，通过语音交互实时展示楼盘的全貌。
【IPC分类】G10L15/20, G10L15/06, G10L15/02
【公开号】CN104952446
【申请号】CN201410120620
【发明人】廖永斌
【申请人】苏州美谷视典软件科技有限公司
【公开日】2015年9月30日
【申请日】2014年3月28日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖永斌;
技术所有人：苏州美谷视典软件科技有限公司;
我是此专利的发明人

上一篇：一种老龄人安康服务智能穿戴设备及语音识别方法
上一篇：一种基于音频分析的设备运行监控装置的制造方法