一种人机交互导航系统的制作方法

文档序号：2823532阅读：422来源：国知局

专利名称：一种人机交互导航系统的制作方法
技术领域：
本发明涉及计算机领域，特别涉及人机交互语音系统，具体的讲是一种人机交互导航系统。
背景技术：
随着我国国民经济的快速发展，人民生活水平的大幅提高，作为我国重要经济命脉之一的交通运输业的发展也是突飞猛进，现今我国车辆的保有量呈现大幅增长之势，并且随着道路的四通八达，行车难越来越多的体现在对交通线路的选择上，对于驾驶员来说选择一条最佳的交通路线，避免走冤枉路已成了当今驾驶员的必然选择。目前国内外普遍采用GPS自主导航方法来实现对车辆的导航。一般的GPS导航系统主要由处理器，显示屏，触摸屏和音频处理装置构成，但是原有触摸屏在使用中需要粘贴于显示屏上，在其两者调试到统一坐标的前提下，用户的手指的触摸屏的移动就类似鼠标移动的选择功能，但是由于触摸屏本身的构造和材料限制，经常会出现定位的漂移等现象，并且由于经常用手指触摸屏幕，以至于触摸区域被弄脏和自然老化，这种单一使用手指的GPS触摸屏在可靠性上很不稳定，经常需要定期维护。
最近的导航设备不但具有仅仅显示地图信息的功能，而且也具有作为信息终端装置用来给用户提供诸如到目的地的路由引导信息和在当前位置附近的交通信息的许多种类的信息功能，中国专利02151633于2002年12月30号申请的一种基于GPS和GPRS(General PacketRadio Service)实现车辆网络导航的方法，公开了一种能够将导航信息通过语音输出的技术方案，该系统能够将地图信息，当前位置的交通信息和到达目的地方向指令通过语音消息形式传递给驾驶员。但是，驾驶员在使用该种系统时还是需要聚精会神的用手操作，如果驾驶员需要知道当前路况信息或者目的地的信息，他必须一边驾驶着汽车一边用手操作该种导航系统，这样在现实路况和屏幕之间转换视线，这样操作的结果是他将不能把注意力集中在驾驶汽车上，这对驾驶员和其他人的生命安全造成了很大的威胁。
目前市场上出现的所谓语音导航系统，只体现在输出部分，即语音提示只是提示信息回放给用户的一种方式，并不能提供语音输入功能。另外，这种单向的信息传递方式对于驾驶员来说也是很不方便的，驾驶员无法得知自己想知道的信息，系统只能够简单的做出基本语音提示，驾驶员如果想知道别的信息，比如天气等信息，必须通过对导航系统的物理操控才能获得自己希望的信息。

发明内容
本发明的目的在于，提供一种人机交互导航系统，解决现有导航系统触摸屏的不足，使用者必须使用手工操作才能从导航系统中获得希望的信息，实现使用者与导航系统真正的交互。
本发明的目的还在于提供一种人机交互导航方法，解决现有导航系统单向语音提示，不能与使用者在语音上进行交互的不足。
一种人机交互导航系统，包括音频输出单元、全球定位单元，还包括音频输入单元、自动语音识别单元、数据库、语音合成单元；其中，所述音频输入单元与所述自动语音识别单元相连接；所述自动语音识别单元与所述全球定位单元相连接；所述全球定位单元与所述数据库相连接；所述全球定位单元与所述语音合成单元相连接；所述语音合成单元与所述音频输出单元相连接；由音频输入单元采集用户的音频输入数据，自动语音识别单元将该音频输入数据转换成相应的指令，全球定位单元执行该指令并返回处理结果数据，根据该处理结果数据搜索数据库并输出人机交互信息，语音合成单元将该人机交互信息转换成语音通过音频输出单元进行输出。
还包括自然语音理解单元，所述自然语音理解单元连接于自动语音识别单元与全球定位单元之间，用于进一步提取自动语音识别单元转换的指令，将用户不准确的指令识别为特定的控制指令。
还包括人机交互管理单元，所述人机交互管理单元连接于全球定位单元与语音合成单元之间，根据语法学，语义学和句法知识，结合全球定位单元提供的信息，生成符合语法逻辑的人机交互信息。
还包括前置语音预处理单元，所述前置语音预处理单元连接于音频输入单元与自动语音识别单元之间，滤除用户音频输入数据的干扰噪音并将其转换为数字信号。
所述的音频输入单元为麦克阵列。
一种人机交互导航方法，包括如下步骤通过音频输入单元接收用户的音频输入数据；通过自动语音识别步骤对用户的音频输入数据进行处理，将其转换成相应的指令；根据全球定位单元执行指令结果，搜索数据库并生成与用户的人机交互信息；将所述人机交互信息通过语音合成单元输出。
在所述自动语音识别步骤后，还包括一自然语音理解步骤进一步提取自动语音识别单元转换的指令，将用户不准确的指令识别为特定的控制指令。
所述根据全球定位单元执行指令结果，搜索数据库并生成与用户的人机交互信息的步骤中，还包括一人机交互管理步骤根据根据语法学，语义学和句法知识，结合全球定位单元提供的信息，生成符合语法逻辑的人机交互信息。
在所述自动语音识别步骤前，还包括一前置语音预处理步骤，滤除用户音频输入数据的干扰噪音并将其转换为数字信号。
所述的人机交互信息为文本格式的数据。
本发明的有益效果在于，能够使驾驶员在驾驶车辆的同时查询需要的信息，并且不需要动手或者转移视线对导航系统进行控制，提高了驾驶的安全性和便利性，并且降低了对使用者的要求，使用者不需要进行相关培训和专业知识，只需要说出所需信息提示，就可以通过本发明获得相应信息。

图1为本发明系统结构示意图；图2为本发明自动语音识别过程示意图；图3为本发明人机交互导航系统的一个实施例示意图；图4为本发明人机交互导航系统的另一实施例示意图。
具体实施例方式
下面，结合附图对于本发明进行如下详细说明。
图1为本发明系统结构示意图。如图所示，使用麦克阵列为一音频输入装置，同时，触摸屏或者按键同样可以在本发明中起到同现有技术中一样的基本控制功能；在现有移动工具中，例如汽车，手机等，在本发明人机交互导航系统的具体实现过程中，使用麦克阵列作为音频输入单元是因为其对采集音频信号源的效果比较好，当然也可以使用类似的采集音频信号的装置。在经过麦克阵列采集音频输入信号后，本发明的前置语音预处理单元对用户的输入进行增强，滤除外界噪音干扰，传送给自动语音识别单元(ASRAutomatic Speech Recognition)，该自动语音识别单元将这些语音特征与语音训练模板中的特征值相比较，将用户输入的语音数据转换成标准格式的数据进行输出。自然语音理解单元(NLUNatural Language Understanding)接收从ASR传送出的标准格式的数据，并且继续分析该命令数据的正确性，分析用户语音所代表的意图，将用户不准确的语音命令转换为准确命令信息。全球定位单元(GPSGlobalPosition System)，执行从NLU中传送出的准确命令信息，数据库中存储了相应的地图信息，包括地名、学校名、医院名等信息，同时系统可以通过互联网连接到服务中心及时更新相关路况信息等文本数据，根据用户的语音输入命令在数据库中查找目的地名等数据控制GPS单元进行处理，通过查找数据库确定现在位置和目标地点等操作。人机交互管理单元(DMDialogue Management)，在取得GPS执行结果后生成与用户语音命令相对应的交互信息(本实施例中交互信息为交通指示信息和人机对话等文本类型数据，也可以为其他类型的数据)，处理结束后将交互信息和相关的交通指示信息传送给语音转换单元(TTSText To Speech)，由TTS根据交互信息生成相应的语音信息，通过扬声器进行输出。
如图2所示为本发明自动语音识别单元示意图，通过前置语音预处理单元对用户输入的语音进行预处理，提取相应的声波参数，形成用户语音输入部分Y，通过声学模型模块(AMAcoustic model)对语音进行处理，其中声学模型是语音识别系统的底层模型，是影响识别系统性能最关键的一部分，声学模型模块的目标是提供一种有效的描述方法，计算语音的特征矢量序列(即图中经过前置语音预处理单元生成的特征矢量序列)和每个发音样本(即图中发音字典中存储的发音样本)之间的距离，故声学模型模块的设计跟语言发音特点密切相关。在语音识别中，首先是模拟的语音信号在声学前端的前置语音预处理单元被处理为特征矢量序列并过滤相伴语音数据一同传入的噪音，这些特征矢量序列描述了语音信号的短时及普遍变化信息，经过与发音字典中的发音样本比较后，输出用户声学模型模块识别的运算结果P(Y|W)。语言模型模块(LMLanguage model)用于为所识别的词序列提供语法和句法上的约束，尤其重要的是它提供了一种可以根据所给出词序列W中的上下文而估计出某个词在此词序列中出现的概率的机制。理想的语言模型模块应该包括有关语言学上的、在识别系统中该语言所适用范围的以及相关的一些信息，比如用户输入“开启”，语言模型模块就会联想到以“开启”为开始的词组或者句子都有哪些组合的可能，“开启系统”，“开启音响”等，这些信息可以被LM利用来缩减所需要的搜索空间。利用语言模型模块的运算结果P(W)和声学模型模块的运算结果P(Y|W)计算出用户的输入语音对应的汉字串。
图3为本发明人机交互语音导航的一个实施例，首先，语音波形文件作为输入，例如，用户可以对着话筒说“打开导航系统”，语音时域信号通过A/D转换器(前置语音预处理单元)从模拟信号转换为数字信号，在此基础上，进行特征提取，一般采用Mel频率倒谱系数(MFCCMel-Frequency Cepstral Coefficients)为特征的26维或者39维特征参数来描述不同音节或者音素的属性。将提取的特征与系统训练好的声学模型进行比较，找到最大(概率最大)可能的状态序列。通过解码器(Decoder)对该可能的序列进行识别，语音识别的解码算法为Viterbi搜索算法，用户输入的语音数据在经过语言模型模块处理后，由解码器挑选出与用户语音输入最佳匹配的“打开导航系统”词语序列。所有可能词序列的数量随系统所采用模型的数量、词汇表大小、所用的语义约束成指数关系增加，使得大词表语音识别算法对所需的运算速度以及存储空间提出了近乎苛刻的要求。语言模型(LM)用来为所识别的词序列提供语法和句法上的约束。它提供了一种可以根据所给出词序列W中的上下文而估计出某个词在此词序列中出现的概率的机制。通过语言学模型在包括有关语言学上的、在识别系统中该语言所适用范围的以及相关的一些信息的约束，系统最后的输出为对应的汉字，例如“打开导航系统”，经用户输入的波形转换为对应的汉字串。自然语言理解单元的作用在于提供一种人机对话的自由语法。例如，用户可以说“打开导航系统”或者“我要去清华大学怎么走”或者其他方式。通过自然语言理解单元的处理，将用户不准确的语音输入信息进一步合理解释，例如“启动”，可以引导用户方便、快捷的使用本系统，而不需要用户机械的记忆多条关键的控制命令。在系统正确分析出用户的意图之后，通过访问系统预先设定的地图数据库，通过查询关键字找到用户所需的详细信息，并通过语音合成出自然的语音信号播放给用户，其中也可以加入人机交互管理单元，根据用户输入的语音信息和GPS产生的处理结果，生成相应的应答文本数据和交通数据通过TTS单元和用户实现实时交流。
如图4所示，为应用本发明人机交互语音导航系统的另一实施例。在无线网络和全球定位系统(GPS)之间建立了一种相互协作的关系。通过语音或者按键方式触发导航系统，将城市区域地图从某一个远程服务器在线传送至手机上。通过GPRS技术，确定收集持有者当前的位置。利用本发明人机交互语音技术或者按键技术，说出要去的具体方位进行查询。目前系统的设计是考虑了手机内存和计算能力的限制，每次使用时需要从远程服务器上动态加载电子地图，如果手机的内存量扩大到一定程度，则无须使用前动态加载，电子地图可以驻留在内存中，每隔一定时间刷新一次即可。
本发明的有益效果在于，语音作为一种替代的输入方式取代了传统的按键或者触摸屏，增强了驾驶员在驾驶过程中的安全性，并且增加了自然语言理解技术，使人机对话更具有人性化。用户无需记忆复杂的命令，所想即所说。
以上具体实施方式
仅用于说明本发明，而非用于限定本发明。
权利要求
1.一种人机交互导航系统，包括音频输出单元、全球定位单元，其特征在于还包括音频输入单元、自动语音识别单元、数据库、语音合成单元；其中，所述音频输入单元与所述自动语音识别单元相连按；所述自动语音识别单元与所述全球定位单元相连接；所述全球定位单元与所述数据库相连接；所述全球定位单元与所述语音合成单元相连接；所述语音合成单元与所述音频输出单元相连接；由音频输入单元采集用户的音频输入数据，自动语音识别单元将该音频输入数据转换成相应的指令，全球定位单元执行该指令并返回处理结果数据，根据该处理结果数据搜索数据库并输出入机交互信息，语音合成单元将该人机交互信息转换成语音通过音频输出单元进行输出。
2.根据权利要求1所述的一种人机交互导航系统，其特征在于还包括自然语音理解单元，所述自然语音理解单元连接于自动语音识别单元与全球定位单元之间，用于进一步提取自动语音识别单元转换的指令，将用户不准确的指令识别为特定的控制指令。
3.根据权利要求1所述的一种人机交互导航系统，其特征在于还包括人机交互管理单元，所述人机交互管理单元连接于全球定位单元与语音合成单元之间，根据语法学，语义学和句法知识，结合全球定位单元提供的信息，生成符合语法逻辑的人机交互信息。
4.根据权利要求1所述的一种人机交互导航系统，其特征在于还包括前置语音预处理单元，所述前置语音预处理单元连接于音频输入单元与自动语音识别单元之间，滤除用户音频输入数据的干扰噪音并将其转换为数字信号。
5.根据权利要求1或4所述的一种人机交互导航系统，其特征在于，所述的音频输入单元为麦克阵列。
6.一种人机交互导航方法，其特征在于包括如下步骤通过音频输入单元接收用户的音频输入数据；通过自动语音识别步骤对用户的音频输入数据进行处理，将其转换成相应的指令；根据全球定位单元执行指令结果，搜索数据库并生成与用户的人机交互信息；将所述人机交互信息通过语音合成单元合成语音并通过音频输出单元输出。
7.根据权利要求6所述的一种人机交互导航方法，其特征在于，在所述自动语音识别步骤后，还包括一自然语音理解步骤进一步提取自动语音识别单元转换的指令，将用户不准确的指令识别为特定的控制指令。
8.根据权利要求6所述的一种人机交互导航方法，其特征在于，所述根据全球定位单元执行指令结果，搜索数据库并生成与用户的人机交互信息的步骤中，还包括一人机交互管理步骤根据根据语法学，语义学和句法知识，结合全球定位单元提供的信息，生成符合语法逻辑的人机交互信息。
9.根据权利要求6所述的一种人机交互导航方法，其特征在于，在所述自动语音识别步骤前，还包括一前置语音预处理步骤，滤除用户音频输入数据的干扰噪音并将其转换为数字信号。
10.根据权利要求6所述的一种人机交互导航方法，其特征在于，所述的人机交互信息为文本格式的数据。
全文摘要
本发明涉及人机交互语音系统，具体的讲是一种人机交互导航系统。为了解决现有导航系统只能通过手工输入的缺点，提出了一种人机交互导航系统及方法，其方法包括如下步骤通过音频输入单元接收用户的音频输入数据；通过自动语音识别步骤对用户的音频输入数据进行处理，将其转换成相应的指令；根据全球定位单元执行指令结果搜索数据库并生成与用户的人机交互信息；将所述人机交互信息通过语音合成单元输出。本发明的有益效果在于，增强了驾驶员在驾驶过程中的安全性，并且增加了自然语言理解技术，使人机对话更具有人性化，用户无需记忆复杂的命令，所想即所说。
文档编号G10L15/00GK1959628SQ20051011447
公开日2007年5月9日申请日期2005年10月31日优先权日2005年10月31日
发明者王珩申请人:西门子(中国)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王珩
技术所有人：西门子(中国)有限公司
我是此专利的发明人

上一篇：节奏乐器的制作方法
上一篇：具有噪音识别通话方法变更功能的移动终端及其变更方法