车内语音对话系统的制作方法

文档序号：2836171阅读：609来源：国知局

专利名称：车内语音对话系统的制作方法
技术领域：
本发明涉及信息处理技术领域，尤其涉及一种车内语音对话系统。
背景技术：
随着经济的发展及社会的进步，汽车已逐渐成为大众化的消费品。汽车的消费群体在不断扩张，消费者对汽车的要求也越来越高。近年来，除经济性、动力性外，在行车过程中的驾驶体验也成为了消费者关注的焦点。车载设备的技术发展也随之越来越深而被入。目前，汽车上大都搭载有具有例如音乐播放、广播收听、电子书阅读等功能的车载设备。这些车载设备在行车过程中为用户提供了多种娱乐及应用功能的体验。而随着液晶触摸技术的发展，车载设备的控制面板也从传统的按键面板转换为液晶触摸显示屏，这些都进一步提高了用户使用的便利性，并且提供了更为直观的用户操作界面。此外，随着移动通信技术的发展，车载设备的技术也越来越像功能集成化发展。目前，有些车载设备已能通过最新的3G网络实现语音通话、网络浏览等功能，使得车载设备真正成为了一种能提供全方位功能体验的移动应用系统。然而，即使由于液晶触摸技术的引入，用户在行车过程中的操作方式仍未发生改变，任何的功能应用仍需用户通过手动输入操作指令来实现。对于一些复杂的功能应用，这无疑增加了操作的复杂度。此外，行车过程中的安全性历来是需要考虑的重要因素，频繁的手动操作也必然会分散驾驶者的注意力，由此为行车过程增加了很多安全隐患。

发明内容
本发明解决的问题是提供一种车内语音对话系统，简化车载功能应用的操作复杂度，并且增强行车的安全性。为了解决上述问题，本发明提供了一种车内语音对话系统，包括:语音输入单元，用于接收语音；语音转换单元，用于基于所述语音输入单元接收的语音形成录音文件，并从所述录音文件中提取语音音素进行识别，并基于识别出的语音音素形成语音特征信息；存储单元，用于存储各种车载应用场景所对应的场景指令文本，以及各种场景下的应用操作所对应的操作指令文本；指令识别单元，从存储单元中搜索与语音转换单元转换的语音特征信息匹配的场景指令文本，在搜索到匹配的场景指令文本时，形成对应的场景启动指令；以及从存储单元中搜索与语音转换单元转换的语音特征信息匹配的操作指令文本，在搜索到匹配的操作指令文本时，形成对应的应用操作指令；应用处理单元，在获得对应的场景启动指令后启动，并在获得对应的应用操作指令后，执行应用操作。与现有技术相比，上述方案具有以下优点:所述车内语音对话系统在实现车载功能应用时，仅需用户通过语音方式输入指令，无需任何手动操作，从而大大降低了用户在实现车载功能应用时的操作复杂度。此外，由于无需手动操作，对于驾驶者而言，其在驾驶过程中就无需分散注意力进行车载功能应用操作，即，驾驶者可以在双手不离开方向盘、视线不离开路面的情况下控制车载设备，从而提高驾驶者驾驶集中度，提高驾车安全性以及驾车体验。

图1是本发明车内语音对话系统的一种实施方式的结构示意图；图2是本发明车内语音对话系统的一种实施例的结构不意图；图3是图2所示车内语音对话系统中语音识别单元的一种实现方式结构示意图；图4是本发明车内语音对话系统的另一种实施例的结构示意图。
具体实施例方式正如背景技术部分所述，现有车载设备中，任何的功能应用仍需用户通过手动输入操作指令来实现。从而，对于一些复杂的功能应用，这无疑增加了操作的复杂度。并且，为行车过程增加了很多安全隐患。有鉴于此，本发明提供的车内语音对话系统通过对用户发出的语音指令进行转换，获得所述语音指令中包含的指令信息，根据所述指令信息启动并执行应用，以实现通过语音指令进行车载功能应用操作。下面结合附图进一步阐述本发明的车内语音对话系统。参照图1所示，本发明车内语音对话系统的一种实施方式包括:语音输入单元10，用于接收语音；语音转换单元20，用于基于所述语音输入单元10接收的语音形成录音文件，并从所述录音文件中提取语音音素进行识别，并基于识别出的语音音素形成语音特征信息；存储单元30，用于存储各种车载应用场景所对应的场景指令文本，以及各种场景下的应用操作所对应的操作指令文本；指令识别单元40，从存储单元30中搜索与语音转换单元20转换的语音特征信息匹配的场景指令文本，在搜索到匹配的场景指令文本时，形成对应的场景启动指令；以及从存储单元30中搜索与语音转换单元20转换的语音特征信息匹配的操作指令文本，在搜索到匹配的操作指令文本时，形成对应的应用操作指令；应用处理单元50，在获得对应的场景启动指令后启动，并在获得对应的应用操作指令后，执行应用操作。上述实施方式中，通过语音转换单元20将用户通过语音输入单元10输入的语音转换为语音特征信息，再通过指令识别单元40对所述语音特征信息进行识别。当用户输入的语音中包含指令信息时，所述指令识别单元40就能从所述语音特征信息中获得与存储单元30存储的场景指令文本或操作指令文本匹配的信息，进而就能够形成相应的指令。从而，所述应用处理单元50就能够依据所述指令启动或执行应用操作。因此，通过上述车内语音对话系统就能够实现用户通过语音进行车载应用操作的功能，从而大大降低了用户在实现车载功能应用时的操作复杂度。并且，提高了驾车安全性以及驾车体验。参照图2所示，根据本发明车内语音对话系统的一种实施例，所述语音输入单元10可以为麦克风。
所述语音转换单元20可以包括:语音识别库201，用于存储语音音素；录音单元203，用于接收所述语音输入单元10接收的语音，并形成录音文件；语音识别单元202，从所述录音文件中提取语音音素与所述语音识别库中的语音音素进行比对，在从所述语音识别库中获得匹配的语音音素时，基于所述匹配的语音音素对应的词条形成语音特征信息。所述指令识别单元40可以包括:场景识别单元401，从存储单元30中搜索与语音转换单元20转换的语音特征信息匹配的场景指令文本，在搜索到匹配的场景指令文本时，形成对应的场景启动指令；应用操作识别单元402，从存储单元30中搜索与语音转换单元20转换的语音特征信息匹配的操作指令文本，在搜索到匹配的操作指令文本时，形成对应的应用操作指令。结合图2和图3所示，所述语音识别单元203的一种实现方式可以包括:音素提取单元203a、音素比对单元203b及语音特征信息形成单元203c ；所述音素提取单元203a，用于从所述录音文件中提取语音音素；所述音素比对单元203b将所提取的语音音素与所述语音识别库201中的语音音素进行比对，获得相应的比对结果；所述语音特征信息形成单元203c，在比对结果的置信度大于预设置信度时，确定提取出的语音音素与所述语音识别库201中的相应语音音素匹配，并基于所述相应语音音素对应的词条形成语音特征信息。所述车载应用场景可以包括:电话场景、本地音乐播放场景、广播场景、情景对话场景、预订服务场景。以电话应用场景为例，驾驶者可以通过麦克风输入语音指令“打电话给张三”。所述录音单元202会将所述语音指令录音，并形成录音文件后发送至所述音素提取单元203a。所述音素提取单元203a在获得所述录音文件后，会提取所述录音文件中的语音音素。例如，所述音素提取单元203a会将所述录音文件中的语音波形提取出来。通常，为了增加语音识别的准确性，还会对所述录音文件先进行去噪处理，以滤除人声音频率外的其他频段的声音波形。所述语音识别库201可以预先存入一些常用的词条对应的语音波形。例如，可以存入日常用语、包括车载应用操作的一些会话用语所对应的语音波形。这些日常用语及会话用语所对应的语音波形通常以各自独立的语音波形文件存入所述语音识别库201，以方便后续比对时分别调用。所述音素比对单元203b在从所述音素提取单元203a处获得提取出的语音波形后，就会将所提取出的语音波形与所述语音识别库201中的各语音波形比对，并且在比对后将比对结果发送至所述语音特征信息形成单元203c。例如，所述音素比对单元203b会将所述语音识别库201中与车载应用操作的会话用语所对应的语音波形文件一一打开，并将其中的语音波形与所述提取出的语音波形一一进行比对，获得多个比对结果。所述比对结果中包含所提取出的语音波形与所述语音识别库201中的语音波形匹配的置信度。所述语音特征信息形成单元203c在获得所述比对结果后，会解析所述比对结果获得所述置信度，在比对结果的置信度大于预设置信度时，确定提取出的语音波形与所述语音识别库201中的相应语音波形匹配。例如，当所提取出的语音波形与所述语音识别库201中“打电话”及“张三”的相应语音波形的比对结果对应的置信度都大于预设置信度时，所述语音特征信息形成单元203c就会认为所述提取出的语音波形与“打电话”及“张三”的相应语音波形匹配，则所述语音特征信息形成单元203c可就此确定所提取出的语音波形对应的语音指令中包含“打电话”及“张三”的词条，则所述语音特征信息形成单元203c会将所述词条“打电话”及“张三”转换为包括打电话及打电话对象的语音特征信息。接下来，所述场景识别单元401和应用操作识别单元402就会对所述语音识别单元203转换的语音特征信息进行识别。类似于语音识别库201，存储单元30中也预先存入了对应各种车载应用场景的场景指令文本，以及对应所述车载应用场景下各种应用操作的操作指令文本。所述场景识别单元401根据所述打电话的语音特征信息形成电话应用场景启动指令。所述应用操作识别单元402根据所述打电话的对象的语音特征信息形成包括“张三”的电话号码的拨号指令。然后，在获得电话应用场景启动指令后，作为应用处理单元的电话应用单元启动，并且依据“张三”的电话号码的拨号指令进行拨号，以实现用户与张三的电话通信应用操作。在其他应用场景下，所述车内语音对话系统也可进行类似的处理，通过识别出用户语音中包含的指令类型及指令内容，以启动并执行相应的车载应用。参照图3所示，根据本发明车内语音对话系统的另一种实施例，所述车内语音对话系统除包括上述实施例的各部件外，还可以包括提示单元60，在指令识别单元40识别出所述场景指令文本或所述操作指令文本时，向用户提示所述场景指令文本或所述操作指令文本。所述提示单元60可以为语音播报单元，例如车载音响。仍以前述“打电话给张三”的语音指令为例，则在指令识别单元40形成电话应用场景启动指令及拨号指令时，所述提示单元就可通过语音播报提示信息:正在拨号给张三。由于用户可以通过所述提示信息获知应用操作的执行过程，因而提高了用户的使用体验。所述提示单元60也可以为显示单元，例如液晶触摸屏。仍以前述“打电话给张三”的语音指令为例，则在指令识别单元40形成电话应用场景启动指令及拨号指令时，所述提示单元就可向用户显示提示信息:正在拨号给张三。同样地，由于用户可以通过所述提示信息获知应用操作的执行过程，因而提高了用户的使用体验。此外，所述车内语音对话系统还可以包括应答信息存储单元70，所述提示单元60还根据用户基于所述提示信息反馈的确认信息，从所述应答信息存储单元70中搜索与所述场景指令文本或所述操作指令文本对应的应答信息，并向用户提示所述应答信息。例如，用户基于前述提供的提示信息:正在拨号给张三，通过麦克风发送“确认”的语音后，所述提示单元60就会从所述应答信息存储单元70中搜索与电话应用场景对应的应答信息，例如，所述应答信息可以为:很高兴为您提供电话应用服务。通过所述应答信息，可以增强用户与车内语音对话系统的互动，进一步提高用户的使用体验。对应地，在所述指令识别单元40未能搜索到匹配的场景指令文本或操作指令文本时，所述提示单元60也可以向用户提示识别失败的信息。可以得知，所述应答信息及所述识别失败的信息也可以通过显示或语音播报的方式呈现给用户。
在本发明车内语音对话系统的其他实施例中，所述车内语音对话系统还可以包括触发单元，用于基于用户的请求启动所述车内语音对话系统。例如，设置触发按键，当用户按下所述触发按键时，启动所述车内语音对话系统。此外，所述车内语音对话系统还可以包括计时单元，在所述车内语音对话系统启动后计时，在计时时间达到时间阈值且此期间语音输入单元未接收到语音时，关闭所述车内语音对话系统。由此，在所述车内语音对话系统启动后，但用户长时间未发出语音指令时，可以通过关闭所述车内语音对话系统以节省能源消耗，节省了使用成本。虽然本发明已以较佳实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。
权利要求
1.一种车内语音对话系统，其特征在于，包括: 语音输入单元，用于接收语音；语音转换单元，用于基于所述语音输入单元接收的语音形成录音文件，并从所述录音文件中提取语音音素进行识别，并基于识别出的语音音素形成语音特征信息；存储单元，用于存储各种车载应用场景所对应的场景指令文本，以及各种场景下的应用操作所对应的操作指令文本；指令识别单元，从存储单元中搜索与语音转换单元转换的语音特征信息匹配的场景指令文本，在搜索到匹配的场景指令文本时，形成对应的场景启动指令；以及从存储单元中搜索与语音转换单元转换的语音特征信息匹配的操作指令文本，在搜索到匹配的操作指令文本时，形成对应的应用操作指令；应用处理单元，在获得对应的场景启动指令后启动，并在获得对应的应用操作指令后，执行应用操作。
2.如权利要求1所述的车内语音对话系统，其特征在于，所述语音转换单元包括: 语音识别库，用于存储语音音素；录音单元，用于接收所述语音输入单元接收的语音，并形成录音文件；语音识别单元，从所述录音文件中提取语音音素与所述语音识别库中的语音音素进行比对，在从所述语音识别库中获得匹配的语音音素时，基于所述匹配的语音音素对应的词条形成语音特征信息。
3.如权利要求2所述的车内语音对话系统，其特征在于，所述语音识别单元包括:音素提取单元、音素比对单元及语音特征信息形成单元；所述音素提取单元，用于从所述录音文件中提取语音音素；所述音素比对单元将所提取的语音音素与所述语音识别库中的语音音素进行比对，获得相应的比对结果；所述语音特征信息形成单元，在比对结果的置信度大于预设置信度时，确定提取出的语音音素与所述语音识别库中的相应语音音素匹配，并基于所述相应语音音素对应的词条形成语音特征信息。
4.如权利要求2或3所述的车内语音对话系统，其特征在于，所述语音音素为语音波形。
5.如权利要求1所述的车内语音对话系统，其特征在于，所述指令识别单元包括:场景识别单元及应用操作识别单元；场景识别单元，从存储单元中搜索与语音转换单元转换的语音特征信息匹配的场景指令文本，在搜索到匹配的场景指令文本时，形成对应的场景启动指令；应用操作识别单元，从存储单元中搜索与语音转换单元转换的语音特征信息匹配的操作指令文本，在搜索到匹配的操作指令文本时，形成对应的应用操作指令。
6.如权利要求1所述的车内语音对话系统，其特征在于，还包括提示单元，在指令识别单元识别出所述场景指令文本或所述操作指令文本时，向用户提示对应所述场景指令文本或所述操作指令文本的反馈信息。
7.如权利要求6所述的车内语音对话系统，其特征在于，还包括应答信息存储单元，所述提示单元还根据用户基于所述提示信息反馈的确认信息，从所述应答信息存储单元中搜索与所述场景指令文本或所述操作指令文本对应的应答信息，并向用户提示所述应答信肩、O
8.如权利要求6所述的车内语音对话系统，其特征在于，所述提示单元在指令识别单元未能搜索到匹配的场景指令文本或操作指令文本时，向用户提示识别失败的信息。
9.如权利要求6至8任一项所述的车内语音对话系统，其特征在于，所述提示单元为语首播报单兀。
10.如权利要求6至8任一项所述的车内语音对话系统，其特征在于，所述提示单元为显示单元。
11.如权利要求1所述的车内语音对话系统，其特征在于，还包括触发单元，用于基于用户的请求启动所述车内语音对话系统。
12.如权利要求11所述的车内语音对话系统，其特征在于，所述触发单元为触发按键。
13.如权利要求11所述的车内语音对话系统，其特征在于，还包括计时单元，在所述车内语音对话系统启动后计时，在计时时间达到时间阈值且此期间语音输入单元未接收到语音时，关闭所述车内语音对话系统。
14.如权利要求1所述的车内语音对话系统，其特征在于，所述车载应用场景包括:电话场景、本地音乐播放场景、广播场景、情景对话场景、预订服务场景。
15.如权利要求1或13所述的车内语音对话系统，其特征在于，所述语音输入单元为麦克风。
全文摘要
一种车内语音对话系统，包括语音输入单元，用于接收语音；语音转换单元，用于基于所述语音输入单元接收的语音形成录音文件，并从中提取语音音素进行识别，并基于识别出的语音音素形成语音特征信息；存储单元，存储各车载应用场景所对应的场景指令文本及其下的应用操作所对应的操作指令文本；指令识别单元，从存储单元中分别搜索与语音转换单元转换的语音特征信息匹配的场景指令文本及操作指令文本，并分别形成对应的场景启动指令及应用操作指令；应用处理单元，在获得对应的场景启动指令后启动，并在获得对应的应用操作指令后，执行应用操作。所述车内语音对话系统简化了用户操作，提高了行车安全性。
文档编号G10L15/26GK103187061SQ20111045000
公开日2013年7月3日申请日期2011年12月28日优先权日2011年12月28日
发明者刘根华, 廖建国, 张晓海申请人:上海博泰悦臻电子设备制造有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘根华;廖建国;张晓海
技术所有人：上海博泰悦臻电子设备制造有限公司
我是此专利的发明人