基于VoiceXML移动终端语音交互方法及移动终端的制作方法

文档序号：2832221阅读：224来源：国知局

专利名称：基于VoiceXML移动终端语音交互方法及移动终端的制作方法
技术领域：
本发明涉及通信领域，具体而言，涉及一种基于VoiceXML移动乡冬端i吾音交互方法及移动终端。
背景技术：
随着手机等移动终端越来越智能化，人机交互成为发展的趋势，用户希望自己的手机就像一个小秘书，可以通过简单的人机交互来代替具体复杂的操作。
目前，已经存在简单的人4几交互形式，即，利用对-活"告诉" 手才几要拨号通话，这种方式语音交互生^更，并且必须4要既定流程对话，智能性较差，缺乏跨平台移植的灵活性。
基于可才广展才示i己"i吾言(Extensible Markup Language, 简一尔为 XML )的特殊文档结构VoiceXML (语音XML )，是一种应用于语音浏览的标记语言，能够将用户交互作用的代码从服务逻辑中分离出来，利用VoiceXML文档，可以开发更加接近于人类语言的交互系统，增加语音交互的智能化，并且开发出的交互系统能够适用于多种应用平台。
但是，针对语音交互技术智能性差且不能够跨平台移植的问题，相关技术中尚未提出有效的技术方案。

发明内容
考虑到相关技术中语音交互技术智能性差且不能够跨平台移植的问题而提出本发明，为此，本发明的主要目的在于提供一种基于
VoiceXML的移动终端i吾音交互方法及移动终端，以解决坤目关4支术中存在的上述问题至少之一。
为了实现上述目的，根据本发明的一个方面，提供了一种基于 VoiceXML移动纟冬端i吾音交互方法。
根据本发明的基于VoiceXML的移动终端语音交互方法包括将接收的语音信息转换为VoiceXML文档，根据预先配置的 VoiceXML文档才医架解4斤VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息，其中，VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档；将查找到的功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通^口l会人才几-接口；只t来自人才A4妄口的回应4言息进4亍VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放。
优选地，将^t妄收的语音信息转换为VoiceXML文档包^r:通过基于VoiceXML的语音识别4是取语音信息中的识别的文本，将才是取的文本组合为VoiceXML文档。
优选地，才艮据预先配置的VoiceXML文档冲匡架解析VoiceXML 文档包括确定VoiceXML文档的关键节点，在VoiceXML文档框
架中查找相应的关键节点，并将查找到的关键节点对应的有效数据作为语音信息需要实现的功能信息。
优选地，将查找到的功能信息映射为人机接口的具体功能对应的功能包括将查找到的功能信息映射为人机接口能够执行的相应功能函凄t和函数参凄史信息，并将映射后的功能函lt和函凄t参H信息作为映射后的功能。
^尤选i也，7十来自人才几*接口的回应^f言息进4亍VoiceXML回应文才当转换处理，并将转换结果通过相应的语音信息进行播放包括将来自人才A4妾口的回应4言息寿争4灸为VoiceXML回应文才当；^是取VoiceXML 回应文档中的语音信息，通过基于VoiceXML的语音合成合成为语音信息进行播放。
根据本发明的另一方面，还提供了一种移动终端。
根据本发明的移动终端包括人机接口功能模块，并且，该移动终端还包括交互功能界面模块，用于将接收的语音信息转换为 VoiceXML文档，并将VoiceXML回应文档的转纟灸结果通过相应的语音信息进行播放；功能映射模块，用于4艮据预先配置的VoiceXML 文档框架解析VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息，将查找到的功能信息映射为人机接口功能才莫块的具体功能对应的功能，并将映射后的功能通知纟合人4几4妄口功能模块，还用于对来自人机接口功能模块的回应信息进行 VoiceXML回应文档转换处理，并将转换结果发送至交互功能界面模块。
优选地，交互功能界面模块包括交互界面，用于接收来自用户的语音信息，将该语音信息发送至语音识别模块，并播放来自语音合成模块的语音信息；语音识别才莫块，用于通过基于VoiceXML 的语音识别提取来自交互界面的语音信息，并转换为对应的文本信息，将对应的文本信息组合为VoiceXML文档；语音合成才莫块，用于提取来自功能映射模块的VoiceXML回应文档中的语音信息，通过基于VoiceXML的语音合成合成语音〗言息。优选地，功能映射模块包括配置纟莫块，用于配置VoiceXML 文档框架，其中，VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档；VoiceXML解析器，用于确定来自语音识别才莫块的VoiceXML文档的关键节点，在VoiceXML文档框架中查找相应的关键节点，并将查找到的关键节点对应的有效数据作为语音信息需要实现的功能信息，还用于将来自功能交互模块的回应信息进行VoiceXML回应文档转换处理；功能交互模块，用于将查找到的功能信息映射为人机接口功能^^莫块对应的功能，将映射后的功能通知给人机接口功能模块，并接收来自人机接口功能模块的回应4言息。
优选地，功能交互模块映射的人机接口功能模块对应的功能，为人机接口功能模块能够执行的相应功能函数和函数参数信息。
^昔助于本发明的上述4支术方案，通过在移动终端的專id牛MMI 层增加交互功能界面模块和功能映射模块，解决了相关技术中语音交互技术智能性差且不能够跨平台移植的问题，能够实现高智能化的复杂语音交互，并且，根据本发明实施例的技术方案适用于多种平台，提高了语音交互的可移植性。

此处所i兌明的附图用来^是供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中
图1是根据本发明实施例的移动终端的框图2是才艮据本发明实施例的一个优选结构的框图3是才艮据本发明实施例的另一优选结构的框图；图4是才艮据本发明实施例的基于VoiceXML的移动终端语音交互方法的流禾呈图5是根据本发明实施例的基于VoiceXML的移动终端语音交互方法的优选处理方案的流程图。
具体实施例方式
功能相无述
本发明的主要思想是将接收的语音信息转换为VoiceXML文档，才艮据预先配置的VoiceXML文档框架解析VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息；将查找到的功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通知给人机4妄口；对来自人机接口的回应信息进行VoiceXML 回应文档转换处理，并将转换结果通过相应的语音信息进4于4番;^。通过本发明，能够实现高智能化的复杂语音交互，并且，根据本发明实施例的技术方案适用于多种平台， -提高了语音交互的可移植性。
以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。如果不冲突，本发明实施例及实施例中特征可以相互组合。
装置实施例
根据本发明实施例，提供了一种移动终端。
图1是才艮据本发明实施例的移动终端的框图。如图l所示，该移动终端包括:交互功能界面才莫块10和功能映射模块20。
下面详细描述移动终端中各个模块的功能。交互功能界面才莫块10,用于将接收的语音信息转换为 VoiceXML文档，并^l夺VoiceXML回应文档的寿争才奂结果通过相应的语音信息进行播放；
功能映射模块20，连接至交互功能界面模块10，用于根据预先配置的VoiceXML文档框架解析VoiceXML文档，查找VoiceXML 文档对应的语音信息需要实现的功能信息，将查找到的功能信息映射为人机接口功能模块的具体功能对应的功能，并将映射后的功能通知给人机接口功能模块，还用于对来自人机接口功能模块的回应信息进行VoiceXML回应文档转换处理，并将转换结果发送至交互功能界面模块。
图2示出了 4艮据本发明实施例的交互功能界面才莫块10和功能映射才莫块20在移动终端中的相应位置，如图2所示，移动终端的人才几接口 ( Man Machine Interface,筒称为MMI)层包4舌MMI功能才莫块，才艮据本发明实施例，在移动终端的MMI层增加了交互功能界面才莫块10和功能映射一莫块20。
图3是根据本发明实施例的另一优选结构的框图。如图3所示，在图1所示结构的基础上，根据本发明实施例的交互功能界面模块 10进一步包4舌交互界面110, "i吾音识别才莫块120， i吾音合成才莫块 130，其中
交互界面110,用于接收来自用户的语音信息，将该语音信息发送至语音识别模块，并播放来自语音合成模块的语音信息；
语音识别才莫块120，连4妄至交互界面110,用于通过基于 VoiceXML的语音识别提耳又来自交互界面的语音信息中的识另'J的文本，将纟是取的述文本组合为VoiceXML文档；语音合成模块130，连接至交互界面110,用于提取来自功能映射才莫块的VoiceXML回应文档中的语音信息，通过基于VoiceXML 的语音合成合成语音信息。
并且，功能映射模块20进一步包括配置模块210, VoiceXML 解析器220，功能交互才莫块230，其中
配置才莫块210，用于配置VoiceXML文档冲匡架，其中，VoiceXML 文档框架中包括至少一个功能信息以及对应的VoiceXML文档；
VoiceXML解析器220，连接至配置模块210,用于确定来自语音识别才莫块的VoiceXML文档的关4建节点，在VoiceXML文档4匡架中查找相应的关键节点，并将查找到的关键节点对应的有效数据作为语音信息需要实现的功能信息，还用于将来自功能交互模块的回应信息进行VoiceXML回应文档转换处理；
功能交互模块230,连接至VoiceXML解析器220，用于将查
找到的功能信息映射为MMI功能模块对应的功能，将映射后的功能通知给MMI功能模块，并接收来自MMI功能模块的回应信息。优选地，功能交互模块映射的MMI功能模块对应的功能，为MMI 功能模块能够执行的相应功能函数和函数参数信息。
根据本发明的上述实施例，通过在移动终端的MMI层增加交互功能界面模块和功能映射模块，实现了高智能化的复杂语音交互，能够实现正常的呼叫、发送短信、操作名片夹等操作功能；并且，根据本发明实施例提供的模块可以跨平台移植，语音交互开发人员只需编写各种各才羊的VoiceXML文档4匡架，就能实现不同的通信逻辑交互，提高了语音交互的可移植性。根据本发明的上述实施例，通过在移动终端增加交互功能界面
模块和功能映射模块，实现了基于VoiceXML的人机交互，能够提高语音交互的智能化以及语音交互的可移才直性。
方法实施例
图4是根据本发明实施例的基于VoiceXML的移动终端语音交互方法的流程图。该方法可以实现上述装置实施例所4是供的移动终端。
需要说明的是，在以下方法中描述的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在图4中示出了逻辑顺序，^旦是在某些情况下，可以以不同于此处的顺序执4亍所示出或描述的步骤。如图4所示，该方法包括以下处理(步骤S402-步骤S406 ):
步骤S402，将接收的语音信息转换为VoiceXML文档，根据预先配置的VoiceXML文档冲匡架解冲斤VoiceXML文档，查找VoiceXML 文档对应的语音信息需要实现的功能信息，其中，VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档。
通过基于VoiceXML的语音识别^是取接收的语音信息中的识别的文本，将提取的文本组合为VoiceXML文档，确定VoiceXML文档的关4定节点，在VoiceXML文档框架中查找相应的关4定节点，并将查找到的关键节点对应的有效数据作为语音信息需要实现的功能信息。
步骤S404,将查找到的功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通知给人才几接口。将查找到的功能信息映射为人机接口能够执行的相应功能函数和函数参数信息，并将映射后的功能函数和函数参数信息作为映射后的功能。
步艰《S406，》于来自人才A4妄口的回应4言息进4亍VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放。
将映射后的功能通知给人机接口后，人才几接口根据该功能进行相应的操作，可以通过交互界面显示操作的结果，之后，人机接口返回纟喿作的回应^f言息，卩寻该回应4言息转^奐为VoiceXML回应文档，才是耳又VoiceXML回应文档中的"i吾音信息，通过基于VoiceXML的i吾音合成合成为语音信息进行播放。
下面以^安姓名拨号为例详细描述才艮据本发明实施例的4支术方案。图5是根据本发明实施例的基于VoiceXML的移动终端语音交互方法的优选处理方案的流程图。如图5所示，具体包括以下步骤
步骤S502,移动终端已经正常开才几，并进入待机状态，此时语音交互才莫块已经正常启动，等4寺用户'H兑出"需要的通讯功能。
步-骤S504,用户告诉移动终端对某个姓名拨号，MMI层交互界面模块获取话音提示，通过基于VoiceXML的语音识别提取识别的文本，纟且合成只于应的VoiceXML文档。
步骤S506， VoiceXML解析器解析该VoiceXML文档，根据预先配置的VoiceXML文档框架提取VoiceXML文档的实现功能信息，将VoiceXML文档框架中各节点对应功能，节点内信息对应操作的内容，作为一个整体的结构传递到功能交互模块。
步骤S508,功能交互模块根据解析器传递过来的结构映射为对应的功能函数及函数入参信息；实现将具体功能映射到对应MMI 功能实现才莫块，完成功能实现。步骤S510, MMI功能模块完成功能实现之后，发送回应给功能交互模块，功能交互模块打包为对应的回应结构，传递到解析器。
步骤S512,解析器作为桥梁，将回应结构转换为VoiceXML格式的统一回应文档，传递到i吾音合成才莫块。
步骤S514，语音合成模块根据VoiceXML文档的结构性特点，提取语音信息；将语音信息合成为语音(根据文档结构特点，可以进4亍相应的语音、i吾调及语速和4亭顿的处理，^吏交互更加流畅)，通过交互界面插^文《合用户，同时终端界面按功能显示相应状态。
图5示出了4艮据本发明实施例的正常情况下的一次完整的语音交互操作。
综上所述，借助于本发明的上述纟支术方案，通过在移动终端的软件MMI层增加交互功能界面模块和功能映射模块，能够实现高智能化的复杂语音交互，并且，根据本发明实施例的技术方案适用于多种平台，提高了语音交互的可移植性。
显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储
在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种基于语音可扩展标记语言VoiceXML移动终端语音交互方法，其特征在于，包括将接收的语音信息转换为VoiceXML文档，根据预先配置的VoiceXML文档框架解析所述VoiceXML文档，查找所述VoiceXML文档对应的所述语音信息需要实现的功能信息，其中，所述VoiceXML文档框架中包括至少一个功能信息以及对应的VoiceXML文档；将查找到的所述功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通知给所述人机接口；对来自所述人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放。
2. 根据权利要求1所述的方法，其特征在于，将接收的语音信息转换为VoiceXML文档包括通过基于VoiceXML的语音识别提取所述语音信息中的识别的文本，将提耳又的所述文本组合为所述VoiceXML文档。
3. 根据权利要求2所述的方法，其特征在于，根据预先配置的 VoiceXML文档框架解析所述VoiceXML文档包括确定所述VoiceXML文档的关4建节点，在所述VoiceXML 文档框架中查找相应的关键节点，并将查找到的所述关键节点对应的有效数据作为所述语音信息需要实现的功能信息。
4. 根据权利要求3所述的方法，其特征在于，将查找到的所述功能信息映射为所述人机接口的具体功能对应的功能包括将查找到的所述功能信息映射为所述人机接口能够执行的相应功能函数和函数参数信息，并将映射后的所述功能函数和所述函数参数信息作为映射后的所述功能。
5. 根据权利要求4所述的方法，其特征在于，对来自所述人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放包括将来自所述人4几*接口的所述回应信息转:换为所述 VoiceXML回应文档；提取所述VoiceXML回应文档中的语音信息，通过基于 VoiceXML的语音合成合成为所述语音信息进行播;故。
6. —种移动终端，包括人机接口功能模块，其特征在于，还包括交互功能界面模块，用于将接收的语音信息转换为 VoiceXML文档，并将VoiceXML回应文档的转换结果通过相应的语音信息进行播放；功能映射才莫块，用于根据预先配置的VoiceXML文档框架解析所述VoiceXML文档，查找所述VoiceXML文档对应的所述语音信息需要实现的功能信息，将查找到的所述功能信息映射为人机接口功能模块的具体功能对应的功能，并将映射后的功能通知给所述人机接口功能模块，还用于对来自所述人机接口功能一莫块的回应信息进行VoiceXML回应文档转换处理，并将转换结果发送至所述交互功能界面模块。
7. 根据权利要求6所述的移动终端，其特征在于，所述交互功能界面模块包括交互界面，用于接收来自用户的所述语音信息，将该语音信息发送至语音识别模块，并播放来自语音合成模块的语音信自'-所述语音识别才莫块，用于通过基于VoiceXML的语音识别提取来自所述交互界面的语音信息中的识别的文本，将提取的述文本组合为所述VoiceXML文档；所述语音合成模块，用于提取来自所述功能映射模块的所述VoiceXML回应文档中的语音信息，通过基于VoiceXML的 i吾音合成合成所述i吾音信息。
8. 根据权利要求7所述的移动终端，其特征在于，所述功能映射模块包括配置才莫块，用于配置所述VoiceXML文档框架，其中，所述VoiceXML文档框架中包括至少一个功能信息以及对应的 VoiceXML文档；VoiceXML解析器，用于确定来自所述语音识别才莫块的所述VoiceXML文档的关4建节点，在所述VoiceXML文档框架中查找相应的关4建节点，并将查找到的所述关4建节点对应的有效数据作为所述语音信息需要实现的功能信息，还用于将来自功能交互才莫块的回应信息进行VoiceXML回应文档转换处理；所述功能交互模块，用于将查找到的所述功能信息映射为人机接口功能模块对应的功能，将映射后的功能通知给所述人机接口功能模块，并接收来自所述人机接口功能模块的回应信息。
9. 根据权利要求8所述的移动终端，其特征在于，所述功能交互模块映射的所述人机接口功能模块对应的功能，为所述人机接口功能模块能够执行的相应功能函数和函数参数信息。
全文摘要
本发明公开了一种基于VoiceXML移动终端语音交互方法及移动终端，在上述方法中，将接收的语音信息转换为VoiceXML文档，根据预先配置的VoiceXML文档框架解析VoiceXML文档，查找VoiceXML文档对应的语音信息需要实现的功能信息；将查找到的功能信息映射为人机接口的具体功能对应的功能，并将映射后的功能通知给人机接口；对来自人机接口的回应信息进行VoiceXML回应文档转换处理，并将转换结果通过相应的语音信息进行播放。根据本发明提供的技术方案，能够实现高智能化的复杂语音交互，并可以提高语音交互的可移植性。
文档编号G10L15/22GK101527755SQ200910130320
公开日2009年9月9日申请日期2009年3月30日优先权日2009年3月30日
发明者彭海勇, 杨学森, 连东洲, 光陈申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：连东洲;杨学森;彭海勇;陈光
技术所有人：中兴通讯股份有限公司
我是此专利的发明人