一种智能语音交互系统及交互方法

文档序号:6463151阅读:391来源:国知局
专利名称:一种智能语音交互系统及交互方法
技术领域
本发明涉及智能语音控制技术领域,尤其涉及一种嵌入式结构的智能语 音交互系统及交互方法。
背景技术
目前基于语音处理技术的消费类电子产品在市场上大为流行,交互型产 品已有很多种,但这些产品中多数基于专用的语音识别芯片,其内核为单片 机或数字信号中央处理器,其实质是将麦克风输入的声音信号采样编码,再 通过内部处理器与其事先录制好的语音信息匹配,再将相应的语音信息通过 片内的模块经过外置的扬声器输出。但由于硬件技术限制,现有的产品无法 更新固化存储到硬件内的语音对话内容,容量有限,而且语音识别的字数也受到限制, 一般6 10字,并且其交互过程中,对语音的智能识别效果并不 好,识别率较低,其交互的方式、场合、可靠性、可更新性等均受到很大的 限制,导致该技术无法普及使用。如现有一种语音交互玩具,其发出的声音信号为拟人信号且对话的内容 为固化到该装置内的语音内容,当使用者为儿童时,存在其不易接受其拟人 化的声音,且该装置还存在不能自由及时更改交互所用的对话内容的问题, 用户使用一段时间后,失去新鲜感,从而趣味性降低,同时不能发挥用户的 设计能力,用户不能定制其个性化的交互内容和发音。发明内容本发明提供了 一种智能语音交互系统及交互方法,通过对采集后的语音信息的比对,根据比对结果进行准确应答,完成人机对话交互,并可以及时 更新所存储的语音信息达到变更对话场景的目的。本发明的目的是通过以下技术方案实现的 本发明实施方式提供一种智能语音交互系统,该系统包括 处理器、存储器、语音处理单元、语音输入装置、语音输出装置、通信 处理单元构成;处理器、存储器、语音处理单元及通信处理单元均设置在电路板上,存 储器、语音处理单元及通信处理单元通过总线与处理器连接构成嵌入式控制 板;语音输入装置、语音输出装置分别与嵌入式控制板上的所述的语音处理 单元连接;通信处理单元上设有通信接口 ,所述通信接口用于与安装定制用客户端 软件的计算机连接。 所述存储器包括动态存储器与FLASH存储器,两者分别通过地址/数据总线与处理器连接。所述语音处理单元包括语音采集模块,与所述语音输入装置及处理器连接,用于接收语音输入 装置输入的语音信息并传送至处理器;语音输出模块,与所述处理器及语音输出装置连接,用于将处理器处理 后的语音信息输出至语音输出装置。所述通信处理单元包括USB接口处理模块,与连接安装定制用客户端软件的计算机的USB接口连 接,对经所述USB接口从计算机获取的数据传送至FLASH存储器,并由所述处 理器进行处理;无线处理模块,与安装定制用客户端软件的计算机进行无线连接,用于对通过无线连接从计算机中获取的数据传送至所述处理器进行处理。 所述无线处理模块包括蓝牙模块或无线网络模块WLAN。 所述系统还包括显示处理模块,通过总线与处理器连接,用于处理处理器输出的图形界 面信息,显示处理^^莫块上设有用于连接显示装置的显示接口;显示装置,与所述显示处理模块的显示接口连接,用于显示由所述显示 处理模块输出的图形界面信息。本发明实施方式还提供一种智能语音交互系统的交互方法,该方法包括系统启动,处理器加载存储器中的语音识别模块及语音库模块;语音输入装置录入外部声音命令并传送至语音处理单元,外部声音命令 经语音处理单元转化为数字声音信号;语音处理单元将所述数字声音信号传送至处理器,处理器调用所述语音 识别模块对所述数字声音信号进行比对;处理器根据比对结果,将语音库模块中的对应的应答数字声音信号通过 语音处理单元经语音输出装置输出。所述处理器加载存储器中的语音识别模块及语音库模块包括通过处理器的控制,将存储在FLASH存储器中的语音识别模块、语音库模 块加载到动态存储器中。所述方法还包括从处于联机状态的计算机中,通过定制用客户端软件 对所述语音库模块对应的配置文件及相应的数据进行定制更新;或者,通过处于联机状态的计算机从网络服务器下载与语音库模块相对应的配 置文件及相应的数据,通过所述配置文件及相应的数据对语音库模块进行更 新;或者,通过无线连接方式与网络或智能设备连接,并从网络服务器或智能设备下 载与语音库模块相对应的配置文件及相应的数据,通过所述配置文件及相应 的数据对语音库模块进行更新。所述方法还包括通过无线网络模块与网络建立连接后,使用者通过网络 与该语音交互系统进行对话,将本地的语音交互扩展为通过网络进行的语音 交互。由上述本发明实施例提供的技术方案可以看出,本发明实施方式通过将 采集的使用者发出的命令语音信息与系统内存储在XML配置文件中关于交互内 容的设置信息比对,并根据比对结果进行准确的应答,完成与使用者进行对 话的交互过程,所存储的交互的回答信息完全使用人的录音,对话场景可通 过与安装客户端软件的计算机连接的方式方便的进行定制,且可以通过网上 下载来及时更新系统内存储的语音信息来达到变更对话场景的目的。该系统 可以作为通用的智能语音交互平台,且用户可自己设置不同的交互情景和识 别内容,应用在多种场合,如人机对话系统、智能玩具或服务机器人、智能 电子宠物、老年人陪护机器人等,应用性更强,实用性更强,语音交互更加 亲切、自然,如同两个人进行正常谈话一般;可脱离计算机进行工作,识别 率更高、数据处理速度更快、识别词表更广。


图l为本发明实施例的语音智能系统结构框图;图2为本发明实施例的另 一语音系统结构框图;图3为本发明实施例的语音智能系统的交互流程图;图4为本发明实施例的语音信息定制流程图;图5为本发明实施例的系统中各部件连接结构框图;图6为本发明实施例的中央处理器S3C2410电路图;图7为本发明实施例的存储器SDRAM1 HY57v56的电路图;图8为本发明实施例的存储器SDRAM2 HY5 7v5 6的电路图;图9为本发明实施例的存储器Flash K9F1208的电路图;图10为本发明实施例的音频芯片丽8731的电路图;图11为本发明实施例的USB接口部分的电路图;图12为本发明实施例的LCD显示接口部分的电路图;图13为本发明实施例的供电的电源部分的电路图;图14为本发明实施例的软件体系结构示意图;图15为本发明实施例的客户端软件定制界面示意图;图16为本发明实施例的语音交互系统的状态转换图。
具体实施方式
本发明实施方式提供一种用于智能玩具的语音智能系统交互方法,通过 语音输入装置与语音处理单元及处理器的配合,对使用者的语音信息进行采 集,并经处理器将采集的语音信息与存储器中预先存储的语音识别引擎中的 语音发音特征库的发音特征进行比对,根据比对结果输出准确的应答,达到 人机语音交互的目的,根据存储器中存储不同的交互内容的配置信息,则可 以实现不同对话场景的交互。该系统还可以通过与所连接计算机进行定制并 更新对话场景,或经连接的计算机从网络上的服务器中下载并更新存储器中 的相应的语音信息,达到更新语音交互对话场景的目的。该系统结构简单, 使用方便,识别率高,可应用在智能玩具、服务机器人、电子宠物等需要语 音交互多种语音交互平台上。为便于理解,下面结合附图和具体实施例进行说明。实施例一如图1所示,本实施例提供一种用于智能玩具的语音智能系统,该系统可 应用在多种话音平台上,实现语音交互,如语音智能玩具、机器人,人机对 话系统等,具体结构如图l所示,包括处理器、存储器、语音处理单元及通信处理单元均设置在电路板上,存 储器、语音处理单元及通信处理单元通过总线与处理器连接构成嵌入式控制板;语音输入装置、语音输出装置分别与嵌入式控制板上的所述的语音处理 单元连接;通信处理单元上设有通信接口 ,所述通信接口与安装定制用客户端软件 的计算机连接的通信接口 。其中,所述存储器包括动态存储器与FLASH存储器,两者分别通过地址 /数据总线与处理器连接。如图2所示,上述系统中,所述的语音处理单元包括语音采集模块,与 所述语音输入装置及处理器连接,用于接收语音输入装置输入的语音信息并 传送至处理器;语音输出模块,与所述处理器及语音输出装置连接,用于将处理器处理 后的语音信息输出至语音输出装置。 所述通信处理单元包括USB接口处理模块,与连接安装定制用客户端软件的计算机的USB接口连 接,对经所述USB接口从计算机获取的数据传送至所述处理器进行处理;无线处理模块,与安装定制用客户端软件的计算机进行无线连接,用于 对通过无线连接从计算机中获取的数据传送至所述处理器进行处理。其中, 所述无线处理模块可以采用蓝牙模块或无线网卡WIFI模块等,主要目的通过 该无线处理模块与计算机进行数据交互。所述系统还可以包括显示处理模块,通过总线与处理器连接,用于处理处理器输出的图形界面信息(如所述的语音智能系统与网络连接时,各 种使用状态的界面等),显示处理模块上设有用于连接显示装置的显示接 口。在具有显示处理模块的系统上,还可以设置显示装置,显示装置与所述 显示处理模块的显示接口连接,用于显示由显示处理模块输出的图形界面信 号,实际中显示装置可以采用液晶显示屏等。 实施例二本实施例提供了 一种基于实施例一 中的智能玩具的语音智能系统的交互方法,该方法包4舌系统启动后,通过处理器的控制,将存储在FLASH存储器中的语音识别 模块、语音库模块加载到动态存器中,实际中,这两个模块都是软件的形 式,如基于H醒的语音识别引擎;由语音输入装置将外部声音命令录入,通过语音处理单元(如通过语音 处理单元中的语音采集芯片)将所述外部声音命令的模拟声音信号转化为数 字声音信号;将所述数字声音信号发送到处理器,同时处理器调用动态存储器中的语 音识别模块,结合动态存储器中的信息对语音识别引擎中的语音发音特征库 的发音特征进行比对;处理器根据比对结果,将语音库模块中的对应的应答数字声音信号输出 到语音处理单元中的语音输出模块(如语音釆集芯片);语音输出模块通过语音输出装置(扬声器)将语音输出,完成一次人机 语音交互过程。上述方法还包括从处于联机状态的计算机中,通过定制用客户端软件 对所述语音库模块对应的配置文件进行定制并更新;或者,通过处于联机状 态的计算机从网络服务器下载与语音库模块相对应的配置文件,通过所述配置文件对语音库模块进行更新,达到更新系统的对话场景的目的。具体更新定制对话场景的过程如图3所示,包括 步骤31,打开计算机中的定制用的客户端软件; 步骤32,设置对话的起始音; 步骤33,用户进行对话场景设计;步骤34,设置完成后生成对话配置文件, 一般可以为XML文件; 步骤35,连接智能语音系统的USB接口 (或无线接口 )到所述的计算机; 步骤36,将所述的计算机中用户定制的对话情景(包括配置文件与打包 的语音文件)下载到智能语音系统,完成对话场景的定制更新;经连接的计算机从网络的服务器下载更新语音智能系统的对话场景,与 上述处理过程基本相同,只不过配置文件及相应的语音文件是由服务提供者 已定制好的存储在网络服务器中的,下载后,直接更新即可。 其中,具体的定制过程如图4所示,包括 步骤41,设置场景起始音;步骤42,用户进行第一组对话的设计,如设计用户的第一句问话(文字 输入),设置玩具的语音回答;步骤43,判读是否具有状态跳转?步骤44,若为否,则用户进行第二组对话的设计,第二句问话(文字输 入),设置系统的语音回答;若为是,则进行步骤46,用户进行第N组对话的 设计,第N句问话(文字输入),设置系统的语音回答;步骤45,判断是否具有状态跳转?若为否,则用户依次进行后续的下一 组的对话的:&计,并i殳计该组问话的对应的回答(可以用文字输入的方 式),再设置系统的与输入文字对应的语音回答;步骤46,若为是,则用户进行第N组对话的设计,第N句问话(文字输 入),设置系统的语音回答;步骤47,场景定制结束。实施例三本实施例中通过具体的实现过程对本发明的智能语音系统及其交互方法 作进一步说明,如图6 13所示,该系统分为软、硬件两个方面,具体包括(-)硬件部分硬件基于ARM9的高性能SOC处理器S3C2410,主频20謹hz,以ARM9 SC2410 嵌入式控制器为中心,通过外置的麦克风传感器完成语音信号的采集,语音 信号的采样、放大及预滤波及后续的语音播放由音频芯片丽8731完成,板上 配置32 x 16bit的扩展SDRAM存储空间及64M x 16bit的NAND Flash存储空间,系 统利用USB接口与用户应用开发层的客户端接口进行通讯。该系统中以USB接 口为例进行说明,此处也可以增加无线网卡,蓝牙接口等模块,可以实现与 S3C2410连接进行数据交换即可。并且可以在S3C2410处理器模块上增加LED显 示,达到3D动画输出等效果。硬件的电路部分具体分为几下几部分① 前端处理电^各系统采用无指向性麦克风进行语音输入,可以对正面120度夹角范围内的 语音信号进行釆集;前置放大抗混叠滤波以及A/D转换采用WOLFSON公司的适合 于语音应用的CODEC芯片丽8731,该语音处理芯片功耗较低,内部有2组ADC(模/数转换器)和DAC (数/模转换器),其抽样频率由外接的晶振频率和寄 存器设置为8KHz, 16位A/D采样,关闭了BYPASS模式,芯片设置为Slave(从)模式;并调节输入功放的增益,使得麦克采集语音的效果在5(T60cm的 范围内达到最佳;同时为了使得喇叭的输出声音足够大,将输出增益调为最 大值。② 系统功能电路系统核心处理器采用基于ARM 920T内核的SAMSUNG S3C2410处理器,主频 203Mhz,外部扩展64Mxl6bit的NAND Flash存储器,用于存储嵌入式实时操作 系统,语音识别引擎和语音交互的情景内容;32xl6bit的扩展SDRAM存储器作 为语音交互系统运行的数据緩冲区,使得S3C2410能够正常的进行信号的处理 和状态的判断转换。③人机接口电路语音交互系统通过USB接口与计算机相连的接口 , USB接口的连接电路见 图ll,从而可以方便用户进行设计语音交互的情景内容定制后,快捷的通过 USB接口下载到该系统中,从而实现交互内容的更新,实际中该接口部分也可 以采用无线接口,如蓝牙模块、无线网络模块WLAN等。仁)软件部分①语音交互系统的软件结构如图14所示,该语音交互系统的软件体系结构分为三层,依次为嵌入式 Linux实时操作系统,语音识别引擎层,用户应用开发层,其中用户应用开发 层包含用户客户端软件、基于XML配置文件的情景对话设置、USB下载接 口,其中,基于隐马尔可夫模型(H醒)的语音识别引擎,可以对非特定人200条 命令语句进行识别。用户通过客户端软件(如图15所示的定制界面)生成基于语音识别配置 文件(XML文件)的情景对话。可扩展的标识语言(extensible markup language, XML)采用自描述性的中立数据为结构,可以表示复杂的数据并使 其可读。在该软件结构中,XML文档被用来作为语音交互的配置文件并储存 了交互对话的初始状态信息和参数。语音交互系统启动时都会从XML文件读 取需要加载对话内容的信息和参数,通过对XML配置文件的加载和分析,将获 得的状态信息传递给有限状态机,并动态地建立起连接。用户通过客户端软件定制语音交互情景的流程如图3所示,用户需首先设 置情景对话的起始音,然后围绕服务机器人在某一场景下的对话内容(如家 庭娱乐、巡逻监控等)展开设计,其中可包括用户主动询问,机器人进行回 答;或机器人才艮据状态的判断,主动与人进行搭讪,并开始交互的过程,从 而使得更加的亲切和自然;设计完成后,点击客户端中的生成,从而生成语 音配置的XML文件,并将音频文件进行压缩打包,并通过连接台式机和语音交互系统的USB接口,完成对外接设备的识别,最后下载用户定制的语音交互情景内容到语音交互系统的F1 ash中,实现语音交互内容的设计和更新。场景设计的流程如图4所示,用户设计场景的起始音后,输入第一组对话 的文字,并指定该输入事件对应的状态,并根据语音识别状态的结果,通过 状态转移函数5的分析,得到是否进行跳转及后续交互进程。接下来,继续 第二组对话流程的设计,根据事件的输入进行识别和判断,并确定状态的转 移及机器人的反应。依次进行,直到完成整个场景交互内容的设计。 ②有限状态机(Finite State Machine)在语音交互中的应用 语音交互模块中的不同事件,即不同的语音或按键输入,这里的有限状 态集合Q包括四类状态,分别为声音的釆集和A/D转换状态,语音识别状 态、转换逻辑查询状态、语音回答输出状态、交互结束退出状态;有限的事 件集合S,即不同的声音输入或按键输入;状态转移函数5指根据不同输入 完成数据处理,实现不同状态输出的对应规则。如图16所示,五种不同的状态之间,通过状态转移函数5的具体规则, 即E1、 E2 ... E7,实现状态的转移,E1为从语音采集和A/D转换状态正常运行 后,跳转到语音识别状态;E2为对输入事件进行正确的语音识别后跳转到转 换逻辑查询状态;E3为满足语音输出时,跳转到语音回答输出状态;E4为当 语音交互过程中的输出反应完成时,跳转到结束推出状态;E5为当在某一状 态下,不能进行判断时,返回到上一状态;E6为当在某一状态下发生错误 时,直接跳转到结束状态,从而结束该词对话,开始新的交互。将有限状态机的理论与语音交互过程相结合,将语音采集和A/D转换、语 音识别、XML配置文件解析、转换规则对应、语音回答输出等作为不同的状 态,在状态机中进行状态的判断和转换,从而实现自然和谐的语音交互过 程。FSM作为语音交互系统的动态行为模型,基于"事件驱动"的"状态转移,,,适合于动态控制流程的表达,使系统具有了交互行为的逻辑表达能力,大大增强了可操作性。基于有限状态机的语音交互的优点是 一方面规 范了交互系统的行为和控制流程,缩短了用户在某一情景下进行语音交互的 设计开发周期,增加了交互的自然和顺畅;另一方面,使用FSM模型,将语音 交互过程所需实现的控制功能的状态,及其继承、转移关系的程度,更清晰 的表达出该交互系统中各输入事件、对应规则、状态跳转、交互输出的构成 结构。利用该方法成功地设计了面向儿童"寓教于乐"智能玩具的语音交互 系统,并在实际的产品运行中验证了上述设计方法的可行性。本实施例的系统还可以通过多种连接方式与计算机连接,可以实现多种 扩展功能上述系统除USB接口外,还可采用无线网络模块,在支持无线网络的环境 下,使该语音交互系统能够自动连接到配套的网站,并根据用户的要求, (如针对将该系统应用在智能玩具上的情况,在按动玩具上某个部位的按键 时),实现对话内容、歌曲、故事、数学闯关或其它网站上提供的对话主题 (如生日祝福对话、恋人表白对话、对父母亲人的思念问候对话)等主题的 下载,从而实现网络的自动更新。每个语音系统的无线模块都具有单独的IP地址,当在支持无线网络的环 境中时,该无线模块会自动搜索,并与无线路由器建立链接,无线路由器与 外部Internet网相连,乂人而该语音系统与Internet网络建立连接,并具有独 立的IP地址;该语音系统内部预选内置了下载网站(网络服务器)的地址,当 与外部网络联通后,会自动登陆到该网站,并根据用户按动下载按键的指 令,下载对应的网络内容,实现内容的更新。②通过无线网络的实时亲人、朋友对话该语音系统通过无线才莫块与Internet网络自动连接后,使该系统具有独 立的IP地址,使在其它任何可以上网的地方,都可以与该语音系统建立连 接,并实现网络的通话功能,如该语音交互系统以智能玩具的形式抱在儿 童的怀中,在单位的父母可通过网络实时与自己的小孩进行通话,了解其情 况,并进行亲情的交流,儿童只需按动玩具的某个部位的按键即可实现。在上述处理过程中,当语音系统通过无线网络^t块与外部Internet网络 建立连4妄后,该系统具有相应的IP地址,外部用户通过该IP地址,可与语音 系统建立连接,并发送通话请求,在语音系统这边会有提示音,用户通过按 动回答按键,建立与互联网网上的其他用户的通话连接,并复用上述语音系 统的音频输入、输出装置,进行通话。实现了在任何地方的用户,只要能够 上网即可与该语音系统进行对话,从而实现将本地的语音交互扩展为网络上 的语音交互。③蓝牙功能该语音系统还可以设置蓝牙模块,通过蓝牙可实现与具有蓝牙功能的 PC、手机及其它智能设备的互联,从而方便的通过无线的方式,与PC上的客 户端软件建立连接,并实现语音识别对话内容、歌曲、故事等形式的更新。 还可完成内置软件的智能升级等功能。当开启该系统中的蓝牙模块后,该蓝牙模块会自动的搜寻周围的蓝牙通 讯,当发现某蓝牙装置(如带有蓝牙功能的笔记本电脑或高端手机)后,会 与发出与该设备进行连接的请求,笔记本允许连接后,该蓝牙模块即与笔记 本电脑建立的基于蓝牙的无线连接,从而实现运行在笔记本电脑上的客户端 软件与该语音系统的通讯及对话内容及其它文件的下载。本实施例所述系统还可以在无计算机的前提下,实现交互系统的设置及 3D、动画的演示,具体如下①无计算机连接进行交互系统的设置该语音系统可以包括一个真彩色的TFT LCD及外面的触摸屏,能够对该交 互系统的一些运行情况及信息进行显示,同时用户可通过触摸屏方便的实现 对话内容的设置,及歌曲、故事播放顺序等的设置,从而不需与PC相连,即 可实现该交互系统的设置和更新。②3D、动画的演示通过该系统所具有的LCD显示器,可实现3D、动画的播放,从而使得该交 互系统的内容更加的丰富,同时该LCD显示器可播放不同情绪的图案(如喜怒 哀乐、哭脸、笑脸、垂头丧气等),与语音对话识别相结合,从而使得交互 过程更加的自然逼真,仿佛两个人在进行交流对话一样。LCD部分的硬件电路结构见图12, LCD的驱动程序在嵌入式Linux操作系统 中支持,如同台式^L的显示器一样,通过线路进行连接,同时该系统还可以 设置触摸屏,设置触摸屏时,其控制信号也与中央处理器S3C2410相连,用户 在首次使用时进行校准,当用户使用触摸笔点击触摸屏时,触摸屏对应的 (x, y)坐标信息传到CPU,根据其位置信息进行相应的操作。3D、动画的演示存储在Flash存储器中,由中央处理器S3C2410进行调 用,并在LCD显示屏上进行显示,同时和语音识别的状态机(FSM)相结合, 中央处理器S 3C241 O根据语音系统的状态进行判断,从而在输出语音信息的同 '时,在LCD上显示不同的动画和图案。综上所述,本发明实施例中的系统通过USB连接线(或无线连接的方式) 与计算机连接,安装在计算机上的客户端软件能够自动识别系统并建立连 接,用户通过具有图形化界面的客户端软件,能够方便的定制出自己的语音 交互情景,包括可以自己设置识别的问话,将自己的录音作为系统的回答, 并且可以在中间插入歌曲、故事等情景,还可以设计基于语音识别的游戏环 节,如故事接龙、数学闯关、智力问答等,按客户端软件规定的步骤操作完 成后,就可以通过USB接口线方便快捷的下载到系统的存储器中,从而成为一个具有全新内容并有自己声音的语音交互装置。其可以用户自己定制,充分 发挥想象力,创造出不同的情景和内容,更具有灵活性、智能性、参与性。以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可 轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明 的保护范围应该以权利要求的保护范围为准。
权利要求
1、一种智能语音交互系统,其特征在于,该系统包括处理器、存储器、语音处理单元、语音输入装置、语音输出装置、通信处理单元构成;处理器、存储器、语音处理单元及通信处理单元均设置在电路板上,存储器、语音处理单元及通信处理单元通过总线与处理器连接构成嵌入式控制板;语音输入装置、语音输出装置分别与嵌入式控制板上的所述的语音处理单元连接;通信处理单元上设有通信接口,所述通信接口用于与安装定制用客户端软件的计算机连接。
2、 根据权利要求l所述的系统,其特征在于,所述存储器包括动态存储器与FLASH存储器,两者分别通过地址/数据总线与处理器连接。
3、 根据权利要求l所述的系统,其特征在于,所述语音处理单元包括 语音采集模块,与所述语音输入装置及处理器连接,用于接收语音输入装置输入的语音信息并传送至处理器;语音输出模块,与所述处理器及语音输出装置连接,用于将处理器处理 后的语音信息输出至语音输出装置。
4、 根据权利要求l所述的系统,其特征在于,所述通信处理单元包括 USB接口处理模块,与连接安装定制用客户端软件的计算机的USB接口连接,对经所述USB接口从计算机获取的数据传送至FLASH存储器,并由所述处 理器进行处理;无线处理模块,与安装定制用客户端软件的计算机进行无线连接,用于 对通过无线连接从计算机中获取的数据传送至所述处理器进行处理。
5、 根据权利要求4所述的系统,其特征在于,所述无线处理模块包括 蓝牙模块或无线网络模块WLAN。
6、 根据权利要求l所述的系统,其特征在于,所述系统还包括 显示处理模块,通过总线与处理器连接,用于处理处理器输出的图形界面信息,显示处理模块上设有用于连接显示装置的显示接口 ;显示装置,与所述显示处理模块的显示接口连接,用于显示由所述显示 处理模块输出的图形界面信息。
7、 一种智能语音交互系统的交互方法,其特征在于,包括系统启动,处理器加载存储器中的语音识别模块及语音库模块;语音输入装置录入外部声音命令并传送至语音处理单元,外部声音命令 经语音处理单元转化为数字声音信号;语音处理单元将所述数字声音信号传送至处理器,处理器调用所述语音 识别模块对所述数字声音信号进行比对;处理器根据比对结果,将语音库模块中的对应的应答数字声音信号通过 语音处理单元经语音输出装置输出。
8、 根据权利要求7所述的方法,其特征在于,所述处理器加载存储器中 的语音识别模块及语音库模块包括通过处理器的控制,将存储在FLASH存储器中的语音识别模块、语音库模 块加载到动态存储器中。
9、 根据权利要求7所述的方法,其特征在于,所述方法还包括从处于 联机状态的计算机中,通过定制用客户端软件对所述语音库模块对应的配置 文件及相应的数据进行定制更新;或者,通过处于联机状态的计算机从网络服务器下载与语音库模块相对应的配 置文件及相应的数据,通过所述配置文件及相应的数据对语音库模块进行更 新;或者,通过无线连接方式与网络或智能设备连接,并从网络服务器或智能设备下 载与语音库模块相对应的配置文件及相应的数据,通过所述配置文件及相应的数据对语音库模块进行更新。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括通过无 线网络模块与网络建立连接后,使用者通过网络与该语音交互系统进行对 话,将本地的语音交互扩展为通过网络进行的语音交互。
全文摘要
本发明公开了一种智能语音交互系统及交互方法,该系统包括处理器、存储器、语音处理单元、语音输入装置、语音输出装置、通信处理单元构成;处理器、存储器、语音处理单元及通信处理单元均设置在电路板上,存储器、语音处理单元及通信处理单元通过总线与处理器连接构成嵌入式控制板;语音输入装置、语音输出装置分别与嵌入式控制板上的所述的语音处理单元连接;通信处理单元上设有通信接口,所述通信接口用于与安装定制用客户端软件的计算机连接。该系统可以作为通用的智能语音交互平台,且用户可自己设置不同的交互情景和识别内容,应用在多种场合,如人机对话系统、智能玩具或服务机器人等,应用性更强,实用性更强,可脱离计算机进行工作。
文档编号G06F3/16GK101246687SQ20081010234
公开日2008年8月20日 申请日期2008年3月20日 优先权日2008年3月20日
发明者淼 刘, 李仕毅, 王田苗, 莹 邹, 永 陶, 魏洪兴 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1