通用语音控制指令产生器的制作方法

文档序号：6416844阅读：505来源：国知局

专利名称：通用语音控制指令产生器的制作方法
技术领域：
本发明涉及一种使机器能执行人的自然语言指令，实现机器智能化的通用语音控制指令产生器。
目前现有的技术中，利用语音识别技术实现人的自然语言与机器对话，即人机对话，使机器能听懂人的语音指令并且去正确执行人所发出的指令，近几年已有相当的进展，使机器智能化的程度有相当迅速的提高，在语音识别技术方法方面多种算法正进入实用阶段，例如，美国摩托罗拉公司申请的美国专利US08/254,844，US08/413,146，荷兰菲利浦电子公司申请的欧洲专利EP95021139.3等，都提供了诸如利用神经网络、隐马尔可夫等语音识别算法。但上述技术中，没有实现机器智能化的语音控制指令产生器的硬件设计。
本发明的目的是提供一种通用性强、结构精小、低成本、可采用不同语音识别算法的语音控制指令产生器。
本发明由闪速存储器(I)、闪速存储器(II)、模数和数模转换器(A/D和D/A)、液晶显示器(LCD)、受话器、扬声器(或耳机)、键盘和电源等部件组成，其特征是还设置了数字信号处理器(DSP)和微处理(MPU)，数字信号处理器通过串行口与模数和数模转换器连接，微处理器与数字信号处理器通过串行接口相连接，键盘、液晶显示器和接口电路直接与微处理器连接，受话器、扬声器则连接在模数和数模转换器上。
本发明通用语音控制指令产生器，采用了微处理器(MPU)和数字信号处理器(DSP)双CPU协调工作的方式，解决了MPU和DSP的通讯接口，给出了MPU与DSP通讯专用命令；使MPU同时还完成了键盘接口、LCD接口、外界接口、电源管理和看门狗的功能，实现了系统最小化；由闪速存储器(I)存储语音识别算法的程序代码和初始化数据，可选用不同算法而无需更改硬件结构；除LCD、键盘、受话器、扬声器(或耳机)使用中安装于机器面板上外，其余硬件可集成于一个4×7cm的印制板上；输出控制指令最大条数为28＝256条。由于本发明通用语音控制指令产生器通用性强、结构精小、低成本、高识别率，故可广泛应用于需要使用人的自然语音控制机器，使机器设备智能化的场合，例如，生产用机器设备、家用电器设备、通讯设备、交通运载工具、仪器设备。
下面结合附图和具体实施方式
对本发明做进一步说明。

图1为通用语音控制指令产生器组成图；图2为通用语音控制指令产生器电路图；图3为微处理器SMC88308与数字信号处理芯片ADSP2186之间实现通信的流程图；图4为通用语音控制指令产生器的软件总空流程图；图5为识别模块流程图；图6为管理模块流程图；图7为训练模块流程图。
如附图所示，本发明的通用语音控制指令产生器由数字信号处理器(DSP)1、微处理器(MPU)2、闪速存储器(I)3、闪速存储器(II)4、A/D和D/A变换器5、液晶显示器(LCD)6、受话器7、扬声器8(或耳机)、键盘和电源管理装置等组成。受话器7接受指令发出者的语音指令，每个指令为一个词组，多个指令为多个词组。模拟语音指令通过A/D变换器转换为数字信息输入到DSP1中进行处理，语音回报通过D/A变换器转换为模拟信息送至扬声器8(或耳机)报告给指令发出者，以便给指令发出者以提示语句或确认发出的指令。数字信号处理器(DSP)1为语音识别的核心部件，完成语音识别和语音压缩等算法，它通过数据总线和地址总线与闪速存储器(I)3和(II)4直接连接，通过数据总线和A/D和D/A变换器5连接；闪速存储器(I)3用于存储所选用语音识别算法的程序代码和初始化数据；闪速存储器(II)4用于存储经过训练的语音控制指令样本。微处理器(MPU)2与数字信号处理器(DSP)1实现双CPU工作，MPU与DSP通过串行接口相连接，按本发明设计的专门指令通讯和运行；MPU可直接与键盘、液晶显示玻璃片和接口电路直接连接，内部包含看门狗电路功能。液晶显示器(LCD)6用于显示提示语句。电源管理装置用于节省DSP耗电的管理。4×4的键盘用于在训练与管理过程中的命令输入。控制指令输出至外部受控对象，在8比特位的情况下，控制指令最大条数为28＝256条。
图1清楚地说明了通用语音控制指令产生器的组成和各组成部分之间的连接关系，其中的LCD显示器6实际为液晶玻璃片，不含驱动芯片。由图2可见，本发明通用语音控制指令产生器主要由五个芯片组成，系统非常简单。这五个芯片是(1)U1，ADSP2186，数字信号处理(DSP)1芯片，时钟16.67M，33MIPS，一个指令周期为30n`s，内部含8K字程序存储器和8K字数据存储器，用于语音识别算法和语音压缩算法的实现；(2)U3，AT29C020，闪速存储器(I)3，用于存储程序代码和初始化数据；(3)U2，AT29C020，闪速存储器(II)4，用于存储语音命令模板；(4)U5，AD73311，A/D和D/A转换芯片5，16位D/A和A/D，内含增益控制，它把由J052送入的由麦克风获得的模拟语音信号数字化，然后通过DR信号线送入ADSP2186的串行口，它还可把从ADSP2186输出的串行数据从DT信号线接收进来，然后进行D/A变换，通过CON2连接到喇叭8还原为声音；(5)U7，SMC88308，为EPSON公司的8位单片机，其特点是内含8K BYTE的ROM和256K BYTE的RAM，用于固化用户程序；内含LCD驱动电路，可直接驱动液晶片，省去了外部的液晶驱动电路；内含看门狗定时器，省去了外部的对应电路；输入输出口非常丰富，可直接与键盘矩阵相连而无需额外的键盘编码电路，还可直接输出命令对应的编码，控制外部电路；内含串行接口，通过SIN，SOUT等信号线可与DSP芯片直接通讯；此外它还有电源电压监控电路，便于对电源进行管理等等。因此MPU与DSP配合使用是本发明的主要特色，它使得整个系统得到最大限度的简化，不仅最大限度的减少了系统的面积，降低了成本，还提高了系统的可靠性；此外MPU与DSP分工合作，DSP主要实现语音识别功能和语音压缩回放功能，其他功能则由MPU完成，这样最大限度的减少DSP的使用时间，从而减少整个系统的功耗，因为DSP的功耗大，而MPU的功耗很小，从而使本发明还可应用于使用电池的便携式产品。(6)U6，MC7805，为稳压芯片，为系统提供稳定的电源VCC；(7)U8，MAX705，这里用来产生上电复位信号RESET；此外J5为键盘与MPU的连接口，J4为系统与液晶玻璃片的连接口，J105为系统与仿真器的接口，J6为指令编码输出口。
MPU与DSP之间进行串行通讯，其数据传送过程如图3所示。MPU通过发出专门设计的命令控制DSP的操作并返回所需的数据。三组主要命令如下1.训练命令
2.识别命令
3.管理命令
通用语音控制指令产生器的软件总控流程图如图4所示。现结合该流程图说明本通用语音控制发生器的工作过程。系统启动后，等待键盘命令，可分别进入三种模式，即识别模式和训练模式及管理模式。若进入识别模式，则通过串行口发出命令，使ADSP2186启动语音识别程序，进行语音识别的操作，然后把识别的结果，即识别出来的命令的编码等信息返回SMC88308，并送去显示，具体过程如图5所示；若进入训练模式，则通过串行口发出命令，使ADSP2186启动训练程序，进行语音命令的训练操作，中间需要输入命令的编码，并通过串行口传递数据，具体过程参见图6；若进入管理模式，则通过串行口发出命令，使ADSP2186启动管理程序，进行相应的管理操作，并返回有关数据，参见图7。
图5为语音识别的流程图。由图可见，语音识别的过程首先进行语音检测，判断是否有语音输入；若有则对该语音进行特征提取，即提取输入语音的MFCC参数；参数提取后进行参数比较，即把输入语音的特征参数与存储在闪存中的语音命令的特征参数(即模板)进行比较，确定是否与其中的某个模板匹配，这里有两种情况，第一中情况是完全匹配，则被匹配的模板即为输入的语音命令，这时候匹配模板对应的编码即为输入语音命令的编码，通过串行口送回MPU；第二种情况是不完全匹配，这时候找到三个最接近的语音命令模板，并把它们的语音分别回放，让使用者判断，若其中有一个是输入的语音命令，则由用户确认后，把其语音编码返回MPU；若三个都不是输入的语音命令，则提示让用户从新输入一次语音命令，重复上述的语音识别过程，直到识别出结果。
图6为管理程序的流程图，它根据用户键入的键盘命令，进行模板查找，模板删除，回放命令词，回放系统词和录制系统词的操作。
图7为语音命令训练程序流程图。语音命令训练的过程首先是语音检测，即判断是否有语音输入；判断到有语音输入后，对该语音进行两方面的处理，一是提取该语音的特征，即计算其MFCC参数，二是对该语音数据进行压缩编码；然后把已记录的语音回放让用户判断，若用户键入信息表示不满意语音命令的质量，则重复以上操作，若用户键入信息表示满意语音命令的质量，则提示用户键入语音命令的编码，然后把输入的语音命令的特征参数(即模板)和压缩后的语音命令及其编码存入闪速存储器中，这时候完成了一次训练的操作。
权利要求
1.一种通用语音控制指令产生器，包括有闪速存储器(I)3、闪速存储器(II)4、模数和数模转换器(A/D和D/A)5、液晶显示器(LCD)6、受话器7、扬声器(或耳机)8、键盘和电源等部件，其特征是还设置了数字信号处理器(DSP)1和微处理器(MPU)2，数字信号处理器1通过串行口与模数和数模转换器5连接，微处理器2与数字信号处理器1通过串行接口相连接，键盘、液晶显示器6及接口电路直接与微处理器2连接，受话器7和扬声器8则连接在模数和数模转换器5上。
全文摘要
本发明涉及一种使机器能执行人的自然语言指令、实现机器智能化的通用语音控制指令产生器,由数字信号处理器(DSP)、微处理器(MPU)、闪速存储器(Ⅰ)、闪速存储器(Ⅱ)、A－D和D－A变换器、液晶显示器(LCD)、受话器、扬声器(或耳机)、键盘和电源管理装置等组成,采用双CPU工作,最大输出指令条数为文档编号G06F3/16GK1241746SQ9911610
公开日2000年1月19日申请日期1999年3月31日优先权日1999年3月31日
发明者江太辉, 张歆奕, 宋国栋, 张有为申请人:五邑大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江太辉;张歆奕;宋国栋;张有为
技术所有人：五邑大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。