嵌入式语音识别系统及其内核技术的制作方法

文档序号：2837060阅读：458来源：国知局

专利名称：：嵌入式语音识别系统及其内核技术的制作方法
技术领域：
：本发明涉及一种语音的自动识别技术，尤其涉及一种用于小规模语音识别产品的嵌入式语音识别系统及其内核技术。
背景技术：
：自动语音识别技术属于IT行业比较边缘的技术，经20多年的发展己逐步走向成熟。它是采用电脑或独立电子装置来自动识别人类自然语音的技术，因而，可以应用于任何需要使用语音向电子装置输入信息的情景。特别是最近五年来，由于微电子产业的快速发展以及相关
技术领域：
的成熟，使得语音识别这一长期以来的愿望逐步成为可能。嵌入式语音识别技术，特指在电脑以外的独立装置上运行的技术。业界逐渐认为，它有着比非嵌入式语音识别技术更广泛的应用范围和前景。由于语音识别技术本身的诸多复杂性，以及一般嵌入式——如手机等装置，需要额外解决如环境噪音等诸多问题，因此，使得这一领域不论在国内还是在国外，至今均没有出现令人满意的实用产品。进而，由于小型嵌入式——如智能玩具等单一芯片系统，需要面对低成本限制所带来的系统资源有限，并且需要达到一定的识别准确率，因此，就更加具有挑战性。目前，大多数嵌入式语音识别系统中的关键内核技术，都是采用现成芯片或模块集成到系统中去的，由于存在抗噪音和有限系统资源等方面存在的问题，因此，这些芯片或模块都不能做到相对完善的程度，市场上也不存在标准的产品供开发者选用并集成。另外，由于系统控制方式与算法的缺陷，也使得该系统使用时要占用大量系统资源，在识别过程中有可能会耗费大量电能，从而影响嵌入式语音识别系统的正常使用。
发明内容本发明的目的在于提供一种嵌入式语音识别系统，它针对于中小型嵌入式语音识别技术的特点，通过科学合理的算法模型，并通过芯片或模块的设计优化与集成，使系统达到较佳的使用性能。本发明的另一目的在于提供一种嵌入式语音识别系统的内核技术，该技术通过小型数字信号处理器(DSP)硬件平台可实现连续语音识别、语音理解和"关键词检出"，并可实现系统的小型化，低成本制作。为实现本发明的目的，一种嵌入式语音识别系统，包括语音拾取装置，与语音拾取装置相连的模数转换器，与模数转换器相连的识别算法部分，主程序部分与识别算法部分、增益控制部分及驱动控制等执行部分相连接，以及用于存储识别器算法固定参数的内存器，所述的语音识别算法部分包括与模数转换器相接的端点检测部分、前置降噪、特征提取和隐式马尔科夫模型(H^Q识别器部分，马尔科夫模型识别器还与语言模型参数模块和参数适配模块相适配，端点检测部分与特征提取部分均与增益控制部分连接。为实现本发明的另一目的，一种嵌入式语音识别系统的内核技术，在语言参数的模块中，为在小型数字信号处理器(DSP)硬件平台上实现连续语音识别、语音理解和"关键词检出"功能所采取的一种子词单元，作为隐式马尔科夫模型(HMM)模型参数的结构单元，所选子词为包含临域影响的通用无调双音(contextdependentgeneralizedtonelessbiphone)，这禾中具体子i司适应于中文i吾音识别，而对于其它语种的识别有类似技术手段来定义最合适的子词单元；所述的包含临域影响的通用无调双音子词单元，同时使用大量不同说话者的语音数据对隐式马尔科夫模型(HMM)参数进行出厂前训练的方法，识别系统能够正确识别一种语言中全部词汇和所有未来说话者的语音，而无须采用这些未来说话者的任何语音资料。本发明的优点是该系统通过科学的算法模型，结合嵌入式语音识别技术的优化设计，解决了语音识别技术在现实使用过程中的瓶颈，从而实现了以最经济有效的形式达到中小型语音识别系统所要达到的使用要求。图1为本发明嵌入式语音识别系统的工作原理框图；图2为本发明嵌入式语音识别系统中识别器的工作原理框图。下面结合附图对本发明嵌入式语音识别系统及其内核技术作进一步的详细说明具体实施例方式如图l、2所示，一种嵌入式语音识别系统，主要包括语音拾取装置，与语音拾取装置相连的模数转换器，与模数转换器相连的识别算法部分，主程序部分与识别算法部分、增益控制部分及驱动控制等执行部分相连接，以及用于存储识别器算法固定参数的内存器；上述的语音拾取装置主要是指有线或无线的话筒；上述的主程序控制部分通过声频输出与扬声器相连，对话过程中识别器发出的语音、音乐由该扬声器发出；上述的语音识别算法部分包括与模数转换器相接的端点检测部分、前置降噪、特征提取和隐式马尔科夫模型(H醒)识别器部分，马尔科夫模型识别器还与语言模型参数模块和参数适配模块相适配，端点检测部分与特征提取部分均与增益控制部分连接；由所述模数转换器、识别算法部分、主程序部分、增益控制部分及驱动控制执行部分等组成的专用集成电路(ASIC)，其结构基础采用数字信号处理器(DSP)类芯片作为基本硬件结构，且内部包含有高效运算单元和外围接口电路；所述的数字信号处理器(DSP)类芯片采用16位定点数字信号处理器(DSP)。系统电路中还设置有电平唤醒电路，该电路设置在语音拾取装置之后并与主程序部分连接。具体结构及工作过程描述如下如图1所示，为嵌入式语音识别系统的总体结构。其中黑线框内为专用集成电路(ASIC)部分，虚线所示模块表示在某些类型系统中的可选部分。当语音拾取装置采用单一的话筒时，该主话筒收取语音输入信号，经模数转换为数码信号，送至识别器算法部分。在多话筒产品中，另有一个或多个辅话筒收取其它信号经有线或无线连接传送到另外路径的模数转换，同样送到识别器算法。这些辅话筒的信号作用是，在某些声场环境下，更佳地去除背景噪音影响的算法所用。所有模数转换器的增益可以经算法和主程序进行动态控制。识别的输出结果经必要的控制驱动，对外部动作进行控制，例如电动机、灯、显示等，具体控制的类型和数量根据需要而设定。语音识别和对话过程中识别器发出的语音或音乐等输出，经声频输出推动扬声器发声。内存器用来存储识别器算法所用的固定参数部分，以及识别过程需要的变化部分。另外，整个系统还设置有电池供电。在有些类型的系统中，还需要有外存来存储部分的模型和系统参数，以灵活地满足中小批量客户的多样需求。如图2所示，为所述语音识别器及其相关的主要算法部分。经模数转换的连续数码输入信号，由端点探测模块确定输入信号中语音部分的起始和结束点;这样可以使语音识别算法部分仅仅集中计算属于语音的信号。同时，结合外部简单的电平唤醒电路，系统诸多运算模块在多数没有声音的时间段，都处于低耗电的待机状态。在探测到语音输入时，由一有限状态机协助确定，并在这段时间内进行语音识别的运算。而后，根据单话筒或多话筒系统，基于当时环境噪音的强弱，动态地压縮噪音部分，尽量保持干净的语音信号进入后继模块。降噪模块部分地利用了端点探测的结果，来区分含语音及纯噪音的信号。特征提取模块将输入语音信号分成等时间间隔的"祯"，对每一桢的数码语音信号进行数字信号处理操作，而获取简捷描述最有用的语音信息部分，称为"特征向量"。输入部分的增益控制量的计算采用一部分特征；同时利用了端点探测模块所获取的对于噪音的跟踪区别信息，从而对于纯噪音输入信号提供小增益。全部的语音特征送至隐式马尔科夫模型(HMM)识别器进行识别。识别的过程同时需要模型参数，包括"训练"好的语音模型参数，以及关于"语法"的语言模型参数，参数适配模块动态地对语音特征向量的多种变化进行适配，包括音量变化、说话者语音变化、以及声音传输通道特性如空间回音带来的变化等，适配的效果是尽量忽略这些变化，使得这些变化对于语音识别效果的影响达到最小。语音识别的结果，包括识别到的词汇序列、关键词、以及理解到的概念单元，输出到系统其它部分。本发明还公开了一种嵌入式语音识别系统所涉及的内核技术，在语言参数的模块中，为在小型数字信号处理器(DSP)硬件平台上实现连续语音识别、语音理解和"关键词检出"功能所采取的一种子词单元，作为隐式马尔科夫模型(HMM)模型参数的结构单元，所选子词为包含临域影响的通用无调双音(contextdependentgeneralizedtonelessbiphone)。这禾中具体子i司适应于中文i吾音识别，而对于其它语种的识别有类似技术手段来定义最合适的子词单元；在上述的嵌入式语音识别系统的内核技术中，所述的包含临域影响的通用无调双音子词单元，同时使用大量不同说话者的语音数据对隐式马尔科夫模型(HMM)参数进行出厂前训练的方法，识别系统能够正确识别一种语言中全部词汇和所有未来说话者的语音，而无须采用这些未来说话者的任何语音资料。在小型系统上，须实现基于子词的连续语音识别、关键词检出及语音理解等功能要求，其具体技术过程描述如下现有绝大多数小型语音识别系统都是对于整个语音指令的识别，同时所有指令都需要使用者事先录入。例如，对于一个简单的宠物玩具产品，使用者需要录入"过来"、"走开"、"向左"、"向右"等。录入完成后，使用中也必须说出完全相同的指令，如上述4个指令之一。这样的识别器系统结构简单，但是在使用中受到局限，例如，它无法满意识别"你过来呀"等，与录入时不完全相同的语句。这类问题被系统地称为"不规范语音"问题。人类在自然的语音对话中，多数是不完全规范的，在表示相同"意思"时，可以有很多不同的表示方法。在大型语音识别已经成功使用若干方法来解决这类问题，达到使用者一定程度上感觉用自然方式对话，而不是迫使说话者一定说预先约定的指令。为达到上述目的，系统首先要能够识别连续的语音，而不仅仅是孤立的指令。最灵活的实现方式就是采用词内单元"子词"作为系统的基本模型单元，进而用这些单元来组建一种语言中的所有词汇。实验语音学的理论提出若干种常用的基本单元，如"音素"和"音节"。本发明具体设计和实验过程最终确定了从理论与语音识别的工程实践角度达到最佳的子词单元；它既最简地代表了一种语言中的不同语音，又包含了音素间不同的转换邻域声学影响。对于汉语普通话来说，我们选用无调generalizedbiphone(通用双音，无字间邻域影响)作为子词单元。下表例举一些通用双音与汉语单字的关系。可见，字内邻域的影响已经经过根据音素类别的组合，例如dtnl-ai表示，ai左边(以-表示左)的l的邻域影响已经组合为(d,t,n.l)—类声母的影响了。<table>tableseeoriginaldocumentpage8</column></row><table>其次，语音识别器需要建立一种能够识别整个语句中的一部分的能力，而不是仅仅能够识别整个语音。这称为'关键词检出'。从而，对于上述玩具指令的例子，当使用者说"过来"、"你过来呀"、或"请你走过来"等，总之任何包含"过来"的语句时，玩具都能够正确反应。另外，更加进一步地允许输入语音的"模糊"程度，属于简单的"语音理解"功能。对于一个具体的对话互动程序，对于对话双方感兴趣的话题，将它们通过类似关键词的方式，在识别的"语法"中对于"概念单元"进行事先的标注。在识别的过程中，系统根据这些概念单元出现与否、它们出现的相对顺序等事先约定的关系，以及它们的取值，综合判断出说话者所说的"意思"，而不一定是完全固定的语句。本发明中所设计并实验决定使用的技术达到了对于中小型识别对话程序的理想效果。在本发明中，一种嵌入式语音识别系统的内核技术，是基于前述的隐式马尔科夫模型(以下也可简称"HMM")的高精度语音识别基础结构和算法，它是在小型数字信号处理器(DSP)硬件平台上实时实现的；在所述小型数字信号处理器(DSP)硬件平台上实时实现所必须的、有别于在大型系统上实现的特殊技术，包括合理高效使用有限存储空间，和保持运算精度的半浮点模拟运算；为保持高精度续概率密度同时又高效使用有限存储空间的方法，根据语音学知识以及数据统计分布而做的对于HMM参数的分类被共享使用(也被称为"半连续概率密度")。为了完成对中小型嵌入式语音识别的任务，需要选择在低价格芯片架构上切实可行的，同时又达到一定运算精度的基本算法结构。近代语音识别的技术已经经历了20多年的发展历史，因而对于最成熟的算法己经有了深刻认识。这算法结构除了具有良好的数学基础，也已经在语音识别技术的实践中得到验证。至今为止的绝大多数大型语音识别系统均采用基于HMM的统计算法结构，取得了业内最好的识别效果。但是由于该算法所具有的复杂程度，在小型嵌入式识别系统实现它有很大难度。从而至今为止绝大多数小型嵌入语音识别都是采用更简单的DTW(动态时轴压縮)算法。但是DTW的结构带来若干局限，主要是它无法有效地获取实际语音中的诸多变化，诸如口音以及声学环境的变化；从而它的识别效果较差，特别是针对多说话者不同的语音，以及连续语音的识别。在本发明专利的方法中，针对小型嵌入式语音识别系统，为了完整地实现HMM的统计结构算法。首先，要保证充分的计算精度，保留了大规模系统中使用的"连续概率密度"结构。这结构中，系统事先存储的是这些高斯密度函数的参数；对于输入的语音特征向量，以及权重高斯密度函数来进行概率运算。这些计算量比较大。本发明采用的简化方法包含对于一类的参数浮点值采用相同的幂，而实际使用定点运算，等。对比的结构可称为'离散概率'系统，它是选取事先存储的"码本"值，因此减少了识别时的运算量。但是由于这些码本值的获取过程已经引入很大误差，'离散概率'系统通常的精度会比'连续密度'系统有很大下降，因而本发明没有采用。其次，由于小型系统存储空间的局限，巨大数量的HMM参数经过巧妙结构，做到很大程度地多次共享使用。这共享的理论基础是语音学及语言学的知识，以及这类信息在统计系统中的分布结构。以下举例量化说明共享系统中参数量的减小系统中每一基本语音单元(如b+a)由一HMM模型表示，而该模型具有S个"状态"，例如S-3个态sl，s2，s3。每一个态包含对于特征桢信号的一个"观察概率密度"，它通常是N个高斯分布函数的加权组合(例如N=8)来比较完善地表述实际信号的不同取值分布。通常一个特征祯向量含M个分量(例如M-20);而每一个M—维(独立维)高斯密度函数需要2M个参数来表述。进而，因为整个一种语言语音(如汉语普通话)需要K个基本语音单元来表示(通常K-300以上)，那么，整个系统就至少需要SxKxN=7200个高斯密度函数，等于2MxSxKxN=40x3x300x8=288000个参数。另外还有7200个权重系数及少量其它参数。对于中小型嵌入系统来讲，这么多的参数要求的存储空间过于繁重。而从另外角度讲，中小型的识别M壬务'中需要分辨的不同语音事件的数量比较有限，所以可以不需要这么多参数来表述。本发明采取的方法是，首先用统计方法获取代表整个系统"声学空间"的一个统一的高斯密度函数库，它包含从上述7200个高斯密度函数中选出的P个高斯密度函数(例如P=200)作为代表。而系统中不同的基本语音单元的HMM态共享这库中的高斯密度函数。每一个HMM的每一个态s根据语音训练过程中的情况，各自选取这P个密度函数中的8个;不同态可以选用一些相同的高斯密度函数，但有自己各自不同的权重系数。这样，总共只需要2MxP+SxKxN=40x200+3x300x8=15200个参数，仅相当于上述非共享系统参数量的5%左右。在实践中，这种态共享系统可以达到与非共享系统基本相同的识别效果，同时从根本上解决了有限存储空间的问题。权利要求1、一种嵌入式语音识别系统，包括语音拾取装置，与语音拾取装置相连的模数转换器，与模数转换器相连的识别算法部分，主程序部分与识别算法部分、增益控制部分及驱动控制等执行部分相连接，以及用于存储识别器算法固定参数的内存器，其特征在于所述的语音识别算法部分包括与模数转换器相接的端点检测部分、前置降噪、特征提取和隐式马尔科夫模型(HMM)识别器部分，马尔科夫模型识别器还与语言模型参数模块和参数适配模块相适配，端点检测部分与特征提取部分均与增益控制部分连接。2、根据权利要求1所述的一种嵌入式语音识别系统，其特征在于由所述模数转换器、识别算法部分、主程序部分、增益控制部分及驱动控制执行部分等组成的专用集成电路(ASIC)，其结构基础采用数字信号处理器(DSP)类芯片作为基本硬件结构，且内部包含有高效运算单元和外围接口电路。3、根据权利要求2所述的一种嵌入式语音识别系统，其特征在于所述的数字信号处理器(DSP)类芯片采用16位定点数字信号处理器(DSP)。4、根据权利要求1所述的一种嵌入式语音识别系统，其特征在于所述的系统中还设置有电平唤醒电路，该电路设置在语音拾取装置之后并与主程序部分连接。5、根据权利要求l、2、3或4所述的一种嵌入式语音识别系统，其特征在于所述的主程序控制部分通过声频输出与扬声器相连，对话过程中识别器发出的语音、音乐由该扬声器发出。6、一种嵌入式语音识别系统的内核技术，在语言参数的模块中，为在小型数字信号处理器(DSP)硬件平台上实现连续语音识别、语音理解和"关键词检出"功能所采取的一种子词单元，作为隐式马尔科夫模型(HMM)模型参数的结构单元，所选子词为包含临域影响的通用无调双音(contextdependentgeneralizedtonelessbiphone)。这种具体子词适应于中文语音识别，而对于其它语种的识别有类似技术手段来定义最合适的子词单元。7、根据权利要求6所述的一种嵌入式语音识别系统的内核技术，其特征在于所述的包含临域影响的通用无调双音子词单元，同时使用大量不同说话者的语音数据对隐式马尔科夫模型(HMM)参数进行出厂前训练的方法，识别系统能够正确识别一种语言中全部词汇和所有未来说话者的语音，而无须采用这些未来说话者的任何语音资料。8、根据权利要求6或7所述的一种嵌入式语音识别系统的内核技术，其特征在于还采用了一种基于隐式马尔科夫模型(HMM)的高精度语音识别基础结构和算法，它是在小型数字信号处理器(DSP)硬件平台上实时实现的。9、根据权利要求8所述的一种嵌入式语音识别系统的内核技术，其特征在于在所述小型数字信号处理器(DSP)硬件平台上实时实现所必须的、有别于在大型系统上实现的特殊技术，包括合理高效使用有限存储空间，和保持运算精度的半浮点模拟运算。10、根据权利要求8或9所述的一种嵌入式语音识别系统的内核技术，其特征在于为保持高精度续概率密度同时又高效使用有限存储空间的方法，根据语音学知识以及数据统计分布而做的对于HMM参数的分类被共享使用(也被称为"半连续概率密度")。全文摘要本发明公开了一种嵌入式语音识别系统，包括语音拾取装置，与语音拾取装置相连的模数转换器，与模数转换器相连的识别算法部分，主程序部分与识别算法部分、增益控制部分及驱动控制等执行部分相连接，以及用于存储识别器算法固定参数的内存器，所述的语音识别算法部分包括与模数转换器相接的端点检测部分、前置降噪、特征提取和隐式马尔科夫模型识别器部分，马尔科夫模型识别器还与语言模型参数模块和参数适配模块相适配，端点检测部分与特征提取部分均与增益控制部分连接，其优点是算法模型科学合理，通过嵌入式语音识别技术的优化设计，实现了系统的最佳使用效果。文档编号G10L15/28GK101299333SQ200710022018公开日2008年11月5日申请日期2007年4月30日优先权日2007年4月30日发明者雪王申请人:张家港市思韵语音科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王雪
技术所有人：张家港市思韵语音科技有限公司
我是此专利的发明人

上一篇：使用共振峰增强提取话音共振峰轨迹的方法
上一篇：基于净荷深度检测和会话关联技术的腾讯语音识别方法