语音辨认所有语言及用语音输入单字的方法

文档序号：6375025阅读：628来源：国知局

专利名称：语音辨认所有语言及用语音输入单字的方法
语音辨认所有语言及用语音输入单字的方法技术领域
中文有408个单音，再加上四声，现代语音方法不能辨认408X4个单音，英文更多。本发明将常用字分成m ( = 500)个左右不同的相似音群(类)，每一类相似音的文字由一个未知相似音代表。使用者对一个单字发音，本发明用贝氏分类法在m类未知单音中找出几个与该单字发音最相似的未知单音，再从这几个相似的未知单音所代表的类中的单字去找所要的单字及句子。
本发明用12个弹性框(窗)，等长，无滤波器，不重叠，将长短不一的一个单音的音波转换成12X12的线性预估编码倒频谱(LPCC)矩阵。
本发明包含贝氏比对法，在m个未知单音中为发音者找F个与所需要单字发音最相似的未知单音。因仅在固定的m类中辨认F个最相似的未知单音，本发明最重要的功能是可以很快辨认单字，句子及输入大量单字。同样单字发不同单音或不同语言，分别放在不同类中，因此单字或句子用不同发音或不同语言均可辨认，本发明不需样本。
背景技术：
现代用打字输入中英文单字，每个单字必须知道它的正确发音(或注音符号)，必须练习打字，极不方便，所以一般人均不会文字输入。语音辨认及语音输入文字是今后趋势及发展的目标，不用打字，发音不准，有重音及其它语言均可输入文字。
发一个单音时，它的发音是用音波表示。音波是一种随时间作非线性变化的系统，一个单音音波内含有一种动态特性，也随时间作非线性连续变化。相同单音发音时，有一连串相同的动态特性，随时间作非线性伸展及收缩，但相同的动态特性依时间排列秩序，但时间不同。相同单音发音时，将相同的动态特性排列在同一时间位置上非常困难。更因相似单音特多，造成辨认更难。
一个计算机化语言辨认系统，首先要抽取声波有关的语言信息，也即动态特性，过滤和语言无关的杂音，如人的音色、音调，说话时心理、生理及情绪和语音辨认无关先删去。然后再将相同单音的相同特征排列在相同的时间位置上。此一连串的特征用一等长系列特征向量表示，称为一个单音的特征模型。目前语音辨认系统要产生大小一致的特征模型太复杂，且费时，因为相同单音的相同特征很难排列在同一时间位置上，尤其是英语，导致比对辨认困难。
—般语音辨认方法有下列一连串3个主要工作抽取特征、特征正常化(特征模型大小一致，且相同单音的相同特征排列在同一时间位置)、未知单音辨认。一个连续声波的常用特征有下列几种能量(energy)，零横过点数(zero crossings)，极值数目(extreme count)，颠峰(formants)，线性预估编码倒频谱(LPCC)及梅尔频率倒频谱(MFCC)，其中线性预估编码倒频谱(LPCC)及梅尔频率倒频谱(MFCC)是最有效的，并普遍使用。线性预估编码倒频谱(LPCC)是代表一个连续音最可靠，稳定又准确的语言特征。它用线性回归模式代表连续音音波，以最小平方估计法计算回归系数，其估计值再转换成倒频谱，就成为线性预估编码倒频谱(LPCC)。而梅尔频率倒频谱(MFCC)是将音波用傅氏转换法转换成频率。再根据梅尔频率比例去估计听觉系统。根据学者S. B. Davis and P. Mermelstein于 1980 年出版在 IEEE Transactions on Acoustics, Speech Signal Processing, Vol. 28, No. 4 发表的论文 Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 中用云力态时间扭曲法(DTW),梅尔频率倒频谱(MFCC)特征比线性预估编码倒频谱(LPCC)特征辨认率要高。但经过多次语音辨认实验(包含本人前发明)，用贝氏分类法，线性预估编码倒频谱(LPCC)特征辨认率比梅尔频率倒频谱(MFCC)特征要高，且省时。
至于语言辨认，已有很多方法采用。有动态时间扭曲法(dynamic time-warping)，向量量化法(vector quantization)及隐藏式马可夫模式法(HMM)。如果相同的发音在时间上的变化有差异，一面比对，一面将相同特征拉到同一时间位置。辨认率会很好，但将相同特征拉到同一位置很困难并扭曲时间太长，不能应用。向量量化法如辨认大量单音，不但不准确，且费时。最近隐藏式马可夫模式法(HMM)辨认方法不错，但方法繁杂，太多未知参数需估计，计算估计值及辨认费时。以T.F.Li (黎自奋)于2003年出版在I^ttern Recognition，vol. 36 发表的论文 Speech recognition of mandarin monosyllables 中用贝氏分类法，以相同资料库，将各种长短不同的一系列LPCC向量压缩成相同大小的特征模型，辨认结果比 γ· κ. Chen，C. Y. Liu, G. H. Chiang，Μ. Τ. Lin 于 1990 年出版在 Proceedings of Telecommunication Symposium, Taiwan 发表的论文 The recognition of mandarin monosyllables based on the discrete hidden Markov model 中用隐藏式马可夫模式法 HMM方法要好。但压缩过程复杂费时，且很难将相同单音的相同特征压缩到相同时间位置，对于相似单音，很难辨认。至于语音输入文字目前还没有方法，因为目前计算机语音辨认不是很好。
本发明语音辨认方法针对上述缺点，从学理方面，根据音波有一种语音特征，随时间作非线性变化，自然导出一套抽取语音特征方法。将一个单音(中英文单字)音波先正常化再转换成一个足以代表该单音的大小相等的特征模型，并且相同单音在它们特征模型内的相同时间位置有相同特征。不需要人为或实验调节本发明内的未知参数及门槛。用简化贝氏分类法，即可将单字所发的音的特征模型和m个未知单音(代表m类不同相似音)的特征模型比对，不需要再压缩，扭曲或寻找相同的特征来比对。所以本发明语音辨认方法，能快速完成特征抽取，特征正常化及辨认，并能正确快速找到所要的单字。发明内容
本发明为了克服上述现有技术的缺陷，提供了一种使用简单，不需样本，不需注音，不需打字，准确率高的任何人都可胜任的语音辨认所有语言及用语音输入单字的方法。
本发明的目的是提供一种语音辨认所有语言及用语音输入单字的方法，包含以下步骤
(1) 一个单字是英文，中文或其它文字，一个单字的发音叫单音，本方法有m个未知(或已知)单音及一个常用单字资料库，每个未知单音有样本；
(2) 一个先前处理器(pre-processor)删去不具语音音波的信号点(sampled points)或杂音；
(3) 一种单音音波正常化及抽取特征的方法用E个弹性框将音波正常化，并转换成大小相等的线性预估编码倒频谱(LPCC)EXP特征的矩阵；
(4)求每个未知单音线性预估编码倒频谱(LPCC)样本的平均值及变异数，一个 EXP样本的平均值及变异数矩阵代表一个未知单音，每个未知单音代表一类有相似音的常用字，一共有m类；
(5) 一个发音清晰标准的发音人，对每一常用单字发音一次，如使用者发音不准，或用其它方言及语言发音，则由使用者发音；
(6)每一常用单字发音的音波正常化及抽取特征的方法将音波正常化并转换成一个EXP线性预估编码倒频谱(LPCC)矩阵；
(7) 一种简化贝氏(Bayesian)分类法比较一个常用单字的EXP线性预估编码倒频谱(LPCC)矩阵及每个未知单音的EXP样本的平均值及变异数矩阵，用贝氏距离(相似度)找和该常用字的发音最相似的未知单音，再将该常用单字放在该最相似的未知单音所代表的类的常用字中；
(8)使用者对所要的单字发音，该单音转换成一个EXP的线性预估编码倒频谱 (LPCC)矩阵；
(9)用简化贝氏(Bayesian)分类法比较使用者所要单字的EXP线性预估编码倒频谱(LPCC)矩阵及每个未知单音的EXP样本的平均值及变异数矩阵，用贝氏距离(相似度)找和所要单字发音最相似的F个未知单音；
(10)在最相似的F个未知单音所代表的F个类的常用字中，求所有常用字的EXP 线性预估编码倒频谱(LPCC)矩阵和所要单字的EXP线性预估编码倒频谱(LPCC)矩阵之间的(绝对)距离(相似度)来排列F类所有的常用字，排列后，使用者所要的单字应当排在最前面，或排列后，所有的常用字分成数等段，每等段常用字以字母(或笔划数)排列，也即F类所有常用字依和所要单字发音的(绝对)距离(相似度)及常用字的字母(或笔划数)排列成一个矩阵，使用者发音后，依所要单字的字母(或笔划数)在该F类所有常用字的矩阵中由上向下找，很容易在矩阵中找到所要单字；
(11) 一种辨认句子及名称的方法；
(12) 一种修正辨认不成功的单字及句子及名称、及输入不成功的单字、及加入新单字的方法。
其中，步骤O)中删去不具语音音波的信号点或杂音是计算一小时时段内相邻两信号点的距离总和和一般杂音相邻两信号点的距离总和，如前者小于后者则删去该时段。
其中，步骤(3)中包含一个单音音波正常化及抽取大小一致的特征矩阵，步骤如下
(a) 一种均等分一个单音音波的信号点的方法，为了用线性变化的回归模式密切估计非线性变化的音波，将音波全长分成E个等时段，每时段形成一个弹性框，一个单音共有E个等长弹性框，没有滤波器(Filter)，不重叠，可以自由伸缩涵盖全长音波，不是固定长度的汉明(Hamming)窗；
(b)每框内，用一随时间作线性变化的回归模式估计随时间作非线性变化的音波；
(c)用 Durbin' s 循环公式
权利要求
1.一种语音辨认所有语言及用语音输入单字的方法，其特征在于，所述方法包括以下步骤(1)一个单字是英文、中文或其它文字，一个单字的发音为单音，本方法具有m个未知或已知单音及一个常用单字资料库，每个未知单音有样本；(2)一个先前处理器删去不具语音音波的信号点或杂音；(3)一种单音音波正常化及抽取特征的方法，是用E个弹性框将音波正常化，并转换成大小相等的线性预估编码倒频谱EXP特征的矩阵；(4)求每个未知单音线性预估编码倒频谱样本的平均值及变异数，一个EXP样本的平均值及变异数矩阵代表一个未知单音，每个未知单音代表一类有相似音的常用字，一共有m 类；(5)一个发音清晰标准的发音人，对每一常用单字发音一次，如使用者发音不准，或用其它方言及语言发音，则由使用者发音；(6)每一常用单字发音的音波正常化及抽取特征的方法，是将音波正常化并转换成一个EXP线性预估编码倒频谱的矩阵；(7)一种简化贝氏分类法，是比较一个常用单字的EXP线性预估编码倒频谱的矩阵及每个未知单音的EXP样本的平均值及变异数矩阵，用贝氏距离找和该常用字的发音最相似的未知单音，再将该常用单字放在该最相似的未知单音所代表的类的常用字中；(8)使用者对所要的单字发音，该单音转换成一个EXP的线性预估编码倒频谱的矩阵；(9)用简化贝氏分类法比较使用者所要单字的EXP线性预估编码倒频谱的矩阵及每个未知单音的EXP样本的平均值及变异数矩阵，用贝氏距离找和所要单字发音最相似的F 个未知单音；(10)在最相似的F个未知单音所代表的F个类的常用字中，求所有常用字的EXP线性预估编码倒频谱的矩阵和所要单字的EXP线性预估编码倒频谱的矩阵之间的距离来排列 F类所有的常用字，排列后，使用者所要的单字应当排在最前面，或排列后，所有的常用字分成数等段，每等段常用字以字母或笔划数排列，F类所有常用字依和所要单字发音的距离及常用字的字母或笔划数排列成一个矩阵，使用者发音后，依所要单字的字母或笔划数在该F 类所有常用字的矩阵中由上向下找，很容易在矩阵中找到所要单字；(11)一种辨认句子及名称的方法；(12)—种修正辨认不成功的单字及句子及名称、及输入不成功的单字、及加入新单字的方法。
2.根据权利要求1所述的语音辨认所有语言及用语音输入单字的方法，其特征在于，所述步骤O)中删去不具语音音波的信号点或杂音是计算一小时时段内相邻两信号点的距离总和以及一般杂音相邻两信号点的距离总和，如前者小于后者则删去该时段。
3.根据权利要求1所述的语音辨认所有语言及用语音输入单字的方法，其特征在于，所述步骤C3)包含一个单音音波正常化及抽取大小一致的特征矩阵，步骤如下(a) 一种均等分一个单音音波的信号点的方法，为了用线性变化的回归模式密切估计非线性变化的音波，将音波全长分成E个等时段，每时段形成一个弹性框，一个单音共有 E个等长弹性框，没有滤波器，不重叠，可以自由伸缩涵盖全长音波，不是固定长度的汉明窗；(b)每个框内，用一随时间作线性变化的回归模式估计随时间作非线性变化的音波；(c)用Durbin's循环公式N-I= + i>0M=OE0 = R(O)K =^(0-2^-^(/-7)]/^.,产1 )') = K ， WE1=(I-^2)E1.,C^j=OiP, \<j<P求回归系数最小平方估计值…，1 ^ j ^ P,叫做线性预估编码的向量，再用α\ = αι+^)α^α\,\<i<P/=1 1= ΣP<ij=i—P 1转换线性预估编码的向量为稳定的线性预估编码倒频谱的向量a' ,Ι^ ^Ρ；(d)用E个线性预估编码倒频谱向量表示一个单音。
4.根据权利要求1所述的语音辨认所有语言及用语音输入单字的方法，其特征在于，所述步骤(7)中包含一种简化贝氏分类法比较一个常用单字发音的EXP线性预估编码倒频谱的矩阵及每个未知单音的EXP样本的平均值及变异数矩阵，找最相似的未知单音的方法，其步骤如下(a)一个常用单字的发音的特征是用一个EXP线性预估编码倒频谱(LPCC)矩阵X = (Xj1I, j = 1，...，E，1 = 1，...，P，表示，为了快速辨认，EXP 个 LPCCixjJ 假定是 EXP 个独立随机变量，有正常分配，如果该常用字的发音和m个未知单音的中一个未知单音Ci，i =l，...，m比对时，其中，m是所有未知单音的总数，则{Xj的平均数及变异数(/V，σ。用该未知单音的样本平均值及变异数估计，那么X的条件密度函数是/(小,)=广 σ ‘_ β ^J z^iJt _X= IXj1I是该常用字的发音的线性预估编码倒频谱，但(/v，^f)可用未知单音Ci的样本平均数及变异数估计；(b)简化贝氏分类法是针对m个未知单音中找一个未知单音Ci最像此常用字的发音X，一个未知单音Ci对该常用字的发音X相似度由下式中f(x|Ci)表示IiAci)=；μ V ITtGiji(C)为快速辨认，用对数化简(b)中条件密度函数f(X I Ci),并删去不必计算的常数，得贝氏距离，
5.根据权利要求1所述的语音辨认所有语言及用语音输入单字的方法，其特征在于，所述步骤(11)中包含一种辨认句子及名称的方法，其步骤如下(a)对一个讲话者的句子或名称辨认，我们先建立一个句子及名称资料库，每个句子或名称内的单字全部由常用单字资料库所需要的单字组成；(b)将一个句子或名称切割为D个单音，每单位时段计算相邻两信号点落差距离的总和，如太小，该时段为杂音或静音，没有语音讯号的相邻单位时段累积太多，比英文单字两音节之间时间还多，表示全是杂音或静音，应该是两单字的分界线，就应切割，一共切成D 个单音，每单音再转成EXP线性预估编码倒频谱的矩阵；对每一个单音，用贝氏分类法在m 类中选择最相似的F个未知单音，一句子或名称以DXF最相似的未知单音表示，每个单字发音的F个最相似的未知单音所代表的F个类内的所有单字依和所要单字发音的距离排列成一列，一共有D列F个相似的未知单音的单字会包含该句子或名称，该句子或名称所要的单字应当排在最前面；(c)如果资料库的选择比对的句子或名称和讲话者的句子或名称等长，那么将D个每列相似的未知单音的单字和比对句子或名称的D个已知单字依顺序比对，看看D列不同的相似未知单音的单字有没有比对句子或名称内的已知单字；如每列相似的未知单音的单字内都含一个比对句子或名称内的已知单字，辨认正确单字是D个，则该比对的句子或名称就是讲话者的句子或名称；(d)如果资料库比对句子和名称内单字是D-I或D+1或在(c)的正确单字不是D个，本发明则用3列窗口筛选；在比对句子或名称第i个已知单字，用D列中第i-l，i，i+l列F 个相似的未知单音的单字比对第i个已知单字，计算D列有多少比对句子或名称内的已知单字，再除以总数D得到该比对句子或名称的机率，在资料库选择一个机率最大的句子或名称为讲话者的发音句子或名称。
6.根据权利要求1所述的语音辨认所有语言及用语音输入单字的方法，其特征在于，所述步骤(1 中包含一种修正辨认不成功的单字及句子及名称、及输入不成功的单字、及加入新单字的方法，步骤如下(a)如果使用者找不到所要的单字，发音不准，发错音或用其它语言发音，则该单字不在F个最相似的未知单音所代表的F类的常用字内，一定在其它类的常用字群中或不在所有m个资料库内，使用者发所要的单字音后，用贝氏距离找最相似的未知单音，将所要的单字放在该最相似的未知单音所代表的类的常用字群中，以后使用者发同样单音，所要的单字就会出现在F个最相似的未知单音所代表的类中；(b)如果所要的单字不在所有m类中，则发该所要单字音后，将该新单字加到最相似的未知单音所代表的类的常用字群中；(c)一个单字能发标准音、不标准音、错音或用其它语言发音的多种不同音，将该单字分别放在不同的未知单音的类中，使用者对同样单字能发任何音；(d)如果句子或名称单字不能辨认成功，将该句子讲一遍，本发明将该句子或名称分成 D个单字，本发明将每个单字用贝氏分类法分到它的最相似的未知单音的类的单字中，再辨认该句子或名称会成功；(e)本发明仅将辨认或输入不成功的单字重新放在它最相似的未知单音的类中，并未改变任何未知单音的特征的平均值及变异数，因此本发明辨认方法稳定；而且仅从固定少数m = 500类的未知单音中辨认F个最相似的未知单音，本发明能很快辨认各种语言的单字及句子及输入大量单字，是本发明最重要的功能。
全文摘要
本发明提供了一种语音辨认所有语言及用语音输入单字的方法，本发明先用一群m个未知或已知不同单音代表m个不同类，将常用单字发音一次，每个单字的发音转换成一个线性预估编码倒频谱矩阵，再用贝氏或距离分类法将常用字分到m类中的一类，使用者发单字音后，用贝氏或距离分类法在m个未知单音找F个最相似的未知单音，再在F个相似的未知单音所代表的F个类内，将所有单字依和所要单字发音的相似度及字母(或笔划数)排列；当使用者发音后，很快能找到所要的字。本发明的方法简单、不需样本、不需注音、不需打字、任何人都可胜任、发音不标准或发错音的字也可输入、速度快、准确率高。
文档编号G06F3/16GK102034474SQ20091017710
公开日2011年4月27日申请日期2009年9月25日优先权日2009年9月25日
发明者廖丽娟, 李台珍, 黎世宏, 黎世聪, 黎自奋申请人:廖丽娟, 李台珍, 黎世宏, 黎世聪, 黎自奋

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黎自奋;李台珍;黎世聪;黎世宏;廖丽娟
技术所有人：黎自奋;李台珍;黎世聪;黎世宏;廖丽娟
我是此专利的发明人

上一篇：一种中文人名识别的方法和装置的制作方法
上一篇：图样表达式的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。