语音标记方法、系统及基于语音标记的语音识别方法和系统的制作方法

文档序号：2821731阅读：581来源：国知局

专利名称：语音标记方法、系统及基于语音标记的语音识别方法和系统的制作方法
技术领域：
本发明涉及一种语音识别方法和系统。更具体地说，本发明涉及一种语音标记方法和系统及基于语音标记的语音识别方法和系统。
背景技术：
所谓基于语音标记的识别系统，是指需要说话者事先针对所说的词进行一遍或者几遍录音(称之为语音注册)，然后再进行识别的系统。
下面从几个示例出发，说明一下语音标记的需求1)在手机上，为了进行语音识别，限于存储量和计算量，对于数据库中的每个人名采用语音方式进行标记或训练。
2)通常的语音识别技术在进行语音识别前，需要提供识别用词表。在某些场合，提供这种词表对于用户来说是困难的。例如，对于电信平台的语音电话本应用，用户可以在服务器上登记一个虚拟的电话本，将自己的联系人姓名都登录在里面。需要与一个联系人通话时，拨打特定的电信服务号码，然后根据系统提示，直接用语音方式说出联系人姓名，在服务器端的语音识别系统就可以识别出人名，然后帮助用户接通联系人的电话。对于这类应用，用户通常可以通过web方式登记自己的联系人数据库。但是对于不会上网或者不经常上网的用户，需要一种简便的方式来方便他们的录入工作，这时语音标记就是一种非常好的选择。即用户可以对每个联系人的姓名，用语音方式说一遍或几遍，系统将人的姓名与对应语音都保存到数据库中，这种方式即称为语音标记。
基于语音标记的传统识别系统基于如下思路[1]使用者首先需要注册，即对于一个特定的词表，需要录制至少三遍语音，语音标记(注册)系统存取此语音的原始波形文件或者提取其特征并存取特征文件，建立原始(注册)语音或者其特征的数据库。在识别时，当使用者发完音后，识别系统将此次发音的波形与存储的注册语音的原始波形直接进行比较，或者，识别系统提取此次发音的语音特征，并与存储的注册语音特征的数据库进行比较，这种比较一般采用动态规划的方法。通过比较，选取与此次发音最相近的发音所对应的数据索引(如名称或者序号等)，作为识别结果。
图1是一种基于语音标记的传统识别方法的流程示意图。如图1所示，在步骤101输入训练语音，接着在步骤102对输入的训练语音进行特征提取，然后在步骤103将提取后的特征存储到特征数据库中。当需要识别语音的时候，在步骤111接收待识别语音，然后在步骤112对该语音进行特征提取。在步骤113将提取出的待识别语音的特征和特征数据库中的特征进行比较。最后，在步骤114根据比较情况产生识别结果。
这类方法的缺点是1)需要存储的语音或特征数据库占用空间特别大；2)因为技术的局限性，导致只能识别几十个词的词表，不能满足常见的词表规模的需求。

发明内容
本发明的目的在于提供克服以上缺点的语音标记方法和系统以及采用语音标记的语音识别方法和系统。
本发明的整体思路是首先在语音注册阶段，采用由语音识别技术发展而成的语音标记算法，将用户注册时的语音转换成文本进行存储。这样，对于所有待识别的词汇，只需要建立一个识别词表的数据库。在语音识别阶段，对于用户的发音，按照通用的语音识别系统的流程来进行识别[2][3][4]，即提取语音的特征，利用识别词表的信息建立识别语法，基于识别语法和声学模型，对于待识别语音的特征序列在整个候选空间中进行搜索匹配，寻找匹配概率最大的词作为识别结果。
根据本发明的第一方面，提供一种语音标记方法，包括下列步骤a)输入训练语音；
b)对训练语音进行特征提取；c)基于词典、声学模型和语音标记专用语法，由语音标记搜索算法对提取出的特征进行识别，从而得到识别文本；和d)存储识别文本作为语音标记。
在第一方面的语音标记方法中，优选的是，所述语音标记专用语法是由拼音串组成的拼音语法。进一步优选的是，所述语音标记专用语法是从每个无调单音节所对应的有调单音节中选择一个而构成的语法。
优选的是，所述语音标记专用语法是由音素串组成的音素语法。
优选的是所述语音标记专用语法所表示的对象包括有人名。其中，所述人名可由通用姓名组成，或者由头衔组合姓名组成。
优选的是，所述语音标记专用语法包含有概率信息和/或汉字信息。
在第一方面的语音标记方法中，还优选包括下列步骤e)输入N遍待识别语音，N为大于1的自然数；f)对输入的N遍待识别语音分别执行步骤b)-d)，从而得到与第1-N遍待识别语音对应的第1-N遍语音标记；g)进行第n次操作，1≤n≤N，即将预制语法和第n遍语音标记组合成为识别语法代替语音标记专用语法，利用第j遍待识别语音作为输入语音，执行步骤b)-c)，得到的识别文本作为第j遍识别结果；以第n遍语音标记为基准，确定第j遍识别结果的准确性，其中1≤j≤N且j≠n；h)根据第j遍识别结果的准确性，计算第n次操作的识别准确率；i)对于n＝1，2，…，N，重复执行步骤g)和h)；j)比较第1-N次操作的识别准确率，确定最高识别准确率；以及k)确定与最高识别准确率对应的语音标记为最终的语音标记。
进一步优选的是，所述步骤g)还包括对所有满足1≤j≤N且j≠n的第j遍待识别语音执行所述步骤b)-d)；所述步骤h)包括根据所有满足1≤j≤N且j≠n的第j遍识别结果的准确性计算第n次操作的识别准确率。
根据本发明的第二方面，提供一种采用语音标记的语音识别方法，包括根据本发明第一方面所述的语音标记方法，还包括下列步骤由语音标记构成识别语法；根据所述识别语法，对待识别语音进行语音识别，从而产生识别结果。
根据本发明的第三方面，提供一种语音标记系统，包括输入训练语音的输入单元；和输入单元相连，对训练语音进行特征提取的特征提取单元；词典存储单元；声学模型存储单元；专用语法存储单元，存储语音标记专用语法；以及搜索算法处理单元，和特征提取单元、词典存储单元、声学模型存储单元和专用语法存储单元相连，基于词典、声学模型和语音标记专用语法，采用语音标记搜索算法对提取出的特征进行识别，从而产生相应的语音标记；语音标记存储单元，和语音标记搜索算法单元相连，存储语音标记。
在根据本发明的第三方面中，优选的是所述语音标记专用语法是由拼音串组成的拼音语法。进一步优选的是，所述语音标记专用语法是从每个无调单音节所对应的有调单音节中选择一个而构成的语法。
优选的是，所述语音标记专用语法是由音素串组成的音素语法。
优选的是，所述语音标记专用语法所表示的对象包括有人名。进一步优选的是所述人名包括通用姓名和/或头衔组合姓名。
优选的是，所述语音标记专用语法包含有概率信息和/或汉字信息。
根据本发明的第四方面，提供一种语音识别系统，包括输入语音的输入单元；和输入单元相连，对语音进行特征提取的特征提取单元；词典存储单元，存储词典；声学模型存储单元，存储声学模型；语音标记存储单元，存储语音标记；语法单元，存储语音标记专用语法和识别语法；搜索算法处理单元，和特征提取单元、词典存储单元、声学模型存储单元、专用语法存储单元和语音标记存储单元相连，以及输出单元，和搜索算法处理单元相连，输出搜索算法处理单元所产生的识别结果；其中在语音识别系统处于语音标记模式下的时候，输入单元接收训练语音，特征提取单元对输入的训练语音进行特征提取，然后搜索算法处理单元从语法单元读取语音标记专用语法，基于词典、声学模型和语音标记专用语法，采用语音标记搜索算法对提取出的特征进行识别，从而产生相应的语音标记，并且存储到语音标记存储单元中；在语音识别系统处于语音识别模式下的时候，输入单元接收待识别语音，特征提取单元对输入的训练语音进行特征提取，然后搜索算法处理单元从语法单元读取识别语法，基于词典、声学模型和识别语法，采用语音标记搜索算法对提取出的特征进行识别，从而产生识别结果，并且将识别结果输入到输出单元中。
由此，本发明所带来的优点是1)由于仅仅需要存储词表，所以大大减少了语音注册阶段系统所需要的存储空间；2)由于可以采用通用的语音识别系统的技术，所以能够显著提高识别准确度；3)由于只需要存储词表，所以可以与现有的以识别语法为主的语音识别系统兼容，提高了系统的适应性；4)由于整个系统流程能够充分利用说话人的个人发音特点，所以能够显著提高识别准确率；5)在应用本发明的语音标记技术时，既可以对于待识别的词汇(句子)全部利用标记词，又可以部分采用标记词、部分采用传统词汇(的发音)，提高了该系统应用的灵活性。
为了便于理解本发明，下文参照附图来说明本发明的优选实施例。

图1是一种基于语音标记的传统识别方法的流程图；图2是根据本发明的语音标记方法的流程图；图3是根据本发明的语音标记系统的框图。
图4是根据本发明的基于多遍数据的语音标记系统的第一轮流程图；
图5是根据本发明的基于多遍数据的语音标记系统的第二轮流程图；图6是根据本发明的一种基于语音标记的语音识别方法；以及图7是根据本发明的一种基于语音标记的语音识别系统。
发明的具体实施方法在介绍本发明的优选实施例之前，有必要对本申请中和语音识别技术相关的一些术语给出解释，以帮助对本发明的阅读和理解。
所谓特征提取，是指利用数字信号处理技术，从语音信号中提取出最反映其本质属性的信息。
声学模型是语音识别引擎(参见下文的图4和图5)最核心的系统资源文件之一，包含了对于语音信号频谱和时间序列特征的精确描述。这个模型常常是针对大量说话人在不同场景的语音数据库进行训练而得到的。
至于词典，词典(或字典)包含了各种单字/单词的发音信息，一个词或者字的发音由音素组成，如“先生”其拼音表示是xian1 sheng1其音素表示是x ian1 sh eng1。
至于语法，用户在开发一个识别系统时，首先需要定义识别语法，识别语法包含对于识别任务的描述。简单地看，识别语法中包含各种符合说话语法和任务场景的句子(或者词序列)信息。
关于搜索算法，在该算法模块中，未知语音信号的特征与引擎内含的声学模型库、词典和识别语法信息进行匹配，在未知句子(或者词序列)候选空间中，得到最适合未知语音特征的词序列(即具有最佳匹配结果的候选句子)。这个模块是语音识别引擎的核心。
应当指出，本领域的其它技术人员对有关术语可以采用不同于上述解释的其它描述。此处给出的定义仅起说明和解释的作用，并非用于限定本发明的范围。
1.基于1遍语音数据的语音标记系统图2是根据本发明的语音标记方法的示意图。如图2所示，首先在步骤201输入训练语音。接着，在步骤202对该训练语音进行特征提取。然后，在步骤203采用语音标记搜索算法基于词典和声学模型以及专门设计的语音标记专用语法，对提取后的特征参数进行识别，得到识别文本。最后，在步骤204将识别文本作为标记结果输出。该标记结果又称为语音标记。
图3是根据本发明的语音标记系统的框图。图3所示的语音标记系统和图2所示的语音标记方法相对应。在图3所示的语音标记系统中，输入单元301接收输入的训练语音，然后将该语音送往特征提取单元302，进行特征的提取。之后，特征提取单元302将提取出的特征送往搜索算法处理单元303。搜索算法处理单元303从语法单元304接收语音标记的专用语法，从词典存储单元305接收词典，从声学模型存储单元306接收声学模型。然后，基于语音标记的专用语法、词典、声学模型，搜索算法处理单元303利用语音标记搜索算法对提取出的特征进行识别。所产生的语音标记被送往标记结果存储单元307进行存储。
需要说明的是，图2和图3所示的语音标记方法和系统是在常规语音识别技术的基础上发展起来的。本发明的语音标记方法和系统设计了专用的语法来进行语音标记。该专用语法分为几类，包括拼音语法、音素语法、特定架构的语法、含有概率信息的语法等。下文将对此进行一一介绍。
1.1 拼音语法拼音语法表示任意长度的拼音串。
拼音词包括有两种类型一是全部有调单音节(＞1200个)；二是从每个无调单音节所对应的有调单音节中选择一个，采用这种做法的原因是减少拼音词的数量，加快识别速度。
一种拼音语法格式的例子如下所示。
public $basicCmd＝$name1<1->；$name1＝($keyword){namepinyin}；$keyword＝a1|ai1|an1|ang1|ao1|......
zun1|zuo3对于这种语法，最后得到的拼音标记一般是下列格式。
wang1-zhong1-xu41.2音素语法音素语法表示任意长度的音素串。
音素语法内包括的音素分为initial和final两种类型。initial和final是语音识别常采用的音素分类形式，initial包括常见辅音和零辅音，如pwaa表示音素”a”，pwb表示音素”b”等；final包括常见元音，如pwan1表示音素”an1”，pwi2表示音素”i2”等。由这两种类型的音素组成了音素语法。
一种音素语法格式的例子如下所示。
root$basicCmd；public$basicCmd＝$name1<1->；$name1＝$ini_name$fin_name；$ini_name＝($ini){inii}；$fin_name＝($fin){finf}；$ini＝pwaa|pwb|pwc|pwch|……|pwz|pwzh；$fin＝pwa1|pwa2|pwa3|pwa4|pwai1|……|pwvn3|pwvn4。
对于这种语法，最后得到的拼音标记一般是下列格式。
pww pwang1 pwzh pwong1 pwx pwu4。
1.3特定架构的语法为了进一步提高识别率，本发明对于上述语法进行了改进。
语音标记的一大用处是针对人名的识别，所以本发明特别设计了面向人名的特定架构的语法。
人名语法的大类别包括两类通用姓名(GeneralName)和头衔组合姓名(TitleName)。
人名语法可以表示为public$basicCmd＝$Name；$Name＝$GeneralName $TitleName；1)通用姓名语法采用如下架构。
姓(FamilyName)+人名的第一字(GivenName1)+人名的第二字(GivenName2)即$GeneralName＝$FamilyName$GivenName1[$GivenName2]；姓、人名的第一字和人名的第二字这三种类型的变量都选用常见的拼音(汉字)。
同时，对于“姓”变量，一共有三种类型，单字姓(SingleFamilyName，双字姓即复姓(DoubleFamilyName)(如欧阳oulyang2，司马silma3等)，夫姓和父姓联合姓名(CombFamilyName)(如林汪lin2wang1)等。
第三种主要用于我国港台地区的女性，其姓采用丈夫和父亲的姓组成而成。
$FamilyName＝$SingleFamilyName/$DoubleFamilyName/$CombFamilyName；$SingleFamilyName＝(wang2){Name_SingleFamily王}/(zhang1){Name_SingleFamily张{/(li3){Name_SingleFamily李}/...
(ji1){Name_SingleFamily姬}；$DoubleFamilyName＝(si1 ma3){Name_DoubleFamily司马}/(shang4 guan1){Name_DoubleFamily上官/(ou1 yang2){Name_DoubleFamily欧阳}/....
(nan2 gong1){Name_DoubleFamily南宫}；$CombFamilyName＝$SingleFamilyName $SingleFamilyName；$GivenName1＝(xiao3){Name_Given1晓}/(jian4){Name_Given1建}/(zhi4){Name_Given1志}/...
(lu3){Name_Given1鲁}；$GivenName2＝(hua2){Name_Given2华}/(ping2){Name_Given2平}/(jun1){Name_Given2军}/...
(pu3){Name_Given2普}；对于这种语法，最后的语音标记结果一般是如下形式。
liu2 zhi4 guo22)头衔组合姓名头衔一般是指对人的尊称，如经理，先生，女士，等。头衔组合姓名一般指姓+头衔的组合，如王经理，张先生，李女士等。
另外一种是老王，小张这种类型。
语法的例子如下。
$TitleName＝($FamilyName$Title)/($SpecialTitle$FamilyName)；$Title＝(xian1 sheng1){Name_Title先生}/(nv3 shi4){Name_Title女士}/(jing1 li3){Name_Title经理}/(zong3 jing1 li3){Name_Title总经理}/...
(zhu3 ren4){Name_Title主任}；$SpecialTitle＝(xiao3){Name_SpecialTitle小}/(lao3){Name_SpecialTitle老}；1.4包含概率信息的语法为了进一步提高识别准确率，在上述几种语法中都可以加入概率信息，即语法中变量的出现概率。这类变量的概率是从大量文本语料库中统计得到的。例如，在姓名语法中，对于姓，可以加入其概率信息。
$SingleFamilyName＝(wang2){Name_SingleFamily王，Prob0.01}/(zhang1){Name_SingleFamily张，Prob0.0095}/(li3){Name_SingleFamily李，Prob0.009}/...
(ji1){Name_SingleFamily姬，Prob0.00001}；1.5包含汉字信息的语法在上述各种语法结果中，都可以加入汉字信息，通过识别算法，使得输出的结果也含有汉字信息，便于人们使用。由于汉语中常见的一音多字现象，同一个拼音一般对应于多个汉字，这时要根据统计规律，选择出现频率最高的一个汉字。例如在汉字姓名架构语法中，对于同一个姓或名的发音，其对应的汉字都是在所有可能中最高的。如wang2这个拼音，根据其出现概率对应的汉字就是王而不是枉、亡等汉字。
总之，本发明的语音标记系统所采用的语音标记专用语法就是综合了上述语法的优点而形成的。通过这种特别设计的语法，在实际应用中能够得到很高的识别率。
2.基于多遍数据的语音标记系统上文结合图2和图3所描述的是利用1遍语音数据的语音标记系统的一种架构。为了进一步提高语音标记系统的性能，本发明还提出了多遍识别的方案。该方案能够充分利用用户提供的多遍注册语音来提高识别效果。
下面介绍多遍识别方法的原理和实施步骤。
2.1利用多遍数据进行首次识别利用多遍数据进行首次识别的过程包括按照上文所述的语音标记方法，采用语音标记专用语法，对用户的第n(1≤n≤N，N为注册语音的总遍数)遍注册语音分别进行识别，利用识别结果作为标记，得到第n遍数据的标记结果。该标记结果可以分别表示为Tag(n)。
图4以三遍注册数据为例，示意了根据本发明的基于多遍数据的语音标记系统的第一轮流程。
如图4所示，用户进行了三遍语音注册，因而得到第一遍语音数据、第二遍语音数据和第三遍语音数据。然后，语音识别引擎基于语音标记专用语法对这三遍语音数据分别识别，得到相应的第一遍标记结果Tag(1)、第二遍标记结果Tag(2)和第三遍标记结果Tag(3)。
需要说明的是，本文所提到的语音识别引擎(参看图4和图5)是图3中除输入单元301、语法单元304和标记结果存储单元307以外的其余部分的总和。也就是说，语音识别引擎包括特征提取单元302、搜索算法处理单元303、词典存储单元305、声学模型存储单元306。
2.2利用第一轮标记结果进行第二轮识别并得到最佳标记结果在第二轮识别中，需要进行N次操作。在第n次(n＝1-N)操作中，语音识别引擎按照上文所述的语音标记方法，对其他遍(j＝1，2，…，N，j≠n)的语音数据进行识别，得到的识别文本又称为第n次操作下其他遍的识别结果。在第n次操作的其他遍识别结果的基础上，得到该第n次操作的识别率结果RecRate(j)。
需要说明的是，在第二轮识别中采用了不同于第一轮的识别语法。在第二轮中，识别语法是由预制的语法和第一轮的标记结果综合而成。例如，第n次操作所采用的识别语法(CombGrammar)是由预制的语法和第n遍标记结果Tag(n)综合而成。
通常，预制的语法采用50-200词的词表构造而成。该词表可以从常见姓名中选择并且进行组合而得到。下面仅是预制语法(PredefinedGram)的一个例子。
$PredefinedGram＝dong1_da4_wei2|zhang1_lian2_wei3|liu2_yi4_wei3|guo1_jing4_ming2|hong2_zhao4_guang1|zhang1_yi4_mou2|zhou1_xun4|li2_ming2|sun1_nan2|li3_lian2_jie2|liu2_jia1_ling2|han2_hong2|lu4_yi4|yu2_quan2_zu3_he2|sun1_ji4_hai3|，.........
|lv3_qiu1_lu4_wei1|liu2_zhen4_yun2|yang2_li4_ping2|li3_yong3|xu2_xiao3_ping2；那么，识别语法(CombGrammar)可以表示为$CombGrammar＝$PredefinedGram|tag(n)。
图5示意了本发明的基于多遍数据的语音标记系统的第二轮流程在给定三遍数据条件下的实现过程。
如图5所示，对应于三遍语音数据，分别进行了三次操作。
在第一次操作中，语音识别引擎依据预制语法和第一遍标记结果组合而成的识别语法，分别对第二遍语音数据和第三遍语音数据进行识别，所得到的识别文本分别称为在第一次操作下第二遍数据的识别结果和第三遍数据的识别结果。然后，第一次操作比较识别结果与第一遍标记结果。若相同，则识别结果正确。最后，统计识别结果准确的个数，并且将其除以识别数据个数(即2)，从而得到在第一次操作下的识别准确率RecRate(1)。
在第二次操作中，识别引擎依据预制语法和第二遍标记结果组合而成的识别语法，分别对第一遍语音数据和第三遍语音数据进行识别，分别得到在第二次操作下第一遍数据的识别结果和第三遍数据的识别结果。然后，统计识别结果准确的个数，并且将其除以识别数据个数(即2)，从而得到在第二次操作下的识别准确率RecRate(2)。
在第三次操作中，识别引擎依据预制语法和第三遍标记结果组合而成的识别语法，分别对第一遍语音数据和第二遍语音数据进行识别，分别得到在第三次操作下的第一遍数据的识别结果和第二遍数据的识别结果。然后，统计识别结果准确的个数，并且将其除以识别数据个数(即2)，从而得到在第三次操作下的识别准确率RecRate(3)。
最后，根据各次操作的识别准确率的高低，从第一轮的三遍标记结果中选择和最高识别准确率对应的标记结果。即，如果三次操作中第二次操作的识别准确率最高，则选择对应的第一轮第二遍标记结果，作为最终的标记结果。
第二轮流程的每次操作的识别准确率按下式计算得到识别准确率＝识别结果正确的个数/识别数据个数。
例如，在图5中，就第一次操作而言，如果第二遍数据的识别结果和第三遍数据的识别结果都是正确的，那么识别准确率RecRate就是
2/2＝100％。
如果只有一遍数据的识别结果正确，则识别准确率RecRate是1/2＝50％。
如果各遍识别结果全部错误，则识别准确率RecRate是0％。
因此，N次操作分别得到N次识别准确率RecRate(j)，j＝1，2，…，N。
最后，根据识别准确率的不同，对第一轮的标记结果进行选择。如果第n次操作的识别准确率最高，则选择该第n次操作对应的第一轮标记结果作为最后的标记结果，即bestTagResult＝Tag(argmax{RecRate(j)}O≤j＜N)。
例如，假设第一次操作的识别准确率是50％，第二次操作的识别准确率是100％，第三次操作的识别准确率是0％，那么最后选择的标记结果就是第二次操作对应的第二遍Tag结果Tag(2)。
需要指出，这里的识别准确率是采用所有各遍识别结果正确的个数/识别数据个数的方法计算得出的。但是，除此以外，还可以采取其它的计算方法。
3.基于语音标记的语音识别方法图6是根据本发明的一种基于语音标记的语音识别方法的流程图。图6的语音识别方法大致分为两部分，语音标记过程和语音识别过程。在语音标记过程中，首先在步骤601输入训练语音，然后在步骤602采用前文提到的本发明的语音标记方法对该训练语音进行语音标记识别，在步骤603产生标记结果。该标记结果在一般情况下可称为标记词。在语音识别过程中，可以先期在步骤604由标记词构成识别语法。然后，当语音识别过程启动之后，在步骤611待识别语音输入。然后，在步骤612对输入的待识别语音进行特征提取。接着，在步骤613利用搜索算法基于在步骤604由标记词构成的识别语法、词典和声学模型，对提取出的特征进行识别，从而在步骤614得到识别结果。
关于由标记词构成识别语法的方法，可以举例如下假设标记词有5个，分别是li3bai2，du4fu2，bai2julyi4，ha2yu4，liu3zonglyuan2那么一种识别语法可以表示为#ABNF 1.0UTF-8；language zh-cn；mode voice；root $basicCmd；meta ″author″is ″ThinkIT″；public $basicCmd＝($allnames){nameUSERID}；$allnames＝li3_bai2|du4_fu2|bai2_ju1_yi4|ha2_yu4|liu3_zong1_yuan2；当然，识别语法并不局限于这个形式，用户可以根据自己的系统所采用的语法格式而定，但是必须包括上述标记词的信息。
另外，需要指出的是，识别语法并不局限于完全由标记词构成，识别语法还可以与系统的原有词汇或者其他来源的词汇组合起来构成。例如，一种识别语法为#ABNF 1.0UTF-8；language zh-cn；mode voice；root $basicCmd；meta ″author″is ″ThinkIT″；public $basicCmd＝($allnames){nameUSERID}；$allnames＝li3_bai2|du4_fu2|bai2_ju1_yi4|ha2_yu4|liu3_zong1_yuan2|张三|李四；4.基于语音标记的语音识别系统图7是根据本发明的一种基于语音标记的语音识别系统的框图。图7的语音识别系统和图6的语音识别方法是对应的。如图7所示，语音识别系统包括输入单元701、特征提取单元702、搜索算法处理单元703、语法单元704、词典存储单元705、声学模型存储单元706、语音标记存储单元707和输出单元708。在该语音识别系统中，输入单元701输入语音；特征提取单元702和输入单元701相连，对语音进行特征提取；词典存储单元705存储词典；声学模型存储单元706存储声学模型；语音标记存储单元707存储语音标记；语法单元704从语法标记存储单元707接收语音标记并且合成识别语法，该单元还存储语音标记专用语法和识别语法；搜索算法处理单元703和特征提取单元702、词典存储单元705、声学模型存储单元706、语法单元704和语音标记存储单元707相连。输出单元708和搜索算法处理单元703相连，输出搜索算法处理单元703所产生的识别结果。
在语音识别系统处于语音标记模式下的时候，输入单元701接收训练语音，特征提取单元702对输入的训练语音进行特征提取，然后搜索算法处理单元703从语法单元704读取语音标记专用语法，基于词典、声学模型和语音标记专用语法，采用语音标记搜索算法对提取出的特征进行识别，从而产生相应的语音标记，并且存储到语音标记存储单元707中。
在语音识别系统处于语音识别模式下的时候，语法单元704从语音标记存储单元707读取语音标记，生成识别语法并且存储在语法单元中。当语音识别启动的时候，输入单元701接收待识别语音，特征提取单元702对输入的待识别语音进行特征提取。然后，搜索算法处理单元703从语法单元704读取识别语法，基于词典、声学模型和识别语法，采用语音标记搜索算法对提取出的特征进行识别，从而产生识别结果，并且将识别结果输入到输出单元708中。
需要指出，识别语法也可以由搜索算法处理单元703根据从语音标记单元707读出的语音标记加以生成。此时，语法单元704仅起存储的作用。
本发明的新颖的方法和系统，适用于任何能够应用于语音识别技术的场合，不受硬件和软件的限制。如PC平台，服务器平台，嵌入式平台，等等。
应该能够理解，本领域技术人员对本文所述的最佳实施例还能做出各种各样的修改，都不用脱离权利要求书所限定的本发明的范围。本发明的保护范围仅由权利要求书限定。
参考文献[1]http//www.scansoft.com/news/pressreleases/2004/20040325_navigon.aspIndustry-Leading Speech Recognition Software Optimized forMobile and Automotive Applications[2]Lawrence Rabiner，Biing-Hwang Juang，“Fundamentals of SpeechRecognition”，Prentice Hall，1993. Chaojun Liu，Yonghong Yan，“Robust state clustering usingphonetic decision trees”，Speech Communication，vol.42，pp.391-408，2004[4]一种便携式数字移动通讯设备及其语音控制方法和系统(国内专利申请号02146276.3，国际专利申请号PCT/CN03/00870)
权利要求
1.一种语音标记方法，包括下列步骤a)输入训练语音；b)对训练语音进行特征提取；c)基于词典、声学模型和语音标记专用语法，由语音标记搜索算法对提取出的特征进行识别，从而得到识别文本；和d)存储识别文本作为语音标记。
2.如权利要求1所述的语音标记方法，其中所述语音标记专用语法是由拼音串组成的拼音语法。
3.如权利要求2所述的语音标记方法，其中所述语音标记专用语法是从每个无调单音节所对应的有调单音节中选择一个而构成的语法。
4.如权利要求1所述的语音标记方法，其中所述语音标记专用语法是由音素串组成的音素语法。
5.如权利要求2-4之一所述的语音标记方法，其中所述语音标记专用语法所表示的对象包括有人名。
6.如权利要求5所述的语音标记方法，其中所述人名由通用姓名和/或头衔组合姓名组成。
7.如权利要求1-4之一所述的语音标记方法，其中所述语音标记专用语法包含有概率信息和/或汉字信息。
8.如权利要求1-4之一所述的一种语音标记方法，包括下列步骤e)输入N遍待识别语音，N为大于1的自然数；f)对输入的N遍待识别语音分别执行步骤b)-d)，从而得到与第1-N遍待识别语音对应的第1-N遍语音标记；g)进行第n次操作，1≤n≤N，即将预制语法和第n遍语音标记组合成为识别语法代替语音标记专用语法，利用第j遍待识别语音作为输入语音，执行步骤b)-c)，得到的识别文本作为第j遍识别结果；以第n遍语音标记为基准，确定第j遍识别结果的准确性，其中1≤j≤N且j≠n；h)根据第j遍识别结果的准确性，计算第n次操作的识别准确率；i)对于n＝1，2，…，N，重复执行步骤g)和h)；j)比较第1-N次操作的识别准确率，确定最高识别准确率；以及k)确定与最高识别准确率对应的语音标记为最终的语音标记。
9.如权利要求8所述的语音标记方法，其中所述步骤g)还包括对所有满足1≤j≤N且j≠n的第j遍待识别语音执行所述步骤b)-c)；所述步骤h)包括根据所有满足1≤j≤N且j≠n的第j遍识别结果的准确性计算第n次操作的识别准确率。
10.一种采用语音标记的语音识别方法，包括如权利要求1-9之一所述的语音标记方法，还包括下列步骤由语音标记构成识别语法；根据所述识别语法，对待识别语音进行语音识别，从而产生识别结果。
11.一种语音标记系统，包括输入训练语音的输入单元；和输入单元相连，对训练语音进行特征提取的特征提取单元；词典存储单元；声学模型存储单元；专用语法存储单元，存储语音标记专用语法；以及搜索算法处理单元，和特征提取单元、词典存储单元、声学模型存储单元和专用语法存储单元相连，基于词典、声学模型和语音标记专用语法，采用语音标记搜索算法对提取出的特征进行识别，从而产生相应的识别文本；语音标记存储单元，和搜索算法处理单元相连，存储识别文本作为语音标记。
12.如权利要求11所述的语音标记系统，其中所述语音标记专用语法是由拼音串组成的拼音语法。
13.如权利要求12所述的语音标记系统，其中所述语音标记专用语法是从每个无调单音节所对应的有调单音节中选择一个而构成的语法。
14.如权利要求11所述的语音标记系统，其中所述语音标记专用语法是由音素串组成的音素语法。
15.如权利要求12-14之一所述的语音标记系统，其中所述语音标记专用语法所表示的对象包括有人名。
16.如权利要求15所述的语音标记系统，其中所述人名包括通用姓名和/或头衔组合姓名。
17.如权利要求11-14之一所述的语音标记系统，其中所述语音标记专用语法包含有概率信息和/或汉字信息。
18.一种语音识别系统，包括输入语音的输入单元；和输入单元相连，对语音进行特征提取的特征提取单元；词典存储单元，存储词典；声学模型存储单元，存储声学模型；语音标记存储单元，存储语音标记；语法单元，存储语音标记专用语法和识别语法；搜索算法处理单元，和特征提取单元、词典存储单元、声学模型存储单元、语法单元和语音标记存储单元相连；以及输出单元，和搜索算法处理单元相连，输出搜索算法处理单元所产生的识别结果；其中在语音识别系统处于语音标记模式下的时候，搜索算法处理单元从语法单元读取语音标记专用语法，基于词典、声学模型和语音标记专用语法，采用语音标记搜索算法对由训练语音提取出的特征进行识别，从而产生相应的语音标记，并且存储到语音标记存储单元中；在语音识别系统处于语音识别模式下的时候，搜索算法处理单元从语法单元读取依据语音标记构成的识别语法，基于词典、声学模型和识别语法，采用语音标记搜索算法对由待识别语音提取出的特征进行识别，从而产生识别结果，并且将识别结果输入到输出单元中。
19.如权利要求18所述的语音标记系统，其中所述搜索算法处理单元或者语法单元从语法标记存储单元接收语音标记并且合成识别语法。
全文摘要
在根据本发明的语音标记方法中，首先在语音注册阶段，采用由语音识别技术发展而成的语音标记算法，将用户注册时的语音转换成文本进行存储。这样，对于所有待识别的词汇，只需要建立一个识别词表的数据库。在进行识别时，对于用户的发音，按照通用的语音识别系统的流程来进行识别，即提取语音的特征，利用识别词表的信息建立识别语法，基于识别语法和声学模型，对于待识别语音的特征序列在整个候选空间中进行搜索匹配，寻找匹配概率最大的词作为识别结果。本发明还提供了相应的语音标记系统以及采用语音标记的语音识别方法和系统。通过本发明的语音标记方法和系统，能够显著提高语音识别系统的准确度、适应性和灵活性，降低系统所需的存储空间。
文档编号G10L15/00GK1753083SQ20041007833
公开日2006年3月29日申请日期2004年9月24日优先权日2004年9月24日
发明者赵庆卫, 颜永红, 庹凌云, 潘接林申请人:中国科学院声学研究所, 北京中科信利通信技术有限公司, 北京中科信利技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵庆卫;颜永红;庹凌云;潘接林
技术所有人：中国科学院声学研究所;北京中科信利通信技术有限公司;北京中科信利技术有限公司
我是此专利的发明人

上一篇：说话时段检测设备及方法、语音识别处理设备的制作方法
上一篇：文本语音转换系统的表情图释处理方法