一种语音识别的文本分类方法和装置制造方法

文档序号：6486316阅读：188来源：国知局

一种语音识别的文本分类方法和装置制造方法
【专利摘要】本发明公开了一种语音识别的文本分类方法和装置，其中，该方法包括：根据业务类别的类型，为每个业务类别收集训练文本和与训练文本的内容保持一致的训练语音；对训练语音进行解码，得到训练语音的词混淆网络；根据训练文本和词混淆网络，提取训练文本的文本特征；根据文本特征，训练集内支持向量机分类器；由经过训练的所述支持向量机分类器对文本进行分类。本发明的语音识别的文本分类方法和装置，将词图网络转化为适合于文本分类的词混淆网络，将词混淆网络所包含的混淆词转化为文本特征后，利用支持向量机算法，进行基于混淆词的文本分类，得到更准确的分类结果，提高了语音识别文本分类的正确率。
【专利说明】一种语音识别的文本分类方法和装置
【技术领域】
[0001]本发明涉及通信领域中语音识别【技术领域】，具体地，涉及一种语音识别的文本分类方法和装置。
【背景技术】
[0002]文本分类是指给定分类目标下，根据文本内容自动确定文本类别的过程。借助于文本分类技术，对文本进行分类，可以让机器理解人类语言，从而实现智能语音交互。文本分类技术已经在互联网搜索、语音识别等人机交互领域得到了相当广泛的应用。
[0003]在自助语音识别服务系统中，利用文本分类技术对语音识别的文本结果进行分类，并根据最终类别的不同，自助语音服务系统向最终用户提供不同的自助语音服务，实现轻松自然的自助语音交互。如将自然语言“请帮我查询一下我的手机有无欠费”理解为语义“余额查询”，提供“余额查询”的自助服务。
[0004]目前主流的文本分类使用统计学习的方法:首先通过提取文本中的特征，将文本转化为带权重分量的特征矢量，并利用机器学习的方法，构建文本分类模型。
[0005]目前主要的文本分类学习算法包含Rocchio算法、朴素贝叶斯分类算法、决策树算法、神经网络算法及支持向量机算法(SVM, Support Vector Machine)等等,并在相应的算法上进行一些改进及融合，使文本分类的准确率持续不断的提高。
[0006]在申请号为99808930.3的中国专利文件中公开了一种根据文本信息对象训练集生成分类器之参数以便确认文本信息对象所属种类的方法。在申请号为200810012887.0的中国专利文件公开了一种利用最小二乘方法来拟合用支持向量机方法所得到的分类超平面，从而得到最优的超平面的方法，实现较佳的文本分类效果。
[0007]在自助语音服务系统中，文本分类需要与语音识别系统一起使用。传统的文本分类应用中，使用语音识别系统产生的第一优选(One Best)结果作为文本分类器的输入，文本分类器根据分类模型计算输入文本Wi对每个目标分类类别Tj的得分贡献，并选取得分最高的类别作为该输入文本对应的分类结果，如图1-2所示。在图2中，用第一优先结果进行文本分类，最终最优分类类别GRPS的得分为0+0+0+0.3+0.8=1.1。
[0008]这种方法在语音识别准确率较高的语音识别系统中，有优良的性能；但在语音识别引擎识别准确率较低的语音识别系统中，很可能输出包含较多错误的文本识别结果，这会直接导致文本分类的正确率的急剧下降。例如语音识别引擎因口音问题将识别出某段语音为:“我要用手机伤亡”，则SVM文本分类器得分如图3所示。因为错误识别结果“伤亡”对“GRPS”的贡献得分为0，造成“话费查询”与“GPRS”的最终得分均为0.3，造成分类错误。

【发明内容】

[0009]本发明是为了克服现有技术中语音识别的文本分类错误率高的缺陷，根据本发明的一个方面，提出一种语音识别的文本分类方法。
[0010]根据本发明实施例的语音识别的文本分类方法，包括:根据业务类别的类型，为每个业务类别收集训练文本和与训练文本的内容保持一致的训练语音；对训练语音进行解码，得到训练语音的词混淆网络；根据训练文本和词混淆网络，提取训练文本的文本特征；根据文本特征，训练集内支持向量机分类器；由经过训练的所述支持向量机分类器对文本进行分类。
[0011]本发明的语音识别的文本分类方法，在收集训练文本和训练语音后，在收集业务类别的训练文本和训练语音后，得到训练语音的词混淆网络，提取训练文本的文本特征，根据文本特征训练集内支持向量机分类器，由经过训练的所述支持向量机分类器对文本进行分类；本发明的语音识别的文本分类方法，通过语音识别所特有的词图网络，由于其对正确语音识别结果具有更高的覆盖度，将词图网络转化为适合于文本分类的词混淆网络，将词混淆网络所包含的混淆词转化为文本特征后，利用支持向量机算法，进行基于混淆词的文本分类，得到更准确的分类结果，提高了语音识别文本分类的正确率。
[0012]本发明是为了克服现有技术中语音识别的文本分类错误率高的缺陷，根据本发明的另一个方面，提出一种语音识别的文本分类装置。
[0013]根据本发明实施例的语音识别的文本分类装置，包括:文本收集模块，用于根据业务类别的类型，为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音；语音解码模块，用于对训练语音进行解码，得到训练语音的词混淆网络；特征提取模块，用于根据训练文本和词混淆网络，提取训练文本的文本特征；分类器训练模块，用于根据文本特征，训练集内支持向量机分类器；文本分类模块，用于由经过训练的支持向量机分类器对文本进行分类。
[0014]本发明的语音识别的文本分类装置，在收集训练文本和训练语音后，在收集业务类别的训练文本和训练语音后，得到训练语音的词混淆网络，提取训练文本的文本特征，根据文本特征训练集内支持向量机分类器，由经过训练的所述支持向量机分类器对文本进行分类；本发明的语音识别的文本分类装置，通过语音识别所特有的词图网络，由于其对正确语音识别结果具有更高的覆盖度，将词图网络转化为适合于文本分类的词混淆网络，将词混淆网络所包含的混淆词转化为文本特征后，利用支持向量机算法，进行基于混淆词的文本分类，得到更准确的分类结果，提高了语音识别文本分类的正确率。
[0015]本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0016]下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
【专利附图】

【附图说明】
[0017]附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中:
[0018]图1为现有技术中传统的文本分类方法的流程示意图；
[0019]图2为现有技术中利用第一优先结果进行文本分类的示意图；
[0020]图3为现有技术中利用第一优先结果进行文本分类过程中因识别错误导致分类错误的示意图；
[0021]图4为本发明语音识别系统的词混淆网络的结构示意图；[0022]图5为本发明使用词混淆网络进行文本分类的示意图；
[0023]图6为本发明语音识别的文本分类方法实施例一的流程图；
[0024]图7为本发明语音识别的文本分类方法实施例二中训练文本的结构示意图；
[0025]图8为本发明语音识别的文本分类方法实施例二中使用语音识别引擎对收集的训练语音进行解码的结构示意图；
[0026]图9为本发明语音识别的文本分类方法实施例二中混淆网络的结构示意图；
[0027]图10为本发明语音识别的文本分类方法实施例二中文本特征的结构示意图；
[0028]图11为本发明语音识别的文本分类方法实施例二中混淆网络的结构示意图；
[0029]图12为本发明语音识别的文本分类装置的结构示意图。
【具体实施方式】
[0030]下面结合附图，对本发明的【具体实施方式】进行详细描述，但应当理解本发明的保护范围并不受【具体实施方式】的限制。
[0031]本发明语音识别系统产生的词混淆网络(Word Confusion Network, WCN)作为文本分类器的输入，词混淆网络不仅包含了语音识别系统的第一优选结果，而且还包含了其它最可能的若干个识别结果，即混淆词，如图4所示。其中，文本分类器是支持向量机分类器(Support Vector Machine, SVM)中的一种，SVM分类器是分类器的统称。
[0032]文本分类器以词混淆网络作为输入，当一个词被语音识别系统识别为第一优选结果，则其所有的混淆词获得相应加分，并将整个词混淆网络输入到文本分类器，而不是只把第一优选结果作为输入，降低了文本分类器对语音识别系统识别结果的依赖性，从而增强了系统的容错性，在相同语音识别系统的基础上可获得更优的分类结果，如图5所示。
[0033]语音识别系统输出:“我要用手机伤亡”，则“伤亡”的混淆词“上网”同样获得相应的加分；如图5所示，“GPRS”获得的总得分为0+0+0+0.3+0.8+0=1.1，仍然为最优分类结果。因此，通过使用词混淆网络进行分类，可以显著减小分类系统对语音识别系统的过度依赖，提高了文本分类的准确率。所以，基于词混淆网络的文本分类法较传统分类方法更具优越性。
[0034]方法实施例
[0035]根据本发明实施例，提供了一种语音识别的文本分类方法，图6为本发明语音识别的文本分类方法实施例一的流程图。如图6所示，本实施例包括:
[0036]步骤102:根据预先设计的业务类别的类型，每个业务类别收集一定数量的训练文本；
[0037]步骤104:再收集与上述业务类别对应的训练语音，训练语音的内容与步骤102中的训练文本的内容要保持一致，使用语音识别引擎对收集的训练语音进行解码，得到该训练语音的词混淆网络。其中，词混淆网络中除了包含生成文本外，还包含有该生成文本中词语对应的声学置信度。
[0038]步骤106:根据训练文本和词混淆网络提取训练文本的文本特征，文本特征使用字的Four-gram，S卩(W1-2 I W1-1 I Wi I Wi+1 )，其中，Wi为当前字，ff1-2和W1-1为当前字的前续，Wi+1为当前字的后续。对于训练文本而言，如果某个N-gram出现，与该N-gram对应的文本特征的权重即为1，否则，该文本特征的权重为0 ;对于训练语音的词混淆网络而言，如果某个N-gram出现,与该N-gram对应的文本特征的权重为该N-gram中所有字的声学置信度的积，否则，该文本特征的权重为O。
[0039]步骤108:根据步骤106中得到的文本特征训练集内支持向量机分类器(SupportVector Machine, SVM)；
[0040]SVM训练技术，该技术为国际通用模式识别训练技术，详见SVM原理。
[0041]步骤110:通过经过步骤108训练的支持向量机分类器(即SVM)对文本进行分类。
[0042]根据本发明实施例，提供了另一种语音识别的文本分类方法。该实施例以具体业务为例，对本发明的文本分类方法进行进一步说明；其中，假定业务类别为:话费查询和手机上网，对于用户的语音命令输入进行文本识别。本实施例包括:
[0043]步骤202:根据预先设计的业务类别的类型，每个业务类别收集一定数量的训练文本，如图7所示；
[0044]步骤204:再收集与上述业务类别对应的训练语音，训练语音的内容与步骤202中的训练文本的内容要保持一致，使用语音识别引擎对收集的训练语音进行解码，如图8所示，得到该训练语音的词混淆网络，如图9所示；在图8中，()表示多候选，[]表示文本丢失{}表不增加。
[0045]其中，词混淆网络中除了包含生成文本外，还包含有该生成文本中词语对应的声
学置信度。
[0046]步骤206:根据训练文本和词混淆网络提取训练文本的文本特征，文本特征使用字的Four-gram，S卩(W1-2 I W1-1 I Wi I Wi+1 )，其中，Wi为当前字，ff1-2和W1-1为当前字的前续，Wi+1为当前字的后续。对于现有的训练文本而言，如果某个N-gram出现，与该N-gram对应的文本特征的权重即为1，否则，该文本特征的权重为0，如图10所示；对于本发明的训练语音的词混淆网络而言，如果某个N-gram出现，与该N-gram对应的文本特征的权重为该N-gram中所有字的声学置信度的积，否则，该文本特征的权重为0，如图11所示。在图11中，第I行中的“我”的声学置信度取词混淆网络中上下两路中的较大值，故取0.7。
[0047]步骤208:根据步骤206中得到的文本特征训练SVM分类器。SVM分类器采用的是SVM训练技术，该技术为国际通用的模式识别训练技术，主要是将文本特性表示为高维特征矢量，矢量参数通过已有的文本特征进行计算，最终获得SVM分类器。其中，SVM训练技术包括如下内容:
[0048]一、SVM特征提取
[0049](I)训练使用文本:使用训练语料中的“字”及其N-gram，即使用训练字典中所有“字”及其N-gram组成一个高维的特征矢量，对于某条训练语料，如果某个“字”出现，该维特征即为“1”，反之为“O”。
[0050](2)训练使用WCN:提取SVM特征时设置声学CM (Confidence Measure,置信度)门限，首先将CM较小的词裁剪掉；其次同样取WCN中的“字”及其N-gram，当某个N-gram出现时其权重的计算与其声学CM有关，如果这个N-gram包含一个以上的“字”，使用这几个“字”声学CM的几何平均，声学置信度的计算公如下:
[0051]Giwl ,...,Wj = Confiwi)
[0052]二、SVM 训练[0053]SVM是一个常用的解决分类问题的方法，通常将输入向量映射到高维空间，在高维空间中形成线性分类器以解决分类问题，但是在诸如呼叫导航等大规模文本分类任务中，其输入向量维数巨大，一般采用线性核可以取得较好的分类效果。求解线性核的方法一般分为两大类，即求解原始问题与对偶问题，我们采用的SVM的训练方法为求解C-线性支持向量分类机的对偶问题，即求解下面的问题:
【权利要求】
1.一种语音识别的文本分类方法，其特征在于，包括: 根据业务类别的类型，为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音；对所述训练语音进行解码，得到所述训练语音的词混淆网络；根据所述训练文本和词混淆网络，提取训练文本的文本特征；根据所述文本特征，训练集内支持向量机分类器；由经过训练的所述支持向量机分类器对文本进行分类。
2.根据权利要求1所述的方法，其特征在于，所述词混淆网络包括生成文本和与所述生成文本中的词语对应的声学置信度。
3.根据权利要求2所述的方法,其特征在于,所述文本特征使用字的Four-gram表示，其中，Wi为当前字，W1-2和W1-1为所述字的前续，Wi+1为所述字的后续。
4.根据权利要求3所述的方法，其特征在于，在所述训练语音的词混淆网络中，如果所述文本特征对应的N-gram出现，所述文本特征的权重为所述N-gram中所有字的声学置信度的积，否则，所述文本特征的权重为O。
5.一种语音识别的文本分类装置，其特征在于，包括: 文本收集模块，用于根据业务类别的类型，为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音；语音解码模块，用于对所述训练语音进行解码，得到所述训练语音的词混淆网络；特征提取模块，用于根据所述训练文本和词混淆网络，提取训练文本的文本特征；分类器训练模块，用于根据所述文本特征，训练集内支持向量机分类器；文本分类模块，用于由经过训练的所述支持向量机分类器对文本进行分类。
6.根据权利要求5所述的装置，其特征在于，所述词混淆网络包括生成文本和与所述生成文本中的词语对应的声学置信度。
7.根据权利要求6所述的装置，其特征在于，所述文本特征使用字的Four-gram表示，其中，Wi为当前字，W1-2和W1-1为所述字的前续，Wi+1为所述字的后续。
8.根据权利要求7所述的装置，其特征在于，在所述训练语音的词混淆网络中，如果所述文本特征对应的N-gram出现，所述文本特征的权重为所述N-gram中所有字的声学置信度的积，否则，所述文本特征的权重为O。
【文档编号】G06F17/30GK103514170SQ201210204350
【公开日】2014年1月15日申请日期:2012年6月20日优先权日:2012年6月20日
【发明者】万鹏, 梁政, 刘江, 鹿晓亮, 李钊辉, 刘庆峰申请人:中国移动通信集团安徽有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：万鹏;梁政;刘江;鹿晓亮;李钊辉;刘庆峰
技术所有人：中国移动通信集团安徽有限公司
我是此专利的发明人

上一篇：一种基于图像的制品数量快速测量方法及其装置制造方法
上一篇：变色保护装置与可携式装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。