实现语音识别中自动添加标点符号的方法及系统的制作方法

文档序号：2825194阅读：2141来源：国知局

专利名称：实现语音识别中自动添加标点符号的方法及系统的制作方法
技术领域：
本发明涉及语音识别技术领域，具体涉及一种实现语音识别中自动添加标点符号的方法及系统。
背景技术：
目前，语音识别系统大多采用基于统计模式识别的方法，首先将语音输入的时域声波转化为一种数字化的矢量特征来描述区分不同的发音，基于该声音特征对所有的发音建立一个声学模型；同时，对于大词表连续语音识别系统来说，需要一个语言模型，该模型中包括所识别语言中的常用文字的使用方法。一般连续语音识别系统的工作过程可以描述为，在巨大的字、词、短语或句子的空间中，找出与给定输入声音特征序列相匹配具有最大概率的字、词、短语或句子，作为识别结果，同时可采用上下文产生装置利用上述识别结果修改当前上下文，便于下一个语音采样所用。由于语音可以通过语气的强弱、语音的停顿以及语调的升降变换来变现平稳、感叹、疑问、喜悦等多种情感，而将语音识别为文字时，就失去了发音的辅助信息，无法将这些情感像运用语言一样表达得那样生动。同时讲话人采用不一样的情感语气进行发音，会使得短语或句子具有不同的意思。例如，“你还没听懂我的意思。”和“你还没听懂我的意思？，，这两句话由于语气不同，句意也发生改变，前者是陈述一个事实，后者则为表示疑问的反问句，并包含感到意外的意思，而这两句话从文字上的区别仅是标点符号的不同。可见标点符号在句子中起的作用至关重要，在语音识别中添加标点符号是十分必要的。然而在当前的连续语音识别系统中，对于自动添加标点符号的研究并不多，大多是当语音识别时，中间有停顿的地方识别为逗号，结束时自动添加句号，整个句子都被视为陈述语气，这种方式在某些情形下并不能正确传达出讲话者语义和情感。为此，现有技术中提出了一种利用人在发音过程中产生的噪声，将这些噪声与标点符号相对应，实现在连续语音识别中自动添加标点符号的方案。但是该方案在实际应用中依然存在一定的问题，因为用户的差异性及标点符号的多样性，并不是所有用户都会在讲话中产生足够的噪声，因此这种方案中标点符号的添加缺乏准确性和灵活性。

发明内容
本发明实施例针对上述现有技术存在的问题，提供一种实现语音识别中自动添加标点符号的方法及系统，以简单方便地实现标点符号的自动添加，并提高标点符号添加的准确性和灵活性。为此，本发明实施例提供如下技术方案—种实现语音识别中自动添加标点符号的方法，包括采集用户语音信号；对所述用户语音信号进行语音识别，生成包含多个语句的文字序列；依次计算所述文字序列中语句间的停顿位置的时长；
4
如果所述时长小于预设的门限值，则在所述停顿位置添加逗号；如果所述时长大于或等于所述门限值，则利用预先生成的分类器，确定所述停顿位置前的语句的语气类型，并根据所述类型在所述停顿位置添加标点符号。一种实现语音识别中自动添加标点符号的系统，包括信号采集单元，用于采集用户语音信号；语音识别单元，用于对所述用户语音信号进行语音识别，生成包含多个语句的文字序列；计算单元，用于依次计算所述文字序列中语句间的停顿位置的时长；判断单元，用于判断所述时长是否小于预设的门限值；第一标点符号添加单元，用于在所述判断单元判断所述时长小于预设的门限值，在所述停顿位置添加逗号；语句类型确定单元，用于在所述判断单元判断所述时长大于或等于所述门限值，利用预先生成的分类器，确定所述停顿位置前的语句的语气类型；第二标点符号添加单元，用于根据所述语句类型确定单元确定的语句类型在所述停顿位置添加标点符号。本发明实施例提供的实现语音识别中自动添加标点符号的方法及系统，通过对采集的用户语音信号进行语音识别，生成包含多个语句的文字序列；依次计算该文字序列中语句间的停顿位置的时长；如果该时长小于预设的门限值，则在该停顿位置添加逗号；如果该时长大于或等于所述门限值，则确定该停顿位置前的语句的语气类型，并根据确定的语句类型在该停顿位置添加标点符号。从而简单高效地实现标点符号的自动添加，并保证了标点符号添加的准确性和灵活性。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。图1是本发明实施例实现语音识别中自动添加标点符号的方法的流程图；图2是本发明实施例中训练分类器的流程图；图3是本发明实施例中根据已训练的分类器确定语句的语气类型的流程图；图4是本发明实施例实现语音识别中自动添加标点符号的系统的一种结构示意图；图5是本发明实施例实现语音识别中自动添加标点符号的系统的另一种结构示意图。
具体实施例方式为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。本发明实施例实现语音识别中自动添加标点符号的方法及系统，通过对采集的用户语音信号进行语音识别，生成包含多个语句的文字序列；依次计算该文字序列中语句间的停顿位置的时长；如果该时长小于预设的门限值，则在该停顿位置添加逗号；如果该时长大于或等于所述门限值，则确定该停顿位置前的语句的语气类型，并根据确定的语句类型在该停顿位置添加标点符号。从而简单高效地实现标点符号的自动添加，并保证了标点符号添加的准确性和灵活性。如图1所示，是本发明实施例实现语音识别中自动添加标点符号的方法的流程图，包括以下步骤步骤101，采集用户语音信号。可以利用现有的一些语音信号采集工具进行采集，将用户语音信号表示为语音采样。例如，利用Windows语音采集工具采集语音信号，将采集的数据保存WAV (Wave Audio Files，波形声音文件)格式。当然，还可以采用其他采样格式，比如，PCM(Pulse Code Modulation，脉冲编码调制)、RAW格式、SND格式、以及MP3 (Moving Picture Experts Group Audio Layer III)格式等。步骤102，对所述用户语音信号进行语音识别，生成包含多个语句的文字序列。在具体应用中，可以根据应用需要，采用不同的语音识别方法，比如，可以采用以下任意一种方法(I)DTff (Dynamic Time Warping，动态时间规整)方法说话人信息不仅有稳定因素(发声器官的结构和发声习惯)，而且有时变因素(语速、语调、重音和韵律)。DTW将识别模板与参考模板进行时间对比，按照某种距离测度得出两模板间的相似程度。(2) VQ(Vector Quantization，矢量量化)方法将每个人的特定文本训练成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。(3)HMM(Hidden Markov Model，马尔可夫模型)方法是一种基于转移概率和输出概率的随机模型，它将语音看成由可观察到的符号序列组成的随机过程，符号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时，为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进行判决。对于与文本无关的说话人识别一般采用各态历经型HMM ；对于与文本有关的说话人识别一般采用从左到右型HMM。HMM不需要时间规整，可节约判决时的计算时间和存储量，在目前被广泛应用。其缺点是训练时计算量较大。(4) ANN (Artificial Neural Networks，人工神经网络方法)它在某种程度上模拟了生物的感知特性，是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，其性能近似理想的分类器。当然，还可以采用其他方法，具体采用哪种语音识别方法本发明实施例不做限定。而且具体的语音识别过程与现有技术类似，在此不再赘述。经过语音识别处理，可以将采集的用户语音信号生成一个文字序列，在该文字序列中包含了一个或多个语句，如果有多个语句，则在前、后语句间有一定时长的停顿，不同停顿位置的时长可能相同，也可能不同。步骤103，依次计算所述文字序列中语句间的停顿位置的时长。步骤104，判断所述时长是否小于预设的门限值；如果是，则执行步骤105 ；否则，执行步骤106。
上述门限值可以根据不同的语速来确定，比如在正常的语速下设为0. 2s，如果语速较慢，则设为0. 3s，对此本发明实施例不做限定。步骤105，在所述停顿位置添加逗号。人在讲话时，为使讲话层次分明，突出重点，吸引听话人的注意力，会根据讲话内容的标点有意识的停顿。通常，在一句话结束时会停顿时间较长，而在一句话之间的停顿时间会较短。因此，如果停顿位置的时长很短，小于设定的门限值，则表明句子没有结束，可以直接进行标点符号的添加，即在该停顿位置添加逗号。步骤106，利用预先生成的分类器，确定所述停顿位置前的语句的语气类型。如果停顿位置的时长较长，超过了预设的门限值，则确定句子结束。而不管是对汉语还是其他语言，比如英语、日语等语言中，一句话的结束可以有多种不同的标点符号来标识，而且，标点符号具有的含义与人的情感之间有直接的联系，比如，当人在讲话时采用感叹语气时，一般句子结尾为感叹号；讲话人采用疑问语气时，句子结尾为问号；讲话人采用陈述语气时，句子结尾为句号。因此，在本发明实施例中，可以在确定句子结束后，根据停顿位置前的语句的语气类型来添加相应的标点符号，从而保证其正确性。步骤107，根据所述类型在所述停顿位置添加标点符号。在本发明实施例中，可以将语句的语气类型划分为三种，分别是陈述句、疑问句和感叹句。相应地，在所述停顿位置添加标点符号时根据该类型添加相应的标点符号，即如果所述类型为陈述句，则在所述停顿位置添加句号；如果所述类型为疑问句，则在所述停顿位置添加问号；如果所述类型为感叹句，则在所述停顿位置添加感叹号。可见，本发明实施例实现语音识别中自动添加标点符号的方法，通过对采集的用户语音信号进行语音识别，生成包含多个语句的文字序列；依次计算该文字序列中语句间的停顿位置的时长；如果该时长小于预设的门限值，则在该停顿位置添加逗号；如果该时长大于或等于所述门限值，则利用预先生成的分类器，确定该停顿位置前的语句的语气类型，并根据确定的语句类型在该停顿位置添加标点符号。从而简单高效地实现标点符号的自动添加，并保证了标点符号添加的准确性和灵活性。前面提到，在本发明实施例中，如果确定了语句结束，则需要根据语句的语气类型来添加相应的标点符号，具体地，可以利用预先生成的分类器(包括文本分类器和/或声学分类器)，确定所述语句的语气类型。下面对其原理及具体实现过程进行详细说明。一般地，文字文本之所以能表达一定的情感和语义，除了与文字本身具有的含义有关，更与文本中采用的语气词和标点符号具有直接的联系。另外，语音信号之所以能够传递情感信息，语气不同能表达不同的含义，是因为其中包含了能反映情感差异的特征，而声学特征在情感信息传递中起到关键作用，语音情感变化主要通过声学特征的差异得到体现。因此，在本发明实施例中，可以采用分别训练文本分类器和声学分类器的方式，当然，也可以采用同时训练文本分类器和声学分类器的方式，利用所述文本分类器和声学分类器对用户语音进行文本辨析和语音特性辨析，准确地判断出语音语气，提高添加标点符号的准确性。如图2所示，是本发明实施例中训练分类器的流程图，该分类器的训练过程，采用同时训练文本分类器和声学分类器的方式，充分保证分类的准确性。该流程包括以下步骤步骤201，收集文本语料。在具体应用中，可以由人工从网络或书籍上收集各种文本语料，也可以由应用软件从网络上收集各种文本语料，每条语料不仅包含文字内容，而且还包含相应的标点符号。所述文本语料主要以逗号、感叹号、问号和句号为标志，划分为句子单元。所述文本语料包括不同的语气句子类型，如陈述句、感叹句、疑问句等，各句子的长度及声调可以相同或不同。步骤202，从所述文本语料中提取关键词。具体地，可以针对句子标点符号为句号、问号、感叹号的语句，分别统计其中出现频率较高、而在其他标点对应的文本中出现较少的词语，例如疑问语气中的“为什么”、 “吗”、“谁”、“哪个”等，统计出现频率较高的若干个词，构成一维向量空间。其中关键词的挑选准则为对于三类标点符号C1 (句号)、C2(问号)、C3(叹号)对应的语料，挑选其中每类语料中出现的后验概率最大的若干前N个词，公式如下
Q; = arg[maxPiC1 | w)] = arg[max 尸]n^f.topNw.topNK1J
P(C1)
i=\W表示文本语料的个数，Ci表示不同语气的语料的个数。其中，i = 1,2,3,P(Cjw)为一句语料中找到的关键词属于第i类的概率。对于N 的选取可以根据语料的多少以及识别率的好坏进行不同选择，比如，N取20。步骤203，根据提取的关键词训练生成文本分类器。具体地，可以将提取的关键词以类型为句号、感叹号、问号结尾的文本中出现的关键词组成一个矢量，每种语气仅保留前N个最有区分性的词语，例如，从感叹句中挑选的关键词为啊、吧、唉、哎呀、哦、天哪...；从问句中挑选的关键词为为什么、谁、哪里、哪一个、什么、怎么样、多少、星期几...；从陈述句中挑选的关键词为知道了、是的吧、很好的...，共组成长度为M的矢量(M、N为正整数)。在前面得到的M个元素的基础上，对于测试训练集中的所有文本语料，分析每个句子中各个关键词是否出现，如果出现，则在上述M维矢量中对应的位置填上1，其余的位置设为0。然后利用以这些矢量和对应的标点符号为类别，以最大熵为准则，训练出文本分类器。步骤204，获取不同的录音人对所述文本语料录音生成的语音文件。比如，对收集的文本语料，选取5名男性和5名女性录音人，每个人按照日常说话的方式读出所述文本语料的内容，并且根据不同的句型采用不同的语气朗读。同时，保证录音人对于每种语气需要读大体相当数量的文本。对录音后的文件按照16KHz采样率、16bit 量化进行A/D变换，以WAV格式保存该文件。步骤205，确定所述语音文件中的发音语气。具体地，可以通过对所述语音文件进行语气分析，确定所述语音文件中的发音语气。所述语气分析包括包括韵律分析和频谱分析。上述韵律分析包括基频提取和规整、一阶、二阶基频差分。其中，基频提取和规整可以采用I^raat基频提取算法，计算每一帧位置对应的基频值以及计算该句的基频平均值 (基频值为0的位置不参与计算)，然后将所有基频值减去整体的均值。上述频谱分析包括计算平均频率幅度、共振峰参数提取。其中，计算平均频率幅度即对于每一帧数据，采用离散傅里叶变换(DFT)，计算出每一帧数据平均幅度，即公式
权利要求
1.一种实现语音识别中自动添加标点符号的方法，其特征在于，包括采集用户语音信号；对所述用户语音信号进行语音识别，生成包含多个语句的文字序列；依次计算所述文字序列中语句间的停顿位置的时长；如果所述时长小于预设的门限值，则在所述停顿位置添加逗号；如果所述时长大于或等于所述门限值，则利用预先生成的分类器，确定所述停顿位置前的语句的语气类型，并根据所述类型在所述停顿位置添加标点符号。
2.根据权利要求1所述的方法，其特征在于，所述类型包括陈述句、疑问句和感叹句；所述根据所述类型在所述停顿位置添加标点符号包括如果所述类型为陈述句，则在所述停顿位置添加句号；如果所述类型为疑问句，则在所述停顿位置添加问号；如果所述类型为感叹句，则在所述停顿位置添加感叹号。
3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括预先收集文本语料；根据所述文本语料通过训练方式生成所述分类器，所述分类器包括文本分类器和/ 或声学分类器。
4.根据权利要求3所述的方法，其特征在于，所述根据所述文本语料通过训练方式生成文本分类器包括从所述文本语料中提取关键词；根据提取的关键词训练生成文本分类器。
5.根据权利要求4所述的方法，其特征在于，所述根据所述文本语料通过训练方式生成声学分类器包括获取不同的录音人对所述文本语料录音生成的语音文件；确定所述语音文件中的发音语气；以所述发音语气为分类目标训练生成声学分类器。
6.一种实现语音识别中自动添加标点符号的系统，其特征在于，包括信号采集单元，用于采集用户语音信号；语音识别单元，用于对所述用户语音信号进行语音识别，生成包含多个语句的文字序列；计算单元，用于依次计算所述文字序列中语句间的停顿位置的时长；判断单元，用于判断所述时长是否小于预设的门限值；第一标点符号添加单元，用于在所述判断单元判断所述时长小于预设的门限值，在所述停顿位置添加逗号；语句类型确定单元，用于在所述判断单元判断所述时长大于或等于所述门限值，利用预先生成的分类器，确定所述停顿位置前的语句的语气类型；第二标点符号添加单元，用于根据所述语句类型确定单元确定的语句类型在所述停顿位置添加标点符号。
7.根据权利要求6所述的系统，其特征在于，所述类型包括陈述句、疑问句和感叹句；所述第二标点符号添加单元，具体用于在所述语句类型确定单元确定的语句类型为陈述句时，在所述停顿位置添加句号；为疑问句时，在所述停顿位置添加问号；为感叹句时，在所述停顿位置添加感叹号。
8.根据权利要求6或7所述的系统，其特征在于，所述系统还包括语料收集单元，用于收集文本语料；分类器生成单元，用于根据所述文本语料通过训练方式生成分类器。所述语句类型确定单元，具体用于利用所述分类器生成单元预先生成的分类器，确定所述停顿位置前的语句的语气类型。
9.根据权利要求8所述的系统，其特征在于，所述分类器生成单元包括文本分类器训练单元和/或声学分类器训练单元；所述文本分类器训练单元，用于根据所述文本语料通过训练方式生成文本分类器；所述声学分类器训练单元，用于根据所述文本语料通过训练方式生成声学分类器。
10.根据权利要求9所述的系统，其特征在于，所述文本分类器训练单元包括关键词提取子单元，用于从所述语料收集单元收集的文本语料中提取关键词；第一训练子单元，用于根据所述关键词提取子单元提取的关键词训练生成文本分类器。
11.根据权利要求10所述的系统，其特征在于，所述声学分类器训练单元包括语音文件获取子单元，用于获取不同的录音人对所述语料收集单元收集的文本语料录音生成的语音文件；语气确定子单元，用于确定所述语音文件中的发音语气；第二训练子单元，用于以所述语气确定子单元确定的发音语气为分类目标训练生成声学分类器。
全文摘要
本发明涉及语音识别技术领域，公开了一种实现语音识别中自动添加标点符号的方法及系统，该方法包括采集用户语音信号；对所述用户语音信号进行语音识别，生成包含多个语句的文字序列；依次计算所述文字序列中语句间的停顿位置的时长；如果所述时长小于预设的门限值，则在该停顿位置添加逗号；如果所述时长大于或等于所述门限值，则利用预先生成的分类器，确定所述停顿位置前的语句的语气类型，并根据所述类型在所述停顿位置添加标点符号。利用本发明，可以简单方便地实现标点符号的自动添加，并提高标点符号添加的准确性和灵活性。
文档编号G10L15/26GK102231278SQ201110156209
公开日2011年11月2日申请日期2011年6月10日优先权日2011年6月10日
发明者俞健, 刘庆峰, 王智国, 胡国平, 胡郁, 蒋成林, 陈志刚, 魏思申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈志刚;蒋成林;俞健;魏思;胡郁;胡国平;王智国;刘庆峰
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人