一种语音识别中便于人工修改文字的方法与流程

文档序号：11521410阅读：640来源：国知局

本发明涉及一种语音识别中便于人工修改文字的方法，主要涉及语音识别技术领域。

背景技术：

目前语音识别成文字的技术发展越来越快，技术也越来越好，语音识别成文字的速度和效果都有很大的提高。人们已经逐渐开始习惯于使用一些即时通讯软件，把说的话转换成文字信息发送出去，或是把一段语音转换成文字。但是，识别结果不可避免地会出现错误，这时却没有很好的方法进行修改，通常是要将其从头到尾读一遍，才能知道哪些地方识别错误。而要将这种识别技术用于对长篇演讲之类的语音进行识别，其错误的修改就更为麻烦。人们不知道错误分布在何处，往往得从头到尾对听着语音资料来看一遍文字资料，才能找出其中的错误，或修改不合适的语词，往往费时费力。

技术实现要素：

本发明实施例提供一种语音识别中便于人工修改文字的方法，以便于对语音识别出的文字进行高效快捷地修改。

本发明实施例提供了一种语音识别中便于人工修改文字的方法，其特征可以是：

对语音识别结果预设若干阈值范围；语音识别时，将其中一个或多个所述阈值范围内的语音片段转换成文字，而将此一个或多个所述阈值范围外的语音识别结果标记出来，供人工修改。

可选的，所述阈值范围，可以具体指，语词匹配阈值范围，或语段理解阈值范围，或语词匹配与语段理解相结合的阈值。

可选的，所述将此一个或多个所述阈值范围外的语音识别结果标记出来，可以具体为：(1)根据所述解阈值范围对识别出的文字进行显性标识；或，(2)不显示文字识别结果，而是将这些不显示文字的识别结果对应的语音片段录制、复制或剪贴出来，按照它在所述语音文件中的时间顺序，置于已经转换成的文字之间。

可选的，所述进行显性标识，可以具体为：进行颜色区分、字体区分、字号区分、图案区分、亮度区分、背景色区分或下划线来标识。

可选的，所述方法还可以包括：在对文字进行显性标识时，录制、复制或剪贴对应的语音片段，以便人工对显性标识的文字进行处理。

可选的，所述录制、复制或剪贴对应的语音片段，以便人工对显性标识的文字进行处理，可以具体为：录制、复制或剪贴对应的语音片段，与显性标识的文字建立对应或响应关系，当人工处理带有显性标识的文字时，可播放所述对应的语音片段。

可选的，所述置于已经转换成的文字之间，具体可以为：(1)在所述已经转换成的文字之间做镶嵌节点，当镶嵌节点被激活时，直接播放所述被录制、复制或剪贴出来的语音片段；或，(2)在所述已经转换成的文字之间做链接节点，当链接节点被激活时，在新窗口或播放窗口中播放所述被录制、复制或剪贴出来的语音片段。

本发明所提供的实施例中，在语音识别成文字的同时，根据预设匹配阈值范围，对那些被判断为不完全与语音内容相同的的语音识别结果进行标记，便于修改者一目了然地知道哪些地方应该修改，从而能提高文字修改的速度和效率。

附图说明

附图1：本发明的一种实施例的一个示意图

具体实施方式

下面结合本发明实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种语音识别中便于人工修改文字的方法，其特征可以是，对语音识别结果预设若干阈值范围；语音识别时，将其中一个或多个所述阈值范围内的语音片段转换成文字，而将此一个或多个所述阈值范围外的语音识别结果标记出来，供人工修改。

传统的基于hmm的语音识别大致可分为四个步骤：第一步，对语音分帧(把声音切分成一小段一小段，每小段称为一帧)；第二步，把帧识别成状态(极小的语音单位，通常一个音素包含三个状态)；第三步，把状态组合成音素；第四步，把音素组合成词。这个过程中，会涉及累积概率问题，即观察概率(每帧和每个状态对应的概率)、转移概率(每个状态转移到自身或转移到下个状态的概率)、语言概率(根据语言统计规律得到的概率)，其中前两种概率从声学模型中获取，最后一种概率从语言模型中获取。声学模型里面储存着大量参数，通过这些参数，就可以知道帧和状态对应的概率。获取大量参数的方法叫训练，需要使用巨大的语音数据。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。当代语音识别技术与传统技术在技术原理和表现形式上大同小异，这样，就可以在语音识别的过程中，对发生的各类概率进行统计分析，从而对识别率进行分级，给出预设语词匹配阈值范围，比如依据综合数据，可将匹配度分为[0,20％)、[20,50)、[50,80)、[80,100]这四个阈值范围(或只预设[80,100]这个阈值范围)，将[80,100]这个阈值范围的语音片段转换成文字，而将此阈值外的，也就是[0,20％)、[20,50)、[50,80)、[80,100]这三个阈值范围内的语音识别结果标记出来。这样，修改者就能一目了然地知道哪些地方应该修改，从而能提高文字修改的速度和效率。

所述阈值范围，具体可以指，语词匹配阈值范围，或语段理解阈值范围，或语词匹配与语段理解相结合的阈值，还可以是其他范围，本发明不做具体限定。

由于语音识别是一个认知过程，常常与语言的语法、语义和语用结构联系在一起，在此我们可以将这三类结构或其中的一到两种统称为语段理解。这样，在语音识别的过程中，人的言语就与语段理解之间存在着一个匹配度的问题。有的匹配度高，有的匹配度低，因此也可以对其进行统计分析，从而对匹配度进行分级，比如依据综合数据(可以是语段理解自身的，也可以是和词语匹配相结合的)，可将匹配度分为[0,40％)、[40,70)、[70,100]这三个阈值范围，将[70,100]这个阈值范围的语音片段转换成文字，而将此阈值外的，也就是[0,40％)、[40,70)这两个阈值范围内的语音识别结果标记出来。这样，修改者就能一目了然地知道哪些地方应该修改，从而能提高文字修改的速度和效率。

所述将此一个或多个所述阈值范围外的语音识别结果标记出来，可以具体为：(1)根据所述解阈值范围对识别出的文字进行显性标识；或，(2)不显示文字识别结果，而是将这些不显示文字的识别结果对应的语音片段录制、复制或剪贴出来，按照它在所述语音文件中的时间顺序，置于已经转换成的文字之间。

所述显性标识，可以是进行颜色区分、字体区分、字号区分、图案区分、亮度区分或背景色区分来标识，也可以是采用下划线标识，还可以采用其他标识形式。比如上述[0,20％)、[20,50)、[50,80)这三个阈值范围可用红、黄、蓝三种颜色进行标记，而[0,40％)、[40,70)这两个阈值范围可用不同的下划线来标记，从而能使修改者对所要修改的内容一目了然。

所述方法还可以包括：在对文字进行显性标识时，录制、复制或剪贴对应的语音片段，以便人工对显性标识的文字进行处理。

当语音识别成文字时，可对语音与文字进行时点对应。比如一句话“我们准备回家吃饭”的语音处于4分28秒至4分31秒，那么识别出的这句话也处于4分28秒至4分31秒，并可再细分成每个词处于几分几秒。当某些字词被进行显性标识的同时，也即是这些字词被判定处于某一阈值范围的同时，可以从被标识的第一个字词的时点开始，至被标识的最后一个字词的时点结束，或向前和/或向后扩展若干秒，将与之时点对应的语音片段录制、复制或剪贴出来，以便用户在进行修改时，打开对应的语音片段作参照。录制、复制或剪贴与显性标识的文字对应的语音片段的具体方法，本发明不作具体限制。

所述录制、复制或剪贴对应的语音片段，以便人工对显性标识的文字进行处理，可以具体为：录制、复制或剪贴对应的语音片段，与显性标识的文字建立对应或响应关系，当人工处理带有显性标识的文字时，可播放所述对应的语音片段。

在录制、复制或剪贴出与某一显性标识的文字相对应的语音片段之后，可在此显性标识的文字和语音片段之间建立某种对应或响应关系。比如，将语音片段复制到某一文件夹里，并以该显性标识的文字及其在文中的顺序命名，如此文字是“未来发展”，且是第四个显性标识，则其语音片段命名为“4.未来发展”，修改者可以打开这个语音片段来听。比如，直接将显性标识的文字和与之对应的语音片段建立链接关系，当修改者把手指或光标移动到有显性标识的文字上时，文字对应的语音片段就被激活自动播放，以便修改者及时方便地参照着进行修改。具体如何建立对应或响应关系，本发明不作具体限制。

所述置于已经转换成的文字之间，具体可以为：(1)在所述已经转换成的文字之间做镶嵌节点，当镶嵌节点被激活时，直接播放所述被录制、复制或剪贴出来的语音片段；或，(2)在所述已经转换成的文字之间做链接节点，当链接节点被激活时，在新窗口或播放窗口中播放所述被录制、复制或剪贴出来的语音片段。

语音识别时，可以将其中一个或多个所述阈值范围内的语音片段转换成文字，但不将此一个或多个所述阈值范围外的语音片段转换成文字，换句话说也就是不显示文字识别结果，而是将这些不显示文字的识别结果对应的语音片段录制、复制或剪贴出来，插在已经转换成的文字之间。如附图1所示，作为一个图标(即镶嵌节点，如图中所示的八边形图标)，当用户用手指或鼠标或类似方法触及它时，播放器(如图中所示的小喇叭)直接播放相应的语音片段。或者没有图中的小喇叭，当用户触及图标(此时即链接节点)时，会弹出播放窗口，或打开可以播放相应语音片段的窗口、播放器、链接等。这样，用户能很快找到需要修改的位置，并及时处理。

以上对本发明所提供的一种语音识别中便于人工修改文字的方法进行了详细介绍，应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例仅为本发明较佳的具体实施方式，用于帮助理解本发明的方法及核心思想，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员，依据本发明的思想，在本发明揭露的技术范围内，轻易想到的变化或替换，均应涵盖在本发明的保护范围内。综上所述，本说明书内容不应理解为对本发明的限制，本发明的保护范围以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人
技术所有人：王道平
我是此专利的发明人

上一篇：语音评测方法及系统与流程
上一篇：弯曲式声学蜂窝结构的拼接的制造方法与工艺