一种基于领域识别的对语音识别后文本纠错的方法与流程

文档序号:13813049阅读:390来源:国知局

本发明属于语音识别文本处理领域,具体涉及一种基于领域识别的对语音识别后文本纠错的方法。



背景技术:

近年来,人工智能的需求和发展日益增加,让计算机正确的理解人类的语言成为重中之重。语音识别主要可以分为前处理和后处理过程,前处理过程主要包括了语音信号处理的过程,对人类/用户所说的话进行参数提取分析,集中在语音信号的处理;语音后处理则涉及到了音节到汉字的转变,换言之,即是把语音信号信息转为计算机可识别的内码的过程。实际语音识别后处理过程中,由于语音输入者(讲话人)可能的心理或者情绪的起伏、方言口音等问题,造成语速过快/过、声调变高/低、发音失真等共振峰和音调变化,产生语音识别信号错误,从而无法正确表达用户(讲话人)的真实内容给计算机做后续处理。

本申请着重语音识别后处理领域的后文本处理技术。目前语音识别后的文本主要的错误主要分为以下三类:同音字/同音词,比如,是\市\时;近音字/近音词,比如,幸福\信服;外因造成的漏音、冗余、前后粘连,比如,我/我的。

现有有效能够应用在实际中语音识别后文本处理技术主要都是基于统计或者基于规则的方法。采用替换字表结合主词典,通过加字和换字对侦测出来的错误字串提供纠错建议的纠错算法。但该算法的局限性在于纠错建议局限于纠错字表,同时,此方法涉及大量的人工介入建立大批量的可替代词以及可能出现的错词、错字,同时此方法涉及大量的检索步骤,在某些特定场景下无法保证速度要求,鲁棒性不强。

再则,从大量语料以及实例中挖掘其可能存在的关联关系,加入统计模型,此方法不需要词典,依靠的是词与词之间的关系。但是,此方法对于不常出现的词语组合,尤其是同音词的纠错困难,同时还有对于缺字或者漏子的情况无法做到一个很好的纠错。同时,在电视端,如果识别后的句子中带有专有电影名、演员名或者歌曲名等专有名称没有正确的识别或者纠正,将极大的降低后续开发的正确率以及用户体验效果。



技术实现要素:

本发明所要解决的技术问题是:提出一种基于领域识别的对语音识别后文本纠错的方法,解决传统技术中的处理方法需要大量人工介入,纠错效率低,而且无法对专有名称进行纠错的问题。

本发明解决其技术问题所采用的技术方案是:

一种基于领域识别的对语音识别后文本纠错的方法,包括以下步骤:

a.对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;

b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;

c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;

d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;

e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果。

作为进一步优化,还包括步骤:

f.识别的原错误语句和对应的纠错结果加入混淆词库集,供以后的语音识别学习和训练。

作为进一步优化,步骤a具体包括:

将语音识别后的文本进行词元组合,并通过bigrams模型对比不同词频文件进行识别,对识别后的词元进行两两组合,一直到整个句子组合识别完毕,选择识别错误词最少的词频库对应的领域为初步确定的领域;其中,词频文件由各个领域多个专有名词库组成。

作为进一步优化,步骤b具体包括:

根据预先训练的句式规则对待纠错句子进行切割,将句子分为冗余部分和核心部分,记录下待纠错句子的句式规则,并且将句子冗余部分和核心部分全部转化为拼音。

作为进一步优化,步骤c具体包括:

对确定后的句子核心部分进行分词,再利用搜索引擎whoosh对分词后的结果在步骤a中初步确定的领域内进行进行字符串模糊匹配。

作为进一步优化,步骤d具体包括:

d1.冗余部分纠错:

直接利用拼音对比正确词库的拼音,基于编辑距离计算相似性得分,选取合适的阈值,选择超过阈值中相似度得分的最高正确词组为冗余部分可接受的纠错候选结果;

d2.核心部分纠错:

根据确定的候选专有词库集,通过预先训练得到的句式规则,将候选的专有词库集根据句式规则进行排列组合,得到候选核心句集,计算核心句集与待纠错的核心句编辑距离相似性得分,根据不同的句式规则,确定合适的阈值,选择超过阈值中相似度得分最高的候选句作为核心部分可接受的纠错候选结果。

作为进一步优化,步骤e具体包括:

根据步骤b中记录下的待纠错句子的句式规则对冗余部分可接受的纠错候选结果以及核心部分可接受的纠错候选结果进行融合作为最佳纠错结果,并输出该最佳纠错结果。

作为进一步优化,步骤f具体包括:

构建混淆词库集,将识别的错误语句和对应的纠错结果建立映射关系,以供之后的纠错分析以及纠错优化。

本发明的有益效果是:不需要额外的人工建立可能出错的混淆词库集,仅通过现有的正确词库集就可以利用现有媒体库、数据直接开始进行语音识别后的文本纠错,减少因为数据集不够而无法建立有效的纠错的流程。

同时,对每一次的错误识别文本和纠错结果进行自动记录并关联,在达到一定的数据集规模后,能够对收集到的真实和有针对性的数据进行机器学习,建立更加合理的基于特征和自学习的模型,相比直接进行大规模的语料挖掘爬虫得到的数据更加准确真实,增强了可实践性和鲁棒性。

再则,因为将文本转换为拼音进行文本纠错后,解决了可能出现的同音词和多音字的问题,不需要计算机再进行一次额外判断识别后的中文字段是否为多音字或者同音字,减少了速度损耗。

此外,通过直接对整句进行基于编辑距离的得分计算,解决了因为发音或者用户(讲话人)口误所存在的多字、漏字、前后粘连等问题。加之,使用bigrams模型和whoosh搜索引擎进行初步领域确定和下属领域的精确化,减少了因最后精确匹配可能出现数据集过大而产生的大量时间损耗的问题。

附图说明

图1为本发明中的基于领域识别的对语音识别后文本纠错的方法流程图;

图2为对核心部分纠错的处理流程图。

具体实施方式

本发明旨在提出一种基于领域识别的对语音识别后文本纠错的方法,解决传统技术中的处理方法需要大量人工介入,纠错效率低,而且无法对专有名称进行纠错的问题。

本发明采用了bigram模型和whoosh搜索引擎对输入文本进行领域判断,bigram通过引入马尔科夫假设,解决了n-grams中数据稀疏和参数空间过大的问题,假设一个词的出现仅依赖于前面出现的一个词,从而建立字与字之间的关系。而whoosh搜索引擎帮助建立领域判别,根据输入的文本建立索引,能够快速的实现模糊匹配的候选集识别,提升多领域的语义识别后文本纠错速度。具体而言,首先,利用bigrams模型进行识错并且确定大领域,然后利用搜索引擎whoosh使用模糊匹配确定下属领域得到候选词\句集,最后通过训练得到的句式规则进行组成候选句,通过计算基于编辑距离的相似得分计算对比正确词库得出正确语句。

在具体实现上,本发明中的基于领域识别的对语音识别后文本纠错的方法如图1所示,其包括以下步骤:

1、对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;

本步骤中,将语音识别后的文本进行词元组合,并通过bigrams模型对比不同词频文件进行识别,对识别后的词元进行两两组合,一直到整个句子组合识别完毕,选择识别错误词最少的词频库对应的领域为初步确定的领域;其中,词频文件主要由各个领域专有等个专有名词库组成,比如电影词频库由电影名人(演员、导演等),电影名字组成,音乐由歌手名、歌曲类别等组成。

bigram引入马尔科夫假设,解决了n-grams中数据稀疏和参数空间过大的问题,这里假设一个词的出现仅依赖于前面出现的一个词,即:

p(t)=p(w1w2w3...wn)=p(w1)p(w2|w1)p(w3|w1w2)...p(wn|w1w2...wn-1)

≈p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)

其中,t表示整个句子,wn表示在第n位置上的词,句子t是由词序w1,w2,w3...,wn组成。

2、根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;

本步骤中,根据预先训练的句式规则对待纠错句子进行切割,将句子分为冗余部分和核心部分,记录下待纠错句子的句式规则,并且将句子冗余部分和核心部分全部转化为拼音。

转换为拼音后,能够将多音字和同音字的问题解决,不需要计算机再进行一次额外判断识别后的中文字段是否为多音字或者同音字,减少了速度损耗。

3、利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;

本步骤中,对确定后的句子核心部分进行分词,再利用搜索引擎whoosh对分词后的结果在步骤a中初步确定的领域内进行进行字符串模糊匹配。进一步缩小精确匹配的范围,减少因为大量匹配而产生的速度损耗。

本发明在搜索引擎中加入正确词库的中文和拼音,通过对核心句子分词后的拼音模糊匹配正确词库的拼音,将领域范围进一步缩小,得到候选专有词库集,增加速度。

4、根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;

本步骤中,根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错:

4.1)冗余部分纠错:

相较而言,句子的冗余部分的正确词典比核心部分小得多,不要额外耗时进行模糊匹配缩小范围,因此,直接利用拼音对比正确词库的拼音,基于编辑距离计算相似性得分,选取合适的阈值,选择超过阈值中相似度得分最高正确词组为可接受的纠错候选结果。

4.2)核心部分纠错:

根据步骤3中确定的候选专有词库集,通过预先训练得到的句式规则,其中句式规则主要由‘和’、‘或’、‘非’三大类组成,将候选的专有词库集根据句式规则进行排列组合,得到候选核心句集,计算核心句集与待纠错的核心句编辑距离相似性得分,根据不同的句式规则,确定合适的阈值,选择超过阈值中相似度得分最高的候选句作为可接受的纠错候选结果。

核心部分纠错的流程如图2所示。

5、对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果;

本步骤中,根据步骤2中记录下的待纠错句子的句式规则对冗余部分可接受的纠错候选结果以及核心部分可接受的纠错候选结果进行融合作为最佳纠错结果,并输出最佳纠错结果。

6、识别的原错误语句和对应的纠错结果加入混淆词库集,供以后的语音识别学习和训练。

本步骤中,构建混淆词库集,将识别的错误语句和对应的纠错结果建立映射关系,以供之后的纠错分析以及纠错优化。

下面结合附图及实施例对本发明的方案作进一步的描述:

应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

假设预设领域有天气、音乐、电影三大类,其中音乐下分领域有歌手、歌曲名、歌曲流派、热门综艺歌曲等,电影下属领域分有名人名字(包括演员、导演、制作人等)、电影名、电影类型、电影年代等。

以错句‘点播吴秀播的北京遇到西雅图这部电’为例,我们可以预设知道此例句存在三个错误:一是演员名‘吴秀播’存在同音字错误;而是电影名‘北京遇上西雅图’存在用户输入认知错误,近似词错误;三是用户语音输出因为吞音错误‘这部电影’有漏字的错误。

通过bigrams模型对实例句子进行识错分析,确认原实例句存在错误,并且该实例句子在电影领域的词频库的识别出来的错字最少,确定该实例句为电影领域。

将原实例句进行拆分为冗余部分和核心句部分,根据预判规则可知道,‘冗余部分’为‘点播’和‘这部电’组成,其中‘核心部分’构成为‘吴秀播的北京遇到西雅图’。

计算拆分得到‘冗余部分’和候选集中的句式可以得到最高的两个得分候选集分别p(‘点播’,’点播’)=100%,p(‘这部电’,’这部电影’)=97%,由此,确定‘冗余部分’的纠错结果。

再对‘核心部分’进行分词,因为一旦电影或者演员名存在错误,无法预设所有的分词规则和规律,所以在此并不考虑分词错误的情况。通过开源分词工具可以得到的5个分词有‘吴秀’,‘播的’,‘北京’,‘遇到’,‘西雅图’,通过whoosh对5个分词在电影领域下属的各个库中进行字符串模糊匹配并发搜索,得出在各下属领域中更加精确的范围,其中得到名人名的候选词集23个,电影名候选词集34个,类型和年代等候选词集为0个。

将通过whoosh模糊匹配得到的候选集根据预设的句式规则进行排列组合,得到p(‘吴秀播的北京遇到西雅图’,’吴秀波的北京遇上西雅图’)=87%,此值超过阈值,并且为所有超过阈值的候选句中得分最高的选项。

根据上述步骤,接受纠错结果,根据原始输入实例句式规则,组合其冗余部分和核心部分得分最高的候选集,最终输出‘点播吴秀波的北京遇上西雅图这部电影’,同时将此实例的句子纠错前和纠错后的放入数据库,可供之后进行学习训练。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1