一种语音文本的纠错方法及装置的制造方法

文档序号:10513512阅读:180来源:国知局
一种语音文本的纠错方法及装置的制造方法
【专利摘要】本发明的实施例提供了一种语音文本的纠错方法及装置,涉及数据处理领域,解决了现有技术中语音识别系统识别出的语音文本不准确的问题。该方法包括:提取待识别语音文本以及对应的相关语音识别文本,相关语音识别文本为与待识别语音文本存在语境关联的语音识别文本;获取相关语音识别文本的第一概念关联集以及待识别语音文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联词;根据第一概念关联集确定待识别语音文本中的待纠错词;从第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,并用纠错候选词替换待识别语音文本中的待纠错词。本发明应用于语音文本的纠错。
【专利说明】
一种语音文本的纠错方法及装置
技术领域
[0001 ]本发明涉及数据处理领域,尤其涉及一种语音文本的纠错方法及装置。
【背景技术】
[0002] 语音识别技术是非常重要的人机交互技术,随着语音识别技术突飞猛进的发展, 现已有大量的语音识别系统投入到商业运营。然而,由于汉语的同音词、停顿及断句等多种 因素的影响,使得语音识别系统识别出的语音文本会出现语句不连贯的错误。
[0003] 针对上述问题,现有技术提供一种对语音识别后文本进行检错纠错的方法,即通 过对待识别语音文本进行语法语义分析,从而定位出该待识别语音文本中的锚点词,然后, 在预配置的存储有大量实例(例如,各种语境下的句子)的语境知识库中抽取每个锚点词对 应的实例(例如,包含该锚点词的文本局形成的实例),然后分别计算每个锚点词对应的实 例与该待识别语音文本间的词语相关度,并从该每个锚点词对应的实例中选择与该待识别 语音文本间的词语相关度最大的实例,最后,基于该待识别语音文本中的每个词语与该实 例间的相似度,确定出待纠错词,并对该待纠错词进行纠错。
[0004] 但是,由于同一词语在不同场景下所形成的实例不同,现有的语境知识库中不能 涵盖每个词语的所有语境下的实例,从而可能导致该语音识别系统无法从该语境知识库中 查找到该待识别语音文本中的锚点词对应的实例或查找到的实例与该待识别语音文本完 全无关,进而无法对该待识别语音文本进行纠错,从而导致最终识别出的语音文本并未进 行纠错,准确度不高。

【发明内容】

[0005] 本发明的实施例提供一种语音文本的纠错方法及装置,解决了现有技术中语音识 别系统识别出的语音文本准确度不高的问题。
[0006] 为达到上述目的,本发明的实施例采用如下技术方案:
[0007] 第一方面,提供一种语音文本的纠错方法,包括:
[0008] 提取待识别语音文本以及对应的相关语音识别文本,所述相关语音识别文本为与 所述待识别语音文本存在语境关联的语音识别文本;
[0009] 获取所述相关语音识别文本的第一概念关联集以及所述待识别语音文本的第二 概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联词;
[0010] 根据所述第一概念关联集确定所述待识别语音文本中的待纠错词;
[0011]从所述第二概念关联集和/或所述第一概念关联集中获取所述待纠错词对应的纠 错候选词,并用所述纠错候选词替换所述待识别语音文本中的待纠错词。
[0012] 另一方面,提供一种语音文本的纠错装置,包括:
[0013] 提取模块,用于提取待识别语音文本以及对应的相关语音识别文本,所述相关语 音识别文本为与所述待识别语音文本存在语境关联的语音识别文本;
[0014] 第一获取模块,用于获取所述相关语音识别文本的第一概念关联集以及所述待识 别语音文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系 的关联词;
[0015] 确定模块,用于根据所述第一概念关联集确定所述待识别语音文本中的待纠错 词;
[0016] 第二获取模块,用于从所述第二概念关联集和/或所述第一概念关联集中获取所 述待纠错词对应的纠错候选词,用所述纠错候选词替换所述待识别语音文本中的待纠错 1·^] 〇
[0017] 本发明的实施例提供的语音文本的纠错方法及装置,首先,通过提取待识别语音 文本以及对应的相关语音识别文本;其次,获取相关语音识别文本的第一概念关联集以及 待识别语音文本的第二概念关联集,其中,概念关联集中包含与语音文本中的词语存在关 联关系的关联词;然后,根据第一概念关联集确定待识别语首文本中的待纠错词;最后,从 第二概念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,并用纠错候选 词替换所述待识别语音文本中的待纠错词。
[0018] 相比于现有技术中,语音识别系统根据与该待识别语音文本可能不属于同一语境 的待识别语音文本中的锚点词的实例,来对该待识别语音文本进行语义纠错的过程,本方 案通过提取与该待识别语音文本处于同一交互场景和同一语境下的相关语音识别文本,然 后根据该相关语音识别文本的第一概念关联集中的关联词识别该待识别语音文本中的待 纠错词,由于该第一概念关联集中包含的关联词是与该相关语音识别文本中的词语存在关 联关系的词语,而该相关语音识别文本又与该待识别语音文本同属于同一语境下,从而使 得上述的待纠错词识别过程不仅考虑到了实际的应用场景以及人的主观目的和情绪等,还 能够快速的检测出语句中的不和谐的地方,从而提升了待纠错词的准确度。同时,由于该第 二概念关联集和第一概念关联集中所包含的关联词与待纠错词属于同一语境,这样便可快 速有效的从第二概念关联集和第一概念关联集中获取待纠错词的纠错候选词,提高了最终 识别出的语音文本的准确度。
【附图说明】
[0019] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中 所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实 施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图 获得其他的附图。
[0020] 图1为本发明实施例提供的一种领域概念层次结构示意图;
[0021 ]图2为本发明实施例提供的一种语音文本的纠错方法的方法流程图;
[0022] 图3为本发明实施例提供的一种基于正向最大匹配算法的分词流程示意图;
[0023] 图4为本发明实施例提供的另一种基于正向最大匹配算法的分词流程示意图;
[0024] 图5为本发明实施例提供的一种语音文本的纠错装置的方框示意图。
【具体实施方式】
[0025]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0026] 本发明的实施例中提及语音文本的纠错方法的执行主体为语音文本的纠错装置, 或者用于执行上述语音文本的纠错方法的终端。具体的,该终端可以为手机、平板电脑、笔 记本电脑、超级移动个人计算机(英文:Ultra-mobile Personal Computer,简称:UMPC)、上 网本、个人数字助理(英文:Personal Digital Assistant,简称:PDA)等终端设备,在这里 并不进行限定。其中,语音文本的纠错装置可以为上述终端中的中央处理器(英文:Central Processing Unit,简称:CPU)或者可以为上述终端的中的控制单元或者功能模块。
[0027] 本实施例中的语音文本的概念关联集是该装置通过对该语音文本中的词语进行 领域标注后,根据这些领域标注信息从概念知识库中提取对应的关联词,并将这些关联词 组成该语音文本对应的概念关联集。例如,若该语音文本为"我要看刘德华电影",该装置通 过获取"我""要""看""刘德华""演""电影"这几个词语对应的领域信息,如,影视领域,在众 多领域中搜索影视,在影视下找演员,在演员中搜索刘德华,在刘德华下查找相关电影(例 如,刘德华主演电影:失孤、桃姐,富春山居图等)的参数信息,然后基于这些电影的参数信 息从概念知识库中搜索相关特征词汇组成对应的概念关联集。
[0028] 上述的概念知识库是技术人员基于特定领域的互联网数据及用户使用数据进行 构建的,通常是按照领域概念层次结构进行构建的,其中,领域概念层次结构是对特定领域 的概念特征化描述,可反映该领域内的知识和概念关系,领域概念的添加有助于知识的推 理、信息分类、搜索和导航,有助于人或机器理解一个高度集中或快速变化的领域。尤其是 针对特定领域词汇进行语义标注,将海量语料中与领域相关的特征词汇抽取出来,形成特 征词汇集,结合领域本体的空间向量模型,建立关联的同时也引入领域本地的相关性,实现 语料与领域本体间的概念映射。示例性的,参照图1所示的一种领域概念层次结构示意图可 知,该概念知识库中存储的每个词语包括多层领域信息,每层领域信息包括至少一个领域 标识。例如,示例一:词语"刘德华",由于刘德华的普遍含义为演员刘德华,所以词语"刘德 华"的一层领域标识可以为影视,二层领域标识可以为演员;实例二:词语"富春山居图",由 于富春山居图通常有两个含义,即电影《富春山居图》以及元代山水画《富春山居图》,因此, 词语"富春山居图"的一层领域标识包括:影视和书画,对应的二层领域标识分别为:演员以 及年代。
[0029] 本文中术语"和/或",仅仅是一种描述关联对象的关联关系,表示可以存在三种关 系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文 中字符7",一般表示前后关联对象是一种"或"的关系。
[0030] 本实施例中提及的"第一" "第二"等叙述词,除非根据上下文其确实表达顺序之 意,应当理解为仅仅是起区分之用。
[0031 ]本发明实施例中提供一种语音文本的纠错方法,如图2所示,该方法包括:
[0032] 101、语音文本纠错装置提取待识别语音文本以及对应的相关语音识别文本。
[0033]本实施例中的待识别语音文本的相关语音识别文本为与该待识别语音文本存在 语境关联(例如,上下文语境)的语音识别文本。示例性的,语音文本纠错装置获取该待识别 语音文本的上一语音识别文本,并计算该待识别语音文本与该上一语音识别文本间的相关 度。当该相关度大于预定阈值时,则将该上一语音识别文本作为该待识别语音文本的相关 语音识别文本;若该相关度小于预定阈值时,则继续判定该上一语音识别文本是否为孤立 词(即单个词语,例如,你好!谢谢!),若是,则仍然将该上一识别语音文本作为该待识别语 音文本的相关语音识别文本。例如,若待识别语音文本为"我要看刘德华的电影",且待识别 语音文本的识别时间之前所识别的上一语音识别文本为"我要看电影",经过相关度计算确 定出,该上一语音识别文本为待识别语音文本的相关语音识别文本。
[0034]示例性的,两语音识别文本间的相关度计算公式如下所示:
[0036] 其中,η为待识别语音文本中词语总个数,CwcirdlS待识别语音文本中第i个词语与 上一次语音识别文本中所有词语相关度中的最大值,其具体的计算公式如下:
[0037]
[0038] 其中,m为上一次语音识别文本中词语总个数,wi为待识别语音文本中的第i个词 语,wj为上一次语音识别文本中的第j个词,SS(wi,wj)为wi与wj的语义相似度,CC(wi,wj) 为w i与w j的语境关联度,T 2为阈值。具体的,当S S (w i,w j) < T 2时,则说明该待识别语音文本 中第i个词语与上一次语音识别文本中所有词语无关联关系,当SS(wi,wj)>T2且满足
,则说明该待识别语音文本中第i个词语与上一次语音识 别文本中所有词语存在关联关系。此外,上述的CC(wi,wj)与SS(wi,wj)的具体获取过程可 以参照现有的语义相似度以及语境关联度的计算公式来获取,这里不再赘述。
[0039] 需要说明的是,语音文本纠错装置分别对待识别语音文本以及相关语音识别文本 进行分词,得到待识别语音文本对应的词语和相关语音识别文本对应的词语。具体的,语音 文本纠错装置可以通过最大匹配分词算法进行分词,即按照概念知识库中最长字符长度来 对待识别语音文本进行分词。
[0040] 示例性的,本发明实施例中所采取的正向最大匹配算法的分词流程如图3所示,具 体步骤如下:
[0041 ] Setpl:初始化。接收待识别语音文本中待切分的文本句Str,计算概念知识库中最 长字符的长度Μ。
[0042] Step2:将Str从左端开始截取长度为Μ的字串SubStr。
[0043] Step3:如果概念知识库中是存在SubStr,则将SubStr作为一个词语切分出来,进 行Step5的操作,否则进行Step4的操作。
[0044] Step4:如果SubStr是单字,则进入Step5,否则去掉SubStr中最后一个字,进入 Step3〇
[0045] Step5:去掉Str中SubStr,对剩余词重复Step3,直到切出Str中的所有的词。
[0046]示例性的,若待识别语音文本中的待切分的文本句Str为"中华民族从此站起来 了",且计算出的概念知识库中最长词条的长度Μ为4,首先,将str从左端截取长度为4的字 串,即SubStrl为"中华民族",将该得到的SubStrl在概念知识库中查找,由于概念知识库中 存在"中华民族"这个词语,因此将SubStrl作为一个词语切分出来,对文本句str中剩余的 部分进行切分,接着将文本句Str中的"从此站起"截取出来,即SubStr2,将该得到的 SubStr2在概念知识库中查找,由于概念知识库中不存在"从此站起"这个字串,则将最后一 个字去掉,得到"从此站"这个字串,再将该字串在概念知识库中进行查找,由于概念知识库 中不存在该字串,则仍然将最后一个字串去掉,得到"从此"这个字串,再次在概念知识库中 进行查找,由于概念知识库中存在该字串,因此,将该字串作为一个词语切分出来,以此类 推,直到将所有的字串都切分出来。最终得到的切分结果为:"中华民族I从此I站起来I 了"。
[0047] 102、语音文本纠错装置获取相关语音识别文本的第一概念关联集以及待识别语 音文本的第二概念关联集。
[0048] 示例性的,上述的第一概念关联集中包含与待识别语音文本中的词语存在关联关 系的关联词,而上述的第二概念关联集中包含与待识别语音文本的相关语音识别文本中的 词语存在关联关系的关联词。
[0049] 103、语音文本纠错装置根据第一概念关联集确定待识别语音文本中的待纠错词。
[0050] 其中,上述的待识别语音文本中的待纠错词为待识别语音文本中与第一概念关联 集中的关联词无关联关系的词语。示例性的,语音文本纠错装置通过将待识别语音文本中 的每个词语与第一概念关联集中的每个关联词以及待识别语音文本中的其他词语进行比 对,从而确定出该待识别语音文本中与第一概念关联集中的关联词无关联关系的词语作为 该待识别语首文本的待纠错词。
[0051] 示例性的,语音文本纠错装置在判定该待识别语音文本中的任一词语是否为待纠 错时的具体判定过程包括如下步骤:
[0052] 103a、语音文本纠错装置获取待识别语音文本中的任一词语。
[0053] 103b、语音文本纠错装置确定上述词语与第一概念关联集中的关联词以及待识别 语音文本中的其他词语间的关联程度,并根据该关联程度判定上述词语是否为待识别语音 文本中的待纠错词。
[0054] 示例性的,语音文本纠错装置在计算待识别语音文本中的任一词语与第一概念关 联集中的关联词以及待识别语音文本中的其他词语间的关联程度时,可以基于公式1与公 式2所示的相关度计算公式来获取。
[0055]进一步的,当上述的步骤103b中的关联程度为词语与第一概念关联集中的关联词 以及待识别语音文本中的其他词语间的相似度时,步骤l〇3b中根据该关联程度判定上述词 语是否为待识别语音文本中的待纠错词具体包括以下内容:
[0056] 当上述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间 的相似度均小于第一预定阈值时,则判定上述词语为待识别语音文本中的待纠错词;当上 述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的相关度中的 任一相似度大于等于第一预定阈值时,则判定上述词语不为待识别语音文本中的待纠错 1·^] 〇
[0057] 示例性的,两个词语间的相似度的计算可以通过编辑距离算法得到,得到的最小 编辑距离为两个词语间的相似度。通常情况下编辑距离越小,对应的两个词语间的相似度 越尚。
[0058] 本实施例中的编辑距离是指两个字串之间由一个转成另一个所需的最少编辑操 作次数,是一种字符串之间相似度计算的方法。给定两个字符串S、T,将S转换成T所需要的 删除,插入,替换操作的数量就叫做S到T的编辑路径。而最短的编辑路径就叫做字符串S和T 的编辑距离。
[0059] 示例性的,这里以两个字串strl与str2为例,进行说明编辑距离算法过程,该编辑 距离算法具体步骤如下:
[0060] Step 1:初始化,将编辑距离(edit distance)初始赋为0,即edit distance = 0, 然后计算strl与str2的长度,并分别将strl的长度记为m,将str2的长度记为η。
[0061] Step 2:若m=0,则令edit distance = n;若η = 0,则令edit distance=m。然后进 行Step 4的操作;否则进行step3的操作。
[0062] Step 3:构造编辑距离矩阵,该距离矩阵为:
[0063]
[0064]具体的,编辑距离矩阵D( i,j)的构造过程如下所示:
[0065] 1)初始化(m+l)*(n+l)的矩阵D,并让第一行和第一列的值从0开始增长;
[0066] 2)扫描两字符串
[0068] 根据扫描后得到的f (i,j)值,得到D( i,j)的值,其中,该D( i,j)的值为D( i-1,j) + l,D(i,j-l)+l,D(i-l,j_l)+l 三者中最小的值。
[0069] 3)扫描完后,令edit distance = D(m,n)。
[0070] Step4:输出edit distance,即为strl与str2的编辑距离。
[0071] 104、语音文本纠错装置从第二概念关联集和/或第一概念关联集中获取待纠错词 对应的纠错候选词,用纠错候选词替换待识别语音文本中的待纠错词。
[0072] 示例性的,语音文本纠错装置根据待识别语音文本中的词语与第二概念关联集 和/或第一概念关联集中的关联词间的相关度或相似度确定待识别语音文本中的待纠错词 对应的纠错候选词。具体的,相关度的计算可以参考上述的公式1和公式2,相似度的计算可 以通过编辑距离算法来确定,该编辑距离的计算公式可以参考上述的公式3。
[0073] 本发明的实施例提供的语音文本的纠错方法,首先,通过提取待识别语音文本以 及对应的相关语音识别文本;其次,获取相关语音识别文本的第一概念关联集以及待识别 语音文本的第二概念关联集,其中,概念关联集中包含与语音文本中的词语存在关联关系 的关联词;然后,根据第一概念关联集确定待识别语音文本中的待纠错词;最后,从第二概 念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,并用纠错候选词替换 所述待识别语音文本中的待纠错词。
[0074] 相比于现有技术中,语音识别系统根据与该待识别语音文本可能不属于同一语境 的待识别语音文本中的锚点词的实例,来对该待识别语音文本进行语义纠错的过程,本方 案通过提取与该待识别语音文本处于同一交互场景和同一语境下的相关语音识别文本,然 后根据该相关语音识别文本的第一概念关联集中的关联词识别该待识别语音文本中的待 纠错词,由于该第一概念关联集中包含的关联词是与该相关语音识别文本中的词语存在关 联关系的词语,而该相关语音识别文本又与该待识别语音文本同属于同一语境下,从而使 得上述的待纠错词识别过程不仅考虑到了实际的应用场景以及人的主观目的和情绪等,还 能够快速的检测出语句中的不和谐的地方,从而提升了待纠错词的准确度。同时,由于该第 二概念关联集和第一概念关联集中所包含的关联词与待纠错词属于同一语境,这样便可快 速有效的从第二概念关联集和第一概念关联集中获取待纠错词的纠错候选词,提高了最终 识别出的语音文本的准确度。
[0075] 可选的,当待识别语音文本中的任一至少两个待纠错词相邻时,上述的步骤103具 体包括如下内容:
[0076] A1、语音文本纠错装置根据第一概念关联集,确定待识别语音文本中的第一待纠 错词。
[0077] A2、右判定弟一待纠错词在待识别语首文本中的后邻接词为待识别语首文本的弟 二待纠错词时,语音文本纠错装置则将第一待纠错词与第二带纠错词连接组成第三待纠错 1·^] 〇
[0078] 示例性的,上述的步骤104中从第二概念关联集和/或第一概念关联集中获取待纠 错词对应的纠错候选词之前,该方法还包括:
[0079] B1、语音文本纠错装置对第三待纠错词分词,得到第三纠错词对应的词语。
[0080]进一步的,基于上述步骤103的具体内容A1、A2和步骤104从第二概念关联集和/或 第一概念关联集中获取待纠错词对应的纠错候选词之前内容B1,步骤104具体包括:
[0081] C1、语音文本纠错装置从第二概念关联集和/或第一概念关联集中,获取对第三待 纠错词中每个词语的纠错候选词。
[0082] 示例性的,这里对上述的第三待纠错词进行正向最大匹配算法的分词过程可以参 考图4,具体包括如下步骤:
[0083] Stepl、获取第二概念关联集和/或第一概念关联集中最长词条的长度,记为M。 [0084] Step2、将第三的待纠错词(记为Str)从左端分别开始截取长度依次为1到Μ的Μ个 字串,分别记为:SubStr 1、SubStr2、……、SubStrM,
[0085] 其中,若Str的长度〈最长词条长度M,则将Str长度设为Μ。若Str的长度〉最长词条 长度M,对Str以Μ值进行分词,得到的Str的分词Str'的长度小于或等于Μ值,将Str'长度设 为M〇
[0086] Step 3:将上述的得到的Μ个词转换成拼音,计算该Μ个词与第二概念关联集和/或 第一概念关联集中所有关联词间的编辑距离,得到Μ个值,记最小编辑距离对应的纠错候选 词为c,待纠错词为e = SubStrk。
[0087] Step 4:用c替换e,切出Str中一个词c。
[0088] Step 5:去掉Str中字串e,重复Stepl到Step4,直到纠错完所有的词。
[0089]例如,这里以一个具体的例子说明第三待纠错词如何进行分词,若str="德华的 富春天居图",分词结果为="刘德华I的I富春山居图"。若第二概念关联集和第一概念关联 集中的最长词条长度为M(M的值为7),如,"天机富春山居图","三国之见龙卸甲"。此时,str 的长度(长度为8)大于最长词条长度7,则将这str按照最长词条长度7进行分词,得到长度 为7的字符串为"德华的富春天居"和"华的富春天居图",在将该两个长度为7的字符串分别 以长度依次为1到7的词条长度进行分词,得到两组个数都为7的字符串分别:"德、德华、德 华的、德华的富、德华的富春、德华的富春天、德华的富春天居"和"华、华的、华的富、华的富 春、华的富春天、华的富春天居、华的富春天居图"。然后,将这两组个数都为7的字符串转换 为拼音,分别计算这两组个数都为7的字符串分别与第二概念关联集和第一概念关联集中 的关联词的编辑距离,得到最小编辑距离的关联词c为:刘德华,则切出SubStr="刘德华", 同时str="的富春天居图",重复第2步,得到c为富春山居图,str="的"字典中不存在,且 为单字,则分词结果为"刘德华I的I富春山居图"。
[0090] 此外,当该相关语音识别文本为孤立词时,则将该待识别语音文本转化为拼音,并 计算该孤立词对应拼音与该第二概念关联集中的每个关联词间的编辑距离,并将最小编辑 距离最为纠错候选词,并用该纠错候选词将该待识别语音文本替换。
[0091] 本发明实施例提供一种语音文本的纠错装置,如图5所示,该语音文本的纠错装置 2包括:提取模块21、第一获取模块22、确定模块23和第二获取模块24,其中:
[0092] 提取模块21,用于提取待识别语音文本以及对应的相关语音识别文本。
[0093] 第一获取模块22,用于获取相关语音识别文本的第一概念关联集以及待识别语音 文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联 1·^] 〇
[0094] 确定模块23,用于根据第一概念关联集确定待识别语音文本中的待纠错词。
[0095]第二获取模块24,用于从第二概念关联集和/或第一概念关联集中获取待纠错词 对应的纠错候选词,用纠错候选词替换待识别语音文本中的待纠错词。
[0096]示例性的,上述待纠错词为待识别语音文本中与第一概念关联集中的关联词无关 联关系的词语时,确定模块23具体用于:
[0097] 获取待识别语音文本中的任一词语;
[0098] 确定词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间的 关联程度,并根据关联程度判定上述词语是否为待识别语音文本中的待纠错词。
[0099] 示例性的,上述关联程度包括上述词语与第一概念关联集中的关联词以及待识别 语音文本中的其他词语间的相似度时,确定模块23在根据关联程度判定词语是否为待识别 语音文本中的待纠错词时具体用于:
[0100] 当上述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间 的相似度均小于第一预定阈值时,则判定上述词语为待识别语音文本中的待纠错词;
[0101] 当上述词语与第一概念关联集中的关联词以及待识别语音文本中的其他词语间 的相似度中的任一相关度大于等于第一预定阈值时,则判定上述词语不为待识别语音文本 中的待纠错词。
[0102] 可选的,确定模块23具体还用于:
[0103] 根据第一概念关联集,确定待识别语音文本中的第一待纠错词;
[0104] 若判定第一待纠错词在待识别语音文本中的后邻接词为待识别语音文本的第二 待纠错词时,则将第一待纠错词与第二待纠错词连接组成第三待纠错词;
[0105]第二获取模块24在从第二概念关联集和/或所述第一概念关联集中获取待纠错词 对应的纠错候选词具体用于:从第二概念关联集和/或第一概念关联集中,获取对第三待纠 错词中每个词语的纠错候选词。
[0106]进一步的,语音文本的纠错装置2还包括:分词模块25。
[0107]分词模块25,用于对第三待纠错词分词,得到第三纠错词对应的词语;还用于分别 对待识别语音文本以及相关语音识别文本进行分词,得到待识别语音文本对应的词语和相 关语音识别文本对应的词语。
[0108] 本发明的实施例提供的语音文本的纠错装置,首先,通过提取待识别语音文本以 及对应的相关语音识别文本;其次,获取相关语音识别文本的第一概念关联集以及待识别 语音文本的第二概念关联集,其中,概念关联集中包含与语音文本中的词语存在关联关系 的关联词;然后,根据第一概念关联集确定待识别语音文本中的待纠错词;最后,从第二概 念关联集和/或第一概念关联集中获取待纠错词对应的纠错候选词,并用纠错候选词替换 所述待识别语音文本中的待纠错词。
[0109] 相比于现有技术中,语音识别系统根据与该待识别语音文本可能不属于同一语境 的待识别语音文本中的锚点词的实例,来对该待识别语音文本进行语义纠错的过程,本方 案通过提取与该待识别语音文本处于同一交互场景和同一语境下的相关语音识别文本,然 后根据该相关语音识别文本的第一概念关联集中的关联词识别该待识别语音文本中的待 纠错词,由于该第一概念关联集中包含的关联词是与该相关语音识别文本中的词语存在关 联关系的词语,而该相关语音识别文本又与该待识别语音文本同属于同一语境下,从而使 得上述的待纠错词识别过程不仅考虑到了实际的应用场景以及人的主观目的和情绪等,还 能够快速的检测出语句中的不和谐的地方,从而提升了待纠错词的准确度。同时,由于该第 二概念关联集和第一概念关联集中所包含的关联词与待纠错词属于同一语境,这样便可快 速有效的从第二概念关联集和第一概念关联集中获取待纠错词的纠错候选词,提高了最终 识别出的语音文本的准确度。
[0110] 在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其 它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅 仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结 合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的 相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通 信连接,可以是电性,机械或其它的形式。
[0111] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0112] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以 是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单 元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0113] 上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存 储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机 设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部 分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称 ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储 程序代码的介质。
[0114]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管 参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可 以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换; 而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和 范围。
【主权项】
1. 一种语音文本的纠错方法,其特征在于,包括: 提取待识别语音文本以及对应的相关语音识别文本,所述相关语音识别文本为与所述 待识别语音文本存在语境关联的语音识别文本; 获取所述相关语音识别文本的第一概念关联集以及所述待识别语音文本的第二概念 关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关联词; 根据所述第一概念关联集确定所述待识别语音文本中的待纠错词; 从所述第二概念关联集和/或所述第一概念关联集中获取所述待纠错词对应的纠错候 选词,用所述纠错候选词替换所述待识别语音文本中的待纠错词。2. 根据权利要求1所述的方法,其特征在于,所述待纠错词为所述待识别语音文本中与 所述第一概念关联集中的关联词无关联关系的词语;所述根据所述第一概念关联集确定所 述待识别语音文本中的待纠错词具体包括: 获取所述待识别语音文本中的任一词语; 确定所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他 词语间的关联程度,并根据所述关联程度判定所述词语是否为所述待识别语音文本中的待 纠错词。3. 根据权利要求2所述的方法,其特征在于,所述关联程度包括所述词语与所述第一概 念关联集中的关联词以及所述待识别语音文本中的其他词语间的相似度;所述根据所述关 联程度判定所述词语是否为所述待识别语音文本中的待纠错词具体包括: 当所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词 语间的相似度均小于第一预定阈值时,则判定所述词语为所述待识别语音文本中的待纠错 词; 当所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词 语间的相似度中的任一相关度大于等于所述第一预定阈值时,则判定所述词语不为所述待 识别语首文本中的待纠错词。4. 根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一概念关联集确 定所述待识别语音文本中的待纠错词具体包括: 根据所述第一概念关联集,确定所述待识别语音文本中的第一待纠错词;若判定所述 第一待纠错词在所述待识别语音文本中的后邻接词为所述待识别语音文本的第二待纠错 词时,则将所述第一待纠错词与所述第二待纠错词连接组成第三待纠错词; 所述从所述第二概念关联集和/或所述第一概念关联集中获取所述待纠错词对应的纠 错候选词之前,所述方法还包括:对所述第三待纠错词分词,得到所述第三纠错词对应的词 语;进一步的,所述从所述第二概念关联集和/或所述第一概念关联集中获取所述待纠错词 对应的纠错候选词具体包括:从所述第二概念关联集和/或所述第一概念关联集中,获取对 所述第三待纠错词中每个词语的纠错候选词。5. 根据权利要求1所述的方法,其特征在于,所述提取待识别语音文本以及对应的相关 语音识别文本之后,所述方法还包括:分别对所述待识别语音文本以及所述相关语音识别 文本进行分词,得到所述待识别语音文本对应的词语和所述相关语音识别文本对应的词 语。6. -种语音文本的纠错装置,其特征在于,包括: 提取模块,用于提取待识别语音文本以及对应的相关语音识别文本,所述相关语音识 别文本为与所述待识别语音文本存在语境关联的语音识别文本; 第一获取模块,用于获取所述相关语音识别文本的第一概念关联集以及所述待识别语 音文本的第二概念关联集,概念关联集中包含与语音识别文本中的词语存在关联关系的关 联词; 确定模块,用于根据所述第一概念关联集确定所述待识别语音文本中的待纠错词; 第二获取模块,用于从所述第二概念关联集和/或所述第一概念关联集中获取所述待 纠错词对应的纠错候选词,用所述纠错候选词替换所述待识别语音文本中的待纠错词。7. 根据权利要求6所述的装置,其特征在于,所述待纠错词为所述待识别语音文本中与 所述第一概念关联集中的关联词无关联关系的词语;所述确定模块具体用于: 获取所述待识别语音文本中的任一词语; 确定所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他 词语间的关联程度,并根据所述关联程度判定所述词语是否为所述待识别语音文本中的待 纠错词。8. 根据权利要求7所述的装置,其特征在于,所述关联程度包括所述词语与所述第一概 念关联集中的关联词以及所述待识别语音文本中的其他词语间的相似度;所述确定模块在 根据所述关联程度判定所述词语是否为所述待识别语音文本中的待纠错词时具体用于: 当所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词 语间的相似度均小于第一预定阈值时,则判定所述词语为所述待识别语音文本中的待纠错 词; 当所述词语与所述第一概念关联集中的关联词以及所述待识别语音文本中的其他词 语间的相似度中的任一相关度大于等于所述第一预定阈值时,则判定所述词语不为所述待 识别语音文本中的待纠错词。9. 根据权利要求6-8任一项所述的装置,其特征在于: 所述确定模块具体用于:根据所述第一概念关联集,确定所述待识别语音文本中的第 一待纠错词;若判定所述第一待纠错词在所述待识别语音文本中的后邻接词为所述待识别 语音文本的第二待纠错词时,则将所述第一待纠错词与所述第二待纠错词连接组成第三待 纠错词; 所述装置还包括:分词模块,用于对所述第三待纠错词分词,得到所述第三纠错词对应 的词语; 所述第二获取模块在从所述第二概念关联集和/或所述第一概念关联集中获取所述待 纠错词对应的纠错候选词时具体用于:从所述第二概念关联集和/或所述第一概念关联集 中,获取对所述第三待纠错词中每个词语的纠错候选词。10. 根据权利要求6所述的装置,其特征在于, 所述分词模块,还用于分别对所述待识别语音文本以及所述相关语音识别文本进行分 词,得到所述待识别语音文本对应的词语和所述相关语音识别文本对应的词语。
【文档编号】G10L15/26GK105869642SQ201610180122
【公开日】2016年8月17日
【申请日】2016年3月25日
【发明人】王峰, 任晓楠, 陈仲帅
【申请人】海信集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1