基于语音交互的语义识别方法及装置、存储介质、计算机设备与流程

文档序号:13136776阅读:180来源:国知局
基于语音交互的语义识别方法及装置、存储介质、计算机设备与流程

本发明涉及语音识别技术领域,尤其涉及一种基于语音交互的语义识别方法及装置、存储介质、计算机设备。



背景技术:

随着语音识别技术的发展,语音识别在许多领域都得到了应用。通常基于语音交互的语义理解方法和系统是针对输入的语音输出应答,以便用户进行进一步的操作。

在现有技术中,语音识别处理过程与语义理解处理过程串行且相互独立。语音识别负责利用语音识别技术将交互语音识别成为文字文本,语义理解负责利用语义理解技术,根据语音识别的文字文本给出语义理解应答。具体地,在语音识别处理过程中,将语音数据识别为单字,以形成文字文本;然后在语义理解过程中,利用分词词典将文字文本进行词语匹配,再进行语义理解。

但是,在现有的基于语音交互的语义理解方法和系统对语音数据的输出结果中,仍然存在语义理解偏差的问题。



技术实现要素:

本发明解决的技术问题是如何提高语音识别的准确性。

为解决上述技术问题,本发明实施例提供一种基于语音交互的语义识别方法,基于语音交互的语义识别方法包括:将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个表音字;利用所述音学文本中的表音字进行词语匹配,以得到文字文本,所述文字文本中包括与所述表音字匹配的表义词;对所述文字文本进行语义理解处理,以得到所述语音数据的语义。

可选的,所述利用所述音学文本中的表音字进行词语匹配包括:利用所述音学文本中的表音字与包括表音字索引的预设词典进行词语匹配。

可选的,所述利用所述音学文本中的表音字进行词语匹配包括:将所述音学文本中的表音字与所述预设词典中各个预设表义词的表音字进行匹配,其中,所述预设词典中包括至少一个表音字、多个表义词,以及每个预设表义词与相应表音字的对应关系;将匹配的预设表义词作为与所述音学文本中的表音字匹配的表义词。

可选的,所述将所述音学文本中的表音字与所述预设词典中各个预设表义词的表音字进行匹配包括:按照在所述预设词典中出现频率递减的方式选取预设表义词;将选取的预设表义词的表音字与所述音学文本中的表音字进行匹配,直至所述音学文本中的所有表音字匹配完成。

可选的,所述将所述音学文本中的表音字与所述预设词典中各个预设表义词的表音字进行匹配包括:将所述音学文本中的表音字或表音字组合与所述预设词典中各个预设表义词的表音字进行匹配,直至所述音学文本中的所有表音字匹配完成。

可选的,所述利用所述音学文本进行词语匹配包括:确定所述音学文本中的表音字在预设词典中所属的近音词类,其中,所述预设词典中包括至少一个表音字、多个表义词、每个预设表义词与相应表音字的对应关系以及至少一个近音词类,每一近音词类包括多个近音表音字以及针对每一近音表音字的预设权重;选取所述音学文本中的表音字所属的近音词类中权重值最大的近音表音字,将其与预设词典中的表音字进行匹配;如果匹配结果为一致,则将匹配的表音字对应的表义词作为与所述音学文本中的表音字匹配的表义词。

可选的,所述利用所述音学文本进行词语匹配还包括:如果匹配结果为不一致,则按照权重值递减的方式,在所述音学文本中的表音字所属的近音词类中依次选取近音表音字;将选取的近音表音字与预设词典中的表音字进行匹配,直至匹配结果为一致,并将匹配的表音字对应的表义词作为与所述音学文本中的表音字匹配的表义词。

可选的,所述近音表音字包括标准表音字以及与所述标准表音字发音相似的相似表音字。

可选的,所述预设词典为分词词典,所述分词词典包括针对所有表义词的表音字。

可选的,所述表音字为汉字的拼音,所述预设表义词为汉语词语。

可选的,所述基于语音交互的语义识别方法还包括:将所述语音数据的语义与知识库中的知识点进行匹配;输出与所述语音数据的语义相匹配的知识点中的答案。

本发明实施例还公开了一种基于语音交互的语义识别装置,基于语音交互的语义识别装置包括:转换模块,用以将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个表音字;匹配模块,用以利用所述音学文本中的表音字进行词语匹配,以得到文字文本,所述文字文本中包括与所述表音字匹配的表义词;语义理解模块,用以对所述文字文本进行语义理解处理,以得到所述语音数据的语义。

可选的,所述匹配模块利用所述音学文本中的表音字与包括表音字索引的预设词典进行词语匹配。

可选的,所述匹配模块包括:表音字匹配单元,用以将所述音学文本中的表音字与所述预设词典中各个预设表义词的表音字进行匹配,其中,所述预设词典中包括至少一个表音字、多个表义词,以及每个预设表义词与相应表音字的对应关系;第一表义词确定单元,用以将匹配的预设表义词作为与所述音学文本中的表音字匹配的表义词。

可选的,所述表音字匹配单元包括:表义词选取子单元,用以按照在所述预设词典中出现频率递减的方式,依次选取预设表义词;第一表义词匹配子单元,用以将选取的预设表义词的表音字与所述音学文本中的表音字进行匹配,直至所述音学文本中的所有表音字匹配完成。

可选的,所述表音字匹配单元包括:第二表义词匹配子单元,用以将所述音学文本中的表音字或表音字组合与所述预设词典中各个预设表义词的表音字进行匹配,直至所述音学文本中的所有表音字匹配完成。

可选的,所述匹配模块包括:词类确定单元,用以确定所述音学文本中的表音字在预设词典中所属的近音词类;其中,所述预设词典中包括至少一个表音字、多个表义词、每个预设表义词与相应表音字的对应关系以及至少一个近音词类,每一近音词类包括多个近音表音字以及针对每一近音表音字的预设权重;第一近音表音字选取单元,用以选取所述音学文本中的表音字所属的近音词类中权重值最大的近音表音字,将其与预设词典中的表音字进行匹配;第二表义词确定单元,用以如果匹配结果为一致,则将匹配的表音字对应的表义词作为与所述音学文本中的表音字匹配的表义词。

可选的,所述匹配模块还包括:第二近音表音字选取单元,用以如果匹配结果为不一致,则按照权重值递减的方式,在所述音学文本中的表音字所属的近音词类中依次选取近音表音字;第三表义词确定单元,用以将选取的近音表音字与预设词典中的表音字进行匹配,直至匹配结果为一致,并将匹配的表音字对应的表义词作为与所述音学文本中的表音字匹配的表义词。

可选的,所述近音表音字包括标准表音字以及与所述标准表音字发音相似的相似表音字。

可选的,所述预设词典为分词词典,所述分词词典包括针对所有表义词的表音字。

可选的,所述表音字为汉字的拼音,所述预设表义词为汉语词语。

可选的,所述基于语音交互的语义识别装置还包括:知识点匹配模块,用以将所述语音数据的语义与知识库中的知识点进行匹配;答案输出模块,用以输出与所述语音数据的语义相匹配的知识点中的答案。

本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述基于语音交互的语义识别方法的步骤。

本发明实施例还公开了一种计算机设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述基于语音交互的语义识别方法的步骤。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

本发明技术方案将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个表音字;利用所述音学文本中的表音字进行词语匹配,以得到文字文本,所述文字文本中包括与所述表音字匹配的表义词;对所述文字文本进行语义理解处理,以得到所述语音数据的语义。相对于现有技术中将语音数据转换为包括单字的文字文本,再进行分词,本发明技术方案直接利用音学文本中的表音字进行词语匹配,得到包括与所述表音字匹配的表义词的文字文本,文字转换和分词操作同时完成,避免了表音字转换为表义字时的误差,还避免了表义字分词时的二次误差,从而提高了语音识别的准确性。此外,本发明技术方案通过节省步骤,还可以提高语音识别的识别效率。

进一步,所述利用所述音学文本中的表音字进行词语匹配包括:利用所述音学文本中的表音字与包括表音字索引的预设词典进行词语匹配。本发明技术方案通过预先在预设词典中建立表音字索引,从而可以利用表音字索引与音学文本中的表音字进行匹配,确定包括表义词的文字文本。

进一步,所述利用所述音学文本进行词语匹配包括:确定所述音学文本中的表音字在预设词典中所属的近音词类;其中,所述预设词典中包括至少一个表音字、多个表义词、每个预设表义词与相应表音字的对应关系以及至少一个近音词类,每一近音词类包括多个近音表音字以及针对每一近音表音字的预设权重;选取所述音学文本中的表音字所属的近音词类中权重值最大的近音表音字,将其与预设词典中的表音字进行匹配;如果匹配结果为一致,则将匹配的表音字对应的表义词作为与所述音学文本中的表音字匹配的表义词。本发明技术方案通过在预设词典中配置近音词类,从而可以在表音字进行词语匹配时,可以根据近音词类中权重值最大的近音表音字进行匹配,可以在音学文本的表音字不正确的情况下,例如混淆平舌音和卷舌音,或者前鼻音和后鼻音等的情况下,可以匹配到正确的表义词;也就是说,通过表音词类可以矫正用户发音错误导致的分词错误,从而进一步提高了语音识别的准确性。

附图说明

图1是本发明实施例一种基于语音交互的语义识别方法的流程图;

图2是图1所示步骤s102的一种具体实施方式的流程示意图;

图3是采用本发明实施例的一个典型的应用场景的示意图;

图4是本发明实施例一种基于语音交互的语义识别装置的结构示意图。

具体实施方式

如背景技术中所述,在现有的基于语音交互的语义理解方法和系统对语音数据的输出结果中,仍然存在语义理解偏差的问题。

本申请发明人基于对现有的基于语音交互的语义理解方法和系统的观察研究发现,除语义理解过程本身偏差外,大多数语义理解偏差主要源自以下两个方面:一、语音本身的发音特征,例如,平舌和卷舌等近似音素,造成语音识别过程无法得到正确的音学文本;二、语言中存在大量的多音字、同音字、近音字等音学特征,导致从音学文本到文字文本转换的过程中,无法实现准确匹配。

本发明技术方案基于上述观察研究发现,对现有的基于语音交互的自然语义理解方法和系统进行改进,直接利用音学文本中的表音字进行词语匹配,得到包括与所述表音字匹配的表义词的文字文本,文字转换和分词操作同时完成,避免了表音字转换为表义字时的误差,还避免了表义字分词时的二次误差,从而提高了语音识别的准确性。此外,本发明技术方案通过节省步骤,还可以提高语音识别的识别效率。

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种基于语音交互的语义识别方法的流程图。

图1所示的基于语音交互的语义识别方法可以包括以下步骤:

步骤s101:将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个表音字;

步骤s102:利用所述音学文本中的表音字进行词语匹配,以得到文字文本,所述文字文本中包括与所述表音字匹配的表义词;

步骤s103:对所述文字文本进行语义理解处理,以得到所述语音数据的语义。

具体实施中,在步骤s101中,可以将语音数据转换为对应的表音字,以得到音学文本。具体而言,语音数据可以是音频格式,例如mp3、wav、wma等;经过转换后的音学文本中包括至少一个表音字,音学文本可以是文本格式,例如txt、doc、docx、wps等,以便于进行后续步骤的处理。

本领域技术人员可以理解的是,从语音转换为音学文本可以采用任意可实施的方式,本发明实施例对此不做限制。

具体实施中,在步骤s102中,利用所述音学文本中的表音字进行词语匹配,可以确定与所述表音字匹配的表义词,以得到文字文本。具体而言,表义词可以是一个词语,可以包括至少一个表义字。其中,表音字可以是表义字的发音,表义字可以表示表音字的语义。例如,在汉语中,表音字为拼音,表义字为汉字;在英语中,表音字为音标,表义字为单词;其他语言环境中的表音字和表义字可以此类推,本发明实施例对此不做限制。

进一步而言,经过步骤s102得到的文字文本可以是经过分词操作后的文本。也就是说,文字文本中是包括表义词的,而不是未经分词的独立的单个表义字。所述文字文本可以直接用于语义理解过程,不需要再进行一次分词操作。

进而,在步骤s103中,可以对分词后的所述文字文本进行语义理解处理,从而获得语音数据的语义。

具体实施中,语音数据的语义可以是指语音数据所表达的内容的含义。具体而言,语音数据的语义可以采用关键词来表示,也可以采用关键句子或段落来表示。例如,语音数据的语义可以是疑问句,指令、陈述句、语义表达式等。

更进一步而言,对文字文本进行语义理解处理的过程可以是基于文字文本的上下文语境,来确定的文字文本的整体语义。

本发明实施例在语音识别过程通过音学文本匹配,直接利用语音数据转换的音学文本中的表音字进行词语匹配,得到包括与所述表音字匹配的表义词的文字文本,文字转换和分词操作同时完成,避免了表音字转换为表义字时的误差,还避免了表义字分词时的二次误差,从而提高了语音识别的准确性。此外,本发明技术方案通过节省步骤,还可以提高语音识别的识别效率。

优选地,步骤s102可以包括以下步骤:利用所述音学文本中的表音字与包括表音字索引的预设词典进行词语匹配。

本实施例中,预设词典可以预先配置表音字索引,预设词典可以包括多个词语。具体而言,表音字索引可以是预设词典中词语对应的表音字。则通过表音字索引可以将音学文本中的表音字与预设词典中的词语进行关联,进而可以利用音学文本中的表音字和表音字索引进行词语匹配,以得到文字文本。

进一步地,所述利用所述音学文本中的表音字进行词语匹配可以包括以下步骤:将所述音学文本中的表音字与所述预设词典中各个预设表义词的表音字进行匹配,其中,所述预设词典中包括至少一个表音字、多个表义词,以及每个预设表义词与相应表音字的对应关系;将匹配的预设表义词作为与所述音学文本中的表音字匹配的表义词。

本实施例中,预设词典中可以包括至少一个表音字、多个表义词,以及每个预设表义词与相应表音字的对应关系。表音字索引可以包括至少一个表音字以及每个预设表义词与相应表音字的对应关系。也就是说,通过将音学文本中的表音字与预设词典中的表音字进行匹配,然后根据匹配得到的预设词典中的表音字以及上述对应关系确定对应的预设表义词,则可以确定该预设表义词为音学文本中的表音字匹配的表义词。将音学文本中的所有表音字均经过上述匹配过程后,可以得到音学文本相匹配的文字文本。

进一步地,所述将所述音学文本中的表音字与所述预设词典中各个预设表义词的表音字进行匹配包括:按照在所述预设词典中出现频率递减的方式选取预设表义词;将选取的预设表义词的表音字与所述音学文本中的表音字进行匹配,直至所述音学文本中的所有表音字匹配完成。

本实施例中,每个预设表义词在所述预设词典中具备出现频率(也可以称为频次),出现频率较高的预设表义词为常用词。为了提高表音字匹配的准确性,可以先将音学文本中的表音字与出现频率较高的预设表义词进行匹配,直至音学文本中的所有表音字匹配到表义词。

具体而言,通过采用预设词典中的常用词与音学文本中的表音字进行匹配的方式,可以在保证匹配准确性的基础上,提高匹配的速度。此外,所述预设词典通常是针对特定领域,所述预设词典中的预设表义词的数量是有限的,则通过频率递减的方式选取的预设表义词的数量也是有限的,不会对表音字的匹配过程增加计算量。

在本发明实施例的一个变化例中,所述将所述音学文本中的表音字与所述预设词典中各个预设表义词的表音字进行匹配包括:将所述音学文本中的表音字或表音字组合与所述预设词典中各个预设表义词的表音字进行匹配,直至所述音学文本中的所有表音字匹配完成。

具体实施中,音学文本可以包括单个表音字或表音字组合。则可以将单个表音字或者表音字组合直接与预设词典中各个预设表义词对应的表音字进行匹配,如果匹配结果一致,则该预设表义词为表音字或者表音字组合匹配的表义词。本领域技术人员可以理解的是,音学文本中的表音字组合可以是常用词对应的表音词,是在从语义数据转换为音学文本的过程中进行组合形成的。

优选地,可参照图2,步骤s102可以包括步骤s1021至步骤s1026。

首先执行步骤s1021,确定所述音学文本中的表音字在预设词典中所属的近音词类。

其中,所述预设词典中包括至少一个表音字、多个表义词、每个预设表义词与相应表音字的对应关系以及至少一个近音词类,每一近音词类包括多个近音表音字以及针对每一近音表音字的预设权重。具体而言,近音表音字可以表示多个发音相近的表音字,例如,平舌音与卷舌音,前鼻音与后鼻音;每一近音表音字的预设权重可以表示该近音表音字在预设词典所在领域中的使用频次。

进一步而言,近音词类可以是预先设置在预设词典中的。近音词类可以具备词类名。在确定音学文本中的表音字在预设词典中所属的近音词类时,可以计算音学文本中的表音字与所述词类名的相似度;也可以是确定包括音学文本中的表音字的近音词类为该表音字所属的近音词类。

然后执行步骤s1022,选取所述音学文本中的表音字所属的近音词类中权重值最大的近音表音字,将其与预设词典中的表音字进行匹配。具体而言,为了兼顾音学文本中的表音字匹配的准确性与速度,可以选取权重值最大的近音表音字与该表音字进行匹配。

然后执行步骤s1023,判断匹配结果是否一致,如果是,则进入步骤s1024,否则进入步骤s1025。

在步骤s1024中,如果匹配结果一致,则将匹配的表音字对应的表义词作为与所述音学文本中的表音字匹配的表义词。

在步骤s1025中,如果匹配结果不一致,则按照权重值递减的方式,在所述音学文本中的表音字所属的近音词类中依次选取近音表音字。

再执行步骤s1026,将选取的近音表音字与预设词典中的表音字进行匹配,直至匹配结果为一致,并将匹配的表音字对应的表义词作为与所述音学文本中的表音字匹配的表义词。

本实施例中,优先使用权重值最大的近音表音字与预设词典中的表音字进行匹配,权重值最大的近音表音字与预设词典中的表音字不匹配的情况下,再使用所述近音词类中其他权重的近音表音字与预设词典中的表音字进行匹配。本发明实施例采用上述匹配方式可以提高匹配效率。

本发明实施例通过在预设词典中配置近音词类,从而可以在表音字进行词语匹配时,可以根据近音词类中权重值最大的近音表音字进行匹配,可以在音学文本的表音字发音不标准的情况下,例如混淆平舌音和卷舌音,或者前鼻音和后鼻音等,可以匹配到正确的表义词;也就是说,通过表音词类可以矫正用户发音错误导致的分词错误,从而进一步提高了语音识别的准确性。

进一步地,所述近音表音字可以包括标准表音字以及与所述标准表音字发音相似的相似表音字。具体而言,标准表音字是指发音正确的表音字。相似表音字是指与标准表音字发音相似的表音字,在不同的语言环境中可以有不同的形式,例如在汉语言环境中,相似表音字可以是包括平舌音z、c、s的表音字和包括卷舌音(也可以称为翘舌音)zh、ch、sh、r的表音字;或者,包括前鼻音an、ian、uan、ü、an、en、in、uen、ün的表音字和包括后鼻音ang、iang、uang、eng、ing、ueng、ong、iong的表音字。

优选地,所述表音字为汉字的拼音,所述预设表义词为汉语词语。

优选地,图1所示的基于语音交互的语义识别方法还可以包括以下步骤:将所述语音数据的语义与知识库中的知识点进行匹配;输出与所述语音数据的语义相匹配的知识点中的答案。

具体实施中,知识库可以存储多个知识点,每个知识点包括一个或多个预设的问题以及对应的答案信息。其中,所述问题不仅限于疑问句,可以为一个指令、陈述句、语义表达式等,用以与用户输入的问题进行匹配。所述答案信息为针对所述多个问题的应答。进一步而言,所述知识点包括标准问和多个扩展问,扩展问可以为用以表示该知识点语义的语义表达式和自然语句中的至少一种。

具体实施中,语音数据的语义与知识库中的知识点进行匹配的过程,可以是计算语音数据的语义与知识库中的知识点的标准问的语义相似度的过程。当所述语义相似度达到设定阈值时,则表示语音数据与知识库中的知识点相匹配,则可以输出与所述语音数据的语义相匹配的知识点中的答案。例如,语音数据的语义为“查余额”,并确定与语音数据的语义相似度最高的知识库中标准问为“剩余金额”,则将该标准问“剩余金额”对应的答案输出。

更具体而言,语音数据的语义与知识库中的知识点的语义相似度可以通过相关性得分(relevancescore)来衡量,分数越高则语义相似度越高。可以采用tf-idf算法计算语义相似度,此时词频(termfrequency)和文档频率(documentfrequency)是影响语义相似度的因素。还可以进行笛卡尔积计算,然后采用编辑距离或jaccard距离计算相似度。优选的,可以分别采用编辑距离和jaccard距离计算相似度,并选取数值最大的相似度作为语义相似度。

图3是本发明实施例基于语音交互的语义识别方法的一个典型的应用场景的示意图。

在本应用场景中,虚线框内所示步骤s302至步骤s307可以是基于语音交互的语义识别方法的具体实施步骤。本实施例以汉语言环境为例进行说明,其他语言环境下可以以此类推,本发明实施例对此不做限制。

在步骤s301中,用户输入语音,该语音通常为音频格式。在步骤s302中,对输入的语音进行语音处理,可以得到音学文本,音学文本可以包括对应语音的多个拼音。在步骤s303中,利用音学文本中的拼音与分词词典中的词语进行匹配,可以得到与音学文本中的拼音匹配的多个词语,也即文字文本。在步骤s304中,利用文字文本中的词语进行过滤纠错,以实现对文字文本的进一步完善。在步骤s305中,对纠错后的文字文本进行词法分析,例如可以是词性或词语语义的确定等。在步骤s306中,对词法分析后的文字文本进行上下文处理,也即结合文字文本的上下文环境,以得到更加完善的文字文本的语义。进而在步骤s307中,利用文字文本的语义与知识库中的知识点进行匹配,以得到答案。最后在步骤s308中,输出该答案。

本领域技术人员可以理解的是,步骤s304至步骤s307的可采用现有技术中任意可实施的具体实施方式,本发明实施例对此不做限制。

在本实施例中,取消了语音处理过程中从拼音转换为包括单个字的文字文本过程,而在语义理解过程中增加音学文本匹配环节,则语义理解过程可以直接利用语音处理得到的音学文本,从而化语音识别偏差,规避语言处理偏差,提升基于语音交互的语义理解应答效果。

进一步而言,本实施例中的基于语音交互的语义识别方法可以用于智能问答场景,可以提高问答准确性。

图4是本发明实施例一种基于语音交互的语义识别装置的结构示意图。

图4所示的基于语音交互的语义识别装置40可以包括转换模块401、匹配模块402和语义理解模块403。

其中,转换模块401用以将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个表音字;匹配模块402用以利用所述音学文本中的表音字进行词语匹配,以得到文字文本,所述文字文本中包括与所述表音字匹配的表义词;语义理解模块403用以对所述文字文本进行语义理解处理,以得到所述语音数据的语义。

具体实施中,匹配模块402利用所述音学文本中的表音字进行词语匹配,可以确定与所述表音字匹配的表义词,以得到文字文本。具体而言,表义词可以是一个词语,可以包括至少一个表义字。其中,表音字可以是表义字的发音,表义字可以表示表音字的语义。例如,在汉语中,表音字为拼音,表义字为汉字;在英语中,表音字为音标,表义字为单词;其他语言环境中的表音字和表义字可以此类推,本发明实施例对此不做限制。

进一步而言,匹配模块402得到的文字文本可以是经过分词操作后的文本。也就是说,文字文本中是包括表义词的,而不是未经分词的独立的单个表义字。所述文字文本可以直接用于语义理解过程,不需要再进行一次分词操作。

进而,语义理解模块403可以对分词后的所述文字文本进行语义理解处理,从而获得语音数据的语义。

具体实施中,语音数据的语义可以是指语音数据所表达的内容的含义。具体而言,语音数据的语义可以采用关键词来表示,也可以采用关键句子或段落来表示。例如,语音数据的语义可以是疑问句,指令、陈述句、语义表达式等。

更进一步而言,对文字文本进行语义理解处理的过程可以是基于文字文本的上下文语境,来确定的文字文本的整体语义。

本发明实施例直接利用音学文本中的表音字进行词语匹配,得到包括与所述表音字匹配的表义词的文字文本,文字转换和分词操作同时完成,避免了表音字转换为表义字时的误差,还避免了表义字分词时的二次误差,从而提高了语音识别的准确性。此外,本发明技术方案通过节省步骤,还可以提高语音识别的识别效率。

优选地,匹配模块402利用所述音学文本中的表音字与包括表音字索引的预设词典进行词语匹配。

本实施例中,预设词典可以预先配置表音字索引,预设词典可以包括多个词语。具体而言,表音字索引可以是预设词典中词语对应的表音字。则通过表音字索引可以将音学文本中的表音字与预设词典中的词语进行关联,进而可以利用音学文本中的表音字和表音字索引进行词语匹配,以得到文字文本。

本发明实施例利用所述音学文本中的表音字与包括表音字索引的预设词典进行词语匹配,通过预先在预设词典中建立表音字索引,从而可以利用表音字索引与音学文本中的表音字进行匹配,确定包括表义词的文字文本。

优选地,匹配模块402可以包括表音字匹配单元4021和第一表义词确定单元4022。表音字匹配单元4021用以将所述音学文本中的表音字与所述预设词典中各个预设表义词的表音字进行匹配,其中,所述预设词典中包括至少一个表音字、多个表义词,以及每个预设表义词与相应表音字的对应关系;第一表义词确定单元4022用以将匹配的预设表义词作为与所述音学文本中的表音字匹配的表义词。

本实施例中,预设词典中可以包括至少一个表音字、多个表义词,以及每个预设表义词与相应表音字的对应关系。表音字索引可以包括至少一个表音字以及每个预设表义词与相应表音字的对应关系。也就是说,通过将音学文本中的表音字与预设词典中的表音字进行匹配,然后根据匹配得到的预设词典中的表音字以及上述对应关系确定对应的预设表义词,则可以确定该预设表义词为音学文本中的表音字匹配的表义词。将音学文本中的所有表音字均经过上述匹配过程后,可以得到音学文本相匹配的文字文本。

进一步地,表音字匹配单元4021可以包括表义词选取子单元40211和第一表义词匹配子单元40212。表义词选取子单元40211用以按照在所述预设词典中出现频率递减的方式,依次选取预设表义词;第一表义词匹配子单元40212用以将选取的预设表义词的表音字与所述音学文本中的表音字进行匹配,直至所述音学文本中的所有表音字匹配完成。

本实施例中,每个预设表义词在所述预设词典中具备出现频率(也可以称为频次),出现频率较高的预设表义词为常用词。为了提高表音字匹配的准确性,可以先将音学文本中的表音字与出现频率较高的预设表义词进行匹配,直至音学文本中的所有表音字匹配到表义词。

具体而言,通过采用预设词典中的常用词与音学文本中的表音字进行匹配的方式,可以在保证匹配准确性的基础上,提高匹配的速度。此外,所述预设词典通常是针对特定领域,所述预设词典中的预设表义词的数量是有限的,则通过频率递减的方式选取的预设表义词的数量也是有限的,不会对表音字的匹配过程增加计算量。

可选地,表音字匹配单元4021可以包括第二表义词匹配子单元40213,第二表义词匹配子单元40213用以将所述音学文本中的表音字或表音字组合与所述预设词典中各个预设表义词的表音字进行匹配,直至所述音学文本中的所有表音字匹配完成。

具体实施中,音学文本可以包括单个表音字或表音字组合。则可以将单个表音字或者表音字组合直接与预设词典中各个预设表义词对应的表音字进行匹配,如果匹配结果一致,则该预设表义词为表音字或者表音字组合匹配的表义词。本领域技术人员可以理解的是,音学文本中的表音字组合可以是常用词对应的表音词,是在从语义数据转换为音学文本的过程中进行组合形成的。

优选地,匹配模块402可以包括词类确定单元4023、第一近音表音字选取单元4024和第二表义词确定单元4025。

其中,词类确定单元4023用以确定所述音学文本中的表音字在预设词典中所属的近音词类;其中,所述预设词典中包括至少一个表音字、多个表义词、每个预设表义词与相应表音字的对应关系以及至少一个近音词类,每一近音词类包括多个近音表音字以及针对每一近音表音字的预设权重;第一近音表音字选取单元4024用以选取所述音学文本中的表音字所属的近音词类中权重值最大的近音表音字,将其与预设词典中的表音字进行匹配;第二表义词确定单元4025用以如果匹配结果为一致,则将匹配的表音字对应的表义词作为与所述音学文本中的表音字匹配的表义词。

具体实施中,所述预设词典中包括至少一个表音字、多个表义词、每个预设表义词与相应表音字的对应关系以及至少一个近音词类,每一近音词类包括多个近音表音字以及针对每一近音表音字的预设权重。具体而言,近音表音字可以表示多个发音相近的表音字,例如,平舌音与卷舌音,前鼻音与后鼻音;每一近音表音字的预设权重可以表示该近音表音字在预设词典所在领域中的使用频次。

进一步而言,近音词类可以是预先设置在预设词典中的。近音词类可以具备词类名。在确定音学文本中的表音字在预设词典中所属的近音词类时,可以计算音学文本中的表音字与所述词类名的相似度;也可以是确定包括音学文本中的表音字的近音词类为该表音字所属的近音词类。具体而言,为了兼顾音学文本中的表音字匹配的准确性与速度,可以选取权重值最大的近音表音字与该表音字进行匹配。

本实施例中,优先使用权重值最大的近音表音字与预设词典中的表音字进行匹配,权重值最大的近音表音字与预设词典中的表音字不匹配的情况下,再使用所述近音词类中其他权重的近音表音字与预设词典中的表音字进行匹配。本发明实施例采用上述匹配方式可以提高匹配效率。

进一步地,匹配模块402还可以包括第二近音表音字选取单元4026和第三表义词确定单元4027。第二近音表音字选取单元4026用以如果匹配结果为不一致,则按照权重值递减的方式,在所述音学文本中的表音字所属的近音词类中依次选取近音表音字;第三表义词确定单元4027用以将选取的近音表音字与预设词典中的表音字进行匹配,直至匹配结果为一致,并将匹配的表音字对应的表义词作为与所述音学文本中的表音字匹配的表义词。

本发明实施例通过在预设词典中配置近音词类,从而可以在表音字进行词语匹配时,可以根据近音词类中权重值最大的近音表音字进行匹配,可以在音学文本的表音字发音不标准的情况下,例如混淆平舌音和卷舌音,或者前鼻音和后鼻音等,可以匹配到正确的表义词;也就是说,通过表音词类可以矫正用户发音错误导致的分词错误,从而进一步提高了语音识别的准确性。

进一步地,所述近音表音字包括标准表音字以及与所述标准表音字发音相似的相似表音字。具体而言,标准表音字是指发音正确的表音字。相似表音字是指与标准表音字发音相似的表音字,在不同的语言环境中可以有不同的形式,例如在汉语言环境中,相似表音字可以是包括平舌音z、c、s的表音字和包括卷舌音(也可以称为翘舌音)zh、ch、sh、r的表音字;或者,包括前鼻音an、ian、uan、ü、an、en、in、uen、ün的表音字和包括后鼻音ang、iang、uang、eng、ing、ueng、ong、iong的表音字。

优选地,所述预设词典为分词词典,所述分词词典包括针对所有表义词的表音字。

优选地,所述表音字为汉字的拼音,所述预设表义词为汉语词语。

优选地,图4所示的基于语音交互的语义识别装置40还可以包括知识点匹配模块404和答案输出模块405。知识点匹配模块404用以将所述语音数据的语义与知识库中的知识点进行匹配;答案输出模块405,用以输出与所述语音数据的语义相匹配的知识点中的答案。具体实施中,知识库可以存储多个知识点,每个知识点包括一个或多个预设的问题以及对应的答案信息。其中,所述问题不仅限于疑问句,可以为一个指令、陈述句、语义表达式等,用以与用户输入的问题进行匹配。所述答案信息为针对所述多个问题的应答。进一步而言,所述知识点包括标准问和多个扩展问,扩展问可以为用以表示该知识点语义的语义表达式和自然语句中的至少一种。

具体实施中,语音数据的语义与知识库中的知识点进行匹配的过程,可以是计算语音数据的语义与知识库中的知识点的标准问的语义相似度的过程。当所述语义相似度达到设定阈值时,则表示语音数据与知识库中的知识点相匹配,则可以输出与所述语音数据的语义相匹配的知识点中的答案。例如,语音数据的语义为“查余额”,并确定与语音数据的语义相似度最高的知识库中标准问为“剩余金额”,则将该标准问“剩余金额”对应的答案输出。

更具体而言,语音数据的语义与知识库中的知识点的语义相似度可以通过相关性得分(relevancescore)来衡量,分数越高则语义相似度越高。可以采用tf-idf算法计算语义相似度,此时词频(termfrequency)和文档频率(documentfrequency)是影响语义相似度的因素。还可以进行笛卡尔积计算,然后采用编辑距离或jaccard距离计算相似度。优选的,可以分别采用编辑距离和jaccard距离计算相似度,并选取数值最大的相似度作为语义相似度。

关于所述基于语音交互的语义识别装置40的工作原理、工作方式的更多内容,可以参照对图1至图2所示实施例的相关描述,这里不再赘述。

本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行图1或图2中所示的基于语音交互的语义识别方法的步骤。所述存储介质可以是计算机存储介质。所述存储介质可以包括rom、ram、磁盘或光盘等。

本发明实施例还公开了一种计算机设备,所述计算机设备可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1或图2中所示的基于语音交互的语义识别方法的步骤。所述用户设备包括但不限于手机、计算机、平板电脑等计算机设备。

应当理解,虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品,但是本发明的实施方式的方法或装置可以通过软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

应当理解,尽管在上文的详细描述中提及了装置的若干模块或单元,但是这种划分仅仅是示例性而非强制性的。实际上,根据本发明的示例性实施方式,上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现,反之,上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外,上文描述的某些模块/单元在某些应用场景下可被省略。

应当理解,为了不模糊本发明的实施方式,说明书仅对一些关键、未必必要的技术和特征进行了描述,而可能未对一些本领域技术人员能够实现的特征做出说明。

以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1