一种自动过滤唤醒词的方法及系统与流程

文档序号:16906304发布日期:2019-02-19 18:22阅读:293来源:国知局
一种自动过滤唤醒词的方法及系统与流程

本发明涉及语音识别技术领域,尤指一种自动过滤唤醒词的方法及系统。



背景技术:

随着互联网的快速发展,人们的生活变得越来越智能化,因此人们也越来越习惯地使用智能终端完成各种需求。而且随着人工智能相关技术的日益成熟,各类终端的智能化程度也越来越高。其中,语音交互的方式作为智能终端中人机交互主流的交流应用之一,也是越来越受到用户的青睐。

智能终端都是基于用户输入的语音进行识别,然后采取相应的措施,因此用户通过终端终端所输入的语音的准确性严重影响着智能终端所作出的反馈。

智能终端如果通过语音交互的方式进行开启,那么在启动过程中需要用到唤醒词,当智能终端识别到设定的唤醒词时就会启动,然后识别用户语音。

但是,智能终端获取的用户语音中可能存在多个唤醒词,其中部分唤醒词仅作为唤醒智能终端,部分具有实际意义,但是智能终端并无法智能识别,可能都当做无意义的唤醒词处理,从而导致智能终端对用户语音解析出错。

另外,由于环境等因素影响或者用户自身的原因,智能终端获取的用户语音中唤醒词可能出现不全的情况,例如唤醒词为五个字,但是由于环境嘈杂或者用户过于紧张,从而导致获取到的用户语音中中只有设定的唤醒词中其中四个字,那么智能终端可能不会将其识别为无意义的唤醒词,这种情况下,一方面可能无法及时地唤醒智能终端,另一方面可能将补全的唤醒词当做有实质意义的词语进行语义识别,从而导致智能终端对用户语音解析出错。

因此,针对上述唤醒词重复或者补全的情况,急需一种自动过滤唤醒词的方法及系统。



技术实现要素:

本发明的目的是提供一种自动过滤唤醒词的方法及系统,实现通过屏蔽用户语音中的无意义唤醒词,识别生成的无唤醒词语音,从而提升语义解析的准确率。

本发明提供的技术方案如下:

本发明提供一种自动过滤唤醒词的方法,包括:

获取唤醒词以及对应的唤醒词音频;

获取包含所述唤醒词的语料样本,根据所述语料样本和所述唤醒词音频建立语音模型;

获取用户语音;

将所述用户语音和所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况;

将所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词;

屏蔽所述用户语音中的所述无意义唤醒词得到无唤醒词语音;

解析所述无唤醒词语音得到用户语义

进一步的,所述的获取唤醒词以及对应的唤醒词音频具体包括:

获取唤醒词以及对应的唤醒词音频;

将所述唤醒词中的单字位置在所述唤醒词音频中进行标记定位。

进一步的,所述的获取包含所述唤醒词的语料样本,根据所述语料样本和所述唤醒词音频建立语音模型具体包括:

获取包含所述唤醒词的所述语料样本;

根据所述唤醒词音频将所述语料样本切分成唤醒词部分和非唤醒词部分;

分析所述唤醒词部分在所述语料样本中对应的唤醒词位置、唤醒词情况以及唤醒词词性;

分析所述唤醒词部分和所述非唤醒词部分之间的连接关系;

根据所述唤醒词位置、所述唤醒词情况、所述唤醒词词性以及所述连接关系确定唤醒词状态,所述唤醒词状态为唤醒词屏蔽或者唤醒词不屏蔽;

根据所述唤醒词位置、所述唤醒词情况以及所述唤醒词状态建立语音模型。

进一步的,所述的将所述用户语音和所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况具体包括:

将所述用户语音进行分词得到用户语音分词以及对应的分词音频;

将所述分词音频和所述唤醒词音频进行对比,得到所述用户语音中的所述用户唤醒词以及所述用户唤醒词情况;

根据所述用户语音分词和所述用户唤醒词得到所述用户唤醒词位置。

进一步的,所述的将所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词具体包括:

将所述用户唤醒词位置以及所述用户唤醒词情况和所述语音模型进行匹配;

当匹配结果相符时,根据所述语音模型获取所述用户唤醒词的状态;

当所述用户唤醒词的状态为唤醒词屏蔽时,所述用户唤醒词为无意义唤醒词。

本发明还提供一种自动过滤唤醒词的系统,包括:

获取模块,获取唤醒词以及对应的唤醒词音频;

模型建立模块,获取包含所述获取模块获取的所述唤醒词的语料样本,根据所述语料样本和所述获取模块获取的所述唤醒词音频建立语音模型;

语音获取模块,获取用户语音;

对比模块,将所述语音获取模块获取的所述用户语音和所述获取模块获取的所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况;

匹配模块,将所述对比模块得到的所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述模型建立模块建立的所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词;

处理模块,屏蔽所述匹配模块得到的所述用户语音中的所述无意义唤醒词得到无唤醒词语音;

解析模块,解析所述处理模块得到的所述无唤醒词语音得到用户语义。

进一步的,所述获取模块具体包括:

获取单元,获取唤醒词以及对应的唤醒词音频;

标记单元,将所述唤醒词中的单字位置在所述获取单元获取的所述唤醒词音频中进行标记定位。

进一步的,所述模型建立模块具体包括:

样本获取单元,获取包含所述获取模块获取的所述唤醒词的所述语料样本;

切分单元,根据所述获取模块获取的所述唤醒词音频将所述样本获取单元获取的所述语料样本切分成唤醒词部分和非唤醒词部分;

分析单元,分析所述切分单元得到的所述唤醒词部分在所述语料样本中对应的唤醒词位置、唤醒词情况以及唤醒词词性;

所述分析单元,分析所述切分单元得到的所述唤醒词部分和所述非唤醒词部分之间的连接关系;

处理单元,根据所述分析单元得到的所述唤醒词位置、所述唤醒词情况、所述唤醒词词性以及所述连接关系确定唤醒词状态,所述唤醒词状态为唤醒词屏蔽或者唤醒词不屏蔽;

模型建立单元,根据所述分析单元得到的所述唤醒词位置、所述唤醒词情况以及所述处理单元确定的所述唤醒词状态建立语音模型。

进一步的,所述对比模块具体包括:

分词单元,将语音获取模块获取的所述用户语音进行分词得到用户语音分词以及对应的分词音频;

对比单元,将所述分词单元得到的所述分词音频和所述获取模块获取的所述唤醒词音频进行对比,得到所述用户语音中的所述用户唤醒词以及所述用户唤醒词情况;

控制单元,根据所述分词单元得到的所述用户语音分词和所述对比单元得到的所述用户唤醒词得到所述用户唤醒词位置。

进一步的,所述匹配模块具体包括:

匹配单元,将所述对比模块得到的所述用户唤醒词位置以及所述用户唤醒词情况和所述模型建立模块建立的所述语音模型进行匹配;

状态获取单元,当所述匹配单元得到的匹配结果相符时,根据所述语音模型获取所述用户唤醒词的状态;

定义单元,当所述状态获取单元获取的所述用户唤醒词的状态为唤醒词屏蔽时,将所述用户唤醒词定义为无意义唤醒词。

通过本发明提供的一种自动过滤唤醒词的方法及系统,能够带来以下至少一种有益效果:

1、本发明中,通过判定唤醒词是否具有实际语义然后不同情况不同处理,避免系统误处理。

2、本发明中,通过屏蔽用户语音中的无意义唤醒词,识别生成的无唤醒词语音,从而提升语义解析的准确率。

附图说明

下面将以明确易懂的方式,结合附图说明优选实施方式,对一种自动过滤唤醒词的方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种自动过滤唤醒词的方法的第一个实施例的流程图;

图2、图3是本发明一种自动过滤唤醒词的方法的第二个实施例的流程图;

图4、图5是本发明一种自动过滤唤醒词的方法的第三个实施例的流程图;

图6是本发明一种自动过滤唤醒词的系统的第四个实施例的结构示意图;

图7、图8是本发明一种自动过滤唤醒词的系统的第五个实施例的结构示意图;

图9是本发明一种自动过滤唤醒词的系统的第六个实施例的结构示意图。

附图标号说明:

100自动过滤唤醒词的系统

110获取模块111获取单元112标记单元

120模型建立模块121样本获取单元122切分单元123分析单元

124处理单元125模型建立单元

130语音获取模块

140对比模块141分词单元142对比单元143控制单元

150匹配模块151匹配单元152状态获取单元153定义单元

160处理模块170解析模块

具体实施方式

为了能够更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。

本发明的第一实施例,如图1所示,一种自动过滤唤醒词的方法,包括:

s100获取唤醒词以及对应的唤醒词音频。

具体的,自主设定启动智能终端的唤醒词,并输入对应的智能终端可准确识别的唤醒词音频,其中唤醒词的选取应当尽量避免选择日常常用的字、词、句等。

s200获取包含所述唤醒词的语料样本,根据所述语料样本和所述唤醒词音频建立语音模型。

具体的,获取包含有设定唤醒词的语料样本,语料样本中包含一个或多个唤醒词,并且唤醒词也可能存在重复或者不全的情况。根据语料样本和唤醒词音频建立语音模型。

s300获取用户语音。

s400将所述用户语音和所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况。

具体的,获取输入的用户语音,然后将用户语音和唤醒词音频进行对比,从而判断用户语音中是否存在唤醒词,如果有,则进一步判断唤醒词在用户语音中的位置,例如实在句首、句中或者句末等。并且分析唤醒词的情况,判断是否存在唤醒词重复或者不全等情形。

s500将所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词。

具体的,将用户唤醒词、用户唤醒词位置以及用户唤醒词情况和语音模型进行匹配,从而确定用户语音中只具有唤醒智能终端功能、没有实际语义或者存在重复的唤醒词,将其定义为需要屏蔽的无意义唤醒词。

s600屏蔽所述用户语音中的所述无意义唤醒词得到无唤醒词语音。

具体的,屏蔽用户语音中判定的无意义唤醒词,避免无意义唤醒词对语义解析造成的干扰,得到无唤醒词语音。可以选择将用户语音中无意义唤醒词对应的音频屏蔽,或者在将用户语音转化为对应的文本形式后,将无意义唤醒词在文本中删除。

s700解析所述无唤醒词语音得到用户语义。

具体的,将上述得到的无唤醒词语音转化为对应的文本形式,解析该文本从而得到对应的用户语义,根据得到的用户语义识别出用户的意图,然后采取相应的措施。

本实施例中,通过分析获取到的包含有设定的唤醒词的语料样本,从而建立语音模型,然后根据语音模型识别用户语音中的无意义唤醒词。最后屏蔽用户语音中的无意义唤醒词,识别生成的无唤醒词语音,从而提升语义解析的准确率。

本发明的第二实施例,是上述第一实施例的优化实施例,如图2、图3所示,包括:

s100获取唤醒词以及对应的唤醒词音频。

所述s100获取唤醒词以及对应的唤醒词音频具体包括:

s110获取唤醒词以及对应的唤醒词音频。

s120将所述唤醒词中的单字位置在所述唤醒词音频中进行标记定位。

具体的,获取设定的唤醒词以及对应的唤醒词音频,并将每一个唤醒词中的单字位置在对应的唤醒词音频中进行标记定位。当唤醒词的字数为多个时,但是由于环境或其它因素导致智能终端只获取到唤醒词中的部分字,对于这种唤醒词不全的情形,将唤醒词的单字进行匹配,结果相符的话也要进行相应的处理。

例如,设定的唤醒词为“冰淇淋”,但是由于环境过于嘈杂以及用户自身比较紧张,智能终端只获取到“冰淋”,将获取到的“冰淋”和唤醒词音频进行匹配,和其中标记定位的单字位置相符,因此,同样认为获取到的“冰淋”为唤醒词。

s200获取包含所述唤醒词的语料样本,根据所述语料样本和所述唤醒词音频建立语音模型。

所述的s200获取包含所述唤醒词的语料样本,根据所述语料样本和所述唤醒词音频建立语音模型具体包括:

s210获取包含所述唤醒词的所述语料样本。

具体的,获取大量的包含设定的唤醒词的所述语料样本,其中语料样本可以是用户的语音、录制的音频等,但也可以是规范的书面用语,例如文件、文档等,因为在人机交互的过程中用户语音输入和文字输入都是目前主流的交互方式。

s220根据所述唤醒词音频将所述语料样本切分成唤醒词部分和非唤醒词部分。

具体的,根据获取的唤醒词音频将语料样本切分成唤醒词部分和非唤醒词部分。如果获取的语料样本是音频文件,则将语料样本和唤醒词音频逐一进行匹配得到语料样本中的唤醒词部分,如果获取的语料样本是文本形式,则将语料样本和唤醒词对应的文本逐一进行匹配得到语料样本中的唤醒词部分。

将语料样本切分成唤醒词部分和非唤醒词部分之后,得到的多个唤醒词部分和非唤醒词部分的顺序需要按照在语料样本中的顺序进行标记,便于判断唤醒词在语料样本中的位置。

s230分析所述唤醒词部分在所述语料样本中对应的唤醒词位置、唤醒词情况以及唤醒词词性。

具体的,通过逐一地分析切分之后得到的唤醒词部分,判断出现的每一个判定为唤醒词对应的唤醒词位置、唤醒词情况以及唤醒词词性,其中唤醒词位置包括唤醒词出现在语料样本的句首、句中或句末等,唤醒词情况为唤醒词重复或者不全等情况。

s240分析所述唤醒词部分和所述非唤醒词部分之间的连接关系。

具体的,结合语料样本的结构,逐一地分析语料样本中唤醒词部分和非唤醒词部分之间的连接关系,从而判断每一个唤醒词在语料样本中是否具有实际的语义。

s250根据所述唤醒词位置、所述唤醒词情况、所述唤醒词词性以及所述连接关系确定唤醒词状态,所述唤醒词状态为唤醒词屏蔽或者唤醒词不屏蔽。

具体的,根据唤醒词位置、唤醒词情况、唤醒词词性以及连接关系确定唤醒词状态,唤醒词状态为唤醒词屏蔽或者唤醒词不屏蔽。例如,某一个语料样本为:小冰,帮我找一下微软小冰的功能介绍。唤醒词为“小冰”,第一个“小冰”出现在语料样本句首,情况正常,词性为名词,和其它的唤醒词部分以及非唤醒词部分均没有连接关系,因此判断第一个“小冰”没有实际语义,仅作为唤醒词起到唤醒智能终端的作用,需要将其屏蔽再进行语义识别。第二个“小冰”出现在语料样本句中,情况正常,词性为名词,和其它的非唤醒词部分“的功能介绍”具有连接关系,因此判断第二个“小冰”具有实际语义,不能将其屏蔽再进行语义识别。

s260根据所述唤醒词位置、所述唤醒词情况以及所述唤醒词状态建立语音模型。

具体的,根据唤醒词位置、唤醒词情况以及唤醒词状态建立语音模型,在语音模型中建立唤醒词位置、唤醒词情况和唤醒词状态之间的对应关系。例如,根据上述举例中,某一个语料样本为:小冰,帮我找一下微软小冰的功能介绍,根据此预料样本得到的语音模型为当唤醒词出现在句首,词性为名词,与其它的唤醒词部分以及非唤醒词部分均没有连接关系时,判定该唤醒词状态为屏蔽。当然,语音模型的建立是基于大量的语料样本统计分析,上述举例仅为了便于理解。

s300获取用户语音。

s400将所述用户语音和所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况。

s500将所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词。

s600屏蔽所述用户语音中的所述无意义唤醒词得到无唤醒词语音。

s700解析所述无唤醒词语音得到用户语义。

本实施例中,将唤醒词中的单字位置在唤醒词音频中进行标记定位,从而识别出获取的唤醒词不全的情形,避免遗漏或者误判。另外基于分析大量的语料样本建立语音模型,便于后续快速判断用户语音中的唤醒词状态,从而在识别语义时避免无实际意义唤醒词的干扰,提高对应的用户语音语义解析的准确率。

本发明的第三实施例,是上述第一实施例的优化实施例,如图4、图5所示,包括:

s100获取唤醒词以及对应的唤醒词音频。

s200获取包含所述唤醒词的语料样本,根据所述语料样本和所述唤醒词音频建立语音模型。

s300获取用户语音。

s400将所述用户语音和所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况。

所述s400将所述用户语音和所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况具体包括:

s410将所述用户语音进行分词得到用户语音分词以及对应的分词音频。

s420将所述分词音频和所述唤醒词音频进行对比,得到所述用户语音中的所述用户唤醒词以及所述用户唤醒词情况。

具体的,通过分词技术对用户语音进行分词得到用户语音分词,以及对应的分词音频,将分词音频和唤醒词音频进行对比,如果对比结果符合,则对应的用户语音分词为用户唤醒词,并确定用户唤醒词情况。例如,如果分词音频和唤醒词音频中部分单字符合,则该用户唤醒词情况为不全。另外,如果两个用户语音分词都匹配为用户唤醒词,并且上述两个用户语音分词在用户语音中的位置相邻,则上述两个用户唤醒词情况为重复。

s430根据所述用户语音分词和所述用户唤醒词得到所述用户唤醒词位置。

具体的,通过分词技术得到的用户语音分词在用户语音中的位置明确,由于用户唤醒词和用户语音分词是意义对应的,因此可以确定每一个用户唤醒词位置。

s500将所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词。

所述s500将所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词具体包括:

s510将所述用户唤醒词位置以及所述用户唤醒词情况和所述语音模型进行匹配。

s520当匹配结果相符时,根据所述语音模型获取所述用户唤醒词的状态。

s530当所述用户唤醒词的状态为唤醒词屏蔽时,所述用户唤醒词为无意义唤醒词。

具体的,将用户唤醒词位置以及用户唤醒词情况和语音模型进行匹配,当匹配结果相符时,根据语音模型中建立唤醒词位置、唤醒词情况和唤醒词状态之间的对应关系确定用户唤醒词状态。当用户唤醒词的状态为唤醒词屏蔽时,则将该用户唤醒词定义为无意义唤醒词。

s600屏蔽所述用户语音中的所述无意义唤醒词得到无唤醒词语音。

s700解析所述无唤醒词语音得到用户语义。

本实施例中,通过分词技术对用户语音进行分词得到用户语音分词,进而确定用户唤醒词,再根据语音模型判定用户唤醒词状态,能够准确快速地排除用户语音中无实际语义的唤醒词的干扰。

本发明的第四实施例,如图6所示,一种自动过滤唤醒词的系统100,包括:

获取模块110,获取唤醒词以及对应的唤醒词音频。

具体的,自主设定启动智能终端的唤醒词,并输入对应的智能终端可准确识别的唤醒词音频,获取模块110获取唤醒词以及对应的唤醒词音频。其中唤醒词的选取应当尽量避免选择日常常用的字、词、句等。

模型建立模块120,获取包含所述获取模块110获取的所述唤醒词的语料样本,根据所述语料样本和所述获取模块110获取的所述唤醒词音频建立语音模型。

具体的,模型建立模块120获取包含有设定唤醒词的语料样本,语料样本中包含一个或多个唤醒词,并且唤醒词也可能存在重复或者不全的情况。根据语料样本和唤醒词音频建立语音模型。

语音获取模块130,获取用户语音。

对比模块140,将所述语音获取模块130获取的所述用户语音和所述获取模块110获取的所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况。

具体的,语音获取模块130获取输入的用户语音,然后对比模块140将用户语音和唤醒词音频进行对比,从而判断用户语音中是否存在唤醒词,如果有,则进一步判断唤醒词在用户语音中的位置,例如实在句首、句中或者句末等。并且分析唤醒词的情况,判断是否存在唤醒词重复或者不全等情形。

匹配模块150,将所述对比模块140得到的所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述模型建立模块120建立的所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词。

具体的,将用户唤醒词、用户唤醒词位置以及用户唤醒词情况和语音模型进行匹配,从而确定用户语音中只具有唤醒智能终端功能、没有实际语义或者存在重复的唤醒词,将其定义为需要屏蔽的无意义唤醒词。

处理模块160,屏蔽所述匹配模块150得到的所述用户语音中的所述无意义唤醒词得到无唤醒词语音。

具体的,处理模块160屏蔽用户语音中判定的无意义唤醒词,避免无意义唤醒词对语义解析造成的干扰,得到无唤醒词语音。可以选择将用户语音中无意义唤醒词对应的音频屏蔽,或者在将用户语音转化为对应的文本形式后,将无意义唤醒词在文本中删除。

解析模块170,解析所述处理模块160得到的所述无唤醒词语音得到用户语义。

具体的,将上述得到的无唤醒词语音转化为对应的文本形式,解析模块170解析该文本从而得到对应的用户语义,根据得到的用户语义识别出用户的意图,然后采取相应的措施。

本实施例中,通过分析获取到的包含有设定的唤醒词的语料样本,从而建立语音模型,然后根据语音模型识别用户语音中的无意义唤醒词。最后屏蔽用户语音中的无意义唤醒词,识别生成的无唤醒词语音,从而提升语义解析的准确率。

本发明的第五实施例,是上述第四实施例的优化实施例,如图7、图8所示,包括:

获取模块110,获取唤醒词以及对应的唤醒词音频。

所述获取模块110具体包括:

获取单元111,获取唤醒词以及对应的唤醒词音频。

标记单元112,将所述唤醒词中的单字位置在所述获取单元111获取的所述唤醒词音频中进行标记定位。

具体的,获取单元111获取设定的唤醒词以及对应的唤醒词音频,并且标记单元112将每一个唤醒词中的单字位置在对应的唤醒词音频中进行标记定位。当唤醒词的字数为多个时,但是由于环境或其它因素导致智能终端只获取到唤醒词中的部分字,对于这种唤醒词不全的情形,将唤醒词的单字进行匹配,结果相符的话也要进行相应的处理。

例如,设定的唤醒词为“冰淇淋”,但是由于环境过于嘈杂以及用户自身比较紧张,智能终端只获取到“冰淋”,将获取到的“冰淋”和唤醒词音频进行匹配,和其中标记定位的单字位置相符,因此,同样认为获取到的“冰淋”为唤醒词。

模型建立模块120,获取包含所述获取模块110获取的所述唤醒词的语料样本,根据所述语料样本和所述获取模块110获取的所述唤醒词音频建立语音模型。

所述模型建立模块120具体包括:

样本获取单元121,获取包含所述获取模块110获取的所述唤醒词的所述语料样本。

具体的,样本获取单元121获取大量的包含设定的唤醒词的所述语料样本,其中语料样本可以是用户的语音、录制的音频等,但也可以是规范的书面用语,例如文件、文档等,因为在人机交互的过程中用户语音输入和文字输入都是目前主流的交互方式。

切分单元122,根据所述获取模块110获取的所述唤醒词音频将所述样本获取单元121获取的所述语料样本切分成唤醒词部分和非唤醒词部分。

具体的,切分单元122根据获取的唤醒词音频将语料样本切分成唤醒词部分和非唤醒词部分。如果获取的语料样本是音频文件,则将语料样本和唤醒词音频逐一进行匹配得到语料样本中的唤醒词部分,如果获取的语料样本是文本形式,则将语料样本和唤醒词对应的文本逐一进行匹配得到语料样本中的唤醒词部分。

将语料样本切分成唤醒词部分和非唤醒词部分之后,得到的多个唤醒词部分和非唤醒词部分的顺序需要按照在语料样本中的顺序进行标记,便于判断唤醒词在语料样本中的位置。

分析单元123,分析所述切分单元122得到的所述唤醒词部分在所述语料样本中对应的唤醒词位置、唤醒词情况以及唤醒词词性。

具体的,分析单元123通过逐一地分析切分之后得到的唤醒词部分,判断出现的每一个判定为唤醒词对应的唤醒词位置、唤醒词情况以及唤醒词词性,其中唤醒词位置包括唤醒词出现在语料样本的句首、句中或句末等,唤醒词情况为唤醒词重复或者不全等情况。

所述分析单元123,分析所述切分单元122得到的所述唤醒词部分和所述非唤醒词部分之间的连接关系。

具体的,分析单元123结合语料样本的结构,逐一地分析语料样本中唤醒词部分和非唤醒词部分之间的连接关系,从而判断每一个唤醒词在语料样本中是否具有实际的语义。

处理单元124,根据所述分析单元123得到的所述唤醒词位置、所述唤醒词情况、所述唤醒词词性以及所述连接关系确定唤醒词状态,所述唤醒词状态为唤醒词屏蔽或者唤醒词不屏蔽。

具体的,处理单元124根据唤醒词位置、唤醒词情况、唤醒词词性以及连接关系确定唤醒词状态,唤醒词状态为唤醒词屏蔽或者唤醒词不屏蔽。例如,某一个语料样本为:小冰,帮我找一下微软小冰的功能介绍。唤醒词为“小冰”,第一个“小冰”出现在语料样本句首,情况正常,词性为名词,和其它的唤醒词部分以及非唤醒词部分均没有连接关系,因此判断第一个“小冰”没有实际语义,仅作为唤醒词起到唤醒智能终端的作用,需要将其屏蔽再进行语义识别。第二个“小冰”出现在语料样本句中,情况正常,词性为名词,和其它的非唤醒词部分“的功能介绍”具有连接关系,因此判断第二个“小冰”具有实际语义,不能将其屏蔽再进行语义识别。

模型建立单元125,根据所述分析单元123得到的所述唤醒词位置、所述唤醒词情况以及所述处理单元124确定的所述唤醒词状态建立语音模型。

具体的,模型建立单元125根据唤醒词位置、唤醒词情况以及唤醒词状态建立语音模型,在语音模型中建立唤醒词位置、唤醒词情况和唤醒词状态之间的对应关系。例如,根据上述举例中,某一个语料样本为:小冰,帮我找一下微软小冰的功能介绍,根据此预料样本得到的语音模型为当唤醒词出现在句首,词性为名词,与其它的唤醒词部分以及非唤醒词部分均没有连接关系时,判定该唤醒词状态为屏蔽。当然,语音模型的建立是基于大量的语料样本统计分析,上述举例仅为了便于理解。

语音获取模块130,获取用户语音。

对比模块140,将所述语音获取模块130获取的所述用户语音和所述获取模块110获取的所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况。

匹配模块150,将所述对比模块140得到的所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述模型建立模块120建立的所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词。

处理模块160,屏蔽所述匹配模块150得到的所述用户语音中的所述无意义唤醒词得到无唤醒词语音。

解析模块170,解析所述处理模块160得到的所述无唤醒词语音得到用户语义。

本实施例中,将唤醒词中的单字位置在唤醒词音频中进行标记定位,从而识别出获取的唤醒词不全的情形,避免遗漏或者误判。另外基于分析大量的语料样本建立语音模型,便于后续快速判断用户语音中的唤醒词状态,从而在识别语义时避免无实际意义唤醒词的干扰,提高对应的用户语音语义解析的准确率。

本发明的第六实施例,是上述第四实施例的优化实施例,如图9所示,包括:

获取模块110,获取唤醒词以及对应的唤醒词音频。

模型建立模块120,获取包含所述获取模块110获取的所述唤醒词的语料样本,根据所述语料样本和所述获取模块110获取的所述唤醒词音频建立语音模型。

语音获取模块130,获取用户语音。

对比模块140,将所述语音获取模块130获取的所述用户语音和所述获取模块110获取的所述唤醒词音频进行对比,得到所述用户语音中的用户唤醒词、用户唤醒词位置以及用户唤醒词情况。

所述对比模块140具体包括:

分词单元141,将语音获取模块130获取的所述用户语音进行分词得到用户语音分词以及对应的分词音频。

对比单元142,将所述分词单元141得到的所述分词音频和所述获取模块110获取的所述唤醒词音频进行对比,得到所述用户语音中的所述用户唤醒词以及所述用户唤醒词情况。

具体的,分词单元141通过分词技术对用户语音进行分词得到用户语音分词,以及对应的分词音频,对比单元142将分词音频和唤醒词音频进行对比,如果对比结果符合,则对应的用户语音分词为用户唤醒词,并确定用户唤醒词情况。例如,如果分词音频和唤醒词音频中部分单字符合,则该用户唤醒词情况为不全。另外,如果两个用户语音分词都匹配为用户唤醒词,并且上述两个用户语音分词在用户语音中的位置相邻,则上述两个用户唤醒词情况为重复。

控制单元143,根据所述分词单元141得到的所述用户语音分词和所述对比单元142得到的所述用户唤醒词得到所述用户唤醒词位置。

具体的,通过分词技术得到的用户语音分词在用户语音中的位置明确,由于用户唤醒词和用户语音分词是意义对应的,因此控制单元143可以确定每一个用户唤醒词位置。

匹配模块150,将所述对比模块140得到的所述用户唤醒词、所述用户唤醒词位置以及所述用户唤醒词情况和所述模型建立模块120建立的所述语音模型进行匹配,得到所述用户唤醒词中需要屏蔽的无意义唤醒词。

所述匹配模块150具体包括:

匹配单元151,将所述对比模块140得到的所述用户唤醒词位置以及所述用户唤醒词情况和所述模型建立模块120建立的所述语音模型进行匹配。

状态获取单元152,当所述匹配单元151得到的匹配结果相符时,根据所述语音模型获取所述用户唤醒词的状态。

定义单元153,当所述状态获取单元152获取的所述用户唤醒词的状态为唤醒词屏蔽时,将所述用户唤醒词定义为无意义唤醒词。

具体的,匹配单元151将用户唤醒词位置以及用户唤醒词情况和语音模型进行匹配,当匹配结果相符时,状态获取单元152根据语音模型中建立唤醒词位置、唤醒词情况和唤醒词状态之间的对应关系确定用户唤醒词状态。当用户唤醒词的状态为唤醒词屏蔽时,则定义单元153将该用户唤醒词定义为无意义唤醒词。

处理模块160,屏蔽所述匹配模块150得到的所述用户语音中的所述无意义唤醒词得到无唤醒词语音。

解析模块170,解析所述处理模块160得到的所述无唤醒词语音得到用户语义。

本实施例中,通过分词技术对用户语音进行分词得到用户语音分词,进而确定用户唤醒词,再根据语音模型判定用户唤醒词状态,能够准确快速地排除用户语音中无实际语义的唤醒词的干扰。

应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1