唤醒词评估方法及装置、存储介质、电子设备与流程

文档序号:15445450发布日期:2018-09-14 23:18阅读:183来源:国知局

本公开涉及语音信号处理技术领域,具体地,涉及一种唤醒词评估方法及装置、存储介质、电子设备。



背景技术:

语音唤醒技术是语音信号处理技术领域的重要分支,在智能家居、智能机器人、智能车机、智能手机等方面有着重要的应用。

在实际应用过程中,智能终端捕捉用户输入的语音数据,由预先构建的唤醒模型进行唤醒词识别,若该语音数据被识别为唤醒词,则唤醒成功;否则唤醒失败。

为了提高用户的使用体验,可以由用户根据需求设置个性化的唤醒词。同时,为了确保唤醒效果,在用户设置唤醒词时需要先进行唤醒词评估,判断用户设置的唤醒词是否合适。

目前的唤醒词评估主要依据经验或者规则实现。具体地,可以获取用户设置的待评估词语,判断待评估词语是否满足预设评估条件,如果满足,则说明待评估词语适合作为唤醒词。举例来说,预设评估条件可以包括:词语的长度超过预设长度;和/或,词语包括的音节之间的差异大于预设差异。其中,词语的长度可以体现为词语包括的文字数量和/或词语对应的语音数据的音频时长;音节之间的差异可以体现为相邻音节是否相同,进而统计出不同相邻音节的数量,与预设差异相比较。

如此基于经验或者规则实现的唤醒词评估过程,由于规则设置具有一定的主观性,致使评估结果准确性较低,进而影响用户设置的唤醒词的唤醒效果。



技术实现要素:

本公开的主要目的是提供一种唤醒词评估方法及装置、存储介质、电子设备,有助于提高唤醒词评估结果的准确性,进而提高用户设置的唤醒词的唤醒效果。

为了实现上述目的,本公开提供一种唤醒词评估方法,所述方法包括:

获取用户输入的待评估词语;

提取所述待评估词语的评估特征,所述评估特征用于表示所述待评估词语在声学层面和/或语义层面的区分性;

将所述待评估词语的评估特征作为输入,经预先构建的唤醒词评估模型处理后,确定所述待评估词语是否适合作为唤醒词。

可选地,用于表示所述待评估词语在声学层面的区分性的评估特征包括语音单元的分布特征,则所述提取所述待评估词语的评估特征包括:分析所述待评估词语包括的语音单元,统计语音单元的总数目、不同语音单元的数目、各不同语音单元出现的次数、指定语音单元的数目、各指定语音单元出现的次数中的至少一项,作为所述语音单元的分布特征;

和/或,

用于表示所述待评估词语在声学层面的区分性的评估特征包括待评估词语的识别概率,则所述提取所述待评估词语的评估特征包括:获取所述待评估词语包括的语音单元的识别概率;将各语音单元的识别概率的均值,作为所述待评估词语的识别概率,所述识别概率包括准确率和/或虚警率;

和/或,

用于表示所述待评估词语在声学层面的区分性的评估特征包括待评估词语的时长,则所述提取所述待评估词语的评估特征包括:获取所述待评估词语包括的语音单元的时长;将各语音单元的时长之和,作为所述待评估词语的时长;

和/或,

用于表示所述待评估词语在声学层面的区分性的评估特征包括待评估词语的音调特征,则所述提取所述待评估词语的评估特征包括:获取所述待评估词语包括的单字的音调,计算相邻单字之间的音调方差;利用所述相邻单字之间的音调方差进行数学运算,得到所述待评估词语的音调特征;

和/或,

用于表示所述待评估词语在语义层面的区分性的评估特征包括语言模型的得分,则所述提取所述待评估词语的评估特征包括:将所述待评估词语作为输入,经预先构建的语言模型处理后,输出所述待评估词语的得分,所述得分用于表示所述待评估词语出现的频率;

和/或,

用于表示所述待评估词语在语义层面的区分性的评估特征包括待评估词语的词性特征,则所述提取所述待评估词语的评估特征包括:获取所述待评估词语包括的单词的词性;统计不同词性的数目、各不同词性出现的次数,作为所述待评估词语的词性特征;

和/或,

用于表示所述待评估词语在语义层面的区分性的评估特征包括待评估词语的顺滑度特征,则所述提取所述待评估词语的评估特征包括:利用所述待评估词语包括的单词,计算所述待评估词语的正向语义顺滑度和逆向语义顺滑度;利用所述正向语义顺滑度和所述逆向语义顺滑度进行数学运算,得到所述待评估词语的顺滑度特征。

可选地,确定所述待评估词语不适合作为唤醒词时,所述方法还包括:

提取所述待评估词语的问题特征;

根据所述问题特征,确定所述待评估词语存在的问题类型,所述问题类型用于表示所述待评估词语不适合作为唤醒词的原因。

可选地,所述问题特征包括语言模型的得分,则所述确定所述待评估词语存在的问题类型包括:将所述待评估词语作为输入,经预先构建的语言模型处理后,输出所述待评估词语的得分,所述得分用于表示所述待评估词语出现的频率;当所述待评估词语的得分超过预设分值时,判定所述待评估词语存在的问题类型为高频词汇;

和/或,

所述问题特征包括待评估词语的时长,则所述确定所述待评估词语存在的问题类型包括:获取所述待评估词语包括的语音单元的时长;将各语音单元的时长之和,作为所述待评估词语的时长;当所述待评估词语的时长小于预设时长时,判定所述待评估词语存在的问题类型为时长过短;

和/或,

所述问题特征包括待评估词语的轻音特征,则所述确定所述待评估词语存在的问题类型包括:统计所述待评估词语包括的轻音音素的数目;当所述轻音音素的数目超过预设数目时,判定所述待评估词语存在的问题类型为轻音过多。

可选地,确定所述待评估词语不适合作为唤醒词时,所述方法还包括:

根据预先构建的语义相似词知识图谱,获得所述待评估词语对应的可替换词语;

提取所述可替换词语的评估特征,所述评估特征用于表示所述可替换词语在声学层面和/或语义层面的区分性;

将所述可替换词语的评估特征作为输入,经所述唤醒词评估模型处理后,确定所述可替换词语是否适合作为唤醒词;

如果所述可替换词语适合作为唤醒词,则向用户推荐所述可替换词语。

本公开提供一种唤醒词评估装置,所述装置包括:

待评估词语获取模块,用于获取用户输入的待评估词语;

评估特征提取模块,用于提取所述待评估词语的评估特征,所述评估特征用于表示所述待评估词语在声学层面和/或语义层面的区分性;

唤醒词确定模块,用于将所述待评估词语的评估特征作为输入,经预先构建的唤醒词评估模型处理后,确定所述待评估词语是否适合作为唤醒词。

可选地,用于表示所述待评估词语在声学层面的区分性的评估特征包括语音单元的分布特征,则所述评估特征提取模块,用于分析所述待评估词语包括的语音单元,统计语音单元的总数目、不同语音单元的数目、各不同语音单元出现的次数、指定语音单元的数目、各指定语音单元出现的次数中的至少一项,作为所述语音单元的分布特征;

和/或,

用于表示所述待评估词语在声学层面的区分性的评估特征包括待评估词语的识别概率,则所述评估特征提取模块,用于获取所述待评估词语包括的语音单元的识别概率;将各语音单元的识别概率的均值,作为所述待评估词语的识别概率,所述识别概率包括准确率和/或虚警率;

和/或,

用于表示所述待评估词语在声学层面的区分性的评估特征包括待评估词语的时长,则所述评估特征提取模块,用于获取所述待评估词语包括的语音单元的时长;将各语音单元的时长之和,作为所述待评估词语的时长;

和/或,

用于表示所述待评估词语在声学层面的区分性的评估特征包括待评估词语的音调特征,则所述评估特征提取模块,用于获取所述待评估词语包括的单字的音调,计算相邻单字之间的音调方差;利用所述相邻单字之间的音调方差进行数学运算,得到所述待评估词语的音调特征;

和/或,

用于表示所述待评估词语在语义层面的区分性的评估特征包括语言模型的得分,则所述评估特征提取模块,用于将所述待评估词语作为输入,经预先构建的语言模型处理后,输出所述待评估词语的得分,所述得分用于表示所述待评估词语出现的频率;

和/或,

用于表示所述待评估词语在语义层面的区分性的评估特征包括待评估词语的词性特征,则所述评估特征提取模块,用于获取所述待评估词语包括的单词的词性;统计不同词性的数目、各不同词性出现的次数,作为所述待评估词语的词性特征;

和/或,

用于表示所述待评估词语在语义层面的区分性的评估特征包括待评估词语的顺滑度特征,则所述评估特征提取模块,用于利用所述待评估词语包括的单词,计算所述待评估词语的正向语义顺滑度和逆向语义顺滑度;利用所述正向语义顺滑度和所述逆向语义顺滑度进行数学运算,得到所述待评估词语的顺滑度特征。

可选地,所述装置还包括:

问题特征提取模块,用于在确定所述待评估词语不适合作为唤醒词时,提取所述待评估词语的问题特征;

问题类型确定模块,用于根据所述问题特征,确定所述待评估词语存在的问题类型,所述问题类型用于表示所述待评估词语不适合作为唤醒词的原因。

可选地,所述问题特征包括语言模型的得分,则所述问题类型确定模块,用于将所述待评估词语作为输入,经预先构建的语言模型处理后,输出所述待评估词语的得分,所述得分用于表示所述待评估词语出现的频率;当所述待评估词语的得分超过预设分值时,判定所述待评估词语存在的问题类型为高频词汇;

和/或,

所述问题特征包括待评估词语的时长,则所述问题类型确定模块,用于获取所述待评估词语包括的语音单元的时长;将各语音单元的时长之和,作为所述待评估词语的时长;当所述待评估词语的时长小于预设时长时,判定所述待评估词语存在的问题类型为时长过短;

和/或,

所述问题特征包括待评估词语的轻音特征,则所述问题类型确定模块,用于统计所述待评估词语包括的轻音音素的数目;当所述轻音音素的数目超过预设数目时,判定所述待评估词语存在的问题类型为轻音过多。

可选地,所述装置还包括:

可替换词语获得模块,用于在确定所述待评估词语不适合作为唤醒词时,根据预先构建的语义相似词知识图谱,获得所述待评估词语对应的可替换词语;

所述评估特征提取模块,用于提取所述可替换词语的评估特征,所述评估特征用于表示所述可替换词语在声学层面和/或语义层面的区分性;

所述唤醒词确定模块,用于将所述可替换词语的评估特征作为输入,经所述唤醒词评估模型处理后,确定所述可替换词语是否适合作为唤醒词;

可替换词语推荐模块,用于在所述可替换词语适合作为唤醒词时,向用户推荐所述可替换词语。

本公开提供一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述唤醒词评估方法的步骤。

本公开提供一种电子设备,所述电子设备包括;

上述的存储介质;以及

处理器,用于执行所述存储介质中的指令。

本公开方案中,可以基于待评估词语的评估特征进行唤醒词评估,具体地,评估特征可以客观地反映待评估词语在声学层面和/或语义层面的区分性,相对于现有技术通过主观设置的规则进行唤醒词评估,本公开方案有助于提高评估结果的准确性,进而提高用户设置的唤醒词的唤醒效果。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1为本公开方案唤醒词评估方法的流程示意图;

图2为本公开方案唤醒词评估装置的构成示意图;

图3为本公开方案用于唤醒词评估的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

参见图1,示出了本公开唤醒词评估方法的流程示意图。可以包括以下步骤:

s101,获取用户输入的待评估词语。

本公开方案中,用户可以根据自身需求,设置一个拟作为唤醒词使用的待评估词语。本公开方案对待评估词语的构成可不做具体限定,可以使用同一语种,也可以混合多个语种,例如,待评估词语为“你好讯飞”、“helloiflytek”、“hello讯飞”等,具体可由用户根据需求设置。

作为一种示例,用户可以通过语音方式输入待评估词语,对应于此,可以通过麦克风获取用户输入的待评估词语;或者,用户可以通过文本方式输入待评估词语,对应于此,可以通过键盘等输入输出设备获取用户输入的待评估词语。本公开方案对获取待评估词语的具体方式可不做限定。

在实际应用过程中,本公开方案的评估过程,可以由具有语音唤醒功能的智能设备实现,进而根据评估结果将待评估词语确定为该智能设备对应的唤醒词;或者,本公开方案的评估过程,可以由其他专用设备实现,进而根据评估结果将待评估词语配置给对应的智能设备,用于唤醒该对应的智能设备。本公开方案对评估过程的执行主体可不做具体限定。

s102,提取所述待评估词语的评估特征,所述评估特征用于表示所述待评估词语在声学层面和/或语义层面的区分性。

获取到用户输入的待评估词语后,可以提取表示待评估词语在声学层面和/或语义层面的区分性的评估特征,供唤醒词评估模型处理使用。

作为一种示例,用于表示待评估词语在声学层面的区分性的评估特征,可以包括以下特征中的至少一个:语音单元的分布特征、待评估词语的识别概率、待评估词语的时长、待评估词语的音调特征。

作为一种示例,用于表示待评估词语在语义层面的区分性的评估特征,可以包括以下特征中的至少一个:语言模型的得分、待评估词语的词性特征、待评估词语的顺滑度特征。

关于各特征表示的含义以及具体提取过程,可参见下文所做介绍,此处暂不详述。

s103,将所述待评估词语的评估特征作为输入,经预先构建的唤醒词评估模型处理后,确定所述待评估词语是否适合作为唤醒词。

从待评估词语中提取出评估特征后,可以利用预先构建的唤醒词评估模型进行模型处理,确定待评估词语是否适合作为唤醒词。

作为一种示例,唤醒词评估模型的输出可以包含2个输出节点,分别代表待评估词语适合作为唤醒词、待评估词语不适合作为唤醒词;或者,唤醒词评估模型的输出可以包含1个输出节点,用于表示待评估词语的评估分值,如果评估分值小于预设值,则判定待评估词语不适合作为唤醒词;否则判定待评估词语适合作为唤醒词。本公开方案对唤醒词评估模型的输出形式可不做具体限定。

综上,本公开方案获取到待评估词语后,可以依据待评估词语在声学层面和/或语义层面的区分性,进行唤醒词评估。通常,待评估词语的区分性越好,其作为唤醒词使用时的唤醒效果越好。相对于现有技术通过主观设置的规则进行唤醒词评估,本公开方案更具客观性,有助于提高评估结果的准确性,进而提高用户设置的唤醒词的唤醒效果。

作为一种示例,经唤醒词评估模型处理后,若确定用户当前输入的待评估词语不适合作为唤醒词,本公开方案还提供如下优选方案,用以提高用户设置唤醒词的成功率。

优选方案一,可以提取待评估词语的问题特征;根据问题特征,确定待评估词语存在的问题类型,即分析待评估词语不适合作为唤醒词的原因。

作为一种示例,待评估词语的问题特征可以体现为语言模型的得分。对应于此,可以将待评估词语作为输入,经预先构建的语言模型处理后,输出待评估词语的得分,该得分可以表示待评估词语出现的频率,通常,得分越高说明出现的频率越高;然后,可以比较待评估词语的得分、预设分值二者之间的大小,当待评估词语的得分超过预设分值时,说明待评估词语出现的频率较高,很可能在日常对话中出现该词语,导致智能设备被误唤醒的可能性增大,故可判定待评估词语存在的问题类型为高频词汇,即待评估词语不适合作为唤醒词的原因是该待评估词语属于高频词汇。

举例来说,语言模型可以通过以下方式计算待评估词语的得分:

可以对待评估词语进行分词处理,得到单词序列{w1,w2,…,wk,…,wf},其中,wk表示待评估词语的第k个单词;然后计算f个单词按照单词序列的顺序依序出现的概率p(w1,w2,…,wf),作为待评估词语出现的频率,即待评估词语的得分。

本公开方案中,优选利用待评估词语从w1到wf方向的概率p(w1,w2,…,wf)表示待评估词语的得分,具体可体现为以下公式:

其中,p(wk|wk-1)可以通过通用语料库统计获得。

作为一种示例,待评估词语的问题特征可以体现为待评估词语的时长。对应于此,可以获取待评估词语包括的语音单元的时长;将各语音单元的时长之和,作为待评估词语的时长;然后,可以比较待评估词语的时长、预设时长二者之间的大小,当待评估词语的时长小于预设时长时,说明待评估词语非常短,在实际应用过程中可能很难被智能设备捕捉到,提取其中有用信息用于进行智能设备唤醒,故可判定待评估词语存在的问题类型为时长过短,即待评估词语不适合作为唤醒词的原因是该待评估词语的持续时长过短。

举例来说,可以通过以下方式计算待评估词语的时长:

首先,可以统计得到每个语音单元的时长,具体地,针对每个语音单元,可以预先采集多个说话人对应该语音单元的发音时长,然后将多个说话人的发音时长均值,确定为该发音单元的时长;然后,可以分析待评估词语包括的语音单元,进而将这些语音单元的时长之和,确定为待评估词语的时长。举例来说,语音单元可以体现为音素、音节等,本公开方案对此可不做具体限定。

作为一种示例,待评估词语的问题特征可以体现为待评估词语的轻音特征。对应于此,可以统计待评估词语包括的轻音音素的数目;比较轻音音素的数目、预设数目二者之间的大小,当轻音音素的数目超过预设数目时,说明待评估词语中包括较多区分性差的轻音音素,可能会影响智能唤醒的唤醒成功率,故可判定待评估词语存在的问题类型为轻音过多,即待评估词语不适合作为唤醒词的原因是该待评估词语包含的轻音过多。举例来说,待评估词语为“菩提菩提”,其中,“菩”字包含轻音p,“提”包含轻音t。

可以理解地,本公开方案中的预设数目,可以是预先设置的一个固定数值;或者,也可以是根据待评估词语包括的音素总数、预先设置的固定比值,计算出的可变数值,本公开方案对此可不做具体限定。

在实际应用过程中,待评估词语可能因为单一的原因,不适合作为唤醒词;或者也可能是因为多重原因,导致其不适合作为唤醒词。本公开方案对此可不做具体限定。

优选方案二,可以结合用户输入的待评估词语,在尽量保证语义相同或相似的前提下,为用户进行唤醒词推荐。

具体地,可以根据预先构建的语义相似词知识图谱,获得待评估词语对应的可替换词语;然后参照图1所示方案判断可替换词语是否适合作为唤醒词,可以体现为:提取可替换词语的评估特征,评估特征用于表示可替换词语在声学层面和/或语义层面的区分性;将可替换词语的评估特征作为输入,经唤醒词评估模型处理后,确定可替换词语是否适合作为唤醒词;如果可替换词语适合作为唤醒词,则可向用户推荐该可替换词语。

作为一种示例,还可以结合待评估词语的问题类型,为待评估词语确定可替换词语。举例来说,待评估词语“机器人”的问题类型为高频词汇,可以推荐修改为“小曼机器人”作为可替换词语,以降低语言模型的得分;待评估词语“开机”的问题类型为持续时长过短,可以推荐修改为“请开机”作为可替换词语,以增加发音时长;待评估词语“菩提菩提”的问题类型为轻音过多,可以推荐修改为“你好菩提”作为可替换词语,以减少轻音数量。

综上,用户便可知晓待评估词语不适合作为唤醒词的原因,进而有针对性的进行修改;此外,为了提高用户修改的成功率,还可以对用户进行唤醒词推荐,供用户选择确认。如此,在提高用户设置唤醒词成功率的同时,还有助于提高用户体验。

下面对本公开方案中的评估特征进行解释说明。

1.表示待评估词语在声学层面的区分性的评估特征

(1)语音单元的分布特征

作为一种示例,可以分析待评估词语包括的语音单元,统计出语音单元的分布特征。举例来说,语音单元的分布特征可以体现为以下项目中的至少一项:语音单元的总数目、不同语音单元的数目、各不同语音单元出现的次数、指定语音单元的数目、各指定语音单元出现的次数。其中,语音单元可以体现为音素、音节等,本公开方案对此可不做具体限定。

通常,如果待评估词语包含的语音单元过少,例如只包含一两个语音单元,日常对话中可能存在很多与待评估词语相似的发音,导致待评估词语的发音区分性较低,增大了智能设备被误触发的可能性。此外,如果待评估词语包含的语音单元较多,但所有语音单元均相同,例如待评估词语为“嗯嗯嗯”,这种发音单一的待评估词语的发音区分性同样也很低,容易产生误触发。针对于此,本公开方案可以提取语音单元的总数目、不同语音单元的数目、各不同语音单元出现的次数,作为待评估词语的评估特征。

以语音单元为音节为例,待评估词语“叮咚叮咚”可以划分为“ding”、“dong”、“ding”、“dong”4个语音单元。该示例中,语音单元的总数目为4;不同语音单元的数目为2,分别为“ding”、“dong”;语音单元“ding”出现的次数为2、语音单元“dong”出现的次数为2。

以语音单元为音素为例,基于bagofwords思路,考虑到中文或英文共享80个音素,可以将语音单元的分布特征设置为一个80维向量,每一维表示一个音素,每一维的数值表示该音素在待评估词语中出现的次数。

另外,需要说明的是,为了提高待评估词语的声学区分性,本公开方案还可以预先确定一些指定语音单元,待评估词语包含的指定单元数目越多,其声学区分性越好,越适合作为唤醒词。针对于此,本公开方案还可以提取指定语音单元的数目、各指定语音单元出现的次数,作为待评估词语的评估特征。

举例来说,可以将开口度大、响度大、发音较清晰、容易被捕捉的语音单元,确定为指定语音单元,例如,中文的组合韵母ua、iao、ian、iong等,英文的元音ai、ao等,具体可结合实际应用需求设置,本公开方案对此可不做限定。

(2)待评估词语的识别概率

本公开方案中,待评估词语的识别概率可以具体体现为:待评估词语的准确率和/或待评估词语的虚警率。通常,待评估词语的准确率越高、虚警率越低,其声学区分性越好,越适合作为唤醒词。

作为一种示例,可以通过离线测试的方式,得到待评估词语的识别概率。以待评估词语的准确率为例,可以在不同环境下,采集待评估词语的n条正例样本,统计其中被正确识别的样本数量m,利用m/n计算出每个环境下的准确率;然后再将各环境下的准确率的均值,确定为待评估词语的准确率。以待评估词语的虚警率为例,可以在不同环境下,监测预定时间段内,待评估词语作为唤醒词被误唤醒的次数,例如,某个环境下的虚警率为24小时内被误唤醒2次;然后将不同环境下的虚警率的均值,确定为待评估词语的虚警率。

作为一种示例,可以基于待评估词语包括的语音单元,得到待评估词语的识别概率。具体地,可以获取待评估词语包括的语音单元的识别概率;将各语音单元的识别概率的均值,作为待评估词语的识别概率。其中,语音单元的识别率、虚警率可以参照上文介绍,以离线方式统计得到,此处不再详述。

(3)待评估词语的时长

通常,待评估词语的时长越长,其声学区分性越好,越适合作为唤醒词。获取待评估词语的时长的过程,可参见上文问题类型分析处所做介绍,此处不再详述。

(4)待评估词语的音调特征

作为一种示例,可以获取待评估词语包括的单字的音调,计算相邻单字之间的音调方差,例如,若相邻两个单字的音调一致,则音调方差为0;否则音调方差为1;然后,利用相邻单字之间的音调方差进行数学运算,计算待评估词语的音调特征,例如,可以将各音调方差之和、或者各音调方差的均值,确定为待评估词语的音调特征,本公开方案对具体的数学运算方式可不做限定。

举例来说,可以利用预先构建的音调分类器,得到待评估词语的音调序列{b1,b2,…,bj,…,bn},其中,bj表示待评估词语的第j个单字对应的音调类别。以中文为例,单字的音调类别可以体现为常见的4种声调,可以用标识符“1”、“2”、“3”、“4”表示不同的声调;或者还可以结合其他语种确定单字的音调类别,本公开方案对此可不做具体限定。

通常,抑扬顿挫的待评估词语的发音更具区分性,即待评估词语的音调特征值越大,其声学区分性越好,越适合作为唤醒词。

2.表示待评估词语在语义层面的区分性的评估特征

(1)语言模型的得分

通常,语言模型的得分越高,被误触发的概率就越高,越不适合作为唤醒词。获取待评估词语的得分的过程,可参见上文问题类型分析处所做介绍,此处不再详述。

(2)待评估词语的词性特征

作为一种示例,可以获取待评估词语包括的单词的词性;统计不同词性的数目、各不同词性出现的次数,作为待评估词语的词性特征。通常,待评估词语包含的词性特征越丰富,其语义区分性越好,越适合作为唤醒词。

举例来说,可以对待评估词语进行分词处理,得到词性序列{q1,q2,…,qk,…,qf},其中,qk表示待评估词语的第k个单词的词性。作为一种示例,针对如下11种词性:名词、动词、形容词、数量词、代词、副词、介词、连词、助动词、叹词、拟声词,可以将待评估词语的词性特征设置为一个11维向量,每一维表示一个词性,每一维的数值表示该词性在待评估词语中出现的次数。

(3)待评估词语的顺滑度特征

作为一种示例,可以利用待评估词语包括的单词,计算待评估词语的正向语义顺滑度和逆向语义顺滑度;利用正向语义顺滑度和逆向语义顺滑度进行数学运算,得到待评估词语的顺滑度特征。

语义顺滑度的计算方式,可参见上文问题类型分析处所做介绍,此处不再详述。其中,正向语义顺滑度可以体现为待评估词语从w1到wf方向的概率p(w1,w2,…,wf),逆向语义顺滑度可以体现为待评估词语从wf到w1方向的概率p(wf,wf-1,…,w1)。

举例来说,正向语义顺滑度和逆向语义顺滑度进行数学运算可以体现为,正向语义顺滑度与逆向语义顺滑度之差的绝对值。通常,基于此得到的顺滑度特征值越大,说明正向越合理,待评估词语越容易表述,越适合作为唤醒词。

举例来说,正向语义顺滑度和逆向语义顺滑度进行数学运算可以体现为,正向语义顺滑度与逆向语义顺滑度之商。通常,基于此得到的顺滑度特征值越大,说明正向越合理,待评估词语越容易表述,越适合作为唤醒词。

作为一种示例,可以采集大量的样本唤醒词,基于此训练得到本公开方案中的唤醒词评估模型。其中,样本唤醒词可以体现为正例样本唤醒词、反例样本唤醒词;此外,还可以将正例样本唤醒词预先标注为适合作为唤醒词,将反例样本唤醒词预先标注为不适合作为唤醒词。

在进行模型训练时,可以确定好唤醒词评估模型的拓扑结构,例如,可以体现为cnn(英文:convolutionalneuralnetwork,中文:卷积神经网络)、rnn(英文:recurrentneuralnetwork,中文:循环神经网络)、dnn(英文:deepneuralnetwork,中文:深度神经网络)等,本公开方案对此可不做具体限定。这样,从样本唤醒词中提取到评估特征后,可以结合所选拓扑结构、样本唤醒词的评估特征,进行唤醒词评估模型训练,直至唤醒词评估模型输出的评估结果与样本唤醒词标注的评估结果相符为止。

参见图2,示出了本公开唤醒词评估装置的构成示意图。所述装置可以包括:

待评估词语获取模块201,用于获取用户输入的待评估词语;

评估特征提取模块202,用于提取所述待评估词语的评估特征,所述评估特征用于表示所述待评估词语在声学层面和/或语义层面的区分性;

唤醒词确定模块203,用于将所述待评估词语的评估特征作为输入,经预先构建的唤醒词评估模型处理后,确定所述待评估词语是否适合作为唤醒词。

可选地,用于表示所述待评估词语在声学层面的区分性的评估特征包括语音单元的分布特征,则所述评估特征提取模块,用于分析所述待评估词语包括的语音单元,统计语音单元的总数目、不同语音单元的数目、各不同语音单元出现的次数、指定语音单元的数目、各指定语音单元出现的次数中的至少一项,作为所述语音单元的分布特征;

和/或,

用于表示所述待评估词语在声学层面的区分性的评估特征包括待评估词语的识别概率,则所述评估特征提取模块,用于获取所述待评估词语包括的语音单元的识别概率;将各语音单元的识别概率的均值,作为所述待评估词语的识别概率,所述识别概率包括准确率和/或虚警率;

和/或,

用于表示所述待评估词语在声学层面的区分性的评估特征包括待评估词语的时长,则所述评估特征提取模块,用于获取所述待评估词语包括的语音单元的时长;将各语音单元的时长之和,作为所述待评估词语的时长;

和/或,

用于表示所述待评估词语在声学层面的区分性的评估特征包括待评估词语的音调特征,则所述评估特征提取模块,用于获取所述待评估词语包括的单字的音调,计算相邻单字之间的音调方差;利用所述相邻单字之间的音调方差进行数学运算,得到所述待评估词语的音调特征;

和/或,

用于表示所述待评估词语在语义层面的区分性的评估特征包括语言模型的得分,则所述评估特征提取模块,用于将所述待评估词语作为输入,经预先构建的语言模型处理后,输出所述待评估词语的得分,所述得分用于表示所述待评估词语出现的频率;

和/或,

用于表示所述待评估词语在语义层面的区分性的评估特征包括待评估词语的词性特征,则所述评估特征提取模块,用于获取所述待评估词语包括的单词的词性;统计不同词性的数目、各不同词性出现的次数,作为所述待评估词语的词性特征;

和/或,

用于表示所述待评估词语在语义层面的区分性的评估特征包括待评估词语的顺滑度特征,则所述评估特征提取模块,用于利用所述待评估词语包括的单词,计算所述待评估词语的正向语义顺滑度和逆向语义顺滑度;利用所述正向语义顺滑度和所述逆向语义顺滑度进行数学运算,得到所述待评估词语的顺滑度特征。

可选地,所述装置还包括:

问题特征提取模块,用于在确定所述待评估词语不适合作为唤醒词时,提取所述待评估词语的问题特征;

问题类型确定模块,用于根据所述问题特征,确定所述待评估词语存在的问题类型,所述问题类型用于表示所述待评估词语不适合作为唤醒词的原因。

可选地,所述问题特征包括语言模型的得分,则所述问题类型确定模块,用于将所述待评估词语作为输入,经预先构建的语言模型处理后,输出所述待评估词语的得分,所述得分用于表示所述待评估词语出现的频率;当所述待评估词语的得分超过预设分值时,判定所述待评估词语存在的问题类型为高频词汇;

和/或,

所述问题特征包括待评估词语的时长,则所述问题类型确定模块,用于获取所述待评估词语包括的语音单元的时长;将各语音单元的时长之和,作为所述待评估词语的时长;当所述待评估词语的时长小于预设时长时,判定所述待评估词语存在的问题类型为时长过短;

和/或,

所述问题特征包括待评估词语的轻音特征,则所述问题类型确定模块,用于统计所述待评估词语包括的轻音音素的数目;当所述轻音音素的数目超过预设数目时,判定所述待评估词语存在的问题类型为轻音过多。

可选地,所述装置还包括:

可替换词语获得模块,用于在确定所述待评估词语不适合作为唤醒词时,根据预先构建的语义相似词知识图谱,获得所述待评估词语对应的可替换词语;

所述评估特征提取模块,用于提取所述可替换词语的评估特征,所述评估特征用于表示所述可替换词语在声学层面和/或语义层面的区分性;

所述唤醒词确定模块,用于将所述可替换词语的评估特征作为输入,经所述唤醒词评估模型处理后,确定所述可替换词语是否适合作为唤醒词;

可替换词语推荐模块,用于在所述可替换词语适合作为唤醒词时,向用户推荐所述可替换词语。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

参见图3,示出了本公开用于唤醒词评估的电子设备300的结构示意图。参照图3,电子设备300包括处理组件301,其进一步包括一个或多个处理器,以及由存储介质302所代表的存储设备资源,用于存储可由处理组件301的执行的指令,例如应用程序。存储介质302中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件301被配置为执行指令,以执行上述唤醒词评估方法。

电子设备300还可以包括一个电源组件303,被配置为执行电子设备300的电源管理;一个有线或无线网络接口304,被配置为将电子设备300连接到网络;和一个输入输出(i/o)接口305。电子设备300可以操作基于存储在存储介质302的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1