融合韵律特征的消歧方法、系统、制冷设备及存储介质与流程

文档序号：33712168发布日期：2023-04-01 00:21阅读：45来源：国知局

1.本发明涉及冰箱语音助手技术领域，具体而言，涉及一种融合韵律特征的消歧方法、系统、制冷设备及存储介质。

背景技术：

2.在语音助手领域，意图识别和槽位信息识别是两大核心任务，而在冰箱语音助手的用户问句中存在着大量的歧义句会导致意图识别或槽位识别存在争议。比如，示例1：“放了几个苹果”存在意图识别歧义，可以理解为陈述句，用户往冰箱放置了苹果若干个，但用户没说明具体数量，用“几个”表示数量很少，也可以理解为疑问句，用户询问目前在冰箱里有多少苹果。又比如，示例2:“添加韭菜鸡蛋饺子”则存在槽位识别的歧义，可以理解为添加了“韭菜、鸡蛋、饺子”三种食物，也可以理解为添加了“韭菜鸡蛋馅儿的饺子”一种食物。
3.对于以上歧义，单从文本入手无法进行区分，必须结合韵律信息才能明确区分，对于示例1来说，用户语音整体句调为降调、重音位置在“苹果”上时可以明确判定为添加食材意图，而当用于语音整体句调为声调、重音位置在“几个”上时可以明确为查询食材数量意图；对于示例2而言，如果“韭菜、鸡蛋、饺子”三个词之间存在明显的语气停顿，可以判定为添加了三种食物，而如果三个词之间不存在明显的语气停顿且与前面“添加”存在明显语气停顿，则可以判断添加了一种食物。
4.目前，自然和语言理解模型大都基于文本进行编码和训练，由于文本中并不带有以上所说韵律信息，当遇到这样的歧义句模型便无法进行有效的消歧判断，从而造成意图或槽位的识别错误，影响用户体验。因此，如何使冰箱更准确的理解用户语言、消除歧义，实现更自然的人机交互成为亟待解决的问题。

技术实现要素：

5.本发明的目的在于提供一种融合韵律特征的消歧方法、系统、制冷设备及存储介质，可用于解决单纯依靠文本特征进行意图、槽位识别的局限问题。
6.为了实现上述发明目的，本发明提供一种融合韵律特征的消歧方法，所述方法包括步骤：获取语音对话文本，并提取其文本特征；若所述语音对话文本存在歧义，则根据所述语音对话文本获取对应的语音信息；根据所述语音信息，获得其语音对话文本的韵律特征；将所述文本特征和韵律特征进行融合，获得语音对话文本融合特征；基于预先设定好的规则对所述语音对话文本融合特征进行消歧处理，以识别所述语音对话文本对应的真实意图和槽位信息。
7.作为本发明的进一步改进，所述方法还包括：所述文本特征包括分词、词性标注和命名实体识别；所述韵律特征包括语音信息中的声调、语调、重音、停顿和节奏。
8.作为本发明的进一步改进，所述步骤“若所述语音对话文本存在歧义，则根据所述语音对话文本获取对应的语言信息”，具体包括：判断歧义句库中是否存在所述语音对话文本；若是，则向会话管理模块发送信息以获取所述语音对话文本对应的语音信息。
9.作为本发明的进一步改进，所述步骤“根据所述语音信息，获得其语音对话文本的韵律特征”具体包括：提取所述语音信息中的音频特征；将所述音频特征输入到预先训练好的深度学习韵律识别模型中，产生带有韵律信息的语音文本；根据该语音文本中的韵律信息提取特征，获得该语音文本的韵律特征。
10.作为本发明的进一步改进，所述步骤“将所述文本特征和韵律特征进行融合，获得语音文本融合特征”具体包括：对所述文本特征和韵律特征进行线性变化和归一化处理，产生文本特征矩阵和韵律特征矩阵；将所述文本特征矩阵和韵律特征矩阵进行融合拼接，获得所述语音文本融合特征对应的融合矩阵。
11.作为本发明的进一步改进，所述方法还包括：所述规则文件包括模块声明规则和普通规则；所述模块声明规则，用来定义规则模块的种类和模块之间的执行顺序；所述普通规则，包括条件语句和结果语句，用来定义对满足条件语句的语料执行结果语句的操作。
12.作为本发明的进一步改进，所述方法还包括：所述意图识别和槽位识别是相互独立的。
13.本发明还提供一种融合韵律特征的消歧系统，所述系统包括：输入模块、歧义判别模块、韵律特征提取模块、特征融合模块、规则判别模块和输出模块。
14.本发明还提供一种制冷设备，所述制冷设备包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的融合韵律特征的消歧方法中的步骤。
15.本发明还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一项所述的融合韵律特征的消歧方法中的步骤。
16.与现有技术相比，本发明具有以下有益效果：本发明通过引入语音的韵律特征来帮助消除语音对话文本的歧义，避免出现单纯依靠文本特征进行意图、槽位识别的局限问题，提升了对歧义句的消歧能力，提高了冰箱与用户的智能交互的对话效率，改善了用户的体验效果。同时，本发明通过将常规的文本特征和韵律特征进行融合，而特征融合的方式是通过引入了语言学规则和深度学习来实现歧义句的最终消歧判别工作，语言学的规则是用户根据用户需求自定义的，从而保证了消歧在可控的范围内进行，提高了消歧判别的准确率。
附图说明
17.图1是本发明实施例中融合韵律特征的消歧方法流程示意图。
18.图2是本发明实施例中融合韵律特征的消歧方法流程图。
19.图3是本发明实施例中构建深度学习韵律信息模型的流程示意图
20.图4是本发明实施例中构建文本特征和韵律特征融合的网络模型流程示意图。
21.图5是本发明实施例中构建特征融合网络模型流程示意图。
22.图6是本发明实施例中融合韵律特征的消歧系统的结构示意图。
具体实施方式
23.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术具体实施方式及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施方式仅是本申
请一部分实施方式，而不是全部的实施方式。基于本技术中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本技术保护的范围。
24.下面详细描述本发明的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
25.本技术公开了一个实施方式的一种融合韵律特征的消歧方法，虽然本技术提供了如下述实施方式或流程图1所述的方法操作步骤，但是基于常规或者无需创造性的劳动，所述方法在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本技术实施方式中所提供的执行顺序。
26.如图1所示，本发明实施例提供了一种融合韵律特征的消歧方法，所述方法包括以下若干步骤，下面对所述方法及每个步骤分别进行说明：
27.s1，获取语音对话文本，并提取其文本特征。
28.在本发明的一个实施例中，个人手机、电脑以及各类智能家具，比如智能冰箱、智能音箱等，常常会搭载语音助手这类应用。这类应用可以实现人与机器的语音交互，本发明优选智能冰箱，当用户向冰箱发出交互信息时，该交互信息包括想让语音助手做一件事情，比如打开音乐；或者执行一个命令，比如添加日程；或者是回答一个问题，比如中国的首都叫什么，语音助手接收到语音信息后，首先是对其进行自动语音识别(automatic speech recognition，asr)，即将声音转换成文本，然后再通过自然语言处理(natural language processing，nlp)对转换成的文本进行理解和处理，最后语音助手通过文字转语音(text to speech，tts)根据对文本的理解结果来做出对应的语音回答，完成与用户的对话交互功能。
29.在获取和理解语音对话文本时，采用的是自然语言处理(natural language processing，nlp)方法,该方法可以通过多种技术提取常规的文本特征，所述文本特征包括文本预处理、词法分析、句法分析、语义理解、分词、词性标注、文本相似度和命名实体识别等，通常根据这些常规文本特征可以识别出用户的意图，但是如果文本存在歧义，单纯的依靠常规文本特征可能会出现意图误识别的情况。
30.s2，若所述语音对话文本存在歧义，对获取该语音对话文本对应的语音信息。
31.在语音识别和自然语言处理产生对应的语音对话文本过程中，可能存在一个文本有多种理解的情况，容易让人产生歧义和误解，比如“放了几个苹果”，光从字面意义上是分别不出来这句话是陈述句还是疑问句，所以容易让智能冰箱产生混乱，它无法识别用户的真实意图或者槽位信息，所以给出的回答也就不一定满足用户的真实需求，降低了交互效率和用户体验感。
32.在本发明的一个实施例中，根据所述语音对话文本去歧义句库中查找，判断所述歧义句库中是否有该语音对话文本，如果存在，表示该对话文本存在歧义，则需要借助该对话文本对应的语音信息进行进一步的判断。其中，所述歧义句库是用来记录和存储各种各样的歧义句信息，它是进行歧义判别的基础依据，该库中的信息内容是可以在消歧的过程中逐步完善的。
33.s3，根据所述语音信息，获得该语音对话文本的韵律特征。
34.所述韵律特征又被称为“超音段特征”或“超音质特征”，是语言的一种音系结构，
与句法和语篇结构、信息结构等其他语言学结构密切相关，具体是指语音中除了音质特征以外的音高、音长、音强及音色等方面的变化。口语交互时，对语义和意图的理解需要韵律特征进行辅助，可以说，韵律特征是会话交互过程中表达真实意图的一种重要形式。
35.通常来讲，韵律特征主要包括三个方面，语调、重音和时域分布，其中，时域分布是指说话时的停顿和延续。在存有歧义的语音对话文本中，很难表达重音和语调信息，所以在本发明的一个实施例中，如果语音对话文本存在歧义时，向会话管理模块发送信息以获取所述语音对话文本对应的语音信息，提取所述语音信息中的音频特征，然后将所述音频特征输入到预先训练好的深度学习模型中产生带有韵律信息的语音文本，带有韵律信息的语音文本是通过使用特定格式的文本标注，比如“放了几个[stress]苹果”，对“几个”进行了重音标注，根据该语音文本中的韵律信息提取对应的韵律特征，比如“stress”，韵律特征的提取为了后续消除语音对话文本歧义做准备。
[0036]
s4，将所述文本特征和韵律特征进行特征融合，产生语音对话文本融合特征。
[0037]
对所述文本特征和韵律特征进行线性变化和归一化处理，产生文本特征矩阵和韵律特征矩阵，将所述文本特征矩阵和韵律特征矩阵进行拼接融合，获得所述语音文本融合特征对应的融合矩阵，该融合特征比融合前的文本特征和韵律特征更具有判断识别意图和槽位的能力。
[0038]
s5，基于预先定义好的规则对所述语音文本融合特征进行消歧处理，以识别所述语音文本对应的真实意图和槽位信息。
[0039]
在本发明的一个实施例中，基于所述融合矩阵，通过预设的一些规则判定，来消除语音对话文本中有歧义的地方。所述预设规则包括模块声明规则和普通规则，所述模块声明规则，用来定义规则模块的种类和模块之间的执行顺序，例如，包括文本韵律标注模块和意图模块，先执行文本韵律标注模块，后执行意图模块，智能冰箱通过标注模块被标注为设备，而结合整个句式分析可得到该语料的意图模块是查询蔬菜，是首先通过标注模块对语料中的信息特征进行提取并标注，然后再得出其意图并执行意图模块。所述普通规则，包括条件语句和结果语句，用来定义对满足条件语句的语料执行结果语句的操作。
[0040]
如图2所示的是融合韵律特征的消歧方法流程图。在本发明实施例中，智能冰箱针对用户发出的语音信息进行文本转换，产生对应的文本数据，先经过歧义判别模块判断所述文本数据是否存在歧义，若不属于歧义句，则交由自然语言理解(natural language understanding,nlu)模块进行处理，输出意图和槽位识别结果，若属于歧义句则进入本发明所述的消歧流程。
[0041]
另一方面，如图2所示，进入消歧流程后，先通过韵律特征提取模块提取选定的韵律信息，得到韵律特征。所述韵律信息的选取是由具体的场景数据特性来决定，并不是所有的韵律信息都需要提取，比如有的韵律信息对歧义的判别没有价值，那这样没价值的韵律信息我们就不识别提取，节省时间，提高韵律特征的识别提取效率，将提取好的韵律特征结果传递给后续的特征融合模块。特征融合模块获取韵律特征信息，将韵律特征信息加注到文本信息的特征矩阵中，比如分词结果、词性标注，融合成新的特征矩阵，并传递给后续规则判别模块。规则判别模块拿到融合后的特征矩阵后，根据预先设定好的规则对有歧义的语句进行消解，输出正确的意图和槽位识别结果。
[0042]
于一具体实施例，获取到了语音对话文本是“放了几个苹果”，对该文本进行自然
语言处理(nlp)，进行包括分词和词性标注在内的文本处理，同时根据对应的语音信息获取该语音对话文本中韵律信息的标注，产生以下具体标注信息：
[0043]
{“seg”:[“放”,“了”,“几个”,“苹果”,“@@@@”],
[0044]“pos”:[“v”,“ul”,“mq”,“n”,
“”
],
[0045]“prosodic”:[
“”
,
“”
,“stress”,“n”,“rise”]}
[0046]
根据所述标注信息进行文本特征和韵律特征的提取、线性变化和归一化处理，产生对应的文本特征矩阵和韵律特征矩阵，并将其进行特征融合，产生融合特征矩阵，具体结果如图5所示，其中融合特征矩阵中的分词结果是根据“seg”标注获得，词性标注是根据“pos”标注获得，韵律特征是根据“prosodic”标注获得，根据该融合特征矩阵可知所述对话文本中的“几个”加上了重音，所以这句话理解的意义应该是疑问句而不是陈述句，真实的意图是向智能冰箱发出疑问，问放了多少数量的苹果到冰箱中了。具体地，通过词类及其顺序这类句法特征判断对话文本的句式，再判断重音位置来区分是哪种意图以消除歧义。所以该韵律特征的加入消除了对话文本中存在的歧义问题，当然，对于其他韵律特征也是包含在本发明的保护范围，提取的韵律特征是要具体问题具体分析的。
[0047]
如图3所示是本发明实施例中构建深度学习韵律识别模型的流程示意图，具体包括以下步骤：
[0048]
s31，收集若干对话语音信息作为训练数据集。
[0049]
s32，提取所述训练数据集中的韵律特征。
[0050]
s33，根据韵律特征输出韵律标注。
[0051]
s34，根据韵律标注和韵律标签进行深度学习韵律识别模型训练，不断调整模型参数，产生深度学习韵律识别模型。
[0052]
在本发明实施例中，基于深度学习算法构建待训练韵律识别模型，收集若干个对话语音信息作为训练样本集，对所述对话语音信息进行预处理，包括消除首尾端的静音噪声，降低对后续步骤的干扰，并将语音信息进行分段处理，产生多帧数据；然后利用线性预测倒谱系数和梅尔倒谱系数，将多帧数据进行特征提取，提取对应的韵律信息，获得多维韵律特征，再将这些多维韵律特征输入到声学模型中，输出对应的韵律有关的音素信息，再借助于字典，将字或者词与音素的映射关系，得到相关语音对话文本信息，对话文本信息是包含韵律标注。根据韵律标注和韵律标签进行深度学习韵律识别模型训练，不断调整模型参数，产生深度学习韵律识别模型。
[0053]
该模型提取出待识别语音对话文本中与韵律信息高度相关的部分，即韵律特征，根据韵律特征自动对该文本数据进行韵律信息的分类和标注。
[0054]
如图4是本发明实施例中构建特征融合网络流程示意图，具体包括以下步骤：
[0055]
s41，将待处理的语音对话文本输入到已经训练好的意图识别模型和深度学习韵律识别模型中，分别得到文本特征矩阵和韵律特征矩阵。
[0056]
s42，将所述文本特征矩阵和韵律特征矩阵输入到待训练的特征融合网络中，产生融合特征矩阵。
[0057]
s43，根据预设规则和融合特征矩阵消除歧义，提取意图特征和槽位特征。
[0058]
s44，根据意图特征和槽位特征调整融合网络的参数，得到特征融合网络模型。
[0059]
特征融合网络模型能够自动根据输入的文本特征和韵律特征，输出正确的意图和
槽位识别结果，该网络模型将韵律特征整合到文本特征中，消除了语音对话文本产生的歧义问题，使得融合后的特征识别意图和槽位的能力更强，鲁棒性更高，意图的识别和槽位信息的识别是相互独立的过程。
[0060]
本发明一实施例提供了一种融合韵律特征的消歧系统，如图6所示，包括：
[0061]
输入模块100，将用户向智能冰箱发出的语音进行语音识别和自然语言处理，获得对应的语音对话文本。
[0062]
歧义判别模块200，用于将获取得到的语音对话文本和歧义句库中记录的歧义句进行比对，判断该对话文本是否属于歧义句。
[0063]
韵律特征提取模块300，用于根据对应的语音信息，对存在歧义的语音对话文本进行韵律特征标注和提取，产生韵律特征。
[0064]
特征融合模块400，用于将韵律特征和文本特征融合到同一个特征矩阵中，以便后续规则处理。
[0065]
规则判别模块500，用于在前面的融合特征矩阵基础上通过预设的规则定义，消除歧义，获取准确、唯一的意图和槽位信息。
[0066]
输出模块600，用于根据识别出的意图信息和槽位信息，将其转成相应的语音信息响应给用户。
[0067]
本发明实施例还提供一种制冷设备，所述制冷设备包括存储器和处理器，所述存储器中存储指令，所述处理器调用所述存储器中所述指令，以使得所述制冷设备执行时实现如上任意一项所述的融合韵律特征的消歧方法。
[0068]
本发明实施例还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一项所述的融合韵律特征的消歧方法。
[0069]
综上，本发明提供的了一种融合韵律特征的消歧方法、系统、制冷设备及存储介质，本发明通过引入韵律特征来帮助语音对话文本的消歧工作，避免了单纯依靠文本特征进行意图、槽位识别的局限，提升了对歧义句的消除能力，提升了用户体验。文本特征和韵律特征的融合，综合考虑了上述两个与用户意图和槽位识别具有很强相关性的要素，提高了消歧方法的鲁棒性和准确率。
[0070]
另外，本发明还引入了语言学规则来实现歧义的最终消除判别工作，保证了消歧是在可控的范围内进行，因为这些规则的制订是以文件的形式存放，可以实时根据用户的需求而进行修改完善，提高了消歧的灵活性和效率。
[0071]
应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。
[0072]
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马坚刘卫强曾谁飞李敏孔令磊张景瑞
技术所有人：海尔智家股份有限公司
我是此专利的发明人

上一篇：一种多线束激光雷达的车辆尺寸测量方法与流程
上一篇：颜料生产用充粉辊磨机的制作方法