识别情绪的方法、训练情绪识别模型的方法、装置及设备与流程

文档序号：28689379发布日期：2022-01-29 11:13阅读：135来源：国知局

1.本公开涉及人工智能技术领域，尤其涉及深度学习技术。更具体地，本公开提供了一种识别情绪的方法、训练情绪识别模型的方法、装置、电子设备和存储介质。

背景技术：

2.语音是人类交流中情感的重要载体。人们在不同情绪状态下的语言表达方式有所不同。例如，内容相同的语句附带不同的情绪，可以表达出完全不同的含义。

技术实现要素：

3.本公开提供了一种识别情绪的方法、训练情绪识别模型的方法、装置、设备以及存储介质。
4.根据第一方面，提供了一种识别情绪的方法，该方法包括：获取目标数据的第一内容特征和第一音频特征；将上述第一内容特征输入第一特征提取模型，得到第二内容特征；将上述第一音频特征输入第一特征提取模型，得到第二音频特征；以及根据上述第二内容特征和上述第二音频特征，识别与目标数据对应的目标对象的情绪。
5.根据第二方面，提供了一种训练情绪识别模型的方法，上述情绪识别模型包括第一特征提取模型，该方法包括：获取样本数据的第一内容特征和第一音频特征；将上述第一内容特征输入第一特征提取模型，得到第二内容特征；将上述第一音频特征输入第一特征提取模型，得到第二音频特征；根据上述第二内容特征和上述第二音频特征，识别与上述样本数据对应的样本对象的情绪；根据上述样本对象的情绪和上述样本数据的标签，得到损失值；以及根据上述损失值，训练上述情绪识别模型。
6.根据第三方面，提供了一种识别情绪的装置，该装置包括：第一获取模块，用于获取目标数据的第一内容特征和第一音频特征；第一获得模块，用于将上述第一内容特征输入第一特征提取模型，得到第二内容特征；第二获得模块，用于将上述第一音频特征输入第一特征提取模型，得到第二音频特征；以及第一识别模块，用于根据上述第二内容特征和上述第二音频特征，识别与目标数据对应的目标对象的情绪。
7.根据第四方面，提供了一种训练情绪识别模型的装置，上述情绪识别模型包括第一特征提取模型，该装置包括：第二获取模块，用于获取样本数据的第一内容特征和第一音频特征；第三获得模块，用于将上述第一内容特征输入第一特征提取模型，得到第二内容特征；第四获得模块，用于将上述第一音频特征输入第一特征提取模型，得到第二音频特征；第二识别模块，用于根据上述第二内容特征和上述第二音频特征，识别与上述样本数据对应的样本对象的情绪；第五获得模块，用于根据上述样本对象的情绪和上述样本数据的标签，得到损失值；以及训练模块，用于根据上述损失值，训练上述情绪识别模型。
8.根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。
9.根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。
10.根据第七方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现根据本公开提供的方法。
11.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案，不构成对本公开的限定。其中：
13.图1是根据本公开一个实施例的识别情绪的方法的流程图；
14.图2a是根据本公开一个实施例的链式图结构的示意图；
15.图2b是根据本公开一个实施例的线式图结构的示意图；
16.图3是根据本公开一个实施例的识别情绪的方法的原理图；
17.图4是根据本公开一个实施例的训练情绪识别模型的方法的流程图；
18.图5是根据本公开一个实施例的训练情绪识别模型的方法的原理图；
19.图6是根据本公开一个实施例的识别情绪的装置的框图；
20.图7是根据本公开一个实施例的训练情绪识别模型的装置的框图；以及
21.图8是根据本公开的一个实施例的可以应用识别情绪的方法和/或训练情绪识别模型的方法的电子设备的框图。
具体实施方式
22.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
23.不同情绪状态下的语言表达方式有所不同。例如，在情绪为高兴时，语调会比较欢快。又例如，在情绪为烦躁或伤心时，语调会比较沉闷。
24.深度学习技术加速了从语音中识别情绪的发展。但是这方面的研究仍存在不足。比如，不同对象对于同一段语音，表达出的情感不尽相同，然而相关技术不易识别出不同的情感。
25.目前为了提高情绪识别模型的效果，可以优化前端特征提取，比如，可以提取语音的mfcc(mel frequency cepstrum coefficient，梅尔频率倒谱系数)，以提高识别情绪的准确性。又例如，也可以提高特征的维度，比如将特征维度由40维提高至80维，以提高识别情绪的准确性。但优化前端特征提取这一技术手段，不能明显提高情绪识别的准确性。
26.图1是根据本公开一个实施例的识别情绪的方法的流程图。
27.如图1所示，该方法100可以包括操作s110至操作s140。
28.在操作s110，获取目标数据的第一内容特征和第一音频特征。
29.在本公开实施例中，目标数据可以是语音数据。
30.例如，目标数据可以是来源于目标对象的一段语音。
31.在本公开实施例中，目标数据可以是视频数据中的语音数据。
32.例如，可以采集目标对象的视频数据。目标数据可以是从该视频数据中提取的语音数据。在一个示例中，可以采集针对目标对象的视频数据，将视频数据中的音频流作为目标数据。
33.在本公开实施例中，可以将目标数据输入第二特征提取模型，得到目标数据的文本信息和时间信息。
34.例如，第二特征提取模型可以包括强制对齐子模型。在一些示例中，强制对齐子模型可以是gmm-hmm(gaussian mixture model-hidden markov model，高斯混合-隐马尔科夫模型)，也可以是lstm-ctc(long-short term memory-connectionist temporal classifier，长短时记忆-连接时序分类器)模型，也可以是chain模型.
35.例如，第二特征提取模型可以是经过预训练的模型。在一些示例中，可以采用开源数据aishell或librispeech等作为训练样本，对第二特征提取模型进行预训练。
36.例如，文本信息可以包括目标数据中的音素、字、词等信息。
37.例如，时间信息可以包括音素、字、词出现的时间戳。在一个示例中，时间信息包括一个音素出现的起始时间和该音素的持续时间。
38.在本公开实施例中，可以根据文本信息，得到第一内容特征。
39.例如，第二特征提取模型还包括内容特征生成子模型。可以将文本信息输入内容特征生成子模型，以得到第一内容特征。在一个示例中，可以将目标数据的音素、字、词中的一个或几个输入内容特征生成子模型，以得到第一内容特征。内容特征生成子模型可以是卷积神经网络模型。
40.在本公开实施例中，可以根据文本信息和时间信息，得到第一音频特征。
41.例如，强制对齐子模型可以根据文本信息和时间信息，输出第一音频特征。
42.在操作s120，将第一内容特征输入第一特征提取模型，得到第二内容特征。
43.在本公开实施例中，第一特征提取模型可以包括图卷积子模型。
44.例如，图卷积子模型可以是gcn(graph convolutional network，图卷积神经网络)模型。gcn模型采用的图结构可以是无向图结构(undirected graph structures)。
45.例如，图卷积子模型采用的图结构为链式图结构，与链式图结构对应的第一邻接矩阵为：
[0046][0047]
例如，ac为第一邻接矩阵，a为大于0的实数。
[0048]
例如，第一邻接矩阵为n*n的矩阵，n为大于2的正整数，第一邻接矩阵的第i+1个行向量是根据第i个行向量向右循环一位得到的，i为大于1且小于等于n-2的整数。
[0049]
例如，第一邻接矩阵的每个行向量包括两个非零数据(比如a)。在一个示例中，a＝1。
[0050]
例如，图卷积子模型采用的图结构为线式图结构，与线式图结构对应的第二邻接矩阵为：
[0051][0052]
例如，a
l
为第二邻接矩阵，b为大于0的实数。
[0053]
例如，第二邻接矩阵为m*m的矩阵，m为大于2的正整数，第二邻接矩阵的第j+1个行向量是根据第j个行向量向右循环一位得到的，j为大于1且小于等于m-2的整数。
[0054]
例如，第二邻接矩阵的第一个行向量包括一个非零数据(比如b)，第二邻接矩阵的最后一个行向量包括一个非零数据(比如b)。第二邻接矩阵的第二个行向量至第m-1个行向量包括两个非零数据。在一个示例中，b＝1。
[0055]
图卷积子模型的图结构包括多个节点。相邻节点之间的关系重要性要远大于不相邻节点之间的关系。采用链式图结构或线式图结构的图卷积子模型，可以学习到相邻节点之间的关系。可以降低图卷积子模型的运算量，同时可以保证情绪识别的准确性。
[0056]
在本公开实施例中，图卷积子模型可以包括第一图卷积网络，第一图卷积网络可以包括h个第一图卷积层。
[0057]
在本公开实施例中，可以将第一内容特征输入第1个第一图卷积层，得到第1个第一中间特征。
[0058]
例如，可以利用以下公式得到第1个第一中间特征：
[0059][0060]
为第1个第一中间特征，u是归一化图拉普拉斯矩阵的特征向量矩阵。u
t
是u的转置，为第一内容特征，为第1个第一图卷积层的参数。
[0061]
图拉普拉斯矩阵可以通过以下公式得到：
[0062][0063]
其中，a为邻接矩阵，例如前文记载的ac或a
l
。d为度数矩阵。
[0064]
可以通过以下公式对图拉普拉斯矩阵进行特征值分解：
[0065][0066]
λg为第g个特征值，相应的特征向量为ug，u＝[u1，u2，......ug]，λ＝diag(λg)。
[0067]
在一些示例中，公式三中的a为ac，图拉普拉斯矩阵为循环矩阵，相应的图傅里叶变换为离散傅里叶变换。相应的，为n*n的矩阵。
[0068]
在一些示例中，公式三中a为a
l
，相应的图傅里叶变换为离散余弦变换。相应的，为m*m的矩阵
[0069]
在本公开实施例中，可以将第h个第一中间特征输入第h+1个第一图卷积层，得到第h+1个第一中间特征。
[0070]
例如，h＝1，
……
h-1。
[0071]
例如，可以通过以下公式得到第h+1个第一中间特征：
[0072]
[0073]
为第h+1个第一中间特征，为第h个第一中间特征，为第h+1个第一图卷积层的参数。
[0074]
在本公开实施例中，可以根据h个第一中间特征，得到第二内容特征。
[0075]
例如，可以将h个第一中间特征输入第一池化层，通过以下公式进行池化，以得到第二内容特征：
[0076][0077]
c为第二内容特征，为第h个第一中间特征。
[0078]
在一个示例中，第一图卷积网络采用的图结构中包含16个节点。
[0079]
在操作s130，将第一音频特征输入第一特征提取模型，得到第二音频特征。
[0080]
在本公开实施例中，第一特征提取模型可以包括图卷积子模型。
[0081]
关于第一特征提取模型的详细描述可以参考例如操作s120中记载的关于第一特征提取模型的记载，本公开在此不再赘述。
[0082]
在本公开实施例中，图卷积子模型包括第二图卷积网络，第一图卷积网络包括k个第二图卷积层。
[0083]
在本公开实施例中，可以将第一音频特征输入第1个第二图卷积层，得到第1个第二中间特征。
[0084]
例如，可以利用以下公式得到第1个第二中间特征：
[0085][0086]
为第1个第二中间特征，u是归一化图拉普拉斯矩阵的特征向量矩阵。u
t
是u的转置，为第一音频特征，为第1个第二图卷积层的参数。
[0087]
图拉普拉斯矩阵归一化图拉普拉斯矩阵的特征向量矩阵可以参照例如前文记载的公式三和公式四得到，本公开在此不再赘述。
[0088]
在本公开实施例中，可以将第k个第二中间特征输入第k+1个第二图卷积层，得到第k+1个第二中间特征。
[0089]
例如，k＝1，
……
k-1。
[0090]
例如，可以通过以下公式得到第k+1个第一中间特征：
[0091][0092]
为第k+1个第二中间特征，为第k个第二中间特征，为第k+1个第二图卷积层的参数。
[0093]
在本公开实施例中，可以根据k个第二中间特征，得到第二音频特征。
[0094]
例如，可以将k个第二中间特征输入第二池化层，通过以下公式进行池化，以得到第二音频特征：
[0095][0096]
audio为第二音频特征，为第k个第二中间特征。
[0097]
在一个示例中，第二图卷积网络采用的图结构包含120个节点。
[0098]
在一些示例中，h可以等于k。即第一图卷积网络和第二图卷积网络可以具有相同
数量的图卷积层。
[0099]
需要说明的是，图卷积子模型采用的图结构可以是第一图卷积网络和/或第二图卷积网络采用的图结构。
[0100]
需要说明的是，如果第一图卷积网络采用链式图结构，那么h个第一图卷积层中一个或多个第一图卷积层采用的图结构可以为链式图结构。
[0101]
需要说明的是，如果第二图卷积网络采用链式图结构，那么k个第二图卷积层中一个或多个第二图卷积层采用的图结构可以为链式图结构。
[0102]
需要说明的是，第一图卷积网络和第二图卷积网络除了采用的图结构的节点不同，其它的参数可以相同。
[0103]
需要说明的是，第一图卷积网络和第二图卷积网络可以均采用链式图结构。或者，第一图卷积网络和第二图卷积网络可以均采用线式图结构。或者，第一图卷积网络可以采用链式图结构，第二图卷积网络采用线式图结构。或者，第一图卷积网络可以采用线式图结构，第二图卷积网络可以采用链式图结构。
[0104]
在操作s140，根据第二内容特征和第二音频特征，识别与目标数据对应的目标对象的情绪。
[0105]
在本公开实施例中，可以对第二内容特征和第二音频特征执行融合操作，得到融合特征。
[0106]
例如，可以将第二内容特征和第二音频特征拼接，得到融合特征。
[0107]
在本公开实施例中，可以根据融合特征，识别目标对象的情绪。
[0108]
例如，可以将融合特征输入全连接层，以识别目标对象的情绪。情绪可以是高兴或悲伤等。
[0109]
通过本公开实施例，同时考虑音频之间的前后顺序关系，以及音频帧的音频与内容之间的关联，来确定与音频帧对应的情绪，提高了情绪识别的准确率。采用链式图结构或线式图结构，可以减少运算量，同时进一步提高情绪识别的准确度。
[0110]
图2a是根据本公开一个实施例的链式图结构的示意图。
[0111]
如图2a所示，链式图结构201中包含n个节点，其中第n个基点vn与第1个节点连接。在一个示例中，n＝120。在一个示例中，n＝16。
[0112]
图2b是根据本公开一个实施例的线式图结构的示意图。
[0113]
如图2b所示，线式图结构202中包含m个节点，其中第m个基点v’m
与第1个节点未连接。在一个示例中，m＝120。在一个示例中，m＝16。
[0114]
图3是根据本公开一个实施例的识别情绪的方法的原理图。
[0115]
如图3所示，第二特征提取模型302的输入是目标数据301，输出第一内容特征和第一音频特征。
[0116]
第一特征提取模型包括图卷积子模型，图卷积子模型可以包括第一图卷积网络303和第二图卷积网络305。第一特征提取模型还可以包括第一池化层304和第二池化层306。
[0117]
第一图卷积网络303的输入是第一内容特征，输出第二内容特征。第一图卷积网络303包括h个第一图卷积层。第1个第一图卷积层3031的输入是第一内容特征，输出第1个第一中间特征。第1个第一中间特征作为第2个第一图卷积层的输入。第h个第一图卷积层3032
的输入是第h-1个第一中间特征，输出第h个第一中间特征。第h个第一图卷积层3033的输入是第h-1个第一中间特征，输出第h个第一中间特征。第一池化层304的输入是h个第一中间特征，输出第二内容特征。在一个示例中，第一图卷积网络303采用的图结构中包含16个节点。
[0118]
第二图卷积网络305的输入是第一音频特征，输出第二音频特征。第二图卷积网络305包括k个第一图卷积层。第1个第二图卷积层3051的输入是第一音频特征，输出第1个第二中间特征。第1个第二中间特征作为第2个第二图卷积层的输入。第k个第二图卷积层3052的输入是第k-1个第二中间特征，输出第k个第二中间特征。第k个第二图卷积层3053的输入是第k-1个第二中间特征，输出第k个第二中间特征。第二池化层306的输入是k个第二中间特征，输出第二音频特征。在一个示例中，第二图卷积网络305采用的图结构中包含120个节点。
[0119]
融合模型307的输入是第二内容特征和第二音频特征，输出融合特征。融合模型307可以将第二内容特征和第二音频特征拼接。
[0120]
分类模型308可以包括一个或几个全连接层，分类模型308的输入是融合特征，输出与目标数据301对应的目标对象的情绪。
[0121]
图4是根据本公开一个实施例的训练情绪识别模型的方法的流程图。
[0122]
如图4所示，该方法400可以包括操作s410至操作s460。
[0123]
在操作s410，获取样本数据的第一内容特征和第一音频特征。
[0124]
在本公开实施例中，情绪识别模型可以包括第二特征提取模型。
[0125]
在本公开实施例中，可以将样本数据输入第二特征提取模型，得到样本数据的文本信息和时间信息。
[0126]
在本公开实施例中，可以根据文本信息，得到第一内容特征。
[0127]
在本公开实施例中，可以根据文本信息和时间信息，得到第一音频特征。
[0128]
操作s410的实施例可以参照前文记载的操作s110的实施例，本公开在此不再赘述。
[0129]
在操作s420，将第一内容特征输入第一特征提取模型，得到第二内容特征。
[0130]
在本公开实施例中，第一特征提取模型可以包括图卷积子模型，图卷积子模型采用的图结构可以为链式图结构。
[0131]
例如，与链式图结构对应的第一邻接矩阵为：
[0132][0133]
例如，ac为第一邻接矩阵，a为大于0的实数。
[0134]
例如，第一邻接矩阵为n*n的矩阵，n为大于2的正整数；第一邻接矩阵的第i+1个行向量是根据第i个行向量向右循环一位得到的，i为大于1且小于等于n-2的整数。
[0135]
在本公开实施例中，第一特征提取模型包括图卷积子模型，图卷积子模型采用的图结构为线式图结构。
[0136]
例如，与线式图结构对应的第二邻接矩阵为：
[0137][0138]
例如，a
l
为第二邻接矩阵，b为大于0的实数。
[0139]
例如，第二邻接矩阵为m*m的矩阵，m为大于2的正整数，第二邻接矩阵的第j+1个行向量是根据第j个行向量向右循环一位得到的，j为大于1且小于等于m-2的整数。
[0140]
在本公开实施例中，图卷积子模型可以包括第一图卷积网络，第一图卷积网络可以包括h个第一图卷积层。
[0141]
在本公开实施例中，可以将第一内容特征输入第1个第一图卷积层，得到第1个第一中间特征。
[0142]
在本公开实施例中，可以将第h个第一中间特征输入第h+1个第一图卷积层，得到第h+1个第一中间特征，h＝2，
……
h-1。
[0143]
在本公开实施例中，可以根据h个第一中间特征，得到第二内容特征。
[0144]
操作s420的实施例可以参照前文记载的操作s120的实施例，本公开在此不再赘述。
[0145]
在操作s430，将第一音频特征输入第一特征提取模型，得到第二音频特征。
[0146]
在本公开实施例中，图卷积子模型可以包括第二图卷积网络，第二图卷积网络可以包括k个第二图卷积层。
[0147]
在本公开实施例中，可以将第一音频特征输入第1个第二图卷积层，得到第1个第二中间特征。
[0148]
在本公开实施例中，可以将第k个第二中间特征输入第k+1个第二图卷积层，得到第k+1个第二中间特征，k＝2，
……
k-1。
[0149]
在本公开实施例中，可以根据k个第二中间特征，得到第二音频特征。
[0150]
操作s430的实施例可以参照前文记载的操作s130的实施例，本公开在此不再赘述。
[0151]
在操作s440，根据第二内容特征和第二音频特征，识别与样本数据对应的样本对象的情绪。
[0152]
在本公开实施例中，情绪识别模型可以包括融合模型和分类模型。
[0153]
在本公开实施例中，可以将第二内容特征和第二音频特征输入融合模型，得到融合特征。
[0154]
在本公开实施例中，可以将融合特征输入分类模型，识别样本对象的情绪。
[0155]
操作s440的实施例可以参照前文记载的操作s140的实施例，本公开在此不再赘述。
[0156]
在操作s450，根据样本对象的情绪和样本数据的标签，得到损失值。
[0157]
例如，可以根据样本对象的情绪和样本数据的标签，利用交叉熵损失函数得到损失值。
[0158]
在操作s460，根据损失值，训练情绪识别模型。
[0159]
在本公开实施例中，可以根据损失值，调整第一特征提取模型的参数，以训练情绪
识别模型。
[0160]
例如，可以根据损失值，调整例如公式二中的也可以调整例如公式五中的也可以调整例如公式七中的也可以调整例如公式八中的
[0161]
例如，可以根据损失值，调整图卷积子模型采用的图结构的节点数量。可以得到一个准确识别目标对象情绪的模型。
[0162]
图5是根据本公开一个实施例的训练情绪识别模型的方法的原理图。
[0163]
如图5所示，情绪识别模型例如可以包括第一特征提取模型、第二特征提取模型302、融合模型307和分类模型308。第一特征提取模型可以包括图卷积子模型，图卷积子模型可以包括第一图卷积网络303和第二图卷积网络305。第一特征提取模型还可以包括第一池化层304和第二池化层306。
[0164]
对样本数据501的处理方式可以参照例如图3记载的对目标数据301的处理方式，本公开在此不再赘述。
[0165]
情绪识别模型对样本数据501进行处理，输出与样本数据对应的样本对象的情绪。根据该样本对象的情绪和样本数据的标签，可以得到损失值。根据损失值可以调整第一图卷积网络303的参数和第二图卷积网络305的参数，以训练情绪识别模型。
[0166]
图6是根据本公开一个实施例的识别情绪的装置的框图。
[0167]
如图6所示，该装置600可以包括第一获取模块610、第一获得模块620、第二获得模块630和第一识别模块640。
[0168]
第一获取模块610，用于获取目标数据的第一内容特征和第一音频特征。
[0169]
第一获得模块620，用于将上述第一内容特征输入第一特征提取模型，得到第二内容特征。
[0170]
第二获得模块630，用于将上述第一音频特征输入第一特征提取模型，得到第二音频特征。
[0171]
第一识别模块640，用于根据上述第二内容特征和上述第二音频特征，识别与目标数据对应的目标对象的情绪。
[0172]
在一些实施例中，上述第一特征提取模型包括图卷积子模型，上述图卷积子模型采用的图结构为链式图结构，与上述链式图结构对应的第一邻接矩阵为：
[0173][0174]
其中，ac为上述第一邻接矩阵，a为大于0的实数；其中，上述第一邻接矩阵为n*n的矩阵，n为大于2的正整数，上述第一邻接矩阵的第i+1个行向量是根据第i个行向量向右循环一位得到的，i为大于1且小于等于n-2的整数。
[0175]
在一些实施例中，上述第一特征提取模型包括图卷积子模型，上述图卷积子模型采用的图结构为线式图结构，与上述线式图结构对应的第二邻接矩阵为：
[0176][0177]
其中，a
l
为上述第二邻接矩阵，b为大于0的实数；其中，上述第二邻接矩阵为m*m的矩阵，m为大于2的正整数，上述第二邻接矩阵的第j+1个行向量是根据第j个行向量向右循环一位得到的，j为大于1且小于等于m-2的整数。
[0178]
在一些实施例中，上述第一获取模块包括：第一获得单元，用于将上述目标数据输入第二特征提取模型，得到上述目标数据的文本信息和时间信息；第二获得单元，用于根据上述文本信息，得到上述第一内容特征；第三获得单元，用于根据上述文本信息和上述时间信息，得到上述第一音频特征。
[0179]
在一些实施例中，上述图卷积子模型包括第一图卷积网络，上述第一图卷积网络包括h个第一图卷积层，上述第一获得模块包括：第四获得单元，用于将上述第一内容特征输入第1个第一图卷积层，得到第1个第一中间特征；第五获得单元，用于将第h个第一中间特征输入第h+1个第一图卷积层，得到第h+1个第一中间特征，h＝1，
……
h-1；第六获得单元，用于根据h个第一中间特征，得到上述第二内容特征。
[0180]
在一些实施例中，上述图卷积子模型包括第二图卷积网络，上述第二图卷积网络包括k个第二图卷积层，上述第二获得模块包括：第七获得单元，用于将上述第一音频特征输入第1个第二图卷积层，得到第1个第二中间特征；第八获得单元，用于将第k个第二中间特征输入第k+1个第二图卷积层，得到第k+1个第二中间特征，k＝1，
……
k-1；第九获得单元，用于根据k个第二中间特征，得到上述第二音频特征。
[0181]
在一些实施例中，上述第一识别模块包括：第一融合单元，用于对第二内容特征和第二音频特征执行融合操作，得到融合特征；第一识别单元，用于根据上述融合特征，识别上述目标对象的情绪。
[0182]
图7是根据本公开一个实施例的训练情绪识别模型的装置的框图。
[0183]
如图7所示，该装置700包括第二获取模块710、第三获得模块720、第四获得模块730、第二识别模块740、第五获得模块750和训练模块760。上述情绪识别模型包括第一特征提取模型。
[0184]
第二获取模块710，用于获取样本数据的第一内容特征和第一音频特征。
[0185]
第三获得模块720，用于将上述第一内容特征输入第一特征提取模型，得到第二内容特征。
[0186]
第四获得模块730，用于将上述第一音频特征输入第一特征提取模型，得到第二音频特征。
[0187]
第二识别模块740，用于根据上述第二内容特征和上述第二音频特征，识别与上述样本数据对应的样本对象的情绪。
[0188]
第五获得模块750，用于根据上述样本对象的情绪和上述样本数据的标签，得到损失值。
[0189]
训练模块760，用于根据上述损失值，训练上述情绪识别模型。
[0190]
在一些实施例中，上述第一特征提取模型包括图卷积子模型，上述图卷积子模型
采用的图结构为链式图结构，与上述链式图结构对应的第一邻接矩阵为：
[0191][0192]
其中，ac为上述第一邻接矩阵，a为大于0的实数；其中，上述第一邻接矩阵为n*n的矩阵，n为大于2的正整数；上述第一邻接矩阵的第i+1个行向量是根据第i个行向量向右循环一位得到的，i为大于1且小于等于n-2的整数。
[0193]
在一些实施例中，上述第一特征提取模型包括图卷积子模型，上述图卷积子模型采用的图结构为线式图结构，与上述线式图结构对应的第二邻接矩阵为：
[0194][0195]
其中，a
l
为上述第二邻接矩阵，b为大于0的实数；其中，上述第二邻接矩阵为m*m的矩阵，m为大于2的正整数，上述第二邻接矩阵的第j+1个行向量是根据第j个行向量向右循环一位得到的，j为大于1且小于等于m-2的整数。
[0196]
在一些实施例中，上述情绪识别模型包括第二特征提取模型，上述第二获取模块包括：第十获得单元，用于将上述样本数据输入第二特征提取模型，得到上述样本数据的文本信息和时间信息；第十一获得单元，用于根据上述文本信息，得到上述第一内容特征；第十二获得单元，用于根据上述文本信息和上述时间信息，得到上述第一音频特征。
[0197]
在一些实施例中，上述图卷积子模型包括第一图卷积网络，上述第一图卷积网络包括h个第一图卷积层，上述第三获得模块包括：第十三获得单元，用于将上述第一内容特征输入第1个第一图卷积层，得到第1个第一中间特征；第十四获得单元，用于将第h个第一中间特征输入第h+1个第一图卷积层，得到第h+1个第一中间特征，h＝1，
……
h-1；第十五获得单元，用于根据h个第一中间特征，得到上述第二内容特征。
[0198]
在一些实施例中，上述图卷积子模型包括第二图卷积网络，上述第二图卷积网络包括k个第二图卷积层，上述第四获得模块包括：第十六获得单元，用于将上述第一音频特征输入第1个第二图卷积层，得到第1个第二中间特征；第十七获得单元，用于将第k个第二中间特征输入第k+1个第二图卷积层，得到第k+1个第二中间特征，k＝1，
……
k-1；第十八获得单元，用于根据k个第二中间特征，得到上述第二音频特征。
[0199]
在一些实施例中，上述情绪识别模型包括融合模型和分类模型，上述第二识别模块包括：第二融合单元，用于将第二内容特征和第二音频特征输入上述融合模型，得到融合特征；第二识别单元，用于将上述融合特征输入上述分类模型，识别上述样本对象的情绪。
[0200]
在一些实施例中，上述训练模块还用于根据上述损失值，调整上述第一特征提取模型的参数，以训练上述情绪识别模型。
[0201]
本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
[0202]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0203]
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0204]
如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0205]
设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0206]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如识别情绪的方法和/或训练情绪识别模型的方法。例如，在一些实施例中，识别情绪的方法和/或训练情绪识别模型的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的识别情绪的方法和/或训练情绪识别模型的方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行识别情绪的方法和/或训练情绪识别模型的方法。
[0207]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0208]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0209]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0210]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0211]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0212]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0213]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0214]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵情恩
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人