内容评测方法、装置、存储介质以及电子设备与流程

文档序号：32439518发布日期：2022-12-06 20:53阅读：29来源：国知局

1.本发明涉及计算机领域，具体而言，涉及一种内容评测方法、装置、存储介质以及电子设备。

背景技术：

2.当前社会，视频、音频、图片、虚拟现实(virtual reality，vr)资源、增强现实(augmented reality，ar)资源等娱乐内容的产出量激增，每天都有无数的内容产出，发布到各个平台上。
3.然而，由于内容的产出环境不同，因此，产出的内容难免良莠不齐。如何快速识别内容的质量，成为亟待解决的问题。

技术实现要素：

4.本发明实施例提供了一种内容评测方法、装置、存储介质以及电子设备，以至少解决识别产出的内容的质量效率低的技术问题。
5.根据本发明实施例的一个方面，提供了一种内容评测方法，包括：获取待评测的目标内容；由第一识别模型识别上述目标内容，输出预测眼动数据与预测脑电数据，其中，上述预测眼动数据与预测脑电数据为预测的目标用户观看上述目标内容时的眼动数据与脑电数据；由第二识别模型识别上述预测眼动数据与上述预测脑电数据，输出预测评价，其中，上述预测评价为预测的上述目标用户对上述目标内容的评价。
6.根据本发明实施例的另一方面，提供了一种内容评测装置，包括：获取模块，用于获取待评测的目标内容；第一识别模块，用于由第一识别模型识别上述目标内容，输出预测眼动数据与预测脑电数据，其中，上述预测眼动数据与预测脑电数据为预测的目标用户观看上述目标内容时的眼动数据与脑电数据；第二识别模块，用于由第二识别模型识别上述预测眼动数据与上述预测脑电数据，输出预测评价，其中，上述预测评价为预测的上述目标用户对上述目标内容的评价。
7.作为一种可选的示例，上述装置还包括：生成模块，用于在得到上述预测评价之后，根据上述预测评价，生成对上述目标内容的调整建议；或者评分模块，用于根据上述预测评价，对上述目标内容进行评分；或者筛选模块，用于根据包含上述目标内容在内的多个第一内容中，每一个上述第一内容的预测评价，从多个上述第一内容中，选择出第二内容。
8.作为一种可选的示例，上述第一识别模块包括：获取单元，用于获取上述目标内容的音频数据的音频类型、上述目标内容的文本数据、上述文本数据的情感类型、上述目标内容的场景类型以及上述目标内容中的目标对象；第一识别单元，用于由上述第一识别模型识别上述音频类型、上述文本数据、上述情感类型、上述场景类型以及上述目标对象，输出上述预测眼动数据与上述预测脑电数据。
9.作为一种可选的示例，上述获取单元包括：第一识别子单元，用于识别上述音频数据的每一帧的音量、音调、音色，以及相邻两帧之间的音量、音调、音色的变化幅度；确定子
单元，用于根据上述音量、音调、音色和上述变化幅度，确定上述音频数据的上述音频类型。
10.作为一种可选的示例，上述获取单元包括：第二识别子单元，用于对上述目标内容的每一帧目标视频帧进行识别，识别每一帧上述目标视频帧中的第一对象，在连续多帧上述目标视频帧中均包括上述第一对象的情况下，将上述第一对象确定为上述目标对象；或者在上述目标内容为图像的情况下，将上述图像中包含的第一对象确定为上述目标对象。
11.作为一种可选的示例，上述第一识别模块包括：第一处理单元，用于由上述第一识别模型识别上述音频类型，提取出上述音频类型的音频特征，识别上述文本数据，提取出上述文本数据的文本特征，识别上述情感类型，提取出情感特征，识别上述场景类型，提取出场景特征，识别上述目标对象，提取出对象特征；将上述音频特征、上述文本数据、上述情感特征、上述场景特征，与上述对象特征融合为第一融合特征；由上述第一识别模型对上述第一融合特征进行预测，得到上述预测眼动数据与预测脑电数据。
12.作为一种可选的示例，上述第二识别模块包括：第二处理单元，用于由上述第二识别模型识别上述预测眼动数据，提取出眼动数据特征，识别上述预测脑电数据，提取出脑电数据特征；将上述眼动数据特征与上述脑电数据特征融合为第二融合特征；由上述第二识别模型对上述第二融合特征进行预测，得到上述预测评价。
13.作为一种可选的示例，上述装置还包括：训练模块，用于在由第一识别模型识别上述目标内容之前，获取样本内容、用户观看上述样本内容的样本眼动数据与样本脑电数据以及用户对上述样本内容的样本评价；将上述样本内容、上述样本眼动数据与上述样本脑电数据作为第一样本输入到上述第一识别模型中，对上述第一识别模型进行训练，直到上述第一识别模型的识别准确度大于第一阈值；将上述样本眼动数据与样本脑电数据以及上述样本评价输入到上述第二识别模型中，对上述第二识别模型进行训练，直到上述第二识别模型的识别准确度大于第二阈值。
14.根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被处理器运行时执行上述内容评测方法。
15.根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的内容评测方法。
16.本发明可以应用在使用深度学习技术的自然语言处理技术来识别内容的过程中。在本发明实施例中，采用了获取待评测的目标内容；由第一识别模型识别上述目标内容，输出预测眼动数据与预测脑电数据，其中，上述预测眼动数据与预测脑电数据为预测的目标用户观看上述目标内容时的眼动数据与脑电数据；由第二识别模型识别上述预测眼动数据与上述预测脑电数据，输出预测评价，其中，上述预测评价为预测的上述目标用户对上述目标内容的评价的方法，由于在上述方法中，在获取到待评测的目标内容之后，可以先使用第一识别模型识别目标内容预测该目标内容的预测眼动数据与预测脑电数据，然后使用第二识别模型识别预测眼动数据与预测脑电数据从而预测出目标内容的预测评价，根据预测评价，可以知道目标内容的质量好坏，从而实现了高效识别目标内容的效率的目的，进而解决了识别产出的内容的质量效率低的技术问题。
附图说明
17.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
18.图1是根据本发明实施例的一种可选的内容评测方法的流程图；
19.图2是根据本发明实施例的一种可选的内容评测方法的音频数据图；
20.图3是根据本发明实施例的一种可选的内容评测方法的第一识别模型的结构图；
21.图4是根据本发明实施例的一种可选的内容评测方法的用户眼动数据示意图；
22.图5是根据本发明实施例的一种可选的内容评测方法的用户脑电数据示意图；
23.图6是根据本发明实施例的一种可选的内容评测方法的第二识别模型的结构图；
24.图7是根据本发明实施例的一种可选的内容评测方法的评价信息示意图；
25.图8是根据本发明实施例的一种可选的内容评测装置的结构示意图；
26.图9是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
28.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.根据本发明实施例的第一方面，提供了一种内容评测方法，可选地，如图1所示，上述方法包括：
30.s102，获取待评测的目标内容；
31.s104，由第一识别模型识别目标内容，输出预测眼动数据与预测脑电数据，其中，预测眼动数据与预测脑电数据为预测的目标用户观看目标内容时的眼动数据与脑电数据；
32.s106，由第二识别模型识别预测眼动数据与预测脑电数据，输出预测评价，其中，预测评价为预测的目标用户对目标内容的评价。
33.可选的，上述的目标内容可以为视频、音频、图片、虚拟现实(virtual reality，vr)资源、增强现实(augmented reality，ar)资源中的至少一种。目标内容的表现形式本实施例并不限定。目标内容指待评测质量的内容。通过本方法，对目标内容的质量进行评测。
34.本实施例中上述内容评测方法可以应用在多种场景中。例如，网站对用户产出的内容进行质量评测，将用户的内容按照质量进行分级，例如投放广告时，对现存的内容进行质量评测，从而决定在哪些内容中投放广告，例如对低质量的内容进行过滤等。通过上述方
法识别目标内容的预测评价，从而可以预测出目标的质量，根据质量的高低，进行下一步的筛选、投放或者分级等操作。
35.本实施例中，上述的第一识别模型和第二识别模型可以为预先训练的识别模型。第一识别模型和第二识别模型可以具备相同或者不同的模型结构，两个模型的输入不同，输出也不同。第一个模型的输出作为第二个模型的输入。模型可以为感知器神经网络模型、线性神经网络模型、自组织神经网络模型或者反馈神经网络模型等。
36.本实施例中的眼动数据可以为一个对象的眼部的运动数据，包括了眼部的随着时间的对内容的关注点、关注区域、瞳孔大小、眼部的聚焦度等。通过眼动数据，可以知晓用户对目标内容的关注程度。如用户在3分到3分10秒关注目标内容的左上区域的内容，期间用户瞳孔放大，表示兴奋或者恐惧或者愤怒，3分10秒后，监测不到用户的眼动数据或者聚焦度不够，说明用户在走神或者没有关注目标内容等。脑电数据可以为用户的脑部电波的波动频率和波动幅度，从而表示用户的兴奋程度。
37.本实施例中的预测评价可以为对目标内容的评价(预测的)，评价可以包含多种维度，可以在每一种维度都有对应的评分、或者评价内容、或者标签等。通过预测评价，可以知晓目标内容的质量高低。例如，评价包含100个维度，覆盖目标内容的从前到后所有内容。例如为评分，则通过预测评价，可以知晓目标内容哪一部分比较好，哪一部分比较差，整体质量怎么样等。
38.由于在上述方法中，在获取到待评测的目标内容之后，可以先使用第一识别模型识别目标内容预测该目标内容的预测眼动数据与预测脑电数据，然后使用第二识别模型识别预测眼动数据与预测脑电数据从而预测出目标内容的预测评价，根据预测评价，可以知道目标内容的质量好坏，从而实现了高效识别目标内容的效率的目的。
39.作为一种可选的示例，在得到预测评价之后，上述方法还包括：根据预测评价，生成对目标内容的调整建议；或者根据预测评价，对目标内容进行评分；或者根据包含目标内容在内的多个第一内容中，每一个第一内容的预测评价，从多个第一内容中，选择出第二内容。
40.可选的，本实施例中的预测评价可以包含目标内容的每一个时间段或者每一帧的内容的评价，也可以包含每一帧的画面的不同区域的评价。根据评价的高低，可以给出调整建议，如目标内容的第3分10秒到第3分30秒的内容，用户不感兴趣，则可以给出调整建议，建议调整第3分10秒到第3分30秒的内容。调整建议还可以包括调整方向，例如，目标内容的第3分10秒到第3分30秒的内容的音量小，或者目标内容的第3分10秒到第3分30秒的内容的画质模糊等。根据调整评价，还可以对目标内容评分。评分可以为对目标内容的整体评分以及对目标内容的每一段评分。评分高低表示目标内容的质量高低，分数越高越容易吸引用户。根据调整评价，还可以从多个内容中筛选第二内容。对于多个第一内容，根据每一个第一内容的预测评价可以确定出每一个内容的质量、受欢迎程度。将质量差，受欢迎程度低的第一内容筛选出来，作为劣质内容舍弃，或者，将受欢迎程度高的质量好的第一内容筛选出来，作为优质内容推送。
41.作为一种可选的示例，由第一识别模型识别目标内容，输出预测眼动数据与预测脑电数据包括：获取目标内容的音频数据的音频类型、目标内容的文本数据、文本数据的情感类型、目标内容的场景类型以及目标内容中的目标对象；由第一识别模型识别音频类型、
文本数据、情感类型、场景类型以及目标对象，输出预测眼动数据与预测脑电数据。
42.本实施例中，当获取到目标内容之后，将目标内容输入到第一识别模型中，由第一识别模型识别目标内容，识别目标内容时，识别目标内容的几个方面。包括提取音频数据，提取音频数据后，识别音频数据的音频类型。音频数据可以包括声音、音乐数据。音频类型可以为音频数据的节奏、风格、旋律等。音频数据的不同的音频段可以有不同的音频类型。对于声音数据，可以进行语音转文本操作，得到文本数据，如果目标内容中包含了文本数据，也可以通过识别文本内容得到文本数据。在得到文本数据的情况下，分析文本数据，识别出文本数据的情感类型，例如为兴奋、愤怒、悲伤等。文本数据位于目标内容的不同的时间段，不同的时间段的文本数据的情感类型可以不同。第一识别模型还可以提取目标内容的场景类型与目标对象。场景类型可以为目标内容中的不同的视频段的背景场景。目标对象可以为目标内容中包含的对象。例如，目标内容中包含的人物、动物、植物、物品、目标内容的logo标识等。
43.当目标内容输入到第一识别模型之后，第一识别模型可以提取、识别目标内容的音频类型、文本数据、情感类型、场景类型以及目标对象，根据识别到的上述内容，预测出预测眼动数据与预测脑电数据。
44.作为一种可选的示例，获取音频类型包括：识别音频数据的每一帧的音量、音调、音色，以及相邻两帧之间的音量、音调、音色的变化幅度；根据音量、音调、音色和变化幅度，确定音频数据的音频类型。
45.可选的，本实施例中，获取音频数据的音频类型时，如果目标内容中没有音频数据，则可以将音频类型设置为默认值，例如默认值可以为零，表示目标内容中没有音频数据。如果目标内容为视频、vr资源、ar资源等，则可以获取目标内容中的音频数据，识别音频数据中的每一帧的音量、音调和音色，和相邻两帧之间的音量、音调和音色的变化幅度。根据音量、音调和音色和音量、音调和音色的变化幅度，可以确定音频数据的音频类型。
46.例如，音调高、音色的品质高、变化幅度大的声音的音频类型为高亢激昂的优质音乐，音调低，音色的品质高、变化幅度小的声音的音频类型为低沉婉约的音乐。
47.作为一种可选的示例，获取目标对象包括：对目标内容的每一帧目标视频帧进行识别，识别每一帧目标视频帧中的第一对象，在连续多帧目标视频帧中均包括第一对象的情况下，将第一对象确定为目标对象；或者在目标内容为图像的情况下，将图像中包含的第一对象确定为目标对象。
48.本实施例中，目标内容中可能包含了对象。本实施例中的对象可以为目标内容中的主体，例如，图像中的主要人物、动植物、物体等，视频或vr、ar资源中的主要对象。对于不同的目标内容的类型，可以有不同的识别目标对象方式。
49.例如对于图像，可以识别图像中的前景和背景，将前景中的对象作为目标对象。背景中即使包含对象也不会作为目标对象。对于视频类型的目标内容，可以识别视频中的每一帧视频帧，对于每一帧视频帧中的对象，可以识别对象位于前景还是位于背景中。对于前景中的对象，如果出现在连续多帧视频帧中，则该对象可以视为目标对象。识别目标内容中的目标对象，识别目标对象的类型、出现的时间、在图像中的区域。
50.作为一种可选的示例，由第一识别模型识别音频类型、文本数据、情感类型、场景类型以及目标对象，输出预测眼动数据与预测脑电数据包括：由第一识别模型识别音频类
型，提取出音频类型的音频特征，识别文本数据，提取出文本数据的文本特征，识别情感类型，提取出情感特征，识别场景类型，提取出场景特征，识别目标对象，提取出对象特征；将音频特征、文本数据、情感特征、场景特征，与对象特征融合为第一融合特征；由第一识别模型对第一融合特征进行预测，得到预测眼动数据与预测脑电数据。
51.可选的，本实施例中，在获取到目标内容之后，可以由第一识别模型识别音频类型、文本数据、情感类型、场景类型以及目标对象。本实施例中的第一识别模型可以包含多个识别模块，多个识别模块用于识别音频类型、文本数据、情感类型、场景类型以及目标对象中的不同的部分。例如，多个识别模块在逻辑上呈先后的多层，第一层识别模块识别音频类型，第二层识别模块识别文本数据，第三层识别模块识别情感类型，第四层识别模块识别场景类型，第五层识别模块识别目标对象。分别识别到对应的特征。对于识别到的对应的特征，可以进行特征融合，得到第一融合特征。融合时，可以将各个特征从各自所在的维度向高纬度映射，映射到统一的维度，映射到统一的维度后，将特征进行拼接，得到第一融合特征。最后由第一识别模型识别第一融合特征，给出预测眼动数据与预测脑电数据。
52.作为一种可选的示例，由第二识别模型识别预测眼动数据与预测脑电数据，输出预测评价包括：由第二识别模型识别预测眼动数据，提取出眼动数据特征，识别预测脑电数据，提取出脑电数据特征；将眼动数据特征与脑电数据特征融合为第二融合特征；由第二识别模型对第二融合特征进行预测，得到预测评价。
53.可选的，本实施例中，在获取到预测眼动数据与预测脑电数据之后，可以由第二识别模型识别预测眼动数据与预测脑电数据。本实施例中的第二识别模型可以包含两个识别模块，分别用于识别预测眼动数据与预测脑电数据，得到对应的特征。对于识别到的对应的特征，可以进行特征融合，得到第二融合特征。融合时，可以将各个特征从各自所在的维度向高纬度映射，映射到统一的维度，映射到统一的维度后，将特征进行拼接，得到第二融合特征。最后由第二识别模型识别第二融合特征，给出预测评价。
54.作为一种可选的示例，在由第一识别模型识别目标内容之前，上述方法还包括：获取样本内容、用户观看样本内容的样本眼动数据与样本脑电数据以及用户对样本内容的样本评价；将样本内容、样本眼动数据与样本脑电数据作为第一样本输入到第一识别模型中，对第一识别模型进行训练，直到第一识别模型的识别准确度大于第一阈值；将样本眼动数据与样本脑电数据以及样本评价输入到第二识别模型中，对第二识别模型进行训练，直到第二识别模型的识别准确度大于第二阈值。
55.可选的，本实施例中的第一识别模型和第二识别模型可以经过预先训练，训练后模型的识别准确度大于一定的值之后，再投入使用，保证模型的识别准确度。
56.训练前，先获取样本内容。样本内容的类型和目标内容相同。例如为图像、视频、vr资源、ar资源等。获取到样本内容后，获取播放样本内容时的观看者的眼动数据与脑电数据，作为样本眼动数据和样本脑电数据。且播放样本内容后，观看者可以给样本内容评价，作为样本评价。样本评价和预测评价的格式、类型相同。如包含内容的各个区域、各个内容段的评价、分数等。
57.以下结合一个具体示例，对上述内容评测方法进行说明。本实施例中，可以获取多个样本内容。样本内容可以为图片、视频、vr、ar资源。获取播放样本内容时，用户的样本眼动数据和样本脑电数据，以及用户对样本内容的样本评价。例如以样本内容为视频内容为
例，对于多个视频内容中的每一个视频内容，识别视频内容的每一帧视频帧和视频内容的音频内容，识别出5个方面的内容。音频类型、文本数据、文本数据的情感类型、目标内容的场景类型以及目标内容中的目标对象。
58.对于音频类型，识别目标内容中的音频数据，可以识别音频数据的音色、音调和音量，以及每两帧音频数据之间的音量、音调、音色的变化幅度。例如，如图2所示，图2为音频数据的示意图。不同的音量、音调和音色在图中的位置、与x轴的角度(x轴为时间)，对应y轴中的值(y轴为数值)均会不同。以及，相邻两帧之间的变化幅度也会不同。识别到音量、音调、音色以及对应的音量、音调、音色的变化幅度，可以确定出与之相符的音频类型。
59.对于文本数据，可以有两种情况。1是视频的视频帧中包含了文字内容，通过识别视频帧，则可以得到文本数据。2是视频的音频数据中包含了人类的语音，可以对语音进行转文本，得到文本数据。
60.对于文本数据的情感类型，可以对文本数据进行分词，分为不同的词性的词，然后，删除分词结果中的无意义的词，如“的”“之前”等词汇，对剩余的词汇进行语义识别，识别出情感类型。
61.对于场景类型，可以对视频内容的整体或者每一段视频内容，识别出场景类型。例如对于一段视频，可以识别视频帧的背景和前景，识别背景和前景中所包含的人、物，以及包含的人、物所属于的分类。将视频帧中出现的频率大于一个预定值的人、物所属于的分类作为场景类型。一个视频的每一段可以对应一个场景类型，或者视频的整体可以对应一个场景类型。
62.对于目标对象，可以识别视频的视频帧中，处于前景的对象。处于前景的对象如果出现在了连续多帧的视频帧中，则将该对象作为目标对象，表示该对象是一个重要的对象。
63.对于样本视频，在识别得到上述5个方面的数据后，可以提取数据的特征。上述5个方面的数据每一个方面的数据都可以生成特征。5个方面的数据生成5个特征。5个特征的长度和维度可以不同。对于5个特征，从各自的维度映射到一个统一的维度，例如，都映射到第一个特征的维度，或者都映射到统一的高于每一个特征所在的维度的目标维度。映射后，将5个特征拼接为一个融合特征。
64.由第一识别模型识别该融合特征，预测出该融合特征的眼动数据和脑电数据，然后将眼动数据和脑电数据与该视频的样本眼动数据和样本脑电数据进行对比，如果第一识别模型预测的眼动数据和脑电数据与样本眼动数据和样本脑电数据相差较大，则说明第一识别模型预测的不准确，如果第一识别模型预测的眼动数据和脑电数据与样本眼动数据和样本脑电数据比较相似，则说明第一识别模型的预测结果比较准确。使用样本视频批量训练第一识别模型，则可以得到识别准确度高的第一识别模型。则第一识别模型可以用于预测待识别的目标内容的眼动数据与脑电数据。
65.例如，图3为一种可选的第一识别模型的结构示意图。模型分为了特征提取层、特征融合层和预测层。特征提取层用于提取视频的音频特征、文本数据、情感特征、场景特征与对象特征。每一个提取模块用于提取一种特征。每一个提取模块执行各自的提取任务，从而保证各自提取的特征的准确度。特征融合层将提取的特征进行融合，由预测层预测出眼动数据与脑电数据。
66.对于样本眼动数据与样本脑电数据和样本评价，可以用于训练第二识别模型。第
二识别模型输入眼动数据样本脑电数据后，会预测样本评价。样本眼动数据的示意图如图4所示，图4为用户的眼部对视频中的各个视频帧的注意区域。图4中，方框表示视频帧，箭头表示视频帧的时间先后顺序，圆圈表示用户的注意力区域。没有圆圈则表示用户没有看视频帧。
67.对于脑电数据，例如如图5所示，图5中，椭圆形表示人的大脑区域，502表示人大脑区域中的活跃区域，图5中，活跃区域是会随着人是否观看视频、观看视频的位置而发生变化的。
68.预测评价可以为用户对样本视频的评价，可以包括样本视频的每一个视频段的评价，评价可以包括多种维度，例如，音乐评价、图像评价、整体评价、节奏评价等。评价可以为分值或者好坏等。例如，一个视频有100个视频段，每一个视频段有音乐评价、图像评价、整体评价、节奏评价、创意评价等多种维度的评价，每一种维度的评价可以为分值，则对于一个视频，可以知道该视频的第3段的音乐比较好，该视频的第6段的左上角的内容比较好，该视频的第8段节奏不好等等。
69.第二识别模型识别眼动数据与脑电数据，以及输出预测的评价，将预测的评价与样本评价进行比对，从而对第二识别模型进行训练。例如，如图6为第二识别模型的结构示意图。图6中，眼动数据与脑电数据输入模型的提取模块，由提取模块提取特征，然后由特征融合层融合特征，最后由预测层预测评价数据。
70.当第一识别模型与第二识别模型训练好后，可以投入使用。使用场景是多种多样的。例如，可以预测用户上传的目标内容的质量，给出调整建议报告，例如预测批量的目标内容的质量，从中选择出较好或者较差的内容，以对内容进行筛选。例如预测目标内容的质量，给出创意度评价。
71.例如，如图7所示，图7为对一个目标内容进行识别预测的评价内容。对于一个目标内容，可以输出目标内容的评分和调整建议。
72.本实施例中的内容识别引擎由三部分组成：内容解构模块、创新指数算法模块、预测算法模块。
73.内容解构模块主要由四部分组成：(1)自动语音识别(automatic speech recognition，asr)模块，用于实现内容音频的节奏、风格和旋律分析，及内容音频文字提取；(2)自然语言处理(natural language processing,nlp)模块，用于实现内容音频的语言处理和情感分析；(3)场景切分模块，用于内容视频的切帧、场景识别和视频分段；(4)实体识别模块，用于内容视频的文字识别、物体(logo标识、产品)检测、人体检测(位置、动作)。
74.创新指数算法模块主要由三部分组成：(1)眼动关注分析模块，用于分析元素位置、面积、持续时长，用户注意力分布，和画面注视持续时间；(2)脑电情绪/认知分析模块，用于分析时刻情绪变化、元素情绪值、时刻认知投入变化、元素认知投入度；(3)问卷主观指标分析模块，用于分析得到如下维度，广告回忆(看过)、广告影响(品牌喜好)、信息评价(相关、可理解)、行动倾向(使用或分享)。
75.本技术中，引擎中的模型和算法包括但不限于行业现有的监督学习、半监督学习、无监督学习算法实现，例如，眼动热力视频部分，为行业开源算法，模拟消费者观看视频时的注意力停留情况。视频结构化特征部分，提取面部特征、音频、结构等特征，。对于兴趣区
设定与划分部分，融合了用户的兴趣区，对重要的营销元素进行识别并计算，更好地定位关键内容进行评估诊断。
76.本实施例中对于眼动和脑电分秒预测模型来说，首先，将结构化后的视频特征值作为x值，眼动和脑电分秒数据作为y值，通过训练数据训练出x与y间的关系。在引擎应用阶段，根据给到的一个待评估视频，解析出视频特征值x，即可预测出y。其中训练数据可以为包含广告内容信息的广告素材、对应测得的眼动数据及脑电数据、线上线下获取的对应的问卷调研数据，以及广告素材对应的点击率预估(click-through-rate，ctr)信息等。
77.(2)对于问卷指标模拟模型：模型假设：用户的注视、情绪、认知的数据与问卷指标存在一定的相关性，影响主观感受。故对问卷指标做了归因分析，找到64个眼动脑电指标与问卷指标间的权重关系，输出权重表。即根据眼动、脑电数据，可以预测问卷结果
78.训练环节分为如下几个步骤：
79.(1)训练样本采集环节：采集消费者观看广告素材时的眼睛关注点/脑电波数据，覆盖行业200+，采集人次40000+。
80.(2)提取视频结构化特征：提取视频的计算机视觉特征(声音、色彩、音乐)、识别营销元素(代言人、logo、产品图等)。
81.(3)数据模拟：模拟眼动-注视比例、脑电-情绪、脑电-认知、眼动关注度热力分布四方面数据。结合“问卷指标模拟模型”得到的“权重表”，计算出问卷指标。
82.(4)模型指标产出：基于模拟产出的值，纳入创意指数指标体系计算中，创意指数按照“吸引注意-调动情绪-投入认知-影响行为”四个逐级递进的逻辑反映一则广告对消费者的影响。
83.(5)训练完毕，得到创意评估引擎。
84.在创意评估引擎的使用阶段：用户上传待评估的内容创意素材，得出针对该内容创意的创意指数、转化指数、和创意优化建议等。
85.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
86.根据本技术实施例的另一方面，还提供了一种内容评测装置，如图8所示，包括：
87.获取模块802，用于获取待评测的目标内容；
88.第一识别模块804，用于由第一识别模型识别目标内容，输出预测眼动数据与预测脑电数据，其中，预测眼动数据与预测脑电数据为预测的目标用户观看目标内容时的眼动数据与脑电数据；
89.第二识别模块806，用于由第二识别模型识别预测眼动数据与预测脑电数据，输出预测评价，其中，预测评价为预测的目标用户对目标内容的评价。
90.可选的，上述的目标内容可以为视频、音频、图片、虚拟现实(virtual reality，vr)资源、增强现实(augmented reality，ar)资源中的至少一种。目标内容的表现形式本实施例并不限定。目标内容指待评测质量的内容。通过本方法，对目标内容的质量进行评测。
91.本实施例中上述内容评测装置可以应用在多种场景中。例如，网站对用户产出的
内容进行质量评测，将用户的内容按照质量进行分级，例如投放广告时，对现存的内容进行质量评测，从而决定在哪些内容中投放广告，例如对低质量的内容进行过滤等。通过上述方法识别目标内容的预测评价，从而可以预测出目标的质量，根据质量的高低，进行下一步的筛选、投放或者分级等操作。
92.本实施例中，上述的第一识别模型和第二识别模型可以为预先训练的识别模型。第一识别模型和第二识别模型可以具备相同或者不同的模型结构，两个模型的输入不同，输出也不同。第一个模型的输出作为第二个模型的输入。模型可以为感知器神经网络模型、线性神经网络模型、自组织神经网络模型或者反馈神经网络模型等。
93.本实施例中的眼动数据可以为一个对象的眼部的运动数据，包括了眼部的随着时间的对内容的关注点、关注区域、瞳孔大小、眼部的聚焦度等。通过眼动数据，可以知晓用户对目标内容的关注程度。如用户在3分到3分10秒关注目标内容的左上区域的内容，期间用户瞳孔放大，表示兴奋或者恐惧或者愤怒，3分10秒后，监测不到用户的眼动数据或者聚焦度不够，说明用户在走神或者没有关注目标内容等。脑电数据可以为用户的脑部电波的波动频率和波动幅度，从而表示用户的兴奋程度。
94.本实施例中的预测评价可以为对目标内容的评价(预测的)，评价可以包含多种维度，可以在每一种维度都有对应的评分、或者评价内容、或者标签等。通过预测评价，可以知晓目标内容的质量高低。例如，评价包含100个维度，覆盖目标内容的从前到后所有内容。例如为评分，则通过预测评价，可以知晓目标内容哪一部分比较好，哪一部分比较差，整体质量怎么样等。
95.由于在上述方法中，在获取到待评测的目标内容之后，可以先使用第一识别模型识别目标内容预测该目标内容的预测眼动数据与预测脑电数据，然后使用第二识别模型识别预测眼动数据与预测脑电数据从而预测出目标内容的预测评价，根据预测评价，可以知道目标内容的质量好坏，从而实现了高效识别目标内容的效率的目的。
96.本实施例的其他示例请参见上述示例，在此不在赘述。
97.图9是根据本技术实施例的一种可选的电子设备的示意图，如图9所示，包括处理器902、通信接口904、存储器906和通信总线908，其中，处理器902、通信接口904和存储器906通过通信总线908完成相互间的通信，其中，
98.存储器906，用于存储计算机程序；
99.处理器902，用于执行存储器906上所存放的计算机程序时，实现如下步骤：
100.获取待评测的目标内容；
101.由第一识别模型识别目标内容，输出预测眼动数据与预测脑电数据，其中，预测眼动数据与预测脑电数据为预测的目标用户观看目标内容时的眼动数据与脑电数据；
102.由第二识别模型识别预测眼动数据与预测脑电数据，输出预测评价，其中，预测评价为预测的目标用户对目标内容的评价。
103.可选地，在本实施例中，上述的通信总线可以是pci(peripheral component interconnect，外设部件互连标准)总线、或eisa(extended industry standard architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。
104.存储器可以包括ram，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。
105.作为一种示例，上述存储器906中可以但不限于包括上述内容评测装置中的获取模块802、第一识别模块804以及第二识别模块806。此外，还可以包括但不限于上述内容评测装置中的其他模块单元，本示例中不再赘述。
106.上述处理器可以是通用处理器，可以包含但不限于：cpu(central processing unit，中央处理器)、np(network processor，网络处理器)等；还可以是dsp(digital signal processing，数字信号处理器)、asic(application specific integrated circuit，专用集成电路)、fpga(field －programmable gate array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
107.可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。
108.本领域普通技术人员可以理解，图9所示的结构仅为示意，实施上述内容评测方法的设备可以是终端设备，该终端设备可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图9并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示的不同的配置。
109.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、rom、ram、磁盘或光盘等。
110.根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被处理器运行时执行上述内容评测方法中的步骤。
111.可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
112.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
113.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
114.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
115.在本技术所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者
可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
116.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
117.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
118.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周云朱佩宇张轩苏安炀赵奇梁志婷
技术所有人：上海秒针网络科技有限公司
我是此专利的发明人

上一篇：一种快速目标检测定位方法、装置及无人机系统与流程
上一篇：一种基于超声TOFD技术的T型结构缺陷检测方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。