图像处理方法、装置、电子设备及存储介质与流程

文档序号：17259601发布日期：2019-03-30 09:33阅读：186来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及图像处理技术领域，具体而言，涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术：

目前，用户可以参加许多互动活动，例如棋类互动活动或者牌类互动活动等，但在互动活动的过程中，用户很难主动的发现自己的哪些决策是有待提高的，这就导致用户容易遇到瓶颈无法继续提高在互动活动中的决策水平。

技术实现要素：

本申请在于提供一种图像处理方法、装置、电子设备及存储介质，以实现为用户有待提高的决策提供提示，以实现帮助用户快速提高互动活动中的决策水平。

为了实现上述目的，本申请的实施例通过如下方式实现：

第一方面，本申请实施例提供了一种图像处理方法，所述方法包括：

在用户参与互动活动过程中，获得用户的面部图像；

基于所述面部图像，获得所述用户的神态参数；

基于所述神态参数，判断所述用户对所述互动活动的下一步操作的交互状态；

根据所述交互状态生成并输出与所述交互状态对应的提示信息。

结合第一方面，在一些可能的实现方式中，所述面部图像包括距当前时刻之前第一预设时长内获得的m张面部图像，所述神态参数包括所述m张面部图像对应的m个神态参数，m为大于1的整数，基于所述神态参数，判断所述用户对所述互动活动的下一步操作的交互状态，包括：

基于所述m个神态参数获得用户在所述互动活动的互动界面上的m个视线焦点；

基于所述m个视线焦点，判断所述用户对所述互动活动的下一步操作的交互状态是否处于视线聚焦状态。

结合第一方面，在一些可能的实现方式中，基于所述m个视线焦点，判断所述用户对所述互动活动的下一步操作的交互状态是否处于视线聚焦状态，包括：

判断所述m个视线焦点中位于所述互动界面上至少两个区域中同一区域的视线焦点的数量是否大于或等于第一预设数量；

若是，表示所述用户对所述互动活动的下一步操作的交互状态处于视线聚焦状态。

结合第一方面，在一些可能的实现方式中，基于所述m个神态参数获得用户在所述互动活动的互动界面上的m个视线焦点，包括：

确定所述m个神态参数中每个神态参数对应的所述用户的每两个视线方向；

确定出每两个视线方向在所述互动活动的互动界面上形成的视线焦点，共确定出所述m个视线焦点。

结合第一方面，在一些可能的实现方式中，所述面部图像还包括当前时刻之前第二预设时长内获得的n张面部图像，n为大于1的整数，所述神态参数包括所述n张面部图像对应的n个神态参数，在基于所述神态参数，判断所述用户对所述互动活动的下一步操作的交互状态之后，以及在根据所述交互状态生成并输出与所述交互状态对应的提示信息之前，所述方法还包括：

在确定所述用户处于所述视线聚焦状态后，基于所述n个神态参数，确定出所述n个神态参数中每个神态参数对应的情绪类型，共n个情绪类型；

基于所述n个情绪类型，判断所述用户的所述交互状态是否处于非正面情绪状态；

若是，执行步骤：所述根据所述交互状态生成并输出与所述交互状态对应的提示信息。

结合第一方面，在一些可能的实现方式中，基于所述n个情绪类型，判断所述用户的所述交互状态是否处于非正面情绪状态，包括：

判断所述n个情绪类型中非正面情绪的数量是否大于或等于第二预设数量，其中，所述非正面情绪的数量大于或等于所述第二预设数量表示所述用户的所述交互状态处于非正面情绪状态。

结合第一方面，在一些可能的实现方式中，基于所述n个神态参数，确定出所述n个神态参数中每个神态参数对应的情绪类型，共n个情绪类型，包括：

通过人脸情绪分析模型对所述n个神态参数中每个神态参数进行分析，获得所述人脸情绪分析模型输出的每个神态参数分别为多种待确定情绪类型中每种待确定情绪类型的概率；

根据每种待确定情绪类型的概率，确定出所述多种待确定情绪类型中概率最高的待确定情绪类型，其中，每个神态参数的概率最高的待确定情绪类型为每个神态参数对应的情绪类型。

结合第一方面，在一些可能的实现方式中，根据所述交互状态生成并输出与所述交互状态对应的提示信息，包括：

根据所述用户的所述交互状态处于所述视线聚焦状态确定出所述同一区域中包含的所述互动活动中的对象；

根据所述对象生成与所述下一步操作的提示信息，并将所述提示信息输出。

结合第一方面，在一些可能的实现方式中，根据所述对象生成与所述下一步操作的提示信息，并将所述提示信息输出，包括：

根据所述对象，判断所述对象为所述互动活动中的实体还是为所述互动活动中的背景；

若所述对象为所述互动活动中的实体，将当前的评估函数中用于计算所述实体的权重从第一值提高到第二值，获得当前调整后的评估函数，基于所述当前调整后的评估函数生成与所述实体相关的所述下一步操作的提示信息；若所述对象为所述互动活动中的背景，基于所述当前的评估函数生成所述下一步操作的提示信息。

结合第一方面，在一些可能的实现方式中，所述面部图像包括距当前时刻之前第一预设时长内获得的m张面部图像和距当前时刻之前第二预设时长内获得的n张面部图像，所述神态参数包括：所述m张面部图像对应的m个神态参数和所述n张面部图像对应的n个神态参数，m和n为大于1的整数，基于所述神态参数，判断所述用户对所述互动活动的下一步操作的交互状态，包括：

基于所述m个神态参数获得用户在所述互动活动的互动界面上的m个视线焦点，以及基于所述n个神态参数，确定出所述n个神态参数中每个神态参数对应的情绪类型，共n个情绪类型；

基于所述m个视线焦点，判断所述m个视线焦点中位于所述互动界面上至少两个区域中同一区域的视线焦点的数量是否大于或等于第一预设数量；以及基于所述n个情绪类型，判断所述n个情绪类型中非正面情绪的数量是否大于或等于第二预设数量；

在判定所述同一区域的视线焦点的数量满足所述第一预设数量时，确定所述用户对所述互动活动的下一步操作的交互状态处于视线聚焦状态；在判定所述n个情绪类型中非正面情绪的数量满足所述第二预设数量时，确定所述用户的所述交互状态处于非正面情绪状态。

结合第一方面，在一些可能的实现方式中，所述方法还包括：

在确定所述面部图像中不包含所述用户的面部特征中的至少部分特征时，生成并输出图像采集角度调整提示，其中，所述用户的面部特征包括所述用户的五官。

第二方面，本申请实施例提供了一种图像处理装置，所述装置包括：

图像获得模块，用于在用户参与互动活动过程中，获得用户的面部图像。

神态获得模块，用于基于所述面部图像，获得所述用户的神态参数。

操作判断模块，用于基于所述神态参数，判断所述用户对所述互动活动的下一步操作的交互状态。

提示输出模块，用于根据所述交互状态生成并输出与所述交互状态对应的提示信息。

结合第二方面，在一些可选地实现方式中，所述面部图像包括距当前时刻之前第一预设时长内获得的m张面部图像，所述神态参数包括所述m张面部图像对应的m个神态参数，m为大于1的整数，

所述操作判断模块，还用于基于所述m个神态参数获得用户在所述互动活动的互动界面上的m个视线焦点；基于所述m个视线焦点，判断所述用户对所述互动活动的下一步操作的交互状态是否处于视线聚焦状态。

结合第二方面，在一些可选地实现方式中，

所述操作判断模块，还用于判断所述m个视线焦点中位于所述互动界面上至少两个区域中同一区域的视线焦点的数量是否大于或等于第一预设数量；若是，表示所述用户对所述互动活动的下一步操作的交互状态处于视线聚焦状态。

结合第二方面，在一些可选地实现方式中，

所述操作判断模块，还用于确定所述m个神态参数中每个神态参数对应的所述用户的每两个视线方向；确定出每两个视线方向在所述互动活动的互动界面上形成的视线焦点，共确定出所述m个视线焦点。

结合第二方面，在一些可选地实现方式中，所述面部图像还包括当前时刻之前第二预设时长内获得的n张面部图像，n为大于1的整数，所述神态参数包括所述n张面部图像对应的n个神态参数，在基于所述神态参数，所述装置还包括：

情绪确定模块，用于在确定所述用户处于所述视线聚焦状态后，基于所述n个神态参数，确定出所述n个神态参数中每个神态参数对应的情绪类型，共n个情绪类型；

提示确定模块，用于基于所述n个情绪类型，判断所述用户的所述交互状态是否处于非正面情绪状态；

提示执行模块，用于若是，执行步骤：所述根据所述交互状态生成并输出与所述交互状态对应的提示信息。

结合第二方面，在一些可选地实现方式中，

所述提示确定模块，还用于判断所述n个情绪类型中非正面情绪的数量是否大于或等于第二预设数量，其中，所述非正面情绪的数量大于或等于所述第二预设数量表示所述用户的所述交互状态处于非正面情绪状态。

结合第二方面，在一些可选地实现方式中，

所述情绪确定模块，还用于通过人脸情绪分析模型对所述n个神态参数中每个神态参数进行分析，获得所述人脸情绪分析模型输出的每个神态参数分别为多种待确定情绪类型中每种待确定情绪类型的概率；根据每种待确定情绪类型的概率，确定出所述多种待确定情绪类型中概率最高的待确定情绪类型，其中，每个神态参数的概率最高的待确定情绪类型为每个神态参数对应的情绪类型。

结合第二方面，在一些可选地实现方式中，

所述提示输出模块，还用于根据所述用户的所述交互状态处于所述视线聚焦状态确定出所述同一区域中包含的所述互动活动中的对象；根据所述对象生成与所述下一步操作的提示信息，并将所述提示信息输出。

结合第二方面，在一些可选地实现方式中，

所述提示输出模块，还用于根据所述对象，判断所述对象为所述互动活动中的实体还是为所述互动活动中的背景；若所述对象为所述互动活动中的实体，将当前的评估函数中用于计算所述实体的权重从第一值提高到第二值，获得当前调整后的评估函数，基于所述当前调整后的评估函数生成与所述实体相关的所述下一步操作的提示信息；若所述对象为所述互动活动中的背景，基于所述当前的评估函数生成所述下一步操作的提示信息。

结合第二方面，在一些可选地实现方式中，所述面部图像包括距当前时刻之前第一预设时长内获得的m张面部图像和距当前时刻之前第二预设时长内获得的n张面部图像，所述神态参数包括：所述m张面部图像对应的m个神态参数和所述n张面部图像对应的n个神态参数，m和n为大于1的整数，

所述操作判断模块，还用于基于所述m个神态参数获得用户在所述互动活动的互动界面上的m个视线焦点，以及基于所述n个神态参数，确定出所述n个神态参数中每个神态参数对应的情绪类型，共n个情绪类型；基于所述m个视线焦点，判断所述m个视线焦点中位于所述互动界面上至少两个区域中同一区域的视线焦点的数量是否大于或等于第一预设数量；以及基于所述n个情绪类型，判断所述n个情绪类型中非正面情绪的数量是否大于或等于第二预设数量；在判定所述同一区域的视线焦点的数量满足所述第一预设数量时，确定所述用户对所述互动活动的下一步操作的交互状态处于视线聚焦状态；在判定所述n个情绪类型中非正面情绪的数量满足所述第二预设数量时，确定所述用户的所述交互状态处于非正面情绪状态。

结合第二方面，在一些可选地实现方式中，所述装置还包括：

角度提示模块，用于在确定所述面部图像中不包含所述用户的面部特征中的至少部分特征时，生成并输出图像采集角度调整提示，其中，所述用户的面部特征包括所述用户的五官。

第三方面，本申请实施例提供了一种电子设备，所述电子设备包括：处理器，存储器，总线和通信接口；所述处理器、所述通信接口和存储器通过所述总线连接。所述存储器，用于存储程序。所述处理器，用于通过调用存储在所述存储器中的程序，以执行如第一方面、及第一方面的任一种实施方式所述的图像处理方法。

第四方面，本申请实施例提供了一种具有计算机可执行的非易失程序代码的计算机可读储存介质，所述程序代码使所述计算机执行第一方面、及第一方面的任一种实施方式所述的图像处理方法。

本申请实施例的有益效果是：

由于可以基于用户的神态参数来确定用户对互动活动的下一步操作的交互状态，从而便可以在根据用户的交互状态而确定用户此时的决策是有待提高时，为用户生成并输出提示则可以帮助用户快速提高互动活动中的决策水平。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请第一实施例提供的一种电子设备的结构框图；

图2示出了本申请第二实施例提供的一种图像处理方法的第一流程图；

图3示出了本申请第二实施例提供的一种图像处理方法的第一流程图中步骤s130的第一子流程图；

图4示出了本申请第二实施例提供的一种图像处理方法的第二流程图；

图5示出了本申请第二实施例提供的一种图像处理方法的第一流程图中步骤s130的第二子流程图；

图6示出了本申请第三实施例提供的一种图像处理装置的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有进行出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

第一实施例

请参阅图1，本申请实施例提供了一种电子设备10，电子设备10可以为终端设备或者为服务器。其中，终端设备可以为个人电脑(persomalcomputer，pc)、平板电脑、智能手机、个人数字助理(persomaldigitalassistamt，pda)等；服务器可以为网络服务器、数据库服务器、云服务器或由多个子服务器构成的服务器集成等。

本实施例中，该电子设备10可以包括：存储器11、通信接口11、总线13和处理器14。其中，处理器14、通信接口11和存储器11通过总线13连接。处理器14用于执行存储器11中存储的可执行模块，例如计算机程序。图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，电子设备10也可以具有其他组件和结构。

存储器11可能包含高速随机存取存储器(ramdomaccessmemoryram)，也可能还包括非不稳定的存储器(mom-volatilememory)，例如至少一个磁盘存储器。本实施例中，存储器11存储了执行图像处理方法所需要的程序。

总线13可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器14可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器14中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器14可以是通用处理器，包括中央处理器(cemtralprocessimgumit，简称cpu)、网络处理器(metworkprocessor，简称mp)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。

本发明实施例任意实施例揭示的流过程或定义的装置所执行的方法可以应用于处理器14中，或者由处理器14实现。处理器14在接收到执行指令后，通过总线13调用存储在存储器11中的程序后，处理器14通过总线13控制通信接口11则可以执行图像处理方法的方法流程。

另外，在一些情况下，若电子设备10为终端设备，电子设备10还可以具有摄像头15，摄像头15可以常规的高清线摄像头。摄像头15可以与总线13连接，且摄像头15可以用于拍摄包含对象的图像，使得电子设备10的处理器14基于总线13获得摄像头15拍摄的图像而执行图像处理方法的方法流程。

另外，在另一些情况下，若电子设备10为服务器，电子设备10则可以与采集用户图像的终端而获得用户的图像，这样电子设备10就可以基于获得的图像来执行图像处理方法的方法流程。

第二实施例

本实施例提供了一种图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。以下对本实施例进行详细介绍。

请参阅图2，在本实施例提供的图像处理方法中，该图像处理方法包括：步骤s110、步骤s120、步骤s130和步骤s140。

步骤s110：在用户参与互动活动过程中，获得用户的面部图像。

步骤s120：基于所述面部图像，获得所述用户的神态参数。

步骤s130：基于所述神态参数，判断所述用户对所述互动活动的下一步操作的交互状态。

步骤s140：根据所述交互状态生成并输出与所述交互状态对应的提示信息。

下面将结合图2和图3，对本申请各步骤进行详细地描述。

步骤s110：在用户参与互动活动过程中，获得用户的面部图像。

互动活动可以为互动类的应用，而互动类的应用的类型则可以为例如：小部程序安装在终端设备上而大部分在云端的网页式的云端应用，或者也绝大部分程序都安装运行在终端设备上的传统应用。

在电子设备为终端设备的情况下，电子设备就可以通过运行该互动类的应用为用户提供一个互动界面，使得用户基于互动界面可以参与到该互动类的应用的互动活动中。可选地，互动活动可以为棋牌类活动，例如可以为：五子棋、围棋、中国象棋、国际象棋、扑克牌或麻将等，对此本实施例并不限定。

为便于用户参与这些互动活动后的真实体验感增加，互动界面上则可以展示出这些棋牌类活动类真实的对局界面，例如，互动界面上可以显示出中国象棋的对局界面，也例如，互动界面上也可以显示出扑克牌的对局界面。

再者，在用户参与该互动活动后，用户在互动活动中对局的对手可以为ai电脑(artificialintelligence，人工智能)，或者，用户在互动活动中对局的对手可以其他的用户。例如，用户基于电子设备可以与ai电脑进行中国象棋对战，但用户基于电子设备还可以与其他用户进行中国象棋对战。也就是说，虽然用户对局的对手可以不同，但电子设备上呈现出的对局界面可以相同。

再者，电子设备的对局界面上可以为用户提供一个是否开启操作提示的选项，若用户基于该选项选择开启操作提示，那么电子设备就可以响应用户的开启操作而启动对图像处理方法的执行；反之，则不启动对图像处理方法的执行，而使得用户以传统的模式参与互动活动。

电子设备启动对图像处理方法的执行后，电子设备可以基于摄像头对用户的面部进行拍摄，而获得摄像头拍摄到用户面部的视频流。由于视频流可以是由多帧连续的用户的面部图像组成，故电子设备获得用户面部的视频也可以理解为电子设备获得了用户的多帧面部图像。

在电子设备为服务器的情况下，电子设备可以不用直接与用户交互来实现对图像处理方法的执行。在这种情况下，用户使用的用户终端上可以运行该互动类的应用，在用户使用的用户终端参与到互动类的应用的互动活动中时，电子设备可以通过与用户使用的用户终端进行交互从而实现对图像处理方法的执行。因此，电子设备可以从用户终端获得用户终端的摄像头拍摄到用户面部的视频流，这样，电子设备也获得了用户的多帧面部图像。

作为存储视频流的一种可选方式，由于电子设备在启动执行图像处理方法后至用户结束参与该互动活动的过程中，电子设备可以持续的获得用户面部的视频流，那么在电子设备内的存储空间有限的情况下，故电子设备可以对存储视频流进行实时的更新，以实时的存储距当前时刻之前一段时长内的视频流。例如，在整个互动活动的过程中，电子设备通过对存储的视频流的更新可以保证实时存储距当前时刻之前1-5分钟内的视频流。

电子设备获得用户的多帧面部图像后，电子设备可以继续执行步骤s120。

步骤s120：基于所述面部图像，获得所述用户的神态参数。

可以理解到，在用户参与互动活动的过程中，若用户不知道或不确定互动活动的下一步该如何操作比较合适，例如，在中国象棋的对局过程中，用户不知道某个棋子该往哪里走比较好，这种情况下，基于生理上的反应，用户常常会出现思索状态，即用户的目光会聚焦到某一处以便于进行思索。故电子设备便可以基于这种生理上的反应来确定用户是否不知道接下来的合适操作。

由于用户在思索状态时，用户的目光会聚焦到某一处是一个过程性的行为，即用户的目光可以持续一段时间的聚焦在某一处，以便这段时间内能够专注的进行思索。故在用户的多帧面部图像中，单帧面部图像难以准确的反映出用户的这种思索状态，而需要通过一段时间内的多张面部图像才能够更加准确的反映出用户的这种思索状态。因此，电子设备便可以基于对多张面部图像进行处理，以通过处理多张面部图像来确定用户是否处于不知道互动活动接下来的合适操作的思索状态。

可选地，由于用户处于的思索状态时间在大多数情况下不会太长，故若电子设备处理的多张面部图像对应的时长太长，反而可能导致得到的结果不够准确，例如，用户前3秒中处于思索状态，而后10秒钟则是注意力分散的状态，若对涵盖整个这13秒时长的多张面部图像进行处理则极有可能得不到用户处于思索状态的处理结构。因此，电子设备可以采用对距当前时刻之前较短的第一预设时长内获得m张面部图像进行处理，以保证得到结果的准确性，其中，m可以为大于1的整数，第一预设时长可以为1-3秒，但并不限定。

本实施例中，作为获得m张面部图像的一种方式，电子设备获得m张面部图像的方式可以为电子设备从存储的1-5分钟的视频流中抽取出最近的1-3秒一段视频，并把这段视频所包含多帧面部图像作为m张面部图像。

作为获得m张面部图像的另一种方式，在每一帧的层面上，由于相邻的每两帧面部图像对应的面部神态很难出现突变，故可以基于此原理来在保证结果准确性的同时减小电子设备的运算量，即电子设备可以从1-3秒的这段视频从抽取出一部分帧来作为获得的m张面部图像，例如，从连续的每两帧面部图像或连续的每三帧面部图像中抽取出一帧面部图像，但并不作为限定。

还可以理解到的是，也由于用户的思索状态一般可以体现为用户的目光聚焦，故电子设备可以基于对用户的面部图像中眼睛部分的图像进行处理和分析来确定用户是否处于思索状态。

本实施例中，电子设备中预先设置了训练好的人脸情绪分析模型，这样，电子设备可以调用该人脸情绪分析模型，并可以将m张面部图像的每张面部图像均输入到该人脸情绪分析模型，从而人脸情绪分析模型就可以基于深度神经网络对每张面部图像进行抠图处理，从每张面部图像中确定出用户面部上双眼部分的图像。因而电子设备便可以获得人脸情绪分析模型输出的每张面部图像中双眼部分的图像对应的图像参数，共得到m个图像参数。

可以理解到，本实施例中，双眼部分的图像的作用可以为确定用户的神态，即为确定用户的神态是否处于思索状态，因此，双眼部分的图像对应的图像数据则可以为用户的神态参数。这样，电子设备获得该用户的m个图像参数则可以为获得了该用户的m个神态参数。

获得m个神态参数后，电子设备可以继续执行步骤s130。

步骤s130：基于所述神态参数，判断所述用户对所述互动活动的下一步操作的交互状态。

如图3所示，本实施例中，步骤s130的子流程可以包括：步骤s131和步骤s132。

步骤s131：基于所述m个神态参数获得用户在所述互动活动的互动界面上的m个视线焦点。

步骤s132：基于所述m个视线焦点，判断所述用户对所述互动活动的下一步操作的交互状态是否处于视线聚焦状态。

下面将对步骤s131和步骤s132的流程进行详细的描述。

步骤s131：基于所述m个神态参数获得用户在所述互动活动的互动界面上的m个视线焦点。

由于电子设备可以确定的是用户的目光是否聚焦，那么电子设备可以基于m个神态参数去确定用户的视线焦点。

详细地，电子设备也可以继续调用该人脸情绪分析模型，从而将m个神态参数输入到该人脸情绪分析模型中。该人脸情绪分析模型可以基于深度神经网络对该m个神态参数中每个神态参数进行计算，从而可以确定出每个神态参数对应的该用户的每两个视线方向。

需要说明的是，一般情况下，用户可以通过双眼来观看，双眼中每个眼球注视的方向则可以对应为一个视线方向，而由于每个神态参数对应的可以是用户双眼部分的图像，故每个神态参数就可以得到用户的每两个视线方向。而在用户的双眼注视的方向不同情况下，反应在用户双眼部分的图像则可以是眼球的位置不同。因此，在用户注视不同的位置时，基于不同位置对应的不同神态参数，就可以确定出不同的每两个视线方向。

本实施例中，为便于确定出用户注视到的到底是什么位置，在获得每两个视线方向后，电子设备可以将每两个视线方向输入到人脸情绪分析模型进行计算，通过对人脸情绪分析模型对每两个视线方向的计算则可以预估出每两个视线方向在互动活动的互动界面上形成的视线焦点。这样，电子设备便可以获得在互动活动的互动界面上一共形成的m个视线焦点。

从而，电子设备便可以通过这m个视线焦点来继续执行步骤s132。

步骤s132：基于所述m个视线焦点，判断所述用户对所述互动活动的下一步操作的交互状态是否处于视线聚焦状态。

为便于准确的确定出用户在互动界面上注视的位置，电子设备可以预先将互动界面划分成至少两个区域，例如将互动界面等分成20个区域但并不限定，以通过区域来作为衡量用户注视位置的标准。

由于在确定出m个视线焦点的本质可以为确定m个视线焦点中每个视线焦点在互动界面上的坐标，故电子设备可以基于每个视线焦点在互动界面上的坐标来确定每个视线焦点位于至少两个区域中的哪一区域。这样，电子设备就可以确定出至少两个区域中同一区域中视线焦点的数量。

本实施例中，若同一区域中视线焦点的数量越多，则可能表明该用户越长时间的注视一个区域，则越有可能表明该用户处于进行思索的视线聚焦状态。故电子设备中可以预先设置一个第一预设数量，该第一预设数量可以表示用户处于视线聚焦状态的下限值。

这样，电子设备可以基于确定出的至少两个区域中同一区域中视线焦点的数量，判断m个视线焦点中位于互动界面上至少两个区域中同一区域的视线焦点的数量是否大于或等于第一预设数量。例如，第一预设数量可以设置为30-60。

若同一区域的视线焦点的数量不是大于或等于第一预设数量，则表示用户在第一预设时长内的视线焦点不是聚集的，故可以表示用户在第一预设时长内对互动活动的下一步操作的交互状态不处于视线聚焦状态，即可以判定用户是知道该互动活动接下来的合适操作的。这样，电子设备可以终止在本次对图像处理方法的执行过程中后续流程的执行，以便等待下一次轮训执行该图像处理方法。

可以知道的是，在电子设备开启执行该图像处理方法后，并至在用户基于是否开启操作提示的选项而选择关闭操作提示时或在互动活动过程结束时的这段时间中，电子设备可以轮询的对该图像处理方法进行执行，轮询的可以例如，电子设备在基于m张面部图像建立一个流程执行该图像处理方法，若电子设备获得m张面部图像中有5张面部图像是最新获得的面部图像时，电子设备则可以在继续执行原有的流程的同时，又可以基于更新了5张面部图像的m张面部图像另外建立一个新的流程来执行该图像处理方法。

若同一区域的视线焦点的数量大于或等于第一预设数量，则表示用户在第一预设时长内的视线焦点是聚集的，故可以表示用户在第一预设时长内对互动活动的下一步操作的交互状态处于视线聚焦状态，即可以判定用户不知道该互动活动接下来的合适操作的。

在判定为该用户不知道接下来的合适操作时，电子设备便可以继续执行步骤s140。

步骤s140：根据所述交互状态生成并输出与所述交互状态对应的提示信息。

为提高用户的体验，使得生成的提示信息可以尽量与用户的不知道或不确定的下一步操作相关，本实施例中，电子设备可以基于用户在互动界面上关注的对象来生成提示信息。

电子设备基于确定出大于第一预设数量的视线焦点所在的同一区域，即基于确定该用户的交互状态处于视线聚焦状态，电子设备则还可以基于对该互动界面中同一区域的图像进行分析，则确定出同一区域的中包含的互动活动中的对象，其中，该对象则可以包括：互动活动中的实体或互动活动中的背景。以中国象棋为例，互动活动中的实体可以为中国象棋中的棋子，而互动活动中的背景则可以为互动界面中除了棋子之外其它区域；再者，以扑克牌为例，互动活动中的实体可以为扑克牌中属于用户的牌面，而互动活动中的背景则可以为互动界面中除了属于用户的牌面之外其它区域。

可以理解到，为保证确定出的对象为实体还是为背景的准确性，划分出至少两个区域中的每个区域所包含的内容要么可以为互动活动中的实体，反之要么可以为互动活动中背景，而不建议每个区域同时包含互动活动中的实体和互动活动中的背景。

因此，电子设备确定出同一区域中包含的互动活动中的对象，电子设备则可以判断该对象为互动活动中的实体还是为互动活动中的背景。

若确定为该对象为互动活动中的实体，即可以确定该用户所注视可以是例如某个棋子或某张牌。

作为一种可选地方式，电子设备生成提示信息的方式可以为：电子设备中预设了训练好的互动活动评估模型，该互动活动评估模型中可以包括一个评估函数，而评估函数中将该互动活动中的每个实体的参数可以由每个实体在互动活动中的情况决定，例如，评估函数可以基于当前对局局势中每个棋子的位置而确定出每个棋子的参数。这样互动活动评估模型基于每个实体的参数来计算该评估函数，就可以确定出符合当前对局局势的提示信息。

因此，电子设备在确定出对象为互动活动中的实体后，电子设备便可以将当前的评估函数中用于计算该实体的权重从第一值提高到第二值，获得当前调整后的评估函数，使得在该当前调整后的评估函数中该实体对最终得到的结果能够起到更大的影响。这样，互动活动评估模型基于该当前调整后的评估函数进行计算就可以生成与实体相关的下一步操作的提示信息。

在计算出提示信息后，在电子设备为服务器的情况下，电子设备可以将这个提示信息输出给用户使用的用户终端，从而使得用户终端显示出该提示信息。而在电子设备为终端设备的情况下，电子设备可以以动画或者文字的方式将该提示信息显示出来。相应的，用户就可以接收到与自己不确定或不知道的操作对应的提示信息，这样用户就可以有更好的用户体验。

以中国象棋为例，若确定出对象为中国象棋中的“炮”，那么说明该用户想基于“炮”这个棋子来进行下一步的操作，但用户却并不确定在当前对局局势下，“炮”这个棋子该如何操作最为合适。因此，电子设备可以增加“炮”这个实体在评估函数中的权重来计算提示信息，从而电子设备可以计算出与“炮”的操作相关的提示信息。基于此，电子设备显示出的提示信息就可以为：炮三进五。

若确定为该对象为互动活动中的背景，即可以确定该用户所注视可以是例如某个棋格。

这样，电子设备就可以不调整该当前的评估函数中每个实体的权重，从而互动评估模型就可以基于该当前的评估函数进行计算，进而可以生成与当前对局局势相关的下一步操作的提示信息。因而，电子设备便也可以将该提示信息输出给用户终端或将该提示信息显示出来。

作为一种可选地的方式，为避免误提示，在电子设备完成执行步骤s130，以及在开始执行步骤s140之前，电子设备可以基于对互动界面的图像进行分析而判断用户是否已经进行了下一步的操作。若确定用户已经进行了下一步的操作，那么电子设备可以终止对本次执行该图像处理方法的流程中后续流程的执行；反之，电子设备则继续执行步骤s140。

请参阅图4，作为本实施例中一种可选地实施方式，在电子设备执行完成步骤s130后，以及在电子设备开始执行步骤s140之前，电子设备还可以执行步骤s101和步骤s102。

步骤s101：在确定所述用户处于所述视线聚焦状态后，基于所述n个神态参数，确定出所述n个神态参数中每个神态参数对应的情绪类型，共n个情绪类型。

步骤s102：基于所述n个情绪类型，判断所述用户的所述交互状态是否处于非正面情绪状态。

下面将对步骤s101和步骤s102的流程进行详细地说明。

可以理解到，虽然确定出用户不知道互动活动接下来的合适操作后，但为提升用户的体验，可以不用马上生成提示信息并推送给用户，而可以继续检测用户的情绪，在检测到用户的情绪已经在一段时间内处于非正面情绪状态时，才可以给用户进行提示。

故在执行步骤s101之前，本实施例中，电子设备也可以从存储的视频流对应的多帧面部图像中对应提取出用于检测情绪所需的面部图像，该用于检测情绪所需的面部图像则可以为电子设备从距当前时刻之前第二预设时长内的获得n张面部图像，其中，该第二预设时长可以为10-30秒。

本实施例中，作为获得n张面部图像的一种方式，电子设备可以从存储的1-5分钟的视频流中抽取出最近的10-30秒一段视频，并把这段视频所包含多帧面部图像作为n张面部图像。

也作为获得n张面部图像的另一种方式，在每一帧的层面上，由于相邻的每两帧面部图像对应的面部神态很难出现突变，故也可以基于此原理来在保证结果准确性的同时减小电子设备的运算量，即电子设备可以从10-30秒的这段视频从抽取出一部分帧来作为获得的n张面部图像，例如，也从连续的每五帧面部图像或连续的每六帧面部图像中抽取出一帧面部图像，但并不作为限定。

电子设备也可以调用预设的人脸情绪分析模型，并可以将n张面部图像的每张面部图像均输入到该人脸情绪分析模型，从而人脸情绪分析模型就可以基于深度神经网络对每张面部图像进行抠图处理，从每张面部图像中除用户面部以外的背景去掉，这样就可以得到仅为面部的图像。这样，电子设备便可以获得人脸情绪分析模型输出的每张仅为面部的图像对应的图像参数，共得到n个图像参数。

可以理解到，本实施例中，仅为面部的图像的作用也可以为确定用户的神态，即为确定用户的神态是否表示用户的交互状态是否还处于非正面情绪状态，因此，仅为面部的图像的图像数据则也可以为用户的神态参数。这样，电子设备获得该用户的n个仅为面部的图像则可以为获得了该用户的n个神态参数。

获得了n个神态参数后，电子设备则可以执行步骤s101。

步骤s101：在确定所述用户处于所述视线聚焦状态后，基于所述n个神态参数，确定出所述n个神态参数中每个神态参数对应的情绪类型，共n个情绪类型。

电子设备还可以基于该人脸情绪分析模型来处理和分析该n个神态参数，即电子设备也可以调用该人脸情绪分析模型，从而可以将n个神态参数的个神态参数均输入到该人脸情绪分析模型。人脸情绪分析模型中预设了多种情绪类型，多种情绪类型可以包括例如：开心、乐观、中性、焦虑和伤心。

这样，人脸情绪分析模型基于多种情绪类型对每个神态参数进行处理和分析，就可以确定出每个神态参数表示的多种待确定情绪类型中每种待确定情绪类型的概率。这样，电子设备根据每种待确定情绪类型的概率，可以从基于每个神态参数得到多种待确定情绪类型确定出中概率最高的待确定情绪类型，而每个神态参数的概率最高的待确定情绪类型为每个神态参数对应的情绪类型。例如，针对一个神态参数，确定出的待确定情绪类型为开心的概率为0.05、确定出的待确定情绪类型为乐观的概率为0.05、确定出的待确定情绪类型为中性的概率为0.01、确定出的待确定情绪类型为焦虑的概率为0.7和确定出的待确定情绪类型为伤心的概率为0.1，那么电子设备则可以确定该神态参数对应的情绪类型为焦虑。

因此，电子设备便可以确定出n个神态参数中每个神态参数对应的情绪类型，从而一共得到n个情绪类型。

步骤s102：基于所述n个情绪类型，判断所述用户的所述交互状态是否处于非正面情绪状态。

本实施例中，电子设备可以将多种情绪类型归类为正面情绪和非正面情绪，例如，开心和乐观可以为归类为正面情绪，而中性、焦虑和伤心则可以为归类为非正面情绪。

那么，在这个n个情绪类型中，若为非正面情绪的数量越多，则可以表示该用户越长时间的处于非正面情绪状态。故电子设备中还可以预先设置一个第二预设数量，该第二预设数量可以表示用户的交互状态处于非正面情绪状态的下限值。

这样，电子设备则也可以基于确定出的n个情绪类型，判断n个情绪类型中非正面情绪的数量是否大于或等于第二预设数量。例如，第二预设数量可以设置为70-90。

若n个情绪类型中非正面情绪的数量小于第二预设数量，则表示用户的交互状态在第二预设时长内不处于非正面情绪状态，即可以判定用户目前的状态可以不需要对用户进行提示。这样，电子设备便也可以终止在本次对图像处理方法的执行过程中后续流程的执行，以便等待下一次轮训执行该图像处理方法。

若n个情绪类型中非正面情绪的数量大于或等于第二预设数量，则表示用户的交互状态在第二预设时长内处于非正面情绪状态，即可以判定用户目前的状态已经比较焦虑了，可以需要对用户接下来的操作进行提示。

那么，确定需要接下来的操作进行提示后，电子设备也基于对互动界面的图像进行分析而确定用户还未进行了下一步的操作时，则电子设备可以执行步骤s140以对用户进行提示。

作为本实施例中一些可选地方式，电子设备还可以基于对面部图像进行分析，若确定面部图像中不包含该用户的面部特征中的至少部分特征，其中，用户的面部特征包括用户的五官。电子设备便可以生成并输出图像采集角度调整提示，使得用户基于图像采集角度调整提示可以调整自己的姿势，使得自己的面部能够位于摄像头的采集范围内。

如图5所示，作为本实施例中，步骤s130的另一种可能的实现方式，步骤s130可以包括：步骤s1301、步骤s1302和s1303。

步骤s1301：基于所述m个神态参数获得用户在所述互动活动的互动界面上的m个视线焦点，以及基于所述n个神态参数，确定出所述n个神态参数中每个神态参数对应的情绪类型，共n个情绪类型。

步骤s1302：基于所述m个视线焦点，判断所述m个视线焦点中位于所述互动界面上至少两个区域中同一区域的视线焦点的数量是否大于或等于第一预设数量；以及基于所述n个情绪类型，判断所述n个情绪类型中非正面情绪的数量是否大于或等于第二预设数量。

步骤s1303：在判定所述同一区域的视线焦点的数量满足所述第一预设数量时，确定所述用户对所述互动活动的下一步操作的交互状态处于视线聚焦状态；在判定所述n个情绪类型中非正面情绪的数量满足所述第二预设数量时，确定所述用户的所述交互状态处于非正面情绪状态。

即电子设备可以将处于视线聚焦状态和处于非正面情绪状态均作为判断用户是否需要提示的条件，那么在处于任一个状态时，电子设备便可以确定需要对用户进行提示。

可以理解到，步骤s1301、步骤s1302和s1303的详细实现流程可以参考前述的实现方式，再此就不再累述。

第三实施例

请参阅图6，本申请实施例提供了一种图像处理装置100，该图像处理装置100可以应用于电子设备，该图像处理装置100包括：

图像获得模块110，用于在用户参与互动活动过程中，获得用户的面部图像。

神态获得模块120，用于基于所述面部图像，获得所述用户的神态参数。

操作判断模块130，用于基于所述神态参数，判断所述用户对所述互动活动的下一步操作的交互状态。

提示输出模块140，用于根据所述交互状态生成并输出与所述交互状态对应的提示信息。

需要说明的是，由于所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

综上所述，本申请实施例提供了一种图像处理方法、装置、电子设备及存储介质。方法包括：在用户参与互动活动过程中，获得用户的面部图像；基于面部图像，获得用户的神态参数；基于神态参数，判断用户对互动活动的下一步操作的交互状态；根据交互状态生成并输出与交互状态对应的提示信息。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李广;赵铠枫
技术所有人：北京旷视科技有限公司
我是此专利的发明人

上一篇：一种具有消音效果的HDPE同层虹吸排水管材管件的制作方法
上一篇：一种喷漆工艺光催化除臭设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。