一种用户图形界面元素识别方法及系统与流程

文档序号：38027143发布日期：2024-05-17 13:03阅读：9来源：国知局

本发明涉及目标检测，尤其涉及一种用户图形界面元素识别方法及系统。

背景技术：

1、在移动应用程序中，图形用户界面(gui)提供了一种方便的方式，可以使用按钮、文本框和窗口等图形元素与计算机交换信息。通过图形的集成，gui改善了用户体验，为信息传输提供了一个直观而又引人注目的界面。因此，gui元素的检测已经成为移动应用程序测试中不可避免的挑战，另一方面，移动平台的爆炸式增长使gui的测试更加复杂化，凸显了自动测试技术的迫切需求。

2、由于高性能计算的发展和用于模型训练的大规模数据的出现，基于深度学习的方法已经重塑了目标检测领域。尽管如此，gui元素检测依旧可以看作是小目标检测的一种特例，且仍然是需要探索的边界。

3、现有的gui元素检测模型主要是通过目标检测模型针对gui数据集训练而来，分类单阶段目标检测模型和双阶段目标检测模型，但由于gui元素大多都是非常小的元素，这里的非常小指的是元素本身的长宽很小以及所占整体图像的比例也很小。gui元素在软件界面中的排布经常是密集的，如软件下载界面、视频直播界面和商城界面等，这些界面中往往包含大量的信息，gui元素作为信息的载体，经常会出现非常紧凑的布局。小而密集的特点导致当前目标检测算法在识别软件界面中的gui元素时会出现漏检的情况，即现有技术的目标检测模型难以检测出全部的gui元素。

技术实现思路

1、鉴于此，本发明实施例提供了一种用户图形界面元素识别方法，以消除或改善现有技术中存在的一个或更多个缺陷。

2、本发明的一个方面提供了一种用户图形界面元素识别方法，该方法包括以下步骤：

3、获取待检测的界面图，将所述界面图输入到第一卷积模块中，所述第一卷积模块输出第一过程向量；

4、将所述第一过程向量输入到显式视觉中心模块中，所述显式视觉中心模块包括全局特征处理通道和近目标区域处理通道，所述全局特征处理通道通过预设的多层感知器输出全局特征向量，所述近目标区域处理通道通过预设的神经网络输出局部特征向量，基于所述全局特征向量和局部特征向量确定第二过程向量；

5、所述第二过程向量顺序通过特征金字塔网络模块和分类与锚框监测模块，所述分类与锚框监测模块通过分类器和边界框回归算法确定检测框，得到标记有检测框的界面图。

6、采用上述方案，相比其他现有的用户图形界面元素识别方法，本方案设置有显式视觉中心模块，且在显式视觉中心模块中设置有全局特征处理通道和近目标区域处理通道，其中，全局特征处理通道通过预设的多层感知器捕获长距离的全局特征，近目标区域处理通道通过预设的神经网络目标周围区域的特征，从而使本方案能够从两个方面识别特征，保证了对gui元素的检测全面性。

7、在本发明的一些实施方式中，所述显式视觉中心模块包括第一全维度动态卷积单元、归一化层、激活函数层和第二全维度动态卷积单元，在将所述第一过程向量输入到显式视觉中心模块中，所述显式视觉中心模块包括全局特征处理通道和近目标区域处理通道，所述全局特征处理通道通过预设的多层感知器输出全局特征向量，所述近目标区域处理通道通过预设的神经网络输出局部特征向量，基于所述全局特征向量和局部特征向量确定第二过程向量的步骤中，所述第一过程向量顺序经过第一全维度动态卷积单元、归一化层和激活函数层进行处理，并分别输入到全局特征处理通道和近目标区域处理通道，将所述全局特征向量和局部特征向量进行拼接，并输入到第二全维度动态卷积单元中，得到第二过程向量。

8、在本发明的一些实施方式中，所述第一全维度动态卷积单元和第二全维度动态卷积单元为相同的结构，均包括顺序设置的平局池化层、conv2d层、批归一化层、relu层和并行卷积单元，所述并行卷积单元包括并行设置的多个子通道，每个子通道均包括顺序设置的conv2d层和sigmid层，将各个子通道的输出相加，得到所述第一全维度动态卷积单元和第二全维度动态卷积单元的输出。

9、在本发明的一些实施方式中，所述全局特征处理通道包括顺序设置的多个第一处理单元，每个第一处理单元均包括顺序设置的组归一化层、逐深度卷积层、通道缩放层和droppath层。

10、在本发明的一些实施方式中，所述近目标区域处理通道包括顺序设置的卷积层、第二处理单元、码本计算单元、全连接层和一维卷积层，所述码本计算单元基于第二处理单元的输出通过预设的码本进行计算，输出值向量的多个维度的值，组合值向量的多个维度的值得到值向量。

11、在本发明的一些实施方式中，所述第二处理单元包括顺序设置的卷积层、归一化层和relu层。

12、在本发明的一些实施方式中，所述码本计算单元获取所述第二处理单元输出的关键字向量，将关键字向量中每个维度的值与预设的码本进行计算，得到值向量。

13、在本发明的一些实施方式中，在将每个关键字向量分别与预设的码本进行计算，得到对应关键字向量的值向量的步骤中，基于如下公式计算值向量的每个维度的值：

14、

15、其中，eδ表示值向量第δ个维度的值，n表示关键字向量的维度数量，sδ和bδ表示在码本中值向量第δ个维度的值对应的参数组中的两个计算参数，表示关键字向量的第i个维度的值，k表示码本中的参数组总数，sj和bj表示码本中的第j个参数组的两个计算参数。

16、在本发明的一些实施方式中，所述方法的步骤还包括对包括第一卷积模块、显式视觉中心模块、特征金字塔网络模块和分类与锚框监测模块的网络模型进行预训练，在预训练的步骤中，计算网络模型的输出和标签的归一化韦斯特距离作为损失函数。

17、在本发明的一些实施方式中，在计算网络模型的输出和标签的归一化韦斯特距离作为损失函数的步骤中，基于所述网络模型输出的检测框和标签框的位置、高度和宽度分别计算检测框和标签框二维高斯分布，基于检测框和标签框二维高斯分布计算损失函数。

18、在本发明的一些实施方式中，在基于所述网络模型输出的检测框和标签框的位置、长度和宽度分别计算检测框和标签框二维高斯分布的步骤中，二维高斯分布表示为其中cx和cy为检测框或标签框的重心点位置的横坐标和纵坐标，w和h分别表示检测框或标签框的宽度和高度。

19、在本发明的一些实施方式中，在基于检测框和标签框二维高斯分布计算损失函数的步骤中，基于如下公式计算损失函数：

20、其中，l表示w2和c均为预设的计算参数，和分别表示检测框和标签框二维高斯分布。

21、本发明的第二方面还提供一种用户图形界面元素识别系统，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如前所述方法所实现的步骤。

22、本发明的第三方面还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述用户图形界面元素识别方法所实现的步骤。

23、本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。

24、本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨谈,王玥,郭伟,段振刚,郑永伯
技术所有人：中科链安（南京）科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。