结合RPA和AI的软件界面元素的识别方法与装置与流程

文档序号:23669080发布日期:2021-01-15 14:09阅读:296来源:国知局
结合RPA和AI的软件界面元素的识别方法与装置与流程

本申请涉及机器人流程自动化(roboticprocessautomation,简称rpa)、人工智能(artificialintelligence,简称ai)技术领域,尤其涉及一种结合rpa和ai的软件界面元素的识别方法与装置。



背景技术:

机器人流程自动化(roboticprocessautomation,简称rpa)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。人工智能(artificialintelligence,简称ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前,rpa和ai技术具有自动化程度高、精确度高、成本低的优点,得到了广泛的应用。

现有技术中,为了保证自动化流程的准确性,软件机器人在运行流程时需要精准地识别目标元素的位置,并对其进行自动化操作。在远程桌面或虚拟机等应用场景,一般是通过计算机视觉技术检测界面元素,并提取其特征属性作为在流程运行时界面元素的匹配依据。

然而,这种匹配方式并不稳定,很容易导致目标元素匹配错误或匹配失败,使得自动化流程的准确度低下。



技术实现要素:

本申请提供一种结合rpa和ai的软件界面元素的识别方法与装置,可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

第一方面,本申请提供一种结合rpa和ai的软件界面元素的识别方法,包括:

提取当前软件界面中的界面元素;

基于目标元素的结构模式及所述界面元素,进行相似度运算;

根据相似度运算结果,确定所述目标元素在当前软件界面上的分布信息。

在一种可能的设计中,所述提取当前软件界面中的界面元素,包括:

截取当前软件界面的界面图像;

通过光学字符识别ocr技术,或者预先训练的深度学习模型,从所述界面图像中提取出所有界面元素。

在一种可能的设计中,所述结构模式,包括:

目标元素及结构元素组成的基元集合;以及基元集合中各元素两两之间的位置关系的位置关系集合。

在一种可能的设计中,所述基于目标元素的结构模式及所述界面元素,进行相似度运算,包括:

根据所述基元集合,确定当前软件界面中的所有近似基元集合;

对各近似基元集合,基于所述基元集合中各元素与所述基元集合中各元素的相似度,得到各近似基元集合的第一相似度集合;

基于各近似基元集合中两两元素之间的位置关系,与所述基元集合中对应的两两元素之间的位置关系的相似度,确定各近似基元集合的第二相似度;

基于所述第一相似度集合及所述第二相似度,确定所述基元集合与各近似基元集合的总相似度。

在一种可能的设计中,根据所述基元集合,确定当前软件界面中的所有近似基元集合,包括:

查找与所述基元集合中的目标元素匹配的界面元素,构成目标元素对应的第一界面元素集合;

分别查找与所述基元集合中的各个结构元素匹配的界面元素,构成各个结构元素对应的第二界面元素集合;其中,所述基元集合中的每个结构元素对应一个独立的第二界面元素集合;

分别从所述第一界面元素集合以及各个第二界面元素集合中任取一个界面元素,构成所述近似基元集合。

在一种可能的设计中,对各近似基元集合,基于各元素与所述基元集合中各元素的相似度,得到各近似基元集合的第一相似度集合,包括:

获取所述近似基元集合中第一界面元素与所述基元集合中目标元素的相似度,以及所述近似基元集合中各个第二界面元素与所述基元集合中对应的各个结构元素的相似度,得到所述近似基元集合的第一相似度集合。

在一种可能的设计中,基于各近似基元集合中两两元素之间的位置关系,与所述基元集合中对应的两两元素之间的位置关系的相似度,确定各近似基元集合的第二相似度,包括:

对所述基元集合中的元素进行两两组合,该组合构成所述基元集合的子模式集;

对各近似基元集合中的元素进行两两组合,该组合构成所述近似基元集合的子模式集合;

计算所述近似基元集合的子模式集合中各个元素与所述基元集合的子模式集合中各个元素之间的相似度,得到各近似基元集合的第二相似度集合。

在一种可能的设计中,根据相似度运算结果,确定所述目标元素在当前软件界面上的分布信息,包括:

选取总相似度最大的近似基元集合作为候选集合;

若所述候选集合的总相似度大于预设阈值,则根据所述候选集合中界面元素的位置关系,确定所述目标元素在当前软件界面上的分布信息。

在一种可能的设计中,所述根据相似度运算结果,确定所述目标元素在当前软件界面上的分布信息之后,还包括:

根据所述分布信息,执行对所述目标元素的访问操作。

在一种可能的设计中,所述基于目标元素的结构模式及所述界面元素,进行相似度运算,还包括:

将所述目标元素对应的结构模式与所述当前软件界面中各个界面元素对应的结构模式进行相似度匹配运算。

在一种可能的设计中,所述基于目标元素的结构模式及所述界面元素,进行相似度运算之前,还包括:

提取模板软件界面的所有界面元素作为候选元素;

从所述候选元素中选取目标元素,并获取所述目标元素对应的结构模式。

在一种可能的设计中,所述从所述候选元素中选取目标元素,并获取所述目标元素对应的结构模式,包括:

获取与所述目标元素关联的结构元素;

根据所述目标元素、所述结构元素、所述目标元素和所述结构元素两两之间的位置关系,生成所述目标元素的候选模式;

确定所述模板软件界面中所述候选模式对应的位置关系不唯一,则重新选取与所述目标元素关联的结构元素;

确定所述模板软件界面中所述候选模式的位置关系,将所述候选模式作为所述目标元素对应的结构模式。

在一种可能的设计中,所述提取模板软件界面的所有界面元素作为候选元素,包括:

截取模板软件界面的界面图像;

通过光学字符识别ocr技术,或者预先训练的深度学习模型,从所述模板软件界面的界面图像中提取出所有界面元素作为候选元素。

在一种可能的设计中,所述结构元素包括:图标元素、文本元素、按键元素中的任一或任多项元素。

第二方面,本申请还提供一种结合rpa和ai的软件界面元素的识别装置,包括:

提取模块,用于提取当前软件界面中的界面元素;

匹配模块,用于基于目标元素的结构模式及所述界面元素,进行相似度运算;

识别模块,用于根据相似度运算结果,确定所述目标元素在当前软件界面上的分布信息。

在一种可能的设计中,所述提取模块,具体用于:

截取当前软件界面的界面图像;

通过光学字符识别ocr技术,或者预先训练的深度学习模型,从所述界面图像中提取出所有界面元素。

在一种可能的设计中,所述结构模式,包括:

目标元素及结构元素组成的基元集合;以及基元集合中各元素两两之间的位置关系的位置关系集合。

在一种可能的设计中,所述匹配模块,具体用于:

根据所述基元集合,确定当前软件界面中的所有近似基元集合;

对各近似基元集合,基于所述基元集合中各元素与所述基元集合中各元素的相似度,得到各近似基元集合的第一相似度集合;

基于各近似基元集合中两两元素之间的位置关系,与所述基元集合中对应的两两元素之间的位置关系的相似度,确定各近似基元集合的第二相似度;

基于所述第一相似度集合及所述第二相似度,确定所述基元集合与各近似基元集合的总相似度。

在一种可能的设计中,所述匹配模块,具体用于:

查找与所述基元集合中的目标元素匹配的界面元素,构成目标元素对应的第一界面元素集合;

分别查找与所述基元集合中的各个结构元素匹配的界面元素,构成各个结构元素对应的第二界面元素集合;其中,所述基元集合中的每个结构元素对应一个独立的第二界面元素集合;

分别从所述第一界面元素集合以及各个第二界面元素集合中任取一个界面元素,构成所述近似基元集合。

在一种可能的设计中,所述匹配模块,具体用于:

获取所述近似基元集合中第一界面元素与所述基元集合中目标元素的相似度,以及所述近似基元集合中各个第二界面元素与所述基元集合中对应的各个结构元素的相似度,得到所述近似基元集合的第一相似度集合。

在一种可能的设计中,所述匹配模块,具体用于:

对所述基元集合中的元素进行两两组合,该组合构成所述基元集合的子模式集;

对各近似基元集合中的元素进行两两组合,该组合构成所述近似基元集合的子模式集合;

计算所述近似基元集合的子模式集合中各个元素与所述基元集合的子模式集合中各个元素之间的相似度,得到各近似基元集合的第二相似度集合。

在一种可能的设计中,所述识别模块,具体用于:

选取总相似度最大的近似基元集合作为候选集合;

若所述候选集合的总相似度大于预设阈值,则根据所述候选集合中界面元素的位置关系,确定所述目标元素在当前软件界面上的分布信息。

在一种可能的设计中,还包括:执行模块,用于:

根据所述分布信息,执行对所述目标元素的访问操作。

在一种可能的设计中,所述匹配模块,还用于:

将所述目标元素对应的结构模式与所述当前软件界面中各个界面元素对应的结构模式进行相似度匹配运算。

在一种可能的设计中,还包括:获取模块,用于:

提取模板软件界面的所有界面元素作为候选元素;

从所述候选元素中选取目标元素,并获取所述目标元素对应的结构模式。

在一种可能的设计中,所述获取模块,还用于:

获取与所述目标元素关联的结构元素;

根据所述目标元素、所述结构元素、所述目标元素和所述结构元素两两之间的位置关系,生成所述目标元素的候选模式;

确定所述模板软件界面中所述候选模式对应的位置关系不唯一,则重新选取与所述目标元素关联的结构元素;

确定所述模板软件界面中所述候选模式的位置关系,将所述候选模式作为所述目标元素对应的结构模式。

在一种可能的设计中,所述获取模块,还用于:

截取模板软件界面的界面图像;

通过光学字符识别ocr技术,或者预先训练的深度学习模型,从所述模板软件界面的界面图像中提取出所有界面元素作为候选元素。

在一种可能的设计中,所述结构元素包括:图标元素、文本元素、按键元素中的任一或任多项元素。

第三方面,本申请还提供一种电子设备,包括:

处理器;以及,

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任意一种结合rpa和ai的软件界面元素的识别方法。

第四方面,本申请实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意一种结合rpa和ai的软件界面元素的识别方法。

本申请提供一种结合rpa和ai的软件界面元素的识别方法、装置、设备及存储介质,通过基于目标元素的结构模式及所述界面元素,进行相似度运算;根据相似度运算结果,确定所述目标元素在当前软件界面上的分布信息。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请根据一示例实施例示出的结合rpa和ai的软件界面元素的识别方法的应用场景图;

图2为本申请根据一示例实施例示出的结合rpa和ai的软件界面元素的识别方法的流程示意图;

图3为本申请根据另一示例实施例示出的结合rpa和ai的软件界面元素的识别方法的流程示意图;

图4为本申请根据一示例实施例示出的结合rpa和ai的软件界面元素的识别装置的结构示意图;

图5为本申请根据另一示例实施例示出的结合rpa和ai的软件界面元素的识别装置的结构示意图;

图6为本申请根据一示例实施例示出的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在机器人流程自动化(roboticprocessautomation,rpa)领域,为了实现流程的自动化,软件机器人需要经常访问软件界面上的控件元素(简称界面元素),并针对这些界面元素进行操作,以执行相应的操作任务。现有技术中,为了保证自动化流程的准确性,软件机器人在运行流程时需要精准地识别目标元素的位置,并对其进行自动化操作。在远程桌面或虚拟机等应用场景,一般是通过计算机视觉的技术检测界面元素,并提取其特征属性作为在流程运行时界面元素的匹配依据。然而,这种匹配方式并不稳定,很容易导致目标元素匹配错误或匹配失败,使得自动化流程的准确度低下。

针对上述技术问题,本申请提供一种结合rpa和ai的软件界面元素的识别方法与装置,可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。图1为本申请根据一示例实施例示出的结合rpa和ai的软件界面元素的识别方法的应用场景图,如图1所示,界面元素(如输入框)其自身的特征属性信息并不稳定可靠,很容易导致界面元素匹配错误或匹配失败。实际上,可以充分利用界面元素其周边的环境信息进行匹配与定位。不失一般性,如图1所示,需要匹配的目标元素为“主机名(h)”下方的输入框控件,其周边的环境信息设定为如图所示的“辅助匹配元素1”、“辅助匹配元素2”和“辅助匹配元素3”这三个界面元素。这4个界面元素(1个目标元素+3个辅助匹配有的元素)在空间平面形成某种特定的结构图形,如图1中的粗线条所示区域,这种结构图形可看作一种结构模式,可以采用结构模式识别的方法查找软件界面中与该结构模式一致或相似的结构模式,从而最终确定目标元素的位置。通俗地讲,需要确定某个类型为输入框的目标元素,其上方、右侧和下侧均有一个输入框,那满足该条件的界面元素只有“主机名(h)”下方的输入框元素,其即为要查找的目标元素。

应用上述方法可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

图2为本申请根据一示例实施例示出的结合rpa和ai的软件界面元素的识别方法的流程示意图,如图2所示,本实施例提供的方法可以包括:

步骤101、提取当前软件界面中的界面元素。

本实施例中,软件机器人可以截取当前软件界面的界面图像。然后基于自然语言处理(naturallanguageprocessing,简称nlp)技术以及自然语言理解(naturallanguageunderstanding,简称nlu)技术,通过光学字符识别ocr(opticalcharacterrecognition,光学字符识别)技术,或者预先训练的深度学习模型,从界面图像中提取出所有界面元素。

具体地,软件界面中的界面元素主要包括文本、图标与控件。一般情况下,控件元素都会存在一个文本元素(label)对其进行标识,如:按钮按件里面一般存在一段简单的文本标识该按钮的功能(如:“确定”或“取消”等);输入框按件的左侧或上侧一般也会存在一段简单的文本标识该输入框的功能(如:“用户名”或“密码”等);因此,在对界面元素进行匹配查找时,可以充分地利用这些作为标识用的label信息进行辅助。这些label信息即本申请中所说的“锚点”。下面对“锚点”作更一般的定义与说明。“锚点”可理解为参照点,类似路标,形态稳定不变(位置可以变动),很容易被辨识,且是全局唯一的。在这里,“锚点”可以是图标,也可以是一段文本。因此,对文本元素,通过光学字符识别ocr技术进行检测,检测出界面中每一段文本的位置及其文字内容;针对图标与控件元素,可以通过基于深度学习目标检测算法(如ssd\fasterr-cnn等)检测出界面中图标与控件元素所在的位置及类别。

步骤102、基于目标元素的结构模式及界面元素,进行相似度运算。

本实施例中,结构模式,包括:目标元素及结构元素组成的基元集合;以及基元集合中各元素两两之间的位置关系的位置关系集合。

本实施例中,根据基元集合,确定当前软件界面中的所有近似基元集合;对各近似基元集合,基于所述基元集合中各元素与基元集合中各元素的相似度,得到各近似基元集合的第一相似度集合;基于各近似基元集合中两两元素之间的位置关系,与基元集合中对应的两两元素之间的位置关系的相似度,确定各近似基元集合的第二相似度集合;基于第一相似度集合及第二相似度集合,确定基元集合与各近似基元集合的总相似度。

示例性的,将基元集合记为集合_e,_e:其中_t0表示目标元素,_a0表示第1个结构元素,_an表示第n个结构元素;

从当前软件界面中查找与基元集合中各个元素相匹配的界面元素,所有找到的界面元素构成集合c,c:其中,t00表示第1个与目标元素匹配的界面元素,t01表示第2个与目标元素匹配的界面元素,t0x表示第x个与目标元素匹配的界面元素;a00表示第1个与第1个结构元素匹配的界面元素,a01表示第2个与第1个结构元素匹配的界面元素,a0y表示第y个与第1个结构元素匹配的界面元素;an0表示第1个与第n个结构元素匹配的界面元素,an1表示第2个与第n个结构元素匹配的界面元素,anz表示第z个与第n个结构元素匹配的界面元素;其中,x,y,n为大于0的自然数;

从集合c的每一行元素中任选一个元素,构成近似基元集合。

示例性的,分别计算集合c中各个元素与基元集合中对应位置处元素之间的相似度,得到相似度集合s1;

s1:其中,st00表示界面元素t00与目标元素_t0之间的相似度,st01表示界面元素t01与目标元素_t0之间的相似度,st0x表示界面元素t0x与目标元素_t0之间的相似度;sa00表示界面元素a00与第1个结构元素之间的相似度,sa01表示界面元素a01与第1个结构元素之间的相似度,sa0y表示界面元素a0y与第1个结构元素之间的相似度;san0表示界面元素an0与第n个结构元素之间的相似度,san1表示界面元素an1与第n个结构元素之间的相似度,sanz表示界面元素anz与第n个结构元素之间的相似度;根据相似度集合s1,查找每个近似基元集合的各个元素对应的相似度,并计算近似基元集合中各个元素的相似度,得到各近似基元集合的第一相似度集合。

示例性的,对基元集合中的元素进行两两组合,组合构成基元集合的子模式集合_l;对各近似基元集合中的元素进行两两组合,组合构成近似基元集合的子模式集合li,其中,i的取值为1,2,...,m,m表示近似基元集合的总数;计算近似基元集合的子模式集合中各个元素与基元集合的子模式集合中各个元素之间的相似度,得到各近似基元集合的第二相似度集合。

示例性的,将近似基元集合的第一相似度集合和第二相似度集合中各个相似度之和作为近似基元集合的总相似度。

本领域技术人员可以采用其他方式基于第一相似度集合和第二相似度集合确定近似基元集合的总相似度,本申请不限定于此。

具体地,目标元素是指需要匹配查找的目标界面元素,可以是控件、文本或图标。结构元素是指作为环境信息用于辅助目标元素的匹配与查找,可以是控件、文本或图标。元素位置关系是指各元素之间的相对位置关系,如左上,右上,上侧及下侧等共8个方位,也可以是两个元素的相对距离和角度。目标元素、结构元素及元素位置关系一起构成了结构模式。目标元素和结构元素统称为模式基元,

界面元素与模式基元的匹配方式遵循以下规则:若模式基元为常用控件,则匹配其类别;若为文本,则匹配其文本字符串;若为图标,则使用模板匹配的方式进行匹配。

针对基元集合_e(包含n+2个元素),将其中的元素两两组合(如_t0&_ai,_ai&_aj等)构成“元素位置关系”的子模式构成的第一集合_l,显然,集合_l有个子项。

针对集合c,从每一行任取一个元素,组成近似基元集合e,显然,集合e有k=(x+1)*(y+1)*…*(z+1)个子项。然后,针对e的每个子项ei,与集合_e类似,将其中的元素两两组合构成候选子模式构成的第二集合li,同理,集合li也有个子项。各个集合可表示如下所示

其中,第一集合_l中的_i表示第i个子模式(如_ai&_aj);集合e中的ei表示一种可能的组合模式;第二集合li中的_lix表示候选模式ei的第x个子模式(如a0i&axj)。

为了识别出与基元集合_e最相似的候选模式ei,需要匹配每一个候选子模式构成的第二集合li与目标子模式构成的第一集合_l的相似度。li与_l的匹配方式为分别匹配对应元素(如_lj与lij)的相似度,并计算其平均相似度值,作为第二相似度s2。子模式_lj与lij的匹配依据主要为空间位置相对关系,若其空间相对位置一致或相近,则匹配度高;反之,则匹配度低(或为0)。

步骤103、根据相似度运算结果,确定目标元素在当前软件界面上的分布信息。

本实施例中,选取总相似度最大的近似基元集合作为候选集合;若候选集合的总相似度大于预设阈值,则根据候选集合中界面元素的位置关系,确定目标元素在当前软件界面上的分布信息。

具体地,通过步骤102可以得到每个近似基元集合ei。基于ei的第一相似度集合和第二相似度集合确定总相似度s,取s的最大值smax,若smax大于设定的阀值th,则确定对应的近似基元集合与目标元素的结构模式最为匹配,根据该近似基元集合中各个界面元素之间的位置关系确定目标元素在当前软件界面上的分布信息。

本实施例,通过提取当前软件界面中的界面元素;基于目标元素的结构模式及界面元素,进行相似度运算;根据相似度运算结果,确定目标元素在当前软件界面上的分布信息。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

进一步地,在确定目标元素在当前软件界面上的分布信息之后,可以根据分布信息,执行对目标元素的访问操作。

在一种可能的实施方式中,根据分布信息,执行对目标元素的访问操作。

具体地,在获取到目标元素的分布信息之后,可以对目标元素进行访问,例如对目标元素的拾取与模拟操作。

图3为本申请根据另一示例实施例示出的结合rpa和ai的软件界面元素的识别方法的流程示意图,如图3所示,本实施例提供的方法可以包括:

步骤201、获取模板软件界面的目标元素和结构模式。

需要说明的是,在试图基于目标元素的结构模式及界面元素,进行相似度运算之前,可以提取模板软件界面的所有界面元素作为候选元素,并从候选元素中选取目标元素,并获取目标元素对应的结构模式。

本实施例中,可以截取模板软件界面的界面图像;通过光学字符识别ocr技术,或者预先训练的深度学习模型,从模板软件界面的界面图像中提取出所有界面元素作为候选元素;从候选元素中选取目标元素,以及与目标元素关联的结构元素;其中,结构元素包括:图标元素、文本元素、按键元素中的任一或任多项元素;根据目标元素和结构元素之间的位置关系,生成目标元素的候选模式;候选模式包括:目标元素和结构元素的空间位置所构成的连接结构图;判断候选模式的形式是否唯一,若不唯一,则重新选取与目标元素关联的结构元素,直到构成的候选模式的形式唯一;将形式唯一的候选模式作为目标元素对应的结构模式。

具体地,还可以截取模板软件界面的界面图像。针对文本元素,通过ocr技术进行检测,检测出界面中每一段文本的位置及其文字内容;针对图标与控件元素,可以通过基于深度学习目标检测算法(如ssd\fasterr-cnn等)检测出界面中图标与控件元素所在的位置及类别。将提取出的所有界面元素作为候选元素,选取待操作的目标元素,目标元素可以是控件、文本及图标,目标元素的数目只能是一个。然后,选取目标元素周边的界面元素作为结构元素。结构元素可以是控件、文本及图标,其数目可以单个也可以多个。根据目标元素和结构元素之间的位置关系,生成目标元素的候选模式;候选模式包括:目标元素和结构元素的空间位置所构成的连接结构图。为了确保该结构模式精准查找,需要校验该候选模式是否唯一,若不唯一,则重新选取与目标元素关联的结构元素,直到构成的候选模式的形式唯一;将形式唯一的候选模式作为目标元素对应的结构模式。将生成其结构模式的特征信息并保存至rpa流程源码中,特征信息主要包括目标元素的类别、位置、文本内容;结构元素的类别、位置及文本内容等信息。

步骤202、提取当前软件界面中的界面元素。

步骤203、基于目标元素的结构模式及界面元素,进行相似度运算。

步骤204、根据相似度运算结果,确定目标元素在当前软件界面上的分布信息。

步骤205、根据分布信息,执行对目标元素的访问操作。

本实施例中,步骤202~步骤205的具体实现过程和技术原理请参见图2所示的方法中步骤101~步骤104中的相关描述,此处不再赘述。

本实施例,通过提取当前软件界面中的界面元素;基于目标元素的结构模式及界面元素,进行相似度运算;根据相似度运算结果,确定目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

另外,本实施例还可以截取模板软件界面的界面图像;通过光学字符识别ocr技术,或者预先训练的深度学习模型,从模板软件界面的界面图像中提取出所有界面元素作为候选元素;从候选元素中选取目标元素,以及与目标元素关联的结构元素;其中,结构元素包括:图标元素、文本元素、按键元素中的任一或任多项元素;根据目标元素和结构元素之间的位置关系,生成目标元素的候选模式;候选模式包括:目标元素和结构元素的空间位置所构成的连接结构图;判断候选模式的形式是否唯一,若不唯一,则重新选取与目标元素关联的结构元素,直到构成的候选模式的形式唯一;将形式唯一的候选模式作为目标元素对应的结构模式。

图4为本申请根据一示例实施例示出的结合rpa和ai的软件界面元素的识别装置的结构示意图。如图4所示,本实施例的结合rpa和ai的软件界面元素的识别装置可以包括:

提取模块31,用于提取当前软件界面中的界面元素;

匹配模块32,用于基于目标元素的结构模式及界面元素,进行相似度运算;

识别模块33,用于根据相似度运算结果,确定目标元素在当前软件界面上的分布信息。

在一种可能的设计中,提取模块31,具体用于:

截取当前软件界面的界面图像;

通过光学字符识别ocr技术,或者预先训练的深度学习模型,从界面图像中提取出所有界面元素。

在一种可能的设计中,结构模式,包括:

目标元素及结构元素组成的基元集合;以及基元集合中各元素两两之间的位置关系的位置关系集合。

在一种可能的设计中,匹配模块32,具体用于:

根据基元集合,确定当前软件界面中的所有近似基元集合;

对各近似基元集合,基于所述基元集合中各元素与基元集合中各元素的相似度,得到各近似基元集合的第一相似度集合;

基于各近似基元集合中两两元素之间的位置关系,与基元集合中对应的两两元素之间的位置关系的相似度,确定各近似基元集合的第二相似度;

基于第一相似度集合及第二相似度集合,确定基元集合与各近似基元集合的总相似度。

在一种可能的设计中,匹配模块32,具体用于:

将基元集合记为集合_e,其中_t0表示目标元素,_a0表示第1个结构元素,_an表示第n个结构元素;

从当前软件界面中查找与基元集合中各个元素相匹配的界面元素,所有找到的界面元素构成集合c,其中,t00表示第1个与目标元素匹配的界面元素,t01表示第2个与目标元素匹配的界面元素,t0x表示第x个与目标元素匹配的界面元素;a00表示第1个与第1个结构元素匹配的界面元素,a01表示第2个与第1个结构元素匹配的界面元素,a0y表示第y个与第1个结构元素匹配的界面元素;an0表示第1个与第n个结构元素匹配的界面元素,an1表示第2个与第n个结构元素匹配的界面元素,anz表示第z个与第n个结构元素匹配的界面元素;其中,x,y,n为大于0的自然数;

从集合c的每一行元素中任选一个元素,构成近似基元集合。

在一种可能的设计中,匹配模块32,具体用于:

述基元集合中对应位置处元素之间的相似度,得到相似度集合s1;分别计算集合c中各个元素与所

其中,st00表示界面元素t00与目标元素_t0之间的相似度,st01表示界面元素t01与目标元素_t0之间的相似度,st0x表示界面元素t0x与目标元素_t0之间的相似度;sa00表示界面元素a00与第1个结构元素之间的相似度,sa01表示界面元素a01与第1个结构元素之间的相似度,sa0y表示界面元素a0y与第1个结构元素之间的相似度;san0表示界面元素an0与第n个结构元素之间的相似度,san1表示界面元素an1与第n个结构元素之间的相似度,sanz表示界面元素anz与第n个结构元素之间的相似度;

根据相似度集合s1,查找每个近似基元集合的各个元素对应的相似度,并计算近似基元集合中各个元素的相似度之和的平均值,得到各近似基元集合的第一相似度集合。

在一种可能的设计中,匹配模块32,具体用于:

对基元集合中的元素进行两两组合,组合构成基元集合的子模式集合_l;

对各近似基元集合中的元素进行两两组合,组合构成近似基元集合的子模式集合li,其中,i的取值为1,2,...,m,m表示近似基元集合的总数;

计算近似基元集合的子模式集合中各个元素与基元集合的子模式集合中各个元素之间的相似度,得到各近似基元集合的第二相似度。集合

在一种可能的设计中,匹配模块32,具体用于:

将近似基元集合的第一相似度集合和第二相似度之和作为近似基元集合的总相似度。

在一种可能的设计中,识别模块33,具体用于:

选取总相似度最大的近似基元集合作为候选集合;

若候选集合的总相似度大于预设阈值,则根据候选集合中界面元素的位置关系,确定目标元素在当前软件界面上的分布信息。

在一种可能的设计中,还包括:执行模块34,用于:

根据所述分布信息,执行对所述目标元素的访问操作。

在一种可能的设计中,匹配模块32,还用于:

将所述目标元素对应的结构模式与所述当前软件界面中各个界面元素对应的结构模式进行相似度匹配运算。

本实施例提供的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本实施例,通过基于目标元素的结构模式及界面元素,进行相似度运算;根据相似度运算结果,确定目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

在图4所示实施例的基础上,图5为本申请根据另一示例实施例示出的结合rpa和ai的软件界面元素的识别装置的结构示意图,如图5所示,本实施例提供的结合rpa和ai的软件界面元素的识别装置,还包括:

获取模块35,用于提取模板软件界面的所有界面元素作为候选元素;

从所述候选元素中选取目标元素,并获取所述目标元素对应的结构模式。

在一种可能的设计中,获取模块35,还用于:

获取与所述目标元素关联的结构元素;

根据所述目标元素、所述结构元素、所述目标元素和所述结构元素两两之间的位置关系,生成所述目标元素的候选模式;

确定所述模板软件界面中所述候选模式对应的位置关系不唯一,则重新选取与所述目标元素关联的结构元素;

确定所述模板软件界面中所述候选模式的位置关系,将所述候选模式作为所述目标元素对应的结构模式。

在一种可能的设计中,获取模块35,还用于:

截取模板软件界面的界面图像;

通过光学字符识别ocr技术,或者预先训练的深度学习模型,从模板软件界面的界面图像中提取出所有界面元素作为候选元素。

在一种可能的设计中,结构元素包括:图标元素、文本元素、按键元素中的任一或任多项元素。

本实施例提供的装置,可以用于执行图2、图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本实施例,通过基于目标元素的结构模式及界面元素,进行相似度运算;根据相似度运算结果,确定目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

图6为本申请根据一示例实施例示出的电子设备的结构示意图。如图6所示,本实施例提供的一种电子设备40,包括:

处理器401;以及,

存储器402,用于存储处理器的可执行指令,该存储器还可以是flash(闪存);

其中,处理器401配置为经由执行可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地,存储器402既可以是独立的,也可以跟处理器401集成在一起。

当存储器402是独立于处理器401之外的器件时,电子设备40,还可以包括:

总线403,用于连接处理器401以及存储器402。

本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述的各种实施方式提供的方法。

本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1