本发明涉及一种ui操作提取方法、装置、设备及存储介质,属于数据处理。
背景技术:
1、ui操作视频中往往记录着用户对于特定软件的操作模式,即潜在的用户任务。如何挖掘出这些ui操作任务,对rpm、pra有着重大价值。ui操作的提取大多依赖uia等库提供的操作日志来捕捉,但是对于某些商用办公软件,无法获取对应的uia数据,此时则需要通过cv的方式获取操作信息。
2、操作是一个高语义的概念,如果考虑视频分类网络或是多模态输入网络来判别操作类型,算力以及数据标注的代价过大。
技术实现思路
1、目的:鉴于以上技术问题中的至少一项,本发明提供一种ui操作提取方法、装置、设备及存储介质,表征视频中连续帧ui图像的变化,并根据图像以及ocr结果的变化推理每一帧对应的ui操作。
2、技术方案:为解决上述技术问题,本发明采用的技术方案为:
3、第一方面,本发明提供了一种ui操作提取方法,所述方法包括:
4、获取目标ui操作视频数据;其中,所述ui操作视频数据中包括多张连续帧的ui图像;
5、针对连续帧的两张ui图像,提取ui图像的特征图,并将特征图拆分成相同数量的图像块;其中前后两帧ui图像的图像块中包括相似图像块和差异图像块;
6、根据所述图像块,确定前后两帧ui图像的图像变换差异度;
7、根据前后两帧ui图像的图像变换差异度,执行对应的推理,得到目标ui操作视频数据的任务操作序列。
8、在一些实施例中,根据所述图像块,确定前后两帧ui图像的图像变换差异度,包括:
9、针对连续帧的两张ui图像的特征图,计算对应位置的图像块的相似度;
10、根据图像块的相似度和阈值确定前后两帧中相似图像块和差异图像块;
11、根据前后两帧中相似图像块的数量和ui图像中图像块的总数量,得到前后两帧ui图像的图像变换差异度。
12、在一些实施例中,根据前后两帧ui图像的图像变换差异度,执行对应的推理,包括:
13、若图像变换差异度位于第一阈值范围内,执行悬停操作推理;
14、若图像变换差异度位于第二阈值范围内,执行弹出框操作推理;
15、若图像变换差异度位于第三阈值范围内,执行功能区域窗口改变推理;
16、其中所述第一阈值范围>第二阈值范围>第三阈值范围。
17、在一些实施例中,执行悬停操作推理,包括:
18、针对连续帧的多张ui图像的特征图,检测位置连续的差异图像块中的文本信息;
19、根据差异图像块中的文本信息判断提示类型;
20、若为第一提示类型,根据统合的差异图像块的位置,返回当前悬停操作对应的组件位置;
21、若为第二提示类型,返回文本内容获得前悬停操作对应的文本提示,其中所述文本提示表征当前鼠标悬停的ui元素的功能和/或作用。
22、在一些实施例中,执行弹出框操作推理,包括:
23、针对连续帧的两张ui图像的特征图,统合所有连续的差异图像块的位置区域,得到弹出框区域及其位置信息;其中所述连续帧的两张ui图像包括时间序列在前的第一帧图像和时间序列在后的第二帧图像;
24、针对连续帧的两张ui图像的特征图,检测对应差异图像块中的文本信息以及文本信息在差异图像块中的位置信息;根据所述文本信息在差异图像块中的位置信息,获取离左上角最近的文本作为弹出框区域的主标题;
25、基于弹出框区域内的文本内容,确定弹窗框区域的副标题;
26、若在所述连续帧的两张ui图像之后出现弹出框与第一帧图像中弹出框对应区域相同的一帧ui图像,表示弹出框关闭;否则弹出框关闭默认开启状态。
27、进一步地,在弹出框关闭默认开启状态下,若图像变换差异度位于第四阈值范围内,执行弹出框内部区域性操作推理;其中所述第四阈值范围位于第二阈值范围内,且第四阈值范围的上限小于第二阈值范围的上限。
28、在一些实施例中,所述功能区域窗口改变推理包括:
29、针对连续帧的两张ui图像的特征图,统合所有连续的差异图像块的位置区域,得到功能区域及其位置信息。
30、进一步地,所述功能区域窗口改变推理还包括功能区域的标题推理,其中所述功能区域的标题推理包括:
31、针对连续帧的两张ui图像的特征图,检测对应差异图像块中的文本信息以及文本信息在差异图像块中的位置信息;根据所述文本信息在差异图像块中的位置信息,获取离左上角最近的文本作为功能区域的副标题;
32、针对所述连续帧的两张ui图像的特征图,提取功能区域变化对应的两个组件的图像特征,将第二帧图像与第一帧前一帧图像的两个组件图像特征进行相似度对比,确定原始功能区域和转变后的功能区域;分别提取两个组件的ocr文本作为功能区域的主标题。
33、进一步地,所述功能区域窗口改变推理还包括功能区域的嵌套,其中所述功能区域的嵌套包括:较大的功能区域中嵌套较小的功能区域,功能区域中出现鼠标悬停、弹出框或功能区域中的功能区域的变化;
34、统计除第一功能区域外的区域的大小,若有其他区域与第一功能区域同样大小,为平级变化;若有其他区域比第一功能区域小,为次级变化。
35、进一步地,在一些实施例中,在执行弹出框操作推理或功能区域窗口改变推理过程中,还包括滚动操作推理;所述滚动操作推理包括:
36、提取前后两帧ui图像的文本内容以及弹出框/功能区域内的文本内容;
37、根据前后两帧ui图像中的所有文本和弹出框/功能区域内相同内容的文本,计算得到文本相似度simocr;
38、
39、其中inter为前后两帧ui图像中弹出框/功能区域内相同内容的文本,union为前后两帧ui图像中的所有文本;
40、若文本相似度simocr大于第五阈值,则定位滚动操作,其中所述第五阈值小于第三阈值范围的上限;
41、计算弹出框/功能区域内相同内容的文本在横轴、纵轴的位移均值;
42、若在纵轴的位移均值变小,表示向下滚动;若在纵轴的位移均值变大,表示向上滚动;
43、若在横轴的位移均值变小,表示向左滚动;若在横轴的位移均值变大,表示向右滚动。
44、第二方面,本发明提供了一种ui操作提取装置,所述装置包括:
45、获取模块,用于获取目标ui操作视频数据;其中,所述ui操作视频数据中包括多张连续帧的ui图像;
46、提取模块,用于针对连续帧的两张ui图像,提取ui图像的特征图,并将特征图拆分成相同数量的图像块;其中前后两帧ui图像的图像块中包括相似图像块和差异图像块;
47、确定模块,用于根据所述图像块,确定前后两帧ui图像的图像变换差异度;
48、推理模块,用于根据前后两帧ui图像的图像变换差异度,执行对应的推理,得到目标ui操作视频数据的任务操作序列。
49、第三方面,本发明提供了一种设备,包括,
50、存储器;
51、处理器;
52、以及
53、计算机程序;
54、其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现上述第一方面所述的方法。
55、第四方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
56、有益效果:本发明提供的ui操作提取方法、装置、设备及存储介质,具有以下优点:本发明基于基础的cv网络,提取视频中图像的信息变化程度,并依靠这些信息推断、分类、嵌套不同的用户操作,反馈的操作信息包括打开的窗口类型以及窗口的潜在功能/标题;表征视频中连续帧ui图像的变化,并根据图像以及ocr结果的变化推理每一帧对应的ui操作。