样本集生成、页面元素识别模型训练方法及装置与流程

文档序号:36180361发布日期:2023-11-29 17:40阅读:29来源:国知局
样本集生成的制作方法

本公开涉及计算机,具体涉及图像处理、自然语言处理和深度学习等,尤其涉及一种样本集生成、页面元素识别模型训练方法及装置。


背景技术:

1、前端智能化是业界重要发展方向之一,所谓前端智能化,即是用户上传网页设计图,无需开发,直接生成网页代码。如何识别到用户上传图片中的元素,是其中重要一步。通用方法是通过深度学习,输入大量预先标注好元素位置的样本图片,生成针对性深度学习模型,使用该模型便可以预测用户输入图片中包含的元素。标注样本图片的数量越多,预测效果越好。


技术实现思路

1、本公开提供了一种用于样本集生成方法、装置、电子设备及存储介质。

2、根据本公开的第一方面,提供了一种样本集生成方法,包括:获取待处理的页面区域,并确定所述页面区域内的初始元素和初始标记点,所述页面区域用于样本生成;获取所述初始元素预设的缩放参数集合,并根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点;针对任一初始样本,获取所述初始样本的替换元素集合,并分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本;基于各候选样本和各候选样本的候选标记点,生成所述页面区域内的目标训练样本集合。

3、根据本公开的第二方面,提供了一种页面元素识别模型训练方法,包括:获取待训练的初始页面元素识别模型,并通过如第一方面实施例所述的样本集生成方法对目标页面进行处理,以获取所述目标页面的训练样本集;基于所述训练样本集对所述初始页面元素识别模型进行训练,直至训练完成,生成目标页面元素识别模型。

4、根据本公开的第三方面,提供了一种样本集生成装置,包括:获取模块,用于获取待处理的页面区域,并确定所述页面区域内的初始元素和初始标记点,所述页面区域用于样本生成;变形模块,用于获取所述初始元素预设的缩放参数集合,并根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点;更新模块,用于针对任一初始样本,获取所述初始样本的替换元素集合,并分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本;生成模块,用于基于各候选样本和各候选样本的候选标记点,生成所述页面区域内的目标训练样本集合。

5、根据本公开的第四方面,提供了一种页面元素识别模型训练装置,包括:调用模块,用于获取待训练的初始页面元素识别模型,并通过如第一方面实施例所述的样本集生成方法对目标页面进行处理,以获取所述目标页面的训练样本集;训练模块,用于基于所述训练样本集对所述初始页面元素识别模型进行训练,直至训练完成,生成目标页面元素识别模型。

6、根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的样本集生成方法。

7、根据本公开第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序/指令,所述计算机指令用于使所述计算机执行上述一方面实施例所述的样本集生成方法。

8、根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述一方面实施例所述的样本集生成方法。

9、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种样本集生成方法,包括:

2.根据权利要求1所述的方法,其中,所述根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点,包括:

3.根据权利要求2所述的方法,其中,基于所述缩放中心、所述缩放参数集合中的各缩放参数对所述初始元素进行变形处理,包括:

4.根据权利要求3所述的方法,其中,所述分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本,包括:

5.根据权利要求4所述的方法,其中,所述分别基于所述替换元素集合中的各替换元素对所述初始样本进行替换处理,包括:

6.根据权利要求5所述的方法,其中,所述将所述目标替换元素集合中的元素对对应可替换元素进行替换处理,包括:

7.根据权利要求5所述的方法,其中,所述将所述目标替换元素集合中的元素对对应可替换元素进行替换处理,包括:

8.根据权利要求2所述的方法,其中,基于所述缩放中心、所述缩放参数集合中的各缩放参数对所述初始标记点进行变形处理,包括:

9.根据权利要求8所述的方法,其中,所述基于所述缩放参数、所述第一坐标和所述第二坐标计算坐标迁移值,包括:

10.根据权利要求1所述的方法,其中,所述确定所述页面区域内的初始元素,包括:

11.一种页面元素识别模型训练方法,其中,包括:

12.一种样本集生成装置,包括:

13.根据权利要求12所述的装置,其中,所述变形模块,还用于:

14.根据权利要求13所述的装置,其中,所述变形模块,还用于:

15.根据权利要求14所述的装置,其中,所述更新模块,还用于:

16.根据权利要求15所述的装置,其中,所述更新模块,还用于:

17.根据权利要求16所述的装置,其中,所述更新模块,还用于:

18.根据权利要求16所述的装置,其中,所述更新模块,还用于:

19.根据权利要求13所述的装置,其中,所述变形模块,还用于:

20.根据权利要求19所述的装置,其中,所述变形模块,还用于:

21.根据权利要求12所述的装置,其中,获取模块,用于:

22.一种页面元素识别模型训练装置,其中,包括:

23.一种电子设备,其中,包括存储器、处理器;

24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如权利要求1-10中任一项所述的样本集生成方法,或者实现如权利要求11所述的页面元素识别模型训练方法。

25.一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现如权利要求1-10中任一项所述的样本集生成方法,或者实现如权利要求11所述的页面元素识别模型训练方法。


技术总结
本公开提供了一种样本集生成、页面元素识别模型训练方法及装置,该方案为:获取页面区域,并确定页面区域内的初始元素和初始标记点;获取初始元素预设的缩放参数集合,并根据缩放参数集合中的各缩放参数分别对初始元素和初始标记点进行变形处理,得到初始样本集合和候选标记点;针对任一初始样本,获取初始样本的替换元素集合,并分别基于替换元素集合中的各替换元素对初始样本进行更新,得到更新后的候选样本;基于各候选样本和各候选样本的候选标记点,生成页面区域内的目标训练样本集合。通过对一个页面区域进行替换拉伸处理,生成包含大量训练样本的目标训练样本集合,增加了样本的多样性和丰富度,解决了样本难以获取或者较少的问题。

技术研发人员:李宇航
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1