文件生成方法、装置、电子设备及计算机可读存储介质与流程

文档序号:36792171发布日期:2024-01-23 12:12阅读:12来源:国知局
文件生成方法、装置、电子设备及计算机可读存储介质与流程

本技术实施例涉及计算机,具体涉及一种文件生成方法、装置、电子设备及计算机可读存储介质。


背景技术:

1、目前,网页转pdf格式的文件时,仅能按照固定宽高如a4尺寸进行转换,该转换会存在一定的问题,例如,当网页内容较多时,pdf文件中容易出现内容不全的情况,尤其是针对网页转多页pdf文件的情况,需要从网页对应的大图中截取得到每个pdf页,当按照固定尺寸截取时,存在某一页内容不全的问题,影响整个pdf文件内容的连贯性和可读性,影响用户体验。


技术实现思路

1、本技术实施例提供一种文件生成方法、装置、电子设备及计算机可读存储介质,可以转换得到文件内容全面的格式文件。

2、本技术实施例提供了一种文件生成方法,应用于当前设备,包括:

3、将待转换网页划分为若干待转换子区域,得到各个待转换子区域的区域宽高信息和相对位置信息;

4、对所述待转换网页进行图片格式转换,得到目标网页图片;

5、针对每个待转换子区域,根据所述待转换子区域的区域宽高信息和相对位置信息从所述目标网页图片确定目标网页子图;

6、根据各个目标网页子图以及各个目标网页子图的区域宽高信息和相对位置信息生成目标格式文件。

7、相应的,本技术实施例还提供了一种文件生成装置,包括:

8、划分模块,用于将待转换网页划分为若干待转换子区域,得到各个待转换子区域的区域宽高信息和相对位置信息;

9、转换模块,用于对所述待转换网页进行图片格式转换,得到目标网页图片;

10、确定模块,用于针对每个待转换子区域,根据所述待转换子区域的区域宽高信息和相对位置信息从所述目标网页图片确定目标网页子图;

11、生成模块,用于根据各个目标网页子图以及各个目标网页子图的区域宽高信息和相对位置信息生成目标格式文件。

12、可选的,在本技术实施例的一些实施例中,目标格式文件包括若干已知文件高度信息的子文件,生成模块包括:

13、宽度确定单元,用于根据各个目标网页子图的区域宽高信息确定所述子文件的文件宽度信息;

14、顺序确定单元,用于根据各个目标网页子图的相对位置信息确定所述各个目标网页子图之间的图顺序;

15、文件生成单元,用于根据所述图顺序、所述文件宽度信息和所述文件高度信息,将各个所述目标网页子图分配到所述子文件中,得到目标格式文件。

16、其中,在本技术实施例的一些实施例中,宽度确定单元包括:

17、第一解析子单元,用于针对每个目标网页子图,解析所述目标网页子图对应的区域宽高信息,得到所述目标网页子图对应的子图宽度信息;

18、第一确定子单元,用于若各个所述目标网页子图的子图宽度信息一致,则将任一所述目标网页子图的子图宽度信息作为所述子文件的文件宽度信息;

19、第二确定子单元,用于若各个所述目标网页子图的子图宽度信息不一致,则将各个子图宽度信息中描述宽度值最大的子图宽度信息作为所述子文件的文件宽度信息。

20、其中,在本技术实施例的一些实施例中,文件生成单元包括:

21、第二解析子单元,用于针对每个目标网页子图,解析所述目标网页子图对应的区域宽高信息,得到所述目标网页子图对应的子图高度信息;

22、筛选子单元,用于根据所述文件高度信息和各个目标网页子图的子图高度信息,从各个目标网页子图中筛选出待处理网页子图;

23、处理子单元,用于针对每个待处理网页子图,根据所述待处理网页子图的子图高度信息和所述文件高度信息,将所述待处理网页子图划分为若干子局部图,并得到各个子局部图的局部图顺序;

24、子图获取子单元,用于根据所述目标网页子图和所述待处理网页子图,得到无处理网页子图;

25、生成子单元,用于根据所述文件宽度信息,按照所述图顺序和所述局部图顺序,将各个无处理网页子图和各个子局部图,分别顺序分配到各个子文件中,得到目标格式文件。

26、其中,在本技术实施例的一些实施例中,划分模块包括:

27、识别单元,用于识别所述待转换网页包含的主题栏;

28、信息确定单元,用于确定所述主题栏所涵盖的展示区域信息和相对位置信息;

29、划分单元,用于根据所述展示区域信息和所述相对位置信息,将所述待转换网页划分为若干待转换子区域。

30、其中,在本技术实施例的一些实施例中,识别单元包括:

31、源码获取子单元,用于获取所述待转换网页对应的页面源码;

32、内容确定子单元,用于根据所述页面源码中的目标关键词确定所述待转换网页包含的主题栏;

33、信息确定单元包括:

34、参数确定子单元,用于从所述页面源码中确定所述目标关键词的标签参数;

35、区域信息确定子单元,用于根据所述标签参数确定所述主题栏的展示区域信息;

36、位置信息确定子单元,用于根据预设参考点和所述展示区域信息,确定相对位置信息。

37、其中,在本技术实施例的一些实施例中,识别单元包括:

38、截图子单元,用于对所述待转换网页进行截图,得到网页截图;

39、第一模型处理子单元,用于将所述网页截图输入到文本识别模型中,得到所述待转换网页包含的主题栏;

40、信息确定单元包括:

41、第二模型处理子单元,用于通过所述文本识别模型输出所述主题栏所涵盖的展示区域信息,以及输出所述展示区域信息相对预设参考点的相对位置信息。

42、第三方面,本技术实施例还提供了一种电子设备,电子设备包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述的文件生成方法中的步骤。

43、第四方面,本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的文件生成方法中的步骤。

44、第五方面,本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例所述的各种可选实现方式中提供的方法。

45、本技术实施例将待转换网页划分为若干待转换子区域,得到各个待转换子区域的区域宽高信息和相对位置信息,对待转换网页进行图片格式转换,得到目标网页图片,针对每个待转换子区域,根据待转换子区域的区域宽高信息和相对位置信息从目标网页图片确定目标网页子图,根据各个目标网页子图以及各个目标网页子图的区域宽高信息和相对位置信息生成目标格式文件。其中,通过对目标网页子图的选取,实现对相应待转换子区域对应的图片的选取。其中,根据待转换子区域的区域宽高信息和相对位置信息从待转换网页转换后的目标网页图片中选取得到相应的目标网页子图,相较于相关方案中根据固定尺寸选取图片容易存在的内容不全的问题,本技术实施例使选取得到的目标网页子图能够保全待转换子区域的全部内容信息,当依据选取的子图生成相应格式的文件后,确保生成的文件中保留有待转换网页的全部内容信息,确保文件信息的全面性以及提升文件内容的可读性,提升用户体验。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1