本发明属于文档信息处理和转换,尤其涉及支持保留图片的文档至轻量级标记语言转换方法及系统。
背景技术:
1、markdown是一种轻量级标记语言,用于简化文本的格式化和排版。目前已经存在一些现有技术和工具用于将office文档转换为markdown,包括开源工具、商业软件和在线服务。这些技术和工具通常通过解析office文档的结构和内容,提取文本、样式和其他元数据,并根据markdown语法规则生成相应的markdown文档。
2、然而,现有技术在将含有图片的office文档转换为markdown时可能存在一些挑战和限制。图片的处理可能需要额外的算法和工艺条件,以便将图片正确地嵌入到markdown文档中,并处理图片的大小、格式转换等需求。此外,如何处理图片的描述、注释和链接等元数据也是一个重要的考虑因素。
3、通过上述分析,现有技术存在的问题及缺陷为:现有技术在处理含有图片的office文档转换轻量级标记语言文档中,处理的信息不完整性,而且在转换中准确性差。
技术实现思路
1、为克服相关技术中存在的问题,本发明公开实施例提供了支持保留图片的文档至轻量级标记语言转换方法及系统,具体涉及一种支持保留图片的office文档至markdown转换方法。
2、所述技术方案如下:支持保留图片的文档至轻量级标记语言转换方法,包括以下步骤:
3、s1,使用spire组件读取源office文档,并提取文档中的图片信息;
4、s2,将提取到的图片上传到mongodb数据库中,根据当前日期和时间、时钟序列和硬件mac地址进行计算,生成唯一标识符;生成标识符后,在图片对应的位置信息中记录该标识符,根据位置信息定位到文档为止,将标识符和链接信息拼接,替换图片;
5、s3,编写查询mongodb图片的接口,通过接口根据图片的唯一标识符或属性从mongodb数据库中获取相应的图片内容;
6、s4,遍历源office文档中的图片位置,并将所述图片位置替换为对应图片接口的地址;
7、s5,将处理后的包含图片链接的文本以轻量级标记语言markdown格式输出,生成包含保留图片的轻量级标记语言markdown文档,将图片替换成了可以直接访问的http链接,直接被markdown查看器展示。
8、在步骤s1中,spire组件读取源office文档中,用于解析文档内容;所述文档内容包括文档、表格和演示文稿;提取的文档中的图片信息包括:图片文件位置、大小、名称。
9、在步骤s1中,提取文档中的图片信息,包括:
10、读取时先逐行读取document.xml文件流,从中获取嵌入到文档中的二进制图片数据,将二进制图片数据写入到内存;从relationships.xml中读取图片位置信息,记录到内存中。
11、在步骤s2中,生成唯一标识符,包括:使用uuid或唯一标识符生成算法生成唯一的标识符,具体包括:
12、s2.1,将时间戳格式化为一个64位的整数:使用当前日期和时间生成一个64位的整数;该整数包括高位部分和低位部分;
13、s2.2,在高位部分中插入时间戳信息:将时间戳中的48位插入到高位部分的,使生成的uuid时间有序;
14、s2.3,在低位部分中插入时钟序列:将时钟序列的14位插入到低位部分;
15、s2.4,在低位部分中插入mac地址:将mac地址的48位插入到低位部分;
16、s2.5,设置uuid版本和变体:在最终的uuid中设置版本号和变体号,以指示使用的uuid版本和变体;
17、s2.6,最终的uuid生成:将高位部分和低位部分进行组合,生成最终的128位uuid标识符。
18、在步骤s2中,在mongodb数据库中,选择将图片文件作为二进制数据存储,或者将图片存储在服务器上,并在mongodb数据库中保存图片的路径或url。
19、进一步,在文件、图片提取失败,数据库连接失败下,添加异常处理机制进行异常处理,实现错误日志记录和错误信息提示。
20、在步骤s4中,所述图片接口的地址包含图片链接的文本。
21、进一步,通过图片接口地址获取和呈现原始的图片内容。
22、进一步,该方法在博客、论坛或版本控制系统中分享和编辑文档上进行应用。
23、本发明的另一目的在于提供一种支持保留图片的文档至轻量级标记语言转换系统,该系统通过所述的支持保留图片的文档至轻量级标记语言转换方法实现,该系统包括:
24、图片信息提取模块,用于使用spire组件读取源office文档,并提取文档中的图片信息;
25、mongodb数据库,用于将提取到的图片上传到mongodb数据库中,根据当前日期和时间、时钟序列和硬件mac地址进行计算,生成唯一标识符;生成标识符后,在图片对应的位置信息中记录该标识符,根据位置信息定位到文档为止,将标识符和链接信息拼接,替换图片;
26、查询mongodb图片的接口,用于编写查询mongodb图片的接口,通过接口根据图片的唯一标识符或属性从mongodb数据库中获取相应的图片内容;
27、替换图片模块,用于遍历源office文档中的图片位置,并将所述图片位置替换为对应图片接口的地址;
28、轻量级标记语言markdown文档生成模块,用于将处理后的包含图片链接的文本以轻量级标记语言markdown格式输出,生成包含保留图片的轻量级标记语言markdown文档,将图片替换成了可以直接访问的http链接,直接被markdown查看器展示。
29、结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明可提供更精确和高效的方法来处理含有图片的office文档,并保持其在转换后的markdown文档中的完整性和准确性。
30、相比于现有技术,本发明在解决将office文档转换为markdown时,有效地保留图片的内容和格式。能够准确地将office文档中的图片嵌入到转换后的markdown文档中,确保图片在格式、大小和链接等方面的完整性,实现图片与文本的无缝转换。
1.一种支持保留图片的文档至轻量级标记语言转换方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的支持保留图片的文档至轻量级标记语言转换方法,其特征在于,在步骤s1中,spire组件读取源office文档中,用于解析文档内容;所述文档内容包括文档、表格和演示文稿;提取的文档中的图片信息包括:图片文件位置、大小、名称。
3.根据权利要求1所述的支持保留图片的文档至轻量级标记语言转换方法,其特征在于,在步骤s1中,提取文档中的图片信息,包括:
4.根据权利要求1所述的支持保留图片的文档至轻量级标记语言转换方法,其特征在于,在步骤s2中,生成唯一标识符,包括:使用uuid或唯一标识符生成算法生成唯一的标识符,具体包括:
5.根据权利要求1所述的支持保留图片的文档至轻量级标记语言转换方法,其特征在于,在步骤s2中,在mongodb数据库中,选择将图片文件作为二进制数据存储,或者将图片存储在服务器上,并在mongodb数据库中保存图片的路径或url。
6.根据权利要求5所述的支持保留图片的文档至轻量级标记语言转换方法,其特征在于,在文件、图片提取失败,数据库连接失败下,添加异常处理机制进行异常处理,实现错误日志记录和错误信息提示。
7.根据权利要求1所述的支持保留图片的文档至轻量级标记语言转换方法,其特征在于,在步骤s4中,所述图片接口的地址包含图片链接的文本。
8.根据权利要求7所述的支持保留图片的文档至轻量级标记语言转换方法,其特征在于,通过图片接口地址获取和呈现原始的图片内容。
9.根据权利要求1所述的支持保留图片的文档至轻量级标记语言转换方法,其特征在于,该方法在博客、论坛或版本控制系统中分享和编辑文档上进行应用。
10.一种支持保留图片的文档至轻量级标记语言转换系统,其特征在于,该系统通过权利要求1-9任意一项所述的支持保留图片的文档至轻量级标记语言转换方法实现,该系统包括: