一种基于机器识别的word文档转换方法、装置及存储介质与流程

文档序号:34653065发布日期:2023-06-29 21:31阅读:50来源:国知局
一种基于机器识别的word文档转换方法、装置及存储介质与流程

本发明属于数据处理,具体涉及一种基于机器识别的word文档转换方法、装置及存储介质。


背景技术:

1、二十一世纪以来,随着互联网的快速发展,技术论坛、博客、社区等应用也逐渐流行起来,前述应用为人们提供了沟通交流的平台,促进了不同人群之间的相互学习;同时,为保证人们在前述应用上的快速发文,各类特色编辑器也随之出现;但是,现有的编辑器却不能很好的支持或者是不支持本地word文档的快速导入发文,其存在以下不足:

2、目前市面上的编辑器仅仅能够转换基本的段落、表格、图片等格式,而且转换出来时,文本样式会大幅度丢失,只能保证内容完整,而不能保证文本样式完整;同时,word文档中存在代码块时,导入时无法识别,会变为普通文本;基于此,如何提供一种能够将已有的word文档,快速、高还原度地转换成发布文档的转换方法,已成为一个亟待解决的问题。


技术实现思路

1、本发明的目的是提供一种基于机器识别的word文档转换方法、装置及存储介质,用以解决现有技术在进行word文档转换时无法保证文本样式完整,以及无法识别代码块的问题。

2、为了实现上述目的,本发明采用以下技术方案:

3、第一方面,提供了一种基于机器识别的word文档转换方法,包括:

4、获取目标word文档,并将所述目标word文档转换为html文档;

5、对所述html文档进行样式修正处理,得到样式修正后的html文档;

6、对所述样式修正后的html文档内的字符串进行段落划分处理,得到预转换文档;

7、从所述预转换文档中的各个文本段落中,筛选出代码文本段落,并将所述代码文本段落输入至代码识别模型中进行代码种类识别处理,得到所述代码文本段落对应的代码种类;

8、基于所述代码文本段落对应的代码种类,对所述预转换文档中的代码文本段落进行编程语言标识处理,以在编程语言标识处理完成后,得到所述目标word文档对应的html转换文档。

9、基于上述公开的内容,本发明在进行文档转换时,先进行格式转换,也就是将目标word文档转换为html文档,前述操作能够使转换后的文档被现有的编辑器所识别,从而减少用户发布时重新编辑的时间成本;接着,本发明对html文档进行样式修正处理,以保证转换后的文档中的样式与原文档中的文本样式相同;在完成样式修正后,则可进行代码块的识别,以便使转换后的文档能够得到原文档中的代码块;其中,在具体实施时,本发明先对样式修正后的html文档内的字符串进行段落划分处理,得到若干文本段落,而后,再识别出属于代码块的文本段落,以便将属于代码块的文本段落输入至代码识别模型中进行代码种类识别处理,得到各个代码文本段落所属的代码种类;最后,利用识别出的代码种类,对各个代码文本段落进行编程语言标识处理,即可完成对目标word文档的转换,得到发布文档(即html转换文档)。

10、通过上述设计,本发明在进行文档转换时,对格式转换后的文档进行了样式修正处理,如此,可保留原word文档中的文本样式;同时,利用机器识别技术,来对样式修正后的各个文本段落进行代码种类识别,以基于各个文本段落的代码种类,来进行编程语言标识;由此,本发明在文档转换时,可保留原文本中的文本样式,且能够准确识别出文档中的代码块文本,以及所属的编程语言,由此,使得用户不用重复的复制粘贴、重新编写代码以及重新设置文本样式,可实现各类技术文章的快速发布,适用于在文档转换领域的广泛应用与推广。

11、在一个可能的设计中,对所述html文档进行样式修正处理,得到样式修正后的html文档,包括:

12、对所述html文档进行标签过滤处理,以滤除所述html文档中的无用标签,得到预处理后的html文档;

13、对所述预处理后的html文档中的各个标签进行标签替换处理,以在标签替换处理后,得到标签替换文档,其中,所述标签替换文档中各个标签的名称以及属性,与所述目标word文档中各个标签的名称以及属性相同;

14、对所述标签替换文档中的各个第一指定标签进行从属归类处理,以将所述标签替换文档中具有同一从属关系的第一指定标签构建为有序列表或无序列表,并在从属归类处理后,得到标签从属归类文档;

15、从所述标签从属归类文档中筛选出第二指定标签,并将所述第二指定标签对应的标签内容上传至云管理平台,以得到所述第二指定标签对应标签内容的访问地址,其中,所述第二指定标签包括图片标签;

16、将所述第二指定标签中的src内容替换为所述第二指定标签对应标签内容的访问地址,以在src内容替换完毕后,得到所述样式修正后的html文档。

17、在一个可能的设计中,对所述预处理后的html文档中的各个标签进行标签替换处理,以在标签替换处理后,得到标签替换文档,包括:

18、从所述预处理后的html文档中筛选出第一目标标签和第二目标标签,其中,所述第一目标标签包括p标签,所述第二目标标签包括font标签、ins标签、i标签以及del标签;

19、将所述第一目标标签的name属性内容更改为第一标签名;以及

20、将所述第二目标标签的name属性内容更改为第二标签名,并在所述第二目标标签中添加标签标识字符,以在标签标识字符添加完毕后,得到所述标签替换文档。

21、在一个可能的设计中,对所述标签替换文档中的各个第一指定标签进行从属归类处理,以将所述标签替换文档中具有同一从属关系的第一指定标签构建为有序列表或无序列表,并在从属归类处理后,得到标签从属归类文档,包括:

22、对于所述标签替换文档中的各个第一指定标签,获取各个第一指定标签的样式属性,其中,任一第一指定标签的样式属性包括该任一第一指定标签的所属序列、所属序列的层级以及所属序列的层级的顺序;

23、基于各个第一指定标签的样式属性,对各个第一指定标签进行从属划分处理,以将属于同一序列以及同一层级的第一指定标签划分为一类,得到若干标签类;

24、对于若干标签类中的任一标签类,按照所述任一标签类中各个第一指定标签对应所属序列的层级的顺序,对所述任一标签类中的各个第一指定标签进行排序,得到排序标签类,并在将所有标签类中的各个标签均排序完毕后,得到若干排序标签类;

25、对各个排序标签类进行样式识别,得到各个排序标签类所属的列表样式,其中,所述列表样式包括有序列表和无序列表;

26、基于各个排序标签类所属的列表样式,为各个排序标签类添加样式标识标签,以在样式标识标签添加完毕后,构建出若干有序列表和无序列表,并在有序列表和无序列表构建完成后,得到所述标签从属归类文档。

27、在一个可能的设计中,从所述预转换文档中的各个文本段落中,筛选出代码文本段落,包括:

28、对于所述预转换文档中的任一文本段落,判断所述任一文本段落的起始位置处的字符是否为预设种类字符,其中,所述预设种类字符包括英文字符;

29、若是,则判断所述任一文本段落中是否包含有预设关键字符;

30、若是,则获取所述预设关键字符在所述任一文本段落中所处的位置;

31、判断所述预设关键字符在所述任一文本段落中所处的位置是否为预设位置;

32、若是,则判定所述任一文本段落为代码文本段落。

33、在一个可能的设计中,所述方法还包括:

34、获取数据集,其中,所述数据集包括不同编程语言对应的代码样本;

35、对所述数据集中的各个代码样本进行数据预处理,得到预处理后的数据集;

36、对所述预处理后的数据集进行特征提取处理,得到每个代码样本对应的特征向量,并利用各个代码样本对应的特征向量,组成特征数据集;

37、将所述特征数据集划分为训练集和测试集,并以所述训练集中的每个特征向量为输入,训练集中每个特征向量对应代码样本的代码种类为输出,训练随机森林分类器,以在训练完成后,得到初始代码识别模型;

38、利用所述测试集,对所述初始代码识别模型进行模型测试,并在测试过程中,调整所述初始代码识别模型的模型参数,以在模型参数调整完毕后,得到所述代码识别模型。

39、在一个可能的设计中,对所述预处理后的数据集进行特征提取处理,得到每个代码样本对应的特征向量,包括:

40、对于所述预处理后的数据集中的任一代码样本,统计所述任一代码样本中关键字符和保留字符的出现频率,得到所述任一代码样本的词汇特征;

41、统计所述任一代码样本中的第三目标字符或目标组合字符串的出现频率,得到所述任一代码样本的字符分布特征;

42、对所述任一代码样本进行语法结构分析处理,得到所述任一代码样本的语法结构特征;

43、将所述任一代码样本中连续出现多次的字符作为连续字符,并统计各个连续字符的出现频率,以作为所述任一代码样本的n-gram 特征;

44、利用所述任一代码样本的词汇特征、字符分布特征、语法结构特征以及n-gram 特征,组成所述任一代码样本的特征向量。

45、第二方面,提供了一种基于机器识别的word文档转换装置,包括:

46、文档格式转换单元,用于获取目标word文档,并将所述目标word文档转换为html文档;

47、样式修正单元,用于对所述html文档进行样式修正处理,得到样式修正后的html文档;

48、样式修正单元,还用于对所述样式修正后的html文档内的字符串进行段落划分处理,得到预转换文档;

49、代码识别单元,用于从所述预转换文档中的各个文本段落中,筛选出代码文本段落,并将所述代码文本段落输入至代码识别模型中进行代码种类识别处理,得到所述代码文本段落对应的代码种类;

50、代码识别单元,还用于基于所述代码文本段落对应的代码种类,对所述预转换文档中的代码文本段落进行编程语言标识处理,以在编程语言标识处理完成后,得到所述目标word文档对应的html转换文档。

51、第三方面,提供了另一种基于机器识别的word文档转换装置,以装置为电子设备为例,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意一种可能设计的所述基于机器识别的word文档转换方法。

52、第四方面,提供了一种存储介质,存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意一种可能设计的所述基于机器识别的word文档转换方法。

53、第五方面,提供了一种包含指令的计算机程序产品,当指令在计算机上运行时,使计算机执行如第一方面或第一方面中任意一种可能设计的所述基于机器识别的word文档转换方法。

54、有益效果:

55、(1)本发明在进行文档转换时,对格式转换后的文档进行了样式修正处理,如此,可保留原word文档中的文本样式;同时,利用机器识别技术,来对样式修正后的各个文本段落进行代码种类识别,以基于各个文本段落的代码种类,来进行编程语言标识;由此,本发明在文档转换时,可保留原文本中的文本样式,且能够准确识别出文档中的代码块文本,以及所属的编程语言,由此,使得用户不用重复的复制粘贴、重新编写代码以及重新设置文本样式,可实现各类技术文章的快速发布,适用于在文档转换领域的广泛应用与推广。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1