模型训练方法、标准格式文档生成方法及装置与流程

文档序号:34917811发布日期:2023-07-28 00:42阅读:21来源:国知局
本公开涉及文档编辑、人工智能和金融,尤其涉及一种模型训练方法、标准格式文档生成方法、装置、设备、介质和程序产品。
背景技术
::1、论文、法律文书、公文等作为比较正式的文档,其行文格式和文字排版具有一定的规范性。这就要求文档编写者不但要熟知本领域的专业知识,同时也需要熟知文档格式要求,并能够熟练使用具有一定的文档编辑能力的文档编辑工具,而直接使用文档编辑工具形成规范格式体例仍需要文档编辑者大量的学习和操作。因此,在文档编辑工具基础上开发一种专门为论文等规范格式文档编辑所使用的快速编辑工具将为论文编辑者提供便利。2、但相关技术中,针对论文等规范格式文档的生成方法,存在不能支持多种格式类型文档的规范化处理,如txt(textfile,纯文本文件)、doc(document,文档)、docx(文档)、pdf(portable document format,便携式文档格式)等,以及文档处理依赖于网站服务器的问题。技术实现思路1、鉴于上述问题,本公开提供了一种模型训练方法、标准格式文档生成方法、装置、设备、介质和程序产品。2、根据本公开的第一个方面,提供了一种模型训练方法,包括:3、将标准格式训练文本输入初始深度学习模型中,输出上述标准格式训练文本各标准结构部分的结构特征,其中,上述标准格式训练文本包括各标准结构部分的结构标签;4、根据上述标准格式训练文本各标准结构部分的结构特征和各标准结构部分的结构标签,调整上述初始深度学习模型的模型参数,得到第一深度学习模型;5、将非标准格式训练文本输入上述第一深度学习模型中,输出上述非标准格式训练文本各非标准结构部分的结构特征,其中,上述非标准格式训练文本中包括各非标准结构部分的结构标签,上述非标准格式训练文本与上述标准格式训练文本的文本类型是相同的;6、根据上述非标准格式训练文本各非标准结构部分的结构特征和各非标准结构部分的结构标签,调整上述第一深度学习模型的模型参数,得到第二深度学习模型;7、在上述第二深度学习模型的文本识别正确率满足预设条件的情况下,对上述第二深度学习模型添加格式转换功能,得到目标模型。8、根据本公开的实施例,上述模型训练方法还包括:9、获取测试文本,其中,上述测试文本包括上述非标准格式训练文本;10、将上述测试文本输入上述第二深度学习模型中,输出上述测试文本各测试结构部分的结构特征;11、根据上述测试文本各测试结构部分的结构特征和各测试结构部分的结构标签,确定上述第二深度学习模型的文本识别正确率。12、根据本公开的实施例,上述模型训练方法还包括:13、在上述第二深度学习模型的文本识别正确率不满足上述预设条件的情况下,将上述标准格式训练文本和上述非标准格式训练文本进行合并处理,得到合并训练文本;14、将上述合并训练文本输入上述第二深度学习模型中,输出上述合并训练文本各结构部分的结构特征;15、根据上述合并训练文本各结构部分的结构特征和各结构部分的结构标签,调整上述第二深度学习模型的模型参数,得到第三深度学习模型;16、对上述第三深度学习模型添加上述格式转换功能,得到第四深度学习模型。17、根据本公开的实施例,上述模型训练方法还包括:18、将上述测试文本输入上述第四深度学习模型中,输出格式转换文本,其中,上述测试文本包括上述非标准格式训练文本;19、根据上述格式转换文本,确定上述第四深度学习模型的转换正确率;20、在上述第四深度学习模型的转换正确率满足上述预设条件的情况下,将上述第四深度学习模型确定为上述目标模型。21、根据本公开的实施例,上述将上述测试文本输入上述第四深度学习模型中,输出格式转换文本,包括:22、对上述测试文本的文本内容进行识别,得到上述测试文本各段落的段落特征;23、对上述测试文本的各测试结构部分进行识别,得到上述测试文本各测试结构部分的结构特征;24、利用上述第四深度学习模型的上述格式转换功能,根据上述测试文本各段落的段落特征和各测试结构部分的结构特征,对上述测试文本进行格式转换,得到上述格式转换文本。25、根据本公开的实施例,上述模型训练方法还包括:26、在上述第四深度学习模型的转换正确率不满足上述预设条件的情况下,根据上述格式转换文本中格式存在错误的文本,对上述第四深度学习模型进行调优操作,得到上述目标模型。27、根据本公开的实施例,上述根据上述格式转换文本中格式存根据本公开的实施例在错误的文本,对上述第四深度学习模型进行调优操作,得到上述目标模型,包括重复执行以下操作直至满足上述预设条件:28、在上述第四深度学习模型的转换正确率不满足上述预设条件的情况下,29、将上述格式转换文本中格式存在错误的文本和上述非标准格式训练文本合并为新的上述非标准格式训练文本;30、将上述新的非标准格式训练文本输入上述第四深度学习模型中,输出上述新的非标准格式训练文本各非标准结构部分的结构特征;31、根据上述新的非标准格式训练文本各非标准结构部分的结构特征和各非标准结构部分的结构标签,调整上述目标模型的模型参数,得到新的上述第四深度学习模型;32、获取新的测试文本,其中,上述新的测试文本包括上述新的非标准格式训练文本;33、将上述新的测试文本输入上述新的第四深度学习模型中,输出新的上述格式转换文本;34、根据上述新的格式转换文本,确定上述新的第四深度学习模型的转换正确率;35、将在上述新的第四深度学习模型的转换正确率满足上述预设条件的情况下得到的上述新的第四深度学习模型确定为上述目标模型。36、本公开的第二方面提供了一种标准格式文档生成方法,包括:37、根据原始文档的文本类型,确定与上述原始文档的文本类型相对应的目标模型;38、将上述原始文档输入上述目标模型中,输出标准格式文档。39、根据本公开的实施例,上述将上述原始文档输入上述目标模型,得到标准格式文档,包括:40、对上述原始文档的文本内容进行识别,得到上述原始文档各段落的段落特征;41、对上述原始文档的各结构部分进行识别,得到上述原始文档各结构部分的结构特征;42、利用上述目标模型的上述格式转换功能,根据上述原始文档各段落的段落特征和各结构部分的结构特征,对上述原始文档进行转换,得到上述标准格式文档。43、根据本公开的实施例,上述利用上述目标模型的上述格式转换功能,根据上述原始文档各段落的段落特征和各结构部分的结构特征,对上述原始文档进行转换,得到上述标准格式文档,包括:44、根据上述原始文档各段落的段落特征,确定上述原始文档中文字内容的分段信息和各个段落之间的位置关系;45、根据上述原始文档中文字内容的分段信息和各个段落之间的位置关系,将上述原始文档中的上述文字内容插入至纯文本格式文档中;46、根据上述原始文档各结构部分的结构特征,确定上述纯文本格式文档各结构部分对应的标准格式;47、根据上述纯文本格式文档各结构部分对应的标准格式,将上述纯文本格式文档中各结构部分的格式转换为对应的标准格式,得到第一标准格式文档;48、根据上述原始文档各段落的段落特征和各结构部分的结构特征,对上述第一标准格式文档进行排版,得到上述标准格式文档。49、根据本公开的实施例,上述根据上述原始文档各段落的段落特征和各结构部分的结构特征,对上述第一标准格式文档进行排版,得到上述标准格式文档,包括:50、根据上述原始文档各段落的段落特征,确定上述原始文档中非文字内容与上述文字内容之间的位置关系;51、根据上述非文字内容与上述文字内容之间的位置关系,将上述非文字内容插入上述第一标准格式文档的对应位置,得到第二标准格式文档;52、根据上述原始文档各结构部分的结构特征,确定上述第二标准格式文档各结构部分的结构名称;53、将上述第二标准格式文档中的每一页生成对应的页码,得到第三标准格式文档;54、根据上述各结构部分的结构名称和上述第三标准格式文档的页码,生成上述第三标准格式文档的目录;55、将上述第三标准格式文档的目录和上述第三标准格式文档进行组装,得到上述标准格式文档。56、本公开的第三方面提供了一种模型训练装置,包括:第一输入模块、第一调整模块、第二输入模块、第二调整模块和添加模块。其中,第一输入模块,用于将标准格式训练文本输入初始深度学习模型中,输出上述标准格式训练文本各标准结构部分的结构特征,其中,上述标准格式训练文本包括各标准结构部分的结构标签。第一调整模块,用于根据上述标准格式训练文本各标准结构部分的结构特征和各标准结构部分的结构标签,调整上述初始深度学习模型的模型参数,得到第一深度学习模型。第二输入模块,用于将非标准格式训练文本输入上述第一深度学习模型中,输出上述非标准格式训练文本各非标准结构部分的结构特征,其中,上述非标准格式训练文本中包括各非标准结构部分的结构标签,上述非标准格式训练文本与上述标准格式训练文本的文本类型是相同的。第二调整模块,用于根据上述非标准格式训练文本各非标准结构部分的结构特征和各非标准结构部分的结构标签,调整上述第一深度学习模型的模型参数,得到第二深度学习模型。添加模块,用于在上述第二深度学习模型的文本识别正确率满足预设条件的情况下,对上述第二深度学习模型添加格式转换功能,得到目标模型。57、本公开的第四方面提供了一种标准格式文档生成装置,包括:确定模块和输入模块。其中,确定模块,用于根据原始文档的文本类型,确定与所述原始文档的文本类型相对应的目标模型。输出模块,用于将所述原始文档输入所述目标模型中,输出标准格式文档。58、本公开的第五方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。59、本公开的第六方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。60、本公开的第七方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。61、根据本公开提供的模型训练方法、标准格式文档生成方法、装置、设备、介质和程序产品,通过模型训练方法得到的目标模型,能够准确识别输入目标模型中的文档各结构部分的结构特征,从而可以将各结构部分的格式转换为对应的标准格式,且能够支持对不同格式文档的规范化处理,因此,根据利用目标模型实现的标准格式文档生成方法,能够直接将原始文档输入与原始文档的文本类型相对应的目标模型中,无需引导或者自编辑,就可以得到标准格式文档,实现原始文档的标准格式转换。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1