基于深度学习的文档拆分器的制作方法

文档序号:32946867发布日期:2023-01-14 11:23阅读:来源:国知局

技术特征:
1.一种计算机实现的方法,包括:使用经训练的基于机器学习的模型来对电子文件的部分分类,类别表示所述部分在所述电子文件的子文档内的相对位置;基于所述部分的所述相对位置来将所述电子文件拆分为所述子文档;以及输出所述子文档。2.根据权利要求1所述的计算机实现的方法,其中表示所述部分在所述电子文件的所述子文档内的所述相对位置的所述类别包括表示子文档的第一部分的类别、表示子文档的最后部分的类别、以及表示子文档的所述第一部分与所述最后部分之间的部分的类别。3.根据权利要求1所述的计算机实现的方法,其中使用经训练的基于机器学习的模型来对电子文件的部分分类包括:将从所述电子文件的所述部分中的每个部分提取的感兴趣的特征映射到所述类别,所述感兴趣的特征包括词云、页码、或者文本相关特征中的一项或多项。4.根据权利要求1所述的计算机实现的方法,其中使用经训练的基于机器学习的模型来对电子文件的部分分类还包括:使用统计校验器来从经分类的所述部分检测被错误分类的部分;将所述被错误分类的部分呈现给用户以供手动分类。5.根据权利要求1所述的计算机实现的方法,其中基于所述部分的所述相对位置来将所述电子文件拆分为所述子文档包括:在被分类为子文档的第一部分的每个部分之前,将所述电子文件立即拆分。6.根据权利要求1所述的计算机实现的方法,其中所述电子文件的所述部分对应于所述电子文件的页。7.根据权利要求1所述的计算机实现的方法,其中所述经训练的基于机器学习的模型包括经训练的深度学习模型。8.根据权利要求1所述的计算机实现的方法,其中所述经训练的基于机器学习的模型是基于以下中的一项:lstm(长短期记忆)架构、bi-lstm(双向lstm)架构、或者seq2seq(序列到序列)架构。9.根据权利要求1所述的计算机实现的方法,还包括:使用分类器对所述子文档分类。10.一种装置,包括:存储计算机指令的存储器;以及至少一个处理器,所述至少一个处理器被配置为执行所述计算机指令,所述计算机指令被配置为使所述至少一个处理器执行以下操作:使用经训练的基于机器学习的模型来对电子文件的部分分类,类别表示所述部分在所述电子文件的子文档内的相对位置;基于所述部分的所述相对位置来将所述电子文件拆分为所述子文档;以及输出所述子文档。11.根据权利要求10所述的装置,其中表示所述电子文件的所述子文档内的所述部分的所述相对位置的所述类别包括表示子文档的第一部分的类别、表示子文档的最后部分的类别、以及表示子文档的所述第一部分与所述最后部分之间的部分的类别。
12.根据权利要求10所述的装置,其中使用经训练的基于机器学习的模型来对电子文件的部分分类包括:将从所述电子文件的所述部分中的每个部分提取的感兴趣的特征映射到所述类别,所述感兴趣的特征包括词云、页码、或者文本相关的特征中的一项或多项。13.根据权利要求10所述的装置,其中使用经训练的基于机器学习的模型来对电子文件的部分分类还包括:使用统计校验器从经分类的所述部分检测被错误分类的部分;将所述被错误分类的部分呈现给用户以供手动分类。14.根据权利要求10所述的装置,其中基于所述部分的所述相对位置来将所述电子文件拆分为所述子文档包括:在被分类为子文档的第一部分的每个部分之前,将所述电子文件立即拆分。15.一种被实施在非暂态计算机可读介质上的计算机程序,所述计算机程序被配置为使至少一个处理器执行操作,所述操作包括:使用经训练的基于机器学习的模型来对电子文件的部分分类,类别表示所述部分在所述电子文件的子文档内的相对位置;基于所述部分的所述相对位置来将所述电子文件拆分为所述子文档;以及输出所述子文档。16.根据权利要求15所述的计算机程序,其中表示所述电子文件的所述子文档内的所述部分的所述相对位置的所述类别包括表示子文档的第一部分的类别、表示子文档的最后部分的类别、以及表示子文档的所述第一部分与所述最后部分之间的部分的类别。17.根据权利要求15所述的计算机程序,其中所述电子文件的所述部分对应于所述电子文件的页。18.根据权利要求15所述的计算机程序,其中所述经训练的基于机器学习的模型包括经训练的深度学习模型。19.根据权利要求15所述的计算机程序,其中所述经训练的基于机器学习的模型是基于以下中的一项:lstm(长短期记忆)架构、bi-lstm(双向lstm)架构、或者seq2seq(序列到序列)架构。20.根据权利要求15所述的计算机程序,所述操作还包括:使用分类器对所述子文档分类。

技术总结
提供了用于将电子文件拆分为子文档的系统和方法。电子文件被接收。电子文件的部分使用经训练的基于机器学习的模型而被分类。类别表示部分在电子文件的子文档内的相对位置。电子文件基于该部分的该相对位置而被拆分为子文档。子文档被输出。子文档被输出。子文档被输出。


技术研发人员:R
受保护的技术使用者:尤帕斯公司
技术研发日:2020.11.10
技术公布日:2023/1/13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1