本发明涉及计算机,尤其涉及一种文档处理方法及装置。
背景技术:
1、目前,可以通过扫描仪将纸质文档扫描为pdf格式的文件,然后将pdf格式的文件转成docx、xlsx或pptx等格式的文件。对于docx、xlsx或pptx等格式的文件,通常可以通过人工将其手动标记为文档类、表格格式或证件类等类型,从而根据类型快速进行查找,以查找到目标文件。但现有方法存在效率低等不足。
技术实现思路
1、本发明提供一种文档处理方法及装置,用以解决现有技术中文档归类的效率低的缺陷,实现高效率的文档自动电子化及归类。
2、本发明提供一种文档处理方法,包括:
3、拍摄目标文档,获取第一图片;
4、基于所述第一图片,生成目标格式的第一文件,并基于所述第一图片,对所述第一文件进行分类,确定所述第一文件的第一类型;
5、提取所述第一图片中的文字信息,并基于所述文字信息,确定所述第一文件的第二类型;所述第二类型是所述第一类型的子类型。
6、根据本发明提供的一种文档处理方法,所述拍摄目标文档,获取第一图片之后,还包括:
7、基于所述第一图片,获取关键字;
8、基于所述关键字,对所述第一文件进行命名。
9、根据本发明提供的一种文档处理方法,所述基于所述第一图片,对所述第一文件进行分类,确定所述第一文件的第一类型之后,还包括:
10、基于所述第一类型,设置所述第一文件的第一标签;
11、所述提取所述第一图片中的文字信息,并基于所述文字信息,确定所述第一文件的第二类型之后,还包括:
12、基于所述第二类型,设置所述第一文件的第二标签;
13、基于所述第一标签和所述第二标签,对所述第一文件进行归档处理。
14、根据本发明提供的一种文档处理方法,所述基于所述第一标签和所述第二标签,对所述第一文件进行归档处理之后,还包括:
15、响应于文件查询操作,接收第一查询标签和第二查询标签;
16、基于所述第一查询标签和所述第二查询标签,查询已进行归档处理的文件。
17、根据本发明提供的一种文档处理方法,所述基于所述第一图片,确定所述第一文件的第一类型,包括:
18、基于特征提取网络,对所述第一图片进行特征提取,获取图像特征;
19、将所述图像特征输入分类器,获取所述第一类型。
20、根据本发明提供的一种文档处理方法,所述拍摄目标文档,获取第一图片,包括:
21、拍摄所述目标文档,获取第二图片;
22、对所述第二图片进行图像校正处理,获取所述第一图片。
23、根据本发明提供的一种文档处理方法,所述基于所述第一图片,生成目标格式的第一文件,包括:
24、接收用户的第一输入;
25、响应于所述第一输入,基于所述第一图片,生成所述目标格式的所述第一文件;所述目标格式是基于所述第一输入确定的。
26、根据本发明提供的一种文档处理方法,所述对所述第二图片进行图像校正处理,获取所述第一图片包括:
27、对所述第二图片进行边缘检测,获取所述第二图片中文档区域的边缘和顶点;
28、基于所述顶点,对所述边缘进行透视变换,获取所述第一图片。
29、根据本发明提供的一种文档处理方法,所述基于所述顶点,对所述边缘进行透视变换,获取所述第一图片,包括:
30、基于所述顶点的坐标,获取透视变换矩阵;
31、基于所述透视变换矩阵,对所述边缘进行透视变换,获取所述第一图片。
32、本发明还提供一种文档处理装置,包括:
33、拍摄模块,用于拍摄目标文档,获取第一图片;
34、第一处理模块,用于基于所述第一图片,生成目标格式的第一文件,并基于所述第一图片,对所述第一文件进行分类,确定所述第一文件的第一类型;
35、第二处理模块,用于提取所述第一图片中的文字信息,并基于所述文字信息,确定所述第一文件的第二类型;所述第二类型是所述第一类型的子类型。
36、根据本发明提供的一种文档处理装置,还包括:
37、关键字获取模块,用于基于所述第一图片,获取关键字;
38、命名模块,用于基于所述关键字,对所述第一文件进行命名。
39、根据本发明提供的一种文档处理装置,还包括:
40、第一设置模块,用于基于所述第一类型,设置所述第一文件的第一标签;
41、第二设置模块,用于基于所述第二类型,设置所述第一文件的第二标签;
42、归档模块,用于基于所述第一标签和所述第二标签,对所述第一文件进行归档处理。
43、根据本发明提供的一种文档处理装置,还包括:
44、接收模块,用于响应于文件查询操作,接收第一查询标签和第二查询标签;
45、查询模块,用于基于所述第一查询标签和所述第二查询标签,查询已进行归档处理的文件。
46、根据本发明提供的一种文档处理装置,所述第一处理模块,包括:
47、特征提取单元,用于基于特征提取网络,对所述第一图片进行特征提取,获取图像特征;
48、分类单元,用于将所述图像特征输入分类器,获取所述第一类型。
49、根据本发明提供的一种文档处理装置,所述拍摄模块,包括:
50、拍摄单元,用于拍摄所述目标文档,获取第二图片;
51、校正单元,用于对所述第二图片进行图像校正处理,获取所述第一图片。
52、根据本发明提供的一种文档处理装置,所述第一处理模块,包括:
53、接收单元,用于接收用户的第一输入;
54、文件生成单元,用于响应于所述第一输入,基于所述第一图片,生成所述目标格式的所述第一文件;所述目标格式是基于所述第一输入确定的。
55、根据本发明提供的一种文档处理装置,所述校正单元,包括:
56、边缘检测子单元,用于对所述第二图片进行边缘检测,获取所述第二图片中文档区域的边缘和顶点;
57、透视变换子单元,用于基于所述顶点,对所述边缘进行透视变换,获取所述第一图片。
58、根据本发明提供的一种文档处理装置,所述透视变换子单元,具体用于基于所述顶点的坐标,获取透视变换矩阵;基于所述透视变换矩阵,对所述边缘进行透视变换,获取所述第一图片。
59、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文档处理方法。
60、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文档处理方法。
61、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文档处理方法。
62、本发明提供的文档处理方法及装置,通过拍摄目标文档,获取第一图片,基于第一图片进行粗分类,自动确定第一文件的第一类型,然后基于第一图片中的文字信息进行细分类,自动确定第一文件对应的第一类型的子类型,作为第一文件的第二类型,能实现随手拍摄合同、简历或书籍等纸质文档,将纸质文档转化成可编辑的电子文件,能更快速、高效地确定第一文件的第一类型和第二类型,从而能基于第一文件的第一类型和第二类型,对第一文件进行更高效的归类,能实现更高效率的文档自动电子化及归类,能大大提高纸质文档电子化和归类的效率。