一种文件处理方法、装置、电子设备及可读存储介质与流程

文档序号:33386595发布日期:2023-03-08 08:30阅读:33来源:国知局
一种文件处理方法、装置、电子设备及可读存储介质与流程

1.本技术属于信息处理技术领域,尤其涉及一种文件处理方法、装置、电子设备及可读存储介质。


背景技术:

2.目前,由于系统开发总是落后经营管理需求。人们不得不从多个系统中手动导出数据,然后手工处理各类报表文件。对于海量的且复杂的文件处理时,常面临信息不统一的问题和文件格式变化大的问题等,导致处理时间长,而且处理准确度低。
3.由此,目前的文件处理效率低。


技术实现要素:

4.本技术实施例提供一种文件处理方法、装置、设备及可读存储介质,能够解决目前的文件处理效率低的问题。
5.第一方面,本技术实施例提供一种文件处理方法,该方法包括:
6.获取待处理的第一文件;
7.解析第一文件,确定第一文件对应的第一标识信息;
8.在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,将第一文件输入至预设处理模型,基于第一知识库对第一文件进行处理,得到第二文件;
9.其中,预设处理模型根据至少一个知识库构建,至少一个知识库包括第一知识库。
10.第二方面,本技术实施例提供一种文件处理装置,该装置包括:
11.获取模块,用于获取待处理的第一文件;
12.解析模块,用于解析第一文件,确定第一文件对应的第一标识信息;
13.处理模块,用于在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,将第一文件输入至预设处理模型,基于第一知识库对第一文件进行处理,得到第二文件;
14.其中,预设处理模型根据至少一个知识库构建,至少一个知识库包括第一知识库。
15.第三方面,本技术实施例提供了一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时,实现如第一方面或者第一方面的任一可能实现方式中的方法。
16.第四方面,本技术实施例提供了一种可读存储介质,该计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第一方面的任一可能实现方式中的方法。
17.本技术实施例中,通过解析待处理的第一文件,确定第一文件对应的第一标识信息,这里,能够便于后续快速确定出能够处理第一文件的第一知识库,在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,将第一文件输入至根据至少一个知识库构建的预设处理模型,其中,至少一个知识库包括第一知识库。最后,基于第一知识库
对第一文件中的内容进行处理,得到第二文件。这里,能够基于预设处理模型和第一知识库对第一文件进行自动处理,提升文件处理效率。
附图说明
18.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术实施例提供的一种文件处理方法的流程图;
20.图2是本技术实施例提供的一种预设处理模型示意图;
21.图3是本技术实施例提供的一种文件处理装置结构示意图;
22.图4是本技术实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
23.下面将详细描述本技术的各个方面的特征和示例性实施例,为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本技术,并不被配置为限定本技术。对于本领域技术人员来说,本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
24.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
25.本技术实施例提供的文件处理方法至少可以应用于下述应用场景中,下面进行说明。
26.由于系统开发总是落后经营管理需求,甚至无法实现。人们不得不从无数系统导出数据,然后手工处理,各类报表文件。对于海量的、复杂的数据处理,常面临以下问题:
27.首先,信息不统一的问题。通常,在信息的收集过程中,信息来源多,数据文件名称也多,字段名叫法也不统一。比如:装机竣工数据,就有“表03-开通工单装机清单”、“表04_装维人员开通当日竣工工单钻取”、“表09a-装移机工单退单明细报表”、“服务开通工单列表信息”等很多叫法。其次,单元格合并的问题。单元格合并会导致数据错位,进而导致无法导入数据库。
28.然后,还有文件格式变化大的问题。同样一个“装机在途清单”,随着时间的推进,可能某一天是53行,某一天就是105行,某一天是csv格式,某一天可能就是xls格式或者是xlsx格式。版本则从xp到2016不一而足。最后,还有数据差异大的问题。比如某文件是“731xxxx”,另一个文件是“|731xxxx”,或者“_731xxxx”、“731xxxx”。在很多行业、很多领域
都存在类似的情况。
29.基于上述应用场景,下面对本技术实施例提供的文件处理方法进行详细说明。
30.图1为本技术实施例提供的一种文件处理方法的流程图。
31.如图1所示,该文件处理方法可以包括步骤110-步骤130,该方法应用于文件处理装置,具体如下所示:
32.步骤110,获取待处理的第一文件。
33.步骤120,解析第一文件,确定第一文件对应的第一标识信息。
34.步骤130,在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,将第一文件输入至预设处理模型,基于第一知识库对第一文件进行处理,得到第二文件;其中,预设处理模型根据至少一个知识库构建,至少一个知识库包括第一知识库。
35.其中,知识库中包括:用于进行信息清洗的预设对应关系,以及用于进行格式转换的预设格式。知识库中的内容可以根据操作者的输入内容确定。
36.本技术实施例提供的文件处理方法中,通过解析待处理的第一文件,确定第一文件对应的第一标识信息,这里,能够便于后续快速确定出能够处理第一文件的第一知识库,在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,将第一文件输入至根据至少一个知识库构建的预设处理模型,其中,至少一个知识库包括第一知识库。最后,基于第一知识库对第一文件中的内容进行处理,得到第二文件。这里,能够基于预设处理模型和第一知识库对第一文件进行自动处理,提升文件处理效率。
37.下面,对步骤110-步骤130的内容分别进行描述:
38.涉及步骤110。
39.获取待处理的第一文件。
40.其中,第一文件可以为表格类文件(如csv文件、xls文件、xlsx文件等)和文档类文件等。
41.涉及步骤120。
42.解析第一文件,确定第一文件对应的第一标识信息。
43.其中,第一标识信息用于标识第一文件的类别信息,比如第一标识信息为运输信息,即第一文件中包括与运输相关的数据。
44.第一标识信息也可以用于标识第一文件相关的项目信息,比如,第一文件与项目a关联,则第一标识信息为项目a。
45.在一种可能的实施例中,步骤120,包括:
46.在第一文件中的关键字与预设关键字相匹配的情况下,确定预设关键字对应的标识信息;
47.将预设关键字对应的标识信息确定为第一标识信息。
48.其中,第一文件中的关键字可以为:“在途”;预设关键字可以为:在途、运输、目的地;则可以确定第一文件中的关键字与预设关键字相匹配,若预设关键字对应的标识信息为“运输”,则将预设关键字对应的标识信息确定为第一标识信息,即第一标识信息为“运输”。
49.这里,在第一文件中的关键字与预设关键字相匹配的情况下,将预设关键字对应的标识信息确定为第一标识信息,能够快速准确地确定第一文件对应的第一标识信息,便
于后续根据第一标识信息快速确定能够处理第一文件的第一知识库。
50.在一种可能的实施例中,在步骤120之后,方法还包括:
51.在未检测到与第一标识信息对应的第一知识库的情况下,显示提示信息;
52.接收对提示信息的第二输入;
53.响应于第二输入,建立第一知识库以及将第二输入对应的编辑内容存储于第一知识库中。
54.在未检测到与第一标识信息对应的第一知识库的情况下,显示提示信息,由操作者建立第一知识库。具体地,编辑内容可以包括:文件归类规则、信息清洗规则、用于进行信息转换的预设对应关系、每个信息最后统一的命名、标准的预设格式和数据类型和长度等。
55.涉及步骤130。
56.在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,将第一文件输入至预设处理模型,基于第一知识库对第一文件进行处理,得到第二文件;其中,预设处理模型根据至少一个知识库构建,至少一个知识库包括第一知识库。
57.其中,知识库中可以包括:用于识别并转换文件名的知识、用于识别并转换标题的知识、用于识别并转换文件中的子表的知识、用于数据清洗的知识,以及用于数据归并和数据分析的知识。
58.另外,如果检测到与第一标识信息对应的第一知识库,可以继续从预设规则表去寻找是否存在对应的子标识信息,若不存在,则可以新建子标识信息对应的第一子知识库,用于记录预设格式和预设对应关系,并提示操作者给出是原来某个预设格式或者预设对应关系的归并还是一个新建立的预设格式或者预设对应关系。
59.比如,“申请单号”经过操作者确认,不是原来“申请编号”含义,而是“定单号”,就指定“产品定单号”一类。
60.其中,预设处理模型可以为基于vfp(visual foxpro)开发的模型,用它来开发数据库,既简单又方便。选择与office软件同出一源的vfp做开发工具,基于至少一个知识库构建预设处理模型,并让构建得到的预设处理模型具备机器学习和数据清洗的辅助功能,配合数据转换。
61.在一种可能的实施例中,步骤130,包括:
62.将第一文件输入至预设处理模型,基于第一知识库识别第一文件中的第一信息和第二信息;
63.对第一文件中的第一信息进行格式转换处理,以及对第一文件中的第二信息进行信息清洗处理,得到第二文件。
64.如图3所示,将第一文件输入至预设处理模型,首先,基于第一知识库识别第一文件中的第一信息和第二信息,其中,第一信息的语义信息与预设语义信息一致,比如,预设语义信息为时间信息,若第一信息的语义信息用于表示时间信息,则可以确定第一信息的语义信息与预设语义信息一致,比如,第一信息的语义信息表示时间,则可以存在多种格式的第一信息,具体可以包括“xxxx/xx/xx xx:xx”和“xxxx_xx_xx xx:xx”等。
65.其中,第二信息可以为预设字段类型的信息,预设字段类型比如:人员、地点、单位和产品等。比如,第二信息为xx单位,则可以确定第二信息的字段类型“单位”,可以对第一文件中的第二信息进行信息清洗处理,信息清洗处理后的第二信息可以为“xx市xx单位”。
66.然后,可以基于预设格式对第一文件中的第一信息进行格式转换处理,以及基于预设对应关系对第一文件中的第一信息进行格式转换处理,以及对第一文件中的第二信息进行信息清洗处理,最终输出第二文件。
67.其中,第一知识库包括预设格式和预设对应关系,上述涉及到的对第一文件中的第一信息进行格式转换处理,以及对第一文件中的第二信息进行信息清洗处理,得到第二文件的步骤中,具体可以包括以下步骤:
68.基于预设格式,对第一文件中的第一信息进行格式转换处理,得到第三文件,第三文件中包括预设格式的第三信息,第一信息对应的语义信息和第三信息对应的语义信息一致;
69.基于预设对应关系,将第三文件中的第二信息替换为第四信息,得到第二文件,其中,预设对应关系包括互相对应的第二信息和第四信息。
70.其中,操作者可以修改预设格式和预设对应关系。
71.其中,具体可以首先确定第一信息的语义信息,比如:位置、时间和产品等。根据第一信息的语义信息从第一知识库中查找预设格式,然后基于预设格式,对第一文件中的第一信息进行格式转换处理,得到第三文件。
72.在检测到第一信息的情况下,基于预设格式,对第一文件中的第一信息进行格式转换处理,得到第三文件,比如:
73.比如,各种时间格式,“xxxx/xx/xx xx:xx”、“xxxx_xx_xx xx:xx”、“xxxx-xx-xx xx:xx”、“xx-xx-xx”等会统一为:“xxxx.xx.xxxx:xx:xx”。
74.其中,具体可以首先确定第二信息的字段类型,比如:人员、地点和产品等。根据第二信息的字段类型从第一知识库中查找预设对应关系,然后基于预设对应关系,对第三文件中的第二信息替换为第四信息,得到第二文件。
75.在检测到第二信息的情况下,基于预设对应关系,对第三文件中的第二信息替换为第四信息,得到第二文件,比如:
76.表1
77.字段项目第二信息第四信息操作维护部门浏a市浏a市分公司替换维护部门宁a县宁a县分公司替换维护部门望a县望a县分公司替换维护部门长a县长a县分公司替换维护部门南a区分局长a县a区分局替换维护部门a园分局浏阳市工a园分局替换维护部门东a分局宁乡县东a分局替换
78.由此,基于预设格式,对第一文件中的第一信息进行格式转换处理,得到第三文件,能够将来自不同的数据源的表述各异的文件,统一到预设个格式上。解决格式不一的数据源合并问题。特别是对于格式变化频繁的场景。以及,基于预设对应关系,对第三文件中的第二信息替换为第四信息,得到第二文件,具体可以通过数据清洗,规范、统一数据的表述,协调来自不同数据源的文件,极大方便数据的归并和统计、分析。
79.在一种可能的实施例中,步骤130,包括:
80.在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,接收对第一文件的第一输入,第一输入用于指示第一文件中的第五信息;
81.响应于第一输入,将第一文件输入至预设处理模型,基于第一知识库对第一文件中的第五信息进行处理,得到第二文件。
82.第一输入用于指示第一文件中的第五信息,第五信息为用户从第一文件中选中的至少部分信息。具体可以为:第一文件中中的某几行、第一文件中中的某几段、以及第一文件中中的除“备注”之外的全文,等等。这里,能够避开“备注”这类无关紧要却数据庞大的数据列,节约转换时间。以及精准地对所需要的第五信息进行精准处理,避免浪费处理资源。
83.这里,通过响应于对第一文件的第一输入,能够对第一文件中的第五信息进行处理,得到第二文件,即对第一文件进行有选择性的转换,提升文件处理效率。
84.在一种可能的实施例中,基于第一知识库,从第一文件确定出满足预设条件的标题信息,标题信息位于目标行;其中,预设条件包括:目标行的第一列至第n列中的每一列包括字符,目标行的第n列至第m列中的每一列不包括字符;其中,n小于m,n和m均为正整数。
85.具体地,可以从第一列开始,连续n列的数据是字符,即目标行的第一列至第n列中的每一列包括字符,比如数字、字母和文字等。另外,考虑到第一文件中可能存在合并单元格的情况,上述预设条件可以调整为目标行的第一列至第n列中最多可缺失预设数量(比如:1)的列。如果后面还有第n列至第m列,则第n列至第m列中的每一列全部是空列。
86.比如:标题信息为传输清单,则目标行的第一列至第n(即4)列中的每一列包括字符“传输清单”,目标行的第n列至第m列中的每一列不包括字符,为空列。
87.由此,可以通过基于第一知识库,从第一文件确定出满足预设条件的标题信息,实现智能寻找标题行。解决标题行不在第一行的识别转换问题。即可以在保持数据行列逻辑性的基础上,解决合并单元格的数据转换问题。
88.综上,在本技术实施例中,通过解析待处理的第一文件,确定第一文件对应的第一标识信息,这里,能够便于后续快速确定出能够处理第一文件的第一知识库,在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,将第一文件输入至根据至少一个知识库构建的预设处理模型,其中,至少一个知识库包括第一知识库。最后,基于第一知识库对第一文件中的内容进行处理,得到第二文件。这里,能够基于预设处理模型和第一知识库对第一文件进行自动处理,提升文件处理效率。
89.基于上述图1所示的文件处理方法,本技术实施例还提供一种文件处理装置,如图3所示,该装置300可以包括:
90.获取模块310,用于获取待处理的第一文件;
91.解析模块320,用于解析所述第一文件,确定所述第一文件对应的第一标识信息;
92.处理模块330,用于在检测到预设处理模型中包括与所述第一标识信息对应的第一知识库的情况下,将所述第一文件输入至所述预设处理模型,基于所述第一知识库对所述第一文件进行处理,得到第二文件;
93.其中,所述预设处理模型根据至少一个知识库构建,所述至少一个知识库包括所述第一知识库。
94.在一种可能的实施例中,解析模块320,具体用于:
95.在所述第一文件中的关键字与预设关键字相匹配的情况下,确定所述预设关键字
对应的标识信息;
96.将所述预设关键字对应的标识信息确定为所述第一标识信息。
97.在一种可能的实施例中,处理模块330,具体用于:
98.将所述第一文件输入至所述预设处理模型,基于所述第一知识库识别所述第一文件中的第一信息和第二信息;
99.对所述第一文件中的所述第一信息进行格式转换处理,以及对所述第一文件中的所述第二信息进行信息清洗处理,得到所述第二文件。
100.在一种可能的实施例中,第一知识库包括预设格式和预设对应关系,处理模块330,具体用于:
101.基于所述预设格式,对所述第一文件中的所述第一信息进行格式转换处理,得到第三文件,所述第三文件中包括所述预设格式的第三信息,所述第一信息对应的语义信息和所述第三信息对应的语义信息一致;
102.基于预设对应关系,将第三文件中的第二信息替换为第四信息,得到第二文件,其中,预设对应关系包括互相对应的第二信息和第四信息。
103.在一种可能的实施例中,处理模块330,具体用于:
104.在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,接收对第一文件的第一输入,第一输入用于指示第一文件中的第五信息;
105.响应于第一输入,将第一文件输入至预设处理模型,基于第一知识库对第一文件中的第五信息进行处理,得到第二文件。
106.在一种可能的实施例中,该装置300还可以包括:
107.显示模块,用于在未检测到与所述第一标识信息对应的第一知识库的情况下,显示提示信息;
108.接收模块,用于接收对所述提示信息的第二输入;
109.村塾模块,用于响应于所述第二输入,建立所述第一知识库以及将所述第二输入对应的编辑内容存储于所述第一知识库中。
110.在一种可能的实施例中,该装置300还可以包括:
111.确定模块,用于基于所述第一知识库,从所述第一文件确定出满足预设条件的标题信息,所述标题信息位于目标行;
112.其中,所述预设条件包括:所述目标行的第一列至第n列中的每一列包括字符,所述目标行的第n列至第m列中的每一列不包括字符;其中,所述n小于所述m,所述n和所述m均为正整数。
113.综上,在本技术实施例中,通过解析待处理的第一文件,确定第一文件对应的第一标识信息,这里,能够便于后续快速确定出能够处理第一文件的第一知识库,在检测到预设处理模型中包括与第一标识信息对应的第一知识库的情况下,将第一文件输入至根据至少一个知识库构建的预设处理模型,其中,至少一个知识库包括第一知识库。最后,基于第一知识库对第一文件中的内容进行处理,得到第二文件。这里,能够基于预设处理模型和第一知识库对第一文件进行自动处理,提升文件处理效率。
114.图4示出了本技术实施例提供的一种电子设备的硬件结构示意图。
115.在电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。
116.具体地,上述处理器401可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
117.存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(hard disk drive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。在特定实施例中,存储器402包括只读存储器(rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。
118.处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现图所示实施例中的任意一种文件处理方法。
119.在一个示例中,电子设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
120.通信接口403,主要用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。
121.总线410包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
122.该电子设备可以执行本技术实施例中的文件处理方法,从而实现结合图1至图2描述的文件处理方法。
123.另外,结合上述实施例中的文件处理方法,本技术实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现图1至图2中的文件处理方法。
124.需要明确的是,本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本技术的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本技术的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
125.以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。
机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
126.还需要说明的是,本技术中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本技术不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
127.以上所述,仅为本技术的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1