本发明涉及信息,具体涉及一种用于电子邮件中的文件的数据格式化方法及系统。
背景技术:
1、当前,数据中心需要对接多种数据源以得到多种数据来源数据,但不同数据来源数据的格式往往不同。这里的不同格式指数据本身存储的格式不同,以及数据本身的数据结构不同。例如,数据以txt、doc、超文本标识语言(hypertext markup language,html)、可扩展超文本标识语言(extensible hypertext markup language,xhtml)及可扩展标识语言(extensible markup language,xml)等格式进行储存。
2、现有技术中,多是采用人工整理非标准格式数据,作业成本高且效率低。
技术实现思路
1、针对上述问题,本发明提供了一种用于电子邮件中的文件的数据格式化方法及系统,能够自动统一数据格式,降低作业成本,提高作业效率。
2、本发明提供了一种数据格式化方法,包括:
3、步骤s10,从多个关联邮箱中获取邮件以及邮件中的文件,同时获取所述邮件的接收地址和发送地址;
4、步骤s20,在存储的第一关联关系库中查找所述接收地址对应的第一关联关系,并基于所述第一关联关系确定所述文件的第一来源;
5、步骤s30,在存储的第二关联关系库中查找所述发送地址对应的第二关联关系,并基于所述第二关联关系确定所述文件的第二来源;
6、步骤s40,根据所述邮件的邮件内容、所述文件的文件名称和/或文件内容,确定所述文件的类型;
7、步骤s50,根据所述文件的类型对所述文件进行合并处理,得到合并文件;
8、步骤s60,建立所述合并文件的原始列、所述第一来源和第二来源与预设的标准列之间的对应关系;
9、步骤s70,根据所述对应关系将所述原始列的数据、所述第一来源和所述第二来源填充至所述标准列中。
10、在一种可能的实现方式中,在s20之前,还包括步骤s05:
11、建立文件的第一来源与邮件的接收地址之间的第一关联关系;
12、建立文件的第二来源与邮件的发送地址之间的第二关联关系。
13、在一种可能的实现方式中,所述s40还包括:
14、当所述文件的类型是预设类型时,扫描所述文件中是否存在预设格式的数据以及数据数量;
15、当所述文件中存在预设格式的数据时,根据所述文件生成待办文件;
16、当所述数据数量大于预设阈值时,根据所述文件生成待办文件;
17、当所述文件的类型不是预设类型时,根据所述文件生成待办文件。
18、在一种可能的实现方式中,所述s40还包括:
19、当所述文件的类型是预设类型时,扫描所述文件的版本;
20、当所述文件的版本不是预设版本时,将所述文件的版本转换为预设版本。
21、在一种可能的实现方式中,所述s40还包括:
22、根据接收到的处理指令将所述的待办文件转换为预设类型的待审核文件。
23、在一种可能的实现方式中,所述s50还包括:
24、根据接收到的审核指令对所述待审核文件和所述文件进行合并处理,得到合并文件。
25、在一种可能的实现方式中,所述s50包括:
26、获取每个所述文件中的数据数量;
27、根据所述数据数量对所述文件进行合并处理,得到合并文件;所述合并文件的数据数量小于预设阈值。
28、在一种可能的实现方式中,所述s60包括:
29、建立所述第一来源和所述第二来源与所述标准列的对应关系;
30、获取所述合并文件的原始列和所述标准列;
31、确定每个所述原始列与所述标准列的匹配度;
32、根据所述原始列的匹配度建立所述原始列与所述标准列的对应关系。
33、在一种可能的实现方式中,所述s70包括:
34、获取所述标准列的标准数据格式;
35、根据所述标准数据格式对填充至所述标准列的数据进行格式转换。
36、本发明还提供了一种用于电子邮件中的文件的数据格式化系统,用于实现任一上述的数据格式化方法,包括:
37、获取模块,用于从多个关联邮箱中获取邮件以及邮件中的文件,同时获取所述邮件的接收地址和发送地址;
38、第一确定模块,用于在存储的第一关联关系库中查找所述接收地址对应的第一关联关系,并基于所述第一关联关系确定所述文件的第一来源;
39、第二确定模块,用于在存储的第二关联关系库中查找所述发送地址对应的第二关联关系,并基于所述第二关联关系确定所述文件的第二来源;
40、第三确定模块,用于根据所述邮件的邮件内容、所述文件的文件名称和/或文件内容,确定所述文件的类型;
41、合并模块,用于根据所述文件的类型对所述文件进行合并处理,得到合并文件;
42、对应模块,用于建立所述合并文件的原始列、所述第一来源和第二来源与预设的标准列之间的对应关系;
43、填充模块,用于根据所述对应关系将所述原始列的数据、所述第一来源和所述第二来源填充至所述标准列中。
44、本发明提供的用于电子邮件中的文件的数据格式化方法及系统,能够自动合并不同版本文件,统一不同格式的数据,得到标准化格式数据,进而降低作业成本,提高作业效率。
1.一种用于电子邮件中的文件的数据格式化方法,其特征在于,包括:
2.根据权利要求1所述的数据格式化方法,其特征在于,还包括步骤s05:
3.根据权利要求1所述的数据格式化方法,其特征在于,所述s40还包括:
4.根据权利要求3所述的数据格式化方法,其特征在于,所述s40还包括:
5.根据权利要求3所述的数据格式化方法,其特征在于,所述s40还包括:
6.根据权利要求5所述的数据格式化方法,其特征在于,所述s50还包括:
7.根据权利要求1所述的数据格式化方法,其特征在于,所述s50包括:
8.根据权利要求1所述的数据格式化方法,其特征在于,所述s60包括:
9.根据权利要求1所述的数据格式化方法,其特征在于,所述s70包括:
10.一种用于电子邮件中的文件的数据格式化系统,用于实现权利要求1-9任一所述的数据格式化方法,其特征在于,包括: