文件处理方法、装置、设备及存储介质与流程

文档序号:32307335发布日期:2022-11-23 10:25阅读:86来源:国知局
文件处理方法、装置、设备及存储介质与流程

1.本公开涉及人工智能技术领域,具体涉及智能分析技术领域,尤其涉及一种文件处理方法、装置、设备、存储介质以及计算机程序产品。


背景技术:

2.在各行各业中,经常需要对材料进行审核。相关技术中,对材料进行审核时需要单独找出要审核的要素对照规则逐个查看,效率较低且耗费人力,企业成本高;并且,在企业内部审核规则发生变更后,各部门角色之间的同步效率低,容易出现信息不对齐的情况。


技术实现要素:

3.本公开提供了一种文件处理方法、装置、设备、存储介质以及计算机程序产品,提高文件处理效率,节约人工成本。
4.根据本公开的第一方面,提供了一种文件处理方法,包括:
5.确定待处理文件的文件类型;
6.获取待处理文件对应的处理任务,处理任务包括文件解析任务、文件审核任务和文件对比任务中的至少一种;
7.根据文件类型,对待处理文件进行解析,得到文件解析结果;
8.根据处理任务,对文件解析结果进行处理,得到文件处理结果。
9.根据本公开的第二方面,提供了一种文件处理装置,包括:
10.确定模块,被配置为确定待处理文件的文件类型;
11.获取模块,被配置为获取待处理文件对应的处理任务,处理任务包括文件解析任务、文件审核任务和文件对比任务中的至少一种;
12.解析模块,被配置为根据文件类型,对待处理文件进行解析,得到文件解析结果;
13.处理模块,被配置为根据处理任务,对文件解析结果进行处理,得到文件处理结果。
14.根据本公开的第三方面,提供了一种电子设备,包括:
15.至少一个处理器;以及
16.与至少一个处理器通信连接的存储器;其中,
17.存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面提供的方法。
18.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面提供的方法。
19.根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面提供的方法。
20.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
21.附图用于更好地理解本方案,不构成对本公开的限定。其中:
22.图1示出了可以应用本公开的文件处理方法的示例性系统架构;
23.图2示出了根据本公开的文件处理方法的第一实施例的流程图;
24.图3a-图3i示出了根据本公开的文件处理方法的一个应用场景的示意图;
25.图4示出了根据本公开的文件处理装置的一种实施例的结构示意图;
26.图5示出了用来实现本公开的文件处理方法的电子设备的框图。
具体实施方式
27.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
28.需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
29.本公开提供了一种文件处理方法,用以根据待处理文件的文件类型,对待处理文件进行解析,得到文件解析结果;再根据待处理文件对应的处理任务,对文件解析结果进行处理,得到文件处理结果,其处理任务包括文件解析任务、文件审核任务和文件对比任务中的至少一种。该文件处理方法通过对文件进行解析,可以将非结构化文件转换为结构化文件,进一步对结构化文件进行处理,得到对应的文件处理结果,实现对非结构化文件的自动处理,只需人工对文件处理结果进行复核,可大幅提高文件处理效率,减少人工参与,节约人工成本;同时,在对文件自动化处理的过程中,通过在执行主体上调整文件的审核规则,可以提高审核规则的同步效率,避免出现不同部门角色之间的信息不对齐。
30.示例性地,本公开提供的文件处理方法可以应用于文件信息提取或审核场景,例如,可以应用于日常办公领域的会议纪要提取或财务单据审核场景,也可以应用于金融机构的零售信贷场景、财务审核场景、合同审核场景、用户信息审核场景等。
31.以零售信贷场景为例,需要对用户的个人信息及财务证明信息进行审核,其中,用户的个人信息中往往可能包括用户照片、用户填写的申请表等多种类型的文件,而财务证明信息可能为非结构化文件,在审核过程中,不仅对非结构化文件的审核复杂,而且需要针对不同类型的文件进行解析、处理。采用本公开提供的文件处理方法,可以针对不同类型的文件进行解析,将非结构化文件转换为结构化文件,然后按照不同场景下的处理任务(例如个人信息审核或对比、证明材料审核、合同审阅等),对文件解析结果进行处理,提高处理效率。
32.需要说明的是,本技术中所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
33.图1示出了可以应用本公开的文件处理方法或文件处理装置的实施例的示例性系统架构100。
34.如图1所示,系统架构100可以包括终端设备101、网络102和服务器103。其中,网络102用以在终端设备101和服务器103之间提供通信链路,可以包括各种连接类型,例如,有
线通信链路、无线通信链路或者光纤电缆等等。
35.用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送信息等。终端设备101上可以安装有各种客户端应用。
36.终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
37.服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
38.本公开实施例所提供的文件处理方法一般由服务器103执行,相应地,文件处理装置一般设置于服务器103中。
39.需要说明的是,图1中的终端设备101、网络102和服务器103的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备101、网络102和服务器103。
40.在本公开实施例中,该文件处理方法由服务器103执行,并将处理结果发送到安装有客户端的终端设备101,例如,将处理结果发送到需要人工复核的管理端的终端设备,还可以将处理结果发送到发出文件处理申请的申请端的移动终端设备等。
41.图2示出了根据本公开的文件处理方法的一种实施例的流程200,图3a-图3i示出了根据本公开的文件处理方法的一种应用场景300的示意图,在该应用场景中,文件处理方法的执行主体将其执行过程可通过终端设备301的智能屏实时展示。
42.参照图2所示,该文件处理方法包括以下步骤:
43.步骤s201,确定待处理文件的文件类型。
44.在本实施例中,文件处理方法的执行主体,例如,材料审核服务器,确定待处理文件的文件类型。
45.其中,待处理文件的文件类型可以是文本、图像、视频、音频等任一类型,也可以是执行主体能够识别的其他类型。示例性地,待处理文件可以为pdf文档、word文档等文本,也可以是文字图像、人物图像、物体图像等图像,还可以是一段音频或视频,也可以是其中多种类型或同一类型的多个文件的压缩包。
46.上述执行主体获取待处理文件的文件类型,包括:获取前待处理文件,确定待处理文件的文件类型。其中,上述执行主体获取待处理文件的方式可以包括:从网络获取,从终端设备获取,从其它服务器获取等多种获取方式。示例性地,从终端设备获取待处理文件,可以是通过终端设备的智能屏获取用户输入或上传的任一类型的待处理文件,也可以是通过终端设备或者图像采集设备获取的图像类的待处理文件,还可以是通过语音或音像采集设备获取的音频类或视频类的待处理文件。
47.图3a示出了本公开的文件处理方法的一种应用场景中获取待处理文件的示意图,在本实施例中,执行主体通过终端设备301获取待处理文件,例如图3a中,用户通过点击“上传数据”可将待处理文件上传给执行主体。执行主体在获取待处理文件后,可确定待处理文件的文件类型。
48.需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。本实施例中获取的用户信息并不针对某一特定用户,也并不能反映出某一特定用户的个人信息。
49.步骤s202,获取待处理文件对应的处理任务,处理任务包括文件解析任务、文件审核任务和文件对比任务中的至少一种。
50.在本实施例中,文件处理方法的执行主体获取待处理文件对应的处理任务,例如,通过终端设备的智能屏获取用户输入或者选择设置的处理任务。上述执行主体所获取的处理任务包括但不限于文件解析任务、文件审核任务和文件对比任务中的至少一种。
51.其中,文件解析任务可以将材料中的信息要素进行解析、识别、并提取、保存等,文件解析任务可以处理的文件包括非结构化文件和结构化文件,例如可以对非结构化的会议纪要文件进行信息提取,生成结构化的会议纪要并保存,再例如,还可以对财务证明材料、用户信息证明材料等文件进行解析,对其中的部分信息进行识别、提取并保存。
52.文件审核任务可以是对一份材料根据现有规则或者新建规则进行审核,判断材料中的信息是否满足条件,例如,零售信贷在贷前的资格文件审核,可抽取每份资格文件中对应的关键字段等信息进行审核;还可以是审核格式文件是否符合文件规范,例如,审核合同是否符合预设合同规范,并将不符合预设合同规范的内容予以展示。
53.文件对比任务可以是对比两份文件的不同之处,以其中一件为基准文件,快速确定另一份文件与该基准文件不同的内容,并进行标记和展示。例如,可以对与基准文件不同的内容进行新增、删除、修订等不同的标记。
54.步骤s203,根据文件类型,对待处理文件进行解析,得到文件解析结果。
55.在本实施例中,文件处理方法的执行主体根据在步骤s201中确定的文件类型,对待处理文件进行解析,得到文件解析结果,实现对待处理文件中的信息要素的提取。
56.示例性地,如果待处理文件为非结构化文件,该文件解析结果可以为待处理文件中的信息要素构成的结构化文件,即该解析过程可以将非结构化文件转换为结构化文件;如果待处理文件为结构化文件,该文件解析结果可以为从该待处理文件中提取的信息要素所构成的文件。
57.在本公开实施例的一些可选的实现方式中,根据文件类型,对待处理文件进行解析,得到文件解析结果,包括:根据文件类型,获取至少一个解析模型,其中,文件类型包括文本、图像、音频、视频中的至少一项;通过至少一个解析模型对待处理文件进行解析,得到文件解析结果。
58.通过与文件类型相适配的解析模型,对不同文件类型的待处理文件进行解析,可以有效保证文件解析效率以及文件解析结果的准确性和可靠性。
59.其中,至少一个解析模型可以为一个解析模型,也可以为多个解析模型,可以包括选择预置的解析模型或从网络等其他途径获取的解析模型。每个解析模型可以为按照不同的解析规则进行训练后的解析模型,用以分别提取相同或不同的信息要素。
60.示例性地,至少一个解析模型用于对待处理文件进行解析,包括通过解析模型对待处理文件中的信息进行识别,并按照其预置的解析规则对识别结果中要提取的信息要素进行抽取,并保存,生成文件解析结果,便于后期引用或查看。
61.图3b为本公开实施例的文件处理方法的应用场景300中对待处理文件进行解析的
示意图。在图3b所示的应用场景中,是对“业务审批单”的内容进行解析,提取的信息要素展示在“识别结果”中,包括开展业务机构、交易对手等。
62.在本公开实施例的一些可选的实现方式中,根据文件类型,获取至少一个解析模型,包括:根据文件类型,获取多个解析模型;将多个解析模型进行组合,生成解析模板。相适应的,通过至少一个解析模型对待处理文件进行解析,得到文件解析结果,包括:通过解析模板对待处理文件进行解析,得到文件解析结果。
63.可选的,多个解析模型通过以下至少一种方式获取:通过网络地址获取、从模型训练平台获取、从本地存储空间获取。通过该方式,可以确保最终获得的解析模版中保有更完善的信息,提升利用解析模板进行文件解析的准确性。
64.当任一个解析模板不能完全满足解析需求时,即任一个解析模板均不能从待处理文件中完全提取所要提取的全部信息要素时,需要通过多个解析模型进行组合,来完成全部信息要素的提取。此时,执行主体可以通过一个或者多个途径获取多个解析模型,并进行组合生成解析模板。例如,可以通过网址链接等网络地址导入网络端的解析模型,也可以通过模型训练平台导入训练后的解析模型,还可以通过本地镜像导入的方式导入本地存储空间中存储的解析模型。
65.示例性地,在实际执行过程中,执行主体可以先创建解析模板,然后在该解析模板中导入多个解析模型。其中,创建解析模板可以采用新建的方式创建,也可以采用选择已有模板的方式创建。
66.图3c示出了本公开的文件处理方法的应用场景300中创建解析模板的示意图。在图3c所示的场景中,可以点击“+新建空白策略”来新建解析模板,也可以点击右侧的已有模板中的任一个来创建解析模板。其中,选择已有模板进行创建时,可以直接调用已有模板,也可以调用已有模板后对其中的个别项目进行调整后保存并使用。
67.图3d示出了本公开的文件处理方法的应用场景300中导入解析模型的示意图。在该应用场景300中,可以向模型仓库中导入模型,在“导入方式”部分选择“url导入”即可实现网络地址导入,在导入过程中,可以在“模型名称”部分对导入的解析模型进行命名,在“模型类型”部分可以选择要导入的解析模型在归入“模型仓库”后所属的类别,在“url地址”部分输入符合要求的网络地址,然后点击“确定”,即可将该网络地址对应的解析模型导入“模型仓库”中,完成解析模型的导入。相适应的,也可以通过在“导入方式”部分选择“训练平台导入”或者“镜像导入”的方式,并完成对应的操作,即可通过模型训练平台导入或者本地镜像导入的方式导入解析模型。
68.在一些可选的实施例中,在利用多个解析模型构成的解析模板对待处理文件解析的过程中,可以分别利用每个解析模型对待处理文件进行解析、提取各自所要提取的信息要素,然后再将多个解析模型所提取的信息要素进行合并(叠加/去重等),生成文件解析结果。
69.本实施例中,提供多种解析模型的导入方式,可通过多个解析模型共同对待处理文件进行信息要素的提取,确保对所要提取的信息要素充分提取,保证文件解析结果的完整性和可靠性。
70.步骤s204,根据处理任务,对文件解析结果进行处理,得到文件处理结果。
71.在本实施例中,文件处理方法的执行主体根据步骤s202中获取的处理任务,对步
骤s203中得到的文件解析结果进行处理,得到对应的文件处理结果。
72.上述执行主体可以根据不同的处理任务,对文件解析结果进行相应的处理,满足文件处理的多样化需求,提高文件处理的自动化程度和处理效率。
73.在本公开实施例提供的文件处理方法中,根据待处理文件的文件类型,对待处理文件进行解析,得到文件解析结果,并根据待处理文件对应的处理任务,对文件解析结果进行处理,得到文件处理结果。通过对待处理文件进行解析,可以将非结构化文件转换为结构化文件,再根据不同的处理任务,对结构化文件进行处理,实现对非结构化文件的自动解析、处理,只需要人工对部分处理结果进行复核即可,大幅提高文件处理效率,减少人工参与,节约人工成本。另外,在对待处理文件进行解析的过程中,可以通过多种途径导入不同的解析模型,以满足对不同文件类型的待处理文件的解析需求,同时,可以通过对解析模型的更新等操作,可以提高更新效率,确保不同部门角色之间采用的解析模型一致,避免出现信息同步效率低、信息不对齐的情况。
74.在本公开实施例的一些可选的实现方式中,根据处理任务,对文件解析结果进行处理,得到文件处理结果,包括以下至少之一:响应于处理任务为文件解析任务,将文件解析结果作为文件处理结果;响应于处理任务为文件审核任务,根据文件审核任务对应的审核规则,对文件解析结果进行审核,并将得到的审核结果作为文件处理结果;响应于处理任务为文件对比任务,将文件解析结果与基准文件进行对比,并将得到的对比结果作为文件处理结果。
75.示例性地,在步骤s202中获取的处理任务为文件解析任务时,上述执行主体可直接将步骤s203中的文件解析结果作为文件处理结果。当获取的处理任务为文件审核任务时,根据该文件审核任务对应的审核规则,对步骤s203中的文件解析结果进行审核,得到审核结果,将审核结果作为文件处理结果。当获取的处理任务为文件对比任务时,确定基准文件,将文件解析结果与基准文件进行对比,得到对比结果,将该对比结果作为文件处理结果。
76.在本实施例中,文件处理方法的执行主体可以根据不同的处理任务,对文件解析结果进行相应的处理,得到不同的处理结果,满足文件处理的多样化需求,提高文件处理的自动化程度和处理效率。
77.在本公开实施例的一些可选的实现方式中,根据文件审核任务对应的审核规则,对文件解析结果进行审核,包括:根据文件审核任务,确定初始审核模板;为初始审核模型配置审核规则,得到目标审核模板;通过目标审核模板对文件解析结果进行审核,得到审核结果。
78.可选的,审核规则中可以包括一致性审核、文本检索、文本纠错、敏感审核中的至少一项。其中,可以对文件审核任务进行解析,获取解析结果对应的审核规则。可选的,如果对文件审核任务进行解析获得的审核规则为第一规则,则将该第一规则作为初始审核规则,对初始审核规则做进一步拓展,得到最终的审核规则,并基于该最终的审核规则,得到目标审核模板。其中,可选的,对初始审核规则做进一步拓展包括,在第一规则的基础上增加指定规则。可选的,第一规则和指定规则分别为一致性审核、文本检索、文本纠错、敏感审核中的至少一项,且第一规则和指定规则不同。可选的,对一致性审核、文本检索、文本纠错、敏感审核进行优先级排序,将除第一规则之外的其他规则中优先级最高的一项或者多
项(优选为一项)作为所述指定规则。通过该方式,可以在文件审核任务发生调整(比如,经常会发生微调)时,不必对目标审核模板进行更新,从而提高处理效率。并且,将优先级最高的一项附加到第一规则,共同确定目标审核模板,可以在不增加额外过多工作量的前提下,有效提升后续的处理效率。
79.在本实施例中,文件处理方法的执行主体在步骤s202中获取的处理任务为文件审核任务,则根据该文件审核任务确定初始审核模板。示例性地,参照图3c所示,该初始审核模板的确定方式可以为新建空白的初始审核模板,也可以是选择已有的审核模板作为初始审核模板。
80.然后上述执行主体根据文件审核任务的要求,为初始审核模板配置审核规则,得到目标审核模板。其中,为初始审核模板配置审核规则,可以是在配置过程中新建审核规则,也可以是调用已有的审核规则。
81.在本实施例中,执行主体根据不同的文件审核任务的要求,配置相应的审核规则,提高文件审核结果的准确性和可靠性。
82.图3e和图3f示出了本公开的文件处理方法的应用场景300中为初始审核模板配置审核规则的示意图。
83.其中,图3e是为初始审核模板配置已有的审核规则,如图3e中所示,可以在“规则信息”中选择“证明规则”(例如材料证明规则)等已有的审核规则,并在相应的审核规则后面选择该审核规则在审核过程中需满足的条件。另外,还可以通过图3e右侧的“自定义配置”中新建审核规则进行配置。
84.图3f是为初始审核模板新建审核规则的示意图。在“新建规则”界面,可以在“基本信息”下的“规则名称”中,对要新建的审核规则进行自主命名,并在“规则描述”对新建的审核规则进行简单描述或者详细介绍,还可以在“风险级别”中选择该新建的审核规则对应的风险级别为“低风险”或“中高风险”,在“风险提示”中也可以自定义风险提示内容。在新建审核规则过程中,在“规则配置”中对“规则类型”进行选择配置,例如可以选择“一致性审核”“文本检索”“文本纠错”“敏感审核”中的任一项,并在对应的规则类型下,对该审核规则需满足的条件进行配置。其中,可以选择一项条件,也可以选择多项条件,在选择多项条件时,可以配置为“满足任一项条件时,该条件组成立”,即满足任一项条件即符合审核规则;也可以配置为“满足全部条件时,该条件组成立”,即需要满足所配置的全部条件,才符合该审核规则。
85.在对初始审核模板配置完相应的审核规则之后,即得到目标审核模板。上述执行主体通过该目标审核目标对文件解析结果进行审核,得到审核结果。
86.在本公开实施例的一些可选的实现方式中,审核结果包括多个审核条目,方法还包括:确定每个审核条目所属的问题类型,问题类型包括内容问题和/或格式问题;按照问题类型,分类展示多个审核条目。
87.在本实施例中,上述执行主体通过对审核结果的不同审核条目按照所属的问题类型进行展示,便于用户查看、了解,提升用户体验。
88.示例性地,文件审核任务可以包括对文件内容的核准,例如资格审核中对身份信息、证明材料的审核;也可以包括对文件内容及格式的核对,例如对合同的审核。
89.在一些可选的实施例中,在审核过程中,符合相应的审核规则的文件解析结果,即
为通过,不符合相应的审核规则的文件解析结果即被驳回。示例性地,可以对其中驳回的部分进行分析,并展示驳回的内容和原因等。
90.图3g为本公开的文件处理方法的应用场景300中对文件内容进行核准的文件审核任务示意图。如图3g左侧所示“机审材料”为该文件审核任务所审核的文件,点击不同的文件,可以在界面中部查看该文件及其内容,在界面右侧可以查看该文件的审核结果。在本实施例中,审核结果对应的问题类型包括“驳回”和“通过”。
91.在“智能审核结果”中可以点击“全部”查看所选文件的全部审核结果和/或全部文件的审核结果;点击“驳回”可以查看被驳回的审核条目及其相关审核规则等内容,还可以查看“通过”审核的审核条目及其内容。
92.图3h为本公开的文件处理方法的应用场景300中对文件内容及格式进行核对的示意图。在本实施例中,以审核银行的借款合同为例,展示了其“智能审核结果”,其审核结果对应的问题类型包括“风险内容”和“行文形式”。其中“风险内容”为内容问题,“行文形式”为格式问题。
93.示例性地,可以在其“全部”中查看审核结果对应的所有审核条目,还可以对每个审核条目进行编号,在编号后还可以采用标签的形式对该审核条目进行标记。例如,标记为“风险信息”“文本出错”“行为形式”等。
94.在本公开实施例的一些可选的实现方式中,将文件解析结果与基准文件进行对比,包括:根据文件类型,确定对比模板;通过对比模板对文件解析结果与基准文件进行对比,得到对比结果。
95.在本实施例中,文件处理方法的执行主体在步骤s202中获取的处理任务为文件对比任务,则上述执行主体根据文件类型,确定对比模板;然后再通过对比模板对文件解析结果与基准文件进行对比,得到对比结果,并将该对比结果作为文件处理结果。
96.在本实施例中,通过对比模板执行对比,使得对比结果符合对比模板的要求,有效保证对比结果的准确性和可靠性。
97.示例性地,上述执行主体所确定的对比模板可以包括基准文件,也可以包括对比规则,例如,将文件解析结果与基准文件进行对比时,其所要对比的内容要素以及所对比的内容所需符合的规则。其中,所要对比的内容要素可以包括文字内容、格式内容等。
98.上述执行主体对文件解析结果与基准文件进行对比,根据对比模板,对所对比的内容进行标记,例如,如果一致的内容不进行标记,不一致的内容按照对比规则进行新增、删除、修订等标记。
99.图3i为本公开的文件处理方法的应用场景300中执行文件对比任务的示意图。如图3i所示,在界面的左侧和中部同时展示文件解析结果和基准文件,在界面的右侧展示“对比差异列表”。其中,可点击“新增”“删除”“修订”查看对应的对比结果;还可以在相应的对比结果中,点击对应的条目来查看具体的对比信息。
100.需要指出的是,在执行文件对比任务时,该文件处理方法所获取的待处理文件可以为需要与基准文件对比的待对比文件,也可以包括待对比文件和基准文件。其中,基准文件可以为结构化文件,也可以为非结构化文件。
101.在一些可选的实施例中,若待对比文件为结构化文件,基准文件为非结构化文件,则在对待处理文件进行解析的过程中,对基准文件进行解析;若待对比文件和基准文件均
为非结构化文件,也可以不进行解析而直接对两者进行对比。
102.在本公开实施例所提供的文件处理方法中,不仅可以对待处理文件的内容进行解析、识别、保存,还可以将非结构化文件转换为结构化文件,然后对该结构化文件进行审核、对比等处理操作,提高处理效率,同时,减少人工参与,节约人工成本。另外,在处理过程中,通过选择相应的模型或者配置相应的规则,使得文件处理过程中所采用的模型或规则得以在执行主体(例如服务器)上同步,提高不同部门角色之间的信息同步效率,避免信息不对齐的情况发生。
103.作为对上述各图所示方法的实现,图4示出了根据本公开的文件处理装置的一个实施例。该文件处理装置与图2所示的方法实施例相对应,该装置可以应用于各种电子设备中。
104.参照图4所示,本公开实施例提供的文件处理装置400包括:第一确定模块401、获取模块402、解析模块403和处理模块404。其中,第一确定模块401被配置为,确定待处理文件的文件类型;获取模块402被配置为,获取待处理文件对应的处理任务,处理任务包括文件解析任务、文件审核任务和文件对比任务中的至少一种;解析模块403被配置为,根据文件类型,对待处理文件进行解析,得到文件解析结果;处理模块404被配置为,根据处理任务,对文件解析结果进行处理,得到文件处理结果。
105.在本实施例中,文件处理装置400中,第一确定模块401、获取模块402、解析模块403和处理模块404的具体处理及其所带来的技术效果,可分别参考图2对应实施例中的步骤s201-s204的相关说明,在此不再赘述。
106.在本公开实施例的一些可选的实现方式中,解析模块403包括获取子模块和第一解析子模块。其中,第一获取子模块被配置为,根据文件类型,获取至少一个解析模型,其中,文件类型包括文本、图像、音频、视频中的至少一项;第一解析子模块被配置为,通过至少一个解析模型对待处理文件进行解析,得到文件解析结果。
107.在本公开实施例的一些可选的实现方式中,获取子模块被配置为,根据文件类型,导入多个解析模型,生成解析模板,解析模型的导入方式包括网络地址导入、模型训练平台导入、本地镜像导入中的至少一种;以及第一解析子模块被配置为,通过解析模板对待处理文件进行解析,得到文件解析结果。
108.在本公开实施例的一些可选的实现方式中,处理模块404包括:第二解析子模块、审核子模块和对比子模块。其中,第二解析子模块被配置为,响应于处理任务为文件解析任务,将文件解析结果作为文件处理结果;审核子模块被配置为,响应于处理任务为文件审核任务,根据文件审核任务对应的审核规则,对文件解析结果进行审核,并将得到的审核结果作为文件处理结果;对比子模块被配置为,响应于处理任务为文件对比任务,将文件解析结果与基准文件进行对比,并将得到的对比结果作为文件处理结果。
109.在本公开实施例的一些可选的实现方式中,审核子模块被配置为:根据文件审核任务,确定初始审核模板;为初始审核模型配置审核规则,得到目标审核模板,其中,审核规则包括一致性审核、文本检索、文本纠错、敏感审核中的至少一项;通过目标审核模板对文件解析结果进行审核,得到审核结果。
110.在本公开实施例的一些可选的实现方式中,审核结果包括多个审核条目,该文件处理装置400还包括:第二确定模块和展示模块。其中,第二确定模块被配置为,确定每个审
核条目所属的问题类型,问题类型包括内容问题和/或格式问题;展示模块被配置为,按照问题类型,分类展示多个审核条目。
111.在本公开实施例的一些可选的实现方式中,对比子模块被配置为:根据文件类型,确定对比模板;通过对比模板对文件解析结果与基准文件进行对比,得到对比结果。
112.根据本公开的实施例,本公开还提供了一种电子设备、一种存储有计算机指令的非瞬时计算机可读存储介质和一种计算机程序产品。
113.其中,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述文件处理方法。
114.在一些实施例中,一种存储有计算机指令的非瞬时计算机可读存储介质中,计算机指令用于使计算机执行上述文件处理方法。
115.在一些实施例中,一种计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现上述文件处理方法。
116.图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
117.如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(rom)502中的计算机程序或者从存储单元508加载到随机访问存储器(ram)503中的计算机程序,来执行各种适当的动作和处理。在ram 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
118.设备500中的多个部件连接至i/o接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
119.计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如骨干网络的生成方法或图像处理方法。例如,在一些实施例中,文件处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到ram 503并由计算单元501执行时,可以执行上文描述的骨干网络的生成方法或图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文件处理方法。
120.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电
路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
121.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
122.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
123.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
124.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
125.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
126.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只
要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
127.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1