一种文件解析方法及装置与流程

文档序号:31864369发布日期:2022-10-19 08:01阅读:37来源:国知局
一种文件解析方法及装置与流程

1.本发明涉及数据处理技术领域,尤其涉及一种文件解析方法及装置。


背景技术:

2.随着信息技术的快速发展,各种系统之间的交互也越来越多。其中,文件作为信息记录的优势载体,系统之间以文件进行交互的方式也越来越多。
3.在实际应用中,一般由负责人员通过人工读取的方式将文件进行解析,进而输入到其他系统中。这种文件解析方式繁琐,耗时较长,失误率较高,降低了文件解析的准确度及效率。
4.可见,提供一种文件解析方法以提高文件解析的效率显得尤为重要。


技术实现要素:

5.本发明提供了一种文件解析方法及装置,能够提供一种文件解析方法,提高了文件解析的效率,大大降低文件解析过程中的人力成本和时间成本,自动读取文件内容按照预设格式展示、同时可以更新相关信息,大幅降低了信息读取过程中的失误率,缩短了文件专递过程中的时间周期。
6.为了解决上述技术问题,本发明第一方面公开了一种文件解析方法,所述方法包括:
7.获取待解析的第一原始文件,并判断所述第一原始文件是否属于第一预设格式类型;
8.当判断出所述第一原始文件属于所述第一预设格式类型时,对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件;
9.提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果;
10.根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件。
11.作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
12.判断预定义文件路径中是否存在可配置文件,其中,所述可配置文件用于获取所述第一预设格式类型以及所述预设字段中的一种或多种组合信息;
13.当判断出所述预定义文件路径中存在所述可配置文件时,将所述可配置文件进行解析,以得到所述第一预设格式类型以及所述预设字段中的一种或多种组合信息。
14.作为一种可选的实施方式,在本发明第一方面中,所述对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件,包括:
15.通过预先确定的系统接口,将所述第一原始文件对应的压缩数据流转化成目标数据流;
16.根据所述目标数据流的信息,创建所述目标数据流对应的文本构造器;
17.通过所述文本构造器,将所述目标数据流转化成预设格式文件。
18.作为一种可选的实施方式,在本发明第一方面中,所述提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果,包括:
19.通过预设的语义解析模型,提取所述预设格式文件中的特征信息,其中所述特征信息包括至少一种子特征信息;
20.对于任一所述子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果;
21.从所有所述字段匹配结果中筛选出匹配度最高的字段匹配结果作为该子特征信息对应的目标字段匹配结果;
22.将所有所述子特征信息对应的所有所述目标字段匹配结果确定为所述特征信息的目标匹配结果。
23.作为一种可选的实施方式,在本发明第一方面中,所述对于任一所述子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果,包括:
24.对于任一所述子特征信息,确定该子特征信息对应的评价维度以及每一所述评价维度对应的权重值,所述评价维度包括领域信息、场景信息、特征信息类型中的一种或多种组合;
25.根据预设字段信息,对该特征信息进行字段匹配操作;
26.根据所有所述评价维度,计算每一所述子特征信息对应的所有所述预设字段的匹配度信息;
27.将所有所述匹配度信息确定为该子特征信息对应的所有字段匹配结果。
28.作为一种可选的实施方式,在本发明第一方面中,所述根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件之后,所述方法还包括:
29.判断是否接收到所述目标文件对应的展示命令;
30.当判断出接收到所述目标文件对应的所述展示命令时,从所述展示命令中解析出展示元素;
31.根据所述目标文件以及所述展示元素,从所述目标文件中确定出需要展示的目标展示内容;
32.对所述目标展示内容进行展示操作。
33.作为一种可选的实施方式,在本发明第一方面中,所述根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件之后,所述方法还包括:
34.判断是否接收到第二原始文件,所述第二原始文件用于与所述第一原始文件进行融合以更新所述目标文件的文件;
35.当判断出接收到所述第二原始文件时,判断所述第二原始文件与所述第一原始文件是否属于相匹配的格式类型文件;
36.当判断结果为是时,对所述第二原始文件执行解析操作,得到所述第二原始文件对应的目标解析文件;
37.将所述目标解析文件以及所述目标文件进行内容融合,更新所述目标文件中的内容。
38.本发明第二方面公开了一种文件解析装置,所述装置包括:
39.判断模块,用于获取待解析的第一原始文件,并判断所述第一原始文件是否属于第一预设格式类型;
40.预处理模块,用于当判断出所述第一原始文件属于所述第一预设格式类型时,对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件;
41.匹配模块,用于提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果;
42.转化模块,用于根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件。
43.作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
44.配置模块,用于判断预定义文件路径中是否存在可配置文件,其中,所述可配置文件用于获取所述第一预设格式类型以及所述预设字段中的一种或多种组合信息;当判断出所述预定义文件路径中存在所述可配置文件时,将所述可配置文件进行解析,以得到所述第一预设格式类型以及所述预设字段中的一种或多种组合信息。
45.作为一种可选的实施方式,在本发明第二方面中,所述预处理模块,包括:
46.转化子模块,用于通过预先确定的系统接口,将所述第一原始文件对应的压缩数据流转化成目标数据流;
47.创建子模块,用于根据所述目标数据流的信息,创建所述目标数据流对应的文本构造器;
48.构造子模块,用于通过所述文本构造器,将所述目标数据流转化成预设文件文件。
49.作为一种可选的实施方式,在本发明第二方面中,所述匹配模块,包括:
50.提取子模块,用于通过预设的语义解析模型,提取所述预设格式文件中的特征信息,其中所述特征信息包括至少一种子特征信息;
51.匹配子模块,用于对于任一所述子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果;
52.筛选子模块,用于从所有所述字段匹配结果中筛选出匹配度最高的字段匹配结果作为该子特征信息对应的目标字段匹配结果;
53.确定子模块,用于将所有所述子特征信息对应的所有所述目标字段匹配结果确定为所述特征信息的目标匹配结果。
54.作为一种可选的实施方式,在本发明第二方面中,所述匹配子模块对于任一所述子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果的具体方式为:
55.对于任一所述子特征信息,确定该子特征信息对应的评价维度以及每一所述评价维度对应的权重值,所述评价维度包括领域信息、场景信息、特征信息类型中的一种或多种组合;
56.根据预设字段信息,对该特征信息进行字段匹配操作;
57.根据所有所述评价维度,计算每一所述子特征信息对应的所有所述预设字段的匹配度信息;
58.将所有所述匹配度信息确定为该子特征信息对应的所有字段匹配结果。
59.作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
60.展示模块,用于在所述转化模块得到所述目标文件之后,判断是否接收到所述目标文件对应的展示命令;
61.当判断出接收到所述目标文件对应的所述展示命令时,从所述展示命令中解析出展示元素;根据所述目标文件以及所述展示元素,从所述目标文件中确定出需要展示的目标展示内容;对所述目标展示内容进行展示操作。
62.作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
63.融合模块,用于在所述转化模块得到所述目标文件之后,判断是否接收到第二原始文件,所述第二原始文件用于与所述第一原始文件进行融合以更新所述目标文件的文件;当判断出接收到所述第二原始文件时,判断所述第二原始文件与所述第一原始文件是否属于相匹配的格式类型文件;当判断结果为是时,对所述第二原始文件执行解析操作,得到所述第二原始文件对应的目标解析文件;将所述目标解析文件以及所述目标文件进行内容融合,更新所述目标文件中的内容。
64.本发明第三方面公开了另一种文件解析装置,所述装置包括:
65.存储有可执行程序代码的存储器;
66.与所述存储器耦合的处理器;
67.所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的任意一种文件解析方法中的部分或全部步骤。
68.本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的任意一种文件解析方法中的部分或全部步骤。
69.与现有技术相比,本发明具有以下有益效果:
70.本发明公开了一种文件解析方法及装置,该方法包括:获取待解析的第一原始文件,并判断第一原始文件是否属于第一预设格式类型;当判断出第一原始文件属于第一预设格式类型时,对第一原始文件进行预处理,得到第一原始文件对应的预设格式文件;提取预设格式文件的特征信息,并对特征信息进行预设字段匹配操作得到目标匹配结果;根据目标匹配结果执行填充操作,将第一原始文件转化成目标文件。可见,本发明能够提供一种文件解析方法,提高了文件解析的效率,大大降低文件解析过程中的人力成本和时间成本,自动读取文件内容按照预设格式展示、同时可以更新相关信息,大幅降低了信息读取过程中的失误率,缩短了文件专递过程中的时间周期。
附图说明
71.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
72.图1是本发明实施例公开的一种文件解析方法的流程示意图;
73.图2是本发明实施例公开的另一种文件解析方法的流程示意图;
74.图3是本发明实施例公开的一种文件解析装置的结构示意图;
75.图4是本发明实施例公开的另一种文件解析装置的结构示意图;
76.图5是本发明实施例公开的又一种文件解析装置的结构示意图。
具体实施方式
77.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
78.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
79.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
80.本发明公开了一种文件解析方法及装置,该文件解析方法及装置能够提供一种文件解析方法,提高了文件解析的效率,大大降低文件解析过程中的人力成本和时间成本,自动读取文件内容按照预设格式展示、同时可以更新相关信息,大幅降低了信息读取过程中的失误率,缩短了文件专递过程中的时间周期。以下分别进行详细的说明。
81.实施例一
82.请参阅图1,图1是本发明实施例公开的一种文件解析方法的流程示意图。其中,图1所描述的方法可以应用于文件解析装置中,该文件解析装置可以是一个独立的装置,也可以集成在文件解析处理设备中,本发明实施例不做限定。如图1所示,该文件解析方法可以包括以下操作:
83.101、获取待解析的第一原始文件,并判断第一原始文件是否属于第一预设格式类型。
84.本发明实施例中,首先获取到待解析的第一原始文件,同时需要判断该第一原始文件的文件格式类型是否属于第一预设格式类型,其中,第一格式类型可以是预先存储在本地的,也可以是从云服务端实时获取的,本发明实施例不做限定。需要说明的是,第一预设格式类型可以是zip格式、rar格式、7z格式等,本发明实施例亦不做限定。
85.102、当判断出第一原始文件属于第一预设格式类型时,对第一原始文件进行预处理,得到第一原始文件对应的预设格式文件。
86.本发明实施例中,当判断出该第一原始文件属于上述第一预设格式类型时,本发明便对该第一原始文件进行预处理操作,将其转化成对应的预设格式文件。需要说明的是,对于预设格式文件的格式类型,本发明实施例亦不做限定。
87.103、提取预设格式文件的特征信息,并对特征信息进行预设字段匹配操作得到目标匹配结果。
88.本发明实施例中,对预设格式文件执行提取特征信息的操作,以得到该预设格式
文件的所有特征信息,同时需要将上述特征信息与预先存储的或者实时获取的预设字段进行匹配,得到目标匹配结果。
89.104、根据目标匹配结果执行填充操作,将第一原始文件转化成目标文件。
90.本发明实施例中,根据步骤103得到的目标匹配结果以及预设的文件模板,将目标匹配结果填充到文件模板中,即可将该第一原始文件转化场目标文件。
91.可见,本发明实施例所描述的方法能够提供一种文件解析方法,提高了文件解析的效率,大大降低文件解析过程中的人力成本和时间成本,自动读取文件内容按照预设格式展示、同时可以更新相关信息,大幅降低了信息读取过程中的失误率,缩短了文件专递过程中的时间周期。
92.在一个可选的实施例中,该方法还可以包括以下操作:
93.判断预定义文件路径中是否存在可配置文件,其中,可配置文件用于获取第一预设格式类型以及预设字段中的一种或多种组合信息;
94.当判断出预定义文件路径中存在可配置文件时,将可配置文件进行解析,以得到第一预设格式类型以及预设字段中的一种或多种组合信息。
95.本发明实施例中,本发明中的第一预设格式类型以及预设字段均是可配置的,本发明可以通过判断预定义的文件路径中是否存在可配置文件,该可配置文件包含第一预设格式类型以及预设字段的一种或多种。当判断出存在该配置文件时,将该配置文件进行解析,即可得到第一预设格式类型和/或预设字段。
96.可见,本发明实施例所描述的方法能够通过可配置文件对预设格式类型以及预设字段进行选配和定制,能够提高本发明的通用性和适用性,同时有利于提高本方案的灵活性和可定制性,进一步提高文件解析的速度和效率。
97.在又一个可选的实施例中,对第一原始文件进行预处理,得到第一原始文件对应的预设格式文件,可以包括以下操作:
98.通过预先确定的系统接口,将第一原始文件对应的压缩数据流转化成目标数据流;
99.根据目标数据流的信息,创建目标数据流对应的文本构造器;
100.通过文本构造器,将目标数据流转化成预设格式文件。
101.本发明实施例中,在对原始文件进行预处理过程中,可以首先通过预先确定出的系统接口,将第一原始文件对应压缩数据流转化成目标数据流,比如将文件转化成数据流inputstream,将压缩包数据流转化成普通数据流。然后,根据目标数据流的信息,使用工厂模式创建文本构造器,再把目标数据流使用文本构造器进行转化成文档格式document。
102.可见,本发明实施例所描述的方法能够通过调用数据接口进行数据流的转化,以及通过创建的文本构造器,将目标数据流转化成预设文件,能够提高本发明的自动化程度,将文件解析过程流程化、简易化,有利于本发明的后续扩展度,同时进一步提高文件解析的速度和效率。
103.在又一个可选的实施例中,提取预设格式文件的特征信息,并对特征信息进行预设字段匹配操作得到目标匹配结果,可以包括以下操作:
104.通过预设的语义解析模型,提取预设格式文件中的特征信息,其中特征信息包括至少一种子特征信息;
105.对于任一子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果;
106.从所有字段匹配结果中筛选出匹配度最高的字段匹配结果作为该子特征信息对应的目标字段匹配结果;
107.将所有子特征信息对应的所有目标字段匹配结果确定为特征信息的目标匹配结果。
108.本发明实施例中,对预设格式文件进行特征提取可以通过语义解析模型的方式进行,需要说明的是,特征信息包括至少一种子特征信息。其中,对于任一子特征信息,将该子特征信息与预设字段进行匹配,得到预设字段中对应的所有字段的匹配结果。进而,从上述所有字段匹配结果中筛选出匹配度最高的字段匹配结果作为该子特征信息对应的目标字段匹配结果。
109.可见,本发明实施例所描述的方法能够通过语义分析的方式对预设格式文件进行特征提取,进而从特征信息与预设字段匹配的字段匹配结果中筛选出匹配对最高的字段匹配结果作为目标字段匹配结果,通过人工智能的方式,提高了本发明的智能化水平,进一步有利于提高文件解析的速度和效率。
110.在又一个可选的实施例中,进一步可选的,对于任一子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果,可以包括:
111.对于任一子特征信息,确定该子特征信息对应的评价维度以及每一评价维度对应的权重值,评价维度包括领域信息、场景信息、特征信息类型中的一种或多种组合;
112.根据预设字段信息,对该特征信息进行字段匹配操作;
113.根据所有评价维度,计算每一子特征信息对应的所有预设字段的匹配度信息;
114.将所有匹配度信息确定为该子特征信息对应的所有字段匹配结果。
115.本发明实施例中,对于任一子特征信息,本发明提出一种通过计算该子特征信息与预设字段之间的匹配度来实现获取字段匹配结果的方式,其中,匹配度的计算是通过多种评价维度之间的关系来实现的,其中,评价维度包括领域信息、场景信息、特征信息类型中的一种或多种组合,本发明实施例不做限定。
116.可见,本发明实施例所描述的方法能够通过权重值计算法则,计算每一子特征信息对应的所有预设字段的匹配度信息,进而确定出每一子特征信息的所有字段匹配结果,提出一种量化的方式获得最优的匹配度信息,有利于提高本发明的智能化水平,进一步有利于提高文件解析的速度和效率。
117.实施例二
118.请参阅图2,图2是本发明实施例公开的另一种文件解析的流程示意图。其中,图2所描述的方法可以应用于文件解析装置中,该文件解析装置可以是一个独立的装置,也可以集成在文件解析处理设备中,本发明实施例不做限定。
119.如图2所示,该文件解析方法可以包括以下操作:
120.201、获取待解析的第一原始文件,并判断第一原始文件是否属于第一预设格式类型。
121.202、当判断出第一原始文件属于第一预设格式类型时,对第一原始文件进行预处理,得到第一原始文件对应的预设格式文件。
122.203、提取预设格式文件的特征信息,并对特征信息进行预设字段匹配操作得到目标匹配结果。
123.204、根据目标匹配结果执行填充操作,将第一原始文件转化成目标文件。
124.本发明实施例中,针对步骤201-步骤204的其它描述,请分别对应参照实施例一中针对步骤101-步骤104的详细描述,本发明实施例不再赘述。
125.205、判断是否接收到目标文件对应的展示命令。
126.206、当判断出接收到目标文件对应的展示命令时,从展示命令中解析出展示元素。
127.本发明实施例中,当判断出接收到对应的展示命令时,从该展示命令中解析出展示元素,比如展示的选取内容、展示的图形类型、展示的动态效果等,本发明实施例不做限定。
128.207、根据目标文件以及展示元素,从目标文件中确定出需要展示的目标展示内容。
129.本发明实施例中,根据目标文件以及展示元素所需要的内容,自动对目标文件进行内容截取、筛选、计算等,确定出需要展示的目标展示内容。
130.208、对目标展示内容进行展示操作。
131.可见,本发明实施例所描述的方法能够提供一种目标文件的展示方式,通过解析展示命令中的展示元素,配合目标文件中的内容信息,以完成对目标文件的个性化展示,有利于提高本发明的通用性和适用性。
132.在一个可选的实施例中,该方法还可以包括:
133.判断是否接收到第二原始文件,第二原始文件用于与第一原始文件进行融合以更新目标文件的文件;
134.当判断出接收到第二原始文件时,判断第二原始文件与第一原始文件是否属于相匹配的格式类型文件;
135.当判断结果为是时,对第二原始文件执行解析操作,得到第二原始文件对应的目标解析文件;
136.将目标解析文件以及目标文件进行内容融合,更新目标文件中的内容。
137.本发明实施例中,当判断出接收到与第一原始文件相匹配的第二原始文件时,也即接收到的第二原始文件与第一原始文件可以进行融合以更新第一原始文件生成的目标文件时,对第二原始文件执行解析操作,以生成第二原始文件的目标解析文件。进而,将目标解析文件与目标文件进行配对和融合,更新目标文件中的内容。
138.可见,本发明实施例所描述的方法能够通过文件融合的方式对多个原始文件的内容进行智能匹配和融合,以更新目标文件中的内容,提高本发明的智能化水平,进一步有利于提高文件解析的速度和效率。
139.实施例三
140.请参阅图3,图3是本发明实施例公开的一种文件解析装置的结构示意图。其中,图3所描述的装置可以是一个独立的装置,也可以集成在文件解析处理设备中,本发明实施例不做限定。需要说明的是,该文件解析装置参照的是实施例一和实施例二所描述的一种文件解析方法中的步骤,详细的描述在本实施例中就不做赘述,如图3所示,该文件解析装置
可以包括:
141.判断模块301,用于获取待解析的第一原始文件,并判断第一原始文件是否属于第一预设格式类;
142.预处理模块302,用于当判断出第一原始文件属于第一预设格式类型时,对第一原始文件进行预处理,得到第一原始文件对应的预设格式文件;
143.匹配模块303,用于提取预设格式文件的特征信息,并对特征信息进行预设字段匹配操作得到目标匹配结果;
144.转化模块304,用于根据目标匹配结果执行填充操作,将第一原始文件转化成目标文件。
145.可见,本发明实施例所描述的装置能够提供一种文件解析方法,提高了文件解析的效率,大大降低文件解析过程中的人力成本和时间成本,自动读取文件内容按照预设格式展示、同时可以更新相关信息,大幅降低了信息读取过程中的失误率,缩短了文件专递过程中的时间周期。
146.在又一个可选的实施例中,如图4所示,该装置还可以包括:
147.配置模块305,用于判断预定义文件路径中是否存在可配置文件,其中,可配置文件用于获取第一预设格式类型以及预设字段中的一种或多种组合信息;当判断出预定义文件路径中存在可配置文件时,将可配置文件进行解析,以得到所第一预设格式类型以及预设字段中的一种或多种组合信息。
148.可见,本发明实施例所描述的装置能够通过可配置文件对预设格式类型以及预设字段进行选配和定制,能够提高本发明的通用性和适用性,同时有利于提高本方案的灵活性和可定制性,进一步提高文件解析的速度和效率。
149.在一个可选的实施例中,如图4所示,预处理模块302可以包括:
150.转化子模块3021,用于通过预先确定的系统接口,将第一原始文件对应的压缩数据流转化成目标数据流;
151.创建子模块3022,用于根据目标数据流的信息,创建目标数据流对应的文本构造器;
152.构造子模块3023,用于通过文本构造器,将目标数据流转化成预设文件文件。
153.可见,本发明实施例所描述的装置能够通过调用数据接口进行数据流的转化,以及通过创建的文本构造器,将目标数据流转化成预设文件,能够提高本发明的自动化程度,将文件解析过程流程化、简易化,有利于本发明的后续扩展度,同时进一步提高文件解析的速度和效率。
154.在另一个可选的实施例中,如图4所示,匹配模块303可以包括:
155.提取子模块3031,用于通过预设的语义解析模型,提取预设格式文件中的特征信息,其中特征信息包括至少一种子特征信息;
156.匹配子模块3032,用于对于任一子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果;
157.筛选子模块3033,用于从所有字段匹配结果中筛选出匹配度最高的字段匹配结果作为该子特征信息对应的目标字段匹配结果;
158.确定子模块3034,用于将所有子特征信息对应的所有目标字段匹配结果确定为特
征信息的目标匹配结果。
159.可见,本发明实施例所描述的装置能够通过语义分析的方式对预设格式文件进行特征提取,进而从特征信息与预设字段匹配的字段匹配结果中筛选出匹配对最高的字段匹配结果作为目标字段匹配结果,通过人工智能的方式,提高了本发明的智能化水平,进一步有利于提高文件解析的速度和效率。
160.在又一个可选的实施例中,如图4所示,匹配子模块3032对于任一子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果的具体方式为:
161.对于任一子特征信息,确定该子特征信息对应的评价维度以及每一评价维度对应的权重值,评价维度包括领域信息、场景信息、特征信息类型中的一种或多种组合;
162.根据预设字段信息,对该特征信息进行字段匹配操作;
163.根据所有评价维度,计算每一子特征信息对应的所有预设字段的匹配度信息;
164.将所有匹配度信息确定为该子特征信息对应的所有字段匹配结果。
165.可见,本发明实施例所描述的装置能够通过权重值计算法则,计算每一子特征信息对应的所有预设字段的匹配度信息,进而确定出每一子特征信息的所有字段匹配结果,提出一种量化的方式获得最优的匹配度信息,有利于提高本发明的智能化水平,进一步有利于提高文件解析的速度和效率。
166.在又一个可选的实施例中,如图4所示,该装置还可以包括:
167.展示模块306,用于在转化模块304得到目标文件之后,判断是否接收到目标文件对应的展示命令;
168.当判断出接收到目标文件对应的展示命令时,从展示命令中解析出展示元素;根据目标文件以及所述展示元素,从目标文件中确定出需要展示的目标展示内容;对目标展示内容进行展示操作。
169.可见,本发明实施例所描述的装置能够提供一种目标文件的展示方式,通过解析展示命令中的展示元素,配合目标文件中的内容信息,以完成对目标文件的个性化展示,有利于提高本发明的通用性和适用性。
170.在又一个可选的实施例中,如图4所示,该装置还可以包括:
171.融合模块307,用于在转化模块304得到目标文件之后,判断是否接收到第二原始文件,第二原始文件用于与第一原始文件进行融合以更新目标文件的文件;当判断出接收到第二原始文件时,判断第二原始文件与第一原始文件是否属于相匹配的格式类型文件;当判断结果为是时,对第二原始文件执行解析操作,得到第二原始文件对应的目标解析文件;将目标解析文件以及目标文件进行内容融合,更新目标文件中的内容。
172.可见,本发明实施例所描述的装置能够通过文件融合的方式对多个原始文件的内容进行智能匹配和融合,以更新目标文件中的内容,提高本发明的智能化水平,进一步有利于提高文件解析的速度和效率。
173.实施例四
174.请参阅图5,图5是本发明实施例公开的又一种文件解析装置的结构示意图。其中,图5所描述的装置可以是一个独立的装置,也可以集成在文件解析处理设备中,本发明实施例不做限定。如图5所示,该文件解析装置可以包括:
175.存储有可执行程序代码的存储器401;
176.与存储器401耦合的处理器402;
177.处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或实施例二公开的文件解析方法中的部分或全部步骤。
178.实施例五
179.本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或实施例二公开的文件解析方法中的步骤。
180.以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
181.通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read-only memory,rom)、随机存储器(random access memory,ram)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、一次可编程只读存储器(one-time programmable read-only memory,otprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
182.需要说明的是本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写,包括面向对象编程语言如java、scala、smalltalk、eiffel、jade、emerald、c++、c#、vb.net、python等,常规程序化编程语言如c语言、visual basic、fortran2003、perl、cobol 2002、php、abap,动态编程语言如python、ruby和groovy,或其他编程语言等。该程序编码可以完全在计算机(pc、嵌入式智能设备等)上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(lan)或广域网(wan),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(saas)。
183.最后应说明的是:本发明实施例公开的一种文件解析方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1