一种文件比对方法及装置与流程

文档序号:11830512阅读:188来源:国知局
一种文件比对方法及装置与流程

本发明涉及计算机处理技术领域,特别涉及一种文件比对方法及装置。



背景技术:

目前,用户在到各个办事机构办理业务时,需要提供大量的证明文件或资料,且在办理不同业务时,可能会使用到相同文件。而用户需要在办理不同的业务时,需要对相同文件分别进行准备,给用户带来了许多不便,降低了办事效率。



技术实现要素:

本发明实施例提供了一种文件比对方法及装置,以使提高办事效率。

第一方面,本发明实施例提供了一种文件比对方法,包括:

确定目标用户当前所需办理的第一业务,以及确定对应所述第一业务的至少一个第一文件的名称;

获取与所述目标用户对应的至少一个第二文件的名称;

针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度;

根据确定的各个匹配度,将匹配成功的第二文件进行加载。

其中,进一步包括:

获取所述目标用户在办理第二业务时提交的至少一个第二文件;

获取每一个第二文件对应的电子文件;

为每一个第二文件对应的电子文件配置相应的名称;

并存储每一个第二文件对应的电子文件及其相应的名称。

其中,所述针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度,包括:

通过下述方式确定当前第一文件的第一名称与当前第二文件的第二名称的匹配度:

将所述第一名称和所述第二名称分别进行分词处理;

针对所述第一名称对应的每一个分词,分别与所述第二名称对应的各个分词进行比对,并根据下述公式计算所述第一名称与所述第二名称的匹配度:

S=(M1)/(M0)

其中,S用于表征所述第一名称与所述第二名称的匹配度,M0用于表征所述第一名称在与第二名称进行分词处理后分词的总个数,其中,所述总个数中包括的分词两两各不相同,M1用于表征所述第一名称在与第二名称进行比对时比对结果相同时对应的次数。

其中,

进一步包括:设定第一阈值范围和第二阈值范围;

进一步包括:在匹配度位于所述第一阈值范围时,确定匹配成功;在匹配度位于所述第二阈值范围时,展示该匹配度对应的第二文件,以供进一步确认该展示的第二文件是否为需要的第一文件。

其中,

所述第一阈值范围包括:[90%,100%];

所述第一阈值范围包括:[60%,90%)。

第二方面,本发明实施例还提供了一种文件比对装置,包括:

第一确定单元,用于确定目标用户当前所需办理的第一业务,以及确定对应所述第一业务的至少一个第一文件的名称;

第一获取单元,用于获取与所述目标用户对应的至少一个第二文件的名称;

第二确定单元,用于针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度;

加载单元,用于根据确定的各个匹配度,将匹配成功的第二文件进行加载。

其中,进一步包括:

第二获取单元,用于获取所述目标用户在办理第二业务时提交的至少一个第二文件,以及获取每一个第二文件对应的电子文件;

配置单元,用于为每一个第二文件对应的电子文件配置相应的名称;

存储单元,用于存储每一个第二文件对应的电子文件及其相应的名称。

其中,所述第二确定单元,具体用于通过下述方式确定当前第一文件的第一名称与当前第二文件的第二名称的匹配度:

将所述第一名称和所述第二名称分别进行分词处理;

针对所述第一名称对应的每一个分词,分别与所述第二名称对应的各个分词进行比对,并根据下述公式计算所述第一名称与所述第二名称的匹配度:

S=(M1)/(M0)

其中,S用于表征所述第一名称与所述第二名称的匹配度,M0用于表征所述第一名称在与第二名称进行分词处理后分词的总个数,其中,所述总个数中包括的分词两两各不相同,M1用于表征所述第一名称在与第二名称进行比对时比对结果相同时对应的次数。

其中,

进一步包括:设定单元,用于设定第一阈值范围和第二阈值范围;

进一步包括:处理单元,用于在匹配度位于所述第一阈值范围时,确定匹配成功;在匹配度位于所述第二阈值范围时,展示该匹配度对应的第二文件,以供进一步确认该展示的第二文件是否为需要的第一文件。

其中,

所述第一阈值范围包括:[90%,100%];

所述第一阈值范围包括:[60%,90%)。

本发明实施例提供了一种文件比对方法及装置,通过确定当前所需办理的第一业务,以及对应第一业务的至少一个第一文件的名称,以及获取与目标用户对应的至少一个第二文件的名称,通过针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度,在匹配成功时,将匹配成功的第二文件进行加载,加载的该第二文件可以用在第一业务中,无需用户提高该加载的第二文件,从而可以提高办事效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种方法流程图;

图2是本发明一个实施例提供的另一种方法流程图;

图3是本发明一个实施例提供的每一个文件A的名称与各个文件B的名称进行匹配的关系示意图;

图4是本发明一个实施例提供的装置所在设备的硬件架构图;

图5是本发明一个实施例提供的装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供了一种文件比对方法,该方法可以包括以下步骤:

步骤101:确定目标用户当前所需办理的第一业务,以及确定对应所述第一业务的至少一个第一文件的名称;

步骤102:获取与所述目标用户对应的至少一个第二文件的名称;

步骤103:针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度;

步骤104:根据确定的各个匹配度,将匹配成功的第二文件进行加载。

根据上述本发明实施例,通过确定当前所需办理的第一业务,以及对应第一业务的至少一个第一文件的名称,以及获取与目标用户对应的至少一个第二文件的名称,通过针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度,在匹配成功时,将匹配成功的第二文件进行加载,加载的该第二文件可以用在第一业务中,无需用户提高该加载的第二文件,从而可以提高办事效率。

用户在办事机构办理业务时,需要提交至少一个文件,其中,该文件可以包括:身份证明、婚姻证明和房产证明中的至少一种。且用户提交的文件可以为纸质文件,也可以是纸质文件扫描后的电子文件。且用户在准备每一个文件时,均需要花费大量的时间,因此,为了节省用户的准备时间,可以将用户在之前办理业务时提交的文件进行存储,以供下一次办理业务需要时,无需重新准备该文件,在本发明一个实施例中,可以进一步包括:

获取所述目标用户在办理第二业务时提交的至少一个第二文件;

获取每一个第二文件对应的电子件;

为每一个第二文件对应的电子件配置相应的名称;

并存储每一个第二文件对应的电子件及其相应的名称。

其中,第一业务是指目标用户当前所需办理的业务,该第二业务是指在第一业务办理之前办理完成的一次或多次业务。该第一业务和第二业务可以是同一个业务,也可以是不同业务,在此不作具体限定。

例如,目标用户在办理第二业务时提交的至少一个第二文件可以包括:身份证明、婚姻证明、固定资产证明和流动资产证明。

为了便于后续过程中能够快速获取到目标用户提交的至少一个第二文件,可以存储电子版的第二文件。因此,若第二文件是纸质文件,可以通过扫描设备扫描出每一个第二文件的电子文件,若第二文件是电子版的文件,可以直接获取该第二文件。

由于一个办事机构每天有大量用户来办理业务,因此,为了便于后续过程中可以快速获取到目标用户提交的至少一个第二文件,在存储时,需要每一个第二文件与目标用户进行关联,例如,以每一个第二文件携带该目标用户的标识的方式,再如,存储到目标用户对应的文件夹下的方式。

进一步地,为了便于后续过程中能够快速确定该目标用户对应第一业务的第一文件,是否在办理第二业务时已经提交过,可以通过给每一个第二文件配置名称的方式来实现。例如,每一个第二文件的名称可以包括:身份证明、婚姻证明、固定资产证明和流动资产证明。

在本发明一个实施例中,在针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度时,可以直接通过分析当前第一文件的名称与当前第二文件的名称是否相同来确定,若相同的字数大于设定阈值时,则确定该当前第一文件与当前第二文件匹配成功。例如,该设定阈值为90%。

由于存在不同的业务,对同一个文件的命名不同,因此,不能够完全靠名称完全相同来确定用户是否已经在办理第二业务时提交了第一业务所需的文件,在本发明一个实施例中,所述针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度,包括:

通过下述方式确定当前第一文件的第一名称与当前第二文件的第二名称的匹配度:

将所述第一名称和所述第二名称分别进行分词处理;

针对所述第一名称对应的每一个分词,分别与所述第二名称对应的各个分词进行比对,并根据下述公式计算所述第一名称与所述第二名称的匹配度:

S=(M1)/(M0)

其中,S用于表征所述第一名称与所述第二名称的匹配度,M0用于表征所述第一名称在与第二名称进行分词处理后分词的总个数,其中,所述总个数中包括的分词两两各不相同,M1用于表征所述第一名称在与第二名称进行比对时比对结果相同时对应的次数。

为了保证加载的第二文件的正确性,在加载成功后,还需要对该第二文件进行进一步的确认,该确认方式可以由工作人员来执行。

在本发明一个实施例中,由于不同的业务对于同一个文件的命名不同,因此,即使文件A的名称与文件B的名称不是完全相同,也可以是同一个文件,因此,可以进一步包括:设定第一阈值范围和第二阈值范围;例如,该第一阈值范围可以包括:[90%,100%];该第一阈值范围可以包括:[60%,90%)。

进一步包括:在匹配度位于所述第一阈值范围时,确定匹配成功;在匹配度位于所述第二阈值范围时,展示该匹配度对应的第二文件,以供进一步确认该展示的第二文件是否为需要的第一文件。

对于阈值范围的设定,可以由软件开发人员根据经验值来确定。

下面结合一个具体的例子,对本发明实施例的文件匹配方法进行说明。

请参考图2,本发明实施例提供的一种文件匹配方法可以包括以下步骤:

步骤201:确定用户A当前办理的业务所需提供的文件A。

例如,当前办理的业务所需提供的文件A包括:身份证复印件、婚姻证明和存款清单。那么,该文件A对应的名称可以为身份证复印件、婚姻证明和存款清单。

步骤202:根据用户A的标识,获取当前数据库中存储的用户A在之前办理业务时提交的文件B。

其中,该标识用于标识用户的唯一性,例如,身份证号、护照号。

例如,用户A在之前办理业务时提交的文件B包括:身份证明、婚姻证明、固定资产证明和流动资产证明,且这四个文件的名称分别为:身份证明、婚姻证明、固定资产证明和流动资产证明。

步骤203:在文件A选择一个未被进行分词处理过的文件的第一名称,以及在文件B中逐个选择未与文件A选择的当前文件的名称进行匹配过的文件的第二名称。

请参考图3,本实施例需要将每一个文件A的名称,逐个与各个文件B的名称进行匹配,以确定匹配度。

步骤204:将第一名称和第二名称分别进行分词处理。

以文件A的名称为身份证复印件、文件B的名称为身份证明为例,对确定的匹配度进行说明。

在本发明一个实施例中,可以直接比对两个名称,在比对名称时,可以将两个名称分别进行分词处理,其中,两个名称可以分为相同个数的词,也可以分为不同个数的词,例如,将“身份证复印件”进行分词处理之后为“身份”“证”“复印”“件”,将“身份证明”进行分词处理之后为“身份”“证”“明”。

在本发明一个实施例中,在对文件A中选择一个文件的名称进行分词处理之后,可以将该选择的文件的名称进行标识,以防止下一次选择时再次选择该文件的名称。

步骤205:针对第一名称对应的每一个分词,分别与第二名称对应的各个分词进行比对,并根据比对结果计算第一名称与第二名称的匹配度。

在对上述分词处理后的两个名称进行比对时,可以针对文件A的名称中每一个词,与文件B的名称中的各个词分别进行比对,以计算匹配度。其中,该匹配度的计算,可以根据平均值的方式来计算。其中,该计算公式可以包括:

S=(M1)/(M0) (1)

其中,S用于表征所述第一名称与所述第二名称的匹配度,M0用于表征所述第一名称在与第二名称进行分词处理后分词的总个数,其中,所述总个数中包括的分词两两各不相同,M1用于表征所述第一名称在与第二名称进行比对时比对结果相同时对应的次数。

在本发明一个实施例中,在对文件B中选择的一个文件的第二名称与文件A的第一名称进行匹配过之后,对该第二名称进行标识,以防止下一次在文件B中包括的各个名称中进行选择时,再次选择该第二名称。

步骤206:确定匹配度与第一阈值范围和第二阈值范围的关系,在匹配度位于第一阈值范围时,执行步骤207;在匹配度位于第二阈值范围时,执行步骤208;在匹配度均不位于第一阈值范围和第二阈值范围时,确定匹配失败。

在本发明一个实施例中,由于不同的业务对于同一个文件的命名不同,因此,即使文件A的名称与文件B的名称不是完全相同,也可以是同一个文件,因此,可以进一步包括:设定第一阈值范围和第二阈值范围;例如,该第一阈值范围可以包括:[90%,100%];该第二阈值范围可以包括:[60%,90%)。

对于阈值范围的设定,可以由软件开发人员根据经验值来确定。

根据上述公式可知,M0=5,M1=2,S=40%。那么可以确定“身份证复印件”和“身份证明”的匹配度为40%,既不位于第一阈值范围,也未位于第二阈值范围,因此,可以确定该文件B中的“身份证明”不是当前业务所需的文件,因此,匹配失败。

以文件A的名称为“婚姻证明”,文件B的名称为“婚姻证明”为例,可以在进行分词处理后,根据上式(1)计算两个名称的匹配度时,可以计算得到匹配度S=100%,因此,可以确定该文件B中的“婚姻证明”为当前办理业务所需的文件,因此,匹配成功。

步骤207:确定匹配成功,则加载该匹配成功的第二名称对应的文件B,并执行步骤203,直到文件A中的所有文件的名称均被分词处理过,执行步骤209。

为了保证加载的第二文件的正确性,在加载成功后,还需要对该第二文件进行进一步的确认,该确认方式可以由工作人员来执行。

步骤208:展示该匹配度对应第二名称对应的文件B,进一步确认该文件B是否为当前业务所需的文件,若是,则执行步骤207。

在该步骤中,可以由办事机构的工作人员来确定该展示的文件B是否为当前业务所需的文件。

步骤209:根据未匹配成功的文件A的第三名称,通知用户A提交该第三名称的文件。

其中,该未匹配成功的文件A为:身份证复印件和存款清单。

步骤210:对用户A提交的该第三名称的文件进行扫描,得到电子版的文件,并将电子版的文件与该用户A相关联,并根据每一个第三名称,对电子版的文件进行存储。

在对用户A提交的身份证复印件和存款清单进行存储时,将该身份证复印件和存款清单与用户A的标识相关联,以保证可以根据用户A的标识查找到身份证复印件和存款清单。该标识可以包括:身份证号或护照号。

如图4、图5所示,本发明实施例提供了一种文件比对装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图4所示,为本发明实施例提供的文件比对装置所在设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图5所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的文件比对装置,包括:

第一确定单元501,用于确定目标用户当前所需办理的第一业务,以及确定对应所述第一业务的至少一个第一文件的名称;

第一获取单元502,用于获取与所述目标用户对应的至少一个第二文件的名称;

第二确定单元503,用于针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度;

加载单元504,用于根据确定的各个匹配度,将匹配成功的第二文件进行加载。

在本发明一个实施例中,可以进一步包括:

第二获取单元,用于获取所述目标用户在办理第二业务时提交的至少一个第二文件,以及获取每一个第二文件对应的电子文件;

配置单元,用于为每一个第二文件对应的电子文件配置相应的名称;

存储单元,用于存储每一个第二文件对应的电子文件及其相应的名称。

在本发明一个实施例中,所述第二确定单元,具体用于通过下述方式确定当前第一文件的第一名称与当前第二文件的第二名称的匹配度:

将所述第一名称和所述第二名称分别进行分词处理;

针对所述第一名称对应的每一个分词,分别与所述第二名称对应的各个分词进行比对,并根据下述公式计算所述第一名称与所述第二名称的匹配度:

S=(M1)/(M0)

其中,S用于表征所述第一名称与所述第二名称的匹配度,M0用于表征所述第一名称在与第二名称进行分词处理后分词的总个数,其中,所述总个数中包括的分词两两各不相同,M1用于表征所述第一名称在与第二名称进行比对时比对结果相同时对应的次数。

在本发明一个实施例中,进一步包括:设定单元,用于设定第一阈值范围和第二阈值范围;

进一步包括:处理单元,用于在匹配度位于所述第一阈值范围时,确定匹配成功;在匹配度位于所述第二阈值范围时,展示该匹配度对应的第二文件,以供进一步确认该展示的第二文件是否为需要的第一文件。

在本发明一个实施例中,所述第一阈值范围包括:[90%,100%];

所述第一阈值范围包括:[60%,90%)。

综上,本发明各个实施例具体如下有益效果:

1、在本发明实施例中,通过确定当前所需办理的第一业务,以及对应第一业务的至少一个第一文件的名称,以及获取与目标用户对应的至少一个第二文件的名称,通过针对每一个第一文件的名称,逐个确定与各个第二文件的名称的匹配度,在匹配成功时,将匹配成功的第二文件进行加载,加载的该第二文件可以用在第一业务中,无需用户提高该加载的第二文件,从而可以提高办事效率。

2、在本发明实施例中,通过设定第一阈值范围和第二阈值范围,可以确定在匹配度位于第一阈值范围时,确定匹配成功。而由于不同的业务对同一个文件的命名不同,因此,即使匹配度位于第二阈值范围,也可能是同一个文件,因此,对于匹配度位于第二阈值范围内时,可以展示该匹配度对应的第二文件,以供进一步的确定,从而可以进一步提高匹配成功的概率。

上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1