一种网页数据的核对方法与流程

文档序号:12887326阅读:224来源:国知局
一种网页数据的核对方法与流程

本发明涉及数据处理领域,特别是涉及一种网页数据的核对方法。



背景技术:

随着互联网技术的不断发展,越来越多的数据通过网页的方式进行呈现。因此在网页中呈现的数据需要人为的完成对其的查找及相应的核对工作。

例如,在电子商务领域中,随着第三方支付平台的日益成熟,各企业越来越倾向于通过第三方支付的方式与顾客进行交易,由于第三方支付平台的交易信息更新及时有效,所以建立起了企业与顾客之间的良好合作。而第三方支付平台往往会将买卖双方的交易信息等内容进行记录后通过网页的形式提供给商家或用户查看。企业通过第三方平台提供的交易信息与自身的交易记录进行核对,以确保账目的准确无误。但是由于数据在网页中显示,并且查看交易信息较为繁琐,如果人为的采用在网页中对逐条交易信息进行查找并且比对的方式,则可能会出现人为的对账失误,进而造成企业的经济损失。另一方面,由于企业每天的交易信息数量过于庞大,并且往往更新速度较快,因此,如果仍采用上述的方法,会大大降低整体的工作效率。

由此可见,提供一种网页数据的核对方法以提高核对数据时的准确性以及核对的执行效率,是本领域技术人员亟待解决的问题。



技术实现要素:

本发明的目的是提供一种网页数据的核对方法及装置,避免人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高准确性以及工作效率。

为解决上述技术问题,本发明提供一种网页数据的核对方法,包括:

获取网页数据,并对网页数据进行提取,以得到目标数据;

将目标数据进行分类,并写入目标数据表中;

获取标准数据表,并根据标准数据表与目标数据表之间相对应的栏位建立标准数据表与目标数据表的连接关系;其中标准数据表中记录有用于核对的标准数据;

根据连接关系核对标准数据表与目标数据表的对应数据,并得到对应数据的差值,将差值作为核对结果。

优选的,获取网页数据具体为:

通过网络爬虫技术获取网页数据。

优选的,在获取网页数据,并对网页数据进行提取,以得到目标数据后,该方法进一步包括:

将目标数据写入目标数据文件。

优选的,在得到对应数据的差值,将差值作为核对结果后,该方法进一步包括:

输出核对结果。

优选的,在输出核对结果之前,该方法进一步包括:

设定误差阈值;

相应的,在得到对应数据的差值后,该方法进一步包括:

判断差值是否在误差阈值的范围内,如果是,则执行输出核对结果的步骤;

否则,进行错误提示。

优选的,在输出核对结果后,该方法进一步包括:

将核对结果存储到本地数据库。

优选的,写入目标数据表的对应栏位中具体为:

写入hive数据库的目标数据表的对应栏位中。

此外,本发明还提供一种网页数据的核对装置,包括:

数据提取模块,用于获取网页数据,并对网页数据进行提取,以得到目标数据;

数据写入模块,用于将目标数据进行分类,并写入目标数据表中;

数据表连接模块,用于获取标准数据表,并根据标准数据表与目标数据表之间相对应的栏位建立标准数据表与目标数据表的连接关系;其中标准数据表中记录有用于核对的标准数据;

数据核对模块,用于根据连接关系核对标准数据表与目标数据表的对应数据,并得到对应数据的差值,将差值作为核对结果。

优选的,该装置进一步包括:

数据写入模块,用于将目标数据写入目标数据文件。

优选的,该装置进一步包括:

输出模块,用于输出核对结果。

本发明所提供的网页数据的核对方法,对网页中所呈现的数据进行了提取操作,进而得到目标数据文件,相当于将网页中零散的数据进行了提取及整合,使每条数据不再零散显示在网页中,方便了后续对数据的进一步操作。此外,将目标数据文件中的数据进行归类写入数据表中的目的是为了进一步与标准数据表建立连接以进行两个表单中对应数据位的核对。可见本发明所提供的方法通过使用数据表之间的连接关系进行数据的核对,避免了人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高了准确性以及工作效率。此外,本发明还提供一种网页数据的核对装置,与上述的方法对应,有益效果如上所述。

附图说明

为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网页数据的核对方法的流程图;

图2为本发明实施例提供的另一种网页数据的核对方法的流程图;

图3为本发明实施例提供的一种网页数据的核对装置结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。

本发明的核心是提供一种网页数据的核对方法及装置,避免了人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高了准确性以及工作效率。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。

实施例一

图1为本发明实施例提供的一种网页数据的核对方法的流程图。请参考图1,网页数据的核对方法的具体步骤包括:

步骤s10:获取网页数据,并对网页数据进行提取,以得到目标数据。

本步骤的目的时将网页上的需要进行后续核对的数据进行提取。需要说明的是,由于目标数据完全为网页上的实时数据,因此即使网页中的数据发生了变化目标数据也会相应的进行改变,因此目标数据更加具有时效性。

步骤s11:将目标数据进行分类,并写入目标数据表中。

可以理解的是,由于从网页中获取的目标数据没有明确的类别关系,无法存入数据表中进行后续使用。因此,需要对目标数据进行按类型分布,相同类型的数据代表同样的内容,进而将代表相同内容的数据写入目标数据表的对应栏位中。

步骤s12:获取标准数据表,并根据标准数据表与目标数据表之间相对应的栏位建立标准数据表与目标数据表的连接关系。

其中标准数据表中记录有用于核对的标准数据。需要说明的是,数据表之间通过相同的键进行连接关系的建立,所述的键在数据表中以栏位的形式展现,相当于将两个数据表中均具有的栏位作为连接轴,连接成一张数据表。在连接之后,两张表中的栏位能够相互对应,因此可以进行后续对两个数据表中相对应栏位中的数据进行比对的操作。

步骤s13:根据连接关系核对标准数据表与目标数据表的对应数据,并得到对应数据的差值,将差值作为核对结果。

可以理解的是,核对的目是得知核对的数据之间是否一致或相差的值,因此对应数据的差值即为对数据核对的结果。

本发明所提供的网页数据的核对方法,对网页中所呈现的数据进行了提取操作,进而得到目标数据文件,相当于将网页中零散的数据进行了提取及整合,使每条数据不再零散显示在网页中,方便了后续对数据的进一步操作。此外,将目标数据文件中的数据进行归类写入数据表中的目的是为了进一步与标准数据表建立连接以进行两个表单中对应数据位的核对。可见本发明所提供的方法通过使用数据表之间的连接关系进行数据的核对,避免了人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高了准确性以及工作效率。

实施例二

图2为本发明实施例提供的另一种网页数据的核对方法的流程图。图2中步骤s10-s13与图1相同,在此不再赘述。

在上述实施例的基础上,作为一种优选的实施方式,获取网页数据具体为:

通过网络爬虫技术获取网页数据。

需要说明的是,爬虫技术是一种可以按照用户自定义的一系列规则,以实现自动的抓取网页上的相应数据的程序,灵活性较高。并且爬虫技术可以通过多种编程语言实现,因此对平台要求更低。

如图2所示,作为一种优选的实施方式,在获取网页数据,并对网页数据进行提取,以得到目标数据后,该方法进一步包括:

步骤s20:将目标数据写入目标数据文件。

本步骤中,将目标数据写入目标数据文件实现了将目标数据的整合,方便后续对目标数据的分析以及进一步处理,也可以将目标数据文件作为目标数据的备份形式存储在本地数据库或是分布式集群中,在此不做具体限定。

如图2所示,作为一种优选的实施方式,在得到对应数据的差值,将差值作为核对结果后,该方法进一步包括:

步骤s21:输出核对结果。

可以理解的是,将核对结果进行输出可以使用户更加直观清晰的了解核对结果,用户也可以根据核对结果进一步进行后续操作。

如图2所示,在上述实施方式的基础上,作为一种优选的实施方式,在输出核对结果之前,该方法进一步包括:

步骤s22:设定误差阈值。

相应的,在得到对应数据的差值后,即步骤s13后,该方法进一步包括:

步骤s23:判断差值是否在误差阈值的范围内,如果是,则执行步骤s21;如果否,则执行步骤s24。

步骤s24:进行错误提示。

需要说明的是,由于考虑到进行核对的两个数据不完全相同,可能存在有差值,并且存在差值是被允许的,所以设定误差阈值。可以理解的是,所核对数据的差值在满足误差阈值的范围内,则被视为核对无误,相反的,如果差值过大以至于超出误差阈值,则说明核对出现错误,需要进行提示,由用户进行查看和处理。另外,设定误差阈值的步骤只需在判断差值是否在误差阈值的范围内的步骤之前进行,也可以与其他步骤同时进行,不做具体限定,并且阈值应根据对数据核对的具体要求而定,在此也不做限定。

如图2所示,作为一种优选的实施方式,在输出核对结果后,该方法进一步包括:

步骤s25:将核对结果存储到本地数据库。

可以理解的是,将核对结果存储到本地数据库的目的在于,当用户再次或是反复读取核对结果数据进行后续的操作时,保证了核对结果数据不会出现丢失或损坏的情况,保证了核对结果数据的安全性和可用性。

此外,作为一种优选的实施方式,写入目标数据表的对应栏位中具体为:

写入hive数据库的目标数据表的对应栏位中。

由于hive数据库为分布式集群所采用的数据库工具,将数据写入hive数据库能够符合大数据环境下对数据的处理,并且hive数据库提供了一系列sql语句的接口,用户可以直接通过sql语句实现对大数据的处理等,更加方便用户对数据的一系列后续操作。

为了更加清晰的表现上述实施例中的步骤的执行过程,下面通过一个真实的使用场景进行详细说明。

企业在核对账目时利用网络爬虫技术对第三方的系统中的网页数据进行获取,数据的内容包括创建时间、投资时间、订单号、商户订单号、支付银行、订单状态、订单金额、成功金额等网页数据。根据数据的内容将数据写入hive数据库的t_third_pay_data数据表的对应栏位中。在对比交易金额时,通过订单号将t_third_pay_data数据表与企业的t_recharge_log数据表以及t_withdraw_log数据表建立连接,查询t_third_pay_data数据表中的订单金额与t_recharge_log数据表的充值金额、t_withdraw_log数据表的到账金额,将相同订单号的订单金额、充值金额以及交易金额进行逐一核对;在对比手续费时,通过订单号将t_third_pay_data数据表与t_withdraw_log数据表建立连接,进而逐一核对t_third_pay_data数据表中的手续费金额与t_withdraw_log数据表中的手续费金额。如果上述核对中出现问题则进行错误提示,否则将核对的数据写入数据库。

实施例三

在上文中对于网页数据的核对方法的实施例进行了详细的描述,本发明还提供一种与该方法对应的网页数据的核对装置,由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。

图3为本发明实施例提供的一种网页数据的核对装置结构图。本发明实施例提供的网页数据的核对装置,具体包括:

数据提取模块10,用于获取网页数据,并对网页数据进行提取,以得到目标数据。

数据写入模块11,用于将目标数据进行分类,并写入目标数据表中。

数据表连接模块12,用于获取标准数据表,并根据标准数据表与目标数据表之间相对应的栏位建立标准数据表与目标数据表的连接关系,其中标准数据表中记录有用于核对的标准数据。

数据核对模块13,用于根据连接关系核对标准数据表与目标数据表的对应数据,并得到对应数据的差值,将差值作为核对结果。

本发明所提供的一种网页数据的核对装置,对网页中所呈现的数据进行了提取操作,进而得到目标数据文件,相当于将网页中零散的数据进行了提取及整合,使每条数据不再零散显示在网页中,方便了后续对数据的进一步操作。此外,将目标数据文件中的数据进行归类写入数据表中的目的是为了进一步与标准数据表建立连接以进行两个表单中对应数据位的核对。可见本发明所提供的装置通过使用数据表之间的连接关系进行数据的核对,避免了人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高了准确性以及工作效率。

在实施例三的基础上,该装置还包括:

数据写入模块,用于将目标数据写入目标数据文件。

在实施例三的基础上,该装置还包括:

输出模块,用于输出核对结果。

以上对本发明所提供的一种网页数据的核对方法及装置进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1