一种灵活的自定义比对方法与流程

文档序号:13716975阅读:126来源:国知局
技术领域本发明涉及计算机通信技术领域,具体涉及一种灵活的自定义比对方法,一种灵活的选择不同来源的数据进行比对的方法。

背景技术:
随着信息化应用的推广,大型机构中信息系统的数量在逐渐增多。但由于各系统数据规范不完整、系统间缺少数据接口,而使数据整合工作成为IT部门的一项重要工作;数据整合包含了数据的提取、转换和加载,其中涉及计算机技术和业务逻辑。数据整合是非常重要的,甚至会影响信息系统/数据仓库建设的成败。一个对象存储在多个系统中,使得在数据整合的过程中必须要进行数据的比对,而且,此时的数据比对工作也是数据整合的核心内容。每个系统对同一对象的理解角度不同,因此给出的对象定义也不相同;同时考虑数据的完整性,数据的时间局限性等导致数据的比对工作并不顺利。数据比对一般由计算机程序自动处理,后期则需要人工参与。涉及到数据比对的数据整合存在于诸多信息系统建设过程中,如国家基础信息库系统的建设;人口库数据分别来源于公安局、劳动局、教育局、劳动和社会保障局等,法人库数据来源于工商局、税务局、经委等;地理信息资源库来源于规划局、房地局、水务局、建管局、交管局等。

技术实现要素:
本发明要解决的技术问题是:由于不同的系统中的数据规范不一致、系统之间缺少接口等,导致数据比对工作难以进行,为了解决不同来源的数据之间进行比对问题,本发明提供一种灵活的自定义比对方法。本发明所采用的技术方案为:一种灵活的自定义比对方法,所述方法通过定义数据比对过程中的主数据、数据中的匹配字段,结合主数据流进行数据比对,通过自定义所需要比对的两张表单以及所需要比对的字段,设定字段的比对规则,系统根据用户所设定的规则标记存在差异的数据。所述方法通过数据采集、主数据定义、辅助字段设定、比对规则设定等步骤完成数据的比对。所述数据采集过程如下:首先,定义数据采集的模板,确保采集到的数据中关键字段能够采集到;其次,设置数据的采集时间,方便后续数据不同维度进行比对;最后,来源于不同的系统的数据分开存放,并标记数据来源。所述主数据定义过程如下:按照数据比对业务的要求,定义主、从表及所需比对的字段,确定这些字段的意义、数据的来源、在各自系统中的名称。所述辅助字段设定过程如下:选取相同意义的字段,设定主表和从表中的辅助字段。所述比对规则设定过程如下:数据比对过程中,需要经过运算来确认信息是否存在差异的这类字段,其比对通过设定计算公式来实现。所述方法操作步骤如下:1)规范化数据采集:自定义数据采集模板,把互联网数据或者其他单位提供的数据清洗、整理成规范化的数据存入到数据库表中;2)数据快速匹配:两张表中的数据进行关联,如果不存在关键字段,采取辅助字段进行模糊匹配,方便下一步的数据比对;3)比对规则自定义:选择两张表,规定主表与从表、选出所需要比对的字段与数据关联的字段,然后设定所需要比对的字段之间的计算关系,通过计算直接显示出存在差异的数据及字段。所述方法采用规范的数据采集标准,互联网数据通过网络爬虫技术来获取,其他单位提供的数据,通过提供excel或者数据库直接链接方式提供。所述方法所涉及的系统采取B/S架构,用户在浏览器界面实现主数据定义、辅助字段设定和比对规则设定。本发明的有益效果为:本发明方法只需明确主、从表字段之间的比对规则就能计算出比对结果,大大提高了不同数据表间的比对效率。附图说明图1为本发明方法流程图。具体实施方式下面结合说明书附图,通过具体实施方式对本发明进一步说明:实施例1:一种灵活的自定义比对方法,所述方法通过定义数据比对过程中的主数据、数据中的匹配字段,结合主数据流进行数据比对,通过自定义所需要比对的两张表单以及所需要比对的字段,设定字段的比对规则,系统根据用户所设定的规则标记存在差异的数据。实施例2:如图1所示,在实施例1的基础上,本实施例所述方法通过数据采集、主数据定义、辅助字段设定、比对规则设定等资格步骤完成数据的比对。实施例3:在实施例2的基础上,本实施例所述数据采集过程如下:首先,定义数据采集的模板,确保采集到的数据中关键字段能够采集到,例如采集人员信息,姓名、年龄、性别、身份证号等字段必须存在;其次,设置数据的采集时间,方便后续数据不同维度进行比对;最后,来源于不同的系统的数据分开存放并标记数据来源,这样在数据比对过程中才更有针对性。实施例4:在实施例2的基础上,本实施例所述主数据定义过程如下:按照数据比对业务的要求,定义主、从表及所需比对的字段,确定这些字段的意义、数据的来源、在各自系统中的名称。此步骤是数据比对工作的核心部分,需要明确关键数据项的来源和责任。如对于人口数据:姓名和身份证号码来源于公安局,教育程度来源于教育局,就业单位信息来源于劳动和社会保障局等。实施例5:在实施例2的基础上,本实施例所述辅助字段设定过程如下:通过选取相同意义的字段,设定主表和从表中的辅助字段,如人员信息比对,可选择身份证号、姓名等字段。选取辅助字段是为了在数据比对过程中更好的检索出表示同一信息的数据来进行比对,由于数据表中数据量大,如果不选取辅助字段,数据比对时会产生笛卡尔积的情况,导致比对数据量大增。选取不同意义的辅助字段,可以产生不同的比对结果,方便用户多维度的对数据进行比对。实施例6:在实施例2的基础上,本实施例所述比对规则设定过程如下:由于数据比对过程中,部分字段不能直接进行比对,需要经过运算来确认信息是否存在差异,所以这类字段的比对可通过设定计算公式来实现,如房屋交易信息比对,A表中存在交易总额,B表中存在房屋面积及每平米价格,则可设定B表中的房屋面积*每平米价格来与A表中的交易总额字段来进行比对。实施例7:在1-6任一实施例的基础上,本实施例所述方法操作步骤如下:1)规范化数据采集:自定义数据采集模板,把互联网数据或者其他单位提供的数据清洗、整理成规范化的数据存入到数据库表中;2)数据快速匹配:两张表中的数据进行关联,如果不存在注册号、身份证号等关键字段,可以采取名称、地区等辅助字段进行模糊匹配,方便下一步的数据比对;3)比对规则自定义:选择两张表,规定主表与从表、选出所需要比对的字段与数据关联的字段,然后设定所需要比对的字段之间的计算关系,通过计算直接显示出存在差异的数据及字段。实施例8:在实施例7的基础上,本实施例所述方法采用规范的数据采集标准,互联网数据通过网络爬虫技术来获取,其他单位提供的数据,通过提供excel或者数据库直接链接等方式提供。实施例9:在实施例7的基础上,本实施例所述方法所涉及的系统采取B/S架构,用户在浏览器界面实现主数据定义、辅助字段设定和比对规则设定。以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1