对不同来源的业务数据进行规范化处理的方法及系统与流程

文档序号:12011564阅读:308来源:国知局
对不同来源的业务数据进行规范化处理的方法及系统与流程
本发明涉及对不同来源的业务数据进行数据处理的技术,特别涉及一种对不同来源的业务数据进行规范化处理的方法及系统。

背景技术:
各行各业的生产厂商都希望及时、准确、完整地掌握其渠道商销售的相关数据,但是各个渠道商在采集数据时所采用的数据字段格式不完全相同,即使数据的字段格式相同的,数据内容填写也不完全相同。例如:同样是产品名称这一字段,同样是“史克肠虫清”,有的渠道商会填写“史克肠虫清”,有的会填写“阿苯达唑(史克肠虫清)”等等。这就使得生产厂商在对不同来源的业务数据进行处理时,很困难。目前,所采用的方式是由第三方数据处理企业,接收其各个渠道商的业务数据,将其统一格式和数据内容后,再发送给生产厂商。通常是通过一套完整的软件来实现。首先,会在生产厂商的各个渠道商(下文中统称为渠道商)处安装客户端程序,该程序中固定了该生产厂商所需要的符合该生产厂商格式的渠道商信息及产品信息等。渠道商每天的销售相关数据会通过数据系统与该生产厂商需要的渠道商信息进行匹配,在匹配完成后再将数据转换成所匹配的内容并统一发送至生产厂商。该方式虽然解决了生产厂商对于数据及时性的需求,但对于数据的准确性,却存在以下不足:1、渠道商的下游渠道存在可变性,一旦渠道发生变化,原本储存在系统中固定的匹配关系其准确性及数据的可匹配率将大大下降。2、生产厂商的渠道商信息也存在可变性,如果生产厂商需要变更其下游渠道,第三方数据处理企业无法将所有部署在全国各地渠道商的系统中的匹配关系进行快速的更新,且每次更新都需要花费大量的人力和财力。3、对于无法匹配的数据,即使该数据是真实有效的渠道业务数据,生产厂商也无法获取。除了上述方式,一些专业的数据处理公司还采用了另一种策略。通过邮件或快递等方式获取渠道铺货数据,先将其转换成统一标准的电子文件格式,以此来确保原始数据的完整性和准确性;其次安排质检人员对数据的准确性进行双录排错与数据汇总,确保数据与原始一致,然后将数据中的下游渠道商匹配成客户需要的渠道商信息,在检查无误后再已刻录光盘或邮件的形式反馈至客户。这种处理方式采取了全人工处理的策略,通过双录排错及人工校验的形式保证了数据的准确性,可对于数据的及时性,却依然存在以下不足:1、及时性差,且人工成本高。由于采取了人工处理的策略,整个处理较机器处理所需时间长、效率低。尤其是海量数据,该类根本无法在短时间内完成处理,2、对于无法匹配的数据,即使是真实有效的渠道业务数据,生产厂商也无法获取。即使生产厂商获取了这部分数据,由于没有进行规范化处理,也只是渠道商提供的原始数据,无法供生产厂商使用。

技术实现要素:
有鉴于此,本发明的主要目的在于一种对不同来源的业务数据进行规范化处理的方法及系统,实现不同来源的业务数据中相同字段的数据内容的规范化。为达到上述目的的一个方面,本发明提供了一种对不同来源的业务数据进行规范化处理的方法,对于不同来源的、具有相同数据字段格式的业务数据文件,执行如下步骤:A、按照数据字段的名称,将业务数据划分为多组数据。B、从业务数据中的第一组开始,逐个对每组数据执行:B1、按照预先配置的规则,将该组数据中的每个数据字段中的数据内容转换为标准格式。B2、从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,与对应数据字段的标准格式的数据内容进行匹配。所述标准格式的数据内容存储在预先设置的标准主数据中。B3、将匹配成功的数据内容转换为标准格式,对匹配不成功的数据内容执行步骤B4。B4、将步骤B2提取的信息,按照标准格式新建一条标准格式的数据内容,存储到所述标准主数据中;将匹配不成功的数据内容与新建的标准格式的数据内容进行匹配,转换为标准格式。为达到上述目的的一个方面,本发明还提供了一种对不同来源的业务数据进行规范化处理的系统,包括:数据拆分单元,按照数据字段的名称,将业务数据划分为多组数据,从业务数据中的第一组开始,逐个将每组数据传送给数据转换单元。数据转换单元,按照预先配置的规则,将每组数据中的每个数据字段中的数据内容转换为标准格式,将转换后的数据输出,将不能转换为标准格式的数据内容传送给数据匹配单元。数据匹配单元,从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,与对应数据字段的标准格式的数据内容进行匹配;将匹配成功的数据内容转换为标准格式输出,将匹配不成功的数据内容传送给主数据新增工作台。所述标准格式的数据内容存储在预先设置的标准主数据中。主数据新增工作台,将数据匹配单元提取的信息,按照标准格式新建一条标准格式的数据内容,存储到所述标准主数据中。数据修复工作台,将匹配不成功的数据内容与新建的标准格式的数据内容进行匹配,转换为标准格式输出。由上述的技术方案可见,本发明提供的这种对不同来源的业务数据进行规范化处理的方法及系统,对不同来源的、具有相同数据字段格式的业务数据文件,先拆分为多个组,对每个组的数据按照预先配置的规则,将每个数据字段中的数据内容转换为标准格式,对不能转换为标准格式的数据内容,与预设的标准主数据进行匹配,匹配成功的数据内容转换为标准格式,对匹配不成功的数据内容,在标准主数据中建立一条新的标准格式数据内容,将匹配不成功的数据内容再次与标准主数据进行匹配,匹配成功后的数据内容转换为标准格式。因此,实现了不同来源的业务数据中相同字段的数据内容的规范化,能够同时兼顾数据的及时性和准确性。附图说明图1为本发明一较佳实施例中对企业数据组进行规范化处理的流程图;图2为本发明一较佳实施例中对业务数据进行规范化处理的系统示意图;图3为图2所示实施例中数据转换处理单元的结构示意图。具体实施方式以下参照附图并举具体实施例对本发明进行详细说明。本发明提供了一种对不同来源的业务数据进行规范化处理的方法及系统,对不同来源的、具有相同数据字段格式的业务数据文件,先拆分为多个组,对每个组的数据按照预先配置的规则,将每个数据字段中的数据内容转换为标准格式,对不能转换为标准格式的数据内容,与预设的标准主数据进行匹配,匹配成功的数据内容转换为标准格式,对匹配不成功的数据内容,在标准主数据中建立一条新的标准格式数据内容,将匹配不成功的数据内容再次与标准主数据进行匹配,匹配成功后的数据内容转换为标准格式。以下举具体实施例对本发明进行详细说明。本发明中不同来源的、具有相同数据字段格式的业务数据文件,指的是一个生产厂商的不同渠道商提供的多个业务数据文件。首先,按照数据字段的名称,将业务数据划分为多组数据,并预先建立相应的标准格式的主数据。例如:将与企业信息相关的数据字段“企业名称”、“企业类型”、“企业地址”、“邮编”等等企业相关的数据字段,划分为一组,称为企业数据;将与贸易关系相关的数据字段“渠道商上游企业的名称”、“渠道商下游企业的名称”等等数据字段,划分为一组,称为企业贸易关系数据。相应的,预先设置标准企业主数据和标准企业贸易主数据,该标准企业主数据和标准企业贸易主数据中存储了相应数据字段的标准格式的数据内容,以便用于数据匹配。对于一个完整的数据文件,其处理的过程是按照上述分组的顺序,从第一组开始,一组一组的串行进行处理,直到全部数据字段处理完毕。由于对各组数据进行处理的过程是相同的,以下以对企业数据组进行规范化处理过程为例,对本发明进行详细说明。如图1所示,对企业数据组进行规范化处理过程包括如下步骤:步骤101,按照预先配置的规则,将数据内容转换为标准格式。对转换后的数据,执行步骤110;对不能转换的数据,执行步骤102。本步骤中的数据转换是由计算机自动根据预先配置的规则进行转换。以处理某厂商的库存数据为例,如果配置的规则为“去除多余空格规则”、“中文符号转为符号规则”、“产品转换规则”。输入数据内容格式如表1所示:表1经过转换后,输出数据格式如表2所示:表2步骤102,判断能否从不能转换为标准格式的数据内容中提取标准格式的数据内容需要的信息,如果是,则执行步骤104;否则执行步骤103。本步骤中,可以采用人工辅助计算机的方式进行。例如:将不能转换为标准格式的数据内容输出到显示器,操作人员根据标准格式来判断是否能够提取需要的信息。步骤103,对数据内容进行规整。本步骤中,也可以采用人工辅助计算机的方式进行。例如,因“企业地址”中的错别字,而不能提取标准格式的数据内容需要的信息,则通过人工将该错别字修改。数据规整后,执行步骤104。步骤104,提取出标准格式的数据内容需要的信息与标准主数据进行匹配。对匹配成功的数据执行步骤110,匹配不成功的数据执行步骤105。本步骤中,计算机采用现有的匹配算法进行模糊匹配,当匹配率达到95%或以上时,直接将该数据内容转换为标准格式的数据内容,转换后的数据执行步骤110。步骤105,判断匹配过程中是否有可用建议值,如果有,则执行步骤109;否则,执行步骤106。本步骤是个审核的过程,就是判断在匹配过程中计算的建议值中,是否有能够匹配的数据内容。实际应用中,本步骤也可采用人工辅助计算机的方式实现。另外,为了提高准确性,本审核步骤可以执行两次。步骤106,用步骤104提取出标准格式的数据内容需要的信息,新增标准主数据。本步骤中,是将提取出的信息,组合成一条新的标准格式的数据内容展示给操作人员,操作人员需要手工补全该信息,再将数据传输至主数据审核工作台。例如:提取出的信息为“上海市第一人民医院”,标准格式需要其中包含区的名称,则新增的标准格式的数据为“上海市浦东区第一人民医院”。步骤107,判断新增标准主数据审核是否通过,如果是,则执行步骤109;否则执行步骤108。本步骤中的数据审核可以包括两个方面:1、判断标准主数据中,是否已经存在该新增的标准格式的数据内容;如果已经有,则对该数据要返回去执行步骤104;否则可以执行第2方面审核。2、判断新增的标准格式的数据内容是否为要求的标准格式,例如:是否有错别字,是否缺少或多出信息等等。如果第2方面的审核不通过,则执行步骤108。步骤108,修正新增标准主数据后,返回步骤107。本步骤中,也可以采用人工辅助计算机实现。人工修改错别字,增加或删除标准格式中的信息。步骤109,修复数据。本步骤中,具体地就是将匹配不成功的数据内容与标准主数据再次进行匹配,将匹配上的数据转换为标准格式。由于找到了可用的建议值,或者新增了标准主数据,因此在本步骤中,数据都能匹配成功。步骤110,判断数据审核是否通过,如果是,则将转换后的标准格式的数据输出;否则,执行步骤111。本步骤中,是将已转换为标准格式的每个数据字段中的数据内容,分别与转换前的数据内容和标准主数据中相应数据字段中的标准格式的数据内容进行比较,判断转换是否正确,如果全部数据转换正确,则该组数据的规范化处理完成,将转换后的标准格式的数据输出,否则对审核不通过的数据,执行步骤111。步骤111,对数据进行修正,返回步骤110。上述步骤110和111,同样可以采用人工辅助计算机实现。步骤111对数据进行修正的方法与步骤108相同,这里不再重复说明。另外,本发明的对不同来源的业务数据进行规范化处理的方法,还可以包括将已转换为标准格式的业务数据转换为企业需要数据的步骤,从标准格式的业务数据中的第一组开始,逐个对每组数据执行如下步骤:1、按照预先配置的规则,将该组数据中的每个数据字段中的数据内容转换为企业需要的格式。2、从不能转换为企业需要的格式的数据内容中提取企业需要的格式的数据内容所需要的信息,与对应数据字段的企业需要的格式的数据内容进行匹配。所述企业需要的格式的数据内容存储在预先设置的企业格式主数据中;3、将匹配成功的数据内容转换为企业需要的格式,对匹配不成功的数据内容执行步骤4。4、将步骤2提取的信息,按照企业需要的格式新建一条企业需要的格式的数据内容,存储到所述企业格式主数据中;将匹配不成功的数据内容与新建的企业需要的格式的数据内容进行匹配,转换为企业需要的格式。实际这个转换为企业需要的格式的数据过程与图1所示的过程基本相同,区别在于转换规则和具体的格式不完全相同,而且由于是对标准格式的数据进行转换,因此在转换过程中不需要进行数据内容规整。以下,对本发明提供的对不同来源的业务数据进行规范化处理的系统进行详细说明。如图2所示,本实施例一个较佳的系统包括:数据拆分单元200,数据转换单元201,数据匹配单元202,数据规整工作台203、主数据新增工作台204,主数据审核工作台205、主数据修正工作台206、数据修复工作台207,数据审核工作台208和数据修正工作台209。其中,数据拆分单元200,按照数据字段的名称,将业务数据划分为多组数据,从业务数据中的第一组开始,逐个将每组数据传送给数据转换单元201。数据转换单元201,按照预先配置的规则,将每组数据中的每个数据字段中的数据内容转换为标准格式,将转换后的数据输出给数据审核工作台208,将不能转换为标准格式的数据内容传送给数据匹配单元202。本实施例中,为了进一步提高数据的准确性,设置了数据审核工作台208,在实际应用中如果对数据准确性要求不高,也可以不设置数据审核工作台。数据匹配单元202,判断能否从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,如果能,则从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,与对应数据字段的标准格式的数据内容进行匹配;如果不能,则将匹配不成功的数据内容传送给数据规整工作台203。并将匹配成功的数据内容转换为标准格式输出给数据审核工作台208,对匹配不成功的数据,判断其在匹配过程中是否有可用的建议值,如果有,则将该匹配不成功的数据、提取的信息和可用建议值传送给数据修复工作台207。如果没有,则将匹配不成功的数据内容传送给主数据新增工作台204。数据规整工作台203,对数据内容进行数据规整,提取标准格式的数据内容所需要的信息后,发送给数据匹配单元202进行匹配。本实施例中,为了进一步提高数据的准确性,设置了数据规整工作台203,在实际应用中如果对数据准确性要求不高,也可以不设置数据规整工作台203。本实施例中,标准格式的数据内容存储在预先设置的标准主数据中。本实施例中的主数据新增工作台204,将数据匹配单元202提取的信息,按照标准格式新建一条标准格式的数据内容,传送给主数据审核工作台205。主数据审核工作台205,先判断标准主数据中是否已经存在该新建的标准格式的数据内容,如果存在,则将该数据内容经主数据新增工作台返回给数据匹配单元202;否则,判断该新建的标准格式的数据内容是否符合标准格式,如果符合,则将新建的标准格式的数据内容存储到标准主数据中,并通知数据修正工作台207;如果不符合,则将新建的标准格式的数据内容传送给主数据修正工作台206。主数据修正工作台206,对新建的标准格式的数据内容,按标准格式进行修正后,返回给主数据审核工作台205。数据修复工作台207,将匹配不成功的数据内容与可用建议值进行匹配,或与新建的标准格式的数据内容进行匹配,转换为标准格式输出给数据审核工作台208。同样的,如果在实际应用中如果对数据准确性要求不高,也可以不设置主数据审核工作台205和主数据修正工作台206。数据审核工作台208,从数据转换处理单元201、数据匹配单元202和数据修复工作台207获得要输出的、已转换为标准格式的每个数据字段中的数据内容,分别与转换前的数据内容和标准主数据中相应数据字段中的标准格式的数据内容进行比较,判断转换是否正确,如果全部数据转换正确,则该组数据的规范化处理完成,将转换后的数据输出。否则,转换错误的数据字段的数据内容传送给数据修正工作台209。数据修正工作台209,按照标准格式对数据进行修正后,返回给数据审核工作台。同样的,如果在实际应用中如果对数据准确性要求不高,也可以不设置数据修正工作台209。另外,在本实施例的系统中还可以包括:设置在数据匹配单元202和主数据新增工作台204之间的数据二次确认工作台(图2中未示出)。本实施例中,数据匹配单元202,可以先将匹配不成功的数据内容传送给数据二次确认工作台,数据二次确认工作台,两次确认在匹配过程中计算的建议值中是否有能够匹配的数据内容,如果有,则将匹配不成功的数据内容,用能够匹配的数据内容转换为标准格式输出给数据审核工作台208;否则,将匹配不成功的数据内容传送给主数据新增工作台204。本实施例中的数据转换单元201如图3所示,包括:数据转换模块301、规则配置模块302和监控模块303。其中,数据转换模块301,接收输入的数据,从规则配置模块302获取规则,按照规则将每组数据中的每个数据字段中的数据内容转换为标准格式,将转换后的数据输出,将不能转换为标准格式的数据内容传送给数据匹配单元202,并在执行每个处理步骤时,向监控模块303发送该处理步骤对应的心跳信号。规则配置模块302,配置和存储规则。监控模块303,根据心跳信号对所述数据转换模块进行监控,判断数据转换模块是否出现异常以及出现异常的处理步骤,在数据处理模块出现处理步骤异常时,输出异常信息;异常信息可以通过显示器显示给操作人员。还需要说明的是,本实施例系统中的各个单元由计算机实现,各个工作台可以由人工辅助计算机实现。由上述的实施例可见,本发明的这种对不同来源的业务数据进行规范化处理的方法及系统,实现了不同来源的业务数据中相同字段的数据内容的规范化,能够同时兼顾数据的及时性和准确性。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1