资料的整合方法

文档序号:6465194阅读:1079来源:国知局

专利名称::资料的整合方法
技术领域
:本发明是关于一种可解决不同资料之间内容不对称,使不同型态资料得以整合,突破资料使用极限的资料整合方法,并且可将少样本量的资料扩充为多样本量资料的资料的整合方法。
背景技术
:各行各业为了解自己所提供的服务或产品是否被消费者接受或喜爱,常以问巻调查来了解消费者对该项服务或产品的评价,以此作为改进的依据。而市场调查(MR)上的问题是根据委托方的需求设计的,属于一种主动资料,其问巻内容的项目可根据业者想了解的内容进行调整,所以其优点为项目(变量的数量)多,但其缺点是访问人力成本高,获取样本数量低,因此资料的参考性无法反映所有对象。另一方面,零售端(PointOfSales,POS)的销售或客户消费记录是一种样本数量大的资料,但其资料内容仅记录一些简单的如日期、种类及消费金额等资料,对于消费习惯等深层的资料并不能确切了解,属于一种被动式的资料。虽然具有大的样本量,但无法成为改进服务或创造新商品的决策依据。目前商业或非商业领域普遍存在这种资料不对称的现象,致使资料应用者无法找出最佳可信赖的资料作为供其研究或决策的参考,甚至必须为某一目的再重新制作一份资料,非常耗费成本。有鉴于此,本发明提供一种资料的整合方法,用于解决上述诸多的资料的问题。
发明内容本发明的目的,在于提供一种资料的整合方法,可以将具有不同内容的资料整合,形成具有全面参考价值的新资料,以突破资料使用极限并且节省重新制作新资料的成本。本发明的目的,还在于提供一种资料的整合方法,其可以利用系统化的预测将少样本量的资料推测出一多样本量的资料,且资料内容包含足够参考的涉及方面,作为供研究或决策的有效参考。为达成上述目的,本发明的资料的整合方法包括下列步骤a)、选取一第一资料中的一个项目制定为一关键变量;b)、制作一包含有关键变量的第二资料;c)、以关键变量连接第一资料与第二资料,并将所述第一资料与第二资料输入一处理器以产生一第三资料;d)、第三资料的准确率验证,不通过则回步骤c),通过则储存。如上所述的资料整合方法,其中第一资料、第二资料被定义为主动资料或被动资料;或者,其一被定义为主动资料,另一被定义为被动资料。而第三资料为结合第一资料与第二资料所预测、推测或映像的资料。通过上述方法,可以将个别资料的优点整合,缺点弥补,从而获得一份兼具两者特性的新资料。新资料中包含了旧资料中例如MR的多个涉及方面,用于提供更深度的资料内容;同时,新资料又具有旧资料例如POS的足够的样本量,使被参考的可信度提高。因此,本方法可以解决现有各种不对称资料的运用缺失,并且提供一种简便且低成本的资料整合方法。图1为本发明第一实施例的步骤流程图。图2为本发明第二实施例的步骤流程图。图3为本发明的资料整合方法的操作原理示意图。主要组件符号说明10.……POS20.……MR11、21...关键变量30.......新资料实施方式本发明的其它特点及具体实施例可于以下配合附图的详细说明中,得到进一步的了解。图1为本发明的第一具体实施例的操作流程方块图,包括下列步骤a)、选取一第一资料中的一个项目制定为一关键变量;b)、制作一包含有关键变量的第二资料;c)、以关4囊变量连接第一资料与第二资料,并将所述第一资料与第二资料输入一处理器以产生一第三资料;d)、第三资料的准确率验证,不符合则回步骤c),符合则储存。在步骤a)中,第一资料可以是具有多个项目内容或数据的任何资料,包括一零售端(PointOfSales,POS)记录,例如记录有购物种类明细、消费时间及金额的发票;一使用者资料(UserRawData)或人事资料(HumanResources)等,这些资料由于是根据每一次行为被动获得的,因此定义为"被动式资料"。而关键变量(KeyVariable)指的是选自第一资料中的一个项目,令其成为随后制作的第二资料及可连接第一资料与第二资料的彼此共同可识别的项目,关键变量可选自第一资料中的任一项目。上述步骤b)的第二资料是以第一资料的关键变量为基础所设计的资料集,所以其可以将第一资料中未获取或呈现的信息加入,以获取一包括更多项目及涉及方面比第一资料更广的资料集,例如可以选择POS零售资料的其中一个项目为基础,设计成一份访谈内容更深入、涉及方面更广的市调资料(MarketResearch,MR)。由于第二资料中的项目可随欲获取信息而设计,因此可以定义为一"主动式资料"。第一资料与第二资料哪个为主动式资料,哪个为被动式资料,并没有逻辑关系或严格的区分,但可以确定的是,两者的资料内容或资料型态不对称,如资料量一多一少,但两者包含了可作为关键变量的至少一个相同项目。上述步骤c)以关键变量连接第一资料、第二资料后的下一步骤是建立一统计模型,再根据统计模型产生第三资料。其中第一资料与第二资料的连4矣可利用如"结构化查询语言"(StructuredQueryLanguage,SQL)使个别资料容易建立关联。而且,因为资料来源及格式未必相同,因此在建立统计^^莫型前,资料最好经过提耳又(Extraction)、转换(Transformation)和加载(Loading)等资料整理的ETL程序,将不正确或未整理完备的原始资料经过整理,以提高后续步骤结果的准确性;但也可能资料来源即是经过整理的,因而可以不经该ETL程序。另外,建立统计才莫型可采用多种类型的统计工具,例如直线回归、曲线回归、K-Mean、时间序列(TimeSeries)等相关模型。本发明随后的较佳实施例使用逻辑回归才莫型(LogisticRegression)。上述步骤c)在统计模型建立后结合第一资料与第二资料其中之一来预测产生一第三资料,其中第一资料与第二资料的选择,较佳的方式为选择两资料中样本数量较多的设定为预测变量值,以便预测出足够且具参考性的样本量,如本发明中POS零售资料的数量比MR市调资料多,故选择POS零售资料与统计模型进行第三资料的预测制作。而第三资料的产生,理论上是利用统计模型根据MR市调资料的每一个项目预测出的一具有POS贵料量的新资料,但由于原先POS资料中并未具有与MR市调资料相应的所有项目,因此所预测推测出的资料值并非反应原来POS资料的真实情形,因此可以定义第三资料为一种预测或推测出的资^K由于是进行预测或推测,因此可^f吏用如SPSS(StatisticalPackageforSocialScience统计软件包)、SAS或Statistica等不同的统计软件进行预测。如前所述,由于步骤c)的第三资料是利用统计才莫型根据第一资料的样本数量所预测推测成的,如果统计模型是适当的模型,则理论上第三资料与第二资料的内容应一致,即预测出来的资料跟原始资料应该是100%—致的。但由于系统所选择的统计模型有些微误差,以致预测出来的值会与原始资料有差异。因此,步骤d)即是要将此预测值与原先资料进行比较(CheckoftheData),以判断其准确率,这个部分系统可以自动完成比较,若准确率不佳,则系统会自动建立不同的统计模型,直到找到最好的模型或改变相应的参数,并完成所有资料的预测。上述的准确率,原则上在80%-90%即可接受。而步骤d)符合该准确率的资料可能有数笔,可选择全部储存或储存准确率最高的一笔。另外,在进行第三资料的准确率判断前,较佳地能再进行资料的整理,除去不合理或不正确的资料,有利于判断的正确性。图2为本发明第二具体实施例的操作流程方块图。本实施例是假设欲结合的两资料同时存在,且彼此具有至少一个相同的项目的情况下其资料整合的方法,包括以下步骤e)、选取一第四资料及一第五资料中相同的一个项目制定为一关键变量;f)、以关键变量连接第四资料与第五资料,并将所述第四资料与第五资料输入一处理器以产生一第六资料;g)、第六资料的准确率验证,不通过则回步骤f),通过则储存。关于第四资料、第五资料与第六资料的特性请参考第一资料、第二资料与第三资料。以下举一具体实施例说明上述各步骤的实际操作,其中以第一资料、第二资料与第三资料的操作步骤进行说明。实施例本实施例以一牛肉面馆为例进行说明,上迷步骤中的第一资料设定为该面馆每次来客的消费纪录(如发票副本,下简称为POS),而第二资料设定为由面馆所设计针对消费心理及习惯等的市场调查表(下简称为MR)。表一<table>tableseeoriginaldocumentpage9</column></row><table>年访问日期月访问具体时间曰访问时间段工作日标识性别节々支日标识年龄段爽口小菜(数量)职业汤类(数量)月收入促销类(数量)这次共有多少人一起用餐?甜品(数量)同行人的身份常态套餐类(数如何知道"私房牛肉面馆"并决定来消费量)的?主餐类(数量)今年第几次到"私房牛肉面馆"?特色卣味类(数请问上次大约是几天前?量)未来到"私房牛肉面馆"消费频率是?饮料(数量)下次到"私房牛肉面馆"消费,平均每人会销售金额花多少钱?销售数量本次消费付钱的人?桌号^v地图上什么地方来的?用餐人数您是通过什么方式到达"私房牛肉面馆"*用完餐后打算到地图上的什么地方?用完餐后打算用什么方式到达您想去的地方?如表一所示,POS记录了包括店号、发票号、销售日期、时间段及用餐人数等项目;MR的项目内容包括问巻号、店名、发票号、访问具体日期及"用完餐后打算用什么方式到达您想去的地方?,,等访问内容。POS的资料为一消费记录,其资料属性为被动性资料;而MR的资料是根据资料需求者的意向而设计的,其资料属性为主动性资料。MR在本实施例中可以根据POS的至少一个项目设计形成其项目内容,或者,与POS同时存在,但其中至少一个项目与POS相同,如本实施例中POS、MR的共同项目为"发票号"。POS与MR的样本数量也不同,通常POS为随消费而累积的一可观的数量,而MR受限于访问人力及财力,其样本数量远不及POS,如本实施例的POS有7400笔,而MR仅为300笔;但MR的项目内容可以因需要而增加,使其涉及方面比单纯消费纪录的POS深入且广泛。如图3所示,选择上述POS10及MR20相同的一个项目11、21制定为一关键变量,如本实施例是选择发票号;接着,利用关键变量11、21连4妄POS10与MR20,并送入一系统中进行整合,建立统计模型,并利用所建立的统计模型进行预测,最终得到一新资料30。在上述过程中,统计模型的建立是根据结合后的POS及MR(即POS+MR)所运算出的,假设运算出一统计模型Y(购买意愿)=2.15销售金额+0.19来访时间-0.73来店人数"e,其中的"销售金额"、"来店时间"和"来店人数"是POS的项目或变量;"购买意愿"则是MR的项目或变量;新资料30的预测过程即是将Y等式带入POS的其中一笔从而得到一个新的购买意愿新值,若进行POS的所有笔数(即重复7400次代数过程),最终就会得到7400笔购买意愿的新值;预测推测出的购买意愿新值理论上应与原先MR的购买意愿值相同(因两者之间的变量一致),例如300笔的MR的"购买意愿"项目会完全一样地呈现于新资料30中;但由于统计模型的原因导致有些微误差产生,但原则上新资料30相对于原来的资料的准确率若达到80~90%即属具有参考价值的资料。在确认新资料30的准确性方面可以设定系统进行至少一次的验证程序,例如在完成新资料的预测后进行一次验证;或者,在预测过程中进行一初步验证,而最后完成新资料时再进行一最终验证,例如,在300笔新资料完成时即与原先的300笔MR进行比对,若新资料与MR相符程度达到80~90%,则进行后续其它所有资料的预测。否则,可以另建统计模型或调整参数后再重新预测,直到获得通过准确率评估的资料为止。如图3所示,将300笔的MR20及7400笔POS10以关4建变量11和21连接并输入一系统处理后便可预测、推测或映像出7400笔兼具POS及MR资料特性的新资料30。通过此资料的整合方法,可以将POS与MR所看不到的涉及方面完整呈现于新资料30中,例如POS无法看到消费者的详细资料、消费动机或意愿;而MR无法具体了解该消费者的消费细项,例如吃了什么,花了多少钱。另外,通过本发明的资料整合方法,可以将如MR的小样本数量的资料进行科学的预估,而扩充为一份如POS资料的大样本数量的资料,解决原来资料在样本数量及内容项目上的不对称问题,从而可以打破原来资料的使用限制,得到更多涉及方面及更有参考性的资料,作为供各种的研究、决策的参考。以上所述,仅是为说明本发明的较佳实施例,不能据此限制本发明的权利范围,例如较佳实施例虽例举MR及POS定义为第一资料与第二资料,而其它可能的实施例还包括如产业信息、天气及人事等不同型态的资料;而较佳实施例的第一资料与第二资料虽定义为一主动资料及一被动资料,而事实上该主动与被动资料包括任何内容或数量不对称的资料,因此,第一资料与第二资料除是一主动与一被动资料外,还可以是皆为主动资料或皆为被动资料。因此,凡依本发明专利申请范围所做的均等变化或修饰,均落入本发明的技术涵盖范围内。权利要求1、一种资料的整合方法,其特征在于,包括下列步骤a)、选取一第一资料中的一项目制定为一关键变量;b)、制作一包含有关键变量的第二资料;c)、以关键变量连接第一资料与第二资料,并将所述第一资料与第二资料输入一处理器以产生一第三资料;d)、第三资料的准确率验证,不通过则回步骤c),通过则储存。2、如权利要求1所述的资料的整合方法,其中第一资料与第二资料定义为一主动资料。3、如权利要求1所述的资料的整合方法,其中第一资料与第二资料定义为一被动资料。4、如权利要求1所述的资料的整合方法,其中第一资料与第二资料其一定义为主动资料,另一定义为被动资料。5、如权利要求1所述的资料的整合方法,其中第一资料为被动资料,第二资料为主动资料。6、如权利要求1所述的资料的整合方法,其中第三资料为一预测、推测或映像的资料。7、如权利要求1所述的资料的整合方法,其中步骤c)的处理器执行包括进行结合第一资料与第二资料以建立一统计模型,并利用统计模型结合第一资料以产生第三资料的步骤。8、如权利要求1所述的资料的整合方法,其中步骤d)的第三资料准确率验证,进一步包括一初步验证及一最终-睑证步骤。9、如权利要求1所述的资料的整合方法,其中步骤d)所储存的第三资料为准确率最高的资料。10、如权利要求1所述的资料的整合方法,其中步骤d)第三资料的准确率为80-90%。11、如权利要求1所述的资料的整合方法,其中进行步骤c)或步骤d)之前,还包括一资料整理步骤。12、一种资料的整合方法,其特征在于,包括下列步骤e)、选取一第四资料及一第五资料中相同的一项目制定为一关键变量;f)、以关^:变量连接第四资料与第五资料,并将所述第四资料与第五资料输入一处理器以产生一第六资料;g)、第六资料的准确率验证,不通过则回步骤f),通过则储存。全文摘要本发明涉及一种资料的整合方法,其步骤包括选取一第一资料中的一项目制定为一关键变量;制作一包含有关键变量的第二资料;以关键变量连接第一资料与第二资料并输入一处理器以产生一第三资料;第三资料的准确率验证及储存。利用上述的资料整合方法,可以将样本量少的资料进行预估扩充其样本量,并解决主动与被动资料之间内容不对称的问题,从而突破资料使用极限。文档编号G06F17/30GK101599090SQ200810125709公开日2009年12月9日申请日期2008年6月4日优先权日2008年6月4日发明者张聪信申请人:泓广信息有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1