一种统计资料的分析方法

文档序号:6334293阅读:288来源:国知局
专利名称:一种统计资料的分析方法
技术领域
本发明涉及一种资料分析方法,特别指一种统计资料的分析方法,该方法可以提高统计资料预测的准确率,从而使统计资料的利用更加可靠。
背景技术
调查是针对某一群体的特定现象进行研究,以期发掘出有用的资料供学术、商业利用或决策参考的行为,分为普查及抽查;普查必须动用较多的人力及物力和较长的时间, 因此不适合经常性进行;抽查可针对研究对象抽取少部分的样本,因而在人、物力及时间上比普查精简,所以能经常性进行,但是抽取的样本是否足以代表及反应母群体的真实情形, 是抽查必须严肃对待的课题。在资料预测过程,可以根据母群体(Population)的可能特性以不同的统计分布进行,较常用的是均勻分布(Uniform DistHbution)或常态分布(Normal Distribution); 然而经过上述分布所完成的抽样结果,哪一种的次料预测准确率较高或者哪一种的预测信赖水平(Confidence level)较好,并未有确切的答案,因此造成预测资料使用的不安定性。

发明内容
有鉴于现有技术的存在的上述问题,本发明的主要日的在于提供一种统计资料的分析方法,以期提高资料预测的准确率。为了实现上述目的,本发明提供一种统计资料的分析方法,其步骤包括以常态分布从一母群体中抽取一第一资料,并求出所述第一资料的众数(mode);以均勻分布再从所述母群体中抽取一第二资料,其中所述第二资料的每一变量的抽样数低于所述第一资料的众数的峰值;将所述第一资料与所述第二资料结合,以形成一第三资料;将所述第三资料与一第四资料结合,并进行资料的清洗、串连及资料挖掘(Data Mining)以获得一第五资料;以及验证所述第五资料的准确率。作为优选,当所述第一资料的众数的峰值的一半大于三十时,将所述第二资料的每一变量的抽样数定为所述峰值的一半;反之,当所述第一资料的众数的峰值的一半小于三十时,则将所述第二资料的每一变量的抽样数定为三十。作为优选,所述第四资料的样本数大于所述第一资料和所述第二资料的合计样本数,例如所述第一资料和所述第二资料可以是一种根据所要获取的信息而设计有多种讯息项目的资料,例如问卷资料或市调资料;而所述第四资料可以是根据每一次行为而被动获得的资料,例如一销售端(Point 0fSales,P0S)的资料,如发票。作为优选,选定一已知的呈常态分布的母群体为资料抽取对象。通过本发明如上所述的统计资料的分析方法,可以提高现有技术的资料预测方法的预测准确率,使预测资料的可信赖水平提高。


CN 102455993 A说明书2/4 页图1为本发明的统计资料的分析方法的步骤示意图。图2为本发明的统计资料的分析方法的第一资料的分布机率密度函数图。图3为本发明的统计资料的分析方法的第二资料的分布机率密度函数图。图4为本发明的统计资料的分析方法的第三资料的分布机率密度函数图。
具体实施例方式下面结合附图对本发明的实施例做进一步地详细说明。如图1所示,本发明的统计资料的分析方法包括下列步骤以常态分布从一母群体中抽取一第一资料,并求出第一资料的众数;以均勻分布再从母群体中抽取一第二资料, 其中第二资料的每一变量的抽样数低于第一资料的众数的峰值;将第一资料与第二资料结合,以形成一第三资料;将第三资料与一第四资料结合,并进行资料的清洗、串连及资料挖掘以获得一第五资料;以及验证第五资料的准确率。如上所述的统计资料的分析方法,其中以常态分布从母群体中抽取第一资料,是假设母群体的分布未知,因此以常态分布方式先进行母群体的抽样,以制作一呈常态分布的第一资料,例如可利用市场调查方式获得某一商品的消费年龄层分布。然而,如果已知母群体为呈常态分布,则直接以随机抽样的方式形成第一资料,并求出第一资料的众数。上述第二资料在本实施例中是根据研究者的需求而设计出具有多面向的资料,例如具有消费者的年龄、职业、收入、教育程度及消费习惯等资料的市调资料,以便能提供兼具深度及广度的具有参考性的资料。上述将第一资料与第二资料结合以形成第三资料,其目的在于弥补个别资料的不足,以增加资料的可参考性。如以常态分布制作的第一资料,会有分布中央过度集中强化及分布两侧过于萎缩弱化的现象,如图2所示,造成资料可参考性不足。有鉴于此,根据第一资料众数峰值并以均勻分布制作的第二资料,如图3所示,可以将第一资料变量中不足的样本数补足,以提高各变量的资料可参考性。最后,将第一资料与第二资料结合形成第三资料,并由第四图的第三资料的分布可看出,发生于第一资料的中央过度集中强化及两侧过于萎缩弱化的分布现象已解决,使得各变量的样本数足够反应母群体的现象,以增加预测资料的准确率。另一方面,本实施例的第四资料设定为一随机获取的资料,例如是一记载有消费金额、品项及日期的零售端资料,如发票存单。因此,在本实施例中,第四资料的样本数大于第一、二资料的合计样本数,因此可利用本发明人申请专利的资料整合方法(TW097118500、 CN200810125709. 9、US12139759),将少量样本数但资料参考性高的资料,结合一大显样本数的随机资料,使预估资料得以扩充,以增加其参考价值,及资料使用的极限。将上述的第三资料和第四资料合并,送入一统计工具进行资料的清洗、串连及资料挖掘以获得第五资料。其中资料挖掘通过建立预测模型来实现,其可使用支撑向量机 (Support Vector Machine,SVM)、直线回归、曲线回归、逻辑回归、Time kries等预测模型;并且,进行资料挖掘前,若资料数太大,还可先将资料分成数群再分别进行模型预测,最后再进行个别预测资料的合并,以便提高预测结果的准确率。以下试举一具体实施例说明上述各步骤的实际操作,其中具体实施例以一面馆为调查对象,其中母群体为面馆的所有消费者即顾客,而本具体实施例是为了了解不同年龄层的消费行为而进行调查。首先,假设面馆的顾客中的年龄层分布末知,因此从面馆的顾客(母群体)中以符合中央极限定理(Central Limit Theorem ;C. L. Τ)的样本数,并以至少其中一变量为年龄段设计一问卷资料。由中央极限定理可知该问卷最后所得的资料分布为呈常态分布,即本发明上述较佳实施步骤所称以常态分布从一母群体中抽取一第一资料,其结果如表1所示。由表1所呈现的面馆最多消费群集中于25- 岁可得知,第一资料的众数为25- 岁, 而众数的峰值为40。表 权利要求
1.一种统计资料的分析方法,其特征在于,包括以下步骤以常态分布从一母群体中抽取一第一资料,并求出所述第一资料的众数;以均勻分布再从所述母群体中抽取一第二资料,其中所述第二资料的每一变量的抽样数低于所述第一资料的众数的峰值;将所述第一资料与所述第二资料结合,以形成一第三资料;将所述第三资料与一第四资料结合,并进行资料的清洗、串连及资料挖掘以获得一第五资料;以及验证所述第五资料的准确率。
2.如权利要求1所述的统计资料的分析方法,其特征在于,当所述第一资料的众数的峰值的一半大于三十,则所述第二资料的每一变量的抽样数定为所述峰值的一半。
3.如权利要求1所述的统计资料的分析方法,其特征在于,当所述第一资料的众数的峰值的一半小于三十,则所述第二资料的每一变量的抽样数定为三十。
4.如权利要求1所述的统计资料的分析方法,其特征在于,所述第四资料的样本数大于所述第一资料和所述第二资料的合计样本数。
5.一种统计资料的分析方法,其特征在于,包括以下步骤从一呈常态分布的母群体中抽取一第一资料,并求出所述第一资料的众数;以均勻分布再从所述母群体中抽取一第二资料,其中所述第二资料的每一变量的抽样数低于所述第一资料的众数的峰值;将所述第一资料与所述第二资料结合,以形成一第三资料;将所述第三资料与一第四资料结合,并进行资料的清洗、串连及资料挖掘以获得一第五资料;以及验证所述第五资料的准确率。
全文摘要
本发明涉及一种统计资料的分析方法,其步骤包括以常态分布从一母群体中抽取一第一资料,并求出所述第一资料的众数;以均匀分布再从所述母群体中抽取一第二资料,其中所述第二资料的每一变量的抽样数低于所述第一资料的众数的峰值;将所述第一资料与所述第二资料结合,以形成一第三资料;将所述第三资料与一第四资料结合,并进行资料的清洗、串连及资料挖掘以获得一第五资料;以及验证所述第五资料的准确率。如此,可以提高统计资料预测的准确率。
文档编号G06F17/18GK102455993SQ201010517140
公开日2012年5月16日 申请日期2010年10月19日 优先权日2010年10月19日
发明者张聪信 申请人:泓广信息有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1