数据分析系统及其分析方法与流程

文档序号:15932089发布日期:2018-11-14 01:48阅读:212来源:国知局

本发明涉及一种数据分析系统,特别是指能探讨数据中各事件之间的关联性的数据分析系统。

背景技术

近年来大数据(或称巨量数据、大数据,bigdata)的议题经常被提及,其指的是所涉及的数据量规模巨大,且无法透过人工以合理时间内达到撷取、管理、处理,并整理成为人类所能解读的形式的信息。因此如何处理大数据数据,并分析研究后且整理成为人类能快速理解的信息是相当重要的课题。

坊间对于大数据数据的分析方式很多种,其中有利用关键词搜寻方式取得数据,接着再分析具有相同关键词的数据中且对应于某一特定事项的相关内容。换句话说,先自大数据数据中取得相同特征的数据,再对应的分析此相同特征的数据对应于特定事项的关系,而能得出对应于特定事项的分析结果。

然而,若有不同的特定事项,则需重复前述的分析,而能分别得到分属不同特定事项的分析结果,但却难以看出两个不同特定事项之间的关联性。因此有必要提出一种解决方案,以能快速分析不同特定事项,以及不同特定事项之间的关系。



技术实现要素:

鉴于上述问题,本发明提供一种数据分析系统及其分析方法,能让使用者快速理解不同事件之间的关联性,以探求不同事件之间的各种可能性。

本发明一实施例提供一种数据分析系统,包含:传输单元、储存单元、控制单元、处理单元以及显示单元。传输单元接收研究数据。储存单元储存研究数据。控制单元依据操作指令生成研究方案、第一参数与第二参数。处理单元连接传输单元、储存单元与控制单元。处理单元根据研究方案、第一参数与第二参数经由传输单元自欲分析数据中取得研究数据。处理单元依据研究方案使用统计算法分析第一参数、第二参数与研究数据而生成统计信息。该处理单元根据检定算法分析关于第一参数、第二参数与各研究数据以生成统计检定。显示单元连接处理单元,以显示整合信息。整合信息是处理单元根据整合算法整合相关于第一参数、第二参数、统计信息与统计检定。

本发明一实施例提供一种数据分析的分析方法,包含:以控制单元根据操作指令生成第一参数、第二参数与研究方案。自欲分析数据中取得对应于第一参数与第二参数的至少一研究数据。以传输单元接收各研究数据。以处理单元根据研究方案使用统计算法分析第一参数、第二参数与各研究数据生成统计信息。以处理单元根据检定算法分析相关于第一参数、第二参数与各研究数据以生成统计检定。以处理单元根据整合算法整合第一参数、第二参数、统计信息与统计检定为整合信息。以显示单元显示整合信息。

依据上述实施例,本发明能供用户能经由显示单元显示的整合信息而快速得知研究数据中相关与第一参数与第二参数彼此之间的关联程度。换言之,处理单元自欲分析数据中取得的研究数据,经过相关于第一参数与第二参数的分析演算后,能得知于研究数据中对应于第一参数与第二参数之间是否具有较高的关联程度。因此,用户能藉由整合信息快速得知所选择的第一参数与第二参数是否具有研究参考价值,如此能增进研究效率,提升研究成果。

附图说明

图1是本发明一实施例的事件关联性的分析系统的架构示意图。

图2是本发明一实施例的事件关联性的分析方法的流程图。

图3是本发明一实施例的计算统计信息的发生率的流程图。

图4是本发明一实施例的计算统计信息的发生密度的流程图。

图5是本发明步骤s03的一实施例的详细流程图。

图6是本发明步骤s03的另一实施例的详细流程图。

图7是本发明步骤s03的又一实施例的详细流程图。

图8是本发明步骤s05的一详细流程图。

10传输单元

20储存单元

30控制单元

40处理单元

50显示单元

60数据库

具体实施方式

图1是本发明一实施例的分析系统架构示意图。图2是本发明一实施例的分析方法的流程图。请参阅图1与图2,本发明的事件关联性分析系统包含传输单元10、储存单元20、控制单元30、处理单元40与显示单元50,处理单元40连接于传输单元10、储存单元20、控制单元30与显示单元50之间。

传输单元10是能自数据库60接收研究数据。在一实施例中,传输单元10是能接收一个或多个研究数据,本发明并非以此为限制。在一实施例中,数据库60是储存有欲分析数据,以自欲分析数据中撷取研究数据而传送至传输单元10。

在一实施例中,传输单元10是能以有线或无线方式与数据库60连接,借以自数据库60中储存的欲分析数据中取得研究数据。

在一实施例中,传输单元10能以符合wifi、gsm、蓝牙、红外线、wimax、zigbee、zwave、射频(rf)或其他等无线传输方式进行传输。或传输单元10能以符合ethernet、rf232或其他等有线传输方式进行传输。

在一实施例中,数据库60可以是储存有大数据(或称巨量数据、大数据,bigdata)数据。因此,数据库60中是具有储存单元,其可以为只读存储器、随机访问内存、非永久性内存、永久性内存、静态内存、易失存储器、闪存和/或任何存储数字信息的设备。

在一实施例中,本发明能具有多个数据库60,其能位于同一机房中,本发明并非以此为限制,在一些实施例中,各数据库60是可以分散于不同的地方。另,数据库60也可位于云端中,以供便于随时方便取得欲分析数据。

储存单元20是储存来自数据库60的研究数据。在一实施例中,储存单元20可以为只读存储器、随机访问内存、非永久性内存、永久性内存、静态内存、易失存储器、闪存和/或任何存储数字信息的设备。

在一实施例中,数据库60是可以整合储存单元20。也就是处理单元40将第一参数与第二参数透过传输单元10传送至数据库后60,数据库60随即将其内部的欲分析数据中取得对应的研究数据,其中,研究数据可以区分为第一研究数据、第二研究数据或其他等研究数据,本发明并非以此为限制。

控制单元30是能根据操作指令而生成研究方案、第一参数与第二参数(即如图2中的步骤s01)。在一实施例中,操作指令是经由用户操作产生,换言之,用户能经由操作接口下达操作指令,以选择研究方案、欲分析的原因事项(即第一参数)与结果事项(即第二参数)。其中,操作接口是可以显示在计算机或手持装置上,再通过键盘、按键或触碰方式下达操作指令。在一些实施例中,操作指令也能通过语音方式下达,即通过语音识别使用者的声音而生成操作指令。

显示单元50是经由处理单元40接收整合信息,并将整合信息显示于显示屏幕中。也就是说,用户通过显示单元50能快速得知原因事项与结果事项的分析结果,详情容后详述。

在此,处理单元40自控制单元30接收研究方案、第一参数与第二参数后,处理单元40能经由传输单元10连接至数据库60,并自数据库60接收对应研究方案、第一参数与第二参数的研究数据(即步骤s02),并储存研究数据于储存单元20中。

接着,处理单元40再根据研究方案而使用统计算法以分析计算研究数据、第一参数与第二参数而生成统计信息(即步骤s03),以及依据检定算法分析第一参数、第二参数,以生成统计检定(即步骤s04)。接着,处理单元40根据整合算法将第一参数、第二参数、统计信息与统计检定整合为整合信息(即步骤s05),并传送至显示单元50,以供显示单元50显示整合信息(即步骤s06)。

在一实施例中,控制单元30的第一参数与第二参数是泛指一种分类条件,例如,是否有接触苯乙烯(第一参数)以及是否有白血病(第二参数)、是否位于高温地区(第一参数)以及是否有购买刨冰机(第二参数)、是否有抽烟者(第一参数)以及是否会得到肺癌(第二参数)、是否习惯喝咖啡者(第一参数)以及是否有骨质疏松症(第二参数)或其他任意条件的分类条件,本发明并非以此为限制。换句话说,用户可以选择欲分析的原因事项(第一参数)与结果事项(第二参数),而借此探讨原因事项与结果事项彼此之间的关联性。

显示单元50显示的整合信息是能显示出研究数据中符合第一参数与第二参数之间的关联程度,能供使用者快速理解第一参数与第二参数对应于研究数据是否有研究参考价值。

在一些实施例中,用户也能通过控制单元30生成包含第三参数或第四参数。通过处理单元40以分析研究而能分别探讨第一参数、第二参数、第三参数与第四参数彼此之间的关联程度。如此能快速分析研究数据,以提升研究人员的研究效率。

在一实施例中,研究方案包含第一研究方案、第二研究方案与第三研究方案。第一研究方案、第二研究方案与第三研究方案的详细内容容后详述。

以下以数个实施例做为本发明的应用说明,但本发明的应用并非以此些实施例为限制。

在第一实施例中,研究人员欲研究在职业中接触苯乙烯是否会增加白血病罹病的风险。首先,数据库60已储存有:于1990年~2012年之间,受雇于1000家中小型企业的70000位员工为研究对象(欲分析数据)。因此,研究人员(即使用者)即能操作控制单元30而选择第一研究方案,且选择第一参数为在职业中是否有接触苯乙烯的员工,选择第二参数为员工是否具有白血病的患者(即步骤s01)。

表1:

表1是第一实施例的第一研究方案的统计表。请参阅表1,处理单元40经由控制单元30接收第一研究方案、第一参数与第二参数,能经由传输单元10自数据库60查找并接收到对应第一研究方案、第一参数以及第二参数的研究数据(即步骤s02)。在本实施例中,处理单元40能自数据库60中取得职业上有接触苯乙烯(第一参数)且有白血病(第二参数)者有120人,而职业上有接触苯乙烯且未有白血病者有29880人。相同地,处理单元40也能取得职业上未有接触苯乙烯且有白血病者有80人,而职业上未有接触苯乙烯且未有白血病者有39920人。在一实施例中,处理单元40经由传输单元10连接至数据库60时,数据库60随即自欲分析数据中取得相符于第一研究方案、第一参数与第二参数的研究数据,再将研究数据经由传输单元10传输至处理单元40。

接着,处理单元40能依据统计算法将前述各研究数据、第一参数、第二参数分析计算而能生成统计信息(即步骤s03)。其中,统计信息可以为发生率、发生密度、相对风险性、胜算比或其他等具统计意义的参数。本发明并非以此为限制,在一些实施例中,统计信息可以为发生率、发生密度、相对风险性、胜算比、其他等具统计意义的参数中任意组合。换句话说,统计算法是相关于发生率算法、发生密度算法、相对风险性算法、胜算比算法或其他等具统计意义的算法,本发明并非以此为限制。

图3是本发明一实施例的计算统计信息的发生率的流程图。请参阅图3,处理单元40根据发生率算法计算对应于第一参数与第二参数的发生率(即步骤s031)。其中,在一实施例中,发生率算法可以为(发生研究事件的新案例数/可能发生研究事件的所有案例数)×1000‰以计算出的发生率。

举例来说,职业上有接触苯乙烯且具有白血病的发生率为(120/30,000)×1000‰=4‰,其统计信息为每一千人在职业上有暴露于苯乙烯的人之中,有4人罹患白血病。相同地,职业上没有接触苯乙烯且具有白血病的发生率为(80/40,000)×1000‰=2‰,也就是统计信息为每一千人在职业上没有暴露于苯乙烯的人之中,有2人罹患白血病。另,全人群之中的白血病发生率则为(200/70,000)×1000‰=2.86‰,即统计信息为每一千人中有2.86人罹患白血病。

图4是本发明一实施例的计算统计信息的发生密度的流程图。请参阅图4,在一实施例中,处理单元40还能根据发生密度算法分析计算得知对应于第一参数与第二参数的发生密度(即步骤s032),其计算得出的统计信息能得知一段时间(研究期间)内有潜力发生事件但还没有发生事件的时间人年数总和。也就是能借此探究研究对象(人群)中的新发事件案例数、人群的大小和发生这些案例数所经历的时间。在本实施例中,欲分析数据中是储存有整个世代被追踪观察23年(研究调查期间自1990年为起始点,追踪至2012年),一旦研究个案被诊断出罹患白血病,则视为发生事件,反之至2012年底仍未被侦测出该疾病,则视为未发生事件。

表2:

表2是第一实施例的第一研究方案的另一统计表。请参阅表2,处理单元40即能依据上表计算得出有暴露于苯乙烯的员工中具有白血病的发生密度为(120/1,000,000)×1000=0.12,即统计信息是表示暴露于苯乙烯的员工中,每一千人年有0.12人罹患白血病。相同地,无暴露于苯乙烯的员工中具有白血病的发生密度为(80/1,600,000)×1000=0.05,即统计信息为无暴露于苯乙烯的员工中,每一千人年有0.05人罹患白血病。另外,全人群的白血病发生密度为(200/2,600,000)×1000=0.08,即统计信息在每一千人年中有0.08人罹患白血病。

图5是本发明步骤s03的一实施例的详细流程图。请参阅图5,处理单元40在分析计算以生成统计信息的步骤中,处理单元40能根据前述各发生率(即步骤s031)分析计算得出发生率比(即步骤s0311)。也就是暴露于苯乙烯者患有白血病发生率/无暴露于苯乙烯者患有白血病发生率为4‰/2‰=2,其表示为暴露于苯乙烯者罹患白血病的风险比无暴露于苯乙烯者高2倍。换言之,处理单元40能根据发生率得知暴露于苯乙烯者比无暴露于苯乙烯者的罹患白血病的相对风险性(统计信息)。其中,发生率比是暴露于因子组(群)的事件发生率与未暴露于因子组(群)的事件发生率的对比值。也就是说,在本实施例中,发生率比是暴露于苯乙烯的事件发生率与未暴露于苯乙烯的事件发生率的对比值。

图6是本发明步骤s03的另一实施例的详细流程图。请参阅图6,在一实施例中,处理单元40分析计算以生成统计信息的步骤中是能根据前述各发生密度(即步骤s032)分析计算得出发生密度比(即步骤s0321)。也就是暴露于苯乙烯者患有白血病发生密度/无暴露于苯乙烯者患有白血病发生密度为0.12/0.05=2.4,其表示为暴露于苯乙烯者罹患白血病的发生密度比无暴露于苯乙烯者高2.4倍。换言之,暴露于苯乙烯者比无暴露苯乙烯者的罹患白血病的发生密度高2.4倍。其中,发生密度比是暴露于因子组(群)的事件发生密度与未暴露于因子组(群)的事件发生密度的对比值。也就是说,在本实施例中,发生密度比是暴露于苯乙烯的事件发生密度与未暴露于苯乙烯的事件发生密度的对比值。

图7是本发明步骤s03的又一实施例的详细流程图。请参阅图7,在一实施例中,处理单元40能根据胜算比算法分析计算得知对应于第一参数与第二参数的胜算比(统计信息)(即步骤s033),其为处理单元40能根据前述暴露于因子组(群)的事件发生胜算与未暴露于因子组(群)的事件发生胜算的比值。也就是暴露于苯乙烯者患有白血病的发生数除以无发生数与未暴露于苯乙烯者而患有白血病的发生数除以无发生数之间的比值为胜算比((120/29,880)/(80/39,920)=2),其统计信息表示暴露于苯乙烯的人罹患白血病的胜算是无暴露于苯乙烯者的2倍。也就是说,研究人员得以依据需求而自行选择统计信息的种类或其组合而进行分析判断,本发明并非以此为限制。

在一实施例中,请回头参阅图2,处理单元40能根据检定算法分析计算对应于第一参数与第二参数之间的统计检定(即步骤s04)。其中,统计检定是第一参数与第二参数之间的关联性与因果关系。也就是说,处理单元40利用检定算法分析计算的统计检定的结果是能推论出于研究数据中,第一参数与第二参数之间的关联性与因果关系。

其中,检定算法包含统计假设检定算法、单因子/多因子分析算法、其他相关检定算法中的一个或其任意组合,本并非以此为限制。

在一实施例中,统计假设检定算法包含有卡方检定算法(chi-squaretest)、费雪精确性检定算法(fisherexacttest)、独立双样本t检定算法(two-samplet-test)、威尔考克森序数和检定算法(wilcoxonrank-sumtest)中的一个。

其中,卡方检定算法是探讨两个类别变项(categoricalvariables)间是否有关联性存在,只检定两者的相关性,并不指出彼此间的因果关系。

其中,费雪精确性检定算法目的在检定两个类别变项的相关性,适用于2×2列联表检定相关性的问题。此方法是直接根据数据所赋予的机率理论,考虑所有随机排列来计算我们观察到的样本数在两个变量独立无关的情况下出现的机率。

其中,独立双样本t检定算法是探讨两组互相独立的样本间,连续变项(continuousvariables)的母体平均数的差异(是否大于、小于或等于某一特定数值),即比较两组连续变项的差异。

其中,威尔考克森序数和检定算法是当两组的连续变项分布不为常态、样本数过小或有极端值时,则会利用中位数当作两组的集中趋势指标,即可以使用威尔考克森序数和检定比较两组中位数是否有差异。

表3:

表3是第一实施例的对应于第一研究方案的描述性与推论性的统计表。请参阅表3,描述性统计以平均数、标准偏差呈现连续性变项数据的分布情形,其是以个案数、百分比呈现类别性变项数据的分布情形。推论性统计是以t检定探讨有无暴露于苯乙烯的年龄平均数差异,其是以卡方检定探讨有无暴露于苯乙烯与除年龄以外的其他属性因子之间有无关联性。因此,由表3可知,年龄、抽烟习惯、饮酒习惯在有无暴露于苯乙烯之间的分布均具有统计上的显著差异或显著关联性(亦即当p<0.05时,则相对应的项目则和第一参数是具有显著的关联性。其中p值是根据统计假设检定算法计算得知)。其中,p-value字段中的注记a是依据卡方检定算法得出。p-value字段中的注记b是依据t检定算法得出。其中,显著水平为5%。

在一实施例中,单因子/多因子分析算法包含存活分析(survivalanalysis)、cox比例风险模型(coxproportionalhazardsmodel)、卜瓦松回归模型(poissonregressionmodel)、逻辑斯回归模型(logisticregressionmodel)、其他相关因子分析算法中的一个,本发明并非以此为限制。

表4:

表4为第一实施例的cox回归分析结果。请参阅表4,根据单因子分析算法结果显示,抽烟习惯、接触苯乙烯均与罹患白血病具有统计上的关联性(p<0.05)。而根据多因子分析算法结果显示,只有接触苯乙烯为罹患白血病的显著危险因素,两者具有统计上的关联性(p<0.05),即接触苯乙烯者的白血病罹病风险是无接触苯乙烯者的1.263倍,换言之,接触苯乙烯者罹患白血病的风险增加了26.3%,此风险比的信赖区间上限,显示增加的风险可能达165.1%。

表5:

表5为第一实施例的白血病发生率与年龄的卜瓦松回归结果。请参阅表5,其是将年龄区分为49岁以下、50-59岁及60岁以上三个年龄层。其中,基准年龄层(49岁以下)的每人年(每人每年)白血病发生率估计为50-59岁、60岁以上各年龄层的每人年白血病发生率分别估计为e-5.863+1.847=0.018、e-5.863+1.325=0.011。而各年龄层相较于基准年龄层(49岁以下)的每人年白血病发生率比值(irr)分别为6.341、3.762。因此,由表5中能得知60岁以上的年龄层是与白血病的发生率有显著相关(p<0.05)。

表6:

表6是第一实施例的白血病相关危险因子的逻辑斯回归结果的统计表。请参阅表6,其单因子分析算法结果显示,年龄、抽烟习惯、接触苯乙烯均与罹患白血病具有统计上的关联性(p<0.05)。而多因子分析算法结果显示,只有接触苯乙烯为罹患白血病的显著危险因素,两者具有统计上的关联性(p<0.05),接触苯乙烯者的白血病罹病胜算是无接触苯乙烯者的1.696倍。换言之,接触苯乙烯者罹患白血病的胜算增加了69.6%,而胜算比的信赖区间上限,显示增加的胜算可达100.7%。

图8是本发明步骤s05的详细流程图。表7是本发明第一实施例的整合信息的示意表。请参阅图8与表7,处理单元40通过整合算法以将前述第一参数、第二参数、统计信息与统计检定整合为整合信息(即步骤s051),并且传送并显示于显示单元50。在一实施例中,整合算法会适当地根据第一参数、第二参数、统计信息与统计检定的结果加入文字、数据、表格等,以借此做为辅助说明。举例来说,整合信息会显示前述的各发生率(暴露者的白血病发生率=4‰,即每千人职业暴露于苯乙烯的人中,有4人罹患白血病、无暴露者的白血病发生率=2‰,即每千人职业无暴露于苯乙烯的人中,有2人罹患白血病、全人群的白血病发生率=2.86‰,即每千人中有2.86人罹患白血病)、各统计信息(发生率比=2,表示暴露于苯乙烯者得白血病的风险比无暴露者高2倍;暴露者比无暴露者得白血病的风险高2倍、胜算比=2,表示暴露于苯乙烯的人罹患白血病的胜算是无暴露者的2倍。)与各统计检定(年龄、抽烟习惯、饮酒习惯在有无暴露于苯乙烯之间的分布均具有统计上的显著差异或显著关联性(p<0.05)、单因子/多因子分析(存活分析、卜瓦松回归模型、逻辑斯回归模型))。因此透过整合算法能让整合信息藉以搭配对应于第一参数与第二参数的表格信息或文字说明,能让研究人员快速理解,更可让不具有相关专业知识的一般民众能轻易理解研究结果。

表7:

在第二实施例中,与第一实施例相似,其是研究人员欲利用第二研究方案研究在职业中接触苯乙烯(第一参数)是否会增加白血病罹病(第二参数)的风险。是以,数据库60已储存有:于1990年~2012年之间,受雇于1000家中小型企业的70000位员工为研究对象(欲分析数据)。第一参数为在职业中是否有接触苯乙烯的员工(即步骤s01),第二参数选择为员工是否具有白血病的患者(即步骤s01),并且选择第二研究方案。其中,在本实施例中,处理单元40自数据库60取得的研究数据分为第一研究数据与第二研究数据(即步骤s02),第一研究数据是选择自1990年~2012年间经病理学检查证实为新诊断白血病病患的受雇员工200人作为病例研究组,以及作为对照控制组的则选自1990年~2012年同期间同数据库非白血病病患的受雇员工500人。以及第二研究数据是选自1990年~2012年间经病理学检查证实为新诊断白血病病患的受雇员工200人为病例研究组。以1:1配对选择与病例个案同性别、年龄相差不超过2岁,并排除有其他恶性肿瘤者的非病例个案的受雇员工200人为对照控制组,共200对。因此,第一研究方案于各研究数据的内容是与第二研究方案中取得的各研究数据的内容是为不同。

表8是本发明中第二实施例的第二研究方案中关于第一研究数据的统计表。表9是本发明中第二实施例的第二研究方案的第二研究数据的统计表。请参阅表8与表9,处理单元40能针对第一数据与第二数据能分别根据统计算法计算其统计信息(即步骤s03)。在本实施例中,处理单元40能分别以暴露算法计算第一研究数据与第二研究数据的暴露率。

表8:

因此,由表8能得知,第一研究数据的病例研究组的暴露率=(120/200)×100%=60%,即200位白血病病患中,有120人暴露于苯乙烯下,暴露率为百分之六十。而第一研究数据的对照控制组的暴露率=(100/500)×100%为20%,即500位无白血病的人中,有100人暴露于苯乙烯下,暴露率为百分之二十。

表9:

因此,由表9能得知,第二研究数据的病例研究组的暴露率=(130/200)×100%=65%,即200位白血病病患中,有130人暴露于苯乙烯下,暴露率为百分之六十五。第二研究数据的对照控制组的暴露率=(80/200)×100%=40%,即200位无白血病的人中,有80人暴露于苯乙烯下,暴露率为百分之四十。

接着,处理单元40能继续根据第二研究方案、第一研究数据、第二研究数据、第一参数与第二参数以分析且生成统计信息(即步骤s03)。举例来说,第一研究数据中的胜算比(统计信息)=(120*400)/(100*80)=6,表示白血病暴露胜算是无白血病的6倍;有白血病比无白血病的人暴露于苯乙烯胜算高6倍。而第二研究数据中的胜算比(统计信息)=100/50=2,表示白血病暴露胜算是无白血病的2倍;白血病比无白血病的人暴露于苯乙烯胜算高2倍。其中,统计信息均雷同于第一实施例中所述而生成,在此不再赘述。

表10是第二实施例的对应第二研究方案中的描述性与推论性的统计表。处理单元40根据检定算法分别分析第一研究数据与第二研究数据中分别对应于第二参数的统计检定。也就是说,处理单元40利用检定算法分析计算的统计检定的结果,其是能推论出第一研究数据与第二研究数据对应于第二参数之间的关联性。

表10:

请参阅表10,描述性统计是以平均数、标准偏差呈现连续性变项数据的分布情形,其是以个案数、百分比呈现类别性变项数据的分布情形。推论性统计是以t检定探讨病例研究组及对照控制组的年龄平均数差异,并以卡方检定算法探讨有无白血病与除年龄外的其他属性因子之间有无关联性。因此,由表10能得知年龄、抽烟习惯在有无白血病之间的分布均具有统计上的显著差异或显著关联性(p<0.05)。其中,p-value字段中的注记a是依据卡方检定算法得出。p-value字段中的注记b是依据t检定算法得出。其中,显著水平为5%。

表11:

表11是第二实施例的对应第二研究方案的另一描述性与推论性的统计表。请参阅表11,描述性统计是以平均数、标准偏差呈现连续性变项数据的分布情形,其以个案数、百分比呈现类别性变项数据的分布情形。推论性统计是以t检定探讨病例研究组及对照控制组的年龄平均数差异,并以卡方检定算法探讨有无白血病与除年龄外的其他属性因子之间有无关联性。因此,由表11能得知年龄、抽烟习惯在有无白血病之间的分布均具有统计上的显著差异或显著关联性(p<0.05)。其中,p-value字段中的注记a是依据卡方检定算法得出。p-value字段中的注记b是依据t检定算法得出。其中,显著水平为5%。

接着,处理单元40也能根据单因子/多因子分析算法进行分析演算,能借此理解在统计上的关联性。

举例来说,第一研究数据的单因子分析算法结果显示,年龄、抽烟习惯、接触苯乙烯均与罹患白血病具有统计上的关联性(p<0.05)。而多因子分析算法结果显示,年龄、接触苯乙烯与罹患白血病具有统计上的关联性(p<0.05)。因此,在第一研究数据中,年龄每增加1岁,罹患白血病的胜算会增加67.5%,接触苯乙烯者的白血病罹病胜算是无接触苯乙烯者的1.364倍。换言之,接触苯乙烯者罹患白血病的胜算增加了36.4%,此胜算比的信赖区间上限,显示增加的胜算可能多达116.3%。

另,在第二研究数据的单因子分析算法结果显示,性别、抽烟习惯、接触苯乙烯均与罹患白血病具有统计上的关联性(p<0.05)。而多因子分析算法结果显示,只有接触苯乙烯与罹患白血病具有统计上的关联性(p<0.05)。因此,在第二研究数据中,接触苯乙烯者的白血病罹病胜算是无接触苯乙烯者的2.764倍。换言之,接触苯乙烯者罹患白血病的胜算增加了176.4%,此胜算比的信赖区间上限,显示增加的胜算可能多达200.6%。

在此,处理单元40通过整合算法以将前述第一参数、第二参数、各统计信息与各统计检定整合为整合信息(与第一实施例的表7相似,其显示结果能视实际需求显示),并且传送并显示于显示单元50。即整合信息会显示前述的各统计信息与各统计检定,并且搭配对应于第一参数与第二参数的表格信息或文字说明,能让研究人员快速理解,更可让不具有相关专业知识的一般民众能轻易理解研究结果。

在第三实施例中,与第一、二实施例相似,研究人员欲利用第三研究方案研究在职业中接触苯乙烯(第一参数)是否会增加白血病罹病(第二参数)的风险(即步骤s01)。第三研究数据是选自1990年~2012年间经病理学检查证实为新诊断白血病病患的受雇员工200人为病例研究组(即步骤s02)。对照控制组则选自同期间同数据库非白血病病患的受雇员工500人(即步骤s02)。第四研究数据是选自某职业健康调查数据库中自1990年~2012年间经病理学检查证实为新诊断白血病病患的受雇员工200人为病例研究组(即步骤s02)。以1:1配对选择与病例个案同性别、年龄相差不超过2岁,并排除有其他恶性肿瘤者的非病例个案的受雇员工200人为对照控制组,共200对(即步骤s02)。是以,第三研究方案的第三研究数据与第四研究数据是不同于第一研究方案的各研究数据与第二研究方案的各研究数据。

表12为第三实施例的第三研究方案中关于第三研究数据的统计表。请参阅表12,第三研究数据中是观察23年(研究调查期间自1990年为起始点,追踪至2012年)的过程中,一旦研究个案被诊断出罹患白血病,则视为发生事件,反之至2012年底仍未被侦测出该疾病,则视为未发生事件。

表12:

根据于第三研究数据,处理单元40能依据统计算法(如发生率算法)计算得出白血病发生率=(200/700)×1000‰=285.71‰(即步骤s03),即表示每一千人中有285.71人罹患白血病。另,在一实施例中,处理单元40也能依据统计算法(如发生密度算法)计算白血病发生密度=(200/42,000)×1000=4.76(即步骤s032),即每一千人中有4.76人罹患白血病。

表13:

表13为第三实施例的第三研究方案中关于第四研究数据的统计表。相同地,处理单元40也能依据发生率算法计算出白血病发生率=(200/400)×1000‰=500‰(即步骤s031),即每一千人中有500人罹患白血病。

换言之,处理单元40能分别根据统计算法以分别分析计算第三研究数据与第四研究数据的统计信息(即步骤s03)。举例来说,在本实施例中,处理单元40还可以根据胜算比算法计算第三研究数据与第四研究数据的胜算比。如第三研究数据的胜算比可以为(130*280)/(220*70)=2.36,其表示白血病暴露胜算是无白血病的2.36倍,换句话说,有白血病比无白血病的人暴露于苯乙烯胜算高2.36倍。另,在第四研究数据的胜算比可以为110/30=3.67,其表示白血病暴露胜算是无白血病的3.67倍,换句话说,有白血病比无白血病的人暴露于苯乙烯胜算高3.67倍。其中,其他类型(如相对风险性或其他)的统计信息在此不再赘述。

表14:

表15:

表14为第三研究数据的另一统计表。表15为第四研究数据的另一统计表。请参阅表14至表15,在本实施例中,处理单元40能根据检定算法分析计算第三研究数据与第四研究数据分别对应于第二参数之间的统计检定(即步骤s04)。其中,p-value字段中的注记a是依据卡方检定算法得出。p-value字段中的注记b是依据t检定算法得出。其中,显著水平为5%。

举例来说,表14是一种描述性与推论性统计,描述性统计是以平均数、标准偏差呈现连续性变项数据的分布情形,其以个案数、百分比呈现类别性变项数据的分布情形。推论性统计是以t检定探讨病例研究组及对照控制组的年龄平均数差异,并能以卡方检定探讨有无白血病与除年龄外的其他属性因子之间有无关联性。因此,根据表14显示结果发现,年龄、抽烟习惯在有无白血病之间的分布均具有统计上的显著差异或显著关联性(p<0.05)。另,表15也是一种描述性与推论性统计,根据表15显示结果能发现,年龄、抽烟习惯、饮酒习惯在有无白血病之间的分布均具有统计上的显著差异或显著关联性(p<0.05)。

表16:

表17:

表16是第三研究数据的逻辑斯回归结果的统计表。表17是第四研究数据的条件式逻辑斯回归结果的统计表。在一实施例中,处理单元40也能根据统计假设检定算法、单因子/多因子分析算法或其他检定算法以得出对应的结果。举例来说,在第三研究数据中,请参阅表16,以逻辑斯回归分析法探讨单一因子及多个因子与白血病关联的结果,就单因子分析结果显示,年龄、抽烟习惯、接触苯乙烯均与罹患白血病具有统计上的关联性(p<0.05)。而多因子分析结果显示,年龄、接触苯乙烯与罹患白血病具有统计上的关联性(p<0.05)。年龄每增加1岁,罹患白血病的胜算会增加26.7%;接触苯乙烯者的白血病罹病胜算是无接触苯乙烯者的1.888倍。换言之,接触苯乙烯者罹患白血病的胜算增加了88.8%,此胜算比的信赖区间上限,显示增加的胜算可能多达100.1%。相同的,在第四研究数据中,请参阅表17,以条件式逻辑斯回归分析法探讨单一因子及多个因子与白血病关联的结果,就单因子分析结果显示,年龄、家族病史、接触苯乙烯均与罹患白血病具有统计上的关联性(p<0.05)。而多因子分析结果显示,只有接触苯乙烯与罹患白血病具有统计上的关联性(p<0.05),接触苯乙烯者的白血病罹病胜算是无接触苯乙烯者的1.812倍。换言之,接触苯乙烯者罹患白血病的胜算增加了81.2%,此胜算比的信赖区间上限,显示增加的胜算可能多达110.3%。

最后,处理模块40再根据前述各分析计算结果,通过整合算法以将前述第一参数、第二参数、统计信息与统计检定整合为整合信息(与第一实施例的表7相似,其显示结果视实际需求显示),并且传送并显示于显示单元50。

在第四实施例中,研究人员欲研究是否居住于高温地区(第一参数)与是否有购买刨冰机(第二参数)的关联性。首先,数据库60储存有于2010年1月~2014年12月之间的会员为研究观察对象,扣除非研究期间内曾购买刨冰机的会员人数后,实际研究对象为5,000位。因此,研究人员能操作控制单元30而选择第一研究方案,并且选择第一参数为是否居住于高温地区的人,选择第二参数为是否有购买刨冰机的人(步骤s01)。

表18:

表18是第四实施例的第一研究方案的统计表。在此,处理单元40能自数据库60查找并接收对应于第一研究方案、第一参数与第二参数的各研究数据(如表18所示)(步骤s02)。接着,处理单元40能根据统计算法计算以生成统计信息(步骤s03)。例如,处理单元40能依据发生率算法计算各研究数据的发生率。如,居住于高温地区的刨冰机购买发生率=(200/1,000)×1000‰=200‰,即每千人暴露居住于高温地区(日均温≥28℃)者中,有200人会购买刨冰机。无居住于高温地区者的刨冰机购买发生率=(600/4,000)×1000‰=150‰,即每千人无暴露居住于高温地区(日均温<28℃)者中,有150人会购买刨冰机。全人群的刨冰机购买发生率=(800/5,000)×1000‰=160‰,即每千人中有160人会购买刨冰机。

在一些实施例中,处理单元40也能依据相对风险性算法、胜算比算法或其他统计算法计算以生成统计信息。举例来说,相对风险性算法是居住于高温地区者的刨冰机购买发生率/无居住于高温地区者的刨冰机购买发生率=200‰/150‰=1.33,表示暴露居住于高温地区者会购买刨冰机的可能性比无暴露者高1.33倍;暴露者比无暴露者会购买刨冰机的可能性高1.33倍。另,处理单元40能利用胜算比算法计算出胜算比=(200/800)/(600/3,400)=1.42,表示暴露居住于高温地区者会购买刨冰机的胜算是无暴露者的1.42倍。

表19:

表19是第四实施例的对应于第一研究方案的描述性与推论性统计表。其中,p-value是依据卡方检定算法得知。描述性统计以个案数、百分比呈现类别性变项数据的分布情形;推论性统计以卡方检定探讨有无暴露居住于高温地区与属性因子之间有无关联性。

接着,处理单元40即能依据检定算法分析计算,以生成统计检定(步骤s04)。举例来说,请参阅表19,处理单元40经由卡方检定算法能得出各p-value。其能得知性别、年龄、居住地区与有无暴露居住于高温地区皆在统计上有显著关联性(p<0.05),即有无暴露居住于高温地区在性别、年龄、居住地区的分布均具有统计上的显著差异。

表20:

表20是第四实施例的cox回归分析结果统计表。请参阅表20,其能得知单因子分析结果显示,居住地区、居住地区日均温与购买刨冰机具有统计上的关联性(p<0.05)。而多因子分析结果显示,只有居住地区日均温为购买刨冰机的显著影响因素,两者具有统计上的关联性(p<0.05),居住地区日均温每增加1℃会增加刨冰机购买机率(可能性)101.3%。

表21:

表21是第四实施例中刨冰机购买发生率与年龄的卜瓦松回归结果的统计表。请参阅表21,处理单元40进一步将年龄区分为29岁以下、30-49岁及50岁以上三个年龄层。基准年龄层(29岁以下)的刨冰机购买发生率估计为30-49岁、50岁以上各年龄层的刨冰机购买发生率分别估计为e-5.863+1.501=0.013、e-5.863+1.324=0.011。而各年龄层相较于基准年龄层(29岁以下)的刨冰机购买发生率比值(irr)分别为4.486、3.758,因此,由表21中的p-value来看,年龄层与刨冰机购买发生率并无显著相关。

表22:

表22是第四实施例的刨冰机相关购买因素的逻辑斯回归结果的统计表。因此,由表22能得知单因子分析结果显示,居住地区日均温与购买刨冰机具有统计上的关联性(p<0.05)。而多因子分析结果显示,居住地区日均温为购买刨冰机的显著影响因素,两者具有统计上的关联性(p<0.05),居住地区日均温每增加1℃会增加刨冰机购买胜算105.2%。

接着,处理单元40依据整合算法将前述第一参数、第二参数、各统计信息与统计检定整合为整合信息(步骤s05)。并将整合信息传送至显示单元50,以供显示单元50显示整合信息。让研究人员能快速理解第一参数与第二参数之间的关联性,更能让一般民众了解其研究结果所代表的涵义。

表23是第五实施例的第二研究方案中关于第五研究数据的统计表。表24是第五实施例的第二研究方案中关于第六研究数据的统计表。在第五实施例中,与第二实施例相同,研究人员能操作控制单元30而选择第二研究方案,并且选择第一参数为是否居住于高温地区的人,选择第二参数为是否购买刨冰机的人(步骤s01)。其中,第五研究数据为选自某网络卖场中于2010年1月~2014年12月之间有购买刨冰机的会员800人为案例研究组。对照控制组则选自同网络卖场同期间无购买刨冰机的会员2,000人。第六研究数据为选自某网络卖场中于2010年1月~2014年12月之间有购买刨冰机的会员800人为案例研究组。以1:1配对选择与案例个案同性别、年龄相差不超过2岁的非案例个案会员800人为对照控制组,共800对(步骤s02)。

表23:

表24:

接着,处理单元40即能借此依据暴露算法(统计算法)计算第五研究数据的暴露率(统计信息)与第六研究数据的暴露率(统计信息)(步骤s03)。如,第五研究数据中的案例研究组的暴露率=(440/800)×100%=55%,即800位有购买刨冰机的会员中,有440人暴露居住于高温地区下,暴露率为百分之五十五。而其对照控制组的暴露率=(1,000/2,000)×100%=50%,即2,000位无购买刨冰机的会员中,有1,000人暴露居住于高温地区下,暴露率为百分之五十。如,第六研究数据中的案例研究组的暴露率=(450/800)×100%=56.25%,即800位有购买刨冰机的会员中,有450人暴露居住于高温地区下,暴露率为百分之五十六点二五。而其照控制组的暴露率=(330/800)×100%=41.25%,即800位无购买刨冰机的会员中,有330人暴露居住于高温地区下,暴露率为百分之四十一点二五。

另外,处理单元40也能使用其他种类的统计算法分别计算其统计信息(步骤s03)。如第五研究数据中的胜算比=(440*1000)/(1000*360)=1.2,表示购买刨冰机暴露胜算是无购买刨冰机的1.2倍,而有购买刨冰机比无购买刨冰机的人暴露居住于高温地区胜算高1.2倍。第六研究数据中的胜算比=270/150=1.8,表示购买刨冰机暴露胜算是无购买刨冰机的1.8倍,而有购买刨冰机比无购买刨冰机的人暴露居住于高温地区胜算高1.8倍。其余统计信息的演算方式在此不再赘述。

表25是第五实施例的对应第二研究方案中的一描述性与推论性统计表。表26是第五实施例的对应第二研究方案中的另一描述性与推论性统计表。接着,处理单元40根据检定算法分别分析第五研究数据、第六研究数据、第二参数而得知统计检定(步骤s04)。举例来说,表25中的描述性统计是以个案数、百分比呈现类别性变项数据的分布情形。推论性统计是以卡方检定探讨有无购买刨冰机与属性因子之间有无关联性。由表25的显示结果能发现,年龄、居住地区在有无购买刨冰机之间的分布均具有统计上的显著差异或显著关联性(p<0.05)。表26中的描述性统计是以个案数、百分比呈现类别性变项数据的分布情形。推论性统计是以卡方检定探讨有无购买刨冰机与属性因子之间有无关联性。由表26的显示结果能发现,年龄、居住地区在有无购买刨冰机之间的分布均具有统计上的显著差异或显著关联性(p<0.05)。

表25:

表26:

表27是第五实施例中的第五研究数据的逻辑斯回归分析统计表。表28是第五实施例中的第六研究数据的条件式逻辑斯回归分析统计表。由表27能得知,就单因子分析结果显示,居住地区、居住地区日均温与购买刨冰机具有统计上的关联性(p<0.05)。而多因子分析结果显示,只有居住地区日均温与购买刨冰机具有统计上的关联性(p<0.05),居住地区日均温每增加1℃会增加刨冰机购买胜算222.3%。而由表27能得知,就单因子分析结果显示,居住地区、居住地区日均温与购买刨冰机具有统计上的关联性(p<0.05)。而多因子分析结果显示,只有居住地区日均温与购买刨冰机具有统计上的关联性(p<0.05),居住地区日均温每增加1℃会增加刨冰机购买胜算198.6%。

表27:

表28

接着,处理单元40即能利用整合算法整合上述取得的第五研究数据、第六研究数据、第一参数、第二参数、统计信息与统计检定,以生成整合信息(步骤s05),以供显示单元50显示整合信息。

表29是第六实施例中的第三研究方案中关于第七研究数据的统计表。表30是第六实施例中的第三研究方案中关于第八研究数据的统计表。在第六实施例中,与第三实施例相同,研究人员能操作控制单元30而选择第三研究方案,并且选择第一参数为是否居住于高温地区的人,选择第二参数为是否购买刨冰机的人(步骤s01)。其中,数据库60储存有某网络卖场中,于2010年1月~2014年12月之间的会员(扣除非研究期间内曾购买刨冰机的会员数)为研究对象。是以,第七研究数据为选自某网络卖场中于2010年1月~2014年12月之间有购买刨冰机的会员800人为案例研究组。对照控制组则选自同网络卖场同期间无购买刨冰机的会员2,000人。第八研究数据为选自某网络卖场中于2010年1月~2014年12月之间有购买刨冰机的会员800人为案例研究组。以1:1配对选择与案例个案同性别、年龄相差不超过2岁的非案例个案会员800人为对照控制组,共800对(如步骤s02)。

表29:

表30

接着,处理单元40能依据统计算法计算第七研究数据与第八研究数据的统计信息(如步骤s03)。举例来说,处理单元40能依据发生率算法计算第七研究数据的刨冰机的购买发生率,其发生率=(800/2,800)×1000‰=285.7‰,即每千人中有285.7人会购买刨冰机。相同地,第八研究数据的刨冰机购买发生率=(800/1,600)×1000‰=500‰,即每千人中有500人会购买刨冰机。

在一些实施例中,处理单元40也能根据胜算比算法计算第七研究数据与第八研究数据,以得出胜算比的统计信息。举例来说,处理单元40依据胜算比算法计算第七研究数据时,其胜算比=(480*1,100)/(900*320)=1.83,表示购买刨冰机暴露胜算是无购买刨冰机的1.83倍;有购买刨冰机比无购买刨冰机的人暴露居住于高温地区胜算高1.83倍。相同地,第八研究数据的胜算比=300/100=3,表示购买刨冰机暴露胜算是无购买刨冰机的3倍;有购买刨冰机比无购买刨冰机的人暴露居住于高温地区胜算高3倍。在一些实施例中,处理单元40还能根据其他种类的统计算法对第七研究数据或第八研究数据进行演算,以生成对应的统计信息,本发明并非以此为限制。

表31是第六实施例中的第七研究数据的统计检定表。表32是第六实施例中的第八研究数据的统计检定表。处理单元40能根据检定算法计算第七研究数据与第八研究数据而生成统计检定(如步骤s04)。举例来说,表31是第七研究数据经卡方检定算法演算之后的统计表,其包含描述性与推论性统计。描述性统计是以个案数、百分比呈现类别性变项数据的分布情形。推论性统计是以卡方检定探讨有无购买刨冰机与属性因子之间有无关联性。结果发现,年龄、居住地区在有无购买刨冰机之间的分布均具有统计上的显著差异或显著关联性(p<0.05)。相同地,表32也是第八研究数据经卡方检定算法演算之后的统计表,其包含描述性与推论性统计,描述性统计以个案数、百分比呈现类别性变项数据的分布情形。推论性统计,以卡方检定探讨有无购买刨冰机与属性因子之间有无关联性。结果发现,年龄、居住地区在有无购买刨冰机之间的分布均具有统计上的显著差异或显著关联性(p<0.05)。

表31:

表32:

另在一些实施例中,处理单元40能根据逻辑斯回归分析算法(检定算法)分析演算第七研究数据,以及处理单元40能根据条件式逻辑斯回归分析算法(检定算法)分析第八研究数据,以进一步得到其对应的统计检定。其中,表33是第六实施例中第七研究数据的另一统计检定表。表34是第六实施例中第八研究数据的另一统计检定表。

表33:

表34:

请参阅表33与表34,处理单元40是根据逻辑斯回归分析算法分析购买刨冰机相关因子的统计结果表。由表33的单因子分析结果能显示居住地区日均温与购买刨冰机也具有统计上的关联性(p<0.05)。而多因子分析结果显示,居住地区日均温与购买刨冰机也具有统计上的关联性(p<0.05),居住地区日均温每增加1℃会增加刨冰机购买胜算276.4%。另,处理单元40是根据条件式逻辑斯回归分析算法分析购买刨冰机相关因子的统计结果表。由表34能得知就单因子分析结果显示,性别、居住地区、居住地区日均温均与购买刨冰机具有统计上的关联性(p<0.05)。而多因子分析结果显示,只有居住地区日均温与购买刨冰机具有统计上的关联性(p<0.05),居住地区日均温每增加1℃会增加刨冰机购买胜算199.6%。其他种类的检定算法在此不再赘述。

接着,处理单元40即能依据整合算法将前述的第一参数、第二参数、各研究数据、各统计信息与各统计检定整合为整合信息(如步骤s05),再传送整合信息至显示单元50,以供显示单元50显示(如步骤s06)。其中,通过整合算法整合为整合信息的技术特征与前述各实施例雷同,在此不再赘述。其中,显示单元50显示的整合信息的技术特征与前述各实施例雷同,在此不再赘述。

其中,第一参数与第二参数的选择在本发明中并非为限制,除前述各实施例之外,也可选择第一参数为在职业中是否有接触苯乙烯者,而第二参数为是否购买刨冰机的人、第一参数为是否居住于高温地区,而第二参数为是否得到白血病者。换句话说,本发明能根据使用者需求随意选择第一参数与第二参数。

依据上述各实施例,处理单元40能依据研究人员(或使用者)选择研究方案与欲研究的事件(即第一参数与第二参数),借此能快速地通过整合算法将多种研究结论整合为整合信息。供研究人员(或用户)能通过显示单元50快速且直觉地理解研究数据对应于第一参数与第二参数之间的关联程度,更能探求传统上认为毫无相关的第一参数与第二参数之间是否真的毫无关联。因此能借此快速研究分析,以提升研究效率,并且能快速地衍生应用规划,另外,本发明更能提供非专业领域的使用者能快速理解研究议题的结果,能让非专业领域的人员能理解专业领域的研究结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1