用于生成统计研究信息的系统、方法以及逻辑的制作方法

文档序号:6360096阅读:156来源:国知局

专利名称::用于生成统计研究信息的系统、方法以及逻辑的制作方法用于生成统计研究信息的系统、方法以及逻辑相关串请的交叉引用本申请依照35U.S.C.§119(e)要求于2010年7月27日递交的临时专利申请No.61/367,965和于2010年4月5日递交的美国临时专利申请No.61/320,894的权益,因此,他们中的每个通过引用被全文结合在此。
背景技术
:数据集与电子数据表在构思上类似并且包括行和列。每个行被称为观察(observation)并代表一主题。每个列被称为变量并代表与主题相关的特征、特性或量度。主题ID是用于识别每个主题(诸如在临床研究中的病人)的专用变量。变量的分布是变量的基本统计说明。对于连续变量(诸如主题以英寸为单位的高度),通常感兴趣的统计包括平均值、标准偏差、最小值、最大值、中间值和诸如百分之十、百分之二十五等的多种百分等级。对于离散或分类变量(诸如性别和种族),通常感兴趣的统计包括对每个离散分类的计数。回归模型(regressionmodel)是使用独立变量(称为暴露变量(Exposures)和协变量)的统计公式来预测所感兴趣的因变量(称为结果)。以下公式是回归模型的举例f(SBP),其中SBP=β+β^AGE+β2*BMI+eSBP是回归模型的结果(Outcome)并且表示主题病人的心脏收缩血压。AGE是独立变量并且表示病人的年龄。BMI也很是独立变量并且表示病人身体体重指数。暴露变量是回归模型中的独立变量,观察其变化来确定其如何影响结果的变化。协变量或调节变量也是回归模型中的不是暴露变量的自变量。例如,在示例性回归模型中,BMI是AGE的协变量并且反之亦然。两个独立变量中的任一个或全部两个都可以被选作为暴露变量。回归系数是根据结果中的变化表示暴露变量的变化率的恒量。例如,在示例性回归模型中,^和@2是分别与AGE和BMI变量相关联的回归系数。例如,如果@2等于零,则意味着在BMI的变化和SBP的变化之间不存在相关性。回归系数显示了与系数相关联的变量与回归模型的结果相关的程度。如果发现两个变量的变化是相关的,则变量被说成与另一变量相关联。关联测试涉及拟合和测试回归模型以确定回归系数,来看是否他们中的任何一个关于结果具有显著相关性。例如,流行病学的数据分析关注于暴露变量与结果的关联,其中关联是通过调节或不调节其他协变量而被测试的。分层法被定义为将数据分隔成不同的或不重叠的组的过程。当对学习总体的子域特别感兴趣时使用分层法。分层变量是表示从学习总体的部分组中所获得的量度的变量。在先技术中目前可用的统计工具是围绕统计方法而不是为了容易地获得分析数据输出而设计的。例如,为了应用统计方法来分析可用的数据,用户(例如流行病学家)必须做很多编程,从这种工具的输出中提取有关信息并将信息放入报告中。
发明内容公开主题所提供的系统和方法为用户提供了多种数据分析模块,这些模块能够产生预先设定的报告表格/图表,并允许用户修改报告表格/图表的格式,并选择适当的变量来直接生成公布的表格/图表。用户不需要知道如何调用复杂的统计方法或具有编程知识,因此,他们能够专注在统计数据的研究上而不是获得这些数据。在一个实施例中,公开了用于生成统计分析输出的系统。该系统从用户接收并处理一组输入来执行统计分析并基于分析的结果生成输出。用户输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量,一个或多个适于特定分析的统计模块,和一个或多个输出格式。统计分析基于所选统计模块而被执行。该系统包括处理单元,其被配置为自动识别数据集中的多个统计变量的每个;对每个识别的统计变量,自动生成用于获得变量分布的程序代码;从所识别的数据集中的变量中选择至少一个统计变量以用于基于变量分布的统计分析;如果用户输入包括对用于操纵变量的一个或多个统计功能的选择,则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个所选变量的统计功能的程序代码;基于一个或多个统计模块通过执行与模块相关的程序代码而自动执行统计分析;以及自动生成用于将统计分析的结果组织成用户所选的输出格式的程序代码。在另一实施例中,公开了一种为以下系统生成统计分析的方法,该系统从用户接收并处理一组输入来执行统计分析并基于分析的结果生成输出,其中用户输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量,一个或多个适于特定分析的统计模块,和一个或多个输出格式,并且其中统计分析基于所选统计模块而被执行。该方法包括自动识别数据集中的多个统计变量的每个;对每个识别的统计变量,自动生成用于获得变量分布的程序代码;从所识别的数据集中的变量中选择至少一个统计变量以用于基于变量分布的统计分析;如果用户输入包括对用于操纵变量的一个或多个统计功能的选择,则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个变量的所选统计功能的程序代码;基于一个或多个统计模块通过执行与模块相关的程序代码而自动执行统计分析;以及自动生成用于将统计分析的结果组织成用户所选的输出格式的程序代码。在另一实施例中,公开了在一种或多种有形介质中编码的逻辑。该逻辑包括用于执行的代码并且当被处理器执行时可操作地执行如下操作,所述操作包括接收一组输入,所述输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量,一个或多个适于特定分析的统计模块,和一个或多个输出格式;自动识别数据集中的多个统计变量的每个;对每个识别的统计变量,自动生成用于获得变量分布的程序代码;从所识别的数据集中的变量中选择至少一个统计变量以用于基于变量分布的统计分析;如果用户输入包括对用于操纵变量的一个或多个统计功能的选择,则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个所选变量的所选统计功能的程序代码;基于一个或多个统计模块通过执行与模块相关的程序代码而自动执行统计分析;以及自动生成用于将统计分析的结果组织成用户所选的输出格式的程序代码。公开主题的实施例可以包括一个或多个以下特征。例如,用于生成统计分析输出的系统可以进一步包括耦合到处理单元的用于储存数据集的存储器单元。该存储器单元可以也储存用户输入组。该系统还可以包括通信单元,该通信单元被配置为通过包括互联网的通信网络,从用户装置接收用户输入并将分析输出传送给所述用户装置。该系统可以进一步包括用于储存分析输出的储存单元。该系统中的处理单元可以进一步被配置为创建用于储存所识别的统计变量的变量分布的数据分布文件。该数据分布文件可以通过自动生成用于生成数据分布文件的程序代码而被创建,其可以包括含用于组织变量分布的特定格式,包含电子数据表格文件格式、文本文件格式、或图表文件格式。系统中的处理单元还可以进一步被配置为将每个所识别的统计变量分类作为连续变量和或离散变量之一。公开主题的实施例可以进一步包括一个或多个以下特征。例如,用于生成统计分析输出的系统可以进一步包括用于通过图形用户界面显示每个识别的统计变量的变量分布的显示器。系统中的处理单元进一步被配置为自动重新计算所操纵的统计变量的分布。用户可选的用于操纵变量的统计功能包括重新编码、分类、和标准化现有统计变量以及创建新的统计变量。处理单元可以进一步被配置为自动生成用于创建包括所操纵的统计变量的单独数据集的程序代码(诸如SAS程序代码和R程序代码)。处理单元还可以被配置为将分析输出保存在一个或多个输出文件中。处理单元可以被进一步配置为使用一个或多个输出文件来修改统计分析或作出额外的统计分析。处理单元还可以被配置为将包含不同统计分析实例的输出文件结合成新的输出文件。·图IA是根据公开主题的一个实施例的显示了分析统计数据集过程的框图。图IB是根据公开主题的一个实施例的显示了分析统计数据集的替选过程的框图。图2是根据公开主题的一个实施例的显示了用于生成包含在数据集中的变量的分布信息过程的框图。图3是根据公开主题的一个实施例的显示了用于操纵包含在数据集中的变量,用于创建新变量,以及用于重新构建数据的过程的框图。图4是根据公开主题的一个实施例的显示了用于生成数据分析输出表格和图表的过程的框图。图5是根据公开主题的一个实施例的显示了用于自动生成数据分析输出表格和图表的过程的框图。具体实施例方式图IA是根据公开主题的一个实施例的显示了分析统计数据集的过程100A的框图。参照图1A,输入数据集在102处被接收。在104处,为数据集中的每个变量编码并执行单独的程序以获得变量的分布。在一些实施例中,SAS或R程序被自动编码和执行以提供变量的分布。为了获得诸如主题的年龄(AGE)的连续变量的分布,例如,在被称为“The_Dataset”的示例性数据集中,以下显示的示例性SAS程序可以被编码PROCUNIVARIATEdata=The—Dataset;varAGE;RUN;为了获得诸如主题的性别(GENDER)的离散变量的分布,另一方面,不同的程序可以被编码,如以下显示的PROCFREQdata=The_Dataset;tableGENDER;RUN;对包含在数据集中的每个变量,程序都被自动编码和执行,因而,用户不需要提供程序或具有编程的专门技术。在一些实施例中,诸如R、COBOL、C、C++、VisualBasic和Java,VBScript和JavaScript的其他编程或脚本语言被用来自动编码程序来提供变量分布。一旦获得数据集中所有变量的分布,则单独的程序被自动编码来组织分布信息以创建数据分布文件来储存该分布信息。在一些实施例中,数据分布文件使用dst”扩展名并在组织分布信息中保持非常特殊的格式。在这些实施例中使用的数据分布文件可以仅仅由体现公开主题的方法和系统打开。在其他实施例中,数据分布文件被保存为可以被诸如电子数据表应用的其他数据分析应用所识别的格式。包含在数据集中的变量被自动检测并且每个变量被分类为连续的或者离散的。随后,每个变量的分布信息被获得并被保存在数据分布文件中。在106处,在数据集中发现的变量的直观视图和每个变量的分布被显示给用户。这帮助用户快速熟悉数据。例如,用户可以确定数据集包括哪些变量和每个变量如何被编码,决定哪些变量应当被使用,和它们应当被如何使用。在108处,用户可以选择菜单选项来操纵在数据集中发现的变量,创建新变量和重新构造数据集中的数据。例如,使得用户能够重新编码(对于离散变量)或分类(对于连续变量),并将变量标准化。还使得用户能够创建一个或多个新变量。例如,菜单被提供给用户以从多种功能中选择特定功能,诸如重新编码、分类、标准化(对于现有变量)和创建(对于新变量)。在一些实施例中,所操纵的变量的分布在操纵完成时被自动重新计算。在一些实施例中,新变量的分布也在变量被创建之后被自动计算。在一些实施例中,还使得用户能够对变量进行标记。在一些实施例中,还使得用户能够将变量转置(transpose)为观察(例如记录)或将观察转置为变量,例如以在多个观察或活动窗口上计算统计。例如,在纵向研究中,其中追踪200个儿童来测量每个儿童在2岁、4岁、6岁和8岁时的身高,如表IA中所示,数据最初可以被组织成每个儿童具有一个记录(一行),每个记录具有ht2、ht4、ht6、和ht8来分别表示他/她在2岁、4岁、6岁和8岁时的身高。数据转置功能使用户能够重新改造数据,例如,如表IB中所示的,使每行代表每个测量结果,从而虽然原始数据具有200行,但是新数据现包括800(200X4)行。表IA权利要求1.一种用于生成统计分析输出的系统,其中,所述系统从用户接收并处理一组输入来执行统计分析并基于分析的结果生成输出,其中用户输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量,一个或多个适于特定分析的统计模块和一个或多个输出格式,并且其中所述统计分析基于所选统计模块而被执行,该系统包括处理单元,其被配置为自动识别所述数据集中的多个统计变量的每个;对每个识别的统计变量,自动生成用于获得变量分布的程序代码;从所识别的数据集中的变量中选择至少一个统计变量以用于基于所述变量分布的统计分析;如果用户输入包括对用于操纵所述变量的一个或多个统计功能的选择,则选择至少一个统计变量的一个或多个并自动生成实现用于操纵所述一个或多个所选变量的统计功能的程序代码;基于所述一个或多个统计模块通过执行与所述模块相关的程序代码而自动执行统计分析;以及自动生成用于将所述统计分析的结果组织成用户所选的输出格式的程序代码。2.根据权利要求I所述的系统,进一步包括耦合至所述处理单元的用于储存所述数据集的存储器单元。3.根据权利要求2所述的系统,其中所述存储器单元也储存所述用户输入组。4.根据权利要求I所述的系统,进一步包括通信单元,所述通信单元被配置为通过通信网络从用户装置接收用户输入并将分析输出传送给所述用户装置。5.根据权利要求4所述的系统,其中所述通信网络包括互联网。6.根据权利要求I所述的系统,进一步包括用于储存所述分析输出的储存单元。7.根据权利要求I所述的系统,其中所述处理单元进一步被配置为创建用于储存所识别的统计变量的变量分布的数据分布文件。8.根据权利要求7所述的系统,其中创建数据分布文件包括自动生成用于生成所述数据分布文件的程序代码。9.根据权利要求7所述的系统,其中所述数据分布文件保持特定格式以用于组织变量分布。10.根据权利要求7所述的系统,其中所述数据分布文件保持电子数据表格文件格式、文本文件格式和图表文件格式中的至少一个。11.根据权利要求I所述的系统,其中所述处理单元进一步被配置为将每个所识别的统计变量分类为连续变量和离散变量之一。12.根据权利要求I所述的系统,其中所述处理单元进一步被配置为自动重新计算所操纵的统计变量的分布。13.根据权利要求I所述的系统,其中所述统计功能包括重新编码、分类、和标准化现有统计变量并创建新的统计变量。14.根据权利要求13所述的系统,其中所述处理单元进一步被配置为自动生成用于创建包括所操纵的统计变量的单独数据集的程序代码。15.根据权利要求I所述的系统,其中所述程序代码包括SAS程序代码和R程序代码。16.根据权利要求I所述的系统,其中所述处理单元进一步被配置为将所述分析输出保存在一个或多个输出文件中。17.根据权利要求I所述的系统,其中所述处理单元进一步被配置为如果用户输入包括指示用户希望公布输出的参数则公布所述统计分析输出。18.根据权利要求17所述的系统,其中所述统计分析输出被公布在网站上。19.在一种或多种有形介质中编码的逻辑,包括用于执行的代码并且当被处理器执行时可操作地执行如下操作,所述操作包括接收一组输入,所述输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量,一个或多个适于特定分析的统计模块和一个或多个输出格式;自动识别所述数据集中的多个统计变量的每个;对每个识别的统计变量,自动生成用于获得变量分布的程序代码;从所识别的数据集中的变量中选择至少一个统计变量以用于基于所述变量分布的统计分析;如果用户输入包括对用于操纵变量的一个或多个统计功能的选择,则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个所选变量的所选统计功能的程序代码;基于所述一个或多个统计模块通过执行与所述模块相关的程序代码而自动执行统计分析;以及自动生成用于将所述统计分析的结果组织成用户所选的输出格式的程序代码。20.在从用户接收并处理一组输入来执行统计分析并基于分析的结果生成输出的系统中的一种用于生成统计分析输出的方法,其中所述用户输入包括从包含在数据集中的多个统计变量中选择用来分析的至少一个统计变量,一个或多个适于特定分析的统计模块和一个或多个输出格式,并且其中所述统计分析基于所选统计模块而被执行,所述方法包括自动识别所述数据集中的多个统计变量的每个;对每个识别的统计变量,自动生成用于获得变量分布的程序代码;从所识别的数据集中的变量中选择至少一个统计变量以用于基于所述变量分布的统计分析;如果所述用户输入包括对用于操纵变量的一个或多个统计功能的选择,则选择至少一个统计变量的一个或多个并自动生成实现用于操纵一个或多个变量的所选统计功能的程序代码;基于所述一个或多个统计模块通过执行与所述模块相关的程序代码而自动执行统计分析;以及自动生成用于将所述统计分析的结果组织成用户所选的输出格式的程序代码。全文摘要在一个实施例中,公开了一种用于生成统计分析输出的系统。该系统从用户接收并处理输入来执行统计分析并生成输出。该输入包括来自数据集中的多个统计变量中的至少一个统计变量,适于分析的统计模块和输出格式。该系统包括处理单元,其被配置为自动识别数据集中的统计变量;自动生成用于获得变量分布的程序代码;选择至少一个统计变量以用于统计分析;选择至少一个统计变量的一个或多个并自动生成实现用于操纵变量的统计功能的程序;基于统计模块通过执行与模块相关的程序代码而自动执行统计分析;以及自动生成用于将统计分析的结果组织成用户所选的输出格式的程序代码。文档编号G06F9/44GK102918522SQ201180017217公开日2013年2月6日申请日期2011年4月1日优先权日2010年4月5日发明者史蒂夫·X·陈申请人:昕易软件公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1