本发明属于大数据技术领域,具体涉及一种基于大数据的分析训练平台。
背景技术:
大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。大数据不采用传统的随机分析方法,而是采用所有数据进行分析处理。具有海量的数据规模、多样的数据类型、快速的数据流转和价值密度低四大特征。
数据规模:数据量巨大集中储存/集中计算已经无法处理巨大的数据量;
多样的数据类型:种类和来源多样化日志/图片/视频/文档/地理位置;
快速的数据流转:分析处理速度快海量数据的及时有效分析;
价值密度低:价值密度低,商业价值高大量的不相关信息的进行复杂深度分析,深挖价值。
大数据技术的战略意义并不在于人们掌握了多少庞大的数据,而是将这些已经被掌握的数据信息用大数据技术进行一些专业化处理。其实,如果将大数据比做一种产业,那么,这种大数据产业实现利润的关键,就在于要提高对大数据的一些加工能力,通过这种加工的能力进而实现大数据的价值。事实上,人们研究大数据,就是要利用大数据的研究而实现其一定的价值,尤其是一些商企部门,对挖掘大数据研究更有其实在的意义。
然而现有技术中却没有针对上述需求给出专门的大数据实训系统。此为现有技术的不足之处。
因此,针对现有技术中的上述缺陷,提供设计一种基于大数据的分析训练平台;以解决上述技术问题,是非常有必要的。
技术实现要素:
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种基于大数据的分析训练平台,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种基于大数据的分析训练平台,其特征在于,包括以下模块:
Web分析服务模块,用于发布和分析结果,基于浏览器的页面设计;
自动化服务组件模块,数据任务的调用与自动更新;
管理和集成服务模块,数据集成、用户管理、分析文件管理、数据源信息管理等集中式部署相关功能;
统计服务模块,提供先进的统计计算引擎与部署管理器;
应用程序数据服务模块,与企业数据源直接集成:SAP R/3、SAP B/W、用友ERP、Oracle EBS、金蝶ERP;
还包括数据抽取转换加载模块;
所述的数据抽取转换加载模块包括平面文件数据处理单元、数据库文件数据加载单元以及创建数据模型单元;
所述的平面文件数据处理单元包括以下步骤:
S1.1:平面txt文件应用
(1)选择“文件”->“添加数据表”->“添加”,进行数据加载;
(2)添加分析文本文件;
(3)打开分析文件;
(4)点击“确定”,导入文本;
S1.2:平面excel文件应用
(1)选择“文件”->“添加数据表”->“添加”,进行数据加载;
(2)添加Excel分析文件;
(3)打开Excel分析文件;
(4)点击“确定”,导入Excel分析文件;
S1.3:转换数据步骤:
(1)选择“文件”—“替换数据表”或选择“插入”—“行”或选择“插入”—“列”;
(2)选择转换方式;
(3)添加数据表时可将多种规范化方法写为表达式或用作转换步骤;
(4)转换可在添加数据的对话框中应用,“添加数据表”对话框、或者从外部数据工具的插入列或行中;单击“转换”—“规范化”—“添加”以显示以下所述的控件;
S1.4:对数据进行预处理,计算列,规范化处理操作;
S1.5:转置数据
(1)选择“转换”—“转置”—“添加”进行数据转置;
(2)行标识符:所选标识列或层级中的每个唯一值会在生成表中形成一行;
(3)列标题:所选类别列或层级中的每个唯一值会对所生成数据表中的每个聚合方法形成一个新行;
(4)值(%V)和聚合方法(%M):从其计算数据值的列。所生成数据表中的值根据列选择器菜单中“聚合”下选择的方法进行计算;
S1.6:逆转置数据
(1)选择“转换”—“逆转置”—“添加”进行数据逆转置;
(2)要通过的列:选定的列,其中包含未经转换而应传输到逆转置数据集的信息;
(3)要转换的列:选定的列,其中包含要合并到单个列中的值。这些列的列名称将用作生成的新类别列中的类别值;
(4)类别列名称:键入一个能够汇总在已选定进行转换的列中所提供的信息的列名称;
(5)值列名称:键入一个能够显示包含在新值列中的信息类型的列名称;
所述的数据库文件数据加载单元包括以下步骤:
S1.7:使用OLE DB打开数据的步骤
(1)选择“文件”->“添加数据表”->“添加”->“其他”-> “数据库”;
(2)在“打开数据库”对话框中,单击以选择“OleDb Data Provider”;
(3)单击“配置”;
S1.8:使用ODBC打开数据的步骤
(1)选择“文件”->“添加数据表”->“添加”->“其他”-> “数据库”;
(2)在“打开数据库”对话框中,单击以选择“Odbc Data Provider”;
(3)单击“配置”。
所述的创建数据模型单元包括以下步骤:
S1.9:添加数据连接
S1.91:在库中添加数据源的步骤:
(1)在菜单栏单击“工具”选择“管理数据连接”选项,弹出“管理数据连接”对话框;
(2)选择“添加新”的“数据源”选项,从列表中选择数据源类型。
(3)根据所选的数据源类型,填写相应信息,连接至数据源,选择数据库并“确定”;
(4)在“数据源对话框”中添加“说明”可选填;
(5)点击“保存”将显示“另存为库项目”对话框;
(6)将新建数据源保存在库中指定位置。
S1.92:在库中添加数据连接的步骤:
(1)在菜单栏单击“工具”选择“管理数据连接”选项;
(2)选择“添加新项目”的“数据连接”选项,从列表中选择“库中数据的源连接”选项;
(3)根据所选的数据连接类型,填写相应信息,连接至数据源,选择数据库并“确定”,弹出“连接中的视图”对话框;
(4)在“数据库中的可用表”列表中,双击在大数据的分析训练平台中使用的表;
(5)完成后,单击“确定”;弹出“数据连接设置”对话框;所添加的数据表会显示在“数据表视图”列表中;
(6)在“连接说明”框内输入连接说明,方便其他用户了解使用;
(7)单击“保存”将数据连接保存在库中指定位置;
S1.10:在分析中使用数据连接
(1)单击“文件”中选择“添加数据表”选项,弹出“添加数据表”对话框;
(2)单击“添加”连接至“库中的数据连接”选项,弹出“选择数据连接”对话框;
(3)在库中选择你要使用的数据连接,并“确定”;
(4)在“添加数据表”对话框中,通过选中复选框,选择要将数据连接中的哪些视图添加为新数据表;
(5)选择“加载方法”以及“导入数据表”还是“将数据表保留在外”,也可指定是否按需加载数据;
(6)点击“确定”;
S1.10:数据连接的编辑
S1.101在库中编辑数据连接:
(1)选择“工具”单击“管理数据连接”;
(2)选择你要编辑的数据连接,然后单击“编辑”;将显示“数据连接设置”对话框;
(3)做出更改并保存数据连接;
S1.102在库中编辑数据源:
(1)选择“工具”单击“管理数据连接”;
(2)选择你要编辑的数据源,然后单击“编辑”将显示“数据源设置”对话框;
(3)做出更改并保存数据源;
S1.11:自定义查询
(1)使用工具>管理数据连接或文件>添加数据表...创建一个到关系数据库的新数据连接,然后选择必要的内容,直到显示“连接中的视图”对话框;
(2)在“连接中的视图”对话框中,选择“自定义查询”>“新建自定义查询”;
(3)在“自定义查询”中键入查询名称;
(4)使用所选数据库的语言键入查询;
(5)单击验证;
(6)浏览结果列,确保列出所需的所有结果列,并确保它们具有正确的数据类型;
(7)单击“确定”;
S1.12:创建数据表关系
用于数据连接中建立数据表之间的关系;当数据表之间存在关系,通过关系建立数据模型;
S1.121数据表“关系”的创建:
(1)在“连接中的视图”中,选择建立“关系”的数据表;
(2)选择“关系”->“新建关系”建立关系;
(3)单击“确定”;
S1.122表“关系”的查看:
加号表示该表已与数据库中的其他表建立了一种或多种结构关系,若要查看关系结构,单击加号以展开视图;
还包括大数据挖掘模块,所述的大数据挖掘模块包括:
主成分分析函数prcomp(x,...)
prcomp.default(x,retx=TRUE,center=TRUE,scale.=FALSE, tol=NULL,...)
参数说明:
x 默认指定用来分析的数值型或复数矩阵;
retx 逻辑变量,指定是否返回旋转变量;
center 逻辑变量,指定是否将变量中心化;
scale.逻辑变量,指定是否将变量标准化;
tol 数值型变量,用来指定精度,小于该数值的值将被忽略;
主成分分析是指将多指标化为少数几个综合指标的一种统计分析方法,生成的主成分能够反映原始变量的绝大多数信息,通常为原始变量的线性组合;
主成分信息查询函数summary.aov(object,intercept=FALSE, split,expand.split=TRUE,keep.zero.df=TRUE,...);
summary 函数可提取主成分信息,提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计;
参数说明:
object:继承自类avo的模型对象;
Intercept:此选项仅适用于单层模型.默认情况下。intercept= FALSE
expand.split:是否在层级中继续使用;
expand.split=TRUE
keep.zero.df:是否保留原有的数据长度;
线性最小二乘拟合lsfit(x,y,wt=NULL,intercept=T,tolerance =1.e-07,yname=NULL)
适合加权最小二乘法多元回归;返回了解释变量矩阵的估计系数和残差以及QR分解的列表;
参数说明:
x 向量或解释变量矩阵;
y 响应变量可以是一个矩阵;
wt 可选参数,加权最小二乘法的执行权重向量;
intercept 是否应使用截距项;
tolerance 公差将用于在矩阵分解;
yname 用于响应变量的名称;
因子分析factanal(x,factors,data=NULL,covmat=NULL, n.obs=NA,subset,na.action,start=NULL,scores=c("none", "regression","Bartlett"),rotation="varimax",control= NULL,...)
factanal函数可以从样本,样本方差矩阵或样本相关矩阵出发对数据做因子分析;
参数说明:
x 是由数据构成的矩阵或者数据框。
factors 是因子的个数;
data 数据帧或矩阵,这仅在x是公式时使用;
covmat 是样本的协方差矩阵或样本的相关矩阵;
x.scores 表示因子得分的方法。rotation表示旋转,使用的旋转函数的名称;
主成分分析预测函数predict.prcomp(object,newdata,...)
通过主成分分析的预测模型,对数据进行预测处理;
参数说明:
object:类prcomp的对象;
newdata:用来分析的数据矩阵或数值;
方差分析计算aov(formula,data=NULL,projections=FALSE, qr=TRUE,contrasts=NULL,...)
指定模型的方差分析的类“aov”,进行拟合差异模型分析;
参数说明:
formula 表示方差分析的公式,在单因素方差分析中即为x~A;
data 表示做方差分析的数据框;
projections 为逻辑值,表示是否返回预测结果;
qr 为逻辑标志,表示是否返回正交分解;
回归预测函数lm(formula,data,weights,subset,na.action, method="qr",model=FALSE,x=FALSE,y=FALSE,contrasts= NULL,...)
lm()函数能返回拟合的结果,它可以用来进行回归,单地层分析,方差和协方差分析;
参数介绍:
Formula 一种拟合模型;
Data 一个可选的数据框,列表;
Subset 选取的观测值的子集;
model,x,y,qr 逻辑值,拟合对象的模型组件中返回模型框架,矩阵,响应及矩阵的QR分解;
分层聚类函数hclust(d,method="complete",members=NULL)
hclust 能在距离或相似性结构上执行层次聚类;
参数说明:
d 表示距离结构或距离矩阵;
method 提供聚类方法的字符串;
complete 最长距离法;
members 为NULL或d长度的矢量,默认值是所有元素的值都是1;
K 均值聚类kmeans(x,centers,iter.max=10,nstart=1, algorithm=c())
K-means 聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小;
参数说明:
x 是由数据构成的矩阵或者数据框;
centers 是聚类的个数或者是初始类的中心;
iter.max 最大迭代次数缺省时为10;
nstart 随机集合的个数。
algorithm 指定用于聚类计算的算法;
关联分析函数confint(object,parm,level=0.95,...)
confint 函数能获取模型参数的置信区间;
参数说明:
object 适合的模型;
parm 字符串向量,指所求区间估计的参数;
level 表示置信区间的置信水平必须介于0和1之间;
ARIMA时间序列建模函数arima(x,order=c(0,0,0),seasonal =list(order=c(0,0,0),period=NA),xreg=NULL,include.mean =TRUE,transform.pars=TRUE,fixed=NULL,init=NULL,method =c("CSS-ML","ML","CSS"),n.cond,optim.method="BFGS", optim.control=list(),kappa=1e+06)
ARIMA 模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型;
参数说明:
x 数字向量或单变量时间序列;
order 整数向量,为模型的阶数(p,d,q);
seasonal 指定是否为季节模型;fixed指定模型是否为固定模型,若固定参数为0;
xreg 时间序列,向量或回归矩阵;
时间函数time(x,...)
cycle(x,...)
给出时间序列一个周期中的时间点或位置,返回单时间序列或其他对象;
x 一个时间序列对象;
时间函数ar(x,aic=TRUE,order.max=NULL,method=c(“yule- walker”,“burg”,“ols”,
“mle”,“yw”),na.action=na.fail,series=deparse (substitute(x)),...)
适合时间序列的自回归模型,能将自回归模型拟合为时间序列;
参数说明:
x:从“ts”类继承的单变量或多变量时间序列;
order.max:自回归的最大顺序适合时间序列;
na.action:处理缺失值的函数。
本发明的有益效果在于,互联网时代,大数据发展得如火如荼,数据和信息量以指数方式上升,人们对数据进行更高层次的分析,进而更好地加以利用。云计算的分布式存储和计算能力提供了技术支撑;而大数据的核心是数据处理,数据挖掘技术成为高效利用数据、发现价值的核心技术。熟练掌握大数据分析工具,善于运用大数据分析结果结合企业的销售和运营管理实践是新的要求。大数据的分析训练平台是最新一代的大数据分析软件,能够对多种类型数据进行快速分析和处理,可以满足不同性质的管理和研发流程中对大量数据的分析和决策要求。其最大的特点是通过多种动态的图形和筛选条件,快速对大量的数据进行分析和处理,能够生成包括柱状图、曲线图、饼图、散点图、组合图、地图、树形图、热图、箱形图、汇总表和交叉表等多种展现形式,且所有的图形都能提供众多的数据分析维度,支持多种客户端界面和Web界面的访问和显示。此外,该平台还具有以下特点:
对建立有数据仓库,可充分利用现有的数据仓库;避免已有的IT 投入可以继续产生更大价值;支持大数据量分析;支持按需取数策略;直接加载数据仓库数据,避免重复建模的工作量;提供各种表组件:表、交叉表、图形表、汇总表;提供丰富的图形:条形图、折线图、组合图、饼图、散点图、三维散点图、地图、树形图、热图、平行坐标图、盒须图;提供文本组件;拖放式可视化操作,即时的分析结果显示。此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
具体实施方式
下面通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
本发明提供的一种基于大数据的分析训练平台,其特征在于,包括以下模块:
Web分析服务模块,用于发布和分析结果,基于浏览器的页面设计;
自动化服务组件模块,数据任务的调用与自动更新;
管理和集成服务模块,数据集成、用户管理、分析文件管理、数据源信息管理等集中式部署相关功能;
统计服务模块,提供先进的统计计算引擎与部署管理器;
应用程序数据服务模块,与企业数据源直接集成:SAP R/3、SAP B/W、用友ERP、Oracle EBS、金蝶ERP;
还包括数据抽取转换加载模块;
所述的数据抽取转换加载模块包括平面文件数据处理单元、数据库文件数据加载单元以及创建数据模型单元;
所述的平面文件数据处理单元包括以下步骤:
S1.1:平面txt文件应用
(1)选择“文件”->“添加数据表”->“添加”,进行数据加载;
(2)添加分析文本文件;
(3)打开分析文件;
(4)点击“确定”,导入文本;
S1.2:平面excel文件应用
(1)选择“文件”->“添加数据表”->“添加”,进行数据加载;
(2)添加Excel分析文件;
(3)打开Excel分析文件;
(4)点击“确定”,导入Excel分析文件;
S1.3:转换数据步骤:
(1)选择“文件”—“替换数据表”或选择“插入”—“行”或选择“插入”—“列”;
(2)选择转换方式;
(3)添加数据表时可将多种规范化方法写为表达式或用作转换步骤;
(4)转换可在添加数据的对话框中应用,“添加数据表”对话框、或者从外部数据工具的插入列或行中;单击“转换”—“规范化”—“添加”以显示以下所述的控件;
S1.4:对数据进行预处理,计算列,规范化处理操作;
S1.5:转置数据
(1)选择“转换”—“转置”—“添加”进行数据转置;
(2)行标识符:所选标识列或层级中的每个唯一值会在生成表中形成一行;
(3)列标题:所选类别列或层级中的每个唯一值会对所生成数据表中的每个聚合方法形成一个新行;
(4)值(%V)和聚合方法(%M):从其计算数据值的列。所生成数据表中的值根据列选择器菜单中“聚合”下选择的方法进行计算;
S1.6:逆转置数据
(1)选择“转换”—“逆转置”—“添加”进行数据逆转置;
(2)要通过的列:选定的列,其中包含未经转换而应传输到逆转置数据集的信息;
(3)要转换的列:选定的列,其中包含要合并到单个列中的值。这些列的列名称将用作生成的新类别列中的类别值;
(4)类别列名称:键入一个能够汇总在已选定进行转换的列中所提供的信息的列名称;
(5)值列名称:键入一个能够显示包含在新值列中的信息类型的列名称;
所述的数据库文件数据加载单元包括以下步骤:
S1.7:使用OLE DB打开数据的步骤
(1)选择“文件”->“添加数据表”->“添加”->“其他”-> “数据库”;
(2)在“打开数据库”对话框中,单击以选择“OleDb Data Provider”;
(3)单击“配置”;
S1.8:使用ODBC打开数据的步骤
(1)选择“文件”->“添加数据表”->“添加”->“其他”-> “数据库”;
(2)在“打开数据库”对话框中,单击以选择“Odbc Data Provider”;
(3)单击“配置”。
所述的创建数据模型单元包括以下步骤:
S1.9:添加数据连接
S1.91:在库中添加数据源的步骤:
(1)在菜单栏单击“工具”选择“管理数据连接”选项,弹出“管理数据连接”对话框;
(2)选择“添加新”的“数据源”选项,从列表中选择数据源类型。
(3)根据所选的数据源类型,填写相应信息,连接至数据源,选择数据库并“确定”;
(4)在“数据源对话框”中添加“说明”可选填;
(5)点击“保存”将显示“另存为库项目”对话框;
(6)将新建数据源保存在库中指定位置。
S1.92:在库中添加数据连接的步骤:
(1)在菜单栏单击“工具”选择“管理数据连接”选项;
(2)选择“添加新项目”的“数据连接”选项,从列表中选择“库中数据的源连接”选项;
(3)根据所选的数据连接类型,填写相应信息,连接至数据源,选择数据库并“确定”,弹出“连接中的视图”对话框;
(4)在“数据库中的可用表”列表中,双击在大数据的分析训练平台中使用的表;
(5)完成后,单击“确定”;弹出“数据连接设置”对话框;所添加的数据表会显示在“数据表视图”列表中;
(6)在“连接说明”框内输入连接说明,方便其他用户了解使用;
(7)单击“保存”将数据连接保存在库中指定位置;
S1.10:在分析中使用数据连接
(1)单击“文件”中选择“添加数据表”选项,弹出“添加数据表”对话框;
(2)单击“添加”连接至“库中的数据连接”选项,弹出“选择数据连接”对话框;
(3)在库中选择你要使用的数据连接,并“确定”;
(4)在“添加数据表”对话框中,通过选中复选框,选择要将数据连接中的哪些视图添加为新数据表;
(5)选择“加载方法”以及“导入数据表”还是“将数据表保留在外”,也可指定是否按需加载数据;
(6)点击“确定”;
S1.10:数据连接的编辑
S1.101在库中编辑数据连接:
(1)选择“工具”单击“管理数据连接”;
(2)选择你要编辑的数据连接,然后单击“编辑”;将显示“数据连接设置”对话框;
(3)做出更改并保存数据连接;
S1.102在库中编辑数据源:
(1)选择“工具”单击“管理数据连接”;
(2)选择你要编辑的数据源,然后单击“编辑”将显示“数据源设置”对话框;
(3)做出更改并保存数据源;
S1.11:自定义查询
(1)使用工具>管理数据连接或文件>添加数据表...创建一个到关系数据库的新数据连接,然后选择必要的内容,直到显示“连接中的视图”对话框;
(2)在“连接中的视图”对话框中,选择“自定义查询”>“新建自定义查询”;
(3)在“自定义查询”中键入查询名称;
(4)使用所选数据库的语言键入查询;
(5)单击验证;
(6)浏览结果列,确保列出所需的所有结果列,并确保它们具有正确的数据类型;
(7)单击“确定”;
S1.12:创建数据表关系
用于数据连接中建立数据表之间的关系;当数据表之间存在关系,通过关系建立数据模型;
S1.121数据表“关系”的创建:
(1)在“连接中的视图”中,选择建立“关系”的数据表;
(2)选择“关系”->“新建关系”建立关系;
(3)单击“确定”;
S1.122表“关系”的查看:
加号表示该表已与数据库中的其他表建立了一种或多种结构关系,若要查看关系结构,单击加号以展开视图;
还包括大数据挖掘模块,所述的大数据挖掘模块包括:
主成分分析函数prcomp(x,...)
prcomp.default(x,retx=TRUE,center=TRUE,scale.=FALSE, tol=NULL,...)
参数说明:
x 默认指定用来分析的数值型或复数矩阵;
retx 逻辑变量,指定是否返回旋转变量;
center 逻辑变量,指定是否将变量中心化;
scale.逻辑变量,指定是否将变量标准化;
tol 数值型变量,用来指定精度,小于该数值的值将被忽略;
主成分分析是指将多指标化为少数几个综合指标的一种统计分析方法,生成的主成分能够反映原始变量的绝大多数信息,通常为原始变量的线性组合;
主成分信息查询函数summary.aov(object,intercept=FALSE, split,expand.split=TRUE,keep.zero.df=TRUE,...);
summary 函数可提取主成分信息,提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计;
参数说明:
object:继承自类avo的模型对象;
Intercept:此选项仅适用于单层模型.默认情况下。intercept= FALSE
expand.split:是否在层级中继续使用;
expand.split=TRUE
keep.zero.df:是否保留原有的数据长度;
线性最小二乘拟合l sfit(x,y,wt=NULL,intercept=T,tolerance =1.e-07,yname=NULL)
适合加权最小二乘法多元回归;返回了解释变量矩阵的估计系数和残差以及QR分解的列表;
参数说明:
x 向量或解释变量矩阵;
y 响应变量可以是一个矩阵;
wt 可选参数,加权最小二乘法的执行权重向量;
intercept 是否应使用截距项;
tolerance 公差将用于在矩阵分解;
yname 用于响应变量的名称;
因子分析factanal(x,factors,data=NULL,covmat=NULL, n.obs=NA,subset,na.action,start=NULL,scores=c("none", "regression","Bartlett"),rotation="varimax",control= NULL,...)
factanal 函数可以从样本,样本方差矩阵或样本相关矩阵出发对数据做因子分析;
参数说明:
x 是由数据构成的矩阵或者数据框。
factors 是因子的个数;
data 数据帧或矩阵,这仅在x是公式时使用;
covmat 是样本的协方差矩阵或样本的相关矩阵;
x.scores 表示因子得分的方法。rotation表示旋转,使用的旋转函数的名称;
主成分分析预测函数predict.prcomp(object,newdata,...)
通过主成分分析的预测模型,对数据进行预测处理;
参数说明:
object:类prcomp的对象;
newdata:用来分析的数据矩阵或数值;
方差分析计算aov(formula,data=NULL,projections=FALSE, qr=TRUE,contrasts=NULL,...)
指定模型的方差分析的类“aov”,进行拟合差异模型分析;
参数说明:
formula 表示方差分析的公式,在单因素方差分析中即为x~A;
data 表示做方差分析的数据框;
projections 为逻辑值,表示是否返回预测结果;
qr 为逻辑标志,表示是否返回正交分解;
回归预测函数lm(formula,data,weights,subset,na.action, method="qr",model=FALSE,x=FALSE,y=FALSE,contrasts= NULL,...)
lm()函数能返回拟合的结果,它可以用来进行回归,单地层分析,方差和协方差分析;
参数介绍:
Formula 一种拟合模型;
Data 一个可选的数据框,列表;
Subset 选取的观测值的子集;
model,x,y,qr 逻辑值,拟合对象的模型组件中返回模型框架,矩阵,响应及矩阵的QR分解;
分层聚类函数hclust(d,method="complete",members=NULL)
hclust能在距离或相似性结构上执行层次聚类;
参数说明:
d 表示距离结构或距离矩阵;
method 提供聚类方法的字符串;
complete 最长距离法;
members 为NULL或d长度的矢量,默认值是所有元素的值都是1;
K 均值聚类kmeans(x,centers,iter.max=10,nstart=1, algorithm=c())
K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小;
参数说明:
x 是由数据构成的矩阵或者数据框;
centers 是聚类的个数或者是初始类的中心;
iter.max 最大迭代次数缺省时为10;
nstart 随机集合的个数。
algorithm 指定用于聚类计算的算法;
关联分析函数confint(object,parm,level=0.95,...)
confint 函数能获取模型参数的置信区间;
参数说明:
object 适合的模型;
parm 字符串向量,指所求区间估计的参数;
level 表示置信区间的置信水平必须介于0和1之间;
ARIMA时间序列建模函数arima(x,order=c(0,0,0),seasonal =list(order=c(0,0,0),period=NA),xreg=NULL,include.mean =TRUE,transform.pars=TRUE,fixed=NULL,init=NULL,method =c("CSS-ML","ML","CSS"),n.cond,optim.method="BFGS", optim.control=list(),kappa=1e+06)
ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型;
参数说明:
x 数字向量或单变量时间序列;
order 整数向量,为模型的阶数(p,d,q);
seasonal 指定是否为季节模型;fixed指定模型是否为固定模型,若固定参数为0;
xreg 时间序列,向量或回归矩阵;
时间函数time(x,...)
cycle(x,...)
给出时间序列一个周期中的时间点或位置,返回单时间序列或其他。