一种iOS设备数据分析系统的制作方法

文档序号:12124785阅读:222来源:国知局
一种iOS设备数据分析系统的制作方法与工艺

本发明涉及数据分析领域,特别涉及一种iOS设备数据分析系统。



背景技术:

在我国,随着移动互联网技术的迅猛发展和广泛应用,移动智能终端设备大量普及于民众,移动应用依托于智能设备每天都产生大量的使用数据。如何有效的使用这些数据,提高移动应用的质量与安全成为一个新的研究方向。

用户信息个性化特征明显,涉及到健康参数、运动情况、饮食习惯等各个方面,借助数据分析、处理整合之后具有很大的商业价值,可供软件开发者应用于医疗、社交、娱乐等多个方面。移动应用的未来发展将围绕如何实现用户数据价值而进行。



技术实现要素:

本发明要解决的技术问题是:提供一种iOS设备数据分析系统,对iOS设备的数据进行分析。

为解决上述问题,本发明采用的技术方案是:一种iOS设备数据分析系统,包括:

均值分析模块,采用一种针对数据呈现正太分布模型的分析方法,对数据进行分析;

线性回归分析模块,采用一种针对呈现线性分布模型的分析方法,对数据进行分析;

逻辑回归分析模块,采用一种针对数据呈现二分类分布的分析方法,对数据进行分析;

聚类分析模块,采用一种针对数据呈现聚合分布的分析方法,对数据进行分析。

具体的,均值分析模块的具体分析步骤包括:

步骤a1:获取可信的原始数据以及待验证的数据;这里用户需要提供数据,其中用户提供的数据需要包含2个部分:1、用户需要提供正确的原始数据,数据必须是可信的且数据量不能太小;2、用户需要提供待验证的数据。待验证的数据没有数据量的限制。

步骤a2:根据可信的原始数据,建立高斯算法模型;

步骤a3:将待验证的数据带入到建立的高斯算法模型中,得出所述待验证的数据的概率,对结果求平均值;

步骤a4:将分析得出的结果输出给用户。

具体的的,线性回归分析模块的具体分析步骤包括:

步骤b1:获取经验数据和待验证的数据;这里用户提供的数据需要包含2个部分:1、用户需要提供正确的原始经验数据,数据必须是可信的且数据量不能太小;2、用户需要提供待验证的数据。待验证的数据没有数据量的限制;

步骤b2:根据经验数据,建立线性回归分析模型;

步骤b3:对建立的线性回归分析模型进行检验;

步骤b4:将待要验证数据源带入到检验后的线性回归分析模型中,求出可决系数;

步骤b5:将分析得出的结果输出给用户。

进一步的,步骤b2首先建立含系数的模型,然后采用最小二乘法和梯度下降法,找到残差最小时的参数值,从而确定模型的系数。

进一步的,步骤b3采用拟和优度检验线性回归分析模型。

具体的,逻辑回归分析模块的具体分析步骤包括:

步骤c1:获取经验数据和待验证的数据;一般是从可信数据库加载经验数据,得到一个可供分析的多维数据集合;

步骤c2:根据经验数据,确定函数形式并训练算法模型,得到回归系数;

步骤c3:检验步骤c2得到的回归系数,若检验结果表明步骤c2的算法模型显著则继续步骤c4,否则返回步骤c2重新训练其他算法模型;

步骤c4:使用步骤c2的算法模型对待验证的数据进行分析,得到相应的分类结果,结果以阈值为界线,大于阈值,则输出结果是,小于阈值,则输出结果否。

进一步的,步骤从c2包括:

c21、将经验数据转换为模型需要的数据格式;

c22、确定逻辑回归模型函数形式;

c23、训练算法,得到回归系数。

进一步的,步骤c23中,训练算法采用梯度上升法得到回归系数。

进一步的,步骤c3使用似然比检验法检验得到的回归系数。

具体的,聚类分析模块的具体分析步骤包括:

步骤d1:获取经验数据与待校验数据,将经验数据与待校验数据据合并,并整理合并后的数据,得到一个可供分析的多维度数据集合;

步骤d2:将整理后的数据通过多次的迭代计算,得到聚类分布模型;

步骤d3:将待校验数据与得到的聚类分布模型进行分析,得到待校验数据之于模型的一个权重值,然后输出结果。

进一步的,步骤d2包括:

d21:计算数据的平均欧式距离,作为初始聚类标准;

d22、根据聚类标准使用快速聚类算法,得到首次聚类分布;

d23、重新计算中心点,不断调用快速聚类算法,最后得到稳定分布。

本发明的有益效果是:本发明主要针对当前iPhone等iOS设备能收集到的用户数据进行本地化分析,在尽可能少的占用主应用程序资源的前提下,在应用后台进行数据分析输出结果。本发明整个数据分析系统,没有涉及到通用的对用户信息的建模分析,对用户不同的行为进行了均值分析,线性回归分析,逻辑回归分析,与聚类分析等进行建模,可以帮助开发人员分析用户数据,从而提供优化服务。

附图说明

图1是数据分析整体结构图;

图2是均值分析流程图;

图3是线性回归分析流程图;

图4是逻辑回归分析流程图;

图5是聚类分析流程图。

具体实施方式

发明采用了多线程,异步并行等多种方式进行分析操作。如图1所示,系统能够进行四种形式的分析,包括四种分析模块:均值分析模块、线性回归分析模块、逻辑回归分析模块、聚类分析模块。每个模块独立承担各自的分析任务,也可以将几种分析模块组合使用,实现某些数据分析的需求。整个系统可以编译成静态库,在其他iPhone应用中使用,实现数据分析的目的。

A.均值分析

均值分析模块主要用来对服从正态分布模型的数据的正确性校验,算法主要采用高斯算法模型进行校验,最后的输出结果时一个介于0到1的概率值,数值越大则正确性越高。分析的过程会依次对输入的数据进行验证从而获取一个概率值,然后对所有的概率值取平均值,获得结果。

B.线性回归分析

线性回归模块主要是用来处理由一组样本数据出发,确定变量之间的数学模型关系式的算法。获取变量的参数主要采用最小二乘法和梯度下降法,整个分析过程是找到残差最小时的参数值。得出参数之后,求出模型,求出此模型的可决系数,可决系数越大说明拟合程度越高,最后输出结果。

C.逻辑回归分析

逻辑回归分析模块主要用来分析得到最新收集到的数据的分类结果。算法使用已知分类结果的经验数据训练模型,采用递度上升法(梯度上升的思想是:要找到某函数的最大值,最好的方法是沿着该函数的梯度方向寻找)得到模型回归系数。最后输出结果为表征新数据所在分类的一个权重值。输于结果一般以0.5为界线分类,选择0.5作为阈值是一般做法,实际应用时特定的情况可以选择不同阈值,如果对正例的判别准确性要求高,可以选择阈值大一些,对正例的召回要求高,则可以选择阈值小一些。

D.聚类分析

聚类分析模块主要用来处理含有定类变量、定量(离散和连续)变量的数据。算法主体采用快速聚类算法,聚类指标使用数据之间欧式距离。最后输出结果为待校验数据所在聚类的一个权重值。整个分析过程是一个寻找稳定聚类分布的过程,模块初始化会定义一个最大运算次数保证最后有稳定分布输出。数据加入聚类分析模块过后会计算一个平均欧式距离作为首次聚类标准,然后用快速聚类算法形成初始聚类。接下来不断重新构建聚类中心与分布,迭代直到得到稳定分布,输出结果。

为使本发明的目的、技术方案和优点更加清楚,下面结合附图2-5对以上四个模块的详细技术实施方案进行说明

一、均值分析流程:

如流程图2所示,包含以下步骤:进入均值分析系统,首先进入S1步骤获取数据源。在S2步骤中根据S1步骤获取的数据建立模型,模型建立成功后在S3步骤中通过模型验证数据。获取数据的结果后在S4步骤中计算S3步骤中获取的值的均值。S5步骤将S4步骤计算的均值输出得到结果。

上述S2步骤包含以下几步骤:

a1、通过获取的可信数据求出期望值,求期望值的公式如下:

E[X]=∫ΩX dP

a2、通过a1步骤求出的期望值和获取的可信数据求出标准差,求标准差的公式如下:

a3、通过a1、a2步骤获取期望值和标准差后就可以建立数据模型,建立模型的公式如下:

二、线性回归分析流程:

如图3所示,包含以下步骤:首先流程开始进入S1步骤传入数据,此数据是从本地沙盒的可信存储空间中获取,然后进入步骤S2,构建数据模型,根据线性分析的数据条件,构建线性回归分析模型,模型构建完成后进入步骤S3,校验模型,若模型误差符合线性规划的误差范围,则利用该模型进行数据分析,进入步骤S4分析数据,并输出结果,若校验出来的数据不符合线性规划模型,则结束流程。

上述步骤S2包含以下子步骤:

b1、建立模型:

模型如下:

Y=β12X+μ

b2、参数估计:

使用最小二乘法对数据进行拟合,为了使总得拟合误差达到最小,可以使用最小二乘法的原则是以“残差平方和最小”确定直线位置。

残差平方和:

b3、求出该模型的系数:

通过Q最小确定这条直线,即确定和以和为变量把它看做Q的函数,就变成了一个求极值的问题,求Q对两个待估参数的偏导数,可以求得两参数为:

所以可得模型为:

若为多元线性回归,则模型可表示为:

Y=β01X12X2+…+βmXm+e

求解过程与一元相似,可先求出偏回归系数,b0,b1,b2,…,bm,求出回归方程如下:

最后对方程进行检验,检验过程与一元类似。

上述步骤S3是对模型检验算法的分析说明如下:

此处采用拟合优度检验,对样本回归直线与样本观测值之间拟合程度的检验。

TSS=RSS+ESS

TSS为总离差平方和,ESS为回归平方和,RSS为残差平方和,在给定样本中,TSS不变,实际观测点离样本回归线越近,则ESS在TSS中占得比重越大,拟合优度就是回归平方和ESS/Y的总离差平方和。

由上述公式计算出可决系数进行模型校验;

上述步骤S4做以下说明:

可决系数的取值范围[0,1]。R2越接近1,拟合优度越高,一般要求R2≥0.7

如果R2≥0.7则说明该模型可靠程度较高,说明该模型符合当前环境,在以后的分析可以使用该模型进行分析。

三、逻辑回归分析流程:

如图4所示,流程包含以下步骤:首先进入S1步骤输入可信数据库中的经验数据,得到一个可供分析的多维数据集合。在步骤S2中根据S1步骤输入的数据确定逻辑回归的函数形式,构建模型,接下来S3步骤检验S2步骤构建的模型,若检验结果表明模型显著则继续S4步骤,否则流程结束。接下来,S4步骤输入新数据得到新数据的分析结果。最后S5步骤将S4得到的分析结果输出得到分类结果。

上述步骤S2包含以下子步骤:

c1、将步骤S1输入的经验数据转换为模型需要的数据格式;

c2、确定函数形式并确定训练算法;

c3、使用训练算法,得到回归系数。

构建模型算法描述如下:

首先,逻辑回归是一种广义的线性回归,因此与多重线性回归形式上基本相同,都具有y=wx+b的形式,区别在于线性回归直接将wx+b作为因变量,而逻辑回归通过一个函数L将wx+b转换为一个隐状态p,即p=L(wx+b),L通常称为sigmod函数,其具有如下形式:

对于S1得到的多维数据:

y(x)=w0+w1x1+w2x2…+wNxN=WTx

p(x)有特殊含义,表示结果取1的概率。

训练算法采用梯度上升算法得到最优回归系数,梯度上升法的思想是:要找到某函数的最大值,最好的方法是沿着该函数的梯度方向寻找。函数f(x,y)的梯度可以表示:

梯度上升算法意味着沿着梯度方向移动,到达每个点后都会重新计算梯度确定移动的方向,如此循环迭代,直到满足停止条件,而迭代的过程中,梯度算子总是保证能选取到最佳的移动方向。梯度算法迭代公式如下:

该公式将一直被迭代执行,直至达到某个停止条件,比如迭代次数达到某个指定值或算法达到某个可以允许的误差范围。

步骤S3所述模型校验算法采用似然比检验(Likelihood ratio test),似然比检验算法思想是:在一个模型里面,含有变量xi和不含有变量xi的对数似然值乘以-2的结果之差,服从χ2分布,这一检验统计量称为似然比检验。

四、聚类分析流程:

如图5所示,流程包含以下步骤:首先进入S1步骤将待校验数据与经验数据整理后传入分析模块。在S2步骤构建聚合,得到稳定的聚类分布,接下来S3步骤计算待校验数据所在聚类的权重。最后将获取到权重在S4步骤输出。至此流程结束。

上述S2步骤包含以下子步骤:

d1、计算输入数据的平均欧式距离,作为初始聚类标准。

d2、根据聚类标准,使用快速聚类算法,得到首次聚类分布。

d3、重新计算中心点然后不断调用快速聚类算法,最后得到稳定的聚类分布。

快速聚类算法描述:

首先根据输入数据计算出一个平均欧式距离,公式如下:

其中n代表数据总数,X,Y…Z为单个数据各个纬度的值,数据可以是多维的。

然后确定首次聚类分布,过程如下:

d21、随机选取一个数据作为初始点,形成一个聚合,此时只包含该初始值。

d22、遍历剩下的数据,求出每个数据与初始点的距离d,如果某个数据的距离则把数据加入到该聚合中。

d23将已加入聚合的数据从原数据集合中删除,如果所有数据都加入了聚合,过程就结束。如果还有数据未加入聚合,就回到步骤d21,重复整个过程。

接下来,计算各个聚合的中心点,计算公式如下;

这里的n代表当前聚合的数据总数,X,Y…Z为单个数据各个纬度的值,数据可以是多维的。

这样就形成了与聚合数量相同k个中心点,然后重新遍历原来所有数据,将数据与k个中心点的距离作比较,将数据加入距离最短的那个中心所在的聚合,这样就形成了一个新的聚类分布。重复最后这两个步骤,直到最后的聚类分布不再改变,就得到稳定的聚类分布。

以上描述了本发明的基本原理和主要的特征,说明书的描述只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1