一种商业智能云计算系统的构建方法

文档序号:6517387阅读:213来源:国知局
一种商业智能云计算系统的构建方法
【专利摘要】本发明为一种商业智能云计算的系统构建方法。系统主要包括“数据检查模块”、“变量分析模块”和“算法通用程序模块”;用户通过浏览器进入WebServer或应用程序连接APPServer,选择算法、按规定格式提交数据;“数据检查模块”对用户提交的数据进行检查;“变量分析模块”根据用户选择的算法和对数据格式的要求,对用户提交的数据进行分析确定变量参数;“算法通用程序模块”根据所确定的变量参数自动建立数学模型进行计算。采用本发明构建的商业智能云计算系统,只要知道数据挖掘的算法能够做什么,按要求提交数据,系统就可自动建立数学模型进行计算,也可以直接嵌入到应用程序中进行数据挖掘,实现数据挖掘与应用程序的无缝衔接,便于应用和普及。
【专利说明】一种商业智能云计算系统的构建方法
【技术领域】
[0001]本发明涉及一种商业智能云计算系统的构建方法,属于大数据、商业智能、数据挖掘和云计算领域。
【背景技术】
[0002]大数据的价值在于蕴藏在数据中的知识,如何从数据中挖掘知识是大数据、商业智能的核心。目前虽有SAS、SPSS、MATLAB等系统可进行数据挖掘,但存在非专业人员难以使用、不容易嵌入用户的应用程序等问题,不仅需要用户掌握数据挖掘数学理论,还要输入变量描述和一定的数学表达式,甚至要掌握专门的语言(如:R语言等)。

【发明内容】

[0003]为解决上述问题,本发明提出了一种商业智能云计算系统的构建方法,用本发明构建的系统,无需用户掌握数据挖掘理论、输入数学表达式、变量描述,也无需用户学习专门的语言,只要用户知道系统包含的算法能做什么、选择算法、按规定提交数据,系统就可自动分析变量、建立数学模型进行计算,便于数据挖掘技术的普及和应用,并且可以很容易嵌入应用程序,实现数据挖掘与应用程序的无缝衔接。
[0004]本发明的目的是通过下述技术方案实现的:一种商业智能云计算系统的构建方法,在Internet或LAN上建立一个Web Server或APP Server,其特征在于:
[0005]系统主要包括“数据检查模块”、“变量分析模块”和“算法通用程序模块”;
[0006]“数据检查模块”用于检查数据,根据用户选择的算法和算法对数据格式的要求,对用户提交的数据,是否符合算法规定的数据格式进行检查;
[0007]“变量分析模块”用于分析数据确定变量,根据用户选择的算法和算法对数据格式的要求对用户提交的数据进行分析,确定有多少个变量、变量的性质和变量的取值范围等变量参数;
[0008]“算法通用程序模块”用于自动建立数学模型和计算,模块中为若干编写好的算法通用程序,但不确定有多少个变量、变量的性质和变量的取值范围等变量参数,也不确定具体的数学模型,只有算法流程,根据“变量分析模块”所确定的变量参数,系统自动建立数学模型进行计算;
[0009]系统流程为:用户通过浏览器进入Web Server或应用程序连接APP Server,选择算法、按算法规定的数据格式提交数据,“数据检查模块”对用户提交的数据进行检查,“变量分析模块”根据算法和算法对数据格式的要求,对用户提交的数据进行分析、确定变量参数,“算法通用程序模块”根据“变量分析模块”确定的变量参数自动建立数学模型进行计算。[0010]所述的“算法通用程序模块”中包括“分类计算”、“聚类计算”、“PCA计算”、“关联分析计算”、“序列分析计算”和“文本挖掘计算”程序。
[0011]对于“分类计算”程序:如果用户提交TXT数据,系统规定数据格式为:第I行为数据说明项所在行;第I列为“识别ID”,最后一列为“决策变量” D,其余列为m个“条件属性变量” {Cl,C2,...,Ci,..., Cm},字符串之间用空格、逗号、Tab等分隔符分开;“变量分析模块”以此来确定变量名、取值范围等变量参数,“算法通用程序模块”以此来构建数学模型进行计算。
[0012]对于“分类计算”程序:如果数据存放在数据库中,系统规定提交数据格式为:包括I个“识别ID”、I个“决策变量”和m个“条件属性变量” {Cl, C2,...,Ci,...,Cm}变量;每行为一个变量说明,行中说明“变量属性”、“变量名”、“数据库表名”和“字段名”;“变量分析模块”据此确定变量名、组成SQL串,从数据库中查询数据、确定取值范围等变量参数;“算法通用程序模块”以此构建数学模型进行计算。
[0013]对于“聚类计算”或“PCA计算”程序:如果用户提交TXT数据,系统规定数据格式为:第I行为数据说明项所在行;第1列为“识别ID”,其余列为m个“属性变量” {A1,A2,...,Ai,..., Am},字符串之间用空格、逗号、Tab等分隔符分开;“变量分析模块”以此来确定变量名等变量参数,“算法通用程序模块”以此构建数学模型进行计算。
[0014]对于“聚类计算”或“PCA计算”程序:如果数据存放在数据库中,系统规定提交数据格式为:包括I个“识别ID”和m个“属性变量” {Al,A2,...,Ai,...,Am};每行为一个变量说明,行中说明“变量属性”、“变量名”、“数据库表名”和“字段名”;“变量分析模块”据此确定变量名、组成SQL串,从数据库中查询数据、确定变量名等变量参数;“算法通用程序模块”以此构建数学模型进行计算。
[0015]对于“关联分析计算”或“序列分析计算”程序:如果用户提交TXT数据,系统规定数据格式为:从第I行起全部为数据;第I列为“识别ID”,其余列为“事物或商品”,字符串之间用空格、逗号、Tab等分隔符分开;每条记录的列数可以不相同;“变量分析模块”以此来确定变量名等变量参数,“算法通用程序模块”以此来构建数学模型进行计算。
[0016]对于“关联分析计算”或“序列分析计算”程序:如果数据存放在数据库中,系统规定提交数据格式为:包括“识别ID”和“事物或商品”两种类型变量;每行为一个变量说明,包括“变量属性”、“变量名”、“数据库表名”和“字段名”;“变量分析模块”据此确定变量名、组成SQL串,从数据库中查询数据、确定变量名等变量参数;“算法通用程序模块”以此来构建数学模型进行计算。
[0017]对于“文本挖掘计算”程序:用户选择某一 “文本挖掘”算法,提交一组文本、选择文本代表词数量;“变量分析模块”根据数据格式规定来确定文本数量和算法需要的变量参数;“算法通用程序模块”以此来构建数学模型进行计算。
[0018]本发明与现有技术相比,具有如下优点:
[0019]1、无需用户掌握分类、聚类、文本挖掘等涉及的数学理论和算法知识,只要知道分类、聚类、文本挖掘能够做什么,选择算法并按规定提交数据,系统就可以根据用户选择的算法和提交的数据进行计算,便于非数据挖掘专业人员使用。
[0020]2、不需要用户定义变量、说明变量的数量和取值范围,只需按规定提供数据,系统就可以自动确定变量数量、名称和取值范围,根据用户所选择的算法,自动建立数学模型进行挖掘计算。
[0021]3、任何人只要通过Internet登录本发明所构建的云计算系统webServer,或通过应用程序连接到APP Server,就可以进行商业智能云计算。[0022]4、很容易嵌入到应用程序中,应用程序向APP Server提交数据,从大数据中发现知识,实现数据挖掘与应用程序的无缝衔接。
【具体实施方式】
[0023]在Internet 或 LAN 上建立一个 Web Server 或 APP Server。
[0024]系统构成及作用:
[0025]系统主要由3个程序模块组成:
[0026]模块1:数据检查模块
[0027]模块中为数据检查程序,用于检查数据,根据用户选择的算法和算法对数据格式的要求,对用户提交的数据,是否符合算法规定的数据格式进行检查。
[0028]模块2:数据分析模块
[0029]模块中为数据分析程序,用于分析数据确定变量,根据用户选择的算法和算法对数据格式的要求对用户提交的数据进行分析,确定有多少个变量、变量的性质和变量的取值范围等变量参数,“模块3”据此来建立数学模型进行计算。
[0030]模块3:算法通用程序模块
[0031]模块中为算法通用程序,用于自动建立数学模型和计算,模块中为若干编写好的算法通用程序,但不确定有多少个变量、变量的性质和变量的取值范围等变量参数,也不确定具体的数学模型,只有算法流程,“模块3”根据“模块2”所确定的变量参数,自动建立数学模型进行计算。
[0032]系统还有其他辅助程序,如:计算结果显示模块,应用程序接口等。
[0033]系统工作流程:
[0034]步骤一、用户选择算法,按算法对数据的规定格式提交数据;
[0035]步骤二、“模块I”对用户选择的算法和提交的数据进行检查,如果不符合要求,返回错误信息,否则,调用“模块2” ;
[0036]步骤三、“模块2”根据用户选择的算法和数据格式要求,对用户提交的数据进行分析,确定变量的数量和变量的取值范围,调用“模块3” ;
[0037]步骤四、“模块3”根据“模块2”确定的变量参数来建立具体数学模型、分配存储单元,相应的算法通用程序进行计算。
[0038]各种算法的具体实施方法:
[0039]一、分类算法
[0040]分类属于计算机学习范畴,现有很多分类算法,如:贝叶斯分类、ID3分类、粗糙集分类等。分类要解决的问题是:设有一样本集,包括η条已知分类标签的记录,每条记录包含I个“识别ID”、m个“条件属性变量” (C1,C2,...,Ci,...,Cm)和I个“决策变量”D,每个“条件属性变量” Ci和“决策变量” D有若干个取值。每条记录为一个事例,记录当m个“条件属性变量” Ci取值一定时,“决策变量” D的取值。
[0041]分类的目的是,从样本集中挖掘出分类规则:即,“条件属性变量” Ci与“决策变量"D的函数关系f (C)=D,利用函数关系确定:当给定m个Ci的取值时,D的取值或概率。
[0042]无论采用哪种分类算法,都需要事先确定“条件属性变量” Ci的数量m、变量名和取值范围,“决策变量”D的变量名和取值范围,这样才可以建立具体的数学模型进行计算。[0043]本发明通过如下方法来自动分析变量数量和取值范围,自动构建分类数学模型进行计算。
[0044](一)、数据格式规定
[0045]用户可提交TXT或数据库两种数据:
[0046]1、TXT数据格式规定
[0047](I)要求为TXT数据;
[0048](2)包括η条记录,每行为一条记录;
[0049](3)每条记录由I个“识别ID,,、m个“条件属性变量Ci” {Cl,C2,...,Ci,…,Cm}和I个“决策变量” D组成;
[0050](4)文本的第I行为数据说明项所在行;
[0051](5)第I列为“识别ID”,最后I列为“决策变量D”所在列,其余列为“条件属性变量” Ci ;
[0052](6)字符串用空格、逗号、Tab等分隔符分开。
[0053]如用户提交数据为:
[0054]记录号年龄收入学生否信誉购买
[0055]I<=30 高 N差 N
[0056]2<=30 高 N好 N
[0057]根据权利要求3限定,系统对数据解析为--第I行为数据说明项,第2、3行为数据,第I列为“识别ID”(“记录号”),最后一列为“决策变量”(“购买”),其余2、3、4、5列为“条件属性变量”(“年龄”、“收入”、“学生否”、“信誉”)。
[0058]本发明不限于上述方法,还可以其他形式规定TXT数据格式,系统根据具体实施数据规定对数据进行解析。
[0059]2、存放在数据库中的数据格式规定
[0060](I)包括I个“识别ID”、m个“条件属性变量Ci” {Cl,C2,…,Ci,…,Cm}和I个“决策变量”D,三种类型变量;
[0061](2)每行为一个变量说明,有4个数据描述项:
[0062]“变量属性”:“识别ID”、“条件属性变量”、“决策变量”;
[0063]“变量名”:显示时的变量名;
[0064]“数据库表名”:数据存放在数据库的哪个表中;
[0065]“字段名”:数据库表中的字段名。
[0066](3)每个数据说明项用尖括号“〈>”扩起来,形式如下:
[0067]<变量属性 >,< 变量名 >,< 数据库表名 >,< 字段名>
[0068]如:“〈识别ID>,〈记录号 >,〈表l>,〈ReCID>”,根据权利要求4限定,系统对数据解析为:
[0069]“变量属性”为:“识别ID”,
[0070]“变量名”为:“记录号”,
[0071]“数据库表名”为:“表1”,
[0072]“字段名”为:“ReCID”。
[0073]如:“〈条件属性变量 >,〈年龄 >,〈表l>,〈Age>”,根据权利要求4限定,系统对数据解析为:
[0074]变量属性为:“条件属性变量”,
[0075]变量名为:“年龄”,
[0076]数据存放在数据库的“表1”中,
[0077]字段名为“Age”。
[0078]如:“〈决策变量 >,〈购买否 >,〈表1>,〈Buy〉”,根据权利要求4限定,系统对数据解析为:
[0079]变量属性为:“决策变量”,
[0080]变量名为:“购买否”,
[0081]数据存放在数据库的“表1”中,
[0082]字段名为“Buy”。
[0083]本发明不限于上述方法,还可以其他形式规定存放在数据库中的数据格式,系统根据具体实施数据规定对数据进行解析。
[0084](二 )、系统运行具体实施方法
[0085]用户可登录Web Server或通过应用程序连接APP Server。
[0086]1、登录 Web Server 使用
[0087](I)用户提交数据
[0088]用户通过浏览器登录Web Server,选择分类算法,根据算法对数据格式规定的要求提交数据,说明提交的数据是TXT还是存放在数据库中,系统调用“模块I”。
[0089](2)检查数据
[0090]“模块I”根据用户选择的算法和数据格式要求,检查数据是否符合规定,如果不符合规定,显示错误信息,否则,调用“模块2”。
[0091](3)分析数据
[0092]A、如果用户提交TXT数据,“模块2”根据用户所选择的算法和数据规定对用户提交的数据进行分析,用数据的第I行来确定Ci和D的所在列、“条件属性变量”Ci的数量m、各Ci的变量名、“决策变量”D的变量名,根据变量的所在列对数据进行统计,得到各变量取值的并集,以此来确定变量的取值范围,调用“模块3”。
[0093]本发明不限于上述数据分析方法,如果规定格式为其他TXT数据格式,应理解可按实际数据格式规定分析数据。
[0094]B、如果数据存放在数据库中,“模块3”根据用户所选择的算法和数据规定对用户提交的数据进行分析,建立数据库连接,组成SQL串,从数据库表中查询出“识别ID”、m个“条件属性变量”以{01,02,...,(^,...,011}和I个“决策变量” D组成记录集Set,统计“条件属性变量Ci ”的数量m,分别统计记录集Set中“条件属性变量” Ci和“决策变量” D取值的并集,以此来确定变量的取值范围,调用“模块3”。
[0095]本发明不限于上述数据分析方法,如果规定格式为其他数据库存放数据格式,应理解可按实际规定格式分析数据。
[0096]( 4 )建立数学模型进行计算
[0097]“模块3”根据“模块2”确定的变量来分配存储单元、建立数学模型,相应的通用算法程序进行计算。[0098]2、应用程序连接APP Server
[0099](I)用户提交数据
[0100]用户通过应用程序连接APP Server,提交算法标识和符合算法规定的数据,说明提交的数据是TXT还是存放在数据库中,调用“模块I” ;
[0101](2)检查数据
[0102]“模块I”根据用户选择的算法和数据格式要求,检查用户提交的数据是否符合规定,如果不符合规定,返回错误信息,否则,调用“模块2” ;
[0103](3)分析数据
[0104]A、如果用户提交TXT数据,“模块2”根据用户所选择的算法和数据规定对用户提交的数据进行分析,用数据的第I行来确定Ci和D的所在列、“条件属性变量”Ci的数量m、各Ci的变量名、“决策变量”D的变量名,根据变量的所在列对数据进行统计,得到各变量取值的并集,以此来确定变量的取值范围,调用“模块3”进行建模、计算。
[0105]本发明不限于上述数据分析方法,如果规定格式为其他TXT数据格式,应理解可按实际数据规定格式分析数据。
[0106]B、如果数据存放在数据库中,“模块2”根据用户所选择的算法和数据规定对用户提交的数据进行分析,建立数据库连接,组成SQL串,从数据库表中查询出“识别ID”、m个“条件属性变量”以{01,02,...,(^,...,011}和I个“决策变量” D组成记录集Set,统计“条件属性变量Ci ”的数量m,分别统计记录集Set中“条件属性变量” Ci和“决策变量” D取值的并集,以此来确定变量的取值范围,调用“模块3”进行建模、计算。
[0107]本发明不限于上述数据分析方法,如果规定格式为其他数据库存放数据格式,应理解可按实际规定格式分析数据。
[0108](4)建立数学模型进行计算
[0109]“模块3”根据“模块2”确定的变量来分配存储单元、建立数学模型,相应的通用算法程序进行计算,将计算结果放在APP Server上,用户应用程序可直接使用计算结果。
[0110]二、“聚类算法”和“PCA算法”
[0111]聚类属于计算机学习范畴,现有很多聚类算法,如:k-meanS算法、模糊聚类、SOM神经网络聚类等。聚类属于“无监督分类”,与分类比较,聚类样本集中的η条记录没有“决策变量” D (分类标签),只有m个“聚类属性变量”(A1,A2,...,Ai,...,Am),由于没有“决策变量” D,因此,不知道每条记录属于哪一分类,所以称“无监督分类”。
[0112]聚类的目的是,根据样本集中η条记录“聚类属性变量”Ai的取值,
[0113]将相似的记录划分到相同的分类,属于相同分类的记录相似性最大,属于不同分类的记录差异最大。
[0114]
“PCXc…事物由多种因素构成,设有η个样本,每`个样本共I = ; A1 …个nXm阶的成分数据矩阵,:*^.1:= >:
[0115]PCA算法的目的是:[0116](I)降低维度
[0117]当矩阵X的维数m较大时,在m维空间中考察问题比较麻烦,需要降低维度,在不影响对事物评价的基础上,选择较少的几个主要指标P (P<m)来代替原来较多的变量指标m0
[0118](2)消除变量间的相关性
[0119]当用多个条件变量描述事物时,变量间将可能具有相关性,既,某些变量间会相互影响,并不能等独立反映事物特征。由于降维是采用一个正交矩阵变换得到的P个综合指标,因此,正交矩阵保证了 P个综合指标的不相关性,变量之间是彼此独立的,消除了原m个指标的相互影响;
[0120](3)分析指标体系中各个指标的对事物的区分性。衡量一个事物好坏由多个指标所决定,但指标对事物的区分性有强弱之分,通过PCA计算,可以分析哪些指标有更好的区分性,哪些指标的区分性较弱。
[0121]由于“聚类”和“PCA”计算对数据要求相同,因此,本发明将其归为一类。
[0122]本发明通过如下方法来自动分析变量、构建“聚类”或“PCA”数学模型进行计算。
[0123](一)、数据格式规定
[0124]用户可提交TXT或数据库两种数据:
[0125]1、TXT数据格式规定
[0126](I)要求为TXT数据;
[0127](2)包括η条记录,每行为一条记录;
[0128](3)每条记录由I个“识别ID”、m个“属性变量” {Al, A2,...,Ai,...,Am}两种
类型的变量组成;
[0129](4)文本的第I行为数据说明项所在行;
[0130](5)第I列为“识别ID”,其余列为“属性变量”Ai ;
[0131](6)字符串用空格、逗号或Tab等分隔符分开。
[0132]如用户提交数据为:
[0133]地区⑶P 固定资产人力资本
[0134]北京2.0576 5.9489 1.360
[0135]天津1.8328 4.0308 1.399
[0136]根据权利要求5限定,系统对数据解析:第I行为数据说明项,第2、3行为数据,第I列为“识别ID”(“地区”),其余第2、3、4列为“属性变量”(“⑶P”、“固定资产”、“人力资本,,)。
[0137]本发明不限于上述方法,还可以其他形式规定TXT数据格式,系统根据具体实施数据规定对数据进行解析。
[0138]2、存放在数据库中的数据格式规定
[0139](I)包括I个“识别ID”和m个“属性变量” {Al,A2,...,Ai,...,Am}两种类型变量;
[0140](2)每行为一个变量说明,有4个数据描述项:
[0141]“变量属性”:“识别ID”、“属性变量”?;
[0142]“变量名”:显示时的变量名;[0143]“数据库表名”:数据存放在数据库的哪个表中;
[0144]“字段名”:数据库表中的字段名。
[0145](3)每个数据说明项用尖括号“〈>”扩起来,形式如下:
[0146]<变量属性 >,< 变量名 >,< 数据库表名 >,< 字段名>
[0147]如:“〈识别ID>, <地区 >,< 表1>,〈Area〉”,根据权利要求6限定,系统对数据解析为:
[0148]变量属性为:“识别ID”,
[0149]变量名为:“地区”,
[0150]数据存放在数据库的“表I”中,
[0151]字段名为“Area”。
[0152]如:“〈属性变量 >,〈产值〉,〈表1>,〈⑶P〉”,根据权利要求6限定,系统对数据解析为:
[0153]变量属性为:“属性变量”,
[0154]变量名为:“产值”,
[0155]数据存放在数据库的“表I”中,
[0156]字段名为“⑶P”。
[0157]本发明不限于上述方法,还可以其他形式规定存放在数据库中的数据格式,系统根据具体实施数据规定对数据进行解析。
[0158](二 )、系统运行具体实施方法
[0159]用户可登录Web Server或通过应用程序连接APP Server。
[0160]1、登录 Web Server
[0161](I)用户提交数据
[0162]用户通过浏览器登录Web Server,选择分类算法,根据算法对数据格式的要求提交数据,说明提交的数据是TXT还是存放在数据库中,系统调用“模块I” ;
[0163](2)检查数据
[0164]“模块I”根据用户选择的算法和数据格式要求,检查数据是否符合规定,如果不符合规定,显示错误信息,否则,调用“模块2” ;
[0165](3)分析数据
[0166]A、如果用户提交TXT数据,“模块2”根据用户所选择的算法和数据规定对数据进行分析,用TXT的第I行来确定“识别ID”、“属性变量”Ai的所在列,“属性变量”Ai的数量m、Ai的变量名,调用“模块3”,进行建模、计算;
[0167]本发明不限于上述数据分析方法,如果规定格式为其他TXT数据格式,应理解可按实际数据规定格式分析数据。
[0168]B、如果数据存放在数据库中,“模块2”根据用户所选择的算法和数据规定对数据进行分析,建立数据库连接,组成SQL串,从数据库表中查询出从数据库表中查询出“识别ID”和“属性变量” Ai组成记录集Set,统计“属性变量” Ai的数量m,调用“模块3”进行建模、计算。
[0169]本发明不限于上述数据分析方法,如果规定格式为其他数据库存放数据格式,应理解可按实际规定格式分析数据。[0170](4)建立数学模型进行计算
[0171]“模块3”根据“模块2”确定的变量来分配存储单元、建立数学模型,相应的通用算法程序进行计算,在浏览器上显示计算结果。
[0172]2、应用程序连接APP Server
[0173](I)用户提交数据
[0174]用户通过应用程序连接APP Server,提交算法标识和符合算法规定的数据,说明提交的数据是TXT还是存放在数据库中,调用“模块I” ;
[0175](2)检查数据
[0176]“模块I”根据用户选择的算法和数据格式要求,检查数据是否符合规定,如果不符合规定,返回错误信息,否则,调用“模块2” ;
[0177](3)分析数据
[0178]A、如果用户提交TXT数据,“模块2”根据用户所选择的算法和数据规定对数据进行分析,用TXT的第I行来确定“识别ID”、“属性变量”Ai的所在列,“属性变量”Ai的数量m、Ai的变量名,调用“模块3”,进行建模、计算;
[0179]本发明不限于上述数据分析方法,如果规定格式为其他TXT数据格式,应理解可按实际规定分析数据。
[0180]B、如果数据存放在数据库中,“模块2”根据用户所选择的算法和数据规定对数据进行分析,建立数据库连接,组成SQL串,从数据库表中查询出“识别ID”和“属性变量”Ai组成记录集Set,统计“属性变量” Ai的数量m,调用“模块3”,进行建模、计算。
[0181]本发明不限于上述数据分析方法,如果规定格式为其他数据库存放数据格式,应理解可按实际规定分析数据。
[0182](4)建立数学模型进行计算
[0183]“模块3”根据“模块2”确定的变量来分配存储单元、建立数学模型,相应的通用算法程序进行计算,将计算结果放在APP Server上,用户应用程序可直接使用计算结果。
[0184]三、“关联分析计算”和“序列分析计算”
[0185]“关联”分析计算的目的是,一个“事物(或交易)”记录由多个“事件(或交易)”构成,通过对记录的统计分析,发现“事件(或交易)”的“关联”规律。
[0186]“序列”分析计算的目的是,通过对记录的统计分析,发现“事件(或交易)”先后顺序的“序列”规律。
[0187]本发明通过如下方法来自动分析变量、构建数学模型进行计算。
[0188](一)、数据格式规定
[0189]用户可提交TXT或数据库两种数据:
[0190]1、TXT数据格式规定
[0191](I)要求为TXT数据;
[0192](2)包括η条记录,每行为一条记录;
[0193](3)从第I行起全部为数据;
[0194](4)列与列之间用空格、逗号或Tab等分隔符分开;
[0195](5)每行包括“识别ID”和“事件(或商品)”两种类型变量,第I列为“识别ID”,其余列为“事件(或商品)”;[0196](6)每条记录的列数可以不相同。
[0197]如用户提交数据为:
[0198]Tl 牛奶、面包
[0199]T2 牛奶、面包、纯净水
[0200]T3 牛奶、纯净水
[0201]根据权利要求7限定进行解析:第I列为“识别ID”(Tl,T2,T3),第2列及以后的列为“事件(或商品)”。
[0202]本发明不限于上述方法,还可以其他形式规定TXT数据格式,系统根据具体实施数据规定对数据进行解析。
[0203]2、存放在数据库中的数据格式规定
[0204](I)包括“识别ID”和“事件(或商品)”两种类型变量;
[0205](2)每行为一个变量说明,有4个数据描述项:
[0206]“变量属性”:“识别ID”、“事件(或商品)”?;
[0207]“变量名”:显示时的变量名;
[0208]“数据库表名”:数据存放在数据库的哪个表中;
[0209]“字段名”:数据库表中的字段名。
[0210](3)每个数据说明项用尖括号“〈>”扩起来,形式如下:
[0211]<变量属性 >,< 变量名 >,< 数据库表名 >,< 字段名>
[0212]如:“〈识别ID>,<交易记录 >,< 表1>,<T>”,根据权利要求8限定对数据进行解析为:
[0213]变量属性为:“识别ID”,
[0214]变量名为:“交易记录”,
[0215]数据存放在数据库的“表I”中,
[0216]字段名为“Τ”。
[0217]如:“〈事件(或商品)>,〈购买商品 >,〈表1>,〈Goods〉”,根据权利要求8限定对数据进行解析为:
[0218]变量属性为:“事件(或商品)”,
[0219]变量名为:“购买商品”,
[0220]数据存放在数据库的“表I”中,
[0221]字段名为“Goods”。
[0222]本发明不限于上述方法,还可以其他形式规定存放在数据库中的数据格式,系统根据具体实施数据规定对数据进行解析。
[0223](二 )、系统运行具体实施方法
[0224]用户可登录Web Server或通过应用程序连接APP Server。
[0225]1、登录 Web Server
[0226](I)用户提交数据
[0227]用户通过浏览器登录Web Server,选择“关联”或“序列”算法,根据算法对数据格式的要求提交数据,说明提交的数据是TXT还是存放在数据库中,调用“模块2” ;
[0228](2)检查数据[0229]“模块I”根据算法对数据的要求,检查用户提交的数据是否符合规定,如果不符合规定,显示错误信息,否则,调用“模块2” ;
[0230](3)分析数据
[0231]A、如果用户提交TXT数据,“模块2”根据算法对数据格式的规定分析数据,确定“识别ID”,“事件(或商品)”的所在列,“事件(或商品)”的数量,调用“模块3”,进行建模、计算;
[0232]本发明不限于上述数据分析方法,如果规定格式为其他TXT数据格式,应理解可按实际数据规定格式分析数据。
[0233]B、如果数据存放在数据库中,“模块2”根据用户所选择的算法和数据规定对数据进行分析,建立数据库连接,组成SQL串,从数据库表中查询出“识别ID”和“事件(或商品)”组成记录集Set,其中只有两个字段,第I个字段为“识别ID”,第2个字段为“事件(或商品)”,调用“模块3”,进行建模、计算。
[0234]本发明不限于上述数据分析方法,如果规定格式为其他数据库存放数据格式,应理解可按实际规定格式分析数据。
[0235]( 4 )建立数学模型进行计算
[0236]“模块3”根据“模块2”确定的变量来分配存储单元、建立数学模型,通用的算法程序进行计算。
[0237]2、应用程序连接APP Server
[0238](I)用户提交数据
[0239]用户通过应用程序连接APP Server,提交算法标识和符合算法规定的数据,说明提交的数据是TXT还是存放在数据库中,调用“模块I” ;
[0240](2)检查数据
[0241]“模块I”根据算法对数据的规定,检查数据是否符合规定,如果不符合算法对数据的规定,返回错误信息,否则“模块2” ;
[0242](3)分析数据
[0243]A、如果用户提交TXT数据,“模块2”根据算法对数据格式的规定分析数据,确定“识别ID”、“事件(或商品)”的所在列,“事件(或商品)”的数量,调用“模块3”,进行建模、计算;
[0244]本发明不限于上述数据分析方法,如果规定格式为其他TXT数据格式,应理解可按实际数据规定格式分析数据。
[0245]B、如果数据存放在数据库中,“模块2”根据用户所选择的算法和数据规定对数据进行分析,建立数据库连接,组成SQL串,从数据库表中查询出“识别ID”和“事件(或商品)”组成记录集Set,其中只有两个字段,第I个字段为“识别ID”,第2个字段为“事件(或商品)”,调用“模块3”,进行建模、计算。
[0246]本发明不限于上述数据分析方法,如果规定格式为其他数据库存放数据格式,应理解可按实际规定格式分析数据。
[0247]( 4 )建立数学模型进行计算
[0248]“模块3”根据“模块2”确定的变量来分配存储单元、建立数学模型,通用算法程序进行计算,将计算结果放在APP Server上,用户应用程序可直接使用计算结果。[0249]四、文本挖掘
[0250]所谓“文本”为一篇有内容的文字串序列数据,包括网页、Word等电子文档。“文本挖掘”属于计算机学习范畴,目前主要有文本挖掘有:文本分类、文本聚类和文本内容相似
度计算等。
[0251]本发明通过如下方法来自动分析变量、构建“文本挖掘”数学模型进行计算。
[0252](一)、数据格式规定
[0253]( I) 一组文本数据文件;
[0254](2) “代表词组”中词的数量,所谓“代表词组”为一组权重最大的词,用该词组来代表文档所表述的内容。
[0255](二 )、系统运行具体实施方法
[0256]用户可登录Web Server或通过应用程序连接APP Server。
[0257]1、登录 Web Server
[0258](I)用户通过浏览器登录Web Server,选择某一“文本挖掘”算法,提交一组文本,选择确定“代表词组”中词的数量,调用“模块I” ;
[0259](2) “模块I”检查用户提交数据的数据是否符合规定,如果不符合规定,显示错误信息,否则调用“模块2”;
[0260](3) “模块2”根据“文本挖掘”计算的数据格式规定分析数据,确定的文本数量和“代表词组”中词的数量,调用“模块3”,进行建模、计算;
[0261](4) “模块3”根据“模块2”确定的变量来分配存储单元、建立数学模型,算法通用程序进行计算。
[0262]2、应用程序连接APP Server
[0263](I)用户通过应用程序连接APP Server,提交算法标识和符合算法规定的数据,调用“模块I”;
[0264](2) “模块I”检查用户提交数据的数据是否符合规定,如果不符合规定,显示错误信息,否则调用“模块2”;
[0265](3) “模块2”根据“文本挖掘”计算的数据格式规定分析数据,确定文本的数量和“代表词组”中词的数量,调用“模块3” ;
[0266](4) “模块3”根据“模块2”确定的变量来分配存储单元、建立数学模型,算法通用程序进行计算,将计算结果放在APP Server上,用户应用程序可直接使用计算结果。
[0267]实施例1
[0268]如有分类问题:对顾客购买商品行为进行贝叶斯分类计算,挖掘不同类型顾客购买行为的概率规则。具体实施方法为:
[0269]1、选择算法
[0270]用户登录网站,选择贝叶斯分类算法。
[0271]2、提交数据
[0272]如下“表I”所示,用户按规定提交数据,系统调用“模块I”检查数据的是否符合规定,如果不符合规定,提示错误信息,否则调用“模块2”。
[0273]
【权利要求】
1.一种商业智能云计算系统的构建方法,在Internet或LAN上建立一个Web Server或APP Server,其特征在于: 系统主要包括“数据检查模块”、“变量分析模块”和“算法通用程序模块”; “数据检查模块”用于检查数据,根据用户选择的算法和算法对数据格式的要求,对用户提交的数据,是否符合算法规定的数据格式进行检查; “变量分析模块”用于分析数据确定变量,根据用户选择的算法和算法对数据格式的要求,对用户提交的数据进行分析,确定有多少个变量、变量的性质和变量的取值范围等变量参数; “算法通用程序模块”用于自动建立数学模型和计算,模块中为若干编写好的算法通用程序,但不确定有多少个变量、变量的性质和变量的取值范围等变量参数,也不确定具体的数学模型,只有算法流程,根据“变量分析模块”所确定的变量参数,系统自动建立数学模型进行计算; 系统流程为:用户通过浏览器进入Web Server或应用程序连接APP Server,选择算法、按算法规定的数据格式提交数据,“数据检查模块”对用户提交的数据进行检查,“变量分析模块”根据算法和算法对数据格式的要求,对用户提交的数据进行分析、确定变量参数,“算法通用程序模块”根据“变量分析模块”确定的变量参数自动建立数学模型进行计笪
ο
2.权利要求1所述的一种商业智能云计算系统的构建方法,其特征在于:所述的“算法通用程序模块”中包括“分类计算”、“聚类计算”、“PCA计算”、“关联分析计算”、“序列分析计算”和“文本挖掘计算”程序。
3.权利要求2所述的一种商业智能云计算系统的构建方法,其特征在于:对于“分类计算”程序,如果用户提交TXT数据,系统规定数据格式为:第I行为数据说明项所在行;第I列为“识别ID”,最后一列为“决策变量”D,其余列为m个“条件属性变量” {Cl,C2,…,Ci, -,Cm}字符串之间用空格、逗号、Tab等分隔符分开;“变量分析模块”以此来确定变量名、取值范围等变量参数,“算法通用程序模块”以此来构建数学模型进行计算。
4.权利要求2所述的一种商业智能云计算系统的构建方法,其特征在于:对于“分类计算”程序,如果数据存放在数据库中,系统规定提交数据格式为:包括I个“识别ID”、I个“决策变量”和m个“条件属性变量” {Cl,C2,…,Ci,…,Cm}变量;每行为一个变量说明,行中说明“变量属性”、“变量名”、“数据库表名”和“字段名”;“变量分析模块”据此确定变量名、组成SQL串,从数据库中查询数据、确定取值范围等变量参数;“算法通用程序模块”以此构建数学模型进行计算。
5.根据权利要求2所述的一种商业智能云计算系统的构建方法,其特征在于:对于“聚类计算”或“PCA计算”程序,如果用户提交TXT数据,系统规定数据格式为:第I行为数据说明项所在行;第I列为“识别ID”,其余列为m个“属性变量” {Al,A2,…,Ai,…,Am},字符串之间用空格、逗号、Tab等分隔符分开;“变量分析模块”以此来确定变量名等变量参数,“算法通用程序模块”以此构建数学模型进行计算。
6.根据权利要求2所述的一种商业智能云计算系统的构建方法,其特征在于:对于“聚类计算”或“PCA计算”程序,如果数据存放在数据库中,系统规定提交数据格式为:包括I个“识别ID”和m个“属性变量” {A1,A2,…,Ai,-,Am};每行为一个变量说明,行中说明“变量属性”、“变量名”、“数据库表名”和“字段名”;“变量分析模块”据此确定变量名、组成SQL串,从数据库中查询数据、确定变量名等变量参数;“算法通用程序模块”以此构建数学模型进行计算。
7.根据权利要求2所述的一种商业智能云计算系统的构建方法,其特征在于:对于“关联分析计算”或“序列分析计算”程序,如果用户提交TXT数据,系统规定数据格式为:从第I行起全部为数据;第I列为“识别ID”,其余列为“事物或商品”,字符串之间用空格、逗号、Tab等分隔符分开;每条记录的列数可以不相同;“变量分析模块”以此来确定变量名等变量参数,“算法通用程序模块”以此来构建数学模型进行计算。
8.根据权利要求2所述的一种商业智能云计算系统的构建方法,其特征在于:对于“关联分析计算”或“序列分析计算”程序,如果数据存放在数据库中,系统规定提交数据格式为:包括“识别ID”和“事物或商品”两种类型变量;每行为一个变量说明,包括“变量属性”、“变量名”、“数据库表名”和“字段名”;“变量分析模块”据此确定变量名、组成SQL串,从数据库中查询数据、确定变量名等变量参数;“算法通用程序模块”以此来构建数学模型进行计算。
9.根据权利要求2所述的一种商业智能云计算系统的构建方法:其特征在于:对于“文本挖掘计算”程序,用户选择某一“文本挖掘”算法,提交一组文本、选择文本代表词数量;“变量分析模块”根据数据格式规定来确定文本数量和算法需要的变量参数;“算法通用程序模块”以此来构建数学 模型进行计算。
【文档编号】G06F17/30GK103544299SQ201310530032
【公开日】2014年1月29日 申请日期:2013年10月30日 优先权日:2013年10月30日
【发明者】刘峰 申请人:刘峰
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1