电信业自动化数据挖掘平台的制作方法

文档序号:6459559阅读:136来源:国知局
专利名称:电信业自动化数据挖掘平台的制作方法
技术领域
本发明涉及数据挖掘技术,特别是涉及一种电信业自动化数据挖掘平台。
背景技术
数据挖掘就是通过分析已经存在数据库中的数据解决问题。数据挖掘被定义为 发现数据模式的过程。这个过程必须是自动化的或者(通常)是半自动化的。被挖掘 出来的规则应该意味着某些方面的优势,特别是经济方面的优势。
很多技术都可以用于数据挖掘。机器学习、模式识别、人工智能等领域的技术、 方法经过改进,大都可以应用于数据挖掘。常用的方法有决策树、粗糙集、神经网 络、遗传算法、概念树等。
数据挖掘平台为集成了数据挖掘整个流程的平台,包括数据源的连接、数据预 处理工具、模型的选取、参数的设置、模型评估以及模型的发布等数据挖掘流程所
必须的步骤。目前在数据挖掘方面的优秀平台SAS、 SPSS CLEMENTINE、 KXEN 等数据挖掘平台软件。
以上所述的数据挖掘平台是通用的数据挖掘平台,不涉及具体的业务领域,各 行业数据挖掘人员必须掌握通用的数据挖掘工具,要对算法有深入的理解,才能建 立较好的业务模型,这增加了数据挖掘的人力成本和财力成本。
另外,数据挖掘工具独立于数据仓库与数据集市之外,例如数据仓库和数据集 市的存储选择ORACLE数据库,而数据挖掘平台选择的是SPSS CLEMENTINE, 两者是两个相对独立的系统。

发明内容
本发明所要解决的技术问题就是为了克服上述现有技术存在的缺陷而提供一 种电信业自动化数据挖掘平台。
本发明的目的可以通过以下技术方案来实现电信业自动化数据挖掘平台,其特征在于,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估 模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接 用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模 型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及 评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型, 并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模 块对业务模型进行发布和部署。 所述的数据准备模块包括
数据迁移单元,用于将不同数据源的数据装载于统一的数据源; 数据探索单元,用于将数据迁移形成的统一数据源进行数据审核,包括数据指 标的统计;
数据准备单元,用于对业务数据进行汇集、排序及编码。 所述的数据指标包括有效值数、缺失值数、最大值、最小值、平均值。 所述的业务模型与数学模型映射模块包括业务模型与数学模型的映射关系,该
映射关系为
客户获取/客户流失模型对应分类模型和回归模型;
客户细分模型对应聚类模型和分类模型;
产品关联分析/套餐定制模型对应关联规则模型;
业务指标预测对应时间序列模型。
所述的自动化建模及评估模块包括
数据预处理自动化单元,用于进行包括自动做BIN、自动处理奇异值和缺失值, 以及自动做数据集的均衡的操作;
数据分割自动化单元,用于将数据集按照一定的比例分割为估计集、验证集和 测试集,估计集进行业务模型的构建,按照不同算法和算法的不同参数,在估计集 上建立多个模型,多个模型放到验证集上进行验证,得到性能最优模型,对于此最 优模型的性能汇报,以此模型在测试集上的性能指标为准;
模型参数选择自动化单元,用于通过"网格搜索"的方式,找到模型的最优参 数设置;
模型解释单元,用于将自动屏蔽模型的算法信息,给出模型的业务解释,显示 模型中的重要变量排名、模型的性能衡量,以及变量的相关信息。所述的模型发布和部署模块包括 模型发布单元,用于提供模型接口给业务系统;
模型部署单元,用于应用模型输出的不同的语言脚本进行预测,将预测结果发 布到业务系统中。
与现有技术相比,本发明建立了一种用于电信行业的自动化数据挖掘平台,使 得业务人员和决策支持人员可以借助此平台建立良好的数据挖掘模型。


图1为本发明的原理图。
具体实施例方式
下面结合附图对本发明作进一步说明。
如图l所示,电信业自动化数据挖掘平台,包括数据准备模块、业务模型与数 学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备 模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和 数据集巿,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相 应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据, 以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优 的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。
所述的数据准备模块包括
数据迁移单元,用于将不同数据源的数据装载于统一的数据源; 数据探索单元,用于将数据迁移形成的统一数据源进行数据审核,包括数据指
标的统计;
数据准备单元,用于对业务数据进行汇集、排序及编码。 所述的数据指标包括有效值数、缺失值数、最大值、最小值、平均值。 所述的业务模型与数学模型映射模块包括业务模型与数学模型的映射关系,该 映射关系为
客户获取/客户流失模型对应分类模型和回归模型; 客户细分模型对应聚类模型和分类模型;
产品关联分析/套餐定制模型对应关联规则模型;业务指标预测对应时间序列模型。 所述的自动化建模及评估模块包括
数据预处理自动化单元,用于进行包括自动做BIN、自动处理奇异值和缺失值, 以及自动做数据集的均衡的操作;
数据分割自动化单元,用于将数据集按照一定的比例分割为估计集、验证集和 测试集,估计集进行业务模型的构建,按照不同算法和算法的不同参数,在估计集 上建立多个模型,多个模型放到验证集上进行验证,得到性能最优模型,对于此最
优模型的性能汇报,以此模型在测试集上的性能指标为准;
模型参数选择自动化单元,用于通过"网格搜索"的方式,找到模型的最优参 数设置;
模型解释单元,用于将自动屏蔽模型的算法信息,给出模型的业务解释,显示 模型中的重要变量排名、模型的性能衡量,以及变量的相关信息。 所述的模型发布和部署模块包括-模型发布单元,用于提供模型接口给业务系统;
模型部署单元,用于应用模型输出的不同的语言脚本进行预测,将预测结果发 布到业务系统中。
数据准备模块,包括数据迁移、数据探索以及数据准备三部分内容,原数据经 过数据准备模块形成可直接用于建模的优质数据,并建成分析型数据集和数据集 市。
所述建立业务模型与数学模型的映射关系和自动化建模及评估模块,包括建立 业务模型与数学模型的映射关系、自动化数据建模及评估、模型解释三部分。
所述模型的发布和部署模块,包括模型的发布和模型的部署两部分内容。
数据迁移是指把不同数据源的数据装载于统一的数据库,在实际的项目当中, 与数据挖掘相关的数据源有时分布在不同的异构的数据库中,我们需要将所需的数 据抽取并装载到统一的数据库中供下一步处理。
数据探索是指对经过数据迁移形成的统一数据源做数据审核,包括一系列的数 据指标的统计,如有效值数、缺失值数、最大值、最小值、平均值等统计指标,通 过数据探索可以对数据质量有清楚的认识。 数据准备包括准备分析型数据集、对交易明细数据进行汇总、对交易明细数据 序列化和文本数据编码。建立业务模型与数学模型的映射关系是把商业需求和数学模型同步统一起来, 每种业务给出对应的数学模型来进行自动化建模。
自动化数据建模及评估过程将采取自动化方式来实现最优模型选取。包括数据 预处理自动化,数据分割自动化,模型参数选择自动化三个部分。
数据预处理的自动化包括自动做BIN操作,自动处理奇异值和缺失值,自动 做数据集的均衡等操作。
数据分割的自动化是数据集按照一定的比例将分割为估计集,验证集和测试 集。估计集进行模型的建立,按照不同算法和算法的不同参数,在估计集上建立多 个模型,然后,多个模型放到验证集上进行验证,得到性能最优模型,对于此最优 模型的性能汇报,以此模型在测试集上的性能指标为准。
模型参数选择自动化是依据"网格搜索"的方式,找到模型的最优参数设置。
模型解释将自动化屏蔽模型的算法信息,给出模型的业务解释,显示模型中的 重要变量排名,模型的性能衡量,变量的相关性信息。
数据挖掘的模型存放于数据仓库,形成统一模型仓库。定义不同数学模型的结 构,以数据表的形式存放于数据仓库。模型能够通过开放的API进行解析。模型 发布就是通过API读取模型本身信息,以图形和文字描述的形式,显示于业务系 统中。
模型能输出成不同的语言脚本(C, JAVA, PERL, SQL等),应用导出语言 进行预测,预测结果发布到业务系统。
权利要求
1.电信业自动化数据挖掘平台,其特征在于,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。
2. 根据权利要求l所述的电信业自动化数据挖掘平台,其特征在于,所述的 数据准备模块包括数据迁移单元,用于将不同数据源的数据装载于统一的数据源;数据探索单元,用于将数据迁移形成的统一数据源进行数据审核,包括数据指标的统计;数据准备单元,用于对业务数据进行汇集、排序及编码。
3. 根据权利要求2所述的电信业自动化数据挖掘平台,其特征在于,所述的 数据指标包括有效值数、缺失值数、最大值、最小值、平均值。
4. 根据权利要求l所述的电信业自动化数据挖掘平台,其特征在于,所述的 业务模型与数学模型映射模块包括业务模型与数学模型的映射关系,该映射关系 为客户获取/客户流失模型对应分类模型和回归模型; 客户细分模型对应聚类模型和分类模型; 产品关联分析/套餐定制模型对应关联规则模型; 业务指标预测对应时间序列模型。
5. 根据权利要求l所述的电信业自动化数据挖掘平台,其特征在于,所述的 自动化建模及评估模块包括数据预处理自动化单元,用于进行包括自动做BIN、自动处理奇异值和缺失值, 以及自动做数据集的均衡的操作;数据分割自动化单元,用于将数据集按照一定的比例分割为估计集、验证集和测试集,估计集进行业务模型的构建,按照不同算法和算法的不同参数,在估计集 上建立多个模型,多个模型放到验证集上进行验证,得到性能最优模型,对于此最 优模型的性能汇报,以此模型在测试集上的性能指标为准;模型参数选择自动化单元,用于通过"网格搜索"的方式,找到模型的最优参 数设置;模型解释单元,用于将自动屏蔽模型的算法信息,给出模型的业务解释,显示 模型中的重要变量排名、模型的性能衡量,以及变量的相关信息。
6.根据权利要求l所述的电信业自动化数据挖掘平台,其特征在于,所述的 模型发布和部署模块包括模型发布单元,用于提供模型接口给业务系统;模型部署单元,用于应用模型输出的不同的语言脚本进行预测,将预测结果发 布到业务系统中。
全文摘要
本发明涉及电信业自动化数据挖掘平台,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。与现有技术相比,本发明建立了一种用于电信行业的自动化数据挖掘平台,使得业务人员和决策支持人员可以借助此平台建立良好的数据挖掘模型。
文档编号G06Q10/00GK101620691SQ20081003988
公开日2010年1月6日 申请日期2008年6月30日 优先权日2008年6月30日
发明者谧 冯 申请人:上海全成通信技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1