一种数据挖掘系统和方法

文档序号:6614672阅读:438来源:国知局
专利名称:一种数据挖掘系统和方法
技术领域
本发明涉及本发明涉及电信行业数据分析和挖掘领域,特别是涉 及一种电信行业专用的数据挖掘系统和方法。
背景技术
数据挖掘技术,是一种新的业务信息处理技术,其主要特点是对业 务数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理, 从中提取辅助业务决策的关键性数据。
随着电信业竟争的加剧,电信企业实现精确化营销十分重要。将数
据挖掘技术运用到电信领域,在发展成熟的电信IT系统中,从客户通 话行为、消费行为以及交互行为等海量数据中,提取和挖掘出隐含的、 有价值的知识,通过客户分群、客户流失预测、产品关联分析等,开展 针对性的营销,意义十分重大。
目前,电信行业开展的数据挖掘项目主要依靠通用型的数据挖掘软 件完成,例如SPSS 7>司的Clementine, SAS ^>司的Enterprise Miner 等。在数据挖掘实施过程中,通常包括的步骤主要有业务理解、数据 理解、数据准备、模型建立、模型评估和模型发布等环节。因此,电信 企业内部人员使用通用数据挖掘工具实施数据挖掘时,需要面临如下问 题
1、 需要精通业务的人员确定业务问题并定义业务问题;
2、 需要业务人员和熟悉系统数据的IT人员确定与业务问题相关的 变量;
3、 需要IT人员从相关系统中抽取、清洗、转换和加载数据;
4、 需要熟悉数据分析和挖掘算法的专业人员进行数据探索、算法
选择、参数调优、模型建立;
5、 需要业务和数据挖掘人员建立模型评估方法,并实施评估;
6、 需要报表开发人员将挖掘结果通过友好、可理解的界面提供给 业务人员使用。
由上可知,实现数据挖掘项目,需要由业务人员、IT人员、数据 分析人员、报表开发人员等组成团队,才能有效地进行实施。因此,当 前各级电信企业开展数据挖掘项目,不得不借助外部咨询公司的力量, 仅依靠电信企业内部人员,难以达到数据挖掘所需的技术门槛。

发明内容
有鉴于此,本发明提出一种数据挖掘系统和方法,方便技术人员 开发数据挖掘项目,降低数据挖掘所需的技术门槛。 基于上述目的本发明提供的数据挖掘系统,包括
业务问题模板管理单元,用于定义业务问题模板;
数据处理单元,用于对原始数据格式的导入和处理,对其中的变量 进行计算或产生新的衍生变量,生成业务问题模板定义的基础变量集的
超集,提供指定数据格式的数据输出;
模型管理单元,用于辅助数据挖掘模型训练、模型的评估、模型的 发布以及才莫型的打分应用;
模型展现单元,用于为最终业务用户提供友好的、业务语言的结果 展现界面。
该系统所述业务问题模板为将业务问题、相关变量、推选算法、优 化参数、模型评估方法、模型结果展现方法作为配置项进行固化。
该系统还包括用户权限管理单元,用于提供系统中的角色、用 户、用户组的定义及各自权限的管理。
该系统还包括数据源,用于存储建^^输入的数据表; 业务问题模板库,用于存储预定义的业务问题模板; 权限数据库,用于存储登录实用软件系统的用户、用户组、角色、 密码等;
模型库,用于存储用于训练的模型,和经过评估后发布应用的模
型,分别对应训练模型库和发布模型库;
输出数据库,用于存储经过模型打分,用于展现的数据表; 模型展现界面,用于展现输出数据,是业务人员浏览输出数据的视窗。
基于上述目的本发明还提供了一种数据挖掘方法,包括 建模人员登录系统,数据挖掘系统提示建模人员选择一个既有的业 务问题模板;
建模人员选择业务问题模板后,数据挖掘系统提示建模人员选择一 个数据表作为数据源,数据挖掘系统将根据业务问题模板中该业务问题 的基础变量集,来验证数据源变量,并完成数据导入和处理;
数据挖掘系统根据业务问题模板中该业务问题的推荐算法集,提示 建模人员选择算法;当选择完算法后,数据挖掘系统根据优化参数集来 配置算法参数;
数据挖掘系统执行算法,建立模型,并保存模型。
所述数据挖掘系统通过调整算法和算法参数建立多个模型;在所 迷建立模型并保存模型后还包括用户从建立的模型中选择待评估模 型,数据挖掘系统将根据业务问题模板中该业务问题的模型评估方法 集,对模型进行评估,给出评价指标;建模人员将评估最优的模型进行 发布。
该方法所述建模人员将评估最优的模型进行发布后还包括业务人 员登录,根据数据挖掘系统的提示选择经过发布的模型,利用该模型对 需要进行判断的数据进行打分;
数据挖掘系统根据业务问题模板中该业务问题的结果展现变量集, 展现相应的输出数据。
从上面所述可以看出,本发明提出的数据挖掘系统和方法,利用 业务问题模板,采用导引方式引导技术人员一步步完成数据挖掘项目的 建立,并辅助数据挖掘模型训练、模型的评估、模型的发布以及模型的 打分应用,从而方便技术人员开发数据挖掘项目,降低数据挖掘所需 的技术门槛。带来了以下有益效果
实现了电信业务问题的自定义,使数据挖掘过程直接从业务视角切
入;
定义了与业务问题相关的参考变量集合,避免了面对IT系统海量 数据无所适从的问题;
定义了解决某业务问题的推选算法和优化参数,降低了使用者在选
择算法和参数时的难度;
定义了某算法模型的评估方法,为使用者评价模型的优劣提供了指
导;
定义了挖掘结果的展示方法和内容,减少了业务人员对挖掘结果的 理解难度。


图l为本发明实施例数据挖掘系统结构示意图; 图2为本发明实施例数据挖掘方法流程示意图。
具体实施例方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例 性实施例。
本发明提出了一种围绕数据挖掘过程模型、基于业务问题模板的数 据挖掘系统。该系统包括业务问题模板管理单元,定义"业务问题才莫 板",将电信行业业务问题、相关变量、推选算法、优化参数、模型评 估方法、模型结果展现方法等作为配置项进行固化;数据处理单元,用 于对原始数据格式的导入和处理,运用多种数学运算或统计算法对其中 的变量进行计算或产生新的衍生变量,生成业务问题模板定义变量的超 集;模型管理单元,用于辅助数据挖掘模型训练、模型的评估、模型的 发布以及模型的打分应用;模型展现单元,用于为最终业务用户提供友 好的、业务语言的结果展现界面;用户权限管理单元,用于提供系统中 的角色、用户、用户组的定义及各自4又限的管理。
参见图1所示,本发明较佳实施例的电信行业专用的数据挖掘系统
主要包括业务问题模板管理单元101、数据处理单元102、模型管理 单元103、模型展现单元104、用户权限管理单元105,这些单元联同数 据源106、业务问题模板库107、权限数据库108、模型库109、输出数 据库110、模型展现界面模块111等设施,共同组成一个开放的、易用 的、完善的能够支撑电信行业数据挖掘系统。其中,
业务问题模板管理单元IOI,用于定义"业务问题模板,,,将电信行 业业务问题、相关变量、推选算法、优化参数、模型评估方法、模型结 果展现方法等作为配置项进行固化。
该单元的业务问题模板逻辑结构包括业务问题模块、变量模块、 算法模块、评估方法模块。这四个模块以业务问题为中心,互相关联, 形成一个模板结构,将电信行业业务问题、相关变量、推选算法、优化 参数、模型评估方法、模型结果展现方法等作为配置项进行固化。
其中,"业务问题模块"以"业务问题类,,和"业务问题研究对 象,,两个维度定义了业务问题。其中,"业务问题类"是一类能够抽象 描述的业务需求,例如细分问题、流失问题、交叉销售问题等,它是 数据挖掘建模选择算法的依据;"业务问题研究对象"是指问题的分析 对象,在电信行业中,可以是某类客户群,如政企客户、个人客户, 也可以是某种电信业务,如PHS、传统长途通话等,它决定了分析数 据的颗粒度。
"变量模块"涉及的"变量集"包括"基础变量集"、"建模变量 集"、"结果展现变量集",分别给出了某一业务问题数据准备过程、建 模过程、模型展现过程的数据格式参考。
"算法模块"示出了表达业务问题算法集和参数集的方法,给出了 某具体业务问题的推选算法和先验的优化参数。
"模型评估模块",针对不同的算法模型,给出了相应的评估方法 和对应的指标参考。
数据处理单元102,用于对原始数据格式的导入和处理,运用多种 数学运算或统计算法对其中的变量进行计算或产生新的衍生变量,生成 业务问题模板定义的基础变量集的超集,也用于提供指定数据格式的数
据输出。其中,超集是在基础变量集的基础上增加的,用于保存扩充的 变量。
该单元用于对原始数据格式的导入和处理,运用多种数学运算或统 计算法对其中的变量进行计算或产生新的衍生变量,生成业务问题模板 定义变量的超集,也用于提供指定数据格式的数据输出。数据处理单元
102主要包括
数据导入模块,用于将数据源中的外部数据格式转为系统识别的数 据格式,生成业务问题模板的基础变量集的超集,使数据能够进入系统 处理的流程;
数据处理模块,用于运用多种数学运算或统计算法对其中的变量进 行计算或产生新的衍生变量,生成业务问题模板的建模变量集的超集;
数据导出模块,用于将输出数据的系统内部格式转换成外部公共格 式,以便数据能够被外部应用使用。
模型管理单元103,用于辅助数据挖掘模型训练、模型的评估、模 型的发布以及;f莫型的打分应用。
该单元用于辅助数据挖掘模型训练、模型的评估、模型的发布以及 模型的打分应用。模型管理单元主要包括
模型训练模块,用于建模训练,如图3所示出模型训练流程主要包 括选择业务问题,选择训练数据源,参照业务问题模板的建模变量集 对训练数据源的变量进行校验,数据探索与变量设置,参照业务问题模 板的算法单元进行算法选择,算法参数设计,运行算法建模训练,将模
型保存到训练模型库;
模型评估模块,用于评估已建的模型,如图3所示出模型评估流程 主要包括读取训练模型库的模型,选择评估数据源,运行算法评估该 模型;
模型发布模块,用于将通过评估准备部署应用的模型从训练模型库 中检出,检入到发布模型库;
模型打分应用模块,用于利用模型产生的规则逻辑对新的尚未识别 的数据进行打分,如图2所示出模型打分应用流程主要包括读取发布
模型库的模型,选择打分应用数据源,运行算法为数据进行打分。
模型展现单元104,用于为最终业务用户提供友好的、业务语言的 结果展现界面。
该单元用于为最终业务用户提供友好的、业务语言的结果展现界
面。模型展现单元主要包括
模型结果展现,用于可视化展现模型的规则和模型的评估指标; 数据结果展现,用于依据业务问厄艮现变量约定212中规定的变量
集对打分应用结果数据进行可视展现。
用户权限管理单元105,用于提供系统中的角色、用户、用户组的
定义及各自权限的管理。
该单元用于提供系统中的角色、用户、用户组的定义及各自权限的
管理。用户权限管理单元主要包括
角色管理,用于定义系统的角色和相应的角色权限; 用户管理,用于定义系统的用户和相应的用户权限; 用户组管理,用于定义系统的用户组和相应的用户组;f又限。 数据源106,用于存储建模输入的数据表。
业务问题模板库107,用于存储预定义的业务问题模板,关于业务 问题模板的逻辑结构,在前述业务问题模板管理单元101功能说明中已 有介绍。
权限数据库108,用于存储登录实用软件系统的用户、用户组、角 色、密码等。
模型库109,用于存储用于训练的模型,和经过评估后发布应用的
模型,分别对应训练模型库和发布模型库。
输出数据库IIO,用于存储经过模型打分,用于展规的数据表。 模型展现界面111,用于展现输出数据,是业务人员浏览输出数据
的视窗。
基于上述系统,本发明数据挖掘方法主要包括,理解业务问题根据 业务问题需求选择算法,数据理解,数据准备,挖掘建模,模型评估, 模型应用等步骤。
以下以一个具体的例子"PHS流失预警问题",结合图1、图3说
明本发明方法的流程
预先通过业务问题才莫板管理单元,将"PHS流失预警问题"相关的
模板内容(包括变量模块、算法模块、模型评估模块)录入到系统中的 业务问题模板库中。
步骤p0~pl,建模人员登录系统,以业务问题作为入口,开始建 模向导,业务问题模板管理单元提示建模人员选择一个既有的业务问题 模板,用户根据需求选择"PHS流失预警问题"。
步骤P2~p3,数据处理单元提示建模人员选择一个数据表作为数 据源,数据处理单元将根据业务问题模板中"PHS流失预警问题"的基 础变量集,来验证数据源变量,并完成数据导入和处理。
步骤p4~p6,模型管理单元的建模过程对数据源表中的数据进行 探索,设置变量属性,根据业务问题模板中"PHS流失预警问题"的推 荐算法集,提示建模人员选择算法;当选择完算法后,根据优化参数集 来配置算法参数。
步骤p7 p8,模型管理单元的建模过程执行算法,建立PHS流失 预警模型,通过调整算法和算法参数,还可以构建同一业务问题的多个 模型,并保存。
步骤p9~pll,用户选择待评估模型,模型管理单元的模型评估过 程将根据业务问题模板中"PHS流失预警问题"的模型评估方法集,对 模型进行评估,给出评价指标;模型管理单元的模型发布过程将评估最 优的PHS流失预警模型进行发布。
步骤pl2~pl3,业务人员登录,在模型管理单元的模型打分应用 过程的提示下,选择经过发布的PHS流失预警模型,利用该模型对需 要进行客户流失判断的数据进行打分,获得客户的流失概率。
步骤pl4 pl6,进入模型展现单元根据业务问题模板中"PHS流 失预警问题"的"结果展现变量集",展现相应的客户数据,通常展现 的内容需要包括客户的流失概率打分结果,业务人员可以根据结果进行 针对性的营销活动。
本发明的描述是为了示例和说明起见而给出的,而并不是无遗漏的 或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技
术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理 和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适 于特定用途的带有各种修改的各种实施例。
权利要求
1.一种数据挖掘系统,其特征在于,包括业务问题模板管理单元,用于定义业务问题模板;数据处理单元,用于对原始数据格式的导入和处理,对其中的变量进行计算或产生新的衍生变量,生成业务问题模板定义的基础变量集的超集,提供指定数据格式的数据输出;模型管理单元,用于辅助数据挖掘模型训练、模型的评估、模型的发布以及模型的打分应用;模型展现单元,用于为最终业务用户提供友好的、业务语言的结果展现界面。
2. 根据权利要求l所述的系统,其特征在于,所述业务问题模板为 将业务问题、相关变量、推选算法、优化参数、模型评估方法、模型结 果展现方法作为配置项进行固化。
3. 根据权利要求l所述的系统,其特征在于,该系统还包括用户 权限管理单元,用于提供系统中的角色、用户、用户组的定义及各自权 限的管理。
4. 根据权利要求1所述的系统,其特征在于,该系统还包括数 据源,用于存储建模输入的数据表;业务问题模板库,用于存储预定义的业务问题模板; 权限数据库,用于存储登录实用软件系统的用户、用户组、角 色、密码等;模型库,用于存储用于训练的模型,和经过评估后发布应用的模型,分别对应训练模型库和发布模型库;输出数据库,用于存储经过模型打分,用于展现的数据表; 模型展现界面,用于展现输出数据,是业务人员浏览输出数据的视窗。
5. —种数据挖掘方法,其特征在于,包括建模人员登录系统,数据挖掘系统提示建模人员选择一个既有的业务问题模板;建模人员选择业务问题模板后,数据挖掘系统提示建模人员选择 一个数据表作为数据源,数据挖掘系统将根据业务问题模板中该业务 问题的基础变量集,来验证数据源变量,并完成数据导入和处理;数据挖掘系统根据业务问题模板中该业务问题的推荐算法集,提 示建模人员选择算法;当选择完算法后,数据挖掘系统根据优化参数集 来配置算法参数;数据挖掘系统执行算法,建立模型,并保存模型。
6. 根据权利要求5所述的方法,其特征在于,所述数据挖掘系统 通过调整算法和算法参数建立多个模型;在所述建立模型并保存模型 后还包括用户从建立的模型中选择待评估模型,数据挖掘系统将根据 业务问题模板中该业务问题的模型评估方法集,对模型进行评估,给出 评价指标;建模人员将评估最优的模型进行发布。
7. 根据权利要求5所述的方法,其特征在于,所述建模人员将评估 最优的模型进行发布后还包括业务人员登录,根据数据挖掘系统的提 示选择经过发布的模型,利用该模型对需要进行判断的数据进行打分;数据挖掘系统根据业务问题模板中该业务问题的结果展现变量 集,展现相应的输出数据。
全文摘要
本发明公开一种数据挖掘系统和方法,包括业务问题模板管理单元,用于定义业务问题模板;数据处理单元,用于对原始数据格式的导入和处理,运用多种数学运算或统计算法对其中的变量进行计算或产生新的衍生变量,生成业务问题模板定义变量的超集,也用于提供指定数据格式的数据输出;模型管理单元,用于辅助数据挖掘模型训练、模型的评估、模型的发布以及模型的打分应用;模型展现单元,用于为最终业务用户提供友好的、业务语言的结果展现界面。通过本发明方便了技术人员开发数据挖掘项目,降低了数据挖掘所需的技术门槛。
文档编号G06F17/30GK101169798SQ200710194910
公开日2008年4月30日 申请日期2007年12月6日 优先权日2007年12月6日
发明者叶宇航, 潘宇曦, 毅 王, 鑫 蔡, 贾令宇, 陈金波, 晖 黄 申请人:中国电信股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1