一种数据挖掘的方法

文档序号:9217184阅读:1104来源:国知局
一种数据挖掘的方法
【技术领域】
:
[0001]本发明涉及一种数据挖掘的方法,属于数据挖掘技术领域。
【背景技术】
:
[0002]在商业智能解决方案的帮助下,企业级用户可以通过充分挖掘现有的数据资源,捕获信息、分析信息、沟通信息,发现许多过去缺乏认识或未被认识的数据关系,帮助企业管理者做出更好的商业决策,例如开拓什么市场、吸引哪些客户、促销何种产品等等。商业智能还能够通过财务分析、风险管理、欺诈分析、销售分析等过程帮助企业降低运营成本,进而获得更高的经营效益。
[0003]根据世界权威性的IDC公司的调查结果表明,企业用于商业智能的投资回报率平均2.3年高达400%。数据仓库是商业智能解决方案的基础,一项来自美国MetaGroup的市场分析指出,92%的企业将在今后3年内使用数据仓库,数据库访问因特网和企业内部网所带来的投资回报率达68%。
[0004]现在国外的企业,大部分已经进入了数据分析以及数据挖掘的应用当中。而中国的企业,目前大部分还停留在报表阶段。传统的报表系统技术上已经相当成熟,大家熟悉的Excel、水晶报表、Reporting Service等都已经被广泛使用。但是,随着数据的增多,需求的提闻,传统报表系统面临的挑战也越来越多。
[0005]一、数据太多,信息太少:
[0006]密密麻麻的表格堆砌了大量数据,到底有多少业务人员仔细看每一个数据?到底这些数据代表了什么信息、什么趋势?级别越高的领导,越需要简明的信息;企业的管理者往往只需要一句话:目前我们的情况是好、中还是差;
[0007]二、难以交互分析、了解各种组合:
[0008]定制好的报表过于死板。例如,我们可以在一张表中列出不同地区、不同产品的销量,另一张表中列出不同地区、不同年龄段顾客的销量。但是,这两张表无法回答诸如“华北地区中青年顾客购买数码相机类型产品的情况”等问题。业务问题经常需要多个角度的交互分析。
[0009]三、难以挖掘出潜在的规则:
[0010]报表系统列出的往往是表面上的数据信息,但是海量数据深处潜在含有哪些规则呢?什么客户对我们价值最大,产品之间相互关联的程度如何?越是深层的规则,对于决策支持的价值越大,但是,也越难挖掘出来。
[0011]四、难以追溯历史,数据形成孤岛:
[0012]业务系统很多,数据存在于不同地方。太旧的数据(例如一年前的数据)往往被业务系统备份出去,导致宏观分析、长期历史分析难度很大。
[0013]因此,随着时代的发展,传统报表系统已经不能满足日益增长的业务需求了,企业期待着新的技术。数据分析和数据挖掘的时代正在来临。值得注意的是,数据分析和数据挖掘系统的目的是带给我们更多的决策支持价值,并不是取代数据报表。报表系统依然有其不可取代的优势,并且将会长期与数据分析、挖掘系统一起并存下去。

【发明内容】

:
[0014]针对上述问题,本发明要解决的技术问题是提供一种数据挖掘的方法。
[0015]本发明的一种数据挖掘的方法,它挖掘的方法如下:
[0016]一、分类:首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类;
[0017]二、估计:估计与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的;
[0018]一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分。然后,根据阈值,将贷款级别分类。
[0019]三、预测:通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
[0020]四、相关性分组、关联规则:决定哪些事情将一起发生;
[0021]五、聚类:聚类是对记录分组,把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。
[0022]六、描述和可视化:是对数据挖掘结果的表示方式。
[0023]本发明的有益效果为:实现较为普遍的客户分群;预测有一定的准确性;指出用户行为内在的联系;有较好的可视化工具;TB级系统规模,日均亿条原始数据处理能力;廉价主机集群应用;数据安全及容灾。
【具体实施方式】
:
[0024]本【具体实施方式】采用以下技术方案:它挖掘的方法如下:
[0025]一、分类:首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类;
[0026]二、估计:估计与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的;
[0027]三、预测:预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言;
[0028]四、相关性分组、关联规则:决定哪些事情将一起发生;
[0029]五、聚类:聚类是对记录分组,把相似的记录在一个聚集里;
[0030]六、描述和可视化:是对数据挖掘结果的表示方式。
[0031]本【具体实施方式】具体的步骤为:
[0032]1.理解数据和数据的来源:
[0033]首先要能深入准确的理解具体的行业规则以及商业逻辑,然后通过对商业的理解,再去认识具体的数据,遇到不能理解的数据再去理解相应的商业逻辑,这样反复进行,
直至完全理解。
[0034]2.获取相关知识与技术:
[0035]在理解数据的同时获取相关的行业知识,并在数据准备开始前,根据具体的商业和数据的具体情况,完成相关的技术选择和准备。
[0036]3.整合与检查数据:
[0037]因为数据源很可能是多种多样的,例如:不同类型数据库的表、excel、文本文件等等,所以数据准备的第一个工作就是完成多种数据的整合,能够保证所有的数据源里的数据都能整合到一起来,形成一份完整的新数据。完成整合后,数据需要仔细的检查和验证,保证数据的准确和数据内在逻辑上的自洽。
[0038]4.去除错误或不一致的数据:
[0039]也是数据准备中的重要工作,各个数据源的数据质量参差不齐,必须对数据进行相应的清洗,根据数据检查的结果,清洗掉所有错误的、异常的、不合逻辑的等等不正常的"脏"数据,以保证数据准备工作的质量。
[0040]5.建立模型和假设:
[0041]建模是整个数据挖掘工作中最重要的;只有在拥有一个简洁、高效、可扩展、稳定的模型下,数据挖掘工作才能顺利的开展;一个糟糕的设计,往往会让后续的数据挖掘工作变得异常困难,甚至完全陷入停滞的状态。要设计一个好的模型,必须对商业和数据都有很深入的理解,对商业和数据的理解不到位,必然无法完成一个好的模型设计。建模和数据准备也是一个螺旋上升、相互推进的过程。有了基本的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1