基于用户偏好的数据清洗方法

文档序号:6580003阅读:351来源:国知局
专利名称:基于用户偏好的数据清洗方法
技术领域
本发明涉及基于用户偏好的数据清洗方法,特别是在用户数据分类较多,数据量
庞大的情况。
背景技术
目前的数据清洗方法大多是针对某类特定应用域的数据清洗,在设计模式和使用方式等方面都是以"数据"为中心,忽略了 "用户"这个真正的核心,这些方法虽然能够根据发现的错误模式,编制程序或借助于外部标准源文件、数据字典等手段,在一定程度上修正错误;但经常须编制复杂的程序或借助于人工干预完成;而且这一系列工作都是针对某一特定行业开发的,没有通用性。

发明内容
为了克服现有的数据清洗方法不能有效地区分用户专有数据的不足,本实用新型提供一种数据清洗方法,该数据清洗方法可以自动学习用户偏好,从而识别用户数据采用最优数据定位预测的数据分析方法,高效、准确地识别"脏数据"并进行标记。数据清洗服务剔除系统"脏数据"和错误数据,并通过底层硬件接口对外接口输入干净的数据。
技术方案 基于用户偏好的数据清洗将数据处理的核心对象从"数据"转为"用户",采用神经网络算法对用户行为进行学习和记忆;同时采用先进的中间件技术,完成数据清洗操作。
1.采用K-means模糊聚类分析神经网络方法,采用半监督学习算法,对用户行为进行自动学习与记忆,同时对大量不确定的信息进行深度自适应性学习训练,从而达到对未知语义的自适应分类、聚类、识别,以及对已知语义的透明操作,使系统自动对用户偏好数据区进行识别和标记,实现智能化用户偏好定义功能。 2.在数据交换层,利用XML的平台独立性和系统可扩展性,在数据处理过程中,对中间数据进行XML解析、标记与存储,同时对特定用户偏好相关的敏感数据标签进行加密和签名,从而彻底保障数据的完整性和安全性。 3.通过不同的过滤处理元实现术语模型、过程描述文件、共享库等概念,利用XML
实现各个过滤处理元的高度独立性和系统的可扩展性,很好地弥补了现有数据清洗和灾备
产品中不具有互操作性的缺点,向用户提供了一个可视化的流程定义环境。 本发明的有益效果是,在数据清洗过程中始终以用户数据为核心,达到"以人为
本"的数据清洗效果。


图1系统整体架构 图2基于K-means算法的一组对象的聚类
图3用户偏好学习与标记流程
图4基于用户偏好的数据清洗系统流程 图5最优数据定位预测的K步模糊神经网络自动机模型 图6过滤服务元结构 图7XML管道过滤处理架构
具体实施例方式
系统架构如图l如示。
1.用户偏好学习与标记系统 用户偏好学习与标记系统采用K-means模糊聚类分析神经网络算法实现对用户行为的学习与记忆,采用大量用户行为数据作为样本数据进行训练,完成用户偏好的识别,并对偏好数据进行标记。 K-means算法属于聚类分析的一种,就是将一组物理的或抽象的对象,根据它们之间的相似程度,分为若干组;其中相似的对象构成一组,这一过程就称为聚类过程。也就是从给定的数据集中搜索数据项之间所存在的有价值联系。在许多应用中,一个聚类中所有对象常常被当作一个对象来进行处理或分析 (1)输入聚类个数k,以及包含n个数据对象的数据库;
(2)输出满足方差最小标准的k个聚类; (3)处理流程从n个数据对象任意选择k个对象作为初始聚类中心;根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分;重新计算每个(有变化)聚类的均值(中心对象);循环到直到每个聚类不再发生变化为止。 K-means算法接受输入量k ;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小,聚类相似度是利用各聚类中对象的均值所获得一个/中心对象O(引力中心)来进行计算的。
K-means算法的工作过程说明如下首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。 一般都采用均方差作为标准测度函数 £ = Z Z |/7 — I (1) 在式(1)中,E为数据库中所有对象的平方误差的总和;p为空间的点,表示给定的数据对象;mi为簇&的平均值(p和mi都是多维的) 式(1)所示聚类标准旨在使所获得的k个聚类具有以下特点各聚类本身尽可能紧凑,而各聚类之间尽可能分开K-means算法的计算复杂度为0 (nkt),因而它在处理大数据库时也是相对有效的(具有可扩展性);这里n为对象个数;k为聚类个数;而t为循环次数。通常有k = n和t = n。 K-means算法常常终止于局部最优。 假设k = 3,即需要将这些对象聚类为3个簇。根据上述算法,任意选择3个对象
4作为3个初始簇中心,簇中心在图中用/+0来标注。根据与簇中心的距离,每个对象被分配给最近的一个簇。这样的分布形成了图2(a)中虚线所描绘的图形。这样的分组会改变聚类中心,也就是说,每个聚类的平均值会根据类中的对象重新计算。依据这些新的聚类中心,对象被重新分配到各个类中。这样的重新分配形成了图2(b)中虚线所描绘的轮廓。重复以上的过程,产生图2(c)的情况。最后,当没有对象的重新分配发生时处理过程结束。聚类的结果被返回。 通过K-means算法的学习与训练,以用户大量数据作为样本,可以实现对用户偏好进行分类识别;同时,由于输入和输出数据都是以XML格式存在的,这样可以非常方便地对训练结果进行标记和存储。 用户偏好标记模块根据K-means算法的结果,在数据存储区中对用户偏好数据进
行识别,并以标签的形式进行标记,这样将在数据存储区中划分出若干用户偏好数据区,这
些数据区正是数据清洗和灾备系统的重要对象。 图3说明了用户偏好学习与标记的流程 2.用户偏好数据清洗系统 基于用户偏好的数据清洗系统主要包括用户偏好数据区监控服务、"脏数据"识别服务、日志服务、数据清洗服务及对外接口 。系统数据流如图4所示
2. 1用户偏好数据区监控服务 用户偏好数据区监控服务与数据存储区中标记为用户偏好数据区的区域连接,实时监控该区数据的变化,并对数据变化进行初步分析,并将用户偏好区数据交给"脏数据"识别服务。 2.2 "脏数据"识别服务"脏数据"指系统中存在的重复、冗余及错误的数据,这些数据都是数据清洗的对象,因此,"脏数据"识别是数据清洗的重要阶段。 本项目采用"最优数据定位预测"算法实现对脏数据的快速、准确判断与识别。该算法基于自然选择和自然遗传的全局优化算法,并在改进基础上提出K-NN模糊算法。有监督学习能力,采用从自然选择机理中抽象出来的选择、交叉、变异3种基本的遗传算子对参数编码进行操作,可以实现全局最优搜索,是训练最优数据定位预测的理想方法。
定义系统辨识的指标函数为 / =三[}^)-刺2 其中yd(k)为标准值,而y(k)为辨识模型的输出。用w代表神经网络中被辨识的权矢量,对应的最优化算法为 H 7
由式中n是学习率。 最优数据定位预测的K步模糊神经网络自动机(如图5所示)就是将上述的数据定位预测的K步模糊神经网络算法和有限自动机结合起来,构建一种新的数据清洗模型。分为以下几种状态
(1)参数初始化;[OO47] (2)初始化种群;
(3)迭代判断;
(4)选择操作;
(5)交叉与变异;
(6)产生新代。 重复使用上述的选择、交叉、变异操作,不断产生新子代,直至新代的种群规模与 父代相同,即得到了一个新的子代,转(3)处继续。 通过最优数据定位预测,可以快速、准确定位异常数据,充分利用数据定位预测的 K步模糊神经网络自动机的非线性映射能力及全局寻优特性,提高数据的干净程度,以及数 据清洗的有效性。 2. 3数据清洗服务及对外接口 数据清洗服务接收"脏数据"识别服务传递过来的需要清洗的数据,同时与XML
Engine连接以获取XML数据管道,形成数据清洗的"管道_过滤器"模型。 管道-过滤器模型的基本部件都有一套输入输出接口。每个部件从输入接口中
读取数据,经过处理,将结果数据置于输出接口中,这样的部件称为"过滤服务元"。这种模
型的连接者将一个过滤器的输出传送到另一个过滤器的输入,该文把这种连接者称为"管道"。 在这种模型中,过滤服务元必须是独立的实体,每一个过滤服务元的状态不受其 它过滤服务元的影响。并且,虽然人们对过滤服务元的输入输出有一定的规约,但过滤服务 元并不需要知道向它提供数据流的过滤服务元和它要提供数据流的过滤服务元的内部细 节,如图6所示。 管道-过滤服务元模型有如下的特点 1.设计人员将整个系统的输入输出行为理解为单个过滤服务元行为的叠加与组 合。这样可以将问题分解,化繁为简。 2.任何两个过滤服务元,只要它们之间传送的数据遵守共同的规约就可以相连 接。每个过滤服务元都有自己独立的输入输出接口 ,如果过滤服务元间传输的数据遵守其 规约,只要用管道将它们连接就可以正常工作。 3.整个系统易于维护和升级旧的过滤服务元可以被替代,新的过滤服务元可以 添加到已有的系统上。软件的易于维护和升级是衡量软件系统质量的重要指标之一,在管 道&过滤服务元模型中,只要遵守输入输出数据规约,任何一个过滤服务元都可以被另一 个新的过滤器代替,同时为增强程序功能,可以添加新的过滤器。这样,系统的可维护性和 可升级性得到了保证。 4.支持并发执行每个过滤器作为一个单独的执行任务,可以与其它过滤器并发 执行。 过滤器的执行是独立的,不依赖于其它过滤器的。
XML管道过滤处理架构如图7所示。
2.4日志服务 采用1og4j实现对数据清洗过程中的重要过程和结果以日志的形式记录,并实现 用户级的安全审记。
权利要求
基于用户偏好的数据清洗方法,通过半监督学习识别用户数据区,并完成数据清洗过程,其特征是基于用户偏好的数据清洗方法采用了半监督学习算法,使用K-means模糊聚类分析方法对用户偏好的信息进行语义内容标记,从而在数据存储区中形成相应的用户偏好数据区,并通过数据清洗服务剔除系统“脏数据”和错误数据。
2. 根据权利要求1所述的基于用户偏好的数据清洗方法,其特征是采用XML方式定 义和使用数据,并通过安全中间件完成数据的安全服务。
全文摘要
基于用户偏好的数据清洗方法,以用户偏好的为基础,采用半监督学习算法,使用K-means模糊聚类分析方法对用户偏好的信息进行语义内容标记,从而在数据存储区中形成相应的用户偏好数据区。同时用户偏好数据区监控服务对用户偏好数据区进行实时监控,对数据区中数据的变化进行分析,并预测可能的带来的结果,从而决定下一步的操作。在数据清洗模块中,“脏数据”识别服务是数据清洗的重要组成部分,采用最优数据定位预测的数据分析方法,高效、准确地识别“脏数据”并进行标记。数据清洗服务剔除系统“脏数据”和错误数据,并通过底层硬件接口对外接口输入干净的数据。
文档编号G06N3/02GK101706791SQ200910167659
公开日2010年5月12日 申请日期2009年9月17日 优先权日2009年9月17日
发明者佘堃, 唐雪飞, 汪海良, 陈科 申请人:成都康赛电子科大信息技术有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1