一种用于多义性数据对象预测建模的机器学习方法

文档序号:6458666阅读:358来源:国知局
专利名称:一种用于多义性数据对象预测建模的机器学习方法
技术领域
本发明涉及一种对数据收集装置中涉及的数据对象的预测方法,特别涉及一 种对多义性数据对象进行预测建模的机器学习方法。
技术背景随着计算机技术的不断发展,计算机对真实世界对象的处理能力不断提高。 机器学习技术是目前广泛采用的一种预测建模方法,该技术通过对已知概念标记 的训练样本进行分析,提取出蕴含在数据中的内在规律,从而构造出相应的预测 模型来对训练集之外的样本的概念标记进行预测。目前已有的机器学习技术主要 用于处理单义性数据对象,这类数据对象具有单个概念标记,因此其语义是确定且没有歧义的。然而,在真实世界中,多义性数据对象是随处可见的。例如, 一幅场景图像 可能同时具有山与湖泊等多个概念标记; 一个基因可能同时隶属于新陈代谢、转 录以及蛋白质合成等多个功能类;一篇文档可能同时包含了政府与健康等多个主 题。因此,对这些广泛存在的多义性数据对象进行预测建模具有十分重要的意义。 目前已有的机器学习技术主要针对非歧义的单义性数据对象,难以对多义性数据 对象进行有效的处理。 发明内容发明目的本发明的目的是针对当前的预测建模方法只能处理单义性数据对 象,而无法直接处理多义性数据对象的问题,提出一种能够同时利用多义性数据 对象所蕴含的多种语义信息的方法,从而有效地考察各语义信息之间的内在联 系,构建出具有高性能的预测模型,提高对数据收集装置中涉及的多义性数据对象的预测精度。技术方案为实现上述目的,本发明所述的对多义性数据对象进行预测建模 的机器学习方法,包括以下步骤(1)如果预测模型尚未建立,执行步骤2,否 则转入歩骤5; (2)获取多义性数据对象的多义信息,每个对象由多个向量进行 特征表示且对应于若干概念标记;(3)使用构造性聚类的方法生成分类模型的第 一层结构,以反映数据集中数据对象的空间分布信息;(4)基于生成的第一层结 构,采用预设的机器学习与数据挖掘中常见的学习方法(例如支持向量机)学习得到第二层的分类结构;(5)利用得到的两层预测模型对多义性数据进行预测并 给出预测结果;(6)结束。有益效果本发明给出了一种用于多义性对象预测建模的机器学习方法,该 方法基于多示例多标记学习技术,可以有效地处理多义性对象。本发明解决了目 前大部分建模方法只能处理单义性对象的局限,给出了一种从多义性对象中构造 高性能预测模型的方法。图1是数据收集装置的工作流程图。 图2是本发明方法的流程图。 图3是本发明使用的聚类方法的训练流程图。 图4是本发明基于聚类结果训练分类结构的流程图。
具体实施方式
下面将结合附图对最佳实施例进行详细说明。如图1所示,真实世界的数据对象存放于数据对象收集装置中,假设该装置 中存储了 iV个数据对象,同时用户给出了各数据对象的多义信息。计算机通过 预设的对象生成机制得到对象的特征表示,然后采用多示例多标记学习技术对多 义性数据对象进行预测建模,如图2所示。该技术采用两层的分类结构,在第一 层中利用聚类方法获得数据集的空间分布信息,然后在第二层中基于聚类结果训 练生成相应的分类结构。最后利用训练所得的预测模型对新的数据对象进行预 测,输出预测结果。本发明的方法如图2所示。步骤10是起始动作。步骤ll判断预测模型是否已训练好,若已训练好则可进行预测,执行步骤15;否则需进行训练,执行步骤12。歩骤12利用获得的多义性数据对象以及每个对象的多义语义信息,采用 预设的特征生成方法生成对象的特征表示。例如,对于图像对象,可以将图像划 分为多个区域,每个区域使用数字图像处理教科书中的经典方法生成一个图像特 征向量,如采用颜色、纹理、形状等特征;对于文本对象,可以将文本划分为多 个段落,每个段落利用文本处理教科书中的经典方法生成一个文本特征向量,如 釆用布尔值、词频、(^W/等特征。由此,每个对象可以表示成一个多示例多标 记的样本(x,,y,),其中每个对象Z,包含若干个d维属性向量 {x)=(xX2,...,x;。|lS_/^",j; K为与《相关的多义信息,由一组概念标记集


合1^£{1,2,...,^表示,其中2为所有可能的概念标记个数。步骤13基于获取的 多义性数据集S (含有iV个多示例多标记样本),采用聚类分析技术对数据的空 间分布信息进行分析,其详细说明如图3所示。这里利用Hausdorff距离来度量 两个对象之间的距离。假设对象^包含m个向量(aba2,…,a",而对象B包含n 个向量W,b2,…JM,则^与5之间的Hausdorff距离采用下式进行度量(= max!maxmin a-b ,maxmin b-a 1该距离分别考察^中每个向量与5中所有向量最近距离的最大值,以及S中每 个向量与X中所有向量最近距离的最大值,然后取两个最大值中较大的一个作 为最后的距离度量。此外,聚类过程所需的参数A:(聚类数目)可由用户事先指 定。步骤14基于聚类所得的结果,使用预设的分类方法训练0个分类器作为最 终的预测模型,其详细说明如图4所示。步骤15接收待预测的数据对象并生成 相应的特征表示。步骤16使用训练得到的两层预测模型进行预测。具体来说, 若第g(l^S2)个分类器的输出为正值,则该待预测对象将具有第《个概念标记。 若所有分类器输出均为负值,则该待预测对象的概念标记为输出值最大的分类器 对应的概念类别。步骤17给出预测模型的预测结果。步骤18是结束状态。图3给出了图2中步骤13的详细描述,具体说明了如何对本发明涉及的数 据对象进行聚类分析。图3中的步骤1300是起始状态。步骤1301至1304构成一个循环体,在循环的每一轮中从S中随机选取一个对象My作为中心对象,用于初始化集合C户对象的选取过程采用非重复取样的方式,即先前选出的对象不 再用于后续的对象选取过程。当上述的初始化过程完成后,步骤1305至1314 构成一个循环体,用于实现聚类过程。其中,该循环体还分别包含了两个子循环 体,即歩骤1306至1309以及步骤1310至1313。在第一个子循环中,步骤1307 基于Hausdorff距离找出与第/个对象距离最近的中心对象,记为;随后, 步骤1308将《置于集合C^中。在该子循环完成以后,每个集合& (1S/^t) 均包含若干数据对象,每个对象对应于空间中的一个聚类。在第二个子循环中, 歩骤1312基于Hausdorff距离找出集合Q的中心。该中心为与C,中的所有对象 具有最小平均距离的对象,由此利用该中心来更新中心对象Mj并将Q重置为仅 包含该对象的集合。在第二个子循环结束以后,步骤1314判断是否所有的中心 向量均未更新过,如果否则返回步骤1305,如果是则转入结束状态。图4给出了图2中步骤14的详细描述,具体说明了如何基于聚类结果训练 第二层的分类结构。图4中的步骤1400是起始状态。步骤1401至1407构成一 个循环体,在循环的每一轮中利用聚类所得的结果将对象兀转化为向量^的表 示形式。该循环包含一个子循环体,对应于步骤1403至1406。步骤1405使用 Hausdorff距离,计算第/个对象《与第_/个中心对象M,之间的距离作为向量 的第/维z々。当上述过程完成后,步骤1408至1411构成一个循环体,在循环的 每一轮针对每个可能的语义类别训练一个分类器。具体来说,在步骤1410中, 构造与第《类对应的训练集ZV该集合包含了iV个两类样本{(Z,.,^)|1^W}。 其中,^为与z,对应的布尔类别,^取值为l当且仅当第/个样本包含第g类,即《ei;。在得到训练集Dg后,采用预设的机器学习与数据挖掘教科书中的经典 算法训练得到分类器/V在上述训练流程完成以后,步骤1412结合各分类器构 成最终的预测模型。步骤1413是结束状态。熟知本领域的技术人员将理解,虽然这里为了便于解释己描述了具体实施 例,但是可在不背离本发明精神和范围的情况下作出各种改变。因此,除了所附 权利要求之外不能用于限制本发明。
权利要求
1、一种用于多义性数据对象进行预测建模的机器学习方法,包括以下步骤(1)如果预测模型尚未建立,执行步骤2,否则转入步骤5;(2)获取多义性数据对象的多义信息,每个对象由多个向量进行特征表示且对应于若干概念标记;(3)使用构造性聚类的方法生成分类模型的第一层结构,以反映数据集中数据对象的空间分布信息;(4)基于生成的第一层结构,采用预设的分类方法学习得到第二层的分类结构;(5)利用得到的两层预测模型对多义性数据进行预测并给出预测结果;(6)结束。
2、 根据权利要求1所述的用于多义性数据对象进行预测建模的机器学习方 法,其特征是步骤(3)中,首先随机选取训练集中的若干对象对聚类中心进行 初始化,然后通过一个循环体不断优化聚类结果,该循环体的每一轮内嵌了两个 子循环-(1) 第一个子循环考察训练集中每个对象与各聚类中心之间的距离,在该 子循环的每一轮中,找出与所考察对象距离最近的聚类中心,并将所考察对象置于与该聚类中心对应的集合中;(2) 第二个子循环重置所有的聚类中心,在该子循环的每一轮中,将与当 前集合中所有对象具有最小平均距离的对象作为新的聚类中心;在第二个子循环结束以后,如果所有的聚类中心均未发生变化,则结束步骤 (3),否则返回第一个子循环继续聚类过程。
3、 根据权利要求1所述的用于多义性数据对象进行预测建模的机器学习方 法,其特征是步骤(4)中,包含了两个循环体(1) 第一个循环体利用聚类所得的结果将训练集中的每个对象由多个向量 的表示形式转化为单个向量的表示形式;其中,向量的每一维对应于所考察对象 与各聚类中心之间的距离;(2) 第二个循环体使用第一个循环体所得的结果生成相应的分类结构;在 该循环的每一轮中,首先构造与当前语义类别对应的一个训练集,然后基于该训 练集利用预设的分类方法学习得到与该语义类别对应的分类器;在上述两个循环结束以后,结合所得的所有分类器构成最终的预测模型。
全文摘要
本发明公开了一种用于多义性数据对象进行预测建模的机器学习方法,该方法采用两层的分类结构,在第一层中利用聚类方法获得数据集的空间分布信息,然后在第二层中基于聚类结果训练生成相应的分类结构,最后利用训练所得的预测模型对新的数据对象进行预测,输出预测结果。本发明基于多示例多标记学习技术,可以有效地处理多义性对象。本发明解决了目前大部分建模方法只能处理单义性对象的局限,给出了一种从多义性对象中构造高性能预测模型的方法。
文档编号G06F15/18GK101226521SQ200810020629
公开日2008年7月23日 申请日期2008年2月18日 优先权日2008年2月18日
发明者周志华, 张敏灵 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1