基于样本推荐标注的动态机器学习建模方法

文档序号:6590517阅读:183来源:国知局
专利名称:基于样本推荐标注的动态机器学习建模方法
技术领域
本发明属于机器学习技术领域,特别是一种基于样本推荐标注的动态机器学习建模方法。
背景技术
随着科学技术的不断发展,学者们逐渐开始研究如何使得智能机器(计算机)代替人完成一些复杂的智力劳动,从而解放人类劳动力。机器学习技术作为人工智能的核心内容之一,从生理学和认知学等角度出发,理解人类的学习过程和理解过程,从而模拟建立学习模型或理解模型。并且从这个过程抽象成各种学习方法和理论。总之,机器学习技术旨在通过让智能机器(计算机)模拟人的学习过程获得类似的学习或理解能力,自主学习理解新的知识或模式,并重新组织知识结构和不断完善自身性能。根据学习过程是否需要先验知识,机器学习可以分为监督学习和无监督学习。监督学习指的是通过模拟标注样本集的数据规律来建立一个较为符合的数学函数或公式,并以此函数或者公式作为判断依据。其中,有训练集的分类问题就是典型的监督学习。无监督学习指的是通过模拟数据集的内部结构来建立一个较为符合其数据分布的模式或者规则,并以此模式或者规则作为判断依据。其中,无指导的聚类问题就是典型的无监督学习。传统监督学习问题的过程:首先,随机抽取一批样本进行人工标注,即组成了已知标注数据集;然后,对已知标注数据集进行拆分,分为训练集和测试集两部分。接着,运用训练集对学习模型进行构建,运用测试集进行模型的评测;最后,把达到评测要求的模型作为工作模型。然而对于传统机器学习模型,参考相关文章如“基于用户行为的长查询用户满意度分析”一文,其中存在诸多缺陷,例如:标注样本的选取随机性较大,可能会对后续训练过程产生一定的影响;传统学习模型是根据一批数据一次性训练得到,必然存在时效性的特点;传统学习模型平等地看待每一个样本,没有对已经判错的样本加以重视,改善结果等。《模式识别与人工智能》2012年3期发表的“基于用户行为的长查询用户满意度分析”一文(作者:朱彤,刘奕群,茹立云,马少平)即属于此列。

发明内容
为克服现有模型的缺陷,本发明提供了一种基于样本推荐标注的动态机器学习建模方法。本发明的技术方案如下:—种基于样本推荐标注的动态机器学习建模方法,首先进行数据准备阶段:基于CURE的层次性聚类算法对数据全集进行聚类,根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注,这样标注数据更加有效而且典型;然后,采用某个一定比例拆分训练数据集和测试数据集;其中CURE是一种层次性聚类算法,一个聚类的表示方法是一个中心点和若干个代表点,这样不仅可以更加凸显聚类的形状,还可以有效减小孤立点的影响;
然后进行模型构建阶段:对训练数据集中的每条数据进行初始化权重,每条数据的初始化权重均相等;在模型中针对此训练数据集进行初步训练,生成一个分类模型;接着,对于所属类别判定错误的数据进行加权,更新数据的权重;重复训练过程生成分类模型,确定每个模型的适用数据范围;最后,每个模型相互配合组成一个递进关系的模型集合;该方法步骤如下:I)对外界输入数据进行基于⑶RE的层次聚类过程,生成并保留每个聚类的中心点和代表点;其中,聚类的代表点数目选取8-12个,设聚类中心点到本聚类所有样本点的距离中的最大值定义为R,聚类的终止条件以R作为判定依据;R的计算方式如下所示:R = Max {d (x, Xi), Xi e X}其中,X为聚类X的计算中心样本,Xi属于聚类X的一个样本;而基于R的聚类终止条件如下所示:
权利要求
1.一种基于样本推荐标注的动态机器学习建模方法,首先进行数据准备阶段:基于CURE的层次性聚类算法对数据全集进行聚类,根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注,这样标注数据更加有效而且典型;然后,采用某个一定比例拆分训练数据集和测试数据集;其中CURE是一种层次性聚类算法,一个聚类的表示方法是一个中心点和若干个代表点,这样不仅可以更加凸显聚类的形状,还可以有效减小孤立点的影响; 然后进行模型构建阶段:对训练数据集中的每条数据进行初始化权重,每条数据的初始化权重均相等;在模型中针对此训练数据集进行初步训练,生成一个分类模型;接着,对于所属类别判定错误的数据进行加权,更新数据的权重;重复训练过程生成分类模型,确定每个模型的适用数据范围;最后,每个模型相互配合组成一个递进关系的模型集合; 该方法步骤如下: 1)对外界输入数据进行基于CURE的层次聚类过程,生成并保留每个聚类的中心点和代表点;其中,聚类的代表点数目选取8-12个,设聚类中心点到本聚类所有样本点的距离中的最大值定义为R,聚类的终止条件以R作为判定依据; R的计算方式如下所示: R = Max {d (X,Xi), Xi e X} 其中,X为聚类X的计算中心样本,Xi属于聚类X的一个样本; 而基于R的聚类终止条件如下所示:
全文摘要
基于样本推荐标注的动态机器学习建模方法,属于机器学习技术领域。首先,根据CURE算法对样本全集进行聚类,对结果中的每个聚类中心样本和代表样本进行推荐标注,然后建立模型。本发明的有益效果是在处理监督学习问题时,对未知类别的数据集进行推荐标注,这样既有效又省时省力;而且运用机器学习针对错误样本反复训练,从而模型对于新数据集的类别判定会更加准确。
文档编号G06F17/50GK103150454SQ20131010313
公开日2013年6月12日 申请日期2013年3月27日 优先权日2013年3月27日
发明者江铭炎, 王伟 申请人:山东大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1