一种基于大间隔分布学习的数字媒体对象分类方法

文档序号：6619686阅读：189来源：国知局

一种基于大间隔分布学习的数字媒体对象分类方法
【专利摘要】本发明公开一种基于大间隔分布学习的数字媒体对象分类方法，为了克服数字媒体对象类别标记的噪声问题，通过最大化间隔均值同时最小化间隔方差，最终将数字媒体对象的分类问题形式化成一个凸二次优化问题，并根据是否使用非线性核函数以及训练数字媒体对象库本身的特征，给出了分别基于对偶坐标下降和基于平均随机梯度下降两种寻优算法的实现，用户可根据实际情况自行选择。若用户选择非线性核函数，则训练时选择DCD作为寻优算法；若用户选择线性核函数，且训练数字媒体对象库样本很多或特征很稀疏，则训练时选择ASGD作为寻优算法，否则依然选择DCD作为寻优算法。
【专利说明】-种基于大间隔分布学习的数字媒体对象分类方法

【技术领域】
[0001] 本发明涉及一种数字媒体对象分类方法，特别是一种基于大间隔分布学习的数字媒体对象分类方法。

【背景技术】
[0002] 当下的人类社会已经全面进入了数字化阶段，目前用来传播信息的图像、文本、视频、音频等媒介均是以二进制编码的形式来记录、处理的，这些编码后的图像、文本、视频、音频统称为数字媒体对象。数字媒体对象因其具有图、文、声、像并茂的立体表现特点，已广泛应用于各行各业，如遥感测控、互联网站、数字电视、电话通信等。这些行业每天都会积累大量的数据，因此随着数据量的不断膨胀，如何对数字媒体对象进行有效地组织管理变得越来越重要，而其核心问题就是数字媒体对象的分类。科学的分类既可以为存储这些数字媒体对象提供便利；在之后的服务如数字媒体检索中，也可以更快速地给出效果更好的检索结果。在数字媒体对象的分类任务中，每个数字媒体对象都会有一个对应的类别标记，这些类别标记通常是由人进行手工标注得到的，因此不可避免地会引入一些噪声。传统的基于大间隔的分类方法，如支持向量机（以下均简记为SVM)，因其只考虑了单个样本的间隔，因此对噪声比较敏感，不适合直接用来对数字媒体对象进行分类。基于这一发现，本发明提出一种基于大间隔分布学习的数字媒体对象分类方法，该方法通过利用整个间隔分布的信息，而不是单个样本的间隔，因此避免了对噪声的敏感，很好地解决了数字媒体对象分类的问题。

【发明内容】

[0003] 发明目的：考虑到数字媒体对象的类别标记通常含有不少噪声，本发明基于大间隔分布学习的思想，提出了一种对噪声不敏感的数字媒体对象分类方法。该方法通过充分利用整个间隔分布的信息，最大化间隔均值同时最小化间隔方差，避免了对噪声的敏感，很好地解决了数字媒体对象分类的问题。
[0004] 技术方案：一种基于大间隔分布学习的数字媒体对象分类方法，首先，用户先准备好一个数字媒体对象库，其中每一个数字媒体对象都带有类别标记，这些就是训练数据。接着，将训练数字媒体对象转换成特征表示，具体来说，将训练数字媒体对象输入到特征提取算法中，得到数字媒体对象的特征向量。数字媒体对象的特征提取方法有很多种，可以用一个方法对应一个特征，例如，对于一幅图像，其亮度可以作为该对象的一个特征，对比度则可以作为另外一个特征。记总的特征个数为d，那么就将每个数字媒体对象都对应到d维欧氏空间中的一个向量了。然后将所有训练数字媒体对象对应的特征向量及其类别标记都输入进分类模型的训练算法，训练完之后就可以得到分类模型。在预测阶段，用户将待预测的数字媒体对象输入分类模型，分类模型即可输出其预测的类别标记。在训练分类模型时，为了克服数字媒体对象类别标记的噪声问题，本发明基于大间隔分布学习的思想，提出一种对噪声不敏感的数字媒体对象分类方法LDM，通过最大化间隔均值同时最小化间隔方差，最终将数字媒体对象的分类问题形式化成一个凸二次优化问题，并根据是否使用非线性核函数以及训练数字媒体对象库本身的特征（如样本个数，特征稀疏性等），给出了分别基于对偶坐标下降（以下均简记为DCD)和基于平均随机梯度下降（以下均简记为ASGD)两种寻优算法的实现，用户可根据实际情况自行选择。若用户选择非线性核函数，则训练时选择DCD 作为寻优算法；若用户选择线性核函数，且训练数字媒体对象库样本很多或特征很稀疏，则训练时选择ASGD作为寻优算法，否则依然选择DCD作为寻优算法。
[0005] 有益效果：与现有技术相比，本发明充分利用训练数字媒体对象库的间隔分布信息，通过最大化间隔均值同时最小化间隔方差，克服了数字媒体对象分类问题中类别标记的噪声问题，同时还保持了 SVM原有的优点，最终取得了很好的分类效果。

【专利附图】

【附图说明】
[0006] 图1是本发明原理流程图；
[0007] 图2是本发明的流程图；
[0008] 图3是根据DCD寻优算法训练分类模型的流程图；
[0009] 图4是根据AS⑶寻优算法训练分类模型的流程图。

【具体实施方式】
[0010] 下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0011] 如图1所示，基于大间隔分布学习的数字媒体对象分类方法，首先，用户先准备好一个数字媒体对象库，对于其中的每一个数字媒体对象，通过标注或众包方法，获得对应的类别标记，形成训练数据。接着，将训练数字媒体对象转换成特征表示，具体来说，将训练数字媒体对象输入到特征提取算法中，得到数字媒体对象的特征向量。然后将所有训练数字媒体对象对应的特征向量及其类别标记都输入进分类模型的训练算法，训练完之后就可以得到分类模型。在预测阶段，用户将测试数字媒体对象库中的待预测的数字媒体对象输入分类模型，分类模型输出分类结果。
[0012] 本发明的主要流程如图2所示。步骤1是起始动作，步骤2获得所有训练数字媒体对象的特征向量矩阵I e麗*^和类别标记向量y e M--其中X是dxm的实数矩阵，第i 列对应数字媒体对象Xi，y是m维的实数向量。步骤3接受用户输入，用户输入包括寻优算法的选择，间隔方差、间隔均值和总体损失的权重系数λ ρ λ 2、C以及核函数参数（若选择线性核则无参数）。步骤4根据用户的输入做判断，若选择DCD作为寻优算法，则转步骤5，其详细说明如图3所示；若选择ASGD作为寻优算法，则转步骤6,其详细说明如图4所示。步骤7使用训练好的分类模型对没有类别标记的数字媒体对象进行分类，步骤8输出分类结果，最终结束于步骤9。
[0013] 图3说明如何根据DCD寻优算法训练分类模型，步骤50为开始动作。步骤51中，基于特征向量矩阵X计算核矩阵G，这里所用的核函数由用户指定，常见的有RBF核、多项式核、Sigmoid核、线性核等，每一个数字媒体对象在G中都对应着某一行和某一列。步骤52 中，将优化问题的解β初始化为全〇向量，按（1)式计算矩阵Η和向量p :
[0014] Η = FG[4Ai(mGTG ^ GVyl G}/m2 + G]^1 GY, f> = AfB"c/wi - es (5)
[0015] 其中Y是以y为对角线元素的对角矩阵，e是m维全1向量。矩阵H中含有间隔方差的信息，向量P也和间隔均值相关，同时它们也是最终要优化的目标函数中的二次项和一次项。步骤53判断β是否已经收敛，判断的依据是当前的β与上一轮的β的差值的某个范数（通常选择2-范数）是否小于预先设定的阈值。若β已经收敛，则转步骤56，输出β，训练结束；否则转步骤54。步骤54和步骤55是DCD的核心部分，由于LDM形式化后的目标函数是凸二次函数，约束是去耦合的上下界约束，因此选用DCD作为寻优算法有个好处，每次选取一个变量，保持其它变量不变，那么只优化该变量就是一个一维二次函数在指定区间上取最小值的问题，这个问题是有解析解的。具体来说，设当前的解为β，随机选取第i维作为优化变量，其它维固定不变，那么有如下的更新公式
[0016] Jf*,r = mia( max( ft - [Ηβ + 0li/hu,0 ),C ), (6)
[0017] 其中[Ηβ+βΙ是向量Ηβ+β的第i维，k是矩阵H对角线上的第i个元素。步骤54随机选取β ,作为优化变量，步骤55依据（2)式来更新β ,，之后转回步骤53进行迭代直至收敛。
[0018] 图4说明如何根据ASGD寻优算法训练分类模型，步骤60为开始动作。步骤61将优化问题的解w初始化为全0向量。步骤62判断w是否已经收敛，判断依据是当前的w与上一轮的w的差值的某个范数（通常选择2-范数）是否小于预先设定的阈值。若w已经收敛，则转步骤66,输出w，训练结束；否则转步骤63。步骤63、步骤64和步骤65是ASGD 的核心部分，ASGD的核心思想是用目标函数梯度的无偏估计来替代梯度作为下降方向，这样可以避免数据量很大时，计算梯度相当耗时的问题，因为梯度的无偏估计一般来说都是很容易计算的。对于SVM，ASGD每轮只需随机采样一个样本就可以得到其目标函数梯度的无偏估计，LDM在其基础上额外引入了间隔均值和间隔方差，其中间隔均值梯度的无偏估计通过随机采样一个样本就可以得到，间隔方差梯度的无偏估计则需要随机采样两个样本，这就是步骤63。假设随机采样出的样本为分别为^和\，就是通过式（3)就可以得到目标函数梯度的无偏估计，
[0019]

【权利要求】
1. 一种基于大间隔分布学习的数字媒体对象分类方法，其特征在于：首先，先建立好一个包含数字媒体对象信息数字媒体对象库作为训练数据，所述数字媒体对象库中的每一个数字媒体对象都带有类别标记；接着，将训练数字媒体对象转换成特征表示，具体来说，将训练数字媒体对象输入到特征提取算法中，得到数字媒体对象的特征向量；然后，将所有训练数字媒体对象对应的特征向量及其类别标记都输入进分类模型的训练算法，训练完之后得到分类模型；在预测阶段，用户将待预测的数字媒体对象输入分类模型，分类模型即可输出其预测的类别标记；在训练分类模型时，通过最大化间隔均值同时最小化间隔方差，最终将数字媒体对象的分类问题形式化成一个凸二次优化问题，并根据是否使用非线性核函数以及训练数字媒体对象库本身的特征，给出了分别基于对偶坐标下降和基于平均随机梯度下降两种寻优算法的实现，用户可根据实际情况自行选择；若用户选择非线性核函数，则训练时选择DCD作为寻优算法；若用户选择线性核函数，且训练数字媒体对象库样本很多或特征很稀疏，则训练时选择ASGD作为寻优算法，否则依然选择DCD作为寻优算法。
2. 如权利要求1所述的基于大间隔分布学习的数字媒体对象分类方法，其特征在于：根据DCD寻优算法训练分类模型步骤为：步骤51，基于特征向量矩阵X计算核矩阵G，每一个数字媒体对象在G中都对应着某一行和某一列；步骤52,将优化问题的最优解β初始化为全0向量，桉（1)式计算矩阵Η和向量p :
其中Υ是以y为对角线元素的对角矩阵，e是m维全1向量；步骤53,判断β是否已经收敛，判断的依据是当前的β与上一轮的β的差值的某个范数是否小于预先设定的阈值；若β已经收敛，则转步骤56,输出β，训练结束；否则转步骤54 ; 步骤54,设当前的解为β，随机选取第i维β i作为优化变量，其它维固定不变，步骤55,依据（2)式来更新βρ 更新公式 Pfew = mln( max{ ft - [Ηβ + β--/h?,Ο ),C )s (2} 之后转回步骤53进行迭代直至收敛；步骤56,输出β，训练结束。
3. 如权利要求1所述的基于大间隔分布学习的数字媒体对象分类方法，其特征在于：根据ASGD寻优算法训练分类模型的步骤为：步骤61，将优化问题的最优解w初始化为全0向量；步骤62,判断w是否已经收敛，判断依据是当前的w与上一轮的w的差值的某个范数是否小于预先设定的阈值；若w已经收敛，则转步骤66,输出w，训练结束；否则转步骤63 ; 步骤63,从训练数据中随机采样出两个数字媒体对象对应的特征向量Xi和Xj ; 步骤64,通过式（3)就可以得到目标函数梯度的无偏估计，
其中，c是用户预先设置的总体损失的权重系数，集合? = ·μ I ιλ 4是有损失的样本的下标集合；步骤65,设置步长nt = l/t，按式（4)更新W， w,+ i =w, - i}tVg(w, x,.x:s) (4} ，之后转回步骤62进行迭代直至收敛；步骤66,输出w，训练结束。
【文档编号】G06F17/30GK104102705SQ201410326282
【公开日】2014年10月15日申请日期:2014年7月9日优先权日:2014年7月9日
【发明者】周志华, 张腾申请人:南京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周志华;张腾
技术所有人：南京大学
我是此专利的发明人

上一篇：一种基于混沌时间序列的风电功率超短期预测方法
上一篇：一种基于四元数散射网络的彩色图像纹理分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。