数据分类方法和装置的制造方法

文档序号:9226055阅读:295来源:国知局
数据分类方法和装置的制造方法
【技术领域】
[0001] 本发明实施例涉及通信技术,尤其涉及一种数据分类方法和装置。
【背景技术】
[0002] 数据分类技术一直是口工业界和学术界的研究热点。数据分类技术可W包括图 片场景分类、文本分类(例如应用于多语言文本情感分类领域)、多媒体语义分类(例如应用 于多媒体语义识别领域)。图片场景分类可W为图片的后续处理提供方便,一个潜在的应用 场合是在手机平台上。随着智能手机的普及,手机拍照已经成为手机的第二大功能。通过 手机拍摄场景图片而识别出用户所处的环境,可W为用户提供相关服务,例如判定拍摄图 片是在会议厅,自动设置成会议状态模式,使得手机变得更加智能。
[0003] 现有的数据分类技术是基于实特征向量进行分类,使用实数值的特征表示作为输 入进行分类器训练,但该种技术需要耗费大量的计算资源,计算效率低,不适用于大规模数 据的分类。

【发明内容】

[0004] 本发明实施例提供一种数据分类方法和装置,W克服现有技术的数据分类方法计 算量过大,计算效率低的问题。
[0005] 第一方面,本发明实施例提供一种数据分类方法,包括:
[0006] 根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理, W使所述待分类数据的各个特征对应的数据取值范围一致,形成所述待分类数据的特征数 据;
[0007] 利用二值化压缩码编码器处理所述待分类数据的特征数据,得到所述待分类数据 的二值化压缩码;
[0008] 利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处 理,获得所述待分类数据的类别。
[0009] 在第一方面的第一种可能的实现方式中,在所述根据从待分类数据中抽取到的至 少一个特征对所述原始数据进行归一化处理,W使所述待分类数据的各个特征对应的数据 取值范围一致,形成所述待分类数据的特征数据之前,还包括:
[0010] 对样本数据进行归一化处理,W使所述样本数据的各个特征对应的数据取值范围 一致,形成压缩码训练数据,所述样本数据来自于所述待分类数据;
[0011] 利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压 缩码编码器,并获得二值化压缩码;
[0012] 将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二值化 压缩码的分类器。
[0013] 根据第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述利用 所述压缩码训练数据对二值化压缩码编码器进行编码器训练,获得二值化压缩码编码器, 包括:
[0014] 利用所述压缩码训练数据,根据W下使分类误差的目标函数最小化的公式进行编 码器训练:
[0015]
[001引其中,a ik是权重系数,Ibik ? fk(Xi))为损失函数,所述损失函数的表达式为 1 (a) =max (0, 1-a),yike(-1,1),为Xi在第k类别的类别标化Xi为第i个压 缩码训练数据,
W;"为第k类别中,第m个特征 对应的分类参数,bk为偏置参数,M为特征的数量,A为投影矩阵,AW为 第m个特征对应的投影矩阵,(A?Xi?)为哈希函数,N为所述压缩码训练数据的个数,K 为所述压缩码训练数据的类别个数,g(W)和h(A)是两个规范化函数,分别用于调整分类参 数矩阵W和投影矩阵A的作用,Ai和A2为两个实数,分别用于调整规范化函数g(W)和 h(A);
[0017]训练后得到所述投影矩阵A、所述分类参数矩阵W和偏置矩阵B ;
[001引并将所述哈希函数;(A?Xi?)作为二值化压缩码编码器。
[0019] 根据第一方面的第二种可能的实现方式,在第H种可能的实现方式中,所述利用 基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理,包括:通过 如下函数对所述待分类数据的二值化压缩码进行分类处理:
[0020]
根据第一方面的第二种或第H种可能的实现方式,在第四种可能的实 现方式中,在所述利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练之前, 还包括:
[0021] 为所述样本数据的各个特征分配分类器回归系数或权重的稀疏性限制,W使所述 二值化压缩码编码器进行编码时每个特征分配相同或不同的位数。
[0022] 根据第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述为所 述每个特征分配分类器回归系数或权重的稀疏性限制,包括:
[0023] 引入分类参数矩阵W=[wi…Wk]G I^xK,其中C表示对每种特征的编码长度,M表 示特征的数量,K表示分类目标的类别个数,C、M、K分别为大于1的整数,Wk为列向量,表示 第k个类别中各个特征对应的分类参数,k={l,…,时。
[0024] 根据第一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述为所 述每个特征分配分类器回归系数或权重的稀疏性限制,包括:
[002引利用L2,i范数对分类参数矩阵W进行稀疏性限制。
[0026] 在第一方面的第走种可能的实现方式中,在所述根据从待分类数据中抽取到的至 少一个特征对所述待分类数据进行归一化处理,W使所述待分类数据的各个特征对应的数 据取值范围一致,形成所述待分类数据的特征数据之前,还包括:
[0027] 从所述待分类数据抽取至少一个特征,所述特征反映所述待分类数据的特点。
[002引根据第一方面的第走种可能的实现方式,在第八种可能的实现方式中,所述从所 述待分类数据抽取至少一个特征,包括采用W下至少一个算法处理所述待分类数据;尺度 不变特征转换SIFT、词袋BOW和面向分类的全局图像特征GIST。
[0029] 根据第一方面的第一种至第八可能的实现方式中的任意一种,在第九种可能的实 现方式中,所述对样本数据进行归一化处理,W使所述样本数据的各个特征对应的数据取 值范围一致,形成压缩码训练数据,包括:
[0030] 对样本数据进行归一化处理,W使所述样本数据的各个特征对应的数据取值范围 一致,并对所述样本数据进行类别标记,形成压缩码训练数据。
[0031] 根据第一方面的第一种至第九可能的实现方式中的任意一种,在第十种可能的实 现方式中,所述将所述二值化压缩码作为分类器训练数据,对分类器进行训练,获得基于二 值化压缩码的分类器,包括:
[0032] 采用支持向量机SVM、贝叶斯模型和逻辑回归函数中的任意一个作为分类器,利用 二值化压缩码对分类器进行训练,获得基于所述二值化压缩码的分类器。
[0033] 第二方面,本发明实施例提供一种数据分类装置,包括:
[0034]归一化处理模块,用于根据从待分类数据中抽取到的至少一个特征对所述待分类 数据进行归一化处理,W使所述待分类数据的各个特征对应的数据取值范围一致,形成所 述待分类数据的特征数据;
[0035] 压缩模块,用于利用二值化压缩码编码器处理所述待分类数据的特征数据,得到 所述待分类数据的二值化压缩码;
[0036] 分类模块,用于利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩 码进行分类处理,获得所述待分类数据的类别。
[0037] 在第二方面的第一种可能的实现方式中:
[0038] 所述归一化处理模块,还用于对样本数据进行归一化处理,W使所述样本数据的 各个特征对应的数据取值范围一致,形成压缩码训练数据,所述样本数据来自于所述待分 类数据;
[0039] 所述装置还包括:
[0040] 编码器训练模块,用于利用所述压缩码训练数据对二值化压缩码编码器进行编码 器训练,获得二值化压缩码编码器,并获得二值化压缩码;
[0041] 分类器训练模块,用于将所述二值化压缩码作为分类器训练数据,对分类器进行 训练,获得基于二值化压缩码的分类器。
[0042] 根据第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述编码 器训练模块,具体用于:
[0043] 利用所述压缩码训练数据,根据W下使分类误差的目标函数最小化的公式进行编 码器训练:
[0044]
[004引其中,aik是权重系数,l(yik?fk(Xi))为损失函数,所述损失函数的表达式为 1 (a) =max (0, 1-a),yike (-1,1),为Xi在第k类别的类别标化Xi为 第i个压缩码训练数据,
W:为第k类别中, 第m个特征对应的分类参数,bk刃懈置寥数,M刃特征的数量,A为投 影矩阵,A?为第m个特征对应的投影矩阵,MA^x严)为哈希函数,N为所述压缩码训练 数据的个数,K为所述压缩码训练数据的类别个数,g(W)和h(A)是两个规范化函数,分别用 于调整分类参数矩阵W和投影矩阵A的作用,A 1和A2为两个实数,分别用于调整规范化 函数g(w)和h(A);
[0046] 训练后得到所述投
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1