数据分类方法和装置的制造方法

文档序号：9226055阅读：295来源：国知局

数据分类方法和装置的制造方法
【技术领域】
[0001] 本发明实施例涉及通信技术，尤其涉及一种数据分类方法和装置。
【背景技术】
[0002] 数据分类技术一直是口工业界和学术界的研究热点。数据分类技术可W包括图片场景分类、文本分类(例如应用于多语言文本情感分类领域)、多媒体语义分类(例如应用于多媒体语义识别领域)。图片场景分类可W为图片的后续处理提供方便，一个潜在的应用场合是在手机平台上。随着智能手机的普及，手机拍照已经成为手机的第二大功能。通过手机拍摄场景图片而识别出用户所处的环境，可W为用户提供相关服务，例如判定拍摄图片是在会议厅，自动设置成会议状态模式，使得手机变得更加智能。
[0003] 现有的数据分类技术是基于实特征向量进行分类，使用实数值的特征表示作为输入进行分类器训练，但该种技术需要耗费大量的计算资源，计算效率低，不适用于大规模数据的分类。

【发明内容】

[0004] 本发明实施例提供一种数据分类方法和装置，W克服现有技术的数据分类方法计算量过大，计算效率低的问题。
[0005] 第一方面，本发明实施例提供一种数据分类方法，包括：
[0006] 根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理， W使所述待分类数据的各个特征对应的数据取值范围一致，形成所述待分类数据的特征数据；
[0007] 利用二值化压缩码编码器处理所述待分类数据的特征数据，得到所述待分类数据的二值化压缩码；
[0008] 利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理，获得所述待分类数据的类别。
[0009] 在第一方面的第一种可能的实现方式中，在所述根据从待分类数据中抽取到的至少一个特征对所述原始数据进行归一化处理，W使所述待分类数据的各个特征对应的数据取值范围一致，形成所述待分类数据的特征数据之前，还包括：
[0010] 对样本数据进行归一化处理，W使所述样本数据的各个特征对应的数据取值范围一致，形成压缩码训练数据，所述样本数据来自于所述待分类数据；
[0011] 利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练，获得二值化压缩码编码器，并获得二值化压缩码；
[0012] 将所述二值化压缩码作为分类器训练数据，对分类器进行训练，获得基于二值化压缩码的分类器。
[0013] 根据第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练，获得二值化压缩码编码器，包括：
[0014] 利用所述压缩码训练数据，根据W下使分类误差的目标函数最小化的公式进行编码器训练：
[0015]
[001引其中，a ik是权重系数，Ibik ? fk(Xi))为损失函数，所述损失函数的表达式为 1 (a) =max (0, 1-a)，yike(-1，1)，为Xi在第k类别的类别标化Xi为第i个压缩码训练数据，
W;"为第k类别中，第m个特征对应的分类参数，bk为偏置参数，M为特征的数量，A为投影矩阵，AW为第m个特征对应的投影矩阵，(A?Xi?)为哈希函数，N为所述压缩码训练数据的个数，K 为所述压缩码训练数据的类别个数，g(W)和h(A)是两个规范化函数，分别用于调整分类参数矩阵W和投影矩阵A的作用，Ai和A2为两个实数，分别用于调整规范化函数g(W)和 h(A)；
[0017]训练后得到所述投影矩阵A、所述分类参数矩阵W和偏置矩阵B ;
[001引并将所述哈希函数；(A?Xi?)作为二值化压缩码编码器。
[0019] 根据第一方面的第二种可能的实现方式，在第H种可能的实现方式中，所述利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理，包括：通过如下函数对所述待分类数据的二值化压缩码进行分类处理：
[0020]
根据第一方面的第二种或第H种可能的实现方式，在第四种可能的实现方式中，在所述利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练之前，还包括：
[0021] 为所述样本数据的各个特征分配分类器回归系数或权重的稀疏性限制，W使所述二值化压缩码编码器进行编码时每个特征分配相同或不同的位数。
[0022] 根据第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述为所述每个特征分配分类器回归系数或权重的稀疏性限制，包括：
[0023] 引入分类参数矩阵W=[wi…Wk]G I^xK，其中C表示对每种特征的编码长度，M表示特征的数量，K表示分类目标的类别个数，C、M、K分别为大于1的整数，Wk为列向量，表示第k个类别中各个特征对应的分类参数，k={l，…，时。
[0024] 根据第一方面的第五种可能的实现方式，在第六种可能的实现方式中，所述为所述每个特征分配分类器回归系数或权重的稀疏性限制，包括：
[002引利用L2,i范数对分类参数矩阵W进行稀疏性限制。
[0026] 在第一方面的第走种可能的实现方式中，在所述根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理，W使所述待分类数据的各个特征对应的数据取值范围一致，形成所述待分类数据的特征数据之前，还包括：
[0027] 从所述待分类数据抽取至少一个特征，所述特征反映所述待分类数据的特点。
[002引根据第一方面的第走种可能的实现方式，在第八种可能的实现方式中，所述从所述待分类数据抽取至少一个特征，包括采用W下至少一个算法处理所述待分类数据；尺度不变特征转换SIFT、词袋BOW和面向分类的全局图像特征GIST。
[0029] 根据第一方面的第一种至第八可能的实现方式中的任意一种，在第九种可能的实现方式中，所述对样本数据进行归一化处理，W使所述样本数据的各个特征对应的数据取值范围一致，形成压缩码训练数据，包括：
[0030] 对样本数据进行归一化处理，W使所述样本数据的各个特征对应的数据取值范围一致，并对所述样本数据进行类别标记，形成压缩码训练数据。
[0031] 根据第一方面的第一种至第九可能的实现方式中的任意一种，在第十种可能的实现方式中，所述将所述二值化压缩码作为分类器训练数据，对分类器进行训练，获得基于二值化压缩码的分类器，包括：
[0032] 采用支持向量机SVM、贝叶斯模型和逻辑回归函数中的任意一个作为分类器，利用二值化压缩码对分类器进行训练，获得基于所述二值化压缩码的分类器。
[0033] 第二方面，本发明实施例提供一种数据分类装置，包括：
[0034]归一化处理模块，用于根据从待分类数据中抽取到的至少一个特征对所述待分类数据进行归一化处理，W使所述待分类数据的各个特征对应的数据取值范围一致，形成所述待分类数据的特征数据；
[0035] 压缩模块，用于利用二值化压缩码编码器处理所述待分类数据的特征数据，得到所述待分类数据的二值化压缩码；
[0036] 分类模块，用于利用基于二值化压缩码的分类器对所述待分类数据的二值化压缩码进行分类处理，获得所述待分类数据的类别。
[0037] 在第二方面的第一种可能的实现方式中：
[0038] 所述归一化处理模块，还用于对样本数据进行归一化处理，W使所述样本数据的各个特征对应的数据取值范围一致，形成压缩码训练数据，所述样本数据来自于所述待分类数据；
[0039] 所述装置还包括：
[0040] 编码器训练模块，用于利用所述压缩码训练数据对二值化压缩码编码器进行编码器训练，获得二值化压缩码编码器，并获得二值化压缩码；
[0041] 分类器训练模块，用于将所述二值化压缩码作为分类器训练数据，对分类器进行训练，获得基于二值化压缩码的分类器。
[0042] 根据第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述编码器训练模块，具体用于：
[0043] 利用所述压缩码训练数据，根据W下使分类误差的目标函数最小化的公式进行编码器训练：
[0044]
[004引其中，aik是权重系数，l(yik?fk(Xi))为损失函数，所述损失函数的表达式为 1 (a) =max (0, 1-a)，yike (-1，1)，为Xi在第k类别的类别标化Xi为第i个压缩码训练数据，
W：为第k类别中，第m个特征对应的分类参数，bk刃懈置寥数，M刃特征的数量，A为投影矩阵，A?为第m个特征对应的投影矩阵，MA^x严）为哈希函数，N为所述压缩码训练数据的个数，K为所述压缩码训练数据的类别个数，g(W)和h(A)是两个规范化函数，分别用于调整分类参数矩阵W和投影矩阵A的作用，A 1和A2为两个实数，分别用于调整规范化函数g(w)和h(A);
[0046] 训练后得到所述投

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江焯林;甄毅;杨强;
技术所有人：华为技术有限公司;
我是此专利的发明人

上一篇：用于分类扇形色卡颜色的系统和方法
上一篇：基于多源逆透视图像无缝拼接的车道线识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。