一种数据处理方法及装置与流程

文档序号:16538967发布日期:2019-01-08 20:10阅读:155来源:国知局
一种数据处理方法及装置与流程

本发明涉及数据处理技术,具体涉及一种数据处理方法及装置。



背景技术:

现有技术中通常将训练数据来自的领域称之为源域,将测试数据来自的领域称之为目标域。在利用现有技术中的邻域保持和核子空间对齐(npksa)方法在提高图像识别效率时,是利用核映射函数将源域和目标域图像都映射到同一个高维空间中,使得在这个高维空间中源域和目标域图像线性可分。然后,对高维空间中的源域图像和目标域图像使用主成分分析法(pca,principalcomponentanalysis)降维,得到源域子空间和目标域子空间。接着,学习一个对齐矩阵将源域子空间和目标域子空间对齐,保证在原始空间中属于不同类别的源域样本在对齐后的空间中尽可能的分开。最后,利用学习得到的对齐矩阵对新的图像进行分类。

然而,由于现有技术利用的是原始空间中不同类别的源域样本的信息,让原始空间中不同类别的样本在对齐后的空间中尽可能的分散,如此,可能导致原始空间中同类别的样本在对齐后的空间中也很分散(如图1所示),从而不利于分类器的训练,影响分类器在对图像进行分类识别时的准确性。

图1为现有技术中基于邻域保持和核子空间对齐(npksa)方法的训练效果示意图;

如图1所示,源域子空间101中属于同类别的源域样本,在使用npksa方法中的对齐矩阵进行空间对齐后,在对齐后的空间102中也很分散,从而导致在进行图像分类时的准确度较低。



技术实现要素:

为解决现有存在的技术问题,本发明实施例期望提供一种数据处理方法,能够提高图像识别的准确性。

本发明实施例的技术方案是这样实现的:

根据本发明实施例的一方面,提供一种数据处理方法,所述方法包括:

根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;

利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;

根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;

利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。

上述方案中,所述方法还包括:

根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小。

上述方案中,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大,包括:

计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小。

上述方案中,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小,包括:

计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最大。

上述方案中,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,包括:

构建所述源域样本中属于相同类别的第一源域样本在对齐后的空间中的第一散布矩阵,所述第一散布矩阵表征所述第一源域样本在对齐后的空间中的最大聚集程度;

构建所述源域样本中属于不同类别的第二源域样本在对齐后的空间中的第二散布矩阵,所述第二散布矩阵表征所述第二源域样本在对齐后的空间中的最小聚集程度;

根据所述第一散布矩阵和所述第二散布矩阵,确定所述最优对齐矩阵。

上述方案中,所述第一散布矩阵sw的表达式利用下列公式(1)构建;所述第二散布矩阵sb的表达式利用下列公式(2)构建;

令:

其中,c表示源域样本s和目标域样本t在原始空间中所属的类别个数;ni表示第i类样本的个数;μi表示第i类样本的均值;μ表示所有样本的均值;ps表示源域子空间;m表示源域子空间ps和目标域子空间pt的对齐矩阵;表示具体某个样本;上标t表示矩阵的转置。

上述方案中,通过下述公式(5)构建所述最优对齐矩阵的表达式:

其中,λ,β∈(0,+∞]表示正则化常数,表示源域样本的子空间和目标域样本的子空间的分布差异,sw表示源域样本中属于相同类别的第一源域样本在对齐后的空间中的聚集程度;sb表示源域样本中属于不同类别的第二源域样本在对齐后的空间中的分散程度;m表示最优对齐矩阵;λtr(sw)为矩阵sw的迹,βtr(sb)为矩阵sb的迹。

上述方案中,在根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵之前,所述方法还包括:

利用主成分分析法pca分别对原始空间中的所述源域样本和所述目标域样本进行降维处理,得到所述源域样本的子空间和所述目标域样本的子空间。

根据本发明实施例的另一方面,提供一种数据处理装置,所述装置包括:矩阵确定单元、空间对齐单元、训练单元和识别单元;

其中,所述矩阵确定单元,用于根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;

所述空间对齐单元,用于利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;

所述训练单元,用于根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;

所述识别单元,用于利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。

根据本发明实施例的第三方面,提供一种数据处理装置,所述装置包括:存储器和处理器;

其中,所述存储器,用于存储能够在所述处理器上运行的计算机程序;

所述处理器,用于运行所述计算机程序时,执行上述数据处理方法中任一项所述方法的步骤。

本发明实施例提供一种数据处理方法和装置,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。如此,不仅提高了分类器的鲁棒性,而且还提高了对图像的识别准确性。

附图说明

图1为现有技术中基于邻域保持和核子空间对齐(npksa)方法的训练效果示意图;

图2为本发明实施例中数据处理方法的流程示意图;

图3为基于本发明实施例提供的数据处理方法的训练效果示意图;

图4为本发明实施例中数据处理装置的结构示意图一;

图5为本发明实施例中数据处理装置的结构示意图二。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

图2为本发明实施例中数据处理方法的流程示意图;所述方法具体可以是一种用于图像识别的基于邻域保持的子空间对齐方法(npsa)。如图2所示,所述方法包括:

步骤201,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;

具体地,可以通过计算最优对齐矩阵,来使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小,如此,能够实现所述源域样本中属于相同类别的第一源域样本在对齐后的空间中的聚集程度最大。

本发明实施例中,还可以根据所述最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本在对齐后的空间中的聚集程度最小。

具体地,可以通过计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最大。从而实现源域样本中属于不同类别的第二源域样本在对齐后的空间中的聚集程度最小。

本发明实施例中,在根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵时,具体可以通过构建所述第一源域样本在对齐后的空间中的第一散布矩阵sw,和构建所述第二源域样本在对齐后的空间中的第二散布矩阵sb,根据所述第一散布矩阵sw和所述第二散布矩阵sb来确定所述最优对齐矩阵。

其中,所述第一散布矩阵sw表征所述第一源域样本在对齐后的空间中的最大聚集程度;所述第二散布矩阵sb表征所述第二源域样本在对齐后的空间中的最小聚集程度。

本发明实施例中,所述第一散布矩阵sw的表达式具体可以通过下列公式(1)构建;述第二散布矩阵sb的表达式具体可以通过下列公式(2)构建;

其中,令:

上述公式(1)、(2)和(3)中,c表示源域样本s和目标域样本t在原始空间中所属的类别个数;ni表示第i类样本的个数;μi表示第i类样本的均值;μ表示所有样本的均值;ps表示源域子空间;m表示源域子空间ps和目标域子空间pt的对齐矩阵;表示第i类中的第k个样本;i表示第i类样本,即样本的类别;k表示某一类别中第k个样本;上标t表示矩阵的转置。

本发明实施例中通过sw和sb,分别使得源域中的每个样本和自己所在类别样本均值μi之间的差异最小,以及使得每类样本的均值和所有样本均值之间的差异最大,实现了原始空间中属于同类别的源域样本在对齐后的空间中尽可能的聚集,不同类别且不相邻的源域样本在对齐后的空间中尽可能的分散,最终提高了训练的模型识别图像的准确度。

本发明实施例中,在确定最优对齐矩阵时,还可以令给定的原始空间中带标签的源域样本为其中表示源域空间中的第i个样本,rn×1表示源域样本的n维空间,表示源域空间中的第i个样本的标签,c表示源域样本所属的类别个数,ns表示源域中样本的个数。

本发明实施例中,在确定最优对齐矩阵时,还可以令给定的原始空间中不带标签的目标域样本为其中表示目标域中的第j个样本,nt表示目标域中样本的个数。目标域中样本的总类别数目和源域中样本的总类别数目相同,也为c,且目标域中的样本都没有标签。

本发明实施例中,所述最优对齐矩阵的表达式具体可以通过下述公式(5)构建,通过下述公式(5)可以使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小。

其中,λ,β∈(0,+∞]表示正则化常数,表示源域样本的子空间和目标域样本的子空间的分布差异,sw表示源域样本中属于相同类别的第一源域样本在对齐后的空间中的聚集程度;sb表示源域样本中属于不同类别的第二源域样本在对齐后的空间中的分散程度;m表示最优对齐矩阵;λtr(sw)为矩阵sw的迹,βtr(sb)为矩阵sb的迹。

本发明实施例基于领域保持的子空间对齐方法,通过调整最优对齐矩阵m和正则化常数λ,β∈(0,+∞],可以利用最优对齐矩阵m,来使到所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中尽可能的聚集;使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中尽可能的分散,从而提高了分类器的训练效率。

本发明实施例中,在得到最优对齐矩阵的表达式(公式5)之后,还需要将公式(5)转化为拉格朗日函数f(m),然后对最优对齐矩阵m的表达式进行求解;具体求解过程为:

首先,应用frobenius范数和矩阵迹之间的关系,将公式(5)中的第一项转化成如下表达式:

然后,将公式(5)中的第二项展开为:

其中,表示原始空间中第i类源域样本的集合。

最终将公式(5)中的第二项化简为:

其中,表示原始空间中所有源域样本的集合,l是一个块对角矩阵,对角元素

第三,将公式(5)中的第三项展开为:

其中,由公式(7)得知:因此:

其中d是一个ns×ns对角矩阵,对角元素

其中是一个ns×ns对角矩阵,矩阵中的每个元素都是

最终公式(5)中的第三项可以化简为:

其中g=d-w是一个ns×ns的拉普拉斯矩阵。

因此,最终模型(5)可以表述成:

然后,令:

再令,得到:

最终得到最优对齐矩阵m的表达式为:

步骤202,利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;

具体地,首先利用所述最优对齐矩阵将原始空间中的源域样本投影到对齐后的空间中,使得源域样本的标签与目标域样本的标签对齐,在对齐后的空间中,得到源域样本的源域数据集;其次,将目标域空间中的目标域样体直接投影到目标域子空间中,得到目标域样本的目标域数据集。

本发明实施例中,具体利用pca直接对原始空间中的源域图像和目标域图像进行降维,得到源域样本的子空间和目标域样本的子空间。这里,pca是指通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

由于目前确定pca主成分维度的方法已经很成熟,因此本发明实施例中不需要考虑子空间维度和核函数类型这两个参数的调节问题。

步骤203,根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;

本发明实施例中,在对分类器进行训练时,具体可以将所述源域样本、所述目标域样本、所述源域样本的标签和正则化常数,作为输入数据;然后,在对分类器的训练过程中,利用输入的所述源域样本、所述目标域样本和所述源域样本的标签,调整所述正则化常数,直到使得输出的所述目标域样本的标签与所述源域样本的标签对齐。然后,在确定出最优对齐矩阵后,即表示确定出了用于识别图像的分类器,从而可以通过训练后的分类器对目标领域中的图像进行类别识别。

步骤204,利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。

本发明实施例中,在求出最优对齐矩阵之后,就可以利用该最优对齐矩阵m和源域子空间ps对原始空间中的源域样本进行降维,以得到降维后的源域样本集然后,再将降维后的源域样本集投影到对齐后的空间中,得到源域数据集ys,ys=(psm)txs;接着利用目标域子空间pt将高维空间中目标域样本集直接投影到目标域子空间中得到目标域数据集yt,其中,yt=pttxt;然后,再将对齐后的空间中的源域样本和目标域样本送入训练后的分类器中,并根据源域数据集ys和目标域数据集yt,对目标域中不带标签的样本进行分类识别,并输出识别结果。

本发明实施例提供的数据处理方法,先利用pca对原始空间中的源域图像和目标域图像进行降维,得到源域子空间和目标域子空间。然后,学习一个最优对齐矩阵将源域子空间和目标域子空间对齐,使得原始空间中属于相同类别的第一源域样本在对齐后的空间中尽可能的聚集在一起,使得原始空间中属于不同类别的第二源域样本在对齐后的空间中尽可能的分散。最后,利用学习得到的最优对齐矩阵对最近邻分类器进行训练,使用训练后的分类器对目标域中不带标签的样本进行分类识别。如此,使得训练得到的分类器模型的鲁棒性更高,对目标领域的图像识别效果也更加准确。

图3为基于本发明实施例提供的数据处理方法的训练效果示意图;如图3所示,源域子空间301中属于同类别的源域样本,在利用本发明实施例提供的数据处理方法中的最优最齐矩阵进行空间对齐后,在对齐后的空间302中也很聚集,从而可以使得训练出的模型在对目标领域的图像进行分类识别时,准确率较高。

图4为本发明实施例中数据处理装置的结构组成示意图一,如图4所示,所述装置包括:矩阵确定单元401、空间对齐单元402、训练单元403和识别单元404;

其中,所述矩阵确定单元401,用于根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;

所述空间对齐单元402,用于利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;

所述训练单元403,用于根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;

所述识别单元404,用于利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。

本发明实施例中,所述装置还包括:降维单元405;

所述降维单元405,用于利用pca分别对原始空间中的所述源域样本和所述目标域样本进行降维处理,得到所述源域样本的子空间和所述目标域样本的子空间。

本发明实施例中,所述矩阵确定单元401,还用于根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小。

本发明实施例中,所述矩阵确定单元401具体还用于计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小。

本发明实施例中,所述矩阵确定单元401具体还用于计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最大。

本发明实施例中,所述矩阵确定单元401具体还用于构建所述源域样本中属于相同类别的第一源域样本在对齐后的空间中的第一散布矩阵,所述第一散布矩阵表征所述第一源域样本在对齐后的空间中的最大聚集程度;构建所述源域样本中属于不同类别的第二源域样本在对齐后的空间中的第二散布矩阵,所述第二散布矩阵表征所述第二源域样本在对齐后的空间中的最小聚集程度;根据所述第一散布矩阵和所述第二散布矩阵,确定所述最优对齐矩阵。

本发明实施例中,所述第一散布矩阵sw的表达式具体可以利用下列公式(1)构建;所述第二散布矩阵sb的表达式具体可以利用下列公式(2)构建;

令:

其中,c表示源域样本s和目标域样本t在原始空间中所属的类别个数;ni表示第i类样本的个数;μi表示第i类样本的均值;μ表示所有样本的均值;ps表示源域子空间;m表示源域子空间ps和目标域子空间pt的对齐矩阵;表示具体某个样本;上标t表示矩阵的转置。

本发明实施例中,所述最优对齐矩阵的表达式具体可以通过下述公式(5)构建:

其中,λ,β∈(0,+∞]表示正则化常数,表示源域样本的子空间和目标域样本的子空间的分布差异,sw表示源域样本中属于相同类别的第一源域样本在对齐后的空间中的聚集程度;sb表示源域样本中属于不同类别的第二源域样本在对齐后的空间中的分散程度;m表示最优对齐矩阵;λtr(sw)为矩阵sw的迹,βtr(sb)为矩阵sb的迹。

需要说明的是:上述实施例提供的数据处理装置在进行图像识别时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将数据处理装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图5为本发明实施例中数据处理装置的结构组成示意图二;如图5所示,所述数据处理装置500可以是移动电话、计算机、数字广播终端、信息收发设备、游戏控制台、平板设备、个人数字助理、信息推送服务器、内容服务器、身份认证服务器等。图5所示的数据处理装置500包括:至少一个处理器501、存储器502、至少一个网络接口504和用户接口503。数据处理装置500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。

其中,用户接口503可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解,存储器502可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,readonlymemory)、可编程只读存储器(prom,programmableread-onlymemory)、可擦除可编程只读存储器(eprom,erasableprogrammableread-onlymemory)、电可擦除可编程只读存储器(eeprom,electricallyerasableprogrammableread-onlymemory)、磁性随机存取存储器(fram,ferromagneticrandomaccessmemory)、快闪存储器(flashmemory)、磁表面存储器、光盘、或只读光盘(cd-rom,compactdiscread-onlymemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,randomaccessmemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,staticrandomaccessmemory)、同步静态随机存取存储器(ssram,synchronousstaticrandomaccessmemory)、动态随机存取存储器(dram,dynamicrandomaccessmemory)、同步动态随机存取存储器(sdram,synchronousdynamicrandomaccessmemory)、双倍数据速率同步动态随机存取存储器(ddrsdram,doubledataratesynchronousdynamicrandomaccessmemory)、增强型同步动态随机存取存储器(esdram,enhancedsynchronousdynamicrandomaccessmemory)、同步连接动态随机存取存储器(sldram,synclinkdynamicrandomaccessmemory)、直接内存总线随机存取存储器(drram,directrambusrandomaccessmemory)。本发明实施例描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器502用于存储各种类型的数据以支持数据处理装置500的操作。这些数据的示例包括:用于在数据处理装置500上操作的任何计算机程序,如操作系统5021和应用程序5022;其中,操作系统5021包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022可以包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。

上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(dsp,digitalsignalprocessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成前述方法的步骤。

在示例性实施例中,数据处理装置500可以被一个或多个应用专用集成电路(asic,applicationspecificintegratedcircuit)、dsp、可编程逻辑器件(pld,programmablelogicdevice)、复杂可编程逻辑器件(cpld,complexprogrammablelogicdevice)、现场可编程门阵列(fpga,field-programmablegatearray)、通用处理器、控制器、微控制器(mcu,microcontrollerunit)、微处理器(microprocessor)、或其他电子元件实现,用于执行前述方法。

具体所述处理器501运行所述计算机程序时,执行:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;

利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;

根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;

利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。

所述处理器501运行所述计算机程序时,还执行:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小。

所述处理器501运行所述计算机程序时,还执行:计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小。

所述处理器501运行所述计算机程序时,还执行:计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最大。

所述处理器501运行所述计算机程序时,还执行:构建所述源域样本中属于相同类别的第一源域样本在对齐后的空间中的第一散布矩阵,所述第一散布矩阵表征所述第一源域样本在对齐后的空间中的最大聚集程度;

构建所述源域样本中属于不同类别的第二源域样本在对齐后的空间中的第二散布矩阵,所述第二散布矩阵表征所述第二源域样本在对齐后的空间中的最小聚集程度;

根据所述第一散布矩阵和所述第二散布矩阵,确定所述最优对齐矩阵。

所述第一散布矩阵sw的表达式利用下列公式(1)构建;所述第二散布矩阵sb的表达式利用下列公式(2)构建;

令:

其中,c表示源域样本s和目标域样本t在原始空间中所属的类别个数;ni表示第i类样本的个数;μi表示第i类样本的均值;μ表示所有样本的均值;ps表示源域子空间;m表示源域子空间ps和目标域子空间pt的对齐矩阵;表示具体某个样本;上标t表示矩阵的转置。

通过下述公式(5)构建所述最优对齐矩阵的表达式:

其中,λ,β∈(0,+∞]表示正则化常数,表示源域样本的子空间和目标域样本的子空间的分布差异,sw表示源域样本中属于相同类别的第一源域样本在对齐后的空间中的聚集程度;sb表示源域样本中属于不同类别的第二源域样本在对齐后的空间中的分散程度;m表示最优对齐矩阵;λtr(sw)为矩阵sw的迹,βtr(sb)为矩阵sb的迹。

所述处理器501运行所述计算机程序时,还执行:利用主成分分析法pca分别对原始空间中的所述源域样本和所述目标域样本进行降维处理,得到所述源域样本的子空间和所述目标域样本的子空间。

在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,例如包括计算机程序的存储器502,上述计算机程序可由数据处理装置500的处理器501执行,以完成前述方法所述步骤。计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、flashmemory、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。

一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器运行时,执行:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;

利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;

根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;

利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。

该计算机程序被处理器运行时,还执行:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小。

该计算机程序被处理器运行时,还执行:计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小。

该计算机程序被处理器运行时,还执行:计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最大。

该计算机程序被处理器运行时,还执行:构建所述源域样本中属于相同类别的第一源域样本在对齐后的空间中的第一散布矩阵,所述第一散布矩阵表征所述第一源域样本在对齐后的空间中的最大聚集程度;

构建所述源域样本中属于不同类别的第二源域样本在对齐后的空间中的第二散布矩阵,所述第二散布矩阵表征所述第二源域样本在对齐后的空间中的最小聚集程度;

根据所述第一散布矩阵和所述第二散布矩阵,确定所述最优对齐矩阵。

所述第一散布矩阵sw的表达式利用下列公式(1)构建;所述第二散布矩阵sb的表达式利用下列公式(2)构建;

令:

其中,c表示源域样本s和目标域样本t在原始空间中所属的类别个数;ni表示第i类样本的个数;μi表示第i类样本的均值;μ表示所有样本的均值;ps表示源域子空间;m表示源域子空间ps和目标域子空间pt的对齐矩阵;表示具体某个样本;上标t表示矩阵的转置。

通过下述公式(5)构建所述最优对齐矩阵的表达式:

其中,λ,β∈(0,+∞]表示正则化常数,表示源域样本的子空间和目标域样本的子空间的分布差异,sw表示源域样本中属于相同类别的第一源域样本在对齐后的空间中的聚集程度;sb表示源域样本中属于不同类别的第二源域样本在对齐后的空间中的分散程度;m表示最优对齐矩阵;λtr(sw)为矩阵sw的迹,βtr(sb)为矩阵sb的迹。

该计算机程序被处理器运行时,还执行:利用主成分分析法pca分别对原始空间中的所述源域样本和所述目标域样本进行降维处理,得到所述源域样本的子空间和所述目标域样本的子空间。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1