一种基于最小单纯形融合特征学习的信息属性识别方法与流程

文档序号:15273103发布日期:2018-08-28 22:40阅读:188来源:国知局

本发明涉及计算机技术领域。更具体地,涉及一种基于最小单纯形融合特征学习的信息属性识别方法。



背景技术:

近年来,人工智能技术快速发展,人类对信息进行智能处理的需求不断增加,人们不再满足于对每个数据样本得到一种笼统的分类标签,而是希望从原始数据样本中挖掘更多的和更细粒度的信息。因此,在计算机领域对模式分类问题的研究逐步深入,多标签、多视角、多任务学习成为该领域的研究热点。传统的模式分类方法包括支持向量机法、近邻法、贝叶斯法等,结合人工设计的特征提取方法,如梯度特征、颜色特征、边缘特征等,可以解决一般的分类识别问题,即一个样本对应一种分类标签,但在解决多标签分类问题中遇到较多困难。首先,对样本直接进行特征提取往往得到样本全局的信息,无法对样本局部信息进行独立处理;其次,单一特征往往具有局限性,一种人工设计特征通常关注于样本某些方面的特性,因此单一特征通常只对样本某些特性的变化敏感;此外,数据噪声也是影响分类器训练与决策过程的一个重要因素,使用单一特征受噪声影响较大。

解决上述问题的一种方法为采用特征融合方法,特征融合属于信息融合方法中的一种。根据数据抽象层次的不同,信息融合方法还包括数据融合方法和决策融合方法。大量研究表明,特征融合方法是能够充分利用目前计算机运算能力的方法。因此,当下特征融合问题的已经成为研究热点,而作为计算机模式识别领域与信息融合领域的交叉领域,对基于特征融合的模式分类方法的研究也是目前主要的研究思路之一。特征融合方法与统计模型、稀疏模型和深度模型相结合,已经有大量的研究成果,究其本质是通过设计融合算法来得到融合特征。但是,现有的特征融合方法在易行性和精确性上还有待提高。

因此,需要提供一种易行性高且精确性高的基于最小单纯形融合特征学习的信息属性识别方法。



技术实现要素:

本发明的目的在于提供一种易行性高且精确性高的基于最小单纯形融合特征学习的信息属性识别方法。

为达到上述目的,本发明采用下述技术方案:

本发明提供了一种基于最小单纯形融合特征学习的信息属性识别方法,包括:

s1、采集目标领域的多个数据样本,为各数据样本所关联的概念定义对应的概念名称并将每个概念名称分别对应为一个概念标签,得到概念标签集合;

s2、采用数据分割算法将每个数据样本分割为多个数据样本块;

s3、采用多种特征提取算法对每个数据样本块进行特征提取,将每种特征分别对应为一个特征向量,得到多个特征向量;

s4、向属于不同数据样本的具有相同含义的数据样本块标记概念标签集合中的同一个概念标签,建立每个数据样本块所对应的所有特征向量与该数据样本块标记的概念标签的关联,得到数据样本块与概念标签之间的关联和的特征向量与概念标签之间的关联的关联矩阵;

s5、基于关联矩阵,进行最小单纯形融合特征学习,得到各概念对应的单纯形融合特征;

s6、进行多特征融合权重学习,建立含有表示同一概念的不同单纯形融合特征的权重的权重矩阵;

s7、基于权重矩阵和单纯形融合特征进行信息属性识别。

优选地,步骤s2还包括:对数据样本块进行规范化处理。

优选地,步骤s5进一步包括:

s5.1、依次选择一种特征和一个概念标签,遍历关联矩阵,将该概念标签关联的所有特征向量作为输入集合;

s5.2、依次采用仿射集拟合方法对输入集合中每个特征向量进行降维处理;

s5.3、依次以降维处理后的特征向量作为算法输入,采用最小封闭单纯形算法求解最小体积单纯形问题,得到各概念对应的单纯形融合特征。

优选地,步骤s6进一步包括:

s6.1、初始化含有表示同一概念的不同单纯形融合特征的初始权重的权重矩阵;

s6.2、建立基于单纯形融合特征的概念标签分类器;

s6.3、基于概念标签分类器的输出结果迭代更新权重矩阵,得到含有表示同一概念的不同单纯形融合特征的权重的权重矩阵。

本发明的有益效果如下:

本发明所述技术方案将特征融合问题转化为最小单纯形的搜索问题,即在高维特征空间中进行搜索并找到一个尽可能多的包含特征向量且体积最小的低维单纯形,进而又通过最小封闭单纯形算法进行迭代优化计算,求解体积最小的单纯形来逼近真实结果,来避免求解上述时间复杂度较高的搜索问题,从而得到高维特征的低维单纯形表示。本发明能够学习和表示细粒度的概念标签,从而实现对单个数据样本的多标签学习,避免了一个数据样本对应一个标签所带来的不精确问题。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明;

图1示出本发明实施例提供的基于最小单纯形融合特征学习的信息属性识别方法的流程图。

图2示出融合特征的单纯形表示的示意图。

图3示出基于最小单纯形融合特征学习的场景图像属性识别方法的流程图。

图4示出超像素分割和概念标签共享的示意图。

具体实施方式

为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。

本发明的实施例提供了一种基于最小单纯形融合特征学习的信息属性识别方法,其特征在于,包括:

s1、采集目标领域的多个数据样本,为各数据样本所关联的概念定义对应的概念名称并将每个概念名称分别对应为一个概念标签,得到概念标签集合,其中,概念名称由人为定义,使用人类通用的自然语言表示,概念标签与概念名称一一对应,概念标签集合是由不重复的概念标签组成的集合;

s2、采用数据分割算法将每个数据样本分割为多个数据样本块,其中,数据分割算法根据具体数据格式和应用领域进行选择,例如对图像数据使用图像分割算法,对视频数据使用视频分割算法,对音频数据使用音频分割算法等;一个数据样本应至少被分割为两个部分或者说两个区域,每个部分为一个数据样本块;

s3、采用多种特征提取算法对每个数据样本块进行特征提取,将每种特征分别对应为一个特征向量,得到多个特征向量;

本实施例中,定义数据样本总数为n个,概念标签总数为c个,特征种类为d种;ti表示第i个数据样本分割得到数据样本块的数量,数据样本块总数为即将n个数据样本分割得到为t个数据样本块;数据样本集合x={x1,x2,…,xn},用xi表示第i个数据样本分割得到的数据样本块的集合,用xi,j表示一个数据样本块,则有接下来对每个数据样本块提取d种不同的特征,从而得到d种维度不同的特征向量,表示一个数据样本块第d种特征的特征向量,d∈[1,d],j∈[1,ti],md为第d种特征的维度;概念标签集合l={l1,l2,…,lc},lc表示第c个概念标签,c∈[1,c];

s4、概念标签共享,向属于不同数据样本的具有相同含义的数据样本块标记概念标签集合中的同一个概念标签,建立每个数据样本块所对应的所有特征向量与该数据样本块标记的概念标签的关联,得到数据样本块与概念标签之间的关联和的特征向量与概念标签之间的关联的关联矩阵;

本实施例中,关联矩阵存储有数据样本块与概念标签的关联(用γ表示)和数据样本块的特征向量与概念标签的关联(用φd表示)。其中矩阵γ中第i行第j列的元素为γi,j,表示第i个数据样本的第j个数据样本块所关联的概念标签,用lc,i,j表示。φd表示数据样本块的第d种特征的概念标签关联矩阵,其第i行第j列的元素为表示第i个数据样本第j个数据样本块的特征向量所关联的概念标签,用lc,i,j表示。

s5、基于关联矩阵,进行最小单纯形融合特征学习,得到各概念对应的单纯形融合特征,其中,单纯形融合特征为融合单特征;对不同样本的同种特征进行融合称为单特征融合,得到融合单特征;对不同样本的不同特征进行融合称为多特征融合,得到融合多特征;

s6、进行多特征融合权重学习,建立含有表示同一概念的不同单纯形融合特征的权重的权重矩阵;

s7、基于权重矩阵和单纯形融合特征进行信息属性识别。

在具体实施时,步骤s2还包括:对数据样本块进行规范化处理,以实现将数据样本块的维度进行统一。

在具体实施时,步骤s5进一步包括:

s5.1、依次选择一种特征d和一个概念标签lc,遍历关联矩阵中的φd,将该概念标签关联的所有特征向量作为输入集合,如下式所示:

其中,表示输入集合,表示实数,表示md维实数空间,集合中包含的元素数量用表示;

s5.2、依次采用仿射集拟合方法对输入集合中每个特征向量进行降维处理,由md维降至(nd-1)维,而且md>>nd,nd>1,如下式所示:

其中表示集合中第k个特征向量,表示降维后的特征向量,表示矩阵φ的伪逆矩阵,wt表示矩阵w的转置,是一个中间变量表示原特征向量的均值,ρk(wwt)表示方阵wwt第k个特征向量;

s5.3、依次以降维处理后的特征向量作为算法输入,采用最小封闭单纯形算法求解最小体积单纯形问题,得到各概念对应的单纯形融合特征,其中,采用最小封闭单纯形算法求解最小体积单纯形问题如下式所示:

其中conv{υ1,υ2,…,υm}表示单纯形,υr表示该单纯形的一个端点,v(υ1,υ2,…,υm)表示该单纯形的体积,该单纯形包含所有的特征向量

概念对应的单纯形融合特征即概念对应的融合特征的单纯形表示;得到各概念对应的单纯形融合特征后存储,即存储采用最小封闭单纯形算法求解最小体积单纯形问题的公式得到的所有υr的值,由υr组成的单纯形即标签lc所对应融合特征,用表示。如图2所示,其是一个3维空间的单纯形,由4个端点组成conv{υ1,υ2,υ3,υ4},即每个单纯形为一个融合特征,每个概念对应有d种融合特征;

其中,依次的意思是循环执行,即选择一种特征d并选择一个概念标签lc执行上述步骤s5.1-s5.3,直至不重复的处理完所有特征和所有概念标签。

在具体实施时,步骤s6进一步包括:

s6.1、初始化含有表示同一概念的不同单纯形融合特征的初始权重的权重矩阵,含有初始权重的权重矩阵表示为ωc,d为第c个概念标签的第d种单纯形融合特征的初始权重;

s6.2、建立基于单纯形融合特征的概念标签分类器;

s6.3、基于概念标签分类器的输出结果迭代更新权重矩阵,得到含有表示同一概念的不同单纯形融合特征的权重的权重矩阵。

下面以场景图像为示例对本发明的实施例提供的一种基于最小单纯形融合特征学习的信息属性识别方法作进一步地说明。

用于场景图像时,本发明的实施例提供的一种基于最小单纯形融合特征学习的信息属性识别方法,或者直接称之为一种基于最小单纯形融合特征学习的场景图像属性识别方法,方法以流程如图3所示,包括:

s1、场景图像样本采集,具体步骤包括:

采集大量场景图像样本;

为场景图像样本所包含的属性定义一个属性名称(即概念名称),每个属性名称对应一个属性标签(即概念标签),建立属性标签集合;

其中,场景图像的属性由人为定义,使用人类通用的自然语言表示,分为名词性属性和形容词性属性,属性标签集合是由不重复的属性标签组成的集合;

将场景图像样本划分为训练集和测试集。

s2、对场景图像进行超像素分割,采用超像素分割算法,将每张场景图像样本分割为多个超像素,并对超像素进行规范化处理。

超像素分割过程如图4上部分所示,每张场景图像分割为多个超像素,每张场景图像选择3个超像素为例,由于每个超像素的维度不同,因此本示例中进行规范化处理。

s3、多特征提取,如图3中多特征提取过程所示,采用多种特征提取算法对每个超像素进行特征提取,每种特征对应一个特征向量,得到多个特征向量。

本示例中,定义场景图像样本总数为n个,属性标签总数为c个,特征种类为d种。ti表示第i个样本分割得到超像素的数量,超像素总数为即将n张场景图像分割得到为t个超像素,场景图像集合x={x1,x2,…,xn},用xi表示第i个样本分割得到的超像素的集合,用xi,j表示一个超像素,则有接下来对每个超像素提取d种不同的特征,从而得到d种维度不同的特征向量,使用表示一个超像素第d种特征的特征向量,d∈[1,d],j∈[1,ti],md为第d种特征的维度。属性标签集合l={l1,l2,…,lc},lc表示第c个属性标签,c∈[1,c]。

s4、属性标签共享,具体步骤如下:

向属于不同场景图像具有相同含义的超像素标记同一个属性标签;

建立每个超像素所对应的所有特征向量与属性标签集合中的一个标签的关联。

标签共享如图4下部分所示,以6种属性标签为例,多个超像素会共享同一个属性标签。

本示例中,使用标签关联矩阵分别存储超像素与属性标签的关系(用γ表示),和超像素的特征向量与属性标签的关系(用φd表示)。其中矩阵γ中第i行第j列的元素为γi,j,表示第i个样本第j个超像素所关联的标签,用lc,i,j表示。φd表示超像素第d种特征的标签关联矩阵,其第i行第j列的元素为表示第i个样本第j个超像素的特征向量所关联的标签,用lc,i,j表示。如图3属性标签共享过程所示,关联矩阵γ中同一行或者不同行之间相同颜色的方块表示共享同一个属性标签,由于对每个样本分割得到超像素数量不同,因此在每行结尾处存在空白方块,表示不存在标签关联。

s5、进行最小单纯形融合特征学习,如图3融合特征学习过程所示,具体步骤包括:

选择一种特征d,选择一个属性标签lc,遍历标签关联矩阵φd读取这个属性标签所关联的特征向量,组成输入集合,如下式所示:

其中,表示输入集合,表示实数,表示md维实数空间,集合中包含的元素数量用表示。

采用仿射集拟合方法对输入集合中每个特征向量进行降维处理,由md维降至(nd-1)维,而且md>>nd,nd>1,如下式所示:

其中表示集合中第k个特征向量,表示降维后的特征向量,表示矩阵φ的伪逆矩阵,wt表示矩阵w的转置,是一个中间变量表示原特征向量的均值,ρk(wwt)表示方阵wwt第k个特征向量。

以降维后的特征向量为输入,采用最小封闭单纯形算法求解最小体积单纯形问题,如下式所示:

其中conv{υ1,υ2,…,υm}表示单纯形,υr表示该单纯形的一个端点,v(υ1,υ2,…,υm)表示该单纯形的体积,该单纯形包含所有的特征向量

得到融合特征的单纯形表示并存储,即存储所有υr的值,由υr组成的单纯形即标签lc所对应融合特征,用表示,每个单纯形为一个融合特征,每个概念有d种融合特征;

重复执行上述过程,直到不重复的处理完成所有特征和所有属性标签所关联的所有特征向量。

s6、进行多特征融合权重学习,建立含有表示同一概念的不同单纯形融合特征的权重的权重矩阵,如图3多特征权重学习过程所示,包括以下步骤:

初始化权重矩阵,表示为ωc,d为第c个属性标签第d种融合特征的权重;

建立基于单纯形融合特征的场景属性分类器;

基于分类器的输出结果,迭代更新权重矩阵;

得到最终的权重矩阵。

s7、从测试集中选择一张场景图像,输入到场景属性分类器中,输出该场景图像关联的所有属性标签。

由此可见,本示例解决了场景图像属性识别问题,输入一张场景图像即可输出该图像所关联的名词属性和形容词属性。

在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

还需要说明的是,在本发明的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1