一种基于多层LSTM模型的并行处理分类方法与流程

文档序号:16883255发布日期:2019-02-15 22:23阅读:753来源:国知局
一种基于多层LSTM模型的并行处理分类方法与流程

本发明涉及信息技术领域,尤其涉及一种基于多层lstm模型的并行处理分类方法。



背景技术:

我们处于一个信息化的时代,随着互联网的迅猛发展,每个人作为一个信息发布源,产生了大量的数据并在互联网中进行广泛的传播。特别是社交网站,以其庞大的用户量,是数据产生的一个重要来源。在web2.0时代,一方面数据呈现爆发性增长,成为名副其实的海量数据,另一方面数据种类多种多样,从日志、文本再到图片视频,传统数据平台处理这样的容量非结构化的数据就显得力不从心了。为了从这些数据中找到所需要的信息,充分挖掘数据的价值,需要寻求更加高效的检索技术,而分类技术则是其中的一个关键技术。

随着人工智能的不断发展,深度学习逐渐成为人工智能研究的热点和重点,在很多领域中取得了瞩目的成果与应用。深度学习通过模拟人脑思维对数据进行分析,可以得到最接近数据本质的表达和模式,具有强大的自我学习挖掘特征的能力。深度学习通过多个隐藏层实现对输入信息的多次抽象,使其拥有了解决复杂问题的能力,在众多方法中脱颖而出。深度学习可以自动地从大量的样本中学习到数据的内容信息,打破了特征工程局限于算法工程师的先验知识,通过与具体任务紧密结合,可以解决很多传统数据挖掘的各种实践应用问题。

运用神经网络处理分类任务时,一般将结果向量作为待分类实体被分到各个类别的概率分布。虽然每个实体可以视作单独的分类任务进行网络训练,但是多次输入网络进行处理会使得训练速度变慢,特别现有应用场景处理的大多是网络中的海量数据,这个问题就更为严重。同时,神经网络一次处理一个实例,只能分析一个实例内容,对于互相有关联的实例数据,无法关联利用这些数据、得到更好的分类结果。因此,设计能够并行处理多个实体分类的网络结构,更大程度上利用关联数据的相互补充,在工程实践中具有重大意义。

另外,现有的网络结构通常只针对一种类型的数据进行设计,在处理多类型的互联网数据时都每种数据需要使用特定结构的网络,网络结构设计上缺乏通用性,也会造成代码的冗余。



技术实现要素:

本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于多层lstm模型的并行处理分类方法,同时处理多个实体的分类任务,并挖掘数据之间的关联性来对数据进行分类,达到更好的分类效果。

为解决上述技术问题,本发明所采取的技术方案是:一种基于多层lstm模型的并行处理分类方法,包括以下步骤:

步骤1、对数据进行预处理,根据数据的分类体系,提取多个待分类实体的基础信息,并进行向量化处理;同时,按照基础信息的重要性进行选择,优先选择重要性大的信息;对于文本数据,所述基础信息为分词之后的词;对于图像数据,所述基础信息为rgb三色中某一色的一行像素色彩;

步骤2、构建多层lstm模型;所述多层lstm模型包括三层神经网络;第一层神经网络为基础信息层级的神经网络,采用lstm细胞单元,该层神经网络每个细胞单元对应每条数据中的一个基础信息,其输入为每个数据在步骤1中得到的基础信息,其输出对应数据局部信息的高维向量,该层神经网络分析数据的基础信息从而理解出数据的局部信息,并将局部信息映射为高维向量;第二层神经网络为局部信息层级的神经网络,采用lstm细胞单元,保证数据信息的持久化,该层神经网络的每个细胞单元对应局部信息的高维向量,其接收第一层神经网络的输出向量,其输出为该数据全局信息的高维向量,该层神经网络通过分析数据中的局部信息达到理解全局信息的目的;第三层神经网络为全局信息层级的神经网络,其接收第二层神经网络的输出向量,对多个数据进行关联分析,并输出这些数据的综合信息;最后则进行降维并输出多个实体的分类结果;

步骤3、将带有标注的训练数据输入到多层lstm模型中,用最小平方误差为代价函数,计算多层lstm模型输出的结果与标注结果之间的误差,并采用误差反向传播方法调整多层lstm模型的参数,进而得到稳定收敛的多层lstm模型;

步骤4、对于未分类的数据,经过步骤1的预处理,并将其输入到步骤3得到的多层lstm模型中,得到分类结果。

采用上述技术方案所产生的有益效果在于:本发明提供的一种基于多层lstm模型的并行处理分类方法,能够将多组数据一起通过网络,从而在最后可以输出多个待分类实体的分类结果,这种高信息通量的网络结构大大提高了网络训练的效率。在网络的最后一层对多个数据的结果进行处理,从而使网络能够在多个数据的分析结果上学习关联性,以达到更好的分类效果。一般的多层lstm模型其每层的单元数量均一样,只能在同一粒度上进行分析,而本发明的多层lstm模型则能分别从基础信息、局部信息、全局信息多个粒度上进行分析,探究之间的联系,从而达到更好的效果,且人们理解数据方式保持一致,具有很好的扩展性。同时,本发明采用lstm细胞单元,它会对该数据信息进行判断,符合规则的数据信息会被留下,不符合的数据信息会被遗忘,从而解决神经网络中长序列依赖问题,达到信息的持久化。本发明提供的是一种通用的分类网络结构,应用范围广,对图片、文本数据均适用。在文本方面,通过分析关于某些实体或主题的大量文本,可以快速得到这些文本的分类信息;在图像方面,通过分析的一系列图片,可以发掘图片之间的关联性,从而对图片中包含的场景或实体进行分类。

附图说明

图1为本发明实施例提供的一种基于多层lstm模型的并行处理分类方法的流程图;

图2为本发明实施例提供的多层lstm模型的结构的示意图;

图3为本发明实施例提供的三幅图片数据,其中,(a)为第一幅图,(b)为第二幅图,(c)为第三幅图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

一种基于多层lstm模型的并行处理分类方法,如图1所示,包括以下步骤:

步骤1、对数据进行预处理,针对分类体系,提取多组待分类实体的基础信息并进行向量化处理。

对文本数据进行预处理,基础信息为分词之后的词;本实施例中,通过文本分词和去掉停用词两个过程提取文本的基础信息。不同于英文的天然空格间隔,中文的词语显然比字包含更多的信息,因而好的分词结果是较为重要的;停用词是文本中一些高频的代词连词介词等对文本分类无意义的词,这些词频繁出现,但对于文本分类来说并不含有重要的信息,去掉可以保证更好的效果。对于图像数据,基础信息为rgb三色中某一色的一行像素色彩;本实施例中可以对图片数据进行直方图均衡化等操作,使图片数据信息分布均匀,进而提取文本的基础信息。

针对不同的分类领域,需要确定相应的分类标准,从而提取数据的基础信息。提取出数据的基础信息后,还需要将基础信息转为计算机可理解的方式,即进行向量化。例如对于文本数据,需要将基础信息转换成一个高维的向量,将文本内容处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,最大程度上保留语义;对于图片信息,基础信息则对应一行或一列像素的rgb单个通道的值。

另外,本发明可以接收多个分类实体作为输入。对于文本数据,可以将多个文本的词向量作为输入,图像数据则是将多张图片的一行(列)像素的单通道数据作为输入。多个待分类实体的数据在神经网络中一次输入的好处在于,神经网络可以承载更大的信息量,以前整个神经网络一次只能判断一个实体的分类的信息,本发明所设计的神经网络输入可以使神经网络同时承载多个实体的信息。

步骤2、构建多层lstm模型,该多层lstm模型包括三层神经网络,结构如图2所示;

第一层为基础信息层级的神经网络,该层神经网络以步骤1中提取出来的基础信息作为输入,采用lstm细胞单元,该层神经网络每个细胞单元对应每条数据中的一个基础信息,其输入为每个数据在步骤1中得到的基础信息,其输出对应数据局部信息的高维向量,该层神经网络分析数据的基础信息从而理解出数据的局部信息,并将局部信息映射为高维向量;lstm细胞单元对每个输入,可以选择遗忘一些不重要的信息,同时学习新的信息,使得该层的输出的内容信息不仅仅局限在单个信息,可以得到某一块的局部信息。图2中,每块局部数据包含j个基础信息,每个基础信息对应一个lstm细胞单元,该层神经网络每输入j个基础信息,对应输出该数据的局部信息,用一个高维向量表示,例如1024维向量用于记录这块局部数据。

第二层神经网络为局部信息层级的神经网络,采用lstm细胞单元,保证数据信息的持久化,该层神经网络的每个细胞单元对应局部信息的高维向量,其接收第一层神经网络的输出向量,其输出为该数据全局信息的高维向量,该层神经网络通过分析数据中的局部信息达到理解全局信息的目的;图2中,每个数据分为k块局部数据,再经过第一层后,输出这k个局部数据对应的信息,第二层神经网络对这k条信息经过分析处理,得到整个数据的信息并进行输出,同样用一个高维向量表示,例如用256维向量记录该数据内容。

第三层为全局信息层级的神经网络,它接收第二层输入的每个数据的全局信息,通过对这些数据进行关联分析,输出这组数据对应的所有信息。图2中,一组数据包含m个数据,经过前面的处理后,第三层神经网络得到这m条数据的全部信息,用一个高维向量表示,例如用128维向量表示该组数据的内容。

最后,多层lstm模型对第三层的高维向量进行降维,并输出多个实体的分类结果;,从上面可以看出第三层网络的输出为一个高维向量,无法直接作为分类结果,因而需要对高维向量降维,得到该组数据的分类结果。

该模型最后输出了每个待分类实体的分类结果,结果向量的每一维对应一个实体的结果,由于每个值之间的相互独立的,可以对每个待分类实体的输出值进行单独处理。

步骤3、将带有标注的训练数据输入到多层lstm模型中,用最小平方误差为代价函数,计算多层lstm模型输出的结果与标注结果之间的误差,并采用误差反向传播方法调整多层lstm模型的参数,进而得到稳定收敛的多层lstm模型;

误差反向传播一般与最优化方法结合使用,该方法对多层lstm模型中所有权重计算损失函数的梯度,并将这个梯度反馈给最优化方法,用来更新权值以最小化损失函数,使多层lstm模型更加贴近真实数据。

本实施例将步骤1中得到的数据作为模型的输入,计算其输出与标注结果之间的损失值,不断迭代,降低二者之间的差距,最后得到一个稳定收敛的模型。

步骤4、对于未分类的数据,经过步骤1的预处理,并将其输入到步骤3得到的多层lstm模型中,得到分类结果。

本实例提供了一组待分类文本数据来展示本发明的基于多层lstm模型的并行处理分类方法的效用,本组待分类文本数据的目标是判断其是否为体育新闻:

文本t1:“据某国某周刊爆料,一位来自某地区的女士指控称,某球星在2009年于一家酒店中强奸了自己。当时双方于庭外达成和解,但现在该女士要求重审此案。”

文本t2:“某球星此役将面对两名前皇马队友球星a、球星b,此前接受采访时,球星a曾表示,“在意甲打入40球是很难的,毕竟意甲和西甲不同。”此番面对两名前队友,某球星能否破门值得关注,值得一提的是,某球星此役还将面对恩师安某。”

文本t3:“在英超的曼联和西甲的皇马,某球星都完成过欧洲俱乐部大满贯的传奇。先后代表两家欧洲的顶级豪门拿下金球奖,某球星早已成为足球历史长河中耀眼无比的存在。”

本实施例中,对于上面一组数据的每个文本,需要经过步骤1的处理,即进行预处理和提取关键词。文本t1提取的基础信息为[[“爆料”,“质控”,“强奸”],[“和解”,“重审”,“”]];文本t2提取的基础信息为[[“皇马”,“意甲”,“西甲”],[“某球星”,“破门”,“安某”]];文本t3提取的基础信息为[[“英超”,“西甲”,“大满贯”],[“金球奖”,“某球星”,“足球”]]。

提取出来的基础信息需要转为向量形式,每个基础信息对应一个256维的向量,将文本分析转为向量的空间运算。

根据步骤2,将上述向量形式的基础信息作为神经网络的输入进行分类。用w1表示t文本中第一个基础信息对应的向量,把每句话看做一个局部信息,第一句话三个基础信息对应的向量分别为w1,w2,w3,这三个向量经过多层lstm模型的第一层,得到第一句话对应的局部信息向量表示x1,这是一个1024维的向量,类似地,第二句对应的向量表示为x2;同样t2文本中,每句话对应的向量分别为x3,x4,t3文本中每句话对应的向量为x5,x6。对于第二层神经网络,接收第一层神经网络的输出,t1的局部信息向量x1,x2经过第二层后输出对应的全局信息向量y1,这是一个256维的向量,同理文本t2、t3对应的全局信息向量为y2,y3。第三层神经网络以y1、y2、y3为输入,分析三个文本数据之间的联系,得到这组数据的信息表示z。z是一个128维的向量,需要经过降维操作,得到最后的分类结果z’,它是一个三维向量,对应每个数据分类的分类结果,这组数据最后分类结果为[0.1,0.9,0.9],分类结果阈值为0.5,低于0.5的表示不是体育新闻,高于0.5的表示文本属于体育新闻。因此,本实施例中的第一篇文本不属于体育新闻,第二篇和第三篇文本属于体育新闻。

本实施例还提供了采用本发明的基于多层lstm模型的并行处理分类方法对如图3所示的三幅图片数据进行分类,判断这三幅图片是否属于“故宫”的分类:

将图片每一行像素的rgb通道中的单个通道作为基础信息,如第一幅图的第一行像素三个基础信息向量分别记为w1,w2,w3,第一幅图的其他行以及第二幅图、第三幅图也做类似处理。

将得到的基础信息向量作为多层lstm模型的输入,经过第一层神经网络后得到局部信息的向量形式,比如第一幅图第一行的基础信息向量w1,w2和w3经过多层lstm模型后得到了局部向量表示为x1,第二行则得到x2,第n行得到xn。第二幅图和第三幅图以此类推。第二层神经网络接受局部信息向量,将第一幅图的局部信息向量x1、x2、...、xn输入网络,输出得到全局信息向量y1,同样第二幅图、第三幅图也分别得到全局信息向量y2和y3。第三层神经网络以全局信息向量y1、y2、y3为输入,分析三个图片之间的联系,得到这组图片数据的信息表示v,v经过降维操作得到分类结果向量v’,它是一个三维向量,对应每张图片分类的结果。本实施例中,这组图片数据最后分类结果为[0.9,0.9,0.1],其中第一幅图片和第二幅图片的分类结果大于阈值0.5第三幅图片的分类结果小于阈值0.5,说明前两幅图片属于故宫,最后一幅不属于故宫。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1