一种信息处理方法及设备与流程

文档序号:14950638发布日期:2018-07-17 22:28阅读:178来源:国知局

本发明涉及信息处理技术,具体涉及一种信息处理方法及设备。



背景技术:

随着智能移动设备特别是智能手机的普及,以及互联网社交平台的流行,人们越来越习惯于在互联网上通过图像来分享自己生活中发生的事情。一方面,图像分享为人类迅速分享信息提供了方便,但另一方面,也造成了信息的爆炸式增长,导致用户的信息过载,使用户不能快速有效的获取社交平台上众多信息的重点内容,尤其是图像信息中的重点内容。针对图像信息与文本信息的匹配方案,现有技术中是将图像信息整体和文字信息整体作为匹配的依据,



技术实现要素:

为解决现有存在的技术问题,本发明实施例提供一种信息处理方法及设备。

为达到上述目的,本发明实施例的技术方案是这样实现的:

本发明实施例还提供了一种信息处理方法,所述方法包括:

分析文字信息,获得所述文字信息中的关键信息;

分析图像数据,对所述图像数据进行分割处理,获得多个分割图像数据;

识别所述多个分割图像数据中与所述关键信息相匹配的第一分割图像数据。

上述方案中,所述分析文字信息,获得所述文字信息中的关键信息,包括:

对文字信息进行分词处理,获得所述文字信息对应的多个分词;

基于预先配置的循环神经网络模型获得所述多个分词对应的节点信息;所述节点信息表征所述多个分词中任一分词与其他分词的关联关系;

基于预先配置的第一分类模型获得第一分词对应的第一节点子信息的第一分类参数;所述第一分词为所述多个分词中的任一分词;

当所述第一分类参数与表征关键信息的第一预设分类参数一致时,确定所述第一分词为所述文字信息中的关键信息。

上述方案中,所述基于循环神经网络获得所述多个分词对应的节点信息,包括:

将所述多个分词正序排序,将正序排序后的所述多个分词中的每个分词通过向量表示,获得所述多个分词对应的第一序列向量;所述第一序列向量表示正向排序的所述多个分词对应的序列向量;

将所述第一序列向量输入预先配置的第一循环神经网络模型中,获得第一节点信息;所述第一节点信息表征正序排序的所述多个分词中任一分词与第一部分分词的关联关系;所述第一部分分词为正序排序的所述多个分词中排序在所述任一分词前的分词;

将所述多个分词倒序排序,将倒序排序后的所述多个分词中的每个分词通过向量表示,获得所述多个分词对应的第二序列向量;所述第二序列向量表示倒序排序的所述多个分词对应的序列向量;

将所述第二序列向量输入预先配置的第二循环神经网络模型中,获得第二节点信息;所述第二节点信息表征倒序排序的所述多个分词中任一分词与第二部分分词的关联关系;所述第二部分分词为倒序排序的所述多个分词中排序在所述任一分词前的分词;

组合所述第一节点信息和所述第二节点信息获得所述多个分词对应的节点信息。

上述方案中,所述识别所述多个分割图像数据中与所述关键信息相匹配的第一分割图像数据,包括:

基于预先配置的卷积神经网络模型获得所述多个分割图像数据对应的向量节点信息;所述向量节点信息表征所述多个分割图像数据中特征图像数据与其他特征图像数据的关联关系;

组合所述节点信息和所述向量节点信息生成所述多个分词和所述多个分割图像数据对应的特征信息;

基于预先配置的第二分类模型获得所述特征信息的第二分类参数;

当所述第二分类参数与第二预设分类参数一致时,确定与所述第二分类参数相对应的特定分词和特定分割图像数据匹配一致。

上述方案中,所述基于预先配置的卷积神经网络模型获得所述多个分割图像数据对应的向量节点信息,包括:

将第一分割图像数据输入预先配置的第一卷积神经网络模型中,获得第一向量节点信息;所述第一分割图像数据为所述多个分割图像数据中的任一分割图像数据;所述第一向量节点信息表征所述第一分割图像数据中任一特征点与其他特征点之间的关联关系;

将包括所述多个分割图像数据的图像数据输入预先配置的第二卷积神经网络模型中,获得第二向量节点信息;所述第二向量节点信息表征任一分割图像数据与其他分割图像数据之间的关联关系;

组合所述第一向量节点信息和所述第二向量节点信息获得所述多个分割图像数据对应的向量节点信息。

本发明实施例还提供了一种信息处理设备,所述设备包括:文字处理单元、图像处理单元和匹配单元;其中,

所述文字处理单元,用于分析文字信息,获得所述文字信息中的关键信息;

所述图像处理单元,用于分析图像数据,对所述图像数据进行分割处理,获得多个分割图像数据;

所述匹配单元,用于识别所述多个分割图像数据中与所述关键信息相匹配的第一分割图像数据。

上述方案中,所述文字处理单元,用于对文字信息进行分词处理,获得所述文字信息对应的多个分词;基于预先配置的循环神经网络模型获得所述多个分词对应的节点信息;所述节点信息表征所述多个分词中任一分词与其他分词的关联关系;基于预先配置的第一分类模型获得第一分词对应的第一节点子信息的第一分类参数;所述第一分词为所述多个分词中的任一分词;当所述第一分类参数与表征关键信息的第一预设分类参数一致时,确定所述第一分词为所述文字信息中的关键信息。

上述方案中,所述文字处理单元,用于将所述多个分词正序排序,将正序排序后的所述多个分词中的每个分词通过向量表示,获得所述多个分词对应的第一序列向量;所述第一序列向量表示正向排序的所述多个分词对应的序列向量;将所述第一序列向量输入预先配置的第一循环神经网络模型中,获得第一节点信息;所述第一节点信息表征正序排序的所述多个分词中任一分词与第一部分分词的关联关系;所述第一部分分词为正序排序的所述多个分词中排序在所述任一分词前的分词;将所述多个分词倒序排序,将倒序排序后的所述多个分词中的每个分词通过向量表示,获得所述多个分词对应的第二序列向量;所述第二序列向量表示倒序排序的所述多个分词对应的序列向量;将所述第二序列向量输入预先配置的第二循环神经网络模型中,获得第二节点信息;所述第二节点信息表征倒序排序的所述多个分词中任一分词与第二部分分词的关联关系;所述第二部分分词为倒序排序的所述多个分词中排序在所述任一分词前的分词;组合所述第一节点信息和所述第二节点信息获得所述多个分词对应的节点信息。

上述方案中,所述匹配单元,用于基于预先配置的卷积神经网络模型获得所述多个分割图像数据对应的向量节点信息;所述向量节点信息表征所述多个分割图像数据中特征图像数据与其他特征图像数据的关联关系;组合所述节点信息和所述向量节点信息生成所述多个分词和所述多个分割图像数据对应的特征信息;基于预先配置的第二分类模型获得所述特征信息的第二分类参数;当所述第二分类参数与第二预设分类参数一致时,确定与所述第二分类参数相对应的特定分词和特定分割图像数据匹配一致。

上述方案中,所述匹配单元,用于将第一分割图像数据输入预先配置的第一卷积神经网络模型中,获得第一向量节点信息;所述第一分割图像数据为所述多个分割图像数据中的任一分割图像数据;所述第一向量节点信息表征所述第一分割图像数据中任一特征点与其他特征点之间的关联关系;将包括所述多个分割图像数据的图像数据输入预先配置的第二卷积神经网络模型中,获得第二向量节点信息;所述第二向量节点信息表征任一分割图像数据与其他分割图像数据之间的关联关系;组合所述第一向量节点信息和所述第二向量节点信息获得所述多个分割图像数据对应的向量节点信息。

本发明实施例提供的信息处理方法及设备,所述方法包括:分析文字信息,获得所述文字信息中的关键信息;分析图像数据,对所述图像数据进行分割处理,获得多个分割图像数据;识别所述多个分割图像数据中与所述关键信息相匹配的第一分割图像数据。采用本发明实施例的技术方案,一方面,通过对文字信息的深度分析,便于用户能够快速找到文字信息中的关键内容;另一方面,通过基于文字信息与图像数据中的分割图像数据的识别匹配,便于用户能够快速找到对应于关键信息的分割图像数据,也即便于用户能够快速找到对应于关键内容的图像区域,实现了用户对文字中的重要信息以及图像中的重要区域进行快速、有效的获取,提升了用户的操作体验。

附图说明

图1为本发明实施例的信息处理方法的流程示意图;

图2为本发明实施例的信息处理方法中文字信息的关键信息的提取过程示意图;

图3a至图3c分别为本发明实施例的信息处理方法中图像数据的分割示意图;

图4为本发明实施例的信息处理方法的完整处理流程示意图;

图5本发明实施例的信息处理设备的组成结构示意图;

图6为本发明实施例的信息处理设备的硬件实体示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

本发明实施例提供了一种信息处理方法。图1为本发明实施例的信息处理方法的流程示意图;如图1所示,所述方法包括:

步骤101:分析文字信息,获得所述文字信息中的关键信息。

步骤102:分析图像数据,对所述图像数据进行分割处理,获得多个分割图像数据。

步骤103:识别所述多个分割图像数据中与所述关键信息相匹配的第一分割图像数据。

本实施例所述的信息处理方法可应用于信息处理设备中。在一种应用场景下,例如用户向社交平台上传分享的图像以及对应的文字信息时,所述信息处理设备可以是所述社交平台对应的服务器或服务器集群。在另一种应用场景下,例如用户使用个人计算机对图像数据以及文字信息进行分析匹配处理时,所述信息处理设备可以是个人计算机,例如台式电脑、笔记本电脑等等。

本实施例中,所述分析文字信息,获得所述文字信息中的关键信息,包括:对文字信息进行分词处理,获得所述文字信息对应的多个分词;基于预先配置的循环神经网络模型获得所述多个分词对应的节点信息;所述节点信息表征所述多个分词中任一分词与其他分词的关联关系;基于预先配置的第一分类模型获得第一分词对应的第一节点子信息的第一分类参数;所述第一分词为所述多个分词中的任一分词;当所述第一分类参数与表征关键信息的第一预设分类参数一致时,确定所述第一分词为所述文字信息中的关键信息。

其中,所述基于循环神经网络获得所述多个分词对应的节点信息,包括:将所述多个分词正序排序,将正序排序后的所述多个分词中的每个分词通过向量表示,获得所述多个分词对应的第一序列向量;所述第一序列向量表示正向排序的所述多个分词对应的序列向量;将所述第一序列向量输入预先配置的第一循环神经网络模型中,获得第一节点信息;所述第一节点信息表征正序排序的所述多个分词中任一分词与第一部分分词的关联关系;所述第一部分分词为正序排序的所述多个分词中排序在所述任一分词前的分词;将所述多个分词倒序排序,将倒序排序后的所述多个分词中的每个分词通过向量表示,获得所述多个分词对应的第二序列向量;所述第二序列向量表示倒序排序的所述多个分词对应的序列向量;将所述第二序列向量输入预先配置的第二循环神经网络模型中,获得第二节点信息;所述第二节点信息表征倒序排序的所述多个分词中任一分词与第二部分分词的关联关系;所述第二部分分词为倒序排序的所述多个分词中排序在所述任一分词前的分词;组合所述第一节点信息和所述第二节点信息获得所述多个分词对应的节点信息。

具体的,本实施例对文字信息进行分析处理,利用预先配置的循环神经网络模型获得所述文字信息中分词之间的关联关系。图2为本发明实施例的信息处理方法中文字信息的关键信息的提取过程示意图;如图2所示,首先将所述文字信息进行分词处理,获得多个分词;所述多个分词可看作时间序列;所述文字信息中分词的排列顺序可作为正序;则每个分词可对应一个词向量;将每个分词对应的词向量分别与一个词向量矩阵相乘后可获得一个固定维度的向量x,相应的,所述多个分词可对应获得多个具有固定维度的向量x;若所述文字信息分词后获得的分词数量为n,n为正整数;则每个分词可表示为wn,所述文字信息通过分词可表示为(w1,…,wt,…,wn);其中,w1表示正序排序后的第一个分词;相应的,wn表示正序排序后的第n个分词;所述文字信息对应的第一序列向量可表示为(x1,…,xt,…,xn);其中,x1表示分词w1对应的向量;相应的,xn表示分词wn对应的向量。

进一步地,将所述第一序列向量按照当前的正序顺序输入至预先配置的第一循环神经网络中获得第一节点信息,所述第一节点信息可通过表示;其中,所述第一节点信息中的每个节点子信息表示对应分词与排序在前的其他分词之间的关联关系。例如,表示分词wn与分词w1,…,分词wn-1之间的关联关系。其中,的计算方式满足以下表达式:

其中,wxi,whi,wci,wxf,whf,wcf,wxc,whc,wxo,who,wco分别为参数矩阵;bi,bf,bc,bo分别为偏置向量;tanh(·)表示一种非线性函数,其取值范围为[-1,1];sigm(·)表示另一种非线性函数,其取值范围为[-1,1];it、ft、ct和ot均为计算过程中的中间运算结果。则基于表达式(1)至表达式(4)可计算获得中间运算结果ot和ct,进一步基于表达式(5)可获得

进一步地,为了更好的对文字信息进行表示,将表示文字信息的第一序列向量(x1,…,xt,…,xn)按照倒序顺序进行排列,即获得第二序列向量(xn,…,xt,…,x1);将所述第二序列向量输入至预先配置的第二循环神经网络模型获得第二节点信息,所述第二节点信息可通过表示;所述第二节点信息中的任一节点子信息的获得方式可参照前述表达式(1)至表达式(5)的计算方式,这里不再赘述。进一步将所述第一节点信息和第二节点信息进行组合,获得所述多个分词中每个分词对应的节点子信息;组合的方式可以是串接,即将任一分词对应的第二节点信息串接在第一节点信息后;例如,第t个分词对应的节点子信息可表示为

本实施例中,所述循环神经网络模型(包括第一循环神经网络模型和第二循环神经网络模型)可采用现有技术中的任意循环神经网络模型,例如长短期记忆(lstm,longshorttermmemory)神经网络模型。

基于上述实施方式,进一步地,基于预先配置的第一分类模型获得每个分词对应的节点子信息的分类参数,从而基于获得的分类参数确定对应的分词是否是关键信息。在本实施例中,预先采集大量的采样数据,并基于采样数据进行学习训练,获得所述第一分类模型。其中,采用的学习训练算法可以是现有的任意训练算法,例如随机梯度下降算法。具体的,采样数据具体可以是文本数据,对文本数据中的关键信息进行标记,例如,若认定某一文本数据中的某个分词是关键信息,可将标记y设置为0,相应的,若该分词不是关键信息,可将标记y设置为1;若采用随机梯度下降算法对采集的样本数据进行训练,则,分词为关键信息的概率可表示为:

相应的,分词不是关键信息的概率可表示为:

其中,w表示第一分类模型的参数。则第一分类模型的损失函数l可表示为:

l=ygp(y=0|w1,...,wt,...wn)+(1-y)gp=(y=1|w1,...,wt,...wn)(8)

在学习训练过程中若采用随机梯度下降算法,则对模型中的参数更新为:

其中,e表示模型参数,包括循环神经网络模型(包括第一循环神经网络模型和第二循环神经网络模型)中的所有参数矩阵和偏置向量,例如表达式(1)至表达式(5)中的参数矩阵wxi,whi,wci,wxf,whf,wcf,wxc,whc,wxo,who,wco以及偏置向量bi,bf,bc,bo以及分类模型中的参数w;表示损失函数l对模型参数e的导数。表达式(9)表示为每一次通过对模型参数e进行更新。通过样本数据集的学习训练获得第一分类模型,在对本实施例中所述文字信息中包括的分词wt'(wt'是相对于学习训练过程中表达式(6)至表达式(8)中的w1,...,wt,...wn而言,wt'可以理解为本实施例中前述对应的分词wt),判断其是否为重要词的标准为:

基于上述方式获得的第一分类模型,将所述文字信息中的每个分词对应的节点子信息(例如可通过表示)逐一输入至所述第一分类模型中,获得每个分词对应的分类参数;当获得的分类参数与第一预设分类参数一致时,例如配置0表示关键信息,则当所述分类参数为0时,表示相应的分词为关键信息。

本实施例中,对输入的图像数据进行分割处理,获得多个分割图像数据;其中,对图像数据进行分割处理,具体是将所述图像数据分割为多个、且具有特定属性的区域。其中,所述具有特定属性的区域具体可以是:属于同一目标对象的区域、和/或属于同一类型目标对象的区域。本实施例中可采用预设图像分割算法对所述图像数据进行分割处理,所述预设图像分割算法包括但不限于阈值分割算法、区域分割算法、边缘分割算法、直方图法等等。图3a至图3c分别为本发明实施例的信息处理方法中图像数据的分割示意图;如图3a所示,为待进行分割处理的图像数据;则将所述图像数据进行分割处理后,获得分割图像数据s1、分割图像数据s2…分割图像数据sn,如图3b所示;则上述分割图像数据可如图3c所示;其中,相连通且灰度值相同的区域表示同一分割区域。

本实施例中,所述识别所述多个分割图像数据中与所述关键信息相匹配的第一分割图像数据,包括:基于预先配置的卷积神经网络模型获得所述多个分割图像数据对应的向量节点信息;所述向量节点信息表征所述多个分割图像数据中特征图像数据与其他特征图像数据的关联关系;组合所述节点信息和所述向量节点信息生成所述多个分词和所述多个分割图像数据对应的特征信息;基于预先配置的第二分类模型获得所述特征信息的第二分类参数;当所述第二分类参数与第二预设分类参数一致时,确定与所述第二分类参数相对应的特定分词和特定分割图像数据匹配一致。

其中,所述基于预先配置的卷积神经网络模型获得所述多个分割图像数据对应的向量节点信息,包括:将第一分割图像数据输入预先配置的第一卷积神经网络模型中,获得第一向量节点信息;所述第一分割图像数据为所述多个分割图像数据中的任一分割图像数据;所述第一向量节点信息表征所述第一分割图像数据中任一特征点与其他特征点之间的关联关系;将包括所述多个分割图像数据的图像数据输入预先配置的第二卷积神经网络模型中,获得第二向量节点信息;所述第二向量节点信息表征任一分割图像数据与其他分割图像数据之间的关联关系;组合所述第一向量节点信息和所述第二向量节点信息获得所述多个分割图像数据对应的向量节点信息。

具体的,本实施例中将文字信息对应的节点信息进行归一化处理。首先将所述文字信息中包括的所述多个分词对应的节点信息进行平均处理,获得所述文字信息包括的所述多个分词对应的平均节点信息h:

其中,n表示所述文字信息中包括的分词数量;hi表示n个分词中的第i个分词对应的节点子信息。

进一步地,对表达式(11)获得的平均节点信息h进行归一化处理,具体是进行预设非线性运算,获得归一化处理后的平均节点信息mh;其中mh可通过以下表达式表示:

mh=tanh(whh+bh)(12)

其中,wh表示参数矩阵,bh表示偏置向量;tanh(·)表示一种非线性函数,其取值范围为[-1,1]。

进一步地,本实施例中,一方面,将所述图像数据包括的多个分割图像数据中的任一分割图像数据(例如第i个分割图像数据si)输入到预先配置的第一深度卷积神经网络模型中得到第一向量节点信息,假设所述第一向量节点信息通过zi表示;所述向量节点信息表示所述分割图像数据中特征点之间的关联关系;所述特征点具体可以为所述分割图像数据中的像素或像素集合。另一方面,将完整的所述图像数据输入到预先配置的第二深度卷积神经网络模型中得到第二向量节点信息;假设所述第二向量节点信息通过z表示;所述第二向量节点信息表示完整的图像数据中任一分割图像数据与除所述任一分割图像数据以外的其他分割图像数据关联关系。进一步地,将所述第一向量信息和所述第二向量节点信息组合以获得所述多个分割图像数据中任一分割图像数据对应的向量节点信息。则本实施例中分割图像数据si的向量节点信息可以表示成且满足以下表达式:

其中,zi作为第一向量节点信息表示分割图像数据中特征点之间的关联关系;z作为第二向量节点信息表示分割图像数据与完整图像数据中的其他分割图像数据之间的关联关系。

进一步地,本实施例中对向量节点信息做归一化处理,具体是进行预设的非线性的运算,获得归一化处理后的向量节点信息mz;其中,mz可通过以下表达式表示:

其中,wz表示参数矩阵,bz表示偏置向量;tanh(·)表示一种非线性函数,其取值范围为[-1,1]。

进一步地,组合所述向量节点信息和前述与文字信息对应的所述节点信息,即将分别归一化处理后的平均节点信息mh和向量节点信息将mz拼接在一起得到m,m表示所述多个分词和所述多个分割图像数据之间的关联关系,也可以表示所述多个分词和所述多个分割图像数据对应的特征信息;所述m满足以下表达式:

m=[mh,mz](15)

进一步地,基于预先配置的第二分类模型获得所述特征信息对应的第二分类参数;当所述第二分类参数与第二预设分类参数一致时,确定与所述第二分类参数相对应的特定分词和特定分割图像数据匹配一致,也即确定所述第二分类参数所对应的分词与分割图像数据匹配一致;相应的,当所述分词确定为关键信息时,则与所述分词匹配一致的分割图像数据为本实施例中与关键信息相匹配的第一分割图像数据。在本实施例中,预先采集大量的采样数据,并基于采样数据进行学习训练,获得所述第二分类模型。其中,采用的学习训练算法可以是现有的任意训练算法,例如随机梯度下降算法。本实施例中对采样数据的学习训练过程获得所述第二分类模型的过程具体可参照前述第一分类模型的学习训练过程,这里不做过多描述。

图4为本发明实施例的信息处理方法的完整处理流程示意图;如图4所示,本发明实施例的信息处理方案可包括三个阶段:第一阶段为对文字信息中的关键信息进行识别的过程,具体可采用循环神经网络模型获得文字信息中包括的多个分词中任一分词与除所述任一分词以外的其他分词之间的关联关系,也即获得任一分词的节点信息;进一步基于预先配置的第一分类模型对获得的节点信息进行分类,获得所述节点信息的第一分类参数,从而基于所述第一分类参数确定所述分词是否是关键信息。第二阶段为对图像数据进行分割处理后,对分割图像数据进行分析处理过程;本实施例中,一方面,采用卷积神经网络模型对所述图像数据进行分析处理,获得完整的图像数据对应的节点信息(即前述第二向量节点信息);另一方面,采用卷积神经网络模型对任一分割图像数据进行分析处理,获得每个分割图像数据对应的节点信息(即前述第一向量节点信息),将所述第一向量节点信息和所述第二向量节点信息作为所述图像数据对应的节点信息,所述节点信息能够描述所述图像数据中分割图像数据与除所述分割图像数据以外的其他分割图像数据之间的关联关系,以及任一分割图像数据中特征点与除所述特征点以外的其他特征点之间的关联关系,也即所述节点信息能够描述所述图像数据的内容特征。第三阶段为文字信息与图像数据的匹配过程,即识别文字信息中任意分词与图像数据中的分割图像数据的是否匹配,从而获得作为关键信息的分词匹配的分割图像数据,也即根据文字信息中的关键信息找到与所述关键信息匹配的图像数据中的关键区域。

作为一种实施方式,在获得所述文字信息中的关键信息后,所述方法还可以包括:突出显示所述关键信息。和/或,在识别所述多个分割图像数据中与所述关键信息相匹配的第一分割图像数据后,所述方法还可以包括:突出显示所述第一分割图像数据对应的区域。也就是说,在识别出所述文字信息中的关键信息后,突出显示所述关键信息,以便于用户能够快速找到文字信息中的重要内容。另一方面,在识别出与所述关键信息相匹配的第一分割图像数据后,突出显示所述第一分割图像数据对应的区域,以便于用户能够快速找到关键信息相关的重要区域。

采用本发明实施例的技术方案,一方面,通过对文字信息的深度分析,便于用户能够快速找到文字信息中的关键内容;另一方面,通过基于文字信息与图像数据中的分割图像数据的识别匹配,便于用户能够快速找到对应于关键信息的分割图像数据,也即便于用户能够快速找到对应于关键内容的图像区域,实现了用户对文字中的重要信息以及图像中的重要区域进行快速、有效的获取,提升了用户的操作体验。

本发明实施例的信息处理方法,可应用于以下场景:

应用场景1:用户在使用一社交应用分享文字和图片,例如使用“微信”应用的“朋友圈”功能发布了文字信息例如“这条被子真的好喜欢,好想买一条”以及例如图3a所示的图片时,则可采用本发明实施例的技术方案一方面对文字信息进行分析识别,获得关键信息例如“被子”;另一方面基于识别出的关键信息“被子”对图片中的内容进行识别匹配,识别出“被子”对应的分割区域后,一方面,可突出显示图片中与关键信息“被子”对应的分割区域,另一方面,也可突出显示文字信息中作为关键信息的“被子”,以便于其他用户能够快速获得文字和/或图片中的核心内容,尤其在文字内容过长的情况下,便于用户快速获知核心内容,以及文字信息与图片的关联关系。

应用场景2:用户在使用搜索应用输入(可包括浏览器中的搜索功能)文字信息、以通过输入的文字信息获得匹配的图像,例如输入“xxxx(某著名球星)的带球过人的精彩瞬间”,则可采用本发明实施例的技术方案一方面对文字信息进行分析识别,获得关键信息例如“xxxx”和“带球过人”;另一方面基于识别出的关键信息“xxxx”和“带球过人”在数据库中进行查找,首先搜索出“xxxx”的所有图像,进一步的基于关键信息“带球过人”在搜索出的所有图像中进行识别匹配,将匹配成功的图像返回给用户,并在匹配成功的图像中突出显示与关键信息“带球过人”相对应的分割区域,以及突出显示该分割区域,以便于用户能够快速获得图片中的核心内容。

在上述应用场景中,针对文字信息中的关键信息的突出显示方式,以及针对图像中与关键信息相匹配的分割区域的突出显示方式可采用以下任意显示方式:通过区别的显示参数的标注方式、通过标识符号的标注方式;其中,对于文字信息,所述显示参数可以是字体的类型、字体的形态(例如是否加粗、倾斜)、字体的颜色(包括字体本身的颜色或字体的填充颜色)等等;对于图像,所述显示参数可以是图像的亮度、填充颜色等等。所述标识符号的标注方式例如通过标注框、下划线等标注方式。

本发明实施例还提供了一种信息处理设备。图5本发明实施例的信息处理设备的组成结构示意图;如图5所示,所述设备包括:文字处理单元31、图像处理单元32和匹配单元33;其中,

所述文字处理单元31,用于分析文字信息,获得所述文字信息中的关键信息;

所述图像处理单元32,用于分析图像数据,对所述图像数据进行分割处理,获得多个分割图像数据;

所述匹配单元33,用于识别所述多个分割图像数据中与所述关键信息相匹配的第一分割图像数据。

本实施例中,所述信息处理设备在一种应用场景下,例如用户向社交平台上传分享的图像以及对应的文字信息时,所述信息处理设备可以是所述社交平台对应的服务器或服务器集群。在另一种应用场景下,例如用户使用个人计算机对图像数据以及文字信息进行分析匹配处理时,所述信息处理设备可以是个人计算机,例如台式电脑、笔记本电脑等等。

作为一种实施方式,所述文字处理单元31,用于对文字信息进行分词处理,获得所述文字信息对应的多个分词;基于预先配置的循环神经网络模型获得所述多个分词对应的节点信息;所述节点信息表征所述多个分词中任一分词与其他分词的关联关系;基于预先配置的第一分类模型获得第一分词对应的第一节点子信息的第一分类参数;所述第一分词为所述多个分词中的任一分词;当所述第一分类参数与表征关键信息的第一预设分类参数一致时,确定所述第一分词为所述文字信息中的关键信息。

其中,所述文字处理单元31,用于将所述多个分词正序排序,将正序排序后的所述多个分词中的每个分词通过向量表示,获得所述多个分词对应的第一序列向量;所述第一序列向量表示正向排序的所述多个分词对应的序列向量;将所述第一序列向量输入预先配置的第一循环神经网络模型中,获得第一节点信息;所述第一节点信息表征正序排序的所述多个分词中任一分词与第一部分分词的关联关系;所述第一部分分词为正序排序的所述多个分词中排序在所述任一分词前的分词;将所述多个分词倒序排序,将倒序排序后的所述多个分词中的每个分词通过向量表示,获得所述多个分词对应的第二序列向量;所述第二序列向量表示倒序排序的所述多个分词对应的序列向量;将所述第二序列向量输入预先配置的第二循环神经网络模型中,获得第二节点信息;所述第二节点信息表征倒序排序的所述多个分词中任一分词与第二部分分词的关联关系;所述第二部分分词为倒序排序的所述多个分词中排序在所述任一分词前的分词;组合所述第一节点信息和所述第二节点信息获得所述多个分词对应的节点信息。

具体的,所述文字处理单元31对文字信息进行分析处理,利用预先配置的循环神经网络模型获得所述文字信息中分词之间的关联关系。如图2所示,所述文字处理单元31首先将所述文字信息进行分词处理,获得多个分词;所述多个分词可看作时间序列;所述文字信息中分词的排列顺序可作为正序;则每个分词可对应一个词向量;将每个分词对应的词向量分别与一个词向量矩阵相乘后可获得一个固定维度的向量x,相应的,所述多个分词可对应获得多个具有固定维度的向量x;若所述文字信息分词后获得的分词数量为n,n为正整数;则每个分词可表示为wn,所述文字信息通过分词可表示为(w1,…,wt,…,wn);其中,w1表示正序排序后的第一个分词;相应的,wn表示正序排序后的第n个分词;所述文字信息对应的第一序列向量可表示为(x1,…,xt,…,xn);其中,x1表示分词w1对应的向量;相应的,xn表示分词wn对应的向量。

进一步地,将所述第一序列向量按照当前的正序顺序输入至预先配置的第一循环神经网络中获得第一节点信息,所述第一节点信息可通过表示;其中,所述第一节点信息中的每个节点子信息表示对应分词与排序在前的其他分词之间的关联关系。例如,表示分词wn与分词w1,…,分词wn-1之间的关联关系。

进一步地,为了更好的对文字信息进行表示,将表示文字信息的第一序列向量(x1,…,xt,…,xn)按照倒序顺序进行排列,即获得第二序列向量(xn,…,xt,…,x1);将所述第二序列向量输入至预先配置的第二循环神经网络模型获得第二节点信息,所述第二节点信息可通过表示;所述第二节点信息中的任一节点子信息的获得方式可参照前述表达式(1)至表达式(5)的计算方式,这里不再赘述。进一步将所述第一节点信息和第二节点信息进行组合,获得所述多个分词中每个分词对应的节点子信息;组合的方式可以是串接,即将任一分词对应的第二节点信息串接在第一节点信息后;例如,第t个分词对应的节点子信息可表示为

本实施例中,所述循环神经网络模型(包括第一循环神经网络模型和第二循环神经网络模型)可采用现有技术中的任意循环神经网络模型,例如lstm神经网络模型。

基于上述实施方式,进一步地,基于预先配置的第一分类模型获得每个分词对应的节点子信息的分类参数,从而基于获得的分类参数确定对应的分词是否是关键信息。在本实施例中,预先采集大量的采样数据,并基于采样数据进行学习训练,获得所述第一分类模型。其中,采用的学习训练算法可以是现有的任意训练算法,例如随机梯度下降算法。具体的,采样数据具体可以是文本数据,对文本数据中的关键信息进行标记,例如,若认定某一文本数据中的某个分词是关键信息,可将标记y设置为0,相应的,若该分词不是关键信息,可将标记y设置为1。则将所述文字信息中的每个分词对应的节点子信息(例如可通过表示)逐一输入至所述第一分类模型中,获得每个分词对应的分类参数;当获得的分类参数与第一预设分类参数一致时,例如配置0表示关键信息,则当所述分类参数为0时,表示相应的分词为关键信息。

本实施例中,所述图像处理单元32对输入的图像数据进行分割处理,获得多个分割图像数据;其中,对图像数据进行分割处理,具体是将所述图像数据分割为多个、且具有特定属性的区域。其中,所述具有特定属性的区域具体可以是:属于同一目标对象的区域、和/或属于同一类型目标对象的区域。本实施例中可采用预设图像分割算法对所述图像数据进行分割处理,所述预设图像分割算法包括但不限于阈值分割算法、区域分割算法、边缘分割算法、直方图法等等。如图3a所示,为待进行分割处理的图像数据;则将所述图像数据进行分割处理后,获得分割图像数据s1、分割图像数据s2…分割图像数据sn,如图3b所示;则上述分割图像数据可如图3c所示;其中,相连通且灰度值相同的区域表示同一分割区域。

本实施例中,所述匹配单元33,用于基于预先配置的卷积神经网络模型获得所述多个分割图像数据对应的向量节点信息;所述向量节点信息表征所述多个分割图像数据中特征图像数据与其他特征图像数据的关联关系;组合所述节点信息和所述向量节点信息生成所述多个分词和所述多个分割图像数据对应的特征信息;基于预先配置的第二分类模型获得所述特征信息的第二分类参数;当所述第二分类参数与第二预设分类参数一致时,确定与所述第二分类参数相对应的特定分词和特定分割图像数据匹配一致。

其中,所述匹配单元33,用于将第一分割图像数据输入预先配置的第一卷积神经网络模型中,获得第一向量节点信息;所述第一分割图像数据为所述多个分割图像数据中的任一分割图像数据;所述第一向量节点信息表征所述第一分割图像数据中任一特征点与其他特征点之间的关联关系;将包括所述多个分割图像数据的图像数据输入预先配置的第二卷积神经网络模型中,获得第二向量节点信息;所述第二向量节点信息表征任一分割图像数据与其他分割图像数据之间的关联关系;组合所述第一向量节点信息和所述第二向量节点信息获得所述多个分割图像数据对应的向量节点信息。

具体的,所述匹配单元33将文字信息对应的节点信息进行归一化处理。首先将所述文字信息中包括的所述多个分词对应的节点信息进行平均处理,获得所述文字信息包括的所述多个分词对应的平均节点信息h:所述平均节点信息的获取方式可参照前述表达式(11)所述。

进一步地,对表达式(11)获得的平均节点信息h进行归一化处理,具体是进行预设非线性运算,获得归一化处理后的平均节点信息mh;其中mh可通过表达式(12)表示。

进一步地,本实施例中,一方面,所述匹配单元33将所述图像数据包括的多个分割图像数据中的任一分割图像数据(例如第i个分割图像数据si)输入到预先配置的第一深度卷积神经网络模型中得到第一向量节点信息,假设所述第一向量节点信息通过zi表示;所述向量节点信息表示所述分割图像数据中特征点之间的关联关系;所述特征点具体可以为所述分割图像数据中的像素或像素集合。另一方面,所述匹配单元33将完整的所述图像数据输入到预先配置的第二深度卷积神经网络模型中得到第二向量节点信息;假设所述第二向量节点信息通过z表示;所述第二向量节点信息表示完整的图像数据中任一分割图像数据与除所述任一分割图像数据以外的其他分割图像数据关联关系。进一步地,将所述第一向量信息和所述第二向量节点信息组合以获得所述多个分割图像数据中任一分割图像数据对应的向量节点信息。则本实施例中分割图像数据si的向量节点信息可以表示成且满足表达式(13)所示。

进一步地,本实施例中对向量节点信息做归一化处理,具体是进行预设的非线性的运算,获得归一化处理后的向量节点信息mz;其中,mz可通过表达式(14)表示。

进一步地,组合所述向量节点信息和前述与文字信息对应的所述节点信息,即将分别归一化处理后的平均节点信息mh和向量节点信息将mz拼接在一起得到m,m表示所述多个分词和所述多个分割图像数据之间的关联关系,也可以表示所述多个分词和所述多个分割图像数据对应的特征信息;所述m满足表达式(15)表示。

进一步地,基于预先配置的第二分类模型获得所述特征信息对应的第二分类参数;当所述第二分类参数与第二预设分类参数一致时,确定与所述第二分类参数相对应的特定分词和特定分割图像数据匹配一致,也即确定所述第二分类参数所对应的分词与分割图像数据匹配一致;相应的,当所述分词确定为关键信息时,则与所述分词匹配一致的分割图像数据为本实施例中与关键信息相匹配的第一分割图像数据。在本实施例中,预先采集大量的采样数据,并基于采样数据进行学习训练,获得所述第二分类模型。其中,采用的学习训练算法可以是现有的任意训练算法,例如随机梯度下降算法。本实施例中对采样数据的学习训练过程获得所述第二分类模型的过程具体可参照前述第一分类模型的学习训练过程,这里不做过多描述。

本领域技术人员应当理解,本发明实施例的信息处理设备中各处理单元的功能,可参照前述信息处理方法的相关描述而理解,本发明实施例的信息处理设备中各处理单元,可通过实现本发明实施例所述的功能的模拟电路而实现,也可以通过执行本发明实施例所述的功能的软件在智能终端上的运行而实现。

在本发明实施例中,所述信息处理设备中的文字处理单元31、图像处理单元32和匹配单元33,在实际应用中均可由所述设备中的中央处理器(cpu,centralprocessingunit)、数字信号处理器(dsp,digitalsignalprocessor)或可编程门阵列(fpga,field-programmablegatearray)实现。

本发明实施例中,所述信息处理设备作为硬件实体的一个示例如图6所示。所述信息处理设备包括处理器41、存储介质42以及至少一个外部通信接口43;所述处理器41、存储介质42以及外部通信接口43均通过总线44连接。

这里需要指出的是:以上涉及服务器项的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。对于本发明服务器实施例中未披露的技术细节,请参照本发明方法实施例的描述。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1