信息处理方法及装置制造方法

文档序号:6549982
信息处理方法及装置制造方法
【专利摘要】本发明实施例公开了一种信息处理方法及装置;所述方法包括:利用评价对象种子、评价词种子以及评价关系种子对深度神经网络进行训练;在第一输入层对候选评价对象、候选评价词以及候选评价关系对应的向量进行连接得到第一输入向量,在第一隐藏层对所述第一输入向量进行压缩得到第一中间向量,在第一输出层将所述第一中间向量进行解码得到第一输出向量;确定解码错误值小于解码错误值阈值的第一输出向量,并将所确定的第一输出向量对应的候选评价对象、候选评价词以及候选评价关系确定为第一观点信息。采用本发明实施例的技术方案,能够提升从评价文本中提取观点信息的精度。
【专利说明】信息处理方法及装置

【技术领域】
[0001] 本发明涉及观点挖掘技术,尤其涉及一种信息处理方法及装置。

【背景技术】
[0002] 随着互联网的迅速扩张,网络购物日益普及,许多网络购物网站提供了产品评价 平台,方便用户分享产品使用经验以及对产品作出评价,这些评价无论对于消费者还是产 品提供者都有重要参考价值。
[0003] 目前,相关技术使用观点挖掘(也称为评论挖掘)装置对来自产品评价平台的评 价文本(也称为语料)进行分析,得到用户对于产品的观点信息,但是测试证明,相关技术 提供的信息处理装置所得到观点信息的准确率不高,这就使错误的观点信息成为"噪声", 过多的"噪声"导致产品提供者无法对产品的市场反应做出准确判断,也使消费者无法根据 观点信息正确选择所需要的产品。


【发明内容】

[0004] 本发明实施例提供一种信息处理方法及装置,能够提升从评价文本中提取观点信 息的精度。
[0005] 本发明实施例的技术方案是这样实现的:
[0006] 本发明实施例提供一种信息处理方法,所述方法包括:
[0007] 利用评价对象种子、评价词种子以及评价关系种子对深度神经网络进行训练,所 述深度神经网络包括第一输入层、第一隐藏层以及第一输出层,所述第一输入层与所述第 一输出层的节点的数量对应,且所述第一输入层的节点的数量大于所述第一隐藏层的节点 的数量;
[0008] 在所述第一输入层对候选评价对象、候选评价词以及候选评价关系对应的向量进 行连接得到第一输入向量,在所述第一隐藏层对所述第一输入向量进行压缩得到第一中间 向量,在所述第一输出层将所述第一中间向量进行解码得到第一输出向量;
[0009] 确定解码错误值小于解码错误值阈值的第一输出向量,并将所确定的第一输出向 量对应的候选评价对象、候选评价词以及候选评价关系确定为第一观点信息。
[0010] 优选地,所述利用评价对象种子、评价词种子以及评价关系种子对深度神经网络 进行训练,包括:
[0011] 在所述第一输入层将所述评价对象种子、所述评价词种子以及所述评价关系种子 对应的向量进行连接得到第二输入向量;
[0012] 在所述第一隐藏层对所述第二输入向量进行压缩得到第二中间向量;
[0013] 更新所述深度神经网络的参数集合,直至第二输出向量与所述第二输入向量的欧 氏距离最小,所述第二输出向量为在所述第一输出层对所述第二中间向量进行解码得到的 向量。
[0014] 优选地,所述方法还包括:
[0015] 根据以下维度将所述第一观点信息中的评价对象进行降序排序:所述第一观点信 息中的评价对象在评价文本中出现的次数;所述第一观点信息中的评价对象被识别为评价 对象正样例的次数;
[0016] 按照降序在所述降序排序后的评价对象中选取Μ个评价对象,将所选取的Μ的评 价对象确定为所述评价对象种子的子集,Μ为大于1的整数;
[0017] 利用更新后的所述评价对象种子、所述评价词种子以及所述评价关系种子对所述 深度神经网络进行训练。
[0018] 优选地,利用更新后的所述评价对象种子、所述评价词种子以及所述评价关系种 子对所述深度神经网络进行训练之后,所述方法还包括:
[0019] 在所述更新后的深度神经网络的第一输入层对所述候选评价对象、所述候选评价 词以及所述候选评价关系对应的向量进行连接得到第三输入向量,在所述更新后的深度神 经网络的第一隐藏层对所述第三输入向量进行压缩得到第三中间向量,在所述更新后的深 度神经网络的第一输出层将所述第三中间向量进行解码得到第三输出向量;
[0020] 确定解码错误值小于解码错误值阈值的第三输出向量,并将所确定的第三输出向 量对应的候选评价对象、候选评价词以及候选评价关系确定为第二观点信息。
[0021] 优选地,确定解码错误值小于解码错误值阈值的第一输出向量之前,所述方法还 包括:
[0022] 根据以下维度确定所述解码错误值阈值:
[0023] 从评价文本中提取观点信息的目标精度;从所述评价文本中提取观点信息的目标 数量;其中,
[0024] 所述解码错误值阈值与所述目标精度负相关,且与所述目标数量正相关。
[0025] 优选地,在深度神经网络第一输入层,将候选评价对象、候选评价词以及候选评价 关系对应的向量进行连接之前,所述方法还包括:
[0026] 利用所述深度神经网络将所述候选评价对象、所述候选评价词映射为对应的向 量;
[0027] 在所述深度神经网络第二隐藏层至第η隐藏层将所述评价关系的句法依存路径 包括的对象递归映射为向量;其中,
[0028] 经过映射所得到向量中任意两个向量的欧氏距离与所述任意两个向量在语义或 句法上的似然比测试(LRT,Likelihood Ratio Test)指标正相关,η为正整数,且η与所述 评价关系的句法依存路径包括的对象的数量对应。
[0029] 优选地,在深度神经网络第一输入层,将评价对象、评价词以及评价关系映射的向 量进行连接之前,所述方法还包括:
[0030] 从评价文本中提取名词;
[0031] 确定初始评价对象种子与评价文本中提取的名词之间的LRT指标;
[0032] 将所提取的名词中与所述初始评价对象种子的LRT指标大于LRT指标阈值的名词 确定为所述评价对象种子的子集。
[0033] 本发明实施例还提供一种信息处理装置,包括:
[0034] 训练单元,用于利用评价对象种子、评价词种子以及评价关系种子对深度神经网 络进行训练,所述深度神经网络包括第一输入层、第一隐藏层以及第一输出层,所述第一输 入层与所述第一输出层的节点的数量对应,且所述第一输入层的节点的数量大于所述第一 隐藏层的节点的数量;
[0035] 连接单元,用于在所述第一输入层对候选评价对象、候选评价词以及候选评价关 系对应的向量进行连接得到第一输入向量;
[0036] 压缩单元,用于在所述第一隐藏层对所述第一输入向量进行压缩得到第一中间向 量;
[0037] 解码单元,用于在所述第一输出层将所述第一中间向量进行解码得到第一输出向 量;
[0038] 第一确定单元,用于确定解码错误值小于解码错误值阈值的第一输出向量,并将 所确定的第一输出向量对应的候选评价对象、候选评价词以及候选评价关系确定为第一观 点信息。
[0039] 优选地,所述连接单元,还用于在所述第一输入层将所述评价对象种子、所述评价 词种子以及所述评价关系种子对应的向量进行连接得到第二输入向量;
[0040] 所述压缩单元,还用于在所述第一隐藏层对所述第二输入向量进行压缩得到第二 中间向量;
[0041] 所述解码单元,还用于在所述第一输出层对所述第二中间向量进行解码得到第二 输出向量;
[0042] 所述训练单元,还用于更新所述深度神经网络的参数集合,直至所述第二输出向 量与所述第二输入向量的欧氏距离最小。
[0043] 优选地,所述装置还包括:
[0044] 排序单元,用于将所述第一观点信息中的评价对象按照以下维度进行降序排序: 所述第一观点信息中的评价对象在评价文本中出现的次数;所述第一观点信息中的评价对 象被识别为评价对象正样例的次数;
[0045] 更新单元,用于按照降序在所述降序排序后的评价对象中选取Μ个评价对象,将 所选取的Μ的评价对象确定为所述评价对象种子的子集,Μ为大于1的整数;
[0046] 所述训练单元,还用于利用更新后的所述评价对象种子、所述评价词种子以及所 述评价关系种子对所述深度神经网络进行训练。
[0047] 优选地,所述连接单元,还用于在所述更新后的深度神经网络的第一输入层对所 述候选评价对象、所述候选评价词以及所述候选评价关系对应的向量进行连接得到第三输 入向量;
[0048] 所述压缩单元,还用于在所述更新后的深度神经网络的第一隐藏层对所述第三输 入向量进行压缩得到第三中间向量;
[0049] 所述解码单元,还用于在所述更新后的深度神经网络的第一输出层将所述第三中 间向量进行解码得到第三输出向量;
[0050] 所述第一确定单元,还用于确定解码错误值小于解码错误值阈值的第三输出向 量,并将所确定的第三输出向量对应的候选评价对象、候选评价词以及候选评价关系确定 为第二观点信息。
[0051] 优选地,所述第一确定单元,还用于在确定所述第一输出向量中解码错误值小于 解码错误值阈值的向量之前,根据以下维度确定所述解码错误值阈值:
[0052] 从评价文本中提取观点信息的目标精度;从所述评价文本中提取观点信息的目标 数量;其中,
[0053] 所述解码错误值阈值与所述目标精度负相关,且与所述目标数量正相关。
[0054] 优选地,所述装置还包括:
[0055] 第一映射单元,用于利用所述深度神经网络将所述候选评价对象、候选评价词映 射为对应的向量;
[0056] 第二映射单元,用于在所述深度神经网络第二隐藏层至第η隐藏层将所述评价关 系的句法依存路径包括的对象递归映射为向量;其中,
[0057] 经过映射所得到向量中任意两个向量的欧氏距离与所述任意两个向量在语义或 句法上的LRT指标正相关,η为正整数,且η与所述评价关系对应的句法依存路径包括的对 象的数量对应。
[0058] 优选地,所述装置还包括:
[0059] 提取单元,用于从评价文本中提取名词;
[0060] 第二确定单元,用于确定初始评价对象种子与评价文本中提取的名词之间的LRT 指标;将所提取的名词中与所述初始评价对象种子的LRT指标大于LRT指标阈值的名词确 定为所述评价对象种子的子集。
[0061] 本发明实施例中,将评价对象、评价词以及评价关系对应的向量在深度神经网络 第一输入层连接,并输入到第一隐藏层,由于第一隐藏层的节点数量小于第一输入层的节 点数量,因此相当于在第一隐藏层对输入的向量每个维度的所表征的在语义或句法上的特 性进行了压缩;当输出至第一输出层进行计算时,由于第一输出层的节点数量与第一输入 层的节点数量对应,相当于对隐藏层压缩后的中间向量进行了解码输出,发明人在实施本 发明的过程中发现,向量的解码错误值越小,则向量所对应的评价对象、评价词以及评价关 系是正确的观点信息的概率就越大,从而可以根据解码错误值控制观点信息的提取精度, 达到了提升从评价文本中提取观点信息的精度的效果。

【专利附图】

【附图说明】
[0062] 图1是本发明实施例中信息处理方法的实现流程图;
[0063] 图2a是本发明实施例中信息处理装置的功能结构图一;
[0064] 图2b是本发明实施例中信息处理装置的功能结构图二;
[0065] 图2c是本发明实施例中信息处理装置的功能结构图三;
[0066] 图2d是本发明实施例中信息处理装置的功能结构图四;
[0067] 图3是本发明实施例中信息处理装置与评价平台连接的拓扑图;
[0068] 图4是本发明实施例中句法依存路径的示意图;
[0069] 图5是本发明实施例中进行词向量学习的示意图;
[0070] 图6是本发明实施例中利用深度神经网络得到评价关系对应的向量的示意图一;
[0071] 图7是本发明实施例中利用深度神经网络得到评价关系对应的向量的示意图二;
[0072] 图8是本发明实施例中利用深度神经网络提取观点信息的示意图;
[0073] 图9a?图9d是本发明实施例中利用深度神经网络提取观点信息的精度、以及相 关技术提取观点信息的精度的对比示意图。

【具体实施方式】
[0074] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0075] 发明人在实施本发明的过程中发现,相关技术中,信息处理装置得到的观点信息 包括评价对象(通常是产品的功能或属性)、评价词(表达用户观点倾向的词,可以理解为 极性感情词)和评价关系(即评价词与评价对象之间的修饰关系);发明人还发现,相关技 术中信息处理装置输出的观点信息准确率不高的问题,表现在以下方面:
[0076] 1)评价词识别错误。
[0077] 即将未表达用户观点倾向的词识别为评价词。
[0078] 例如,如果mp3领域的评价文本(即评价文本来自mp3产品的评价平台)中包括 评价文本"Just another mp3I bought",信息处理装置根据句法依存路径对评价文本进行 处理时,认为与一个评价对象在句子中位置最接近的词是评价词,因此当利用"mp3"作为评 价对象种子在评价文本中进行查找时,对于上述评价文本,确定"another"为修饰评价对象 "mp3"的评价词,由于评价词"another"不是极性感情词(例如好,差),导致输出了噪声观 点信息,影响了提取观点信息的精度。
[0079] 类似地,相关技术中,当信息处理装置使用共现统计方式确定观点信息时,如果 mp3领域的评价文本中," another "与评价对象种子"mp3 "在评价文本中共同出现的次数 (设为a)、与"another在评价文本中单独出现的次数(设为b)和"mp3"在评价文本中 单独出现的次数(设为c)加和的比值,即aAb+c)超过预设阈值,则确定"another"与 "mp3"为观点信息中的元素,并根据词性确定"another"用于评价"mp3",相应的观点信息 为"another mp3",导致提取出了噪声观点信息,影响了提取观点信息的精度。
[0080] 2)评价对象识别错误。
[0081] 即错误地识别了评价对象所修饰的词。
[0082] 例如,对于评价文本"the mp3has many good things",当信息处理装置基于句法依 存路径对评价文本进行处理时,认为与一个评价对象在句子中位置最接近的词是评价词, 即与评价对象最接近的词与评价对象之间存在评价关系,因此当利用"good"作为评价词种 子在mp3领域的评价文本(即评价文本是mp3产品的评价文本)中进行查找时,对于上述 评价文本,确定与"good"修饰的对象即评价对象是"things",然而things与mp3产品领域 无关的词,这就产生了噪声观点信息。
[0083] 类似地,相关技术中当信息处理装置使用共现统计方式确定观点信息时,当以 "mp3"作为评价对象种子在mp3的评价文本中进行查找时,如果评价文本中"another"与 "mp3"在评价文本中共同出现的次数、"another "和"mp3"在评价文本中单独出现的次数 的比值超过预设阈值,则确定"another"与"mp3"为观点信息中的元素,并根据词性确定 "another"用于评价"mp3",相应地观点信息为"another mp3",导致产生了噪声观点信息。 [0084] 结合上述分析,发明人发现,相关技术中提取观点信息时,仅仅是在评价文本中对 评价词、评价对象、评价关系中的任意两个进行了验证,导致提取观点信息精度低的问题。 例如,当根据评价对象种子词确定了评价词时,则确定该评价词是用于修饰评价对象种子 词的,而对于所确定的评价词和评价对象种子词之间的修饰关系是否准确,则未进行验证; 同理,当根据评价词种子确定了评价对象时,则确定评价词种子是用于修饰所确定的评价 对象的,而对于评价词种子和所确定的评价对象之间的修饰关系是否准确,则不进行验证, 导致相关技术的信息处理装置出现观点信息提取精度不高的问题;据此,发明人认为,如果 从评价文本中提取观点信息时,能够对评价词、评价对象和评价关系同时进行验证,则能显 著提高提取观点信息的精度。
[0085] 本发明实施例记载一种信息处理方法,能够对评价文本中包含的评价词、评价对 象、评价关系同时进行验证,提取观点信息的精度高,如图1所示,本发明实施例记载的信 息处理方法包括以下步骤:
[0086] 步骤101,利用评价对象种子、评价词种子以及评价关系种子对深度神经网络进行 训练。
[0087] 所述深度神经网络包括第一输入层、第一隐藏层以及第一输出层,所述第一输入 层与所述第一输出层的节点的数量对应,且所述第一输入层的节点的数量大于所述第一隐 藏层的节点的数量。
[0088] 评价对象种子、评价词种子以及评价关系种子可以与不同的产品领域如(MP3、 Phone)对应,评价对象种子、评价词种子以及评价关系种子构成了相应领域产品的正确的 观点信息(与噪声观点信息对立),因此,种子也可以视为正样例,评价对象种子、评价词种 子以及评价关系种子构成了观点信息正样例。
[0089] 步骤102,在所述第一输入层对候选评价对象、候选评价词以及候选评价关系对应 的向量进行连接得到第一输入向量。
[0090] 候选评价对象、候选评价词以及候选评价关系构成了候选观点信息,本发明实施 例的目的在于从候选观点信息中提取正确的观点信息;候选评价对象、候选评价词可以从 评价文本中抽取得到,例如,可以从评价文本中提取动词和形容词作为候选评价词,并从评 价文本中提取名词作为候选评价对象;对于候选评价关系,可以基于评价文本的句法依存 路径确定。
[0091] 候选评价对象、候选评价词对应的向量可以利用深度神经网络进行词向量学习的 方式得到,词向量的学习是指将候选评价对象、候选评价词映射到一个高维空间得到的向 量,向量的每个维度表征词在句法或语义上的特性;本发明实施例中根据以下策略进行词 向量的学习,当两个词在句法或者语义上越相近时,这两个词的词向量的欧式距离越小。
[0092] 所述候选评价关系对应的向量可以通过在深度神经网络第二隐藏层至第η隐藏 层将所述评价关系根据句法依存路径递归映射的方式得到;其中,经过映射所得到向量中 任意两个向量的欧氏距离与所述任意两个向量在语义或句法上的似然比测试LRT指标正 相关,η为正整数,且η与所述评价关系对应的句法依存路径包括的对象的数量对应。
[0093] 步骤103,在所述第一隐藏层对所述第一输入向量进行压缩得到第一中间向量,在 所述第一输出层将所述第一中间向量进行解码得到第一输出向量。
[0094] 由于第一隐藏层的节点(也称为计算单元)数量小于第一输入层的节点数量,并 且第一隐藏层的每个节点仅承载向量的一个维度的运算,这就可以使第一输入层输出到第 一隐藏层的向量在语义或句法上的特性得到压缩,同时,由于第一输出层与第一输入层的 节点数量一致,这就可以使第一隐藏层输出到第一输出层的中间向量进行了解码。
[0095] 步骤104,确定解码错误值小于解码错误值阈值的第一输出向量,并将所确定的第 一输出向量对应的候选评价对象、候选评价词以及候选评价关系确定为第一观点信息。
[0096] 发明人在实施本发明的过程中发现,如果在第一输入层输入一个观点信息正样例 对应的向量(也即评价对象种子、评价词种子和评价关系种子对应的向量连接而成的向 量),由于向量之间的语义或句法特性越相近,则向量之间的欧氏距离越小,因此,观点信息 正样例的语义和句法特性应该能够很好地在第一输出层解码(也就是会得到一个较小的 解码错误值);相反地,如果在第一输入层输入一个观点信息负样例(即噪声观点信息),那 么在第一输出层输出的向量的解码错误值会大于正样例观点信息对应向量的解码错误值, 导致输出层解码失败;据此,从评价文本中提取观点信息的过程,可以转化为在第一输入层 输入候选评价词、候选评价对象和候选评价关系对应的第一输入向量,验证第一输出层解 码错误值较小的第一输出向量的过程,例如可以将解码输出的第一输出向量中解码错误值 小于解码错误值阈值的向量对应的候选评价词、候选评价对象和候选评价关系作为观点信 息正样例(也即第一观点信息)输出;
[0097] 在第一输入层输入候选评价词、候选评价对象和候选评价关系对应的第一输入向 量之前,需要利用评价词种子、评价对象种子和评价关系种子对深度神经网络进行训练,以 使深度神经网络具有对正样例观点信息对应向量的语义和句法特性在第一输出层正确解 码的良好特性(即解码错误值小);
[0098] 作为一个示例,可以通过以下方式对深度神经网络进行训练:在所述第一输入层 将所述评价对象种子、所述评价词种子以及评价关系种子对应的向量进行连接得到第二输 入向量;在所述第一隐藏层对所述第二输入向量进行压缩得到第二中间向量;更新所述深 度神经网络的参数集合,直至第二输出向量与所述第二输入向量的欧氏距离最小,所述第 二输出向量为在所述第一输出层对所述第二中间向量进行解码得到的向量。
[0099] 实际应用中,评价对象种子不可避免地存在分布稀疏的问题,这就导致从评价文 本中提取的第一观点信息不全面,鉴于此,可以将所述第一观点信息中的评价对象按照以 下维度进行降序排序:所述第一观点信息中的评价对象在评价文本中出现的次数;所述第 一观点信息中的评价对象被识别为评价对象正样例的次数;按照降序选取M(M为大于1的 整数)个评价对象,将所选取的Μ的评价对象确定为所述评价对象种子的子集,也就相当于 根据第一次从评价文本中提取的观点信息(即第一观点信息)对评价对象种子进行了扩 充,如此,利用评价词种子、评价关系种子以及更新后的评价对象种子对所述深度神经网络 进行重新训练,能够使深度神经网络具有对正样例观点信息对应向量的语义和句法特性在 第一输出层进行正确解码的良好特性;
[0100] 相应地,可以在更新后的深度神经网络的第一输入层对候选评价对象、候选评价 词以及候选评价关系对应的向量进行连接得到第三输入向量,在更新后的深度神经网络的 第一隐藏层对第三输入向量进行压缩得到第三中间向量,在更新后的深度神经网络的第一 输出层将所述第三中间向量进行解码得到第三输出向量;确定解码错误值小于解码错误值 阈值的第三输出向量,并将所确定的第三输出向量对应的候选评价对象、候选评价词以及 候选评价关系确定为第二观点信息,由于第二观点信息是基于重新训练后的深度神经网络 得到的,因此第二观点信息相对第一观点信息更加全面,也即相较于第一观点信息包括更 多的候选评价词正样例、候选评价对象正样例以及候选评价关系正样例。
[0101] 为了进一步克服评价对象种子分布稀疏的问题,在深度神经网络第一输入层,将 评价对象、评价词以及评价关系映射的向量进行连接以训练深度神经网络之前,还可以从 评价文本中提取名词;确定初始评价对象种子与评价文本中提取的名词之间的LRT指标; 将所提取的名词中与所述初始评价对象种子的LRT指标大于LRT指标阈值的名词确定为所 述评价对象种子的子集;相当于基于评价文本对评价对象种子进行了扩充,由于扩充的评 价对象种子是从评价文本中获取的评价对象正样例,因此利用扩充后的评价对象种子、以 及评价词种子、评价关系种子对深度神经网络进行训练,能够使深度神经网络具有对正样 例观点信息对应向量的语义和句法特性在第一输出层进行正确解码的更加良好的特性。
[0102] 实际应用中,可以根据以下维度确定所述解码错误值阈值:
[0103] 从评价文本中提取观点信息的目标精度;从所述评价文本中提取观点信息的目标 数量;其中,所述解码错误值阈值与所述目标精度负相关,所述解码错误值阈值与所述目标 数量正相关;也就是说,解码错误值阈值越小,则第一观点信息和第二观点信息的精度越 高,由于解码错误值阈值变小,相当于提高了对解码精度的要求,因此在第一输出层得到的 小于解码错误值的第一输出向量也就越少,相应地第一观点信息(或第二观点信息)的数 量也就越少;反之亦然。
[0104] 本发明实施例中,将评价对象、评价词以及评价关系对应的向量在深度神经网络 第一输入层连接,并输入到第一隐藏层,由于第一隐藏层的节点数量小于第一输入层的节 点数量,因此相当于在第一隐藏层对输入的向量每个维度的所表征的在语义或句法上的特 性进行了压缩;当输出至第一输出层进行计算时,由于第一输出层的节点数量与第一输入 层的节点数量对应,相当于对隐藏层压缩后的中间向量进行了解码输出,发明人在实施本 发明的过程中发现,向量的解码错误值越小,则向量所对应的评价对象、评价词以及评价关 系是正确的观点信息的概率就越大,从而可以根据解码错误值控制观点信息的提取精度, 达到了提升从评价文本中提取观点信息的精度的效果;同时,向量是由候选评价对象、候选 评价词以及候选评价关系对应的向量连接而成,这就相当于在提取观点信息时,利用解码 错误阈值同时对评价对象、评价词以及评价关系进行了验证,则提取观点信息的精度必然 商于相关技术。
[0105] 本发明实施例还记载一种计算机存储介质,所述计算机存储介质中存储有计算机 可执行指令,所述计算机可执行指令用于执行图1所示的信息处理方法。
[0106] 本发明实施例还记载一种信息处理装置,如图2所示,包括:
[0107] 训练单元21,用于利用评价对象种子、评价词种子以及评价关系种子对深度神经 网络进行训练,所述深度神经网络包括第一输入层、第一隐藏层以及第一输出层,所述第一 输入层与所述第一输出层的节点的数量对应,且所述第一输入层的节点的数量大于所述第 一隐藏层的节点的数量;
[0108] 连接单元22,用于在所述第一输入层对候选评价对象、候选评价词以及候选评价 关系对应的向量进行连接得到第一输入向量;
[0109] 压缩单元23,用于在所述第一隐藏层对所述第一输入向量进行压缩得到第一中间 向量;
[0110] 解码单元24,用于在所述第一输出层将所述第一中间向量进行解码得到第一输出 向量;
[0111] 第一确定单元25,用于确定解码错误值小于解码错误值阈值的第一输出向量,并 将所确定的第一输出向量对应的候选评价对象、候选评价词以及候选评价关系确定为第一 观点信息。
[0112] 作为一个实施方式,所述连接单元22,还用于在所述第一输入层将所述评价对象 种子、所述评价词种子以及评价关系种子对应的向量进行连接得到第二输入向量;
[0113] 所述压缩单元23,还用于在所述第一隐藏层对所述第二输入向量进行压缩得到第 二中间向量;
[0114] 所述解码单元24,还用于在所述第一输出层对所述第二中间向量进行解码得到的 第二输出向量;
[0115] 所述训练单元21,还用于更新所述深度神经网络的参数集合,直至所述第二输出 向量与所述第二输入向量的欧氏距离最小。
[0116] 作为一个实施方式,如图2b所示,在图2a所示装置的基础上,所述装置还可以包 括:
[0117] 排序单元25,用于将所述第一观点信息中的评价对象按照以下维度进行降序排 序:所述第一观点信息中的评价对象在评价文本中出现的次数;所述第一观点信息中的评 价对象被识别为评价对象正样例的次数;
[0118] 更新单元26,用于按照降序在所述降序排序的评价对象中选取Μ个评价对象,将 所选取的Μ的评价对象确定为所述评价对象种子的子集,Μ为大于1的整数;
[0119] 所述训练单元21,还用于利用更新后的所述评价对象种子、所述评价词种子以及 所述评价关系种子对所述深度神经网络进行训练。
[0120] 作为一个实施方式,所述连接单元22,还用于在所述更新后的深度神经网络的第 一输入层对所述候选评价对象、所述候选评价词以及所述候选评价关系对应的向量进行连 接得到第三输入向量;
[0121] 所述压缩单元23,还用于在所述更新后的深度神经网络的第一隐藏层对所述第三 输入向量进行压缩得到第三中间向量;
[0122] 所述解码单元24,还用于在所述更新后的深度神经网络的第一输出层将所述第三 中间向量进行解码得到第三输出向量;
[0123] 所述第一确定单元25,还用于确定解码错误值小于解码错误值阈值的第三输出向 量,并将所确定的第三输出向量对应的候选评价对象、候选评价词以及候选评价关系确定 为第二观点信息。
[0124] 作为一个实施方式,所述第一确定单元25,还用于在确定所述第一输出向量中解 码错误值小于解码错误值阈值的向量之前,根据以下维度确定所述解码错误值阈值:
[0125] 从评价文本中提取观点信息的目标精度;从所述评价文本中提取观点信息的目标 数量;其中,所述解码错误值阈值与所述目标精度负相关,所述解码错误值阈值与所述目标 数量正相关。
[0126] 作为一个实施方式,如图2c所示,在图2a所示装置的基础上,所述装置还包括:
[0127] 第一映射单元27,用于利用所述深度神经网络将所述候选评价对象、候选评价词 映射为对应的向量;
[0128] 第二映射单元28,用于在所述深度神经网络第二隐藏层至第η隐藏层将所述评价 关系的句法依存路径包括的对象递归映射为对应的向量;其中,
[0129] 经过映射所得到向量中任意两个向量的欧氏距离与所述任意两个向量在语义或 句法上的LRT指标正相关,η为正整数,且η与所述评价关系对应的句法依存路径包括的对 象的数量对应。
[0130] 作为一个实施方式,如图2d所示,在图2a所示装置的基础上,所述装置还可以包 括:
[0131] 提取单元29,用于从评价文本中提取名词;
[0132] 第二确定单元210,用于确定初始评价对象种子与评价文本中提取的名词之间的 LRT指标;将所提取的名词中与所述初始评价对象种子的LRT指标大于LRT指标阈值的名 词确定为所述评价对象种子的子集。
[0133] 需要说明的是,上述信息处理装置进行信息处理的技术特征,与上述方法实施例 记载的技术特征是对应的,对于在装置实施例中未披露的细节,请参见上述方法实施例的 记载。
[0134] 需要说明的是,本发明实施例记载的信息处理装置可以运行于一个或多个服 务器中,信息处理装置中的各单元可由信息处理装置中的中央处理器(CPU,Central Processing Unit)、协处理计算卡实现。
[0135] 下面再结合实际处理场景进行说明,如图3所示,信息处理装置(也可以视为观点 挖掘装置)与运行评价平台的服务器存在数据连接,以从评价平台服务器中获取某一领域 的评价文本进行观点挖掘并输出观点信息,这里,所述的评价平台可以为任意产品评价平 台(例如淘宝、亚马逊的评价平台),由于当前的评价平台总是基于产品类别、型号存储产 品的评价信息,因此,本发明实施例记载的信息处理装置可以直接从运行评价平台的服务 器获取某一领域产品的评价文本,下面对信息处理装置的处理进行说明。
[0136] 步骤一、获取种子
[0137] 对来自评价平台的评价文本进行处理之前需要获取种子,所获取的种子包括评价 词种子、评价对象种子和评价关系种子;评价词种子、评价对象种子和评价关系种子可以构 成观点信息(也称为评价短语)。
[0138] 1)对于评价词种子,信息处理装置从感情词库SentiWordNet获取186个领域(与 不同的产品对应)独立的评价词作为评价词种子集合0S。
[0139] 2)对于评价对象种子,信息处理装置使用LRT指标确定评价对象种子。
[0140] 以确定mp3领域的评价对象种子为例,首先,信息处理装置将名词或名词短语作 为评价对象,并使用分词工具(如斯坦福分词工具)对评价文本进行分词,得到名词集合 {TJ ;
[0141] 其次,基于mp3领域的初始评价对象种子集合{TJ (?\对应mp3的产品属性,例如 存储容量、尺寸、硬件配置等),确定?\与从mp3领域的评价文本中抽取的名词集合{?γ}之 间的LRT指标;
[0142] 再次,将LRT指标最高的预设数量的Τ」与初始对象种子集合{TJ合并,作为评价 对象种子集合TS ;由于LRT指标反映了 L与初始评价对象种子T的相关度,也就是说,Tj与 Τ」的相关度越高,L表征mp3领域的产品属性的可能性就越大,因此,本发明实施例中根据 mp3的评价文本对mp3领域的初始评价对象种子集合{TJ进行扩充,从而能够根据实际应 用中不同的评价文本确定相应的评价对象,克服了评价对象分布系数导致提取的观点信息 片面的缺陷;LRT指标的一个示例如公式(1)所示:
[0143] LRT = SlogUp" k" nj+log L(p2, k2, n2)-log L(p,k" rO-logip,k2, n2} (1)
[0144] 其中,h = tf (?\,Τ』),

【权利要求】
1. 一种信息处理方法,其特征在于,所述方法包括: 利用评价对象种子、评价词种子以及评价关系种子对深度神经网络进行训练,所述深 度神经网络包括第一输入层、第一隐藏层以及第一输出层,所述第一输入层与所述第一输 出层的节点的数量对应,且所述第一输入层的节点的数量大于所述第一隐藏层的节点的数 量; 在所述第一输入层对候选评价对象、候选评价词以及候选评价关系对应的向量进行 连接得到第一输入向量,在所述第一隐藏层对所述第一输入向量进行压缩得到第一中间向 量,在所述第一输出层将所述第一中间向量进行解码得到第一输出向量; 确定解码错误值小于解码错误值阈值的第一输出向量,并将所确定的第一输出向量对 应的候选评价对象、候选评价词以及候选评价关系确定为第一观点信息。
2. 如权利要求1所述的方法,其特征在于,所述利用评价对象种子、评价词种子以及评 价关系种子对深度神经网络进行训练,包括: 在所述第一输入层将所述评价对象种子、所述评价词种子以及所述评价关系种子对应 的向量进行连接得到第二输入向量; 在所述第一隐藏层对所述第二输入向量进行压缩得到第二中间向量; 更新所述深度神经网络的参数集合,直至第二输出向量与所述第二输入向量的欧氏 距离最小,所述第二输出向量为在所述第一输出层对所述第二中间向量进行解码得到的向 量。
3. 如权利要求1所述的方法,其特征在于,所述方法还包括: 根据以下维度将所述第一观点信息中的评价对象进行降序排序:所述第一观点信息中 的评价对象在评价文本中出现的次数;所述第一观点信息中的评价对象被识别为评价对象 正样例的次数; 按照降序在所述降序排序后的评价对象中选取Μ个评价对象,将所选取的Μ的评价对 象确定为所述评价对象种子的子集,Μ为大于1的整数; 利用更新后的所述评价对象种子、所述评价词种子以及所述评价关系种子对所述深度 神经网络进行训练。
4. 如权利要求3所述的方法,其特征在于,利用更新后的所述评价对象种子、所述评价 词种子以及所述评价关系种子对所述深度神经网络进行训练之后,所述方法还包括: 在所述更新后的深度神经网络的第一输入层对所述候选评价对象、所述候选评价词以 及所述候选评价关系对应的向量进行连接得到第三输入向量,在所述更新后的深度神经网 络的第一隐藏层对所述第三输入向量进行压缩得到第三中间向量,在所述更新后的深度神 经网络的第一输出层将所述第三中间向量进行解码得到第三输出向量; 确定解码错误值小于解码错误值阈值的第三输出向量,并将所确定的第三输出向量对 应的候选评价对象、候选评价词以及候选评价关系确定为第二观点信息。
5. 如权利要求1所述的方法,其特征在于,确定解码错误值小于解码错误值阈值的第 一输出向量之前,所述方法还包括: 根据以下维度确定所述解码错误值阈值: 从评价文本中提取观点信息的目标精度;从所述评价文本中提取观点信息的目标数 量;其中, 所述解码错误值阈值与所述目标精度负相关,且与所述目标数量正相关。
6. 如权利要求1所述的方法,其特征在于,在深度神经网络第一输入层,将候选评价对 象、候选评价词以及候选评价关系对应的向量进行连接之前,所述方法还包括: 利用所述深度神经网络将所述候选评价对象、所述候选评价词映射为对应的向量; 在所述深度神经网络第二隐藏层至第η隐藏层将所述评价关系的句法依存路径包括 的对象递归映射为向量;其中, 经过映射所得到向量中任意两个向量的欧氏距离与所述任意两个向量在语义或句法 上的似然比测试LRT指标正相关,η为正整数,且η与所述评价关系的句法依存路径包括的 对象的数量对应。
7. 如权利要求1至6任一项所述的方法,其特征在于,在深度神经网络第一输入层,将 评价对象、评价词以及评价关系映射的向量进行连接之前,所述方法还包括: 从评价文本中提取名词; 确定初始评价对象种子与评价文本中提取的名词之间的LRT指标; 将所提取的名词中与所述初始评价对象种子的LRT指标大于LRT指标阈值的名词确定 为所述评价对象种子的子集。
8. -种信息处理装置,其特征在于,包括: 训练单元,用于利用评价对象种子、评价词种子以及评价关系种子对深度神经网络进 行训练,所述深度神经网络包括第一输入层、第一隐藏层以及第一输出层,所述第一输入层 与所述第一输出层的节点的数量对应,且所述第一输入层的节点的数量大于所述第一隐藏 层的节点的数量; 连接单元,用于在所述第一输入层对候选评价对象、候选评价词以及候选评价关系对 应的向量进行连接得到第一输入向量; 压缩单元,用于在所述第一隐藏层对所述第一输入向量进行压缩得到第一中间向量; 解码单元,用于在所述第一输出层将所述第一中间向量进行解码得到第一输出向量; 第一确定单元,用于确定解码错误值小于解码错误值阈值的第一输出向量,并将所确 定的第一输出向量对应的候选评价对象、候选评价词以及候选评价关系确定为第一观点信 肩、。
9. 如权利要求8所述的装置,其特征在于, 所述连接单元,还用于在所述第一输入层将所述评价对象种子、所述评价词种子以及 所述评价关系种子对应的向量进行连接得到第二输入向量; 所述压缩单元,还用于在所述第一隐藏层对所述第二输入向量进行压缩得到第二中间 向量; 所述解码单元,还用于在所述第一输出层对所述第二中间向量进行解码得到第二输出 向量; 所述训练单元,还用于更新所述深度神经网络的参数集合,直至所述第二输出向量与 所述第二输入向量的欧氏距离最小。
10. 如权利要求8所述的装置,其特征在于,所述装置还包括: 排序单元,用于将所述第一观点信息中的评价对象按照以下维度进行降序排序:所述 第一观点信息中的评价对象在评价文本中出现的次数;所述第一观点信息中的评价对象被 识别为评价对象正样例的次数; 更新单元,用于按照降序在所述降序排序后的评价对象中选取Μ个评价对象,将所选 取的Μ的评价对象确定为所述评价对象种子的子集,Μ为大于1的整数; 所述训练单元,还用于利用更新后的所述评价对象种子、所述评价词种子以及所述评 价关系种子对所述深度神经网络进行训练。
11. 如权利要求10所述的装置,其特征在于, 所述连接单元,还用于在所述更新后的深度神经网络的第一输入层对所述候选评价对 象、所述候选评价词以及所述候选评价关系对应的向量进行连接得到第三输入向量; 所述压缩单元,还用于在所述更新后的深度神经网络的第一隐藏层对所述第三输入向 量进行压缩得到第三中间向量; 所述解码单元,还用于在所述更新后的深度神经网络的第一输出层将所述第三中间向 量进行解码得到第三输出向量; 所述第一确定单元,还用于确定解码错误值小于解码错误值阈值的第三输出向量,并 将所确定的第三输出向量对应的候选评价对象、候选评价词以及候选评价关系确定为第二 观点信息。
12. 如权利要求8所述的装置,其特征在于, 所述第一确定单元,还用于在确定所述第一输出向量中解码错误值小于解码错误值阈 值的向量之前,根据以下维度确定所述解码错误值阈值: 从评价文本中提取观点信息的目标精度;从所述评价文本中提取观点信息的目标数 量;其中, 所述解码错误值阈值与所述目标精度负相关,且与所述目标数量正相关。
13. 如权利要求8所述的装置,其特征在于,所述装置还包括: 第一映射单元,用于利用所述深度神经网络将所述候选评价对象、候选评价词映射为 对应的向量; 第二映射单元,用于在所述深度神经网络第二隐藏层至第η隐藏层将所述评价关系的 句法依存路径包括的对象递归映射为向量;其中, 经过映射所得到向量中任意两个向量的欧氏距离与所述任意两个向量在语义或句法 上的似然比测试LRT指标正相关,η为正整数,且η与所述评价关系对应的句法依存路径包 括的对象的数量对应。
14. 如权利要求8至13任一项所述的装置,其特征在于,所述装置还包括: 提取单元,用于从评价文本中提取名词; 第二确定单元,用于确定初始评价对象种子与评价文本中提取的名词之间的LRT指 标;将所提取的名词中与所述初始评价对象种子的LRT指标大于LRT指标阈值的名词确定 为所述评价对象种子的子集。
【文档编号】G06F3/01GK104049755SQ201410271542
【公开日】2014年9月17日 申请日期:2014年6月18日 优先权日:2014年6月18日
【发明者】刘康, 刘怀军, 路彦雄, 王巨宏, 刘婷婷, 徐立恒, 赵军 申请人:中国科学院自动化研究所, 腾讯科技(深圳)有限公司
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1