一种基于胶囊网络的水军评论检测系统及方法与流程

文档序号:17587439发布日期:2019-05-03 21:27阅读:421来源:国知局
一种基于胶囊网络的水军评论检测系统及方法与流程

本发明涉及情感分析和观点挖掘领域,特别是一种基于胶囊网络的水军评论检测系统及方法。



背景技术:

当前,有很多技术方法可用于水军评论检测。传统的检测方法单纯从文本分类的角度出发,很难确定评论上下文语义的不同。区别于传统的文本分类方法,如何利用文中空间的信息,进行针对水军评论的文本分类,是水军评论检测的问题关键。传统的研究工作主要是基于有监督的机器学习的方法,该方法通过构建视角相关的特征,使用支持向量机(svm)分类器进行分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效,但是需要大量的特征工程,耗时耗力,并且受限于人工设计的规则和特征的有效性以及模型的学习能力,故而其性能还有待提升。

当前,随着深度学习的快速发展,基于多层神经网络的表示学习模型在语义表示与情感分析运用方面更具优势。许多研究者们也将这些模型用于水军评论的分类。神经网络模型与有监督的机器学习方法相比,能够自动从数据中学习文本表示,从而避免了大量的特征工程,在捕获特征和上下文之间复杂的语义关系方面也有更好的拓展性。但传统的神经网络文本分类模型只是简单地将视角作为特征之一用于模型学习,没有充分考虑视角和上下文之间的关系,不能衡量上下文中每个词对视角级情感分类的语义贡献程度。记忆网络模型在自然语言处理中应用广泛,能够较好地对视角和上下文进行建模,得到上下文的语义分布情况,并且与循环神经网络模型相比,该方法更加简单、计算速度更快。但忽略了词序信息,上下文中的词之间是相互独立的。胶囊神经网络具有学习空间特征的能力,可以通过动态路由机制构造短语特征,密切上下文之间的联系。

当前,水军评论方法未充分利用文本中的视角信息,无法有效地挖掘出潜在的观点信息。近年来,得到了国内外许多学者和研究机构的高度重视,水军评论检测分类利用了文本中不同信息,进行文本分类,能够站在数据使用者的角度进行分析,提供更加细粒度的信息,有效提高水军评论检测的分析结果的准确程度,有助于研判人员更加了解人们对热点话题、组织、产品等各种实体的真实观点和看法,为研判人员提供更加有效而准确的信息。这就对水军评论检测技术提出了一个挑战:如何构建一个有效的水军评论检测系统来满足其需要。



技术实现要素:

有鉴于此,本发明的目的是提出一种基于胶囊网络的水军评论检测系统及方法,能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出文本空间特征。

本发明采用以下方案实现:一种基于胶囊网络的水军评论检测系统,具体包括:

一个文本特征提取模块,用于根据输入的数据的文本信息得到包含上下文信息的文本特征;

一个胶囊网络模块,将所述文本特征提取模块的输出作为输入,并提取文本特征的空间结构信息,得到包含整体与部分关系的文本特征;

一个集成学习模块,将数据的行为特征以及胶囊网络模块输出的文本特征共同作为输入,用分类函数得到评论最终的分类结果。

进一步地,所述文本特征提取模块借助开元的glove工具事先在大语料里训练得到词向量表,将输入的数据的文本信息用向量表示。

进一步地,所述文本特征提取模块包括lstm层,所述lstm层将向量表示的文本信息进行文本上下文相关的特征抽取及注意力构建。

进一步地,所述lstm层采用双向lstm网络,将输入的词向量进行拼接,考虑了上下文因素对文本特征的影响,能够实现特征的抽象化。

进一步地,所述集成学习模块采用双层堆叠分类模型对输入进行分类。

本发明还提供了一种基于上文所述的基于胶囊网络的水军评论检测系统的方法,具体包括以下步骤:

步骤s1:将输入的数据分为文本信息与行为信息,对行为信息进行特征抽取获得行为特征,将文本信息送入所述文本特征提取模块,得到包含上下文信息的文本特征;

步骤s2:将得到的包含上下文信息的文本特征送入所述胶囊网络模块,并提取该文本特征的空间结构信息,得到包含整体与部分关系的文本特征;

步骤s3:将胶囊模块输出的文本特征与步骤s1中的行为特征一起输入至所述集成学习模块中,用分类函数得到评论最终的分类结果。

进一步地,所述文本特征提取模块借助开元的glove工具事先在大语料里训练得到词向量表,将输入的数据的文本信息用向量表示,并借助双向lstm层将向量表示的文本信息进行文本上下文相关的特征抽取及注意力构建。

进一步地,所述集成学习模块采用双层堆叠分类模型对输入进行分类。

特别的,在模型的训练阶段,权重矩阵都是参数,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。

与现有技术相比,本发明有以下有益效果:本发明提出的系统及方法能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出文本空间特征。

附图说明

图1为本发明实施例的原理示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示,本实施例提供了一种基于胶囊网络的水军评论检测系统,具体包括:

一个文本特征提取模块,用于根据输入的数据的文本信息得到包含上下文信息的文本特征;

一个胶囊网络模块,将所述文本特征提取模块的输出作为输入,并提取文本特征的空间结构信息,得到包含整体与部分关系的文本特征;

一个集成学习模块,将数据的行为特征以及胶囊网络模块输出的文本特征共同作为输入,用分类函数得到评论最终的分类结果。

在本实施例中,所述文本特征提取模块借助开元的glove工具事先在大语料里训练得到词向量表,将输入的数据的文本信息用向量表示。

在本实施例中,所述文本特征提取模块包括lstm层,所述lstm层将向量表示的文本信息进行文本上下文相关的特征抽取及注意力构建。

在本实施例中,所述lstm层采用双向lstm网络,将输入的词向量进行拼接,考虑了上下文因素对文本特征的影响,能够实现特征的抽象化。

具体的,因为神经网络的输入数据一般是向量,以便模型的端到端训练,因此需要首先对文本数据进行向量化表示。为了便于数据的处理和分析,将本实施例的数据送至双向lstm中,计算上下文中每个词窗口的语义信息。凸显了一部分语义特征得分,得到语义信息得分集合,为了使得这一得分可以用于文本语义的加权。

具体的,所述胶囊网络模块由卷积胶囊层和动态路由两部分组成。非线性映射以迭代的方式构造,确保每个胶囊的输出被发送到后续层中的适当父代。对于每个潜在的父节点,胶囊网络可以通过动态路由来增加或减少连接强度,这比cnn中的基本路由策略更有效,例如cnn中的最大池化技术,其基本上检测特征是否存在于文本的任何位置,但丢失了关于该特征的空间信息。引入了迭代路由过程来决定低层和高层节点之间的指向。作为结果,模型可以编码部分和整体之间的内在空间关系,从而构成基于已有的知识从看到的局部自动生成看到新的东西。

在本实施例中,所述集成学习模块采用双层堆叠分类模型对输入进行分类。

具体的,将前面得到的文本特征与行为特征输入所述集成学习模块,集成学习模块构造双层堆叠分类模型。在训练阶段,需要将预测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的预测值输出即可。

本实施例还提供了一种基于上文所述的基于胶囊网络的水军评论检测系统的方法,具体包括以下步骤:

步骤s1:将输入的数据分为文本信息与行为信息,对行为信息进行特征抽取获得行为特征,其中,所述行为信息例如用户一天内最大评论数以及用户之间的评论相互转发以及点赞关系;将文本信息送入所述文本特征提取模块,得到包含上下文信息的文本特征,其中,文本信息主要指的是具体各个单词出现的前后顺序以及单词在句子中出现的位置,使用标记数据来优化特定任务的上下文表示,已应用于各种nlp任务,包括词义消歧,共指解析与释义检测。通用的词向量,例如word2vec和glove,是从大规模语料库中学习、捕捉每个单词的语义及句法信息,使用神经网络都可以对文本上下文进行有效的建模。

步骤s2:将得到的包含上下文信息的文本特征送入所述胶囊网络模块,并提取该文本特征的空间结构信息,得到包含整体与部分关系的文本特征,可以获取到每个单词在整个评论句子中对句意表达的重要程度,以找到句子中的关键词在特征提取时赋予更高的权重,例如“ireallyenjoyandiusuallygetmyhairdobecauseofthequalityandthepriceisveryaffordablethehighlightfantastic”句子中的enjoy与fantastic特征提取时的权重将会高于其他单词;

步骤s3:将胶囊模块输出的文本特征与步骤s1中的行为特征一起输入至所述集成学习模块中,用分类函数得到评论最终的分类结果。

在本实施例中,所述文本特征提取模块借助开源的glove工具事先在大语料里训练得到词向量表,将输入的数据的文本信息用向量表示,并借助双向lstm层将向量表示的文本信息进行文本上下文相关的特征抽取及注意力构建。

在本实施例中,所述集成学习模块采用双层堆叠分类模型对输入进行分类。

特别的,在本实施例中,在模型的训练阶段,权重矩阵都是参数,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1