一种基于卷积神经网络的社交网络文本聚类方法与流程

文档序号:12464975阅读:2044来源:国知局
一种基于卷积神经网络的社交网络文本聚类方法与流程

本发明是一种基于卷积神经网络的社交网络文本聚类方法。



背景技术:

随着互联网的飞速发展,越来越多的用户喜欢在网络上发布自己的观点、分享个人的生活状态,同时加强与朋友的沟通交流,社交媒体也因此发展迅猛。微博,作为一个基于用户关系信息分享、传播以及获取的平台,改变了传统网络媒体交流方式,开创了一个新的社交媒体互动模式,给用户提供更为丰富的信息内容和便捷的沟通方式,迅速成为了最受欢迎的社交网络媒体。

在微博平台中,用户通过发表个人对社会热点事件的看法、某一产品的购物体验等等,来表达自己的情感,形成了海量的话题文本信息。充分处理分析这些文本信息具有重要的社会价值、商业价值以及用户价值。而有效处理海量微博信息的基础是对微博文本进行聚类,因此微博文本聚类的实现具有重要意义。



技术实现要素:

本发明针对微博文本聚类问题,考虑微博文本的非正式性、稀疏性,设计一种将适合微博短文本的聚类方法,为社交网络的舆情分析奠定基础。技术方案如下:

一种基于卷积神经网络的社交网络文本聚类方法,包括下列步骤:

1)文本预处理:过滤无用字符,同时转换为词向量。

2)特征映射:通过局部特征保持算法将词向量映射为卷积神经网络模型可用的二元特征向量,作为卷积神经网络训练的目标特征。

3)卷积神经网络:卷积神经网络训练过程,以词向量为输入,二元特征向量为目标特征进行训练,

4)K-means聚类:根据卷积神经网络输出的二元特征向量,使用机器学习中的无监督学习算法K-means进行聚类,获得聚类结果。

本发明的基于卷积神经网络的社交网络文本聚类方法,利用卷积神经网络对局部特征强大的抽象表示能力学习微博文本的特征,并使用机器学习中的聚类算法对特征进行处理,实现微博文本的聚类。本方法考虑到手工标记数据集类别的成本过高,因此使用自然语言处理中的局部保持限制算法对原始特征进行处理,将文本信息映射为二元数值向量,作为该微博文本的抽象表示。

本发明的有益效果如下:

1.利用卷积神经网络模型的局部特征抽象表示能力学习短文本的抽象特征,进而实现短文本的聚类;

2.通过自然语言处理中的特征映射算法将短文本的原始特征映射为卷积神经网络模型可用的抽象特征,进而避免了使用高成本的人工标注数据集,具有工程实践意义。

附图说明

图1微博文本聚类整体架构

图2本方法使用的卷积神经网络架构

具体实施方式

下面结合附图对实施方式进行说明。

本方法的整体架构如图1所示,以下详细说明:

5)文本预处理:过滤无用字符,例如“转发微博”等;同时,使用Word2Vec工具转换为词向量。

6)特征映射:通过局部特征保持算法将词向量映射为卷积神经网络模型可用的二元特征向量,作为卷积神经网络训练的目标特征。

7)卷积神经网络:卷积神经网络训练过程,以词向量为输入,二元特征向量为目标特征进行训练,下文详细描述。

8)K-means聚类:使用机器学习中的无监督学习算法K-means进行聚类,获得聚类结果。

卷积神经网络的训练模型架构如图2所示,以下详细说明:

1)模型由若干组(一般3-5组)卷积层与池化层连接组成。

2)模型中的双向箭头表示模型的训练流程,向上箭头表示学习过程(前向传播),向下箭头表示微调过程(误差反向传播),两过程不断循环直至误差低于阈值,即模型训练完成。

3)最后将深度特征表示输出,用于聚类。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1