一种基于文本挖掘的微博用户兴趣识别方法

文档序号:6546016阅读:220来源:国知局
一种基于文本挖掘的微博用户兴趣识别方法
【专利摘要】本发明公开了一种基于文本挖掘的微博用户兴趣识别方法,属于文本挖掘、自然语言处理领域,采集微博文本集的最新话题性微博文本数据和指定用户微博文本数据;将采集到的微博文本数据进行规范化处理;将规范化处理后的话题性微博文本数据采用微博新词识别方法,识别出最新微博新词并更新新词词典;将规范化处理后的指定用户微博文本数据,利用新词词典的分词方法进行中文分词,得到文本向量表示;对经过文本向量表示的指定用户微博文本数据进行聚类,重组原始微博文本数据;采用主题模型,提取新的文本集特征;给定主题词典,基于新的文本集特征,计算每个主题词典权重,获得最终主题,作为微博用户兴趣识别,使特征提取的准确性提高。
【专利说明】一种基于文本挖掘的微博用户兴趣识别方法
【技术领域】
[0001]一种基于文本挖掘的微博用户兴趣识别方法,文本聚类——利用改进的K-Means算法进行短文本聚类,以及主题模型——利用VSM和LDA模型结合的方法进行文本特征词提取,属于文本挖掘、自然语言处理、机器学习领域。
【背景技术】
[0002]文本特征提取是文本挖掘中关键环节,根据提取出的特征计算文本间的相似度,应用于文本分类、聚类等。微博的广泛应用,使得文本挖掘技术被广泛应用于微博文本中,通过分析微博文本,挖掘当前的热门话题、事件追踪等。
[0003]主题模型应用于文本特征提取具有比较理想的效果,它将文本看作是服从一定概率分布的主题集组成,每个主题又是由一定概率分布的词项组成,将文本从“文本-词”的二维空间扩展到“文本-主题-词”三维空间。主题模型可以有效的获取文本的特征,并发现其潜在的语义,也就是主题。主题模型应用于微博短文本中,由于短文本的主题不确切、数据稀疏,不能较准确的发现微博短文本主题。
[0004]通过聚类算法将微博短文本集重新组合成新的长文本集,使得新文本集主题更加明确,数据稀疏性降低。K-Means聚类算法是典型的基于距离的聚类算法。工作原理为:随机选择K个样本作为K个类别的中心,计算其它样本到各个中心的距离,将样本归类到距离最短的中心所在的类。更新归类后的每个类别的中心,迭代此步骤,直到两次迭代的中心不再变化结束。
[0005]LDA(Latent Dirichlet Analysis,潜在狄利克雷模型)是主题模型中比较好的模型,它将文本看作是由一系列服从多项分布的主题组成,每个主题又是由一系列服从Dirichlet分布组成。LDA模型思想是根据概率分布抽样:根据主题分布抽取一个主题,再根据此主题下的词分布,抽取一个词。迭代此步骤,直到抽取出文本中所有的词,并得到最终结果:“文本-主题”概率矩阵和“主题-词”概率矩阵。根据这两个矩阵,提取原始文本的主题。基于微博短文本的特性,改进LDA模型,如MB-LDA模型,它综合考虑了微博作者和文本的关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样方法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题。
[0006]中文分词指的是将一个汉字序列切分成一个一个单独的词。
[0007]N元切词是指分词得到的每个词是由N个字组成,目前比较好的中文分词系统如中科院的ICTCLAS分词系统,可以通过加入用户给定的词典来提高分词效果。
[0008]文本表不是将将文本表不成为一个简洁的、统一的、能够被学习算法和分类器所识别的结构化形式,文本表示模型中比较普遍使用的模型是空间向量模型,空间向量模型是指计算每个文本中的特征权值,每个文本都可以由特征向量唯一表示。其中特征向量的每个值通过计算TF-1DF值得到。
[0009]现有技术中的微博用户兴趣识别方法还存在许多不足之处,具体如下:
[0010]一、微博短文本特征提取,没有将有效的新词加入,导致得到的结果漏检率偏高。[0011]二、已有的技术一般针对海量微博文本或将微博功能引入进行分析,挖掘热门话题、事件等,而没有合理的提出一种针对单个用户的微博文本关联用户兴趣的分析方法,而用户的微博文本对于用户兴趣的识别是一个重要信息来源。
[0012]三、由于微博短文本的无结构化、稀疏等特性,特征提取的准确性较低。

【发明内容】

[0013]本发明针对现有技术的不足之处提供一种基于文本挖掘的微博用户兴趣识别方法,可以通过某用户发布的微博,直接观察该用户近期的兴趣习惯。
[0014]为实现上述目的,本发明采用的技术方案为:
[0015]一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,如下步骤:
[0016](I)采集微博文体集的最新话题性微博文本数据以及指定用户微博文本数据;
[0017](2)将采集到的话题性微博文本数据和指定用户微博文本数据进行规范化处理;
[0018](3)将规范化处理后的话题性微博文本数据采用微博新词识别方法,识别出最新微博新词,并更新新词词典;
[0019](4)将规范化处理后的指定用户微博文本数据,利用新词词典的分词方法进行中文分词,计算中文分词得到的每个词项的TF-1DF值,得到文本向量表示;
[0020](5)对经过文本向量表示的指定用户微博文本数据进行聚类,重组步骤⑴中的原始指定用户微博文本数据,得到新的文本集以及聚类数目;
[0021](6)采用LDA主题建模,提取聚类后得到的新的文本集特征词;
[0022](7)给定主题词典,基于新的文本集特征词,计算每个主题词典权重,获得最终主题,作为微博用户兴趣识别。
[0023]作为优选,步骤(3)中,所述微博新词识别方法的步骤为:
[0024](31)采集规范化处理后的话题性微博文本数据;
[0025](32)对话题性微博文本数据进行预处理;
[0026](33)将预处理后的话题性微博文本数据进行多元切词;
[0027](34)将多元切词进行词过滤,即对旧词过滤、词频过滤、相邻串过滤和互信息值过滤。
[0028]作为优选,步骤(34)中,所述互信息值的计算是通过公
式:
【权利要求】
1.一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,如下步骤: (1)采集微博文体集的最新话题性微博文本数据以及指定用户微博文本数据; (2)将采集到的话题性微博文本数据和指定用户微博文本数据进行规范化处理; (3)将规范化处理后的话题性微博文本数据采用微博新词识别方法,识别出最新微博新词,并更新新词词典; (4)将规范化处理后的指定用户微博文本数据,利用新词词典的分词方法进行中文分词,计算中文分词得到的每个词项的TF-1DF值,得到文本向量表示; (5)对经过文本向量表示的指定用户微博文本数据进行聚类,重组步骤(1)中的原始指定用户微博文本数据,得到新的文本集以及聚类数目; (6)采用LDA主题建模,提取聚类后得到的新的文本集特征词; (7)给定主题词典,基于新的文本集特征词,计算每个主题词典权重,获得最终主题,作为微博用户兴趣识别。
2.根据权利要求1所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,步骤(3)中,所述微博新词识别方法的步骤为: (31)采集规范化处理后的话题性微博文本数据; (32)对话题性微博文本数据进行预处理; (33)将预处理后的话题性微博文本数据进行多元切词; (34)将多元切词进行词过滤,即对旧词过滤、词频过滤、相邻串过滤和互信息值过滤。
3.根据权利要求2所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于, 步骤(34)中,所述互信息值的计算是通过公式:
4.根据权利要求1所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,步骤(5)中,所述聚类的步骤为: (51)将指定用户微博文本数据转化为V维的文本向量表示,V为N篇文本(指定用户微博文本数据)长度的平均值,通过初始中心给定方法选择K个数据点作为K个聚类类别的中心; (52)利用欧式距离计算指定用户微博文本数据中每个数据点与K个中心的距离,获得聚类,记为:dij(i = I~N, j = I~K),其中,(Iij表示第i个数据点到第j个中心的距离,N为数据点个数,i是第i个数据点,j是第j个聚类中心的中心点; (53)重新计算每个所获聚类的聚类中心,选取.
5.根据权利要求4所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,步骤(51)中,所述初始中心给定方法步骤如下: (511)从N个数据点中,随机选择一个数据点,记作center; (512)计算其它N-1个数据点到center的距离dis(center, m) (m = I~N),并累加所有的距离:sum {dis (center, m)};
(513)随机选取值r = random (sum {dis (center, m)}),计算 r = r-dis (center, m),若r〈0,则m数据点记为中心点,其中,random (sum {dis (center, m)})表示从0-sum{dis (center, m)}随机选取一个值; (514)重复(511)和(512)两个步骤,直到选出K个中心点。
6.根据权利要求1所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,步骤(6)中,提取新的文本集特征词的步骤为: (61)根据聚类后得到的新的文本集,计算每篇新的文本集中词的TF-1DF值,得到新的文本向量; (62)采用LDA模型对新的文本集建模,给定参数值并多次改变初始参数值,抽样获取“主题-词”分布和“文档-主题”分布; (63)采用最终特征词提取方法,提取特征词。
7.根据权利要求7所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,在步骤(63)中,最终特征词提取方法的步骤如下: (631)针对新的文本集,从“文档-主题”分布中,选择一个权重最大的Topic作为关键主题 keyTopic ; (632)选择keyTopic对应的“主题-词”分布; (633)从keyTopic对应的词分布中,获取比重较大的前三个词,若一个主题被多次提取,则保留被提取的次数keyCount ; (634)重复步骤(631)、(632)、(633),遍历完新的文本集,得到所有的特征词。
8.根据权利要求1或6所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,步骤(4)和步骤(61)中,所述TF-1DF值计算公式如下:
9.根据权利要求1所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,步骤(7)中,所述微博用户兴趣识别的步骤为:(71)给定S个主题词典; (72)根据LDA模型对新的文本集建模提取出的特征词,计算每个主题词典包含的特征词数目Ni (Ni为整数),若词不匹配任何一个词典,则标记为额外类别; (73)每个特征词都自带一个权值,计算每个主题词典的权重大小,计算公式如下:
【文档编号】G06F17/30GK103942340SQ201410195244
【公开日】2014年7月23日 申请日期:2014年5月9日 优先权日:2014年5月9日
【发明者】屈鸿, 王晓斌, 李 浩, 方正, 袁建 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1