基于维基百科的评论主题词聚类方法

文档序号:6622971阅读:739来源:国知局
基于维基百科的评论主题词聚类方法
【专利摘要】本发明涉及一种基于维基百科的评论主题词聚类方法。现行的主题词聚类由于选取语料库和词语相似度计算之间的原因,评论的主题词聚类准确率不高。本发明首先对于评论进行词性的标注,接着进行评论的主题词的提取,然后是基于维基百科的词语相似度模型的生成,词的相似度矩阵的生成。这里词的相似度采用词向量的余弦相似度进行衡量。最有在采用k均值算法进行主题词的聚类。本发明的结果是提高评论主题词聚类的准确性。
【专利说明】基于维基百科的评论主题词聚类方法

【技术领域】
[0001]本发明涉及评论主题词聚类,具体是一种基于维基百科的评论主题词聚类。

【背景技术】
[0002]随着互联网的飞速发展,越来越多的人喜欢上网,并且人们在网上留下大量评论。例如著名的网上购物平台亚马逊,一个热门商品的客户评论多达几千条。用户如何在大量的评论中找到自己感兴趣的评论这是一个问题。如果将这些评论通过主题的相关性聚类到一起,以这样的方式呈现给用户,那么就方便用户筛选,避免浏览不必要的信息。


【发明内容】

[0003]本发明针对现有技术的不足,提供一种基于维基百科的评论主题词聚类。
[0004]本发明方法具体包括以下步骤:
[0005](I)词性标注;
[0006](2)主题词提取;
[0007](3)基于维基百科的词语相似度模型生成;
[0008](4)词的相似度矩阵生成。
[0009](5) k均值算法进行主题词的聚类。
[0010]所述的词性标注,包括如下步骤:
[0011]A)采用中科院提供的ICTCLAS汉语分词系统对评论进行分词并标注其词性;
[0012]B)对词性标注后的评论进行预处理,删除不必要的内容,其中包括去除停用词,去除不必要的词性如助词,数量词等。
[0013]所述的主题词提取,包括如下步骤:
[0014]C)根据中文的语言表达习惯,主题词一般为名词,并且在主题词附近会有表达主题情感的形容词。根据(形容词+名词),(名词+形容词),(名词+副词+形容词)的模式来提取主题词;
[0015]D)由于汉语分词系统的准确率并非100%,所以对名词的标注会有不合理的地方。根据(名词),(名词+名词),(名词+名词性语素)的模式来确认名词;
[0016]E)统计每个名词出现的频率。根据日常评论的特点,一个主题词会被不同人多次提及,因此去掉一些低频的名词。
[0017]所述的基于维基百科的词语相似度模型生成,包括如下步骤:
[0018]F)筛选维基百科的文章,滤去字符数少于300的文章;
[0019]G)对于筛选后的文章进行分词;
[0020]H)词典的建立,其中包括去除停用词和低频词
[0021]I)建立词的空间向量模型。每个词的维数就是维基百科的文章篇数,每一维对应的值是该词对于该文章的TFIDF权重。
[0022]所述的词的相似度矩阵生成,包括如下步骤:
[0023]J)对于要聚类的主题词集合建立相似度矩阵;词与词之间的相似度则用词向量之间的余弦相似度表示。
[0024]所述的k均值算法进行主题词的聚类,包括如下步骤:
[0025]K)采用机器学习中的k均值算法进行评论主题词的聚类;k_均值算法的准则函数基于余弦相似度。
[0026]本发明的有益效果:
[0027]第一,由于本发明提出采用维基百科,词汇量更加丰富。
[0028]第二,由于本发明提出采用维基百科,采用其他语料库例如知网等是由一群专家凭借专业知识组建的语料库,而维基百科是由全世界的人们一起组建的语料库,从而维基百科语料库更加符合人们对于语言的自然表述,潜在着更加准确的词语之间的语义关系。
[0029]第三,由于本发明提出采用余弦相似度计算词语之间的距离,并用相似度矩阵进行聚类。更加真实的反应自然语言词之间的相似度。

【专利附图】

【附图说明】
[0030]图1为本发明方法流程图。

【具体实施方式】
[0031]下面结合附图1,对本发明基于维基百科的评论主题词聚类做进一步说明:
[0032]1、首先从网站上下载评论,并对评论采用中科院提供的ICTCLAS汉语分词系统进行分词,进行词性标注。在对词性标注后的评论进行预处理,包括去除停用词,去除不必要的词性
[0033]2、主题词的提取,根据中文语言表达的习惯,主题词一般是名词,并且在主题词附近会有表达主题情感的形容词。如下表1中的名词就是需要提取的主题词。
[0034]

【权利要求】
1.基于维基百科的评论主题词聚类方法,其特征在于包括如下步骤: 步骤(I)词性标注,具体是: A)采用中科院提供的ICTCLAS汉语分词系统对评论进行分词并标注其词性; B)对词性标注后的评论进行预处理,删除不必要的内容,其中包括去除停用词、助词,数量词; 步骤(2)主题词提取,具体是: C)根据“形容词+名词”,“名词+形容词”,“名词+副词+形容词”的模式来提取主题词; D)根据“名词”,“名词+名词”,“名词+名词性语素”的模式来确认名词; E)统计每个名词出现的频率,去掉一些低频的名词; 步骤(3)基于维基百科的词语相似度模型生成,具体是: F)筛选维基百科的文章,滤去字符数少于300的文章; G)对于筛选后的文章进行分词; H)建立词典,其中包括去除停用词和低频词 I)建立词的空间向量模型;每个词的维数就是维基百科的文章篇数,每一维对应的值是该词对于该文章的TFIDF权重 步骤(4)词的相似度矩阵生成,具体是: J)对于要聚类的主题词集合建立相似度矩阵;词与词之间的相似度则用词向量之间的余弦相似度表示; 步骤(5) k均值算法进行主题词的聚类,具体是: K)采用机器学习中的k均值算法进行评论主题词的聚类;k-均值算法的准则函数基于余弦相似度。
【文档编号】G06F17/30GK104199846SQ201410389477
【公开日】2014年12月10日 申请日期:2014年8月8日 优先权日:2014年8月8日
【发明者】姜明, 严文操, 陈婵, 王兴起, 张旻, 汤景凡 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1