一种基于关联规则的Web评论观点自动分类系统及分类方法

文档序号:6505943阅读:249来源:国知局
一种基于关联规则的Web评论观点自动分类系统及分类方法
【专利摘要】本发明公开了一种基于关联规则的Web评论观点自动分类系统及分类方法,可分为四个模块:频繁特征词提取模块,频繁特征词优化模块,关联规则提取与挖掘模块以及观点分类模块。本发明克服了现有系统(如一些基于机器学习和情感分类的系统)精度低或者是需要大量人工参与或者过分依赖自然语言处理和专业知识的缺点。并且在关联规则集提取的过程中进行了优化,去除了冗余,区分度不高的关联规则,这样一来就提高了整个系统运行和获取结果的效率。本系统为多种情况,如电商商品评价,电子政务回馈,网民民意调查等提供了一种精确便捷的解决方案。
【专利说明】一种基于关联规则的Web评论观点自动分类系统及分类方法
【技术领域】
[0001]本发明涉及一种基于关联规则的Web评论观点自动分类系统及分类方法,属于语义处理【技术领域】。
【背景技术】
[0002]传统的文本观点分类方法有基于机器学习的观点分类,基于情感分析的观点分类。
[0003]基于机器学习的方法将文本分类中的机器学习算法直接用于观点分类,观点分类任务上的准确率通常要低于面向其它类别主题的文本分类任务的准确率。其原因是Web中的观点文本涉及到人的情感表述,是一种主题很特殊的文本内容,其语义隐晦程度要高于客观描述性的文本,例如,表述“批评”观点的评论往往可能带有表示讽刺意义的褒义词,相反的情况也同样存在,这些特殊的模式是统计学习方法很难判断的。
[0004]基于情感分析的观点分类是将文本中的单元例如单词或短语的情感倾向量化为一个实数值测度,然后通过分析文本中所有单词或短语的情感倾向来确定句子和整个文档所表达的观点倾向。单词和短语的情感分析除了考虑单词权重和高阶词之外,还要考虑位置、词性、句法结构等属性,因此本类方法的特点是高度依赖于自然语言处理工具和人工知识。自然语言处理的结果好坏和人工知识的完备程度直接影响分类结果。

【发明内容】

[0005]本发明技术解决问题:克服现有技术的不足,提供一种基于关联规则的Web评论观点自动分类系统及分类方法,不需要大量的人工参与,自动性高,也不过分依赖中文语言的处理优劣,并且保证了分类系统结果输出的精度。
[0006]本发明技术解决方案之一,包括四个模块:频繁词集提取模块,频繁词集优化模块,最优关联规则挖掘模块,文本观点分类模块。系统结构图如图1所示,虚线内为本系统范畴。
[0007]频繁词集提取模块:数据预处理,把网页中获取的文本除去“是” “我”等常见却无用的词语(降噪),并且用有代表性的词语表示,该部分不是本发明的发明,本发明只是使用了该部分将原始文本用特征词表示出来,得到候选词集。该模块的输入为候选词集,这一部分词集是从文本中提取的能代表观点的词语的集合。对候选词集采用Apriori算法,这一算法是数据挖掘中的经典算法。通过宽度优先的策略自底向上逐级生成各项频繁项目集。算法由初始的一维频繁集开始迭代,在每一轮迭代中,k项集均由k -1项集生成。Apriori算法中的频繁集的剪枝依赖于“向下封闭属性”:频繁项集的所有非空子集都是频繁的,即如果一个项集不是频繁项集,那么它的所有超集必然不是频繁项集。这一性质大大减少了候选频繁项集的数目。尽管如此,由于Apriori需要多次搜索数据库,其时间复杂度仍然较大,并且如果结果直接用于关联规则挖掘,效果并不理想,所以需要进行下一步优化。[0008]频繁词集优化模块:假定文本集合包含η个文本类别Iclass1,…class」,…classj ,在上一步产生的频繁词集中,令FS表示频繁词集,t为频繁词集FS中的词条。计算每一个词条t在类别中i中的支持度Sup(t)it)而一个频繁词集的在类别i中的支持度就是其所有包含词条在该类中的最低支持度=Sup(FS)i=Iiiin {Sup (O1, Sup (t)2——Sup (t)J。算出每个Sup (FS) 土之后,根据公式(2.1)计算AD - Sup:
【权利要求】
1.一种基于关联规则的Web评论观点自动分类系统,其特征在于包括:频繁词集提取模块,频繁词集优化模块,最优关联规则挖掘模块,文本观点分类模块,其中: 频繁词集提取模块,输入候选词集本发明的系统,所述候选词集是从文本中提取的能代表观点的词语的集合,对候选词集采用Apriori算法,通过宽度优先的策略自底向上逐级生成各项频繁项目集,送至频繁词集优化模块; 频繁词集优化模块:在频繁词集提取模块产生的频繁词集中,令FS表示频繁词集,t为频繁词集FS中的词条,计算每一个词条t在类别中i中的支持度Sup(t)i,而一个频繁词集的在类别i中的支持度就是其所有包含词条在该类中的最低支持度=Sup(FS)^min {Sup (t)1; Sup(t)2——Sup (t) J ,计算出每个Sup (FS) i之后,根据公式(2.1)计算支持度均方差AD - Sup:
2.一种基于关联规则的Web评论观点自动分类方法,其特征在于实现步骤如下: (1)频繁词集提取 将候选词集输入至本发明的系统,所述候选词集是从文本中提取的能代表观点的词语的集合,对候选词 集采用Apriori算法,通过宽度优先的策略自底向上逐级生成各项频繁项目集; (2)频繁词集优化:在步骤(I)产生的频繁词集中,令FS表示频繁词集,t为频繁词集FS中的词条,计算每一个词条t在类别中i中的支持度SupUh,而一个频繁词集的在类别i中的支持度就是其所有包含词条在该类中的最低支持度=Sup(FS)^min {Sup (t)1; Sup(t)2——Sup (t) J ,计算出每个Sup (FS) i之后,根据公式(2.1)计算支持度均方差AD - Sup:
【文档编号】G06F17/30GK103473262SQ201310301065
【公开日】2013年12月25日 申请日期:2013年7月17日 优先权日:2013年7月17日
【发明者】袁满, 欧阳元新, 皇甫垚, 熊璋 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1