一种判定评论文本极性的方法及其应用的制作方法

文档序号:6373602阅读:130来源:国知局
专利名称:一种判定评论文本极性的方法及其应用的制作方法
技术领域
本发明提供ー种判定评论文本的极性的方法,具体涉及ー种形容词的极性判定方法,属于计算语言学领域,该方法可以应用于网络舆情监控。
背景技术
网络舆情监测是ー项重要的工作。对于网上发布的各种新闻事件所产生的影响进行分析,有助于及时正确地进行相应处理。在很多情况下,针对某个新闻事件,我们希望了解究竟是正面评价多还是负面评价多。比如,以下一则新闻(见图1,详见http://edU.sina. com. cn/gaokao/2012-06-28/1700346332. shtml)引起了网民的热烈评论。
·
为了获得正负面评论的比例,传统的作法是采用人工分析。比如说,根据人工阅读判断得知,对该新闻中“文史哲祸害社会”论调的态度分布分别是66%不同意、24%同意,此外10%持中立态度。人工对评论文本进行极性分类的准确度较高,但是极为耗时,不利于大批量的文本处理。本文提出的方法,首先对评论文本中出现的形容词进行极性判定,然后再根据判定的结果对热点新闻的评论文本进行极性判定,确定该评论文本是正面评论、负面评论还是中性评论。需要指出,本文采用的方法,完全自动完成,适合大批量文本处理。本发明中用来判断形容词极性的方法与已有授权专利《一种词汇语义褒贬获得方法、系统及装置》(申请号200710099802. 2)在总体框架上类似。该专利和本文都采用了Turney所提出的用互信息值对单词极性判定的框架(PMI-IR)。本发明方法与该专利有三点不同I.已有专利中的方法用到了搜索引擎中的AND运算符,而本申请专利的方法不需要使用AND运算符。可以排除诸如“美丽但骄傲”、“悲伤和欢乐”等噪声。因为,对于AND运算符来说,这些极性相反的单词(“美丽”为正极性,“骄傲”为负极性;“悲伤”为负极性,“欢乐”为正极性)都是影响最終結果的噪声。因此本发明方法能够获得更高的准确度。2.本方法是从语言分析的实际出发,考虑到了形容词和其它词性的差异,也说明本方法更加有针对性。3.本申请专利选择的极性指示器为“不”和“有点”,而不需要如该专利中根据经验选择PWords (正极性范例词集合)和NWords (负极性范例词集合),这种根据经验进行的选择容易带来结果的不确定性。

发明内容
本发明的目的是提供一种新的方法,能够自动判定评论文本的极性。发明内容包括两部分判定形容词的极性和判定评论文本的极性。其中,形容词极性的判定是评论文本极性判定的基础环节。本发明提供的技术方案如下 ー种判定形容词极性的方法,其特征是,对于给定形容词word,判断其极性的步骤如下I)在搜索引擎中用精确匹配模式查找“不word”,记下返回结果数目,得到hits ( “不 word”);2)在搜索引擎中用精确匹配模式查找“有点word”,记下返回结果数目,得到hits ( “有点 word”);3)在搜索引擎中用精确匹配模式查找“不”,记下返回结果数目,得到hits( “不,,);4)在搜索引擎中用精确匹配模式查找“有点”,记下返回结果数目,得到hits ( “有点,,);5)计算 word 的极性 SO-PMI-IR
SQ-PMl-IR(Word) = tog. hits(-4word-)hits(-YL'n6)若极性SO-PMI-IR(word) > 0,则word为正极性,否则word为负极性;其中,hits (query)是提交查询串query到搜索引擎后返回的命中记录数,即返回
结果数目。所述的判定形容词极性的方法,其特征是,为了避免运算溢出,当出现命中记录数为零时,用0.01替换。本发明同时提供ー种判定评论文本极性的方法,其特征是,对于给定的评论文本,判定其极性的步骤如下a)将评论文本用汉语分词工具进行分词和词性标注;b)根据词性标注结果,选出形容词集合;c)用上面所述的方法对形容词集合中的单词分别进行形容词极性判定;d)比较正极性单词的个数与负极性单词的个数如果正极性单词的个数大于负极性单词的个数,则判定该评论文本为正面评价;如果正极性单词的个数等于负极性单词的个数,则判定该评论文本为中立评价;如果正极性单词的个数小于负极性单词的个数,则判定该评论文本为负面评价。所述的判定评论文本极性的方法,其特征是,所述汉语分词工具为中国科学院计算技术研究所汉语词法分析系统ICTCLAS。上面所述方法可以应用于网络舆情监控,方法为,对于带有用户评论功能的某一条网络新闻,执行如下步骤对于该新闻的每一条用户评论,用上面所述的方法自动判别所述用户评论文本的极性;展示所述网络新闻的用户评论的极性(即正面评价、中立评价、负面评价)情況。所述的网络舆情监控方法,其特征是,展示的内容包括正面评价、中立评价以及负面评价的数量和/或百分比;展示方式为文本或者图形(如柱状图、饼状图等)。所述的网络舆情监控方法,其特征是,展示的对象为普通读者,展示的位置为该网络新闻页面。所述的网络舆情监控方法,其特征是,展示的对象为舆情监控部门。所述的网络舆情监控方法,其特征是,对于已经计算过极性的用户评论,其极性结果自动保存;当有新的用户评论产生时,仅计算新的评论的极性,并更新展示結果。所述的网络舆情监控方法,其特征是,所用到的分词、单词极性判定、评论文本极性判定、以及最后的展示均由计算机程序自动完成。本工作主要从语言学的角度来考察极性的非対称性,并将这些非对称性应用到自然语言处理的情感分析中。“不”、“有点”两个极性指示器具有充分的语言学解释。


图I实施例用图新闻截图。图2本发明中判定评论文本极性的流程图。图3本发明中判定形容词极性的流程图。
·
图4实施例用图新闻评论文本。图5实施例用图标注結果。
具体实施例方式针对判定形容词的极性和判定评论文本的极性两个部分,分别采用例子进行说明,以便理解具体实施过程。A.判定评论文本的极性 针对图I中的新闻,假设有评论文本如图4。判定该评论文本极性的流程图如图2所示。具体实施过程如下步骤ー将其中的文字用ICTCLAS (中国科学院计算技术研究所汉语词法分析系统 Institute ofComputing Technology,Chinese Lexical Analysis Systemノ进オ丁分词ネロ词性标注后得到结果如图5所示(换用其它合理完善的汉语词法分析系统进行分词和词性标注也可以,本发明并不仅限于ICTCLAS);步骤ニ 在图5所示结果中,/a为形容词的词性标记,根据词性选出形容词集合为“少”、“浅薄”、“狂妄”、“科学”。步骤三对以上四个单词分别进行形容词极性判定(见B判定形容词的极性),得到的结果为I个正极性(“科学”)和3个负极性(“少”,“浅薄”,“狂妄”)。步骤四由于正极性单词的个数小于负极性单词的个数,因此判定该评论是对新闻中“文史哲祸害社会”论调的负面评价。通过自动的页面抽取工具,对该新闻已有的152条评论进行抽取,并按照上面的方法进行自动分析,得到的结果是负面评价121,正面评价19,中立评价8 ;人工统计的结果是负面评价119,正面评价18,中立评价15 ;由此可以看出使用本发明所得结果和人工统计结果基本吻合。这说明本文提出的方法具有较强的实用性,且能够极大地节省人工成本。需要注意,有一些评论文本经过ICTCLAS分词和词性标注后,其中不含形容词,这类评论在分析时不作考虑(例如,上述统计结果中有4个评论未考虑)。B.判定形容词的极性给定形容词word ;选定某个搜索引擎,判定word的极性的流程图如图3所示。以两个具体的例子解释实施方式。例I :假设待判定极性的形容词为“美丽”,选择即刻搜索引擎(www. jike. com)。判定步骤如下步骤ー在即刻搜索引擎中输入“不美丽”(注意有双引号),返回记录1,820,000条,即 hits ( “不美丽” )=1,820, 000 ;步骤ニ 在即刻搜索引擎中输入“有点美丽”(注意有双引号),返回记录28,000条,即hits ( “有点美丽” )=28,000 ;步骤三在即刻搜索引擎中输入“不”(注意有双引号),返回记录10,500,000,000条,即 hits ( “不” )=10,500,000,000 ;步骤四在即刻搜索引擎中输入“有点”(注意有双引号),返回记录663,000,000条,即 hits ( “有点” )=663,000,000 ;
「 I 止^^ cr, ^, hits(” 不美丽”)hits(”有点”) 步骤五SO- PMI - IR(美匪)=Iog2 ; nニニ パ,了,,(
hits("有点美匪)hits("不”)
, 1,820.000*663,000.000 …
= Iog-,-:-:-:-=z.Oj
28,000 ”0,500,000ユ)00步骤六由于SO-PMI-IR(美丽)=2. 03>0,因此,“美丽”的极性为正,这个结果与
事实相符。查询串〃不word"是在待判定极性的单词“word”前加“不”,注意中间没有空格。双引号操作符("")是为了保证搜索引擎采用精确匹配,而非部分匹配。百度、谷歌等主流搜索引擎都采用双引号操作符进行文本串的精确匹配。例2 :假设待判定极性的形容词为“丑晒”,选择即刻搜索引擎(www. jike. com,当然,选用其它所有引擎也可以,例如,WWW. baidu. com,www. google, com等)。判定步骤如下步骤ー在即刻搜索引擎中输入“不丑陋”(注意有双引号),返回记录75,100条,即 hits( “不丑陋”)=75,100 ;步骤ニ 在即刻搜索引擎中输入“有点丑陋”(注意有双引号),返回记录46,900条,即hits ( “有点丑陋” )=46,900 ;步骤三在即刻搜索引擎中输入“不”(注意有双引号),返回记录10,500,000,000条,即 hits ( “不” )=10,500,000,000 ;步骤四在即刻搜索引擎中输入“有点”(注意有双引号),返回记录663,000,000条,即 hits ( “有点” )=663,000,000 ;
_5]步骤五S。撒卿_),
, 75.100*663,000.000
]0(T -------
=& 46,900 *10,500,000,000 =_3 30步骤六由于S0-PMI-IR(丑陋)=-3. 30〈0,因此,“丑陋”的极性为负,这与事实相符。本发明所述的方法可以应用到网络舆情监控,例如对于某ー篇网络新闻,其用户评论往往是存在数据库中的,实施者需要在后台(即服务器端)做一个计算机程序,使用本发明所述方法,使之可以自动判断并对该新闻的所有用户评论的极性,迅速判断出该新闻的舆情走向,从而为相关部门进行及时决策提供有力的支持。为了显示更加直观,可以在新闻网页页面提供关于该新闻评价极性数量和/或图形的显示,当有新评论时自动更新该显示或人工驱动更新显示。·
权利要求
1.一种判定形容词极性的方法,其特征是,对于给定形容词word,判断其极性的步骤如下 1)在搜索引擎中用精确匹配模式查找“不word”,记下返回结果数目,得到hits(“不word,,); 2)在搜索引擎中用精确匹配模式查找“有点word”,记下返回结果数目,得到hits(“有点 word”); 3)在搜索引擎中用精确匹配模式查找“不”,记下返回结果数目,得到hits(“不”); 4)在搜索引擎中用精确匹配模式查找“有点”,记下返回结果数目,得到hits(“有占,,). 5)计算word 的极性 S0-PMI-IR
2.如权利要求I所述的判定形容词极性的方法,其特征是,为了避免运算溢出,当出现命中记录数为零时,用O. 01替换。
3.一种判定评论文本极性的方法,其特征是,对于给定的评论文本,判定其极性的步骤如下 a)将评论文本用汉语分词工具进行分词和词性标注; b)根据词性标注结果,选出形容词集合; c)用权利要求I所述的方法对形容词集合中的单词分别进行形容词极性判定; d)比较正极性单词的个数与负极性单词的个数如果正极性单词的个数大于负极性单词的个数,则判定该评论文本为正面评价;如果正极性单词的个数等于负极性单词的个数,则判定该评论文本为中立评价;如果正极性单词的个数小于负极性单词的个数,则判定该评论文本为负面评价。
4.如权利要求3所述的判定评论文本极性的方法,其特征是,所述汉语分词工具为中国科学院计算技术研究所汉语词法分析系统ICTCLAS。
5.一种网络舆情监控方法,其特征是,对于带有用户评论功能的某一条网络新闻,执行如下步骤对于该新闻的每一条用户评论,用权利要求3所述的方法自动判别所述用户评论文本的极性;展示所述网络新闻的用户评论的极性情况。
6.如权利要求5所述的网络舆情监控方法,其特征是,展示的内容包括正面评价、中立评价以及负面评价的数量和/或百分比;展示方式为文本或者图形。
7.如权利要求6所述的网络舆情监控方法,其特征是,展示的对象为普通读者,展示的位置为该网络新闻页面。
8.如权利要求6所述的网络舆情监控方法,其特征是,展示的对象为舆情监控部门。
9.如权利要求5所述的网络舆情监控方法,其特征是,对于已经计算过极性的用户评论,其极性结果自动保存;当有新的用户评论产生时,仅计算新的评论的极性,并更新展示结果。
10.如权利要求5所述的网络舆情监控方法,其特征是,所用到的分词、单词极性判定、评论文本极性判定、以及最后的展示均由计算机程序自动完成。
全文摘要
本发明公布了一种判定评论文本极性的方法,所述方法可以应用于网络舆情监控。将评论文本用汉语分词工具进行分词和词性标注;根据词性标注结果,选出形容词集合;对形容词集合中的单词分别进行形容词极性判定;比较正极性单词的个数与负极性单词的个数如果正极性单词的个数大于负极性单词的个数,则判定该评论文本为正面评价;如果正极性单词的个数等于负极性单词的个数,则判定该评论文本为中立评价;如果正极性单词的个数小于负极性单词的个数,则判定该评论文本为负面评价。本工作主要从语言学的角度来考察极性的非对称性,并将这些非对称性应用到自然语言处理的情感分析中。“不”、“有点”两个极性指示器具有充分的语言学解释。
文档编号G06F17/30GK102855276SQ20121025258
公开日2013年1月2日 申请日期2012年7月20日 优先权日2012年7月20日
发明者徐戈, 王厚峰 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1