文章的意见单元识别方法及其相关装置与计算机程序产品的制作方法

文档序号:9375565阅读:177来源:国知局
文章的意见单元识别方法及其相关装置与计算机程序产品的制作方法
【技术领域】
[0001]本发明涉及一种文章的意见单元识别方法及其相关装置,且特别涉及一种可以判定从网络文章所选取出的意见单元是否为正确组合的方法及其相关装置。
【背景技术】
[0002]近年来,随着各式各样具有网络连接能力的电子装置,如计算机、笔记型计算机、平板计算机、及智能型手机的问市,使用者可以随时随地的利用电子装置来连接网络,以浏览因特网,且通过网络进行相关应用与服务。由于网络及这些装置及其功能所带来的便利,也使得这些装置成为现代人的必备品之一,并随时随地的在生活中频繁使用这些功能。
[0003]同时,随着因特网的发展,网络经营者积极地开发各式各样的网络应用给使用者使用。举例来说,使用者可以通过电子布告栏系统(BBS)来浏览文章与发表评论。使用者也可以通过特定网站或是自行架设网页来发表文章。目前,因特网上正盛行的是部落格(Blog)的应用。每一个使用者可以建立自己的部落格,在自己在部落格中发表文章。
[0004]情感分析,又称为意见探勘(Opin1n Mining),是指通过分析具有主观情感或具有正负情感倾向的主观性文章,寻找其中的观点或评价信息,以更直观和简洁的形式呈现。在任一种类型的中文网络社群文章,如部落格文章内容中,文章通常会有一至多个在描述或谈论的对象,此对象包含但不限于人物、事件、时间、地点、物品…等,如果文章作者对于对象本身在文章中写出对于对象本身的意见或评价性评论描述文字,此段文字即认定为主观性意见评论。在评价语句中,意见词与其所修饰的评价对象之间的配对,是一评价语句的正负面情感倾向的评判关键,意见词的正负面情感倾向不仅取决于意见词本身,
[0005]也取决于意见词所评价的对象,例如:「价钱很高」、「屏幕的分辨率很高」,这两句话中的「高」所表现出来的正负面情感不同,因此,正确抽取意见词与其修饰的评价对象组合,为情感分析中重要的工作。
[0006]一般来说,情绪分析领域的相关技术的目的都是期望能了解文章作者在文章中的意见或评价等。现有技术中,在意见单元的识别部分,Kobayashi et al.(2007)可以通过将语句中的字词逐一与词库比对,以抽取意见单元定义的各元素。Kobayashi et al.(2007)的比对效率是非常差的。Hu&Liu(2004)使用WordNet做为其词库来源,对评论语句的字词加以标注,并针对词频、词性及相似词集合等进行分析,以找出与意见相关的组合,做为产品意见倾向的推论。然而,各领域通用的词库非常难以建立,且意见单元的准确率也可能会受到词库局限。其中,Hu&Liu(2004)取得语句中的各个字词的词性后,再个别抽取特定词性,作为意见单元的各个元素。Hu&Liu(2004)的方法虽然通用性高,但由于仅讨论字词的词性,忽略了字词本身的意义,在识别评价对象或意见词时,可能发生识别错误,进而导致意见单元的准确率不佳。再者,赵研研等人(2011)通过自动化抽取句法树中评价对象与意见词的路径,作为其中一组句法路径,接着通过统计句法路径出现的次数,建立句法路径模式库,通过句法路径对语句的句法树进行模式比对,从中抽取出意见单元。该方法在英文语境的实验结果中,意见单元抽取的准确率达到85%,但由于该方法忽略了语句中字词本身的信息及语句的结构信息,使得该方法应用于长句较多且结构复杂的中文语境时,对于错误的意见单元组合的识别能力不足。
[0007]由于赵研研等人(2011)基于句法路径的意见单元抽取方法忽略了字词本身的意义,若面对长句较多且结构复杂的中文语句,因为评价对象与意见词的数目较多,若有一评价语句中含有m个评价对象、η个意见词,则会产生m*n条意见单元。通过句法路径能够将这些意见单元都识别出来,然而,在这m*n条意见单元组合中,并非所有组合都是正确的评价对象与意见词搭配。举例来说,「iPhone5不仅屏幕的画质细腻且色彩准确」。其中,这句话包含两个评价对象「画质」及「色彩」,与两个意见词「细腻」及「准确」。通过排列组合可以产生以下4个意见单元搭配:(画质,细腻)、(色彩,准确)、(画质,准确)、(色彩,细腻),而在这4种意见单元搭配中,只有(画质,细腻)与(色彩,准确),这两个搭配是正确的意见单元。
[0008]此外,因为中文「一字多义」、「一词多义」的现象,导致有些意见词,虽然存在于意见词典,但这些字词在某一语句中出现时,可能不作为意见词的意义使用。这些字词在此情况发生时,不能与评价对象搭配以构成意见单元。然而,在自动构建句法路径模式时,这些字词也会被标示成意见词并与评价对象搭配,从而产生了错误的意见单元。举例来说,「爸爸说好要买一只智能型手机给我」。这句话中的「好」,就不作为意见词的意义使用,不应与评价对象的「智能型手机」搭配。

【发明内容】

[0009]因此,本发明提供文章的意见单元识别方法及其相关装置,其中,电子装置可以判定可能网络文章所可能出的意见单元是否为正确组合。
[0010]本发明实施例的一种文章的意见单元识别方法。首先,取得一文章语句。依据字词的词性特性取得文章语句中的至少一评价对象及至少一意见词,并将评价对象及意见词组合成一意见单元。接着,将文章语句转换为一句法树,并依据句法树取得相应的句法路径。之后,依据文章语句的语句结构及句法路径产生多个特征的特征值,且将特征值输入一意见单元识别模型,从而得到相应的一识别结果。其中,识别结果表示意见单元是否为一正确组合。
[0011]本发明实施例的一种文章的意见单元识别装置至少包括一储存单元、与一处理单元。储存单元具有一文章语句、与一意见单元识别模型。处理单元依据字词的词性特性取得文章语句中的至少一评价对象及至少一意见词,并将评价对象及意见词组合成一意见单元。处理单元将文章语句转换为一句法树,并依据句法树取得相应的句法路径。之后,处理单元依据文章语句的语句结构及句法路径产生多个特征的特征值,且将特征值输入一意见单元识别模型,从而得到相应的一识别结果。其中,识别结果表示意见单元是否为一正确组入口 O
[0012]在一些实施例中,文章语句中词性为名词的字被识别为评价对象,且词性为不及物动词的字被识别为意见词。
[0013]在一些实施例中,特征包括文章语句的长度、评价对象与意见词于文章语句中的距离、文章语句中评价对象之前一个词的词性、文章语句中评价对象之后一个词的词性、句法路径中意见词位于评价对象之前或之后、句法路径中子节点指向父节点的方向数目、句法路径中父节点指向子节点的方向数目、与/或句法路径中所有节点的数目。
[0014]在一些实施例中,意见单元识别模型依据多个训练语句产生。其中,各训练语句被剖析以取得训练语句中的至少一评价对象及至少一意见词,并将评价对象及意见词组合成一意见单元。此外,将训练语句转换为一句法树,并依据句法树取得相应意见单元的句法路径。依据训练语句的语句结构及句法路径产生多个特征的特征值,且接收相应意见单元的一识别结果,并将相应训练语句的特征值及识别结果输入一类神经网络,以训练类神经网络从而产生意见单元识别模型。
[0015]在一些实施例中,识别结果用以表示意见单元为一正确组合、或表示意见单元为一错误组合。
[0016]本发明实施例的一种文章的意见单元识别方法,用以产生一意见单元识别模型。首先,取得多个文章语句。依据字词的词性特性取得各文章语句中的至少一评价对象及至少一意见词,并将评价对象及意见词组合成一意见单元。接着,将各文章语句转换为一句法树,并依据句法树取得相应意见单元的句法路径。之后,依据各文章语句的语句结构及句法路径产生多个特征的特征值。接着,接收相应各意见单元的识别结果,其中识别结果表示意见单元是一正确组合或一错误组合。将特征值及识别结果输入一类神经网络,从而进行相应意见单元识别模型的训练作业。
[0017]本发明的文章的意见单元识别方法及其相关装置可以对于网络文章的意见单元进行识别,从而增加从文章中选取的意见单元的正确性。
[0018]本发明上述方法可以通过程序代码方式存在。当程序代码被机器加载且执行时,机器变成用以实行本发明的装置。
[0019]为使本发明的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合附图,详细说明如下。
【附图说明】
[0020]图1为显示依据本发明实施例的文章的意见单元识别装置的一示意图。
[0021]图2为显示依据本发明实施例的意见单元识别模型的一示意图。
[0022]图3为显示依据本发明实施例的意见单元识别模型训练方法的一流
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1