一种情感词极性的分析方法、装置及设备与流程

文档序号:12802157阅读:243来源:国知局
一种情感词极性的分析方法、装置及设备与流程
本发明涉及情感词的分析技术,特别是涉及一种情感词极性的分析方法、装置及设备。
背景技术
:随着互联网技术的发展,网络上出现了越来越多的用户原创内容(usergeneratedcontent,ugc),例如网络商店中用户对商品或卖家的评论、用户借助微博、博客等发表的评论等,是用户对一些领域内的具体对象的看法和意见。其中,这些看法和意见通常借助情感词表述出来,可能是正向情感、负向情感或中性情感,且情感词的极性一般在相同领域内相同,在不同领域而不同。这样,通过分析评论中的情感词,就能够确定用户对相应对象的认可程度。当前,常采用以下两种方式分析情感词:方式一:基于机器学习,利用人工标注数据对情感词进行分析;但为了准确分析情感词,这种方式需要大量的人工标注数据,且需要对人工标注数据进行训练,耗时耗力。方式二:基于情感词典和语言规则,根据情感词在情感词典中的情感倾向以及一些语言规则,例如句子中的修饰词、否定词等,对情感词进行分析;但是,情感词在不同的领域和与不同的特征词搭配时,往往具有不同的情感倾向,特别是对有歧义的情感词,即这种方式的分析结果可能不准确。技术实现要素:本发明的目的在于提供一种情感词极性的分析方法、装置及设备,以解决现有技术中的分析情感词的方法耗时耗力,且分析结果可能不准确的问题。为解决上述技术问题,本发明实施例提供一种情感词极性的分析方法,包括:获取一目标领域内的具有对应评分的多个评论;根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;抽取所述多个评论中的特征-情感词对;根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。另一方面,本发明实施例还提供一种情感词极性的分析装置,包括:获取模块,用于获取一目标领域内的具有对应评分的多个评论;确定模块,用于根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;抽取模块,用于抽取所述多个评论中的特征-情感词对;计算模块,用于根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;判定模块,用于根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。又一方面,本发明实施例又提供一种情感词极性的分析设备,包括:输入单元,用于获取一目标领域内的具有对应评分的多个评论;处理器,用于根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;抽取所述多个评论中的特征-情感词对;根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。与现有技术相比,本发明实施例提供的情感词极性的分析方法,通过获取一目标领域内的具有对应评分的多个评论,根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率,抽取所述多个评论中的特征-情感词对,根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率,并根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性,不仅能够避免利用大量的人工标注数据对情感词进行分析,还能够避免因词歧义问题,对情感词的分析结果造成的影响。附图说明图1表示本发明实施例的情感词极性的分析方法的流程图。图2表示本发明实施例的抽取评论中的特征-情感词对的流程图。图3表示本发明实施例的情感词极性的分析装置的功能结构示意图。图4表示本发明实施例的情感词极性的分析设备的硬件结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。参见图1所示,本发明实施例提供一种情感词极性的分析方法,包括以下步骤:步骤101:获取一目标领域内的具有对应评分的多个评论。其中,所述目标领域例如是电视机、手机、相机、服装等领域。所述评论是用户对目标领域内的产品对象的看法和意见。为了体现用户的情感倾向,通常情况下,每个评论都有用户给定的评分。随着越来越多的用户开始在网络上发表自己的观点,网络上用户评论的日益增长,本发明具体实施例中,获取评论的方式可以是:利用网络爬虫从网络上获取一目标领域内的具有对应评分的多个评论。这样,能够得到海量的、有参考价值的评论信息。步骤102:根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率。具体的,评论的评分用于表示用户对所评价内容的总体满意度,且一般情况下,满意度越高,评分越高,正向情感概率越高。例如,当用户对产品a的满意度较高时,可以给出评分5星(评分标准为1~5星)或10分(评分标准为1~10分),即正向情感概率为100%;当用户对产品a的不太满意时,可以给出评分3星或5分,即正向情感概率为60%或50%。这样,根据评论的评分,就能够确定出相应评论的正向情感概率。步骤103:抽取所述多个评论中的特征-情感词对。通常情况下,针对一个目标领域内的对象的评论中,会涉及到与所述对象相关的多个特征,分别采用特征词描述。以相机领域内的数码相机为例,针对其的评论常涉及到的特征(特征词)包括快门速度、电池待机时间、显示屏、防水外壳等。本发明实施例中,所述特征-情感词对就是评论中的特征词和与其对应的情感词的组合。以上述数码相机为例,针对其的评论涉及到的特征-情感词对可能为快门速度-快、快门速度-非常快、快门速度-慢、电池待机时间-长、电池待机时间-短、显示屏-暗等。步骤104:根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率。本发明实施例中,可以假定所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,以建立回归模型,计算出特征-情感词对的正向情感概率。具体的,对于一个评论来说,所述评论中的特征-情感词对的权重是相同的,等于1/评论中所有特征-情感词对的个数。例如,评论b中有5个特征-情感词对,那么,每个特征-情感词对的权重都是1/5。基于上述内容,建立的回归模型可如等式一所示:等式一其中,等式一针对的是k个评论,所述k个评论中共有n个特征-情感词对(本发明针对的是大数据统计,通常情况下k>n),pi是待求解量。等式一中的参数定义如下:pi:表示特征-情感词对i的正向情感概率,取值范围为0<pi<1;yi:表示评论ri的正向情感概率,取值范围为0<yi<1;aij:表示特征-情感词对i是否出现在评论rj中,等于0或1;其中,0表示未出现,1表示出现;qj:表示评论rj中的特征-情感词对的个数。例如,等式一赋值后可如等式二所示:等式二这样,求解等式二,就可以计算特征-情感词对的正向情感概率p1~pn。步骤105:根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。具体的,特征-情感词对的正向情感概率的大小能够反应出其中情感词的极性,即表达的是正向情感、负向情感或中性情感,体现用户的满意度。本发明实施例中,在判定所述特征-情感词对中情感词的极性时,可采用如下方式实现:首先,比较所述正向情感概率与第一预设阈值和第二预设阈值的大小关系,其中,所述第一预设阈值小于所述第二预设阈值;当所述正向情感概率小于等于所述第一预设阈值时,判定所述特征-情感词对中情感词的极性为负向情感;当所述正向情感概率大于所述第一预设阈值、且小于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为中性情感;当所述正向情感概率大于等于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为正向情感。实际应用中,通过对实际评论的观察发现,并不是5星或10分评论包含的所有情感词都是正向情感。虽然对目标领域内的某个对象的个别特征不满意,但当对主要特征非常满意时,用户往往会给出综合5星或10分的评价。这样,如果仅仅依据评论当前的评分确定其正向情感概率,会出现偏差。并且,不同网站可能会采用不同的评分标准,例如评分标准为1~5星、1~5分、1~10分等,给依据评论当前的评分确定其正向情感概率带来不便。为了方便准确的确定评论的正向情感概率,本发明实施例中,步骤102可采用如下方式实现:首先,基于同一评分标准,规范所述多个评论中每一个评论的评分,再根据预先存储的规范评分和正向情感概率的映射关系,确定所述每一个评论的正向情感概率。举例来说,需要规范评论c、d、e和f的评分,其中,评论c的评分为2星(评分标准1~5星),评论d的评分为4分(评分标准1~5分),评论e的评分为4星(评分标准1~5星),评论f的评分为6分(评分标准1~10分),而选择的评分标准是1~10分。这样,经过规范处理后,评论c的规范评分为4分,评论d的规范评分为8分,评论e的规范评分为8分,评论f的规范评分为6分。其中,预先存储的规范评分和正向情感概率的映射关系可通过对小部分评论数据进行统计分析得到。这的分析方法可采用现有技术,例如基于机器学习的方法,或基于情感词典和语言规则的方法,或基于语句模板(例如,模版1:虽然/尽管+特征词+负向情感词,…好评/5星)的方法,或计算比例关系的方法(映射后的正向情感概率=正向特征-情感词对个数/总特征-情感词对个数)等等,本发明不对其进行限制。例如,预先存储的规范评分和正向情感概率的映射关系(选择的统一评分标准为1-5分)可如下表1所示:规范评分正向情感概率50.940.830.620.410.200表1此外,由于评论中的用词偏口语化、比较随意,因此,同一目标领域内的多个评论中,所述目标领域内的对象的某一个特征可能会有多种表达方法,分别采用不同的特征词描述。这样,如果直接抽取评论中的特征-情感词对,可能会有重复抽取的情况发生。为了避免抽取重复的特征-情感词对,参见图2所示,步骤103可包括如下步骤:步骤1031:获取所述多个评论中的特征词;步骤1032:对表示同一含义的特征词进行规范,得到规范后的特征词;步骤1033:基于所述规范后的特征词,抽取所述多个评论中的特征-情感词对。其中,对特征词进行规划就是要利用一个特征词对同一特征进行描述。而规范方式可以是利用情感词典对表示同一含义的特征词进行规范,也可以是利用词相似度对表示同一含义的特征词进行规范,本发明不对其进行限制。对特征词进行规范的例子,可参见如下表2所示:表2实际应用中,用户在发表评论时,常常利用关联词例如尽管、但是等,来表达情感倾向。当一评论中包含关联词(尤其是包含转折或否定等意思的关联词)时,所述评论中的特征-情感词所体现的情感倾向,可能会与评论所体现的情感倾向相反。所以,当所述多个评论中的特征词与关联词连接时,所述步骤1033在抽取特征-情感词对时,可以基于所述规范后的特征词和与之连接的关联词,抽取所述多个评论中的特征-情感词对,即抽取的特征-情感词对例如为虽然-显示屏-暗、快门速度-慢-但是等,以体现出评论的情感倾向。本发明实施例的情感词极性的分析方法,通过获取一目标领域内的具有对应评分的多个评论,根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率,抽取所述多个评论中的特征-情感词对,根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率,并根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性,不仅能够避免利用大量的人工标注数据对情感词进行分析,还能够避免因词歧义问题,对情感词的分析结果造成的影响;进一步的,在分析过程中,通过规范评论评分和特征词,能够提高分析结果的准确性。参见图3所示,本发明实施例还提供一种情感词极性的分析装置,与图1所示的情感词极性的分析方法相对应,所述情感词极性的分析装置包括:获取模块31,用于获取一目标领域内的具有对应评分的多个评论;确定模块32,用于根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;抽取模块33,用于抽取所述多个评论中的特征-情感词对;计算模块34,用于根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;判定模块35,用于根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。进一步的,本发明实施例中,所述确定模块32包括:第一规范子模块,用于基于同一评分标准,规范所述多个评论中每一个评论的评分;确定子模块,用于根据预先存储的规范评分和正向情感概率的映射关系,确定所述每一个评论的正向情感概率。为了避免抽取重复的特征-情感词对,所述抽取模块33包括:获取子模块,用于获取所述多个评论中的特征词;第二规范子模块,用于对表示同一含义的特征词进行规范,得到规范后的特征词;抽取子模块,用于基于所述规范后的特征词,抽取所述多个评论中的特征-情感词对。具体的,当所述多个评论中的特征词与关联词连接时,所述抽取子模块具体用于基于所述规范后的特征词和与之连接的关联词,抽取所述多个评论中的特征-情感词对。本发明实施例中,所述获取模块具体用于利用网络爬虫从网络上获取一目标领域内的具有对应评分的多个评论。由于特征-情感词对的正向情感概率的大小能够反应出其中情感词的极性,即表达的是正向情感、负向情感或中性情感,所以,所述判定模块35包括:比较子模块,用于比较所述正向情感概率与第一预设阈值和第二预设阈值的大小关系,其中,所述第一预设阈值小于所述第二预设阈值;判定子模块,用于当所述正向情感概率小于等于所述第一预设阈值时,判定所述特征-情感词对中情感词的极性为负向情感;当所述正向情感概率大于所述第一预设阈值、且小于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为中性情感;当所述正向情感概率大于等于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为正向情感。参见图4所示,本发明实施例还提供一种情感词极性的分析设备,包括:输入单元41,用于获取一目标领域内的具有对应评分的多个评论;处理器42,用于根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;抽取所述多个评论中的特征-情感词对;根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。其中,所述输入单元(inputunit)41获取的评论例如是分析设备利用网络爬虫从网络上获取的。所述处理器42例如为cpu,是分析设备的核心部件,承担着分析情感词的主要工作。进一步的,所述情感词极性的分析设备还包括:存储单元43,用于存储规范评分和正向情感概率的映射关系、第一预设阈值和第二预设阈值等;具体的,所述存储单元43包括随机存取存储器(ram)、只读存储器(rom)、硬盘(harddisk)等,还用于存储处理器42的中间处理结果等。输出单元44,用于输出特征-情感词对及对应情感词的极性等信息;具体的,所述输出单元44可以使显示屏(display)等部件。本发明实施例的情感词极性的分析装置及设备,通过获取一目标领域内的具有对应评分的多个评论,根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率,抽取所述多个评论中的特征-情感词对,根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率,并根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性,不仅能够避免利用大量的人工标注数据对情感词进行分析,还能够避免因词歧义问题,对情感词的分析结果造成的影响。以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1