一种结合依存句法分析和规则的中英文评论观点挖掘方法与流程

文档序号:29126885发布日期:2022-03-05 00:18阅读:134来源:国知局
一种结合依存句法分析和规则的中英文评论观点挖掘方法与流程

1.本发明涉及文本挖掘技术领域,具体为一种结合依存句法分析和规则的中英文评论观点挖掘方法。


背景技术:

2.对于大数据时代下的电商而言,平均每天都会产生成千上万的商品评论。评论内容一方面体现了卖家的口碑信誉,影响消费者的购物意向;另一方面,评价内容是消费者对商品质量及购物体验等的直接反馈,是商家与消费者进行互动的便捷方式。因此,对评价内容进行解析具有很高的实用价值。而评价内容涉及到多个属性,并且每个属性表达的情感、观点也具有多样性。因次,高效、准确地从评价中抽取细粒度观点是精准把握消费者购物理念,预测消费趋势和商品销售率的重要手段。
3.在现有的细粒度观点挖掘方法中,如专利号202110325886.7的技术方案使用神经网络配合标注数据进行有监督学习,首先对短文本数据集进行预处理,筛选有效数据,对数据集进行预标注工作,然后构建基于target-aspect-opinion联合抽取的情感分析模型。本发明提出的联合抽取模型,解决了现有模型中单独抽取target或aspect等带来的识别不全面问题,以及通过构建targettaggers和aspect-opiniontaggers,有效解决了目标词重叠问题;专利号202110219489.1公开的一种新情感词提取方法,首先对中文商品评论语料库中的每条文本进行预处理以及分词;然后对语句进行句法分析生成语法树,遍历语法树形成对应的路径字符串,结合编辑距离来衡量两个词语所在语句的句法结构相似度,从而提取与旧情感词具有相似句法结构的新词作为候选新情感词;最后结合点互信息和正负语料差商系数计算候选新情感词的情感极性,将具有情感极性的词语加入新情感词集合。该方法考虑了上下文和句法信息,并解决了对候选词过滤精度不高的问题。它可以有效且准确地识别出新情感词,且新情感词的有效提取为文本情感分析也提供了基础支持。以上方法存在以下不足:(1)基于深度学习的方法需要标注预料,且需要在网络训练前定义属性词;(2)无法在定位属性词时抽取出观点。
4.针对上述问题,本发明提供了一种结合依存句法分析和规则的中英文评论观点挖掘方法。


技术实现要素:

5.本发明的目的在于提供一种结合依存句法分析和规则的中英文评论观点挖掘方法,该方法可以有效识别出观点词汇,并且对观点进行情感极性判断和筛选,具有较高的准确率和召回率,通过该方法同时考虑了语法树信息和词汇的情感极性,针对评论语料,对观点和语法、词性进行多维度总结,定义多个观点抽取规则,从而能够有效识别观点词汇,减少人工标注数据成本的同时在一定程度上改善了对候选观点筛选精度不高的不足,从而解决了背景技术中的问题。
6.为实现上述目的,本发明提供如下技术方案:一种结合依存句法分析和规则的中
英文评论观点挖掘方法,包括以下步骤:
7.s01:建立中英文评论语料库,并对其进行预处理操作;
8.s02:结合句法分析和规则提取属性级观点信息;
9.s03:对候选观点进行同义词替换,将语义相近的观点视为一类,并进行数量统计;
10.s04:分别设定正负阈值k,按观点出现次数从大到小的顺序排列,次数相同时按情感分数由高到低排列,最后截取出现次数大于相应阈值的观点。
11.进一步地,步骤s02中进行分析和提取时,首先利用依存句法分析提取文本的语法树信息,然后结合词汇的词性以及词汇间的依赖信息,提取出候选观点,最后对候选观点进行情感极性判别筛选出细粒度观点。
12.进一步地,步骤s02具体包括以下步骤:
13.s021:利用语种识别工具包language对评论文本进行语种判断;
14.s022:利用自然语言处理工具包spacy对文本进行分句,然后利用该软件包对每个句子进行依存句法分析,提取句子的语法树信息;
15.s023:针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,该表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息;
16.s024:对步骤s022中spacy处理后得到的每个子句,应用规则提取出相应词汇作为候选观点,并对候选观点进行停用词检查;
17.s025:构建一个正负词汇表,对步骤s024中得到的候选观点进行情感极性判断和筛选。
18.进一步地,步骤s024中,为抽取表达某一情感的观点,针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息。
19.进一步地,步骤s025中,对观点和句子同时进行情感极性判断,利用snownlp工具包对短语以及句子进行情感评分。
20.进一步地,snownlp工具包进行情感极性分析,并设定情感正阈值k和情感负阈值k’,根据正负阈值,将情感分析划分为正负两类,并从中筛除不带情感的观点词汇。
21.进一步地,情感极性判断的逻辑为,当情感分数大于设定的情感正阈值k时,视候选观点的情感极性为正,将其加入正词汇表中,当候选观点的情感分数小于设定的情感负阈值k’时,视情感极性为负,将其加入负词汇表中。
22.进一步地,spacy自带的停用词库,将预处理步骤中去除的停用词与观点中的词汇进行比对,筛除包含停用词的观点。
23.进一步地,步骤s03中,利用synonyms中、wordnet英工具包进行近义词替换
24.进一步地,步骤s04中,观点出现的次数小于设定的阈值k时,视为观点重要性不强,将其中候选集合中筛除。
25.本发明的有益效果如下:
26.1、一种结合依存关系和规则的评论中英文评论观点挖掘方法,通过该方法同时考虑了语法树信息和词汇的情感极性,针对评论语料,对观点和语法、词性进行多维度总结,定义多个观点抽取规则,从而能够有效识别观点词汇,减少人工标注数据成本的同时在一
定程度上改善了对候选观点筛选精度不高的问题。
27.2、一种结合依存关系和规则的评论中英文评论观点挖掘方法,利用语种识别工具包language对评论文本进行语种判断,利用自然语言处理工具包spacy对文本进行分句,然后利用该软件包对每个句子进行依存句法分析,提取句子的语法树信息,针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,该表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息对于商品评论的观点挖掘,使得本挖掘方法能够从词性和语法关系的角度出发,归纳多条用于提取细粒度观点的规则,并在属性词的基础上挖掘评论观点。
28.3、一种结合依存关系和规则的评论中英文评论观点挖掘方法,通过snownlp工具包进行情感极性分析,并设定情感正阈值k和情感负阈值k’,根据正负阈值,将情感分析划分为正负两类,并从中筛除不带情感的观点词汇,情感极性判断的逻辑为,当情感分数大于设定的情感正阈值k时,视候选观点的情感极性为正,将其加入正词汇表中,当候选观点的情感分数小于设定的情感负阈值k’时,视情感极性为负,将其加入负词汇表中,能够对于每个观点以及观点所在的子句进行短语以及单句级别的情感判断,得出消费者在同一商品不同属性维度上的情感倾向。
29.4、一种结合依存关系和规则的评论中英文评论观点挖掘方法,利用synonyms(中)、wordnet(英)工具包进行近义词替换,将替换后出现重复的观点聚为同一类别,并进行观点的数量统计,步骤s04中,观点出现的次数小于设定的阈值k时,视为观点重要性不强,将其中候选集合中筛除,使得本挖掘方法能够依据情感分数对观点进行过滤,筛除不具备一定情感极性的观点,最终得到的细粒度观点反馈消费者对商品整体的情感倾向,有利于商家及时做出决策。
附图说明
30.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
31.图1为本发明的结合依存句法分析和规则的中英文评论观点挖掘方法的整体流程步骤图;
32.图2为本发明的结合句法分析和规则提取属性级观点信息的具体流程图;
33.图3为本发明的基于依存句法分析和规则的观点挖掘方法的系统框架图;
34.图4为本发明的结合依存句法分析和规则的中英文评论观点挖掘方法的逻辑流程图。
具体实施方式
35.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
36.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
37.在本技术中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本技术及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
38.并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本技术中的具体含义。
39.另外,术语“多个”的含义应为两个以及两个以上。
40.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
41.请参阅图1、图3和图4,一种结合依存句法分析和规则的中英文评论观点挖掘方法,包括以下步骤:
42.s01:建立中英文评论语料库,并对其进行预处理操作;
43.s02:结合句法分析和规则提取属性级观点信息;
44.s03:对候选观点进行同义词替换,将语义相近的观点视为一类,并进行数量统计;
45.s04:分别设定正负阈值k,按观点出现次数从大到小的顺序排列,次数相同时按情感分数由高到低排列,最后截取出现次数大于相应阈值的观点。
46.通过该方法同时考虑了语法树信息和词汇的情感极性,针对评论语料,对观点和语法、词性进行多维度总结,定义多个观点抽取规则,从而能够有效识别观点词汇,减少人工标注数据成本的同时在一定程度上改善了对候选观点筛选精度不高等问题。
47.进一步地,步骤s02中进行分析和提取时,首先利用依存句法分析提取文本的语法树信息,然后结合词汇的词性以及词汇间的依赖信息,提取出候选观点,最后对候选观点进行情感极性判别筛选出细粒度观点。
48.进一步地,请参阅图2,步骤s02具体包括以下步骤:
49.s021:利用语种识别工具包language对评论文本进行语种判断;
50.s022:利用自然语言处理工具包spacy对文本进行分句,然后利用该软件包对每个句子进行依存句法分析,提取句子的语法树信息;
51.s023:针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,该表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息;
52.s024:对步骤s022中spacy处理后得到的每个子句,应用规则提取出相应词汇作为候选观点,并对候选观点进行停用词检查;
53.s025:构建一个正负词汇表,对步骤s024中得到的候选观点进行情感极性判断和
筛选。
54.需要说明的是,为抽取表达某一情感的观点,本发明针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,该表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息。规则如下所示,对于中英文,既有通用规则,也有自身特有的规则。
55.通用规则:
56.1)当名词n与形容词a是支配和从属关系时,a+n成为观点词汇,名词n为属性词;
57.2)当形容词或者副词a与名词n是支配和从属关系时,a+n成为一个观点词汇,名词n为属性词;
58.3)当形容词a和名词n共享同一个支配词时,a+n成为一个观点词汇,名词n为属性词;
59.中文自身特有的规则:
60.1)当名词n和副词ad共享同一个支配词,且此时支配词为动词时,名词n为属性词,观点词汇定义为以下两种情况之一:
61.a.当n位于ad之前,n+ad+v成为一个观点词汇;
62.b.当n位于ad之后,ad+v+n成为一个观点词汇;
63.2)当动词v为句子的根节点且v的从属词为名词n时,n成为属性词,观点词汇定义为以下两种情况之一:
64.a.当n出现在v之前,n+v成为一个观点词汇;
65.b.当v出现在n之前,v+n成为一个观点词汇;
66.英文自身特有的规则:
67.1)当动词v的支配词n为名词且v的从属词a为形容词是,a+n成为一个观点词汇,名词n为属性词;
68.2)当名词n1满足以下条件时,a+n2成为一个观点词汇,名词n2为属性词:
69.a.n与其支配词互为连词关系,且支配词n2为名词;
70.b.n的从属词为形容词a;
71.3)当形容词或副词a与其支配词v互为从句关系,且v为动词时,形容词a+动词v成为一个观点词汇,动词v为属性词。
72.由于语法的复杂和多样性,候选观点或不带强烈的情感极性,或不属于观点表达,并且候选观点及其所在子句的情感极性可能不同,因此需要对观点和句子同时进行情感极性判断。
73.进一步地,步骤s025中,对观点和句子同时进行情感极性判断,利用snownlp工具包对短语以及句子进行情感评分。
74.snownlp工具包进行情感极性分析,并设定情感正阈值k和情感负阈值k’,根据正负阈值,将情感分析划分为正负两类,并从中筛除不带情感的观点词汇,情感极性判断的逻辑为,当情感分数大于设定的情感正阈值k时,视候选观点的情感极性为正,将其加入正词汇表中,当候选观点的情感分数小于设定的情感负阈值k’时,视情感极性为负,将其加入负词汇表中。
75.更进一步地,spacy自带的停用词库,将预处理步骤中去除的停用词与观点中的词
汇进行比对,筛除包含停用词的观点。
76.步骤s03中,利用synonyms(中)、wordnet(英)工具包进行近义词替换,将替换后出现重复的观点聚为同一类别,并进行观点的数量统计,步骤s04中,观点出现的次数小于设定的阈值k时,视为观点重要性不强,将其中候选集合中筛除。
77.与传统技术先比,本发明的有益效果如下:
78.利用语种识别工具包language对评论文本进行语种判断,利用自然语言处理工具包spacy对文本进行分句,然后利用该软件包对每个句子进行依存句法分析,提取句子的语法树信息,针对商品评价语料中观点词汇的词性和词汇间的依赖关系,建立一个规则表,该表中定义了多个匹配规则,通过对文本中相关词汇的词性和依赖关系进行匹配,提取出句中重要的细粒度观点信息对于商品评论的观点挖掘,使得本挖掘方法能够从词性和语法关系的角度出发,归纳多条用于提取细粒度观点的规则,并在属性词的基础上挖掘评论观点。
79.通过snownlp工具包进行情感极性分析,并设定情感正阈值k和情感负阈值k’,根据正负阈值,将情感分析划分为正负两类,并从中筛除不带情感的观点词汇,情感极性判断的逻辑为,当情感分数大于设定的情感正阈值k时,视候选观点的情感极性为正,将其加入正词汇表中,当候选观点的情感分数小于设定的情感负阈值k’时,视情感极性为负,将其加入负词汇表中,能够对于每个观点以及观点所在的子句进行短语以及单句级别的情感判断,得出消费者在同一商品不同属性维度上的情感倾向。
80.利用synonyms(中)、wordnet(英)工具包进行近义词替换,将替换后出现重复的观点聚为同一类别,并进行观点的数量统计,步骤s04中,观点出现的次数小于设定的阈值k时,视为观点重要性不强,将其中候选集合中筛除,使得本挖掘方法能够依据情感分数的大小对观点进行过滤,筛除不具备一定情感极性的观点,最终得到的细粒度观点反馈消费者对商品整体的情感倾向,有利于商家及时做出决策。
81.综上所述:本发明提供了一种结合依存句法分析和规则的中英文评论观点挖掘方法,通过该方法同时考虑了语法树信息和词汇的情感极性,针对评论语料,对观点和语法、词性进行多维度总结,定义多个观点抽取规则,从而能够有效识别观点词汇,减少人工标注数据成本的同时在一定程度上改善了对候选观点筛选精度不高等问题,且该方法同时考虑了语法树信息和词汇的情感极性,针对评论语料,对观点和语法、词性进行多维度总结,定义多个观点抽取规则,从而能够有效识别观点词汇。本发明在减少人工标注数据成本的同时在一定程度上改善了对候选观点筛选精度不高等问题,并且对于每个观点以及观点所在的子句进行短语以及单句级别的情感判断,得出消费者在同一商品不同属性维度上的情感倾向,并依据情感分数的大小对观点进行过滤,筛除不具备一定情感极性的观点,最终得到的细粒度观点反馈消费者对商品整体的情感倾向,有利于商家及时做出决策。
82.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
83.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技
术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1