一种隐式属性抽取方法及装置与流程

文档序号:18885839发布日期:2019-10-15 20:53阅读:165来源:国知局
一种隐式属性抽取方法及装置与流程

本发明涉及计算机信息处理技术领域,具体涉及一种隐式属性抽取方法及装置。



背景技术:

由于不同的用户往往关注不同的商品特征,在对商品进行评论时,即使整体上持有相同情感倾向的用户对商品的局部细节也可能持有不同的情感倾向。深入挖掘用户对于商品各方面所持的情感倾向,一方面,可以帮助潜在用户了解目标商品在各个属性维度上的指标或优缺点,为其购买决策提供参考;另一方面,可以帮助商家了解自己商品的优势和不足,从而有的放矢地改进商品设计或服务,提升商品质量,或者实现精准营销。

为了从商品评论中获知商品属性,需要从商品评论中抽取商品属性。商品属性包括显式属性和隐式属性。其中,隐式属性是指在商品评论中不直接以文字形式出现,而通过词语或者语义推断出的属性。如在商品评论“非常漂亮,就是有点贵”中,情感词“贵”隐含了商品属性“价格”,情感词“漂亮”隐含了商品属性“外观”。

现有技术公开了多种商品显式属性的抽取方式,但鲜见商品隐式属性的抽取方式。因此,在从商品评论了解商品属性时,总有部分商品评论被忽略,导致评论细粒度情感分析不全面,使得用户购买策略失误以及商家改进自己商品不精准,甚至导致商家营销失败。



技术实现要素:

为此,本发明提供一种隐式属性抽取方法及装置,以解决现有技术中由于无法抽取商品隐式属性而导致的评论细粒度情感分析不全面的问题。

为了实现上述目的,本发明第一方面提供一种隐式属性抽取方法,所述方法包括:

对原始语料进行预处理获得有效语料;

对所述有效语料进行分句,获得短句集合;

根据商品属性将所述短句集合分成显式句子集合和隐式句子集合,其中,所述显式句子集合是由包含商品显式属性簇的短句组成,所述隐式句子集合由除包含商品显式属性簇之外的短句组成;

依据所述显式句子集合构建商品显式属性簇与情感词的映射关系;

判断所述隐式句子集合中的隐式句子是否存在情感词,若否,则放弃该隐式句子;若是,则根据所述商品显式属性簇与情感词的映射关系获得该隐式句子对应的隐式属性。

其中,所述对原始语料进行预处理获得有效语料步骤包括:

对所述原始语料进行清洗,以将无价值或低价值量的原始语料过滤而获得有效语料;

对所述有效语料进行分词和词性标注。

其中,采用python的结巴分词包对所述有效语料进行分词和词性标注。

其中,所述依据所述显式句子集合构建商品显式属性簇与情感词的映射关系的步骤包括:

从所述显式句子集合里抽取情感词;

计算所述情感词与所述商品显式属性簇之间的pmi值;

其中,w为情感词,f为商品显式属性簇,p(w)和p(f)分别为情感词和商品显式属性簇在显式句子集合里出现的概率,p(wandf)为情感词和商品显式属性簇在显式句子集合里共同出现的概率;

判断所述pmi值是否大于预设阈值,若是,则构建该情感词和与其对应的所述商品显式属性簇之间映射关系;

若否,则通过ltp句法分析器检查所述情感词与显式属性是否存在主谓(sbv)型依存关系;若是,则构建该情感词和与其对应的所述商品显式属性簇之间映射关系。

其中,所述根据所述商品显式属性簇与情感词的映射关系获得该隐式句子对应的隐式属性步骤包括:

抽取所述隐式句子中情感词;

依据该情感词从所述商品显式属性簇与情感词的映射关系中找出与其对应的映射关系,形成候选映射关系集合;

分别计算该情感词在各个所述候选映射关系中与所述商品显式属性簇之间的pmi值;

选取所述pmi值最大的映射关系对应的商品显式属性簇中代表性属性词作为该隐式句子的隐式属性。

本发明第二方面提供一种隐式属性抽取装置,包括:

预处理单元,用于对原始语料进行预处理获得有效语料;

分割单元,用于对所述有效语料进行分句,获得短句集合;

分类单元,将所述短句集合根据商品属性分成显式句子集合和隐式句子集合,其中,所述显式句子集合是由包含商品显式属性簇的短句组成,所述隐式句子集合由除包含商品显式属性簇之外的短句组成;

显式属性映射构建单元,用于依据所述显式句子集合构建商品显式属性簇与情感词的映射关系;

隐式属性归属单元,用于根据所述隐式句子集合中的隐式句子存在情感词时,根据所述商品显式属性簇与情感词的映射关系获得该隐式句子对应的隐式属性。

其中,所述预处理单元包括:

清洗模块,用于对所述原始语料进行清洗,以将无价值或低价值量的原始语料过滤而获得有效语料;

标注模块,用于对所述有效语料进行分词和词性标注。

其中,所述标注模块采用python的结巴分词包对所述有效语料进行分词和词性标注。

其中,所述显式属性映射构建单元包括:

第一抽取模块,用于从所述显式句子集合里抽取情感词;

第一计算模块,用于计算所述情感词与所述商品显式属性簇之间的pmi值;

其中,w为情感词,f为商品显式属性簇,p(w)和p(f)分别为情感词和商品显式属性簇在显式句子集合里出现的概率,p(wandf)为情感词和商品显式属性簇在显式句子集合里共同出现的概率;

pmi值判断模块,用于判断所述pmi值是否大于预设阈值;

映射构建模块,用于在所述pmi值大于预设阈值时,构建该情感词和与其对应的所述商品显式属性簇之间映射关系;

依存判断模块,用于在所述pmi值小于预设阈值时,通过ltp句法分析器检查所述情感词与显式属性是否存在主谓(sbv)型依存关系;

所述映射构建模块还用于,在所述依存判断模块判断所述情感词与显式属性存在主谓(sbv)型依存关系时,构建该情感词和与其对应的所述商品显式属性簇之间映射关系。

其中,所述隐式属性归属单元包括:

情感词判断模块,用于判断所述隐式句子集合中的隐式句子是否存在情感词;

第二抽取模块,用于抽取所述隐式句子中情感词;

查询模块,用于依据该情感词从所述商品显式属性簇与情感词的映射关系中找出与其对应的映射关系,并记作候选映射关系;

第二计算模块,用于分别计算该情感词在各个所述候选映射关系中与所述商品显式属性簇之间的pmi值;

选取模块,用于选取所述pmi值最大的映射关系对应的商品显式属性簇中代表性属性词作为该隐式句子的隐式属性。

本发明具有如下优点:

本发明提供的隐式属性抽取方法,将原始语料预处理后进行分句获得短句集合,再将短句集合根据商品属性分成显式句子集合和隐式句子集合,综合考虑商品评论属性词与情感词之间的共现关系,以及结合句法依存关系根据所述显式句子集合构建商品显式属性簇与情感词的映射关系;并根据所述商品显式属性簇与情感词的映射关系对所述隐式句子集合中的隐式句子处理获得该隐式句子对应的隐式属性,不仅提取了商品显式属性,而且提取了商品隐式属性,使评论细粒度情感分析更全面,从而使用户购买策略更准确以及商家改进自己商品更精准,进而提高营销成功的概率。

附图说明

附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。

图1为本发明实施例提供的隐式属性抽取方法的流程图;

图2为本发明实施例提供的方法中步骤s4的具体流程图;

图3为本发明实施例提供的方法中步骤s6的具体流程图;

图4为本发明实施例提供的隐式属性抽取装置的原理框图。

在附图中:

1:预处理单元2:分割单元

3:分类单元4:显式属性映射构建单元

41:第一抽取模块42:第一计算模块

43:pmi值判断模块44:映射构建模块

45:依存判断模块6:隐式属性归属单元

61:情感词判断模块62:第二抽取模块

63:查询模块64:第二计算模块

65:选取模块

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

在商品评论中的隐式属性大致可以分成三种类型:

其一,隐式属性由情感词所隐含,例如在商品平路“非常漂亮,就是有点贵”中,情感词“贵”隐含了属性“价格”,情感词“漂亮”隐含了属性“外观”等。

其二,隐式属性由情感词及其上下文语义所隐含,例如,在商品评论“非常快,昨天晚上下单,今天中午就送到了”中,仅仅根据情感词“快”是无法识别出隐含属性的,需要综合考虑情感词以及情感词所在的上下文语义,通过语义理解判断出这里“快”描述的隐式属性是“物流”。

其三,隐式属性由句子的上下文语义所隐含。例如,手机评论“用不了一天就得充一次电”,这是一条描述客观情况的句子,在评论句子中既没有出现情感词,也没有出现属性,但是根据消费者所描述的事实可以推理出所评价的隐式属性是手机的“电池”,并且隐含了负向的情感。

本实施例不仅针对商品评论中的显式属性,也针对商品评论中的隐式属性,通过商品评论中的情感词提取商品属性。

具体地,如图1所示,本实施例提供的隐式属性抽取方法包括:

步骤s1,对原始语料进行预处理获得有效语料。

原始语料是通过八爪鱼等采集器从电商平台的评论数据中抓取,然后通过人工或诸如布尔模型等软件对原始语料进行清洗,将无价值或低价值量的原始语料过滤,从而获得有效语料。

在对有效语料采用但不限于采用python的结巴分词包对有效语料进行分句和词性标注。

步骤s2,对有效语料进行分句,获得短句集合。

由于商品评论具有篇幅不长、短句分隔随意、语义丰富等特点,基于步骤s1中词性标注的结果,以逗号、分号、句号、感叹号等标点符号对有效语料进行分句,获得短句集合。

步骤s3,根据商品属性将短句集合分成显式句子集合和隐式句子集合。

根据商品属性将短句集合分成显式句子集合和隐式句子集合。其中,显式句子集合是由包含商品显式属性簇的短句组成,隐式句子集合由除包含商品显式属性簇之外的短句组成。

具体地,将短句集合作为一个逻辑上的语义单位进行处理,从短句集合中抽取包含商品显式属性簇的句子作为显式句子集合,将不包含商品显式属性簇的句子作为隐式句子集合。

步骤s4,依据显式句子集合构建商品显式属性簇与情感词的映射关系。

步骤s4是针对商品显式属性的抽取过程,如图2所示,具体包括:

步骤s41,从显式句子集合里抽取情感词获得情感词集合。

从显式句子集合里抽取情感词,即从显式句子集合里抽取形容词生成情感词集合。

步骤s42,计算情感词与商品显式属性簇之间的pmi值;

其中,w为情感词,f为商品显式属性簇,p(w)和p(f)分别为情感词和商品显式属性簇在显式句子集合里出现的概率,p(wandf)为情感词和商品显式属性簇在显式句子集合里共同出现的概率。

p(f)和p(wandf)的计算公式如下:

其中,n为商品显式属性簇f中的属性个数,fi为商品显式属性簇f中的第i个属性,co-occurence(fi,w)为fi和w在显式句子集合里共同出现的概率,n为显式句子集合中句子的个数。

在本实施例中,pmi值越大,表示情感词与商品显式属性簇共同出现的概率越高,关联程度也越高,反之则越低。

步骤s43,判断pmi值是否大于预设阈值p。

假设预设阈值p为-0.00009,若pmi≥p,则执行步骤s44;如果pmi<p,执行步骤s45。

步骤s44,构建该情感词和与其对应的商品显式属性簇之间的映射关系。

步骤s45,通过ltp句法分析器检查情感词与显式属性是否存在依存关系。

本实施例采用哈工大ltp句法分析器,检查情感词与显式属性之间是否存在依存关系。如果商品显式属性簇中任一属性词和情感词之间存在主谓(sbv)型依存关系,就认为情感词与该商品显式属性簇之间存在依存关系,则执行步骤s45;如果商品显式属性簇中没有一个属性词和情感词之间存在主谓(sbv)型依存关系,就认为情感词与该商品显式属性簇之间不存在依存关系,则过滤掉该映射关系。

步骤s46,构建该情感词和与其对应的商品显式属性簇之间映射关系。

综合步骤s44和步骤s46得的所有映射关系,最终得到商品显式属性簇集合和情感词集合之间的映射关系。

步骤s5,判断隐式句子集合中的隐式句子是否存在情感词,若否,则放弃该隐式句子;若是,则执行步骤s6。

步骤s6,根据商品显式属性簇与情感词的映射关系获得该隐式句子对应的隐式属性。

步骤s6是针对商品隐式属性的抽取步骤,如图3所示,具体包括:

步骤s61,抽取隐式句子中情感词。

步骤s62,依据该情感词从商品显式属性簇与情感词的映射关系中找出与其对应的映射关系,形成候选映射关系组成的候选映射关系集合。

依据该情感词从商品显式属性簇与情感词的映射关系中找出与其对应的映射关系,并记作候选映射关系。由于每个情感词可能对应多个商品显式属性簇,因此,形成候选映射关系组成的候选映射关系集合。

步骤s63,分别计算该情感词各个候选映射关系中与商品显式属性簇之间的pmi值。

计算pmi值的方式与步骤s42相同,在此不再赘述。

步骤s64,选取pmi值最大的映射关系对应的商品显式属性簇中代表性属性词作为该隐式句子的隐式属性。

本实施例提供的隐式属性抽取方法,将原始语料预处理后进行分句获得短句集合,再将短句集合根据商品属性分成显式句子集合和隐式句子集合,综合考虑商品评论属性词与情感词之间的共现关系,以及结合句法依存关系根据显式句子集合构建商品显式属性簇与情感词的映射关系;并根据商品显式属性簇与情感词的映射关系对隐式句子集合中的隐式句子处理获得该隐式句子对应的隐式属性,不仅提取了商品显式属性,而且提取了商品隐式属性,使评论细粒度情感分析更全面,从而使用户购买策略更准确以及商家改进自己商品更精准,进而提高营销成功的概率。

本实施例还提供一种隐式属性抽取装置。如图4所示,隐式属性抽取装置包括:

预处理单元1,用于对原始语料进行预处理获得有效语料。

预处理单元1包括清洗模块11和标注模块12;其中,清洗模块11用于对原始语料进行清洗,以将无价值或低价值量的原始语料过滤而获得有效语料;标注模块12用于对有效语料进行分词和词性标注,而且,标注模块采用python的结巴分词包对有效语料进行分词和词性标注。

分割单元2,用于对有效语料进行分句,获得短句集合。

分类单元3,将短句集合根据商品属性分成显式句子集合和隐式句子集合,其中,显式句子集合是由包含商品显式属性簇的短句组成,隐式句子集合由除包含商品显式属性簇之外的短句组成。

显式属性映射构建单元4,用于依据显式句子集合构建商品显式属性簇与情感词的映射关系。

显式属性映射构建单元4包括:

第一抽取模块41,用于从显式句子集合里抽取情感词;

第一计算模块42,用于计算情感词与商品显式属性簇之间的pmi值;

其中,w为情感词,f为商品显式属性簇,p(w)和p(f)分别为情感词和商品显式属性簇在显式句子集合里出现的概率,p(wandf)为情感词和商品显式属性簇在显式句子集合里共同出现的概率;

pmi值判断模块43,用于判断pmi值是否大于预设阈值;

映射构建模块44,用于在pmi值大于预设阈值时,构建该情感词和与其对应的商品显式属性簇之间映射关系;

依存判断模块45,用于在pmi值小于预设阈值时,通过ltp句法分析器检查情感词与显式属性是否存在依存关系。

本实施例采用哈工大ltp句法分析器,检查情感词与显式属性之间是否存在依存关系。如果商品显式属性簇中任一属性词和情感词之间存在主谓(sbv)型依存关系,就认为情感词与该商品显式属性簇之间存在依存关系;如果商品显式属性簇中没有一个属性词和情感词之间存在主谓(sbv)型依存关系,就认为情感词与该商品显式属性簇之间不存在依存关系,则过滤掉该映射关系。

映射构建模块44还用于,在依存判断模块判断情感词与显式属性存在依存关系时,构建该情感词和与其对应的商品显式属性簇之间映射关系。

隐式属性归属单元6,用于根据商品显式属性簇与情感词的映射关系获得该隐式句子对应的隐式属性。

隐式属性归属单元6包括情感词判断模块61,第二抽取模块62、查询模块63、第二计算模块64和选取模块65;其中,

情感词判断模块61,用于判断隐式句子集合中的隐式句子是否存在情感词,若否,则放弃该隐式句子。

第二抽取模块62用于抽取隐式句子中情感词。

查询模块63用于依据该情感词从商品显式属性簇与情感词的映射关系中找出与其对应的映射关系,并记作候选映射关系。

第二计算模块64用于分别计算该情感词在各个候选映射关系中与商品显式属性簇之间的pmi值。

选取模块65用于选取pmi值最大的映射关系对应的商品显式属性簇中代表性属性词作为该隐式句子的隐式属性。

本实施例提供的隐式属性抽取装置,通过预处理单元将原始语料预处理获得有效语料,并用分割单元将有效语料进行分句获得短句集合,再通过分类单眼将短句集合根据商品属性分成显式句子集合和隐式句子集合,通过显式属性映射构建单元综合考虑商品评论属性词与情感词之间的共现关系,以及结合句法依存关系根据显式句子集合构建商品显式属性簇与情感词的映射关系;通过隐式属性归属单元根据商品显式属性簇与情感词的映射关系对隐式句子集合中的隐式句子处理获得该隐式句子对应的隐式属性,不仅提取了商品显式属性,而且提取了商品隐式属性,使评论细粒度情感分析更全面,从而使用户购买策略更准确以及商家改进自己商品更精准,进而提高营销成功的概率。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1