商品属性词的确定方法、装置及计算设备与流程

文档序号:21785051发布日期:2020-08-07 20:27阅读:来源:国知局

技术特征:

1.一种商品属性词的确定方法,所述方法包括步骤:

获取所述商品的至少一条评论文本;

对所述至少一条评论文本进行切分,得到多个子句和所述多个子句所包括的多个词语;

将所述多个子句中的至少部分子句划分为多个类别;

从每一类别下的子句所包括的词语中,基于所述词语的出现频率来确定所述商品的一级属性词;

从所述多个子句所包括的多个词语中,至少基于所述词语与所述一级属性词的相似度来确定与所述一级属性词相关的候选二级属性词;以及

计算所述候选二级属性词的相关重要性,并基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词。

2.如权利要求1所述的方法,其中,在得到多个子句和所述多个子句所包括的多个词语的步骤之后,所述方法还包括步骤:

为所述多个子句所包括的多个词语生成词向量;

基于所述词向量,为所述至少部分子句生成特征向量。

3.如权利要求2所述的方法,其中,将所述多个子句中的至少部分子句划分为多个类别的步骤包括:

基于所述特征向量,利用聚类算法将所述至少部分子句划分为多个类别。

4.如权利要求2所述的方法,其中,从每一类别下的子句所包括的词语中,基于词语的出现频率来确定所述商品的一级属性词的步骤包括:

对于每一类别,统计该类别下的子句所包括的词语的出现频率,并选择出现频率最高的至少一个词语作为所述商品的一级属性词。

5.如权利要求1所述的方法,其中,从所述多个子句所包括的多个词语中,基于词语与所述一级属性词的相似度来确定与所述一级属性词相关的候选二级属性词的步骤包括:

基于所述词语与所述一级属性词的相似度,确定与所述一级属性词相似的第一候选二级属性词;

基于所述词语与所述第一候选二级属性词的相似度,确定与所述第一候选二级属性词相似的第二候选二级属性词。

6.如权利要求1所述的方法,其中,计算所述候选二级属性词的相关重要性,并基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词的步骤包括:

以所述一级属性词和所述候选二级属性词为节点来构建词语网络,所述一级属性词与所述第一候选二级属性词对应节点之间具有以所述一级属性词与所述第一候选二级属性词的相似度为权重的边,所述第一候选二级属性词与与所述第一候选二级属性词相似的第二候选二级属性词对应节点之间具有以所述第一候选二级属性词与所述第二候选二级属性词的相似度为权重的边;

利用重要节点排序算法计算所述词语网络中各节点的相对重要性;

选择对应节点的相对重要性大于预定数值的第一候选二级属性词和/或第二候选二级属性词作为所述二级属性词。

7.如权利要求6所述的方法,其中,所述重要节点排序算法包括佩奇排名算法、出入度重要性算法、介数中心性算法、或者simrank算法。

8.如权利要求1所述的方法,其中,在基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词的步骤之后,所述方法还包括步骤:

判断与所述一级属性词相关的二级属性词中是否存在其他一级属性词,且所述其他一级属性词对应节点的相对重要性小于所述一级属性词对应节点;

如果存在,则将所述其他一级属性词和与所述其他一级属性词相关的二级属性词作为与所述一级属性词相关的二级属性词。

9.如权利要求8所述的方法,其中,所述方法还包括步骤:

如果与所述一级属性词相关的二级属性词中存在其他一级属性词,且所述其他一级属性词对应节点的相对重要性大于所述一级属性词对应节点,则将所述一级属性词和与所述一级属性词相关的二级属性词作为与所述其他一级属性词相关的二级属性词。

10.如权利要求1所述的方法,其中,将所述多个子句中的至少部分子句划分为多个类别的步骤包括:

统计所述多个子句中各子句的出现频率;

选择出现频率最高的至少一个子句来进行划分。

11.如权利要求1所述的方法,其中,在对所述至少一条评论文本进行切分的步骤之前,所述方法还包括步骤:

对所述至少一条评论文本进行数据清洗;以及

从每一类别下的子句所包括的词语中,基于所述词语的出现频率来确定所述商品的一级属性词的步骤之后,所述方法还包括步骤:

对所确定的一级属性词进行数据清洗。

12.如权利要求2所述的方法,其中,为所述多个子句所包括的多个词语生成词向量的步骤包括:

利用词嵌入模型为所述多个子句所包括的多个词语生成词向量。

13.如权利要求1-12中任一项所述的方法,其中,所述商品包括预定类目下的所有商品。

14.一种预定类目下商品属性词的确定方法,所述方法包括步骤:

获取所述预定类目下所有商品的至少一条评论文本;

对所述至少一条评论文本进行切分,得到多个子句和所述多个子句所包括的多个词语;

将所述多个子句中出现频率最高的至少一个子句划分为多个类别;

从每一类别下的子句所包括的词语中,基于所述词语的出现频率来确定所述预定类目下商品的一级属性词;

从所述多个子句所包括的多个词语中,至少基于所述词语与所述一级属性词的相似度来确定与所述一级属性词相关的候选二级属性词;

计算所述候选二级属性词的相关重要性,并基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词;

判断与所述一级属性词相关的二级属性词中是否存在其他一级属性词,且所述其他一级属性词对应节点的相对重要性小于所述一级属性词对应节点;

如果存在,则将所述其他一级属性词和与所述其他一级属性词相关的二级属性词作为与所述一级属性词相关的二级属性词。

15.一种商品属性词的确定装置,包括:

评论获取模块,适于获取商品的至少一条评论文本;

文本切分模块,适于对所述至少一条评论文本进行切分,得到多个子句和所述多个子句所包括的多个词语;

子句分类模块,适于将所述多个子句中的至少部分子句划分为多个类别;

一级属性词确定模块,适于从每一类别下的子句所包括的词语中,基于所述词语的出现频率来确定所述商品的一级属性词;以及

二级属性词确定模块,适于从所述多个子句所包括的多个词语中,至少基于所述词语与所述一级属性词的相似度来确定与所述一级属性词相关的候选二级属性词;还适于计算所述候选二级属性词的相关重要性,并基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词。

16.一种预定类目下商品属性词的确定装置,包括:

评论获取模块,适于获取所述预定类目下所有商品的至少一条评论文本;

文本切分模块,适于对所述至少一条评论文本进行切分,得到多个子句和所述多个子句所包括的多个词语;

子句分类模块,适于将所述多个子句中出现频率最高的至少一个子句划分为多个类别;

一级属性词确定模块,适于从每一类别下的子句所包括的词语中,基于所述词语的出现频率来确定所述预定类目下商品的一级属性词;以及

二级属性词确定模块,适于

从所述多个子句所包括的多个词语中,至少基于所述词语与所述一级属性词的相似度来确定与所述一级属性词相关的候选二级属性词;

计算所述候选二级属性词的相关重要性,并基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词;

判断与所述一级属性词相关的二级属性词中是否存在其他一级属性词,且所述其他一级属性词对应节点的相对重要性小于所述一级属性词对应节点;

如果存在,则将所述其他一级属性词和与所述其他一级属性词相关的二级属性词作为与所述一级属性词相关的二级属性词。

17.一种评论情感分析系统,包括:

如权利要求15所述的商品属性词的确定装置,适于根据商品的至少一个条评论文本来确定所述商品的属性词;以及

处理前端,适于针对所述商品的每个属性词,获取每条评论文本对于所述属性的情感倾向。

18.一种计算设备,包括:

一个或多个处理器;和

存储器;

一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-14所述方法中的任一方法的指令。

19.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-14所述方法中的任一方法。


技术总结
本发明实施例公开了一种商品属性词的确定方法,包括:获取商品的至少一条评论文本;对至少一条评论文本进行切分,得到多个子句和多个子句所包括的多个词语;将多个子句中的至少部分子句划分为多个类别;从每一类别下的子句所包括的词语中,基于词语的出现频率来确定商品的一级属性词;从多个子句所包括的多个词语中,至少基于词语与一级属性词的相似度来确定与一级属性词相关的候选二级属性词;以及计算候选二级属性词的相关重要性,并基于相关重要性从候选二级属性词中确定与一级属性词相关的二级属性词。本发明实施例还公开了相应的商品属性词的确定装置、系统、计算设备和存储介质。

技术研发人员:李志宇;熊飞宇;唐波;包莹;李晟
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2019.01.31
技术公布日:2020.08.07
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1