获得情感词知识库的方法、装置及终端的制作方法_3

文档序号:9839646阅读:来源:国知局
词集合中,执行步骤S1033;否则,结束流程。
[0127]在步骤S1033中,确定所述候选词为所述评论词。
[0128]在本公开实施例中,可以将所有评论词构成的集合称为集合M,每个评论词为所述集合M中的一个元素,S|3Mi。
[0129]在步骤S1034中,分别统计所述种子词集合中各种子词与所述评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
[0130]在本公开实施例中肩丨的与每个5丨的词频可以分别表示为:{〈5&,0)11的(1^,5&)>,〈Sb,Count(Mi,Sb)>...〈Sd,Count(Mi,Sd)>}
[0131 ] 其中:Count(Mi,St)表示St与Mi出现在同一个评论中的次数,t = a、b、c或d。
[0132]如果用户在夸奖某个商品时,如果某个词和“好”这个词一直一起出现,那么就可以认为该词的情感属性和“好”这个词的情感属性是相同的,因此可以将这个词确定你为与“好”同类的情感词,即情感词的情感属性是确定的。
[0133]因此,在该步骤中,可以统计与每个Si出现在同一条语料中的Mi的词和频率。
[0134]本公开实施例提供的该方法,首先选择出现次数大于预设次数阈值的候选词,然后,在候选词中剔除种子词,得到评论词,这些评论词有大可能为情感词,最后,每个种子词与评论词出现在语料集合中同一条语料中的频率,作为该评论词的词频。以便后续可以利用该词频准确确定该评论词是否为情感词,以及为情感词时的情感属性。
[0135]在本发明另一实施例中,如图3所示,上述图1所示实施例中的步骤S104可以包括以下步骤。
[0136]在步骤S1041中,根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频。
[0137]在本公开实施例中,某一评论词有可能和多个种子词同时出现在同一评论语料中,所以在该步骤中,需要分别统计所述评论词的词频中不同情感属性的种子词对应的词频。
[0138]在步骤S1042中,当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
[0139]虽然,某一评论词有可能和多个种子词同时出现在同一评论语料中,但这同时出现的多个种子词的情感属性可能完全不同,因此,在该步骤中,还需要设置一些预设条件,来进一步准确确定评论词是否为情感词,这些预设条件可以为多个种子词之间的权重。
[0140]例如:某一个评论词和每个种子词同时出现的词频均为50次,那么很显然,这个评论词不能和任何种子词之间产生关联,但如果该评论词和某一种子词A同时出现的词频为50,而和其它种子词同时出现的词频为5,那么很显然,该评论词的情感属性应该和种子词A是相同的。
[0141]当确定出某一个评论词Mi为情感词时,将该Mi加入到种子词集合S中,形成更新后的种子词集合S’,然后利用更新的种子词集合S’赋值给S,然后继续进行迭代,直至不再产生新的情感词后,结束流程。
[0142]本公开实施例提供的该方法,可以通过统计评论词和不同种子词同时出现的词频,并且将所述不同情感属性的种子词对应的词频与预设条件进行比较,当预设条件满足时,就可以确定该评论词为敏感词。
[0143]在本公开实施例中,在图3所示实施例的基础上,如图4所示,该方法还可以包括以下步骤。
[0144]在步骤S201中,将所述最大词频对应的情感属性作为所述评论词的情感属性。
[0145]在前述实施例中,已经描述到,当将所述不同情感属性的种子词对应的词频与预设条件进行比较,且预设条件满足时,就可以确定该评论词为敏感词,所以,在本公开实施例中,可以将最大词频对应的种子词的情感属性作为该评论词的情感属性。
[0146]图5是根据一示例性实施例示出的一种获得情感词知识库的装置的结构示意图。该装置可以应用于服务器中,例如:购物网站的服务器中,或者,企业内部员工评价的服务器中,如图5所示,该装置可以包括:
[0147]种子词确定模块11,用于确定种子词集合及所述种子词集合中种子词的情感属性;
[0148]种子词集合中包含有至少一个种子词,在本公开实施例中,种子词集合可以用集合S来表示,每个种子词为集合S中的一个元素Si。
[0149]种子词是指已知情感属性的词语,例如:以三档情感属性为例:分别为正面、负面和中性,其中,“质量好”的情感属性为正面,“还可以”的情感属性为中性,“上当了”的情感属性为负面。在其它实施例中,还可以根据需要设置两档(好和坏)、四挡(A级、B级、C级和D极)或四档以上,在本公开实施例中,对此不作限定。
[0150]在【具体实施方式】中,种子词集合以及该集合内种子词的情感属性,可以直接从预设词库获取,例如:针对刚上线的网上商城,可以从同类网上商城服务器中查找,也可以从第三方开发公司购买。当然,技术人员还可以利用预设算法生成种子词,并确定种子词的情感属性,最终得到种子词。例如:对字典内词语的词义进行分析,确定该词的情感属性,这种利用预设算法生成的种子词通常为非常典型的词语,数量较少。
[0151]另外,根据领域不同,可以分别确定不同领域的种子词集合以及集合中种子词的情感属性。在本公开以实施例中,该种子词确定模块还可以包括:
[0152]种子词确定子模块,用于确定指定领域的种子词集合以及集合中种子词的情感属性。
[0153]语料筛选模块12,用于根据所述种子词确定模块确定的种子词集合进行评论语料筛选,获得所述语料集合;
[0154]评论语料是指用户输入的评论内容,以购物网站为例,对于某一款商品而言,评论语料可以为购买用户输入的使用心得,对于店铺而言,评论语料可以为用户对该店铺的服务或商品的评价;以企业内部员工评价系统为例,评论语料可以为公司员工对某一领导的工作进行的评价。
[0155]在本公开实施例中,在对评论语料筛选时,可以利用预设词库对一条评论语料中的文字进行分词,得到包含多个词语的词组,然后利用种子词集合内的所有种子词和该词组内的所有词语进行匹配,当该词组内包含有一个或一个以上的种子词,就将该条评论语料加入语料集合中。例如:某手机的一条评论语料为:
[0156]“很小巧,很轻薄,系统使用起来相当流畅,边缘触控习惯之后的确蛮方便的”。
[0157]其中,按照通常汉字的词库,可以将上述评论语料分词后得到如下词组:
[0158]{很,小巧,很轻薄,系统,使用,起来,相当,流畅,边缘,触控,习惯,之后,的确,蛮、方便,的}。
[0159]在具体应用中,可以将种子词集合中的所有种子词都加入到预设词库中,这样即使对于一些生僻词组的种子词,在分词时,也能够从评论语料中找到对应的词语。
[0160]以前述评论语料为例,如果种子词中包含“边缘触控”、“蛮方便”,那么在分词时,可以将“边缘”和“触控”划分成一个词,可以将“蛮”和“方便”划分为一个词。
[0161 ]参见前述关于领域的介绍,在本公开实施例中,该语料筛选模块可以包括:
[0162]语料筛选子模块,用于根据种子词集合对所述指定领域的评论语料进行筛选。
[0163]评论词提取模块13,用于在所述筛选模块筛选出的语料集合中提取与所述种子词关联的评论词;
[0164]词频统计模块14,用于统计所述提取模块提取得到的评论词的词频;
[0165]由于每个种子词的情感属性是已知的,所以,通常情况下,种子词所在的评论语料所表达的情感至少包括该种子词的情感属性,而且根据通常语言表述习惯,用户在表述时通常可能会利用多个词语来表达情感。
[0166]从上述描述来看,和种子词在同一评论语料中的其它词语,情感属性比较容易区分,因此,在本公开实施例中,将和种子词出现在同一评论语料中的词语确定为与所述种子词关联的评论词。
[0167]另外,在确定与所述种子词关联的评论词时,为了提高精度,还可以将和种子词出现在同一评论语料中次数作为参考标准,也即,只有和种子词出现在同一评论语料中次数较多时,才能够被作为评论词。这里,和种子词出现在同一评论语料中次数即可以为该评论词的词频。
[0168]情感词确定模块15,用于根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
[0169]如果用户在夸奖某个商品时,如果某个词和“好”这个词一直一起出现,那么就可以认为该词的情感属性和“好”这个词的情感属性是相同的,因此可以将这个词确定你为与“好”同类的情感词,即情感词的情感属性是确定的。
[0170]种子词更新模块16,用于当所述情感词确定模块确定评论词中存在情感词时,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合;
[0171]所述语料筛选模块12,还用于利用所述种子词更新模块更新后的种子词集合迭代进行评论语料筛选,且直至确定所述评论词中不存在情感词,迭代结束;
[0172]通过上述迭代,可以将语料集合中所有可能的情感词全部找出来。
[0173]情感词知识库确定模块17,用于将迭代结束后所述种子词更新模块获得的更新的种子词集合确定为情感词知识库。
[0174]当迭代结束后,迭代结束后获得的更新的种子词集合,并且将最终迭代结束后的该更新的种子词集合确定为情感知识库。
[0175]由于迭代得到的所有情感词的情感属性均已知道,那么就可以直接将这些情感词加入到种子词集合中,更新后的种子词集合就可以作为情感词知识库,用于对未知用户的评论进行评价。
[0176]本公开实施例提供的该装置,首先确定出包含情感属性已知的种子词的集合,然后利用该种子词集合对评论语料进行筛选,找到包含至少一个种子词的评论语料的语料集合,然后通过比较这些种子词和评论语料中的关联程度,查找出语料集合中情感属性确定的所有情感词,并最终将确定到的情感词加入到前述种子词集合内,作为情感词知识库。
[0177
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1