获得情感词知识库的方法、装置及终端的制作方法_2

文档序号:9839646阅读:来源:国知局
知识库。
[0076]该方法在应用时,在少量已知情感属性的种子词的基础上,对评论语料中的词语和这些种子词之间的关联关系进行分析,进而找到这些评论语料中可以挖掘出情感属性的情感词,然后将查找到的情感词加入到种子词结合中,继续对评论语料中的情感词进行挖掘,最终得到一个数量较大的情感词知识库。随着评论语料的增加,该方法可以自动查找到准确的情感词,并扩大情感词知识库,因此,该方法无需人工参与,即可自动完善情感词知识库,可以有效提高情感词知识库的容量。
[0077]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0078]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0079]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0080]图1是根据一示例性实施例示出的一种获得情感词知识库的方法的流程图;
[0081 ]图2为图1中步骤S103的流程示意图;
[0082]图3为图1中步骤S104的流程示意图;
[0083]图4是根据一示例性实施例示出的另一种获得情感词知识库的方法的流程图;
[0084]图5是根据一示例性实施例示出的一种获得情感词知识库的装置的结构示意图;
[0085]图6为图5中评论词提取模块13的结构示意图;
[0086]图7为图5中情感确定模块15的结构示意图;
[0087]图8为图7中情感词确定子模块152的结构示意图;
[0088]图9为本公开实施例提供的一种终端的结构示意图。
【具体实施方式】
[0089]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0090]图1是根据一示例性实施例示出的一种获得情感词知识库的方法的流程图。该方法可以应用于服务器中,例如:购物网站的服务器中,或者,企业内部员工评价的服务器中,如图1所示,该方法可以包括以下步骤。
[0091]在步骤SlOl中,确定种子词集合及所述种子词集合中种子词的情感属性。
[0092]种子词集合中包含有至少一个种子词,在本公开实施例中,种子词集合可以用集合S来表示,每个种子词为集合S中的一个元素Si。
[0093]种子词是指已知情感属性的词语,例如:以三档情感属性为例:分别为正面、负面和中性,其中,“质量好”的情感属性为正面,“还可以”的情感属性为中性,“上当了”的情感属性为负面。在其它实施例中,还可以根据需要设置两档(好和坏)、四挡(A级、B级、C级和D极)或四档以上,在本公开实施例中,对此不作限定。
[0094]在【具体实施方式】中,种子词集合以及该集合内种子词的情感属性,可以直接从预设词库获取,例如:针对刚上线的网上商城,可以从同类网上商城服务器中查找,也可以从第三方开发公司购买。当然,技术人员还可以利用预设算法生成种子词,并确定种子词的情感属性,最终得到种子词。例如:对字典内词语的词义进行分析,确定该词的情感属性,这种利用预设算法生成的种子词通常为非常典型的词语,数量较少。
[0095]另外,根据领域不同,可以分别确定不同领域的种子词集合以及集合中种子词的情感属性。在本公开以实施例中,该步骤可以确定指定领域的种子词集合以及集合中种子词的情感属性。
[0096]在步骤S102中,根据所述种子词集合进行评论语料筛选,获得语料集合。
[0097]评论语料是指用户输入的评论内容,以购物网站为例,对于某一款商品而言,评论语料可以为购买用户输入的使用心得,对于店铺而言,评论语料可以为用户对该店铺的服务或商品的评价;以企业内部员工评价系统为例,评论语料可以为公司员工对某一领导的工作进行的评价。
[0098]在本公开实施例中,在对评论语料筛选时,可以利用预设词库对一条评论语料中的文字进行分词,得到包含多个词语的词组,然后利用种子词集合内的所有种子词和该词组内的所有词语进行匹配,当该词组内包含有一个或一个以上的种子词,就将该条评论语料加入语料集合中。例如:某手机的一条评论语料为:
[0099]“很小巧,很轻薄,系统使用起来相当流畅,边缘触控习惯之后的确蛮方便的”。
[0100]其中,按照通常汉字的词库,可以将上述评论语料分词后得到如下词组:
[0101]{很,小巧,很轻薄,系统,使用,起来,相当,流畅,边缘,触控,习惯,之后,的确,蛮、方便,的}。
[0102]在具体应用中,可以将种子词集合中的所有种子词都加入到预设词库中,这样即使对于一些生僻词组的种子词,在分词时,也能够从评论语料中找到对应的词语。
[0103]以前述评论语料为例,如果种子词中包含“边缘触控”、“蛮方便”,那么在分词时,可以将“边缘”和“触控”划分成一个词,可以将“蛮”和“方便”划分为一个词。
[0104]参见前述关于领域的介绍,在本公开实施例中,该步骤可以根据种子词集合对所述指定领域的评论语料进行筛选。
[0105]在步骤S103中,在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频。
[0106]由于每个种子词的情感属性是已知的,所以,通常情况下,种子词所在的评论语料所表达的情感至少包括该种子词的情感属性,而且根据通常语言表述习惯,用户在表述时通常可能会利用多个词语来表达情感。
[0107]从上述描述来看,和种子词在同一评论语料中的其它词语,情感属性比较容易区分,因此,在本公开实施例中,将和种子词出现在同一评论语料中的词语确定为与所述种子词关联的评论词。
[0108]另外,在确定与所述种子词关联的评论词时,为了提高精度,还可以将和种子词出现在同一评论语料中次数作为参考标准,也即,只有和种子词出现在同一评论语料中次数较多时,才能够被作为评论词。这里,和种子词出现在同一评论语料中次数即可以为该评论词的词频。
[0109]在步骤S104中,根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词。
[0110]如果用户在夸奖某个商品时,如果某个词和“好”这个词一直一起出现,那么就可以认为该词的情感属性和“好”这个词的情感属性是相同的,因此可以将这个词确定你为与“好”同类的情感词,即情感词的情感属性是确定的。
[0111]当所述评论词中存在情感词时,执行步骤S105;否则,执行步骤S106。
[0112]在步骤S105中,将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合。
[0113]在步骤S105之后,返回步骤S102中,利用更新后的种子词集合,迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束。
[0114]通过上述迭代,可以将语料集合中所有可能的情感词全部找出来。
[0115]在步骤sloe*,将更新的种子词集合确定为情感词知识库。
[0116]当迭代结束后,迭代结束后获得的更新的种子词集合,并且将最终迭代结束后的该更新的种子词集合确定为情感知识库。
[0117]由于迭代得到的所有情感词的情感属性均已知道,那么就可以直接将这些情感词加入到种子词集合中,更新后的种子词集合就可以作为情感词知识库,用于对未知用户的评论进行评价。
[0118]本公开实施例提供的该方法,首先确定出包含情感属性已知的种子词的集合,然后利用该种子词集合对评论语料进行筛选,找到包含至少一个种子词的评论语料的语料集合,然后通过比较这些种子词和评论语料中的关联程度,查找出语料集合中情感属性确定的所有情感词,并最终将确定到的情感词加入到前述种子词集合内,作为情感词知识库。
[0119]该方法在应用时,在少量已知情感属性的种子词的基础上,对评论语料中的词语和这些种子词之间的关联关系进行分析,进而找到这些评论语料中可以挖掘出情感属性的情感词,然后将查找到的情感词加入到种子词结合中,继续对评论语料中的情感词进行挖掘,最终得到一个数量较大的情感词知识库。随着评论语料的增加,该方法可以自动查找到准确的情感词,并扩大情感词知识库,因此,该方法无需人工参与,即可自动完善情感词知识库,可以有效提高情感词知识库的容量。
[0120]在本发明一实施例中,如图2所示,上述图1所示实施例中的步骤S103可以包括以下步骤。
[0121]在步骤S1031中,在所述语料集合中提取出现次数大于预设次数阈值的候选词。
[0122]在语料集合中,出现词语较多的词语,通常具有一定代表作用,而出现次数较少的词语,很可能是一个特别用户的评论,不具有普遍性。另外,出现词语较多的词语,可能是大多数用户想要表达情感的词语。
[0123]因此,在本公开实施例中,可以设定一个预设次数阈值来过滤得到候选词,在设置预设次数阈值时,可以根据语料集合中的语料数量和词语数量中的一个或两个一起确定,例如:语料集合内包含有100个语料,那么预设次数阈值可以设置为60-70次,另外,如果语料集合内的词语数量有1000个,那么预设次数阈值可以为总词语数量的15%,S卩150次。在其它实施例中,在设置预设次数阈值时,还可以选用除语料数量和词语数量之前的其它参数,本发明对此不做限定。
[0124]在步骤S1032中,判断所述候选词是否在所述种子词集合中。
[0125]由于该方法是在种子词的基础上找出更多的情感词,那么可见,如果候选词已经是一个种子词,那么该候选词将不具有利用价值。
[0126]当所述候选词不在所述种子
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1