情感倾向性模板的生成方法和装置以及应用方法和装置的制作方法

文档序号:6441736阅读:203来源:国知局
专利名称:情感倾向性模板的生成方法和装置以及应用方法和装置的制作方法
技术领域
本发明属于信息处理领域,尤其涉及一种情感倾向性模板的生成方法和装置、以及情感倾向性模板的应用方法和装置。
背景技术
在用户提交的查询中,核心概念常常是一个命名实体,如“三星手机”,而返回的网页内容往往蕴含着对这个命名实体进行的褒扬或批评的评论。而对命名实体进行的褒扬或者批评的评论是一种重要的数据信息,需要对网页中的上述评论进行情感倾向性分析才能得到该网页的情感倾向。现有技术提供了一种使用了点互信息(Pointwise Mutual Information, PMI)方法来推导文本中词或短语的情感值的情感倾向分析方法,简述如下一个词或短语的语义倾向由它和另外的一些固定词或短语,如“excellent”和“poor”,之间的点对点互信息来决定。PMI在Church和Hanks的工作中定义如下
权利要求
1.一种情感倾向性模板的生成方法,其特征在于,所述方法包括下述步骤针对种子集合中的每个种子,查找该种子在文本集合中的所有出现,并根据种子在文本集合中的所有出现生成第一情感倾向性模板集合,所述种子是指包括实体词和情感词的词对;采用最长公共字串方法将第一情感倾向性模板集合中具有相同情感倾向的情感倾向性模板进行两两对比,生成第二情感倾向性模板集合。
2.如权利要求1所述的方法,其特征在于,在所述采用最长公共字串方法将第一情感倾向性模板集合中具有相同情感倾向的情感倾向性模板进行两两对比,生成第二情感倾向性模板集合的步骤之后,所述方法还包括下述步骤采用预设的有效性规则对第二情感倾向性模板集合中的情感倾向性模板进行筛选,得到第三情感倾向性模板集合。
3.如权利要求2所述的方法,其特征在于,所述方法还包括下述步骤重新扫描文本集合,根据第二情感倾向性模板集合中的情感倾向性模板或者第三情感倾向性模板集合中的情感倾向性模板抽取新的种子。
4.如权利要求3所述的方法,其特征在于,所述方法还包括下述步骤判断种子集合中是否包括抽取的新的种子,如果是,则直接丢弃抽取的新的种子,否将抽取的新的种子增加到种子集合中。
5.如权利要求3所述的方法,其特征在于,所述方法还包括下述步骤计算第二情感倾向性模板集合中每个情感倾向性模板的置信度,或者第三情感倾向性模板集合中每个情感倾向性模板的置信度,并将该情感倾向性模板中的置信度更新为计算得到的置信度。
6.如权利要求5所述的方法,其特征在于,计算情感倾向性模板的置信度的步骤具体如下Conf(P) =,ConfK1。gF(P) = Conf(P) X 10 (Pc+1);或者, ConfElogF(P) = Conf(P) X (Iog2 (Pnew+1)) Y,其中Conf(P)为情感倾向性模板P的置信度,Pc是情感倾向性模板P生成的正例种子数,Pe是情感倾向性模板P生成的反例种子数,C0nfK1。“P)是情感倾向性模板P的置信度, Pnew是该情感倾向性模板P生成的新的种子数,r是该情感倾向性模板P生成的种子中正例种子所占的比例。
7.如权利要求5所述的方法,其特征在于,所述方法还包括下述步骤删除第二情感倾向性模板集合中置信度小于预设阈值的情感倾向性模板或者删除第三情感倾向性模板集合中置信度小于预设阈值的情感倾向性模板。
8.如权利要求5所述的方法,其特征在于,所述方法还包括下述步骤根据抽取得到的新的种子的情感倾向性模板的置信度计算新的种子的置信度,计算式为Ow/⑴=1-;Q(1-Co /(/0),其中Conf(S)是种子s的置信度,Conf (Pi)是抽取得到种 /=0子S的情感倾向性模板Pi的置信度,PSet是文本集合中能够抽取得到种子S的情感倾向性模板的集合。
9.如权利要求8所述的方法,其特征在于,所述方法还包括下述步骤将根据情感倾向性模板抽取的种子中置信度大于或者等于预设阈值的种子增加至种子集合中。
10.一种采用权利要求1的方法生成的情感倾向性模板的应用方法,其特征在于,所述方法包括下述步骤将情感倾向性模板与搜索引擎返回的文本中的预设粒度的文本进行匹配;按照情感倾向性模板的置信度为与情感倾向性模板匹配上的预设粒度的文本打分,得到预设粒度的文本的情感倾向和情感得分。
11.如权利要求10所述的方法,其特征在于,所述方法还包括下述步骤根据搜索引擎返回的文本中的预设粒度的文本指示的情感倾向,将搜索引擎返回的文本中的预设粒度的文本的情感得分进行加权平均,得到搜索引擎返回的文本指示的情感倾向和该文本的情感得分。
12.一种情感倾向性模板生成装置,其特征在于,所述装置包括存储单元,用于存储种子集合、文本集合以及情感倾向性模板,所述种子是包括实体词和情感词的词对。模板生成单元,用于针对种子集合中的每个种子,查找该种子在文本集合中的所有出现,并根据种子在文本集合中的所有出现生成第一情感倾向性模板集合;模板比对生成单元,用于采用最长公共字串方法将所述模板生成单元生成的第一情感倾向性模板集合中具有相同情感倾向的情感倾向性模板进行两两对比,生成第二情感倾向性模板集合。
13.如权利要求12所述的装置,其特征在于,所述装置还包括模板筛选单元,用于采用预设的有效性规则对所述模板比对生成单元生成的第二情感倾向性模板集合中的情感倾向性模板进行筛选,得到第三情感倾向性模板集合。
14.如权利要求13所述的装置,其特征在于,所述装置还包括新种子抽取单元,用于重新扫描文本集合,根据所述模板比对生成单元生成的第二情感倾向性模板集合中的情感倾向性模板或者所述模板筛选单元生成的第三情感倾向性模板集合中的情感倾向性模板抽取新的种子。
15.如权利要求14所述的装置,其特征在于,所述装置还包括种子筛选单元,用于判断种子集合中是否包括所述新种子抽取单元抽取的新的种子, 如果是,则直接丢弃抽取的新的种子,否将抽取的新的种子增加到种子集合中。
16.如权利要求14所述的装置,其特征在于,所述装置还包括模板置信度计算单元,用于计算所述模板比对生成单元生成的第二情感倾向性模板集合中每个情感倾向性模板的置信度,或者所述模板筛选单元生成的第三情感倾向性模板集合中每个情感倾向性模板的置信度,并将该情感倾向性模板中的置信度更新为计算得到的置信度。
17.如权利要求16所述的装置,所述装置还包括模板删除单元,用于删除第二情感倾向性模板集合中置信度小于预设阈值的情感倾向性模板或者删除第三情感倾向性模板集合中置信度小于预设阈值的情感倾向性模板。
18.如权利要求16所述的装置,其特征在于,所述方法还包括下述步骤种子置信度计算单元,用于根据抽取得到的新的种子的情感倾向性模板的置信度计算 新的种子的置信度,计算式为
19.如权利要求18所述的装置,其特征在于,所述装置还包括种子删除单元,用于将根据情感倾向性模板抽取的种子中置信度大于或者等于预设阈值的种子增加至种子集合中。
20.一种情感倾向性模板的应用装置,其特征在于,所述装置包括模板匹配单元,用于将情感倾向性模板与搜索引擎返回的文本中的预设粒度的文本进行匹配;情感得分确定单元,用于按照情感倾向性模板的置信度为与情感倾向性模板匹配上的预设粒度的文本打分,得到预设粒度的文本的情感倾向和情感得分。
21.如权利要求20所述的装置,其特征在于,所述装置还包括文本情感倾向确定单元,用于根据搜索引擎返回的文本中的预设粒度的文本指示的情感倾向,将搜索引擎返回的文本中的预设粒度的文本的情感得分进行加权平均,得到搜索引擎返回的文本指示的情感倾向和该文本的情感得分。
全文摘要
本发明适用于信息处理领域,提供了一种情感倾向性模板的生成方法和装置、以及情感倾向性模板的应用方法和装置,所述生成方法包括下述步骤针对种子集合中的每个种子,查找该种子在文本集合中的所有出现,并根据种子在文本集合中的所有出现生成第一情感倾向性模板集合,所述种子是指包括实体词和情感词的词对;采用最长公共字串方法将第一情感倾向性模板集合中具有相同情感倾向的情感倾向性模板进行两两对比,生成第二情感倾向性模板集合。
文档编号G06F17/27GK102298589SQ20101020945
公开日2011年12月28日 申请日期2010年6月24日 优先权日2010年6月24日
发明者刘云峰, 胡熠 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1