评价信息抽取方法和设备的制作方法

文档序号:6354290阅读:335来源:国知局
专利名称:评价信息抽取方法和设备的制作方法
技术领域
本发明涉及数据挖掘领域,特别涉及用于抽取评价信息的方法与设备。
背景技术
随着因特网的发展,越来越多的人已不再满足简单被动地接受互联网信息,而是在网络上发表自己的观点、发布个性化信息。这些评论和看法通常会发布在购物网站、论坛、个人博客和微博等多种网络媒介上。其中不乏用户的产品评论和读者对事件、政策看法等。通过观点挖掘(Opinion Mining)技术,分析和挖掘这些评论性文本内容,可以帮助个人和机构了解大众对于产品、事件、政策等所持的普遍意见和态度,辅助决策,以便做出有针对性的优化、引导、改善或补救等措施。可见,观点挖掘技术具有非常巨大的应用价值。观点挖掘主要是针对具有主观性的文本(例如词语、短语、句子、篇章等情感文本),自动获取有用的评价信息和相关知识。观点挖掘的主要目标是识别出文本中的评价信息,进而实现倾向性分析。目前主要有三种得到评价信息的方法。第一种方法是,基于同现模板的半自动的评价信息抽取方法。该方法定义评价信息为三元组(Subject,Attribute, Value),将评价信息的每个元素作为同现模板的槽值,通过同现模板从待分析的情感文本中匹配评价信息的三个元素。例如一个同现模板 <Attribute>of〈Sub ject>is〈Value>,待分析的情感文本为 “The picture of this camera is great. ”,对该句子使用同现模板进行匹配来抽取三元组,分别为〈this camera〉、〈the picture〉、〈great〉。该方法需要构建Subject、Attribute以及Value三个词典,为每个词典手工挑选种子词语进行初始化以及挑选了多个出现频率较高的同现模板。首先,生成 Attribute和Value ;其次,通过人工筛选生成的Attribute和Value,将筛选过后的正确的 Attribute和Value放入到各自的词典中。该方法存在的问题是,同现模板种类较为单一, 涵盖面较窄,从而导致召回率低,选择过程需要进行人工筛选。第二种方法是,基于搭配词典的评价信息抽取方法。通过研究评价信息二元组 (观点词语,对象特征)来获取评价信息。该方法首先需要建立三个词典,第一个词典是观点词语词典,第二个词典是通过手工搜集得到的对象特征词典,第三个词典是通过手工创建的链接说明词典,其中,链接说明词典主要是句法关系的描述。该方法通过使用观点词语词典和对象特征词典,在情感文本中标注其所含有的观点词语和对象特征,使用链接说明词典,根据每一对观点词语和对象特征的句法关系来判断他们是否是正确的搭配对,从而获取评价信息。该方法存在的问题是,容易遗漏一些类型的句法关系,从而导致召回率低, 构建词典需要手工完成,并且词典的可移植性差。第三种方法是,基于语法路径词典的评价信息抽取方法(参见申请号为 200910082342. I、发明名称为“获取评价单元、建立句法路径词典的方法、装置及系统”的中国发明专利申请)。该方法是利用句法路径描述产品特征与观点词之间的关系。它首先需要构建句法路径词典,在识别情感文本语料库所有产品特征词和观点词语,创建所有产品特征与观点词语之间的句法路径,并对这些句法路径泛化,计算泛化后的句法路径的出现频次,达到一定阈值的句法路径作为标准句法路径,插入句法路径词典。在获得句法路径词典后,识别输入情感文本的产品特征和观点词,然后对其进行句法分析,并建立相应的句法树。根据句法路径词典,查询该句法树能够与标准句法路径匹配的路径,那么这条路径所连接的产品特征与观点词语可以作为评价单元或评价信息。该方法存在的问题是,所依赖的词典和句法分析器等资源多,系统复杂度较高,由于所产生的句法路径词典容易遗漏一些句法关系,从而导致召回率低,必然导致扩展性降低。

发明内容
针对以上问题,本发明提供了一种具有低复杂度、低词典依赖性并且高效的评价信息抽取方案。根据本发明的第一方面,提供了一种评价信息抽取方法,包括步骤从语料库中获取观点词语集合和对象特征集合;基于观点词语集合与对象特征集合之间的关联性、观点词语集合成员相似性以及对象特征集合成员相似性,优化观点词语集合和对象特征集合; 以及根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。根据本发明的第二方面,提供了一种评价信息抽取设备,包括获取装置,用于从语料库中获取观点词语集合和对象特征集合;优化装置,用于基于观点词语集合与对象特征集合之间的关联性、观点词语集合成员相似性以及对象特征集合成员相似性,优化观点词语集合和对象特征集合;以及抽取装置,用于根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。通过以下对说明本发明原理的优选实施方式的描述,并结合附图,本发明的其他特征以及优点将会是显而易见的。


通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其他目的和效果将变得更加清楚和易于理解,其中图I是按照本发明的一个实施例的评价信息抽取方法的流程图;图2是按照本发明的另一个实施例的评价信息抽取方法的流程图;图3是按照本发明的另一个实施例的评价信息抽取方法的流程图;图4是按照本发明的另一个实施例的评价信息抽取方法的流程图;图5是按照本发明的一个实施例的评价信息抽取设备的方框图。在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施例方式以下结合附图对本发明进行更详细的解释和说明。应当理解,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。为了清楚起见,首先对本发明中所使用的术语作以解释。I.语料库在本发明中,语料库可以包括若干文本文件,根据预先设定的处理粒度,可以对各文本文件进行预处理,从而得到若干文本单元。文本单元是对象特征和观点词语共现的最小语言单位。文本单元可以是自由文本,例如可以是词语、短语、句子、段落、整篇文章等及其任意组合。2.评价信息在本发明中,评价信息可以包含对象特征和观点词语。观点词语,是文本单元中用于表达观点的评价词语或短语,例如,观点词语可以是 “好”、“高”、“美丽”、“优雅”、“便宜”等。对象特征,是文本单元中的被观点词语所修饰的评价对象,包括产品、服务等。例如,对象特征可以是“油耗”、“外观”、“价格”、“安全性”、“操控性”等。评价信息,是文本单元中所包含的观点词语与相应的对象特征所构成的配对,它具有明确的观点极性(褒义、贬义、中性)。评价信息可以是包含对象特征和观点词语的二元组,即,对象特征,观点词语。例如,对于3个文本单元“大排量汽车的油耗很高”、“这款手机的价格高”、“该品牌车的操控性很好”,可以得到评价信息油耗,高价格,高操控性,好。3.观点词语集合和对象特征集合之间的关联性如果可以从同一个文本单元中找到观点词语和对象特征,则认为该观点词语和对象特征具有关联性。根据从语料库中得到的大量文本单元,可以通过查找观点词语、对象特征以及二者的关联性来得到观点词语的出现频次、对象特征的出现频次以及二者具有关联性的频次。在本发明中,将观点词语集合中包含的各个观点词语以及对象特征集合中包含的各个对象特征之间的关联性及其频次,称为观点词语集合和对象特征集合之间的关联性。例如,假设存在4个文本单元“大排量汽车的油耗很高”、“这款手机的价格高”、“该品牌车的操控性很好”、“购买的打印机价格过高”,其中观点词语集合中包含2个观点词语 “好”、“高”,其中“好”的出现频次为1,“高”的出现频次为3。对象特征集合中包含3个对象特征“油耗”、“价格”、“操控性”,其中“油耗”的出现频次为1,“价格”出现频次为2,“操控性”的出现频次为I。由于观点词语“好”与对象特征“油耗”没有在同一个文本单元出现(简称“同现”)过,因此二者没有关联性,将二者的关联性的频次记为“O”。相应地可以得到,观点词语“好”与对象特征“价格”以及“操控性”都具有关联性,其对应频次分别可以记为“I”。类似地,对于观点词语“高”,同样可以得到其与对象特征“油耗”、“价格”、“操控性”分别是否具有关联性以及该关联性的频次。以下示例性地示出包含2个观点词语“好”、 “高”的观点词语集合(以“O”表示)以及包含3个对象特征“油耗”、“价格”、“操控性”的对象特征集合(以“F”表示)之间的关联性表I观点词语集合与对象特征集合之间的关联性
权利要求
1.一种评价信息抽取方法,包括从语料库中获取观点词语集合和对象特征集合;基于所述观点词语集合与所述对象特征集合之间的关联性、所述观点词语集合成员相似性以及所述对象特征集合成员相似性,优化所述观点词语集合和所述对象特征集合;以及根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
2.根据权利要求I的方法,其中从语料库中获取观点词语集合和对象特征集合包括对语料库进行预处理以得到文本单元;基于得到的文本单元,根据观点词语抽取规则得到观点词语集合;以及基于得到的文本单元,根据对象特征抽取规则得到对象特征集合。
3.根据权利要求2的方法,其中所述观点词语抽取规则包括从文本单元中抽取以下中的一项或多项作为观点词语紧随程度副词之后的序列片段、形容词、内部不含虚词的片段、长度小于等于最大观点词语长度的片段、频率大于最小观点词语发生频率的片段。
4.根据权利要求2的方法,其中所述对象特征抽取规则包括从文本单元中抽取以下中的一项或多项作为对象特征基本名词短语、基本名词短语的组合、基本名词短语与名词/动名词的组合、基本名词短语与限定性定语、限定性定语与名词/动名词的组合、内部不含虚词的片段、长度小于等于最大对象特征长度的片段、频率大于最小对象特征发生频率的片段。
5.根据权利要求I的方法,其中基于所述观点词语集合与所述对象特征集合之间的关联性、所述观点词语集合成员相似性以及所述对象特征集合成员相似性,优化所述观点词语集合和所述对象特征集合包括基于所述关联性,根据所述观点词语集合和所述对象特征集合中的第一集合的分数计算所述观点词语集合和所述对象特征集合中的第二集合的分数;利用第二集合成员相似性调整第二集合的分数;基于所述关联性,根据调整后的第二集合的分数计算第一集合的分数;利用第一集合成员相似性调整第一集合的分数,以便基于所述关联性根据调整后的第一集合的分数计算第二集合的分数;以及当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、 或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时, 按照调整后的第一集合的分数对所述第一集合中的成员进行排序、并且按照调整后的第二集合的分数对所述第二集合中的成员进行排序。
6.根据权利要求I的方法,其中基于所述观点词语集合与所述对象特征集合之间的关联性、所述观点词语集合成员相似性以及所述对象特征集合成员相似性,优化所述观点词语集合和所述对象特征集合包括利用所述观点词语集合和所述对象特征集合中的第一集合成员相似性调整第一集合的分数;基于所述关联性,根据调整后的第一集合的分数计算所述观点词语集合和所述对象特征集合中的第二集合的分数;利用第二集合成员相似性调整第二集合的分数,以便基于所述关联性根据调整后的第二集合的分数计算第一集合的分数;以及当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、 或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时, 按照调整后的第一集合的分数对所述第一集合中的成员进行排序、并且按照调整后的第二集合的分数对所述第二集合中的成员进行排序。
7.根据权利要求5或6的方法,还包括基于第一集合内的每个成员在所述语料库中的频次信息,根据预定义策略对所述第一集合的分数进行初始化。
8.根据权利要求5或6的方法,其中利用第一集合成员相似性调整第一集合的分数包括基于所述第一集合成员相似性和先验可信度,对所述第一集合的分数进行调整,得到调整分数,当调整分数与所述第一集合的分数之间的差异达到预定要求时,将所述调整分数作为调整后的第一集合的分数并且停止调整所述第一集合的分数,以及当调整分数与所述第一集合的分数之间的差异未达到预定要求时,利用所述调整分数更新所述第一集合的分数;其中利用第二集合成员相似性调整第二集合的分数包括基于所述第二集合成员相似性和先验可信度,对所述第二集合的分数进行调整,得到调整分数,当调整分数与所述第二集合的分数之间的差异达到预定要求时,将所述调整分数作为调整后的第二集合的分数并且停止调整所述第二集合的分数,以及当调整分数与所述第二集合的分数之间的差异未达到预定要求时,利用所述调整分数更新所述第二集合的分数。
9.根据权利要求I的方法,其中根据优化的观点词语集合和优化的对象特征集合抽取评价信息包括根据预定观点词语阈值从优化的观点词语集合中抽取排序在先的观点词语;根据预定对象特征阈值从优化的对象特征集合中抽取排序在先的对象特征;以及基于所述观点词语集合与所述对象特征集合之间的关联性,从所述排序在先的观点词语和所述排序在先的对象特征得到评价信息。
10.一种评价信息抽取设备,包括获取装置,用于从语料库中获取观点词语集合和对象特征集合;优化装置,用于基于所述观点词语集合与所述对象特征集合之间的关联性、所述观点词语集合成员相似性以及所述对象特征集合成员相似性,优化所述观点词语集合和所述对象特征集合;以及抽取装置,用于根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
11.根据权利要求10的设备,其中所述获取装置包括用于对语料库进行预处理以得到文本单元的装置;用于基于得到的文本单元,根据观点词语抽取规则得到观点词语集合的装置;以及用于基于得到的文本单元,根据对象特征抽取规则得到对象特征集合的装置。
12.根据权利要求11的设备,其中所述观点词语抽取规则包括从文本单元中抽取以下中的一项或多项作为观点词语紧随程度副词之后的序列片段、形容词、内部不含虚词的片段、长度小于等于最大观点词语长度的片段、大于最小观点词语发生频率的片段。
13.根据权利要求11的设备,其中所述对象特征抽取规则包括从文本单元中抽取以下中的一项或多项作为对象特征基本名词短语、基本名词短语的组合、基本名词短语与名词/动名词的组合、基本名词短语与限定性定语、限定性定语与名词/动名词的组合、内部不含虚词的片段、长度小于等于最大对象特征长度的片段、频率大于最小对象特征发生频率的片段。
14.根据权利要求10的设备,其中所述优化装置包括第一转移计算装置,用于基于所述关联性,根据所述观点词语集合和所述对象特征集合中的第一集合的分数计算所述观点词语集合和所述对象特征集合中的第二集合的分数;第二调整装置,用于利用第二集合成员相似性调整第二集合的分数;第二转移计算装置,用于基于所述关联性,根据调整后的第二集合的分数计算第一集合的分数;第一调整装置,用于利用第一集合成员相似性调整第一集合的分数,以便基于所述关联性根据调整后的第一集合的分数计算第二集合的分数;以及排序装置,用于当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对所述第一集合中的成员进行排序、并且按照调整后的第二集合的分数对所述第二集合中的成员进行排序。
15.根据权利要求10的设备,其中所述优化装置包括第一调整装置,用于利用所述观点词语集合和所述对象特征集合中的第一集合成员相似性调整第一集合的分数;转移计算装置,用于基于所述关联性,根据调整后的第一集合的分数计算所述观点词语集合和所述对象特征集合中的第二集合的分数;第二调整装置,用于利用第二集合成员相似性调整第二集合的分数,以便基于所述关联性根据调整后的第二集合的分数计算第一集合的分数;以及排序装置,用于当调整后的第一集合的分数与调整前的第一集合的分数之间的差异达到预定要求时、或者当调整后的第二集合的分数与调整前的第二集合的分数之间的差异达到预定要求时,按照调整后的第一集合的分数对所述第一集合中的成员进行排序、并且按照调整后的第二集合的分数对所述第二集合中的成员进行排序。
16.根据权利要求14或15的设备,其中所述优化装置还包括用于基于第一集合内的每个成员在所述语料库中的频次信息,根据预定义策略对所述第一集合的分数进行初始化的装置。
17.根据权利要求14或15的设备,其中所述第一调整装置包括用于基于所述第一集合成员相似性和先验可信度,对所述第一集合的分数进行调整,得到调整分数的装置,用于当调整分数与所述第一集合的分数之间的差异达到预定要求时,将所述调整分数作为调整后的第一集合的分数并且停止调整所述第一集合的分数的装置,以及用于当调整分数与所述第一集合的分数之间的差异未达到预定要求时,利用所述调整分数更新所述第一集合的分数的装置;其中所述第二调整装置包括用于基于所述第二集合成员相似性和先验可信度,对所述第二集合的分数进行调整, 得到调整分数的装置,用于当调整分数与所述第二集合的分数之间的差异达到预定要求时,将所述调整分数作为调整后的第二集合的分数并且停止调整所述第二集合的分数的装置,以及用于当调整分数与所述第二集合的分数之间的差异未达到预定要求时,利用所述调整分数更新所述第二集合的分数的装置。
18.根据权利要求10的设备,其中所述抽取装置包括用于根据预定观点词语阈值从优化的观点词语集合中抽取排序在先的观点词语的装置;用于根据预定对象特征阈值从优化的对象特征集合中抽取排序在先的对象特征的装置;以及用于基于所述观点词语集合与所述对象特征集合之间的关联性,从所述排序在先的观点词语和所述排序在先的对象特征得到评价信息的装置。
全文摘要
本发明公开了一种评价信息抽取方法和设备,该方法包括从语料库中获取观点词语集合和对象特征集合;基于观点词语集合与对象特征集合之间的关联性、观点词语集合成员相似性以及对象特征集合成员相似性,优化观点词语集合和对象特征集合;以及根据优化的观点词语集合和优化的对象特征集合,抽取评价信息。
文档编号G06F17/30GK102609424SQ201110035018
公开日2012年7月25日 申请日期2011年1月21日 优先权日2011年1月21日
发明者王大亮, 胡长建, 许洪志, 赵凯, 邱立坤 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1