提取商品属性信息的方法和设备的制作方法

文档序号:6579766阅读:132来源:国知局
专利名称:提取商品属性信息的方法和设备的制作方法
技术领域
本发明总体上涉及网络信息处理领域,并且尤其涉及一种无指导的、从互联网上 的众多用户评论信息中自动提取商品属性(product feature)信息的方法和设备
背景技术
随着互联网的快速发展,互联网上的信息量每天都在以惊人的速度增长。越来越 多的人喜欢在网上发表他们对人、事、物的意见,网络上出现了大量的含有个人观点和评论 的信息。如何分析和监测网络上的评论信息,如何减轻人们阅读大量相关评论信息的工作 量,已经成为自然语言处理领域中的一个研究热点。在对评论信息进行分析时,如何从评论信息中提取出所关注的评论内容是一个基 本问题。例如,在购买电子商品“手机”之前,人们往往习惯于先查看一下网络上已有的关于 该商品的评论。此时,商品的属性、例如体积、屏幕大小、分辨率等都是所关注的评论内容。对于如何从商品评论信息中提取出商品的属性信息,首先想到的是基于词典的匹 配方法。它的前提是已经具有了一部涉及特定领域的属性词典。但是,基于词典的匹配方 法存在以下一个或多个问题 词典的覆盖率问题词典中收录的词汇相对有限,很难覆盖评论信息中的所有属 性词汇,例如,很难覆盖新出现的网络用语、缩写等;·与词典的简单匹配欠缺灵活性,例如,对于词典里收录的属性词“屏幕分辨率”, 评论信息中出现的诸如“屏幕的分辨率”、“高分辨率的屏幕”等用语都很难被匹配上,从而 使得难以提取出正确的商品属性信息;以及·词典的获取问题词典的构建是一件费时费力的工程。然而,由于词典匹配方法的局限性,目前,对于商品属性的提取,越来越多地采用 了从网上发表的商品评论信息中自动提取商品属性信息的技术。目前,与其相关的代表性研究主要包括· Minqing Hu 禾口 Bing Liu 所著的“Mining Opinion Features in Customer Reviews,,(参见 Proceedings of Nineteeth NationalConference on Artificial Intelligence (AAAI-2004),第 755 760 页,2004 年 7 月,美国圣约瑟);· Minqing Hu 禾口 Bing Liu 所 著 的“Mining and Summarizing Customer Reviews,,(参见 Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,第 168 177 页,2004 年 8 月 22 25 日,美国华 盛顿州西雅图);以及· A.M. Popescu 禾口 o. Etzioni 所 著 的 “Extracting Product Features and Opinions from Reviews,,(参 见 Proceedings of the Human Language Technology Conference/Conference on Empirical Methods in Natural Language Processing (HLT-EMNLP-05),第 339-346 页,2005 年,加拿大温哥华)。在上述这些研究中,Bing Liu等人釆用了基于关联规则挖掘(Associate RuleMining)和词频统计的被评论特征提取方法,而Popescu等人采用了基于点互信息的属性词提取。其中,对词语的出现频率信息的利用有利于从评论信息中提取出高频的商品特征, 但是往往忽略了低频的商品特征。

发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本 理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。本发明旨在至少解决现有技术中存在的上述问题之一,实现商品属性信息的自动 提取,从而至少部分地弥补人工费时费力的缺点、或者基于词典提取的词典覆盖率及灵活 性差等缺点。为此,本发明的一个目的是提供一种用于从包括评论语句的评论信息中提取商品 属性信息的方法和设备,其能够无指导地自动提取商品属性信息,并且能够通过基于模板 的商品信息提取过程提取出在高频商品属性信息提取过程中被漏掉的非高频商品属性信 息,作为对高频商品属性信息的补充。本发明的另一个目的是提供在被计算设备执行时使计算设备能够执行上述方法 的处理过程的计算机程序代码,以及其上存储有该计算机程序代码的计算机可读存储介质 及计算机程序产品。为了实现上述目的,根据本发明的一个方面,提供了一种用于从包括评论语句的 评论信息中提取商品属性信息的方法,其包括如下步骤a)对评论信息执行包括分句、分 词、词性标注在内的预处理;b)从经预处理后的评论信息中提取出候选商品属性信息,并 将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信 息;c)通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模 板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及d)根据预定的过 滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的 商品属性信息。根据本发明的另一个方面,还提供了一种用于从包括评论语句的评论信息中提取 商品属性信息的设备,其包括预处理单元,用于对评论信息执行包括分句、分词、词性标注 在内的预处理;高频商品属性信息提取单元,用于从经预处理后的评论信息中提取出候选 商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为 高频商品属性信息;补充商品属性信息提取单元,用于通过利用根据所提取出的高频商品 属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中 提取出补充商品属性信息;以及过滤单元,用于根据预定的过滤方法,对所提取出的高频商 品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质 和计算机程序产品。本发明的一个优点在于,在根据本发明实施例的用于从评论信息中提取商品属性 信息的方法和系统中,首先从经过包括分句、分词、词性标注等在内的预处理的评论信息中提取出高频商品属性信息,然后基于高频商品属性信息获取相应的模板,并利用模板从预处理后的评论信息中进一步提取商品属性信息。这样,通过利用根据本发明实施例的方法 和系统,可以无指导地并且高效地从给定评论信息集合中自动提取出商品属性信息,消除 了人工提取信息费时费力的缺点,可以提高信息提取效率和缩短信息提取周期。本发明的又一个优点在于,在根据本发明实施例的用于从评论信息中提取商品属 性信息的方法和系统中,没有采用基于词典的信息提取技术,而是在从经过预处理的评论 信息中利用统计信息提取出高频商品属性信息后,利用模板从评论信息中进一步提取商品 属性信息。这样,在保证提取高频商品属性信息的基础上,通过引入基于所提取的高频商品 属性信息而获取的模板再次从评论信息中提取商品属性信息,从而对评论信息中的非高频 商品属性信息具有一定的召回能力,克服了基于词典提取信息时的词典覆盖率差及灵活性 差等缺点。通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优 点将更加明显。


本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所 有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的 详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本 发明的优选实施例和解释本发明的原理和优点。在附图中图1是示出了根据本发明实施例的商品属性信息提取方法的示意性流程图;图2是示出了根据本发明的实施例、从所收集的评论信息中提取高频商品属性信 息的处理(即,图1中所示的步骤S130)的示意性流程图;图3是示出了根据本发明的实施例、从网上收集评论信息并从评论信息中提取商 品属性信息的方法的示意性流程图;图4是示出了根据本发明的实施例、基于所提取出的高频商品属性信息从评论信 息中获取模板的过程的示意性流程图;图5是示出了根据本发明的实施例、利用所获取的模板从评论信息中提取商品属 性信息的过程的示意性流程图;图6是示出了根据本发明实施例的、用于从网上评论信息中提取出商品属性信息 的设备的示意性结构的方框图;以及图7是示出了在其中可以实现根据本发明实施例的方法和/或设备的通用个人计 算机的示例性结构的方框图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以 便有助于提高对本发明实施例的理解。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有 所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开 内容的本领域技术人员来说,这种开发工作仅仅是例行的任务在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明 关系不大的其他细节。图1是示出了根据本发明实施例的、用于从网上评论信息中提取出商品属性信息 的方法100的示意性流程图。如图1所示,在步骤SllO中,接收从网络上收集到的各种商品评论信息。在此,可 以采用现有的各种信息收集方法,例如,采用面向互联网的网络爬虫的方式,或者采用指定 数据来源的方式,来定期地自动从网络上收集评论信息。在步骤S120中,对所收集到的评论信息进行包括分句、分词、词性标注等在内的 各种预处理,以获得包括在所收集到的评论信息中的众多评论语句的词、词性向量。在此可 以采用已有的自然语言处理方法来对评论信息进行预处理。例如,对于评论语句“系统扩 展性能差。”,在经过预处理之后可得到类似于如下所示的结果系统/n扩展Am性能/n差 /a。/w0其中,“/η”表示名词词性,“/vn”表示动名词词性,“/a”表示形容词词性,“。/V, 表示标点符号。然后,在步骤S130中,从经预处理后的评论信息(S卩,步骤S120中得到的多个词、 词性向量)中提取高频商品属性信息。在此,可以利用基本名词短语识别技术从经预处理的评论信息中提取出候选商品 属性信息,然后统计候选商品属性信息在评论信息中出现的次数,并从候选商品属性信息 选择那些出现频率满足预定条件(例如,大于预定阈值)的商品属性信息作为高频商品属 性f曰息。然而,为了使涉及领域的适应性更强,在根据本发明的一个实施例中,发明人构建 了一元词、二元词和三元词作为候选商品属性信息(在本文中也被简称为候选单元),统计 这些候选商品属性信息在评论信息中出现的次数,并根据预先定义的规则将具有某些不能 作为属性信息的词或词性的候选商品属性信息删除,然后将出现次数满足一定条件(例如 大于预定阈值)的候选商品属性信息确定为所提取出的高频商品属性信息。在下文中将结 合图2所示的流程图对根据该实施例提取高频商品属性信息的具体过程进行描述。接下来,在步骤S140中,通过利用根据所提取出的高频商品属性信息从评论信息 中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性 信息。补充商品属性信息是在先前的高频商品属性信息提取过程中漏掉的非高频商品属性 信息,是对所提取出的高频商品属性信息的补充。在此,可根据已获取的高频商品属性信息,从评论信息中获取其相应的上下文信 息,并将所获取的上下文信息作为候选模板,对得到的候选模板进行统计分析,设定阈值 进行过滤以获得有效的模板(例如,认为覆盖一定数量的高频商品属性的模板是有效的模 板),根据由此得到的模板,再次从评论信息中提取候选商品属性信息,对新得到的候选商 品属性信息进行过滤判断(例如,根据预定规则对不能作为商品属性词的词、词性的候选属性进行过滤,进行剪枝过滤,和/或进行阈值过滤等),将过滤后的候选商品属性信息输出作为补充商品属性信息。该步骤的具体处理过程将在下文中结合图3 5所示的流程图 进行具体说明。然后,如图1所示,在步骤S150中,对步骤S130中得到的高频商品属性信息和步 骤S140中得到的补充商品属性信息进行过滤。在此,可以根据限定长度阈值进行过滤,根 据词头词尾限定条件进行过滤等。随后,在步骤S160中,例如以列表的形式,输出经步骤S150过滤后的商品属性信
肩、ο接下来,将结合图2所示的流程图对步骤S130中的具体处理进行说明。图2示出 了根据本发明的一个实施例从所收集的评论信息中提取高频商品属性信息的处理(即,图 1中所示的步骤S130)的示意性流程图。如图2所示,对于通过对所收集的评论信息进行预处理而得到的评论语句中的 词、词性向量,在步骤S210中,在从中去除标点符号后,构建一元、二元、三元词作为商品属 性信息的候选单元(即,一元、二元、三元候选商品属性信息)。例如,对于“系统/n扩展/Vn性能/n差/a。/V”这样的预处理结果,在去除标点 符号“。”之后,可以分别构建出如下所示的一元、二元、三元词作为商品属性信息的候选单 元一元词[系统 /η],[扩展 /νη],[性能 /η],[差 /a];二元词[系统/n扩展/νη],[扩展/νη性能/η],[性能/n差/a];三元词[系统/n扩展/νη性能/η],[扩展/νη性能/n差/a]。然后,在步骤S220中,统计所构建的候选单元在所收集到的评论信息中出现的次数。假设统计得到如下所示的、各个候选单元在评论信息中的出现次数[系统/η] 100,[扩展 /νη]60,......,[系统 /n 扩展 /vn]50,[系统 /n 扩展 /Vn
性能 /η] 40,.......接下来,在步骤S230中,构建候选列表,以列表的形式存储候选单元的有关信息。 其中,按照如下所示的形式,以候选单元的开头词作为关键词,其后分别对应有其相应的候 选单元中的其他词,以及出现的次数。形式如下Keywords :T1Values <, timesl>Values :<T2,times2>Values :<T3,times3>Values :<T2 T3, times4>...... 其中,〈,timesl〉表示以Tl作为候选单元,以及其在评论信息中出现的次数 为timesl,<T2,times2>表示以Τ1Τ2作为候选单元,以及其在评论信息中出现的次数 为times2,<T3,times3>表示以T1T3作为候选单元,以及其在评论信息中出现的次数为 times3, <T2T3,times4>表示以T1T2T3作为候选单元,以及其在评论信息中出现的次数为 times4。
例如,对于上文中给出的例子,可以构建出具有如下所示的形式的候选列表Keywords [系统 /η]Values <, 100>Values< 扩展 /vn,50>Values< 扩展 /vn 性能 /n,40>......接下来,如图2所示,处理流程进行到步骤S240,对候选单元执行基于规则的过 滤。在根据本发明实施例的商品属性信息提取技术中,出于涉及领域的适应性考虑,发明人 没有引入相应的短语识别,所以,对于候选单元,采用了给定一定的构词规则进行过滤的措 施。过滤规则包含以下词形、词性两个方面,并且分别设定有开头词词性对应表、结尾词词 性对应表和词形对应表,以便执行过滤关于词性过滤的规则,例如,对于候选单元开头词和候选单元结尾词的词性,可以 仅被限定为以下词性形容词</a>,副词</ad>,名词</n>,动词</v>,形名词</an>,名词性语素</Ng>, 动词性语素</Vg>,动名词</vn>,名词代码</ns>等。词形过滤的规则可以包括例如,候选单元不应为标点等词汇,开头词和结尾词不 应为“的”,词尾不应当为时间、数字和字母等。在此,没有直接利用停用词表进行过滤,因为考虑到“的”可作为属性词的组成部 分,如[铃声/n的/u音量/η]。然后,在步骤S250中,对在步骤S240中进行基于规则的过滤之后而得到的候选单 元执行剪枝过滤(priming filtering)。具体来说,如果A、B均为候选商品属性信息,且A 多数作为与B的一部分出现,而A单独出现的次数小于预先设定的阈值,则判定A不是候选 商品属性。例如,假设具有于如下所示的候选列表Keywords :T1Values <, timesl>Values :<T2, times2>Keywords :T2Values <, times3>其中,T2出现的次数times3,但实际上T1T2同时出现的次数为times2。所以,T2 单独出现的次数为times3-times2。虽然times3的值可能很高,但可能是由于T1T2同时出 现的次数多引起的,而T2单独出现的次数不一定很高。剪枝过滤就是要将这种间接贡献考 虑进来,避免引入非高频率的部分商品属性。例如,仍然以上文给出的下述候选列表为例Keywords [系统 /η]Values <,50>Values< 扩展 /vn,10>Values< 扩展 /vn 性能 /n,40>在如上所述进行“剪枝”之后,[系统/η]实际上单独出现的次数为50次,而[系统/n扩展/vn]实际上单独出现的次数为10次。然后,在步骤S260中,对经过上述过滤处理之后的候选单元进行阈值过滤,根据预先设定的阈值参数来对候选单元进行选择。在此,可以商品属性信息的出现次数作为参 数,并设定阈值条件,将出现次数满足阈值条件、例如高于设定阈值的候选单元(即候选商 品属性信息)确定为高频商品属性信息。随后,在步骤S270中,输出经阈值过滤后得到的高频商品属性信息,即为从评论 信息中提取出的高频商品属性信息。接下来,将参考图3 图5所示的流程图对根据本发明的实施例从网上收集评论 信息并从评论信息中提取商品属性信息的具体过程进行描述。图3是示出了根据本发明的 实施例从网上收集评论信息并从评论信息中提取商品属性信息的方法的示意性流程图。如图3所示,在步骤S310中,通过采用各种已知的信息收集方法来从网络上收集 评论信息。根据需要,可以定期地自动收集评论信息。接下来,在步骤S320中,对所收集到的评论信息进行包括分句、分词、词性标注等 在内的各种预处理,以获得评论语句的词、词性向量,然后在步骤S330中,从经预处理后的 评论信息中提取高频商品属性信息。图3中所示的步骤S320和S330中的处理过程与图1 中所示的S120和S130中的处理过程类似,因此在此就不再详述了。接下来,在步骤S340中,根据步骤S330中所提取出的高频商品属性信息进行基于 模板的商品属性信息提取,以获得补充商品属性信息,作为对高频商品属性信息的补充。具体来说,如图所示,在步骤S342中,基于所提取出的高频商品属性信息,从评论 信息中获取高频商品属性信息的上下文信息,据此获取模板。下面参照图4所示的流程图对步骤S342的具体处理进行说明。图4是示出了根 据本发明的实施例基于所提取出的高频商品属性信息从评论信息中获取模板的过程的示 意性流程图。如图4所示,在步骤S410中,基于如上所述从经预处理后的评论信息中所提取出 的每一个高频商品属性信息,从评论信息中提取每一个高频商品属性信息的上下文信息, 构成候选模板。在此,某一高频商品属性信息的上下文信息是指该高频商品属性信息所属
语句中的前一个词及后一个词。假设从语句“......T-2T-1 TO Tl T2......”中提取出
的高频商品属性信息为T0,则由此得到的、该高频商品属性信息TO的候选模板的形式为 T-I......Tl。例如,对于评论语句“另外音量不好”,经过分词和词性标注之后得到的结果为“另 外/c音量/n不好/a”,假设在如上所述方式提取高频商品属性信息后确定“[音量/η] ”为 高频商品属性信息,则由此得到的、该高频商品属性信息[音量/η]的候选模板为“〈[另外 /c]......[不好/a]>”。然后,在步骤S420中,执行候选模板频度统计,即,用候选模板在所有评论语句 中进行匹配,并统计出候选模板在所有评论语句中被匹配上的频度。例如,对于候选模板
“〈[另外/c]......[不好/a]>”,可以匹配上诸如“另外图像的质量不好”、“另外质量不好”
之类的评论语句。在此,候选模板的频度统计可以从两个方面考虑。一是统计候选模板在 评论信息中出现的次数,也就是说,对于某一个候选模板多次覆盖某一个高频商品属性信 息可以重复计数。二是只考虑候选模板所匹配上的不同的高频商品属性信息的次数,也就是说,某一个候选模板匹配上某一个高频商品属性信息后,再出现该候选模板匹配上该高 频商品属性信息这种情况,将不再重复计数。这样,考虑了候选模板在评论语句中的匹配能 力,即,候选模板可以覆盖多少高频商品属性信息然后,在步骤S430中,基于对候选模板的频度统计结果,根据预先设定的条件(例 如,预定阈值参数),选择出所有候选模板中满足预先设定的条件的那些模板,作为从评论 信息中获取的模板输出。这里,可以分别设定两个阈值,分别对应于上面的两种频度统计, 并分别采用阈值对候选模板进行过滤筛选。返回参见图3。在步骤S344中,利用步骤S342中获得的模板再次从预处理后的评 论信息中提取商品属性信息,作为补充商品属性信息(它是对先前所提取的高频商品属性 信息的补充)。下面将参照图5所示的流程图对步骤S344的具体处理进行说明。图5是示出了 根据本发明的实施例利用所获取的模板从评论信息中提取商品属性信息的过程的示意性 流程图。如图所示,在步骤S510中,利用步骤S342中获得的模板,从评论信息中构建候选 单元。在此构建的候选单元与上文中结合图2描述的高频商品属性信息提取中的候选单元 有所不同。这里是把匹配上模板的中间片断作为候选单元,而不再考虑其是由几元词组成
的。例如,假设模板为“〈[另外/c]......[不好/a]>”,则对于评论语句“另外图像的质量
不好”,将与该模板匹配上的中间片断“图像的质量”构建为候选单元。因此,为了区分起见, 可以将基于模板的商品属性信息提取过程中的候选单元称为第一候选单元,而相应地可以 将高频商品属性信息提取过程中的候选单元称为第二候选单元。当然,反之亦然。在步骤S520中,统计(第一)候选单元所能匹配上的不同模板的个数。在此,并 不是统计候选单元在评论信息中出现的次数,而是考虑候选单元所能匹配上的模板的种类 个数,即不重复地统计与候选单元匹配的模板的个数。接下来,在步骤S530中,构建候选列表。这个步骤的处理与图2中所示的构建候 选列表步骤S230的处理相同,因此就不再详述了。然后,在步骤S540中,可以参照所构建的候选列表,根据预定的过滤方法,对(第 一)候选单元进行过滤,从而得到补充商品属性信息。在此,可以如以上结合图2所描述的 步骤S240、S250和S260中那样,对步骤S510中构建的候选单元进行基于规则的过滤、剪 枝过滤和阈值过滤。但是,需要说明的是,在此时的阈值过滤中,考虑的是通过统计得到的、 (第一)候选单元所匹配上的不同的模板的个数,而且由于希望利用模板从评论信息中提 取出在先前执行的高频商品属性信息提取过程中所漏掉的非高频商品属性信息,作为对高 频商品属性信息的补充,因此,阈值设置得要高频商品属性信息提取过程中所设定的相应 阈值低。再次返回参见图3。在步骤S346中,确定在基于模板的商品属性信息提取过程中 是否要继续进行循环。在此,对于循环结束条件,可以考虑给定循环次数、是否有新的模板 生成或者是否有新的商品属性信息等为条件。如果在步骤S346中确定要循环地执行基于模板的商品属性信息提取过程,则处 理返回到步骤S342,基于步骤S344中得到的补充商品属性信息(而不是先前所提取的高频 商品属性信息)从评论信息中重新获取模板,并重复上述步骤S342至S346的处理,直到满足循环结束条件。假设以给定循环次数为例,则在进行了 η次循环后,自动结束基于模板的 商品属性信息提取过程。然后,在步骤S350中,根据预先设定的过滤方法,对步骤S330中得到的高频商品 属性和步骤S340中得到的补充商品属性信息进行过滤。例如,假设仅考虑商品属性信息的 词汇长度限制,则对于过长的商品属性信息候选,判定其成为商品属性信息的概率会降低, 例如可仅设定长度(字数)超过某一阈值(例如8个字长)的商品属性信息被过滤掉。随后,在步骤S360中,例如可以列表的形式,输出经步骤S350过滤后的商品属性 fn息ο图6是示出了根据本发明实施例的、用于从网上评论信息中提取出商品属性信息 的设备600的示意性方框图。如图6所示,设备600包括预处理单元610,用于对评论信息进行包括分句、分 词、词性标注等在内的各种预处理,以获得包括在评论信息中的众多评论语句的词、词性向 量;高频商品属性信息提取单元620,用于从经预处理后的评论信息中提取出候选商品属 性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商 品属性信息;补充商品属性信息提取单元630,用于通过利用根据所提取出的高频商品属 性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提 取出补充商品属性信息;以及过滤单元640,用于根据预先设定的过滤方法,对高频商品属 性信息提取单元620所提取出的高频商品属性信息和补充商品属性信息提取单元630所提 取出的补充商品属性信息进行过滤,并输出过滤后的商品属性信息。其中,高频商品属性信息提取单元620可以利用现有的高频属性信息提取方法来 从评论信息中提取高频商品属性信息,也可以如以上结合图2所描述的那样执行高频商品 属性信息提取。补充商品属性信息提取单元630进一步包括模板获取器632,用于基于高频商 品属性信息提取单元620所提取出的高频商品属性信息,从评论信息中获取高频商品属性 信息的上下文信息,并据此获取模板;以及商品属性信息提取器634,用于利用模板获取器 632所获得的模板再次从预处理后的评论信息中提取出商品属性信息,作为补充商品属性 fn息ο所述模板获取器可以通过下述方式获取模板基于所提取出的每一个高频商品属 性信息,从经预处理后的评论信息中提取每一个高频商品属性信息的上下文信息,从而构 成候选模板;用候选模板在评论信息中包括的所有评论语句中进行匹配,并统计出候选模 板在所有评论语句中被匹配上的频度;以及基于对候选模板的频度统计结果,从所有候选 模板中选择满足预定条件的模板,输出作为从评论信息中获取的模板。所述商品属性信息提取器可以通过以下方式利用所获取的模板从经预处理后的 评论信息中提取商品属性信息利用所获取的模板从经预处理后的评论信息中构建第一候 选单元,该第一候选单元是评论语句中与模板匹配上的中间片断;统计与第一候选单元匹 配的不同模板的个数;构建第一候选列表,在该第一候选列表中存储每一个第一候选单元 的开头词作为关键词,并在之后存储该第一候选单元中在该开头词后的其他词及其在评论 语句中的出现次数;以及参照所构建的第一候选列表,根据预定的过滤方法,对第一候选单 元进行过滤,将过滤后的第一候选单元输出作为所述商品属性信息。
在高频商品属性信息提取单元620执行结合图2所描述的高频商品属性信息提取 过程的情况下,所述高频商品属性信息提取单元可以进一步包括候选单元构建装置,用于 基于对评论信息进行预处理而得到的评论语句中的词和词性向量,构建一元词、二元词、三 元词作为商品属性信息的第二候选单元;统计装置,用于统计所构建的第二候选单元在评 论信息中出现的次数;候选列表构建装置,用于构建第二候选列表,在该第二候选列表中存 储每一个第二候选单元的开头词作为关键词,并在之后存储该第二候选单元中在该开头词 后的其他词及其在评论语句中的出现次数;基于规则的过滤装置,用于根据预先设定的第 二过滤规则,对第二候选单元执行基于规则的过滤;剪枝过滤装置,用于参照所构建的第二 候选列表对第二候选单元执行剪枝过滤,以从中滤掉非高频的部分商品属性信息;以及阈 值过滤装置,用于对经过剪枝过滤处理之后的第二候选单元进行阈值过滤,将出现次数满 足第二预定阈值条件的第二候选单元确定为高频商品属性信息。虽然在图6中并没有示出高频商品属性信息提取单元620在执行如图2所示的处 理过程情况下的示意性结构方框图,但是本领域技术人员可以很容易地根据上述描述绘制 出相应的结构方框图。通过阅读以上结合图1至图5所示的方法流程图给出的、对如何从评论信息中提 取商品属性信息的过程的描述,可以很容易地得知如何实现上述各个单元的功能,因此,为 了说明书的简洁起见,在此就不再对设备600的各个组成单元的具体处理过程进行描述 了。此外,尽管在图6中并未示出,但是所述设备600还可以包括用于从外部设备接 收从网上收集到的评论信息的评论信息接收单元;或者用于从网络上收集评论信息的评论 信息收集单元。其中,评论信息可以是采用面向互联网的网络爬虫的方式或者采用指定数 据来源的方式定期地自动从网络上收集的。通过以上的描述不难看出,在根据本发明实施例的上述方法和设备中,在从经过 包括分句、分词、词性标注等在内的预处理的评论信息中提取出高频商品属性信息,并且利 用基于高频商品属性信息获取的模板从预处理后的评论信息中进一步提取商品属性信息。 这样,可以无指导地并且高效地从给定评论信息集合中自动提取出商品属性信息,消除了 人工提取信息费时费力的缺点。另外,在根据本发明实施例的上述方法和设备中,在从经过预处理的评论信息中 利用统计信息提取出高频商品属性信息后,利用基于高频商品属性信息获取的模板从评论 信息中进一步提取商品属性信息。这样,在保证提取高频商品属性信息的基础上,引入了模 板来再次从评论信息中提取商品属性信息,从而对评论信息中的非高频商品属性信息具有 一定的召回能力,即,能够提取出在高频商品属性信息提取过程中被漏掉的非高频商品属 性信息,作为对高频商品属性信息的补充。而且,在根据本发明实施例的上述方法和设备中,可以根据需要采用循环的方式 不断地获取模板,并重复地执行基于模板的商品属性信息提取,从而不断地从评论信息中 提取出新的商品属性信息,由此充实了所提取出的商品属性信息的规模。此外,在根据本发明实施例的上述方法和设备中,没有采用基于词典的信息提取 技术,而是利用基本名词短语识别技术从预处理后的评论语句中构建一元词、二元词、三元 词作为候选商品属性信息(即候选单元),统计候选单元在评论信息中出现的频率,根据预先设定的过滤方法对候选单元进行基于规则的过滤、剪枝过滤和阈值过滤,这样过滤后的 商品属性信息即为从评论信息中提取出的高频商品属性信息。这样,克服了基于词典提取 信息时的词典覆盖率差及灵活性差等缺点,而且可以高效地提取出所期望的高频商品属性 fn息ο此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可 读的存储介质中的计算机可执行程序的方式实现。而且,本发明的目的也可以通过下述方式实现将存储有上述可执行程序代码的 存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理 单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于 程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操 作系统的脚本程序等。上述这些机器可读存储介质包括但不限于各种存储器和存储单元,半导体设备, 磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。另外,计算机通过连接到互联网上的相应网站,并且将依据本发明的计算机程序 代码下载和安装到计算机中然后执行该程序,也可以实现本发明。此外,依据本发明的计算机程序代码也可以采用例如一个或更多个信号的形式。 所述信号可以是可从互联网站点下载的数据信号,或是在载波信号上提供的数据信号,或 是以任何其它形式的数据信号。图7是示出了在其中可以实现根据本发明实施例的方法和/或设备的通用个人 计算机700的示例性结构的框图。如图7所示,中央处理单元(CPU)701根据只读存储器 (ROM) 702中存储的程序或从存储部分708加载到随机存取存储器(RAM) 703中的程序执行 各种处理。在RAM703中,也根据需要存储当CPU 701执行各种处理等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口 705也连 接到总线704。下述部件连接到输入/输出接口 705 输入部分706,其包括键盘、鼠标等等;输出 部分707,其包括显示器,比如阴极射线管(CRT)和液晶显示器(LCD)等,以及扬声器等;存 储部分708,其包括硬盘等;以及通信部分709,其包括网络接口卡比如LAN(局域网)卡、调 制解调器等。通信部分709经由网络、例如互联网执行通信处理。根据需要,驱动器710也连接到输入/输出接口 705。可拆卸介质711比如磁盘、 光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机 程序根据需要被安装到存储部分708中。在如上所述通过软件实现本发明的情况下,从网络、例如互联网或者存储介质、例 如可拆卸介质711中向计算机700中安装所述软件的程序。本领域的技术人员应当理解,上述存储介质不局限于图7所示的其中存储有程 序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子可以 包含磁盘(包含软盘)、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘(DVD))、磁光 盘(包含迷你盘(MD)和半导体存储器等。或者,存储介质也可以是ROM 702、存储部分708 中包含的硬盘等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺 序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。通过以上的描述不难看出,根据本发明的实施例,提供了如下的方案附记1. 一种用于从包括评论语句的评论信息中提取商品属性信息的方法,包括 如下步骤a)对评论信息执行包括分句、分词、词性标注在内的预处理;b)从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现 的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基 于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及d)根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进 行过滤,并输出过滤后的商品属性信息。附记2.根据附记1所述的方法,其中,所述进行基于模板的商品属性信息提取的 步骤c)进一步包括cl)基于所提取出的高频商品属性信息,从经预处理后的评论信息中提取高频商 品属性信息的上下文信息,由此获取模板;以及c2)利用所获取的模板从经预处理后的评论信息中提取商品属性信息,并将其输 出作为补充商品属性信息。附记3.根据附记2所述的方法,其中,所述获取模板的步骤cl)进一步包括cll)基于所提取出的每一个高频商品属性信息,从经预处理后的评论信息中提取 每一个高频商品属性信息的上下文信息,从而构成一个候选模板;cl2)用每一个候选模板在评论信息中包括的所有评论语句中进行匹配,并统计出 候选模板在所有评论语句中被匹配上的频度;以及cl3)基于对候选模板的频度统计结果,从所有候选模板中选择满足预定条件的候 选模板,并将其输出作为从评论信息中获取的模板。附记4.根据附记3所述的方法,其中,所述进行基于模板的商品属性信息提取的 步骤c)进一步包括c3)确定是否要循环执行基于模板的商品属性信息提取;以及c4)在确定要循环执行基于模板的商品属性信息提取的情况下,基于所获取的补 充商品属性信息从评论信息中重新获取模板,基于新获取的模板执行商品属性信息提取, 并重复这个过程,直到满足循环结束条件为止。附记5.根据附记2至4中任意一项所述的方法,其中,所述利用所获取的模板从 经预处理后的评论信息中提取商品属性信息的步骤c2)进一步包括c21)利用所获取的模板从经预处理后的评论信息中构建第一候选单元,该第一候 选单元是评论语句中与模板匹配上的中间片断;c22)统计与每一个第一候选单元匹配的不同模板的个数;c23)构建第一候选列表,在该第一候选列表中存储每一个第一候选单元的开头词 作为关键词,并在之后存储该第一候选单元中在该开头词后的其他词,及开头词和其他词 一起出现在评论语句中的出现次数;以及
c24)参照所构建的第一候选列表,根据预定的过滤方法,对第一候选单元进行过 滤,将过滤后的第一候选单元输出作为所述商品属性信息。附记6.根据附记5所述的方法,其中,所述对第一候选单元进行过滤的步骤c24) 进一步包括根据预先设定的第一过滤规则,对第一候选单元执行基于规则的过滤;参照所构建的第一候选列表对第一候选单元执行剪枝过滤,以从中滤掉非高频的 部分商品属性信息;以及对第一候选单元进行阈值过滤,将出现次数满足预定第一阈值条件的第一候选单 元确定为所述商品属性信息。附记7.根据附记1至6中任何一项所述的方法,其中,所述提取高频商品属性信 息的步骤b)进一步包括bl)基于对评论信息进行预处理而得到的评论语句中的词和词性向量,构建一元 词、二元词、三元词作为商品属性信息的第二候选单元;b2)统计所构建的第二候选单元在评论信息中出现的次数;b3)构建第二候选列表,在该第二候选列表中存储每一个第二候选单元的开头词 作为关键词,并在之后存储该第二候选单元中在该开头词后的其他词及其在评论语句中的 出现次数;b4)根据预先设定的第二过滤规则,对第二候选单元执行基于规则的过滤;b5)参考第二候选列表对第二候选单元执行剪枝过滤,以从中滤掉非高频的部分 商品属性信息;以及b6)对第二候选单元执行阈值过滤,将出现次数满足第二预定阈值条件的第二候 选单元确定为高频商品属性信息。附记8.根据附记1至7中任何一项所述的方法,其中,所述对所提取出的高频商 品属性信息和补充商品属性信息进行过滤的步骤d)进一步包括根据预先设定的词汇长度阈值条件,从所提取出的高频商品属性信息和补充商品 属性信息中将词长不满足词汇长度阈值条件的商品属性信息滤掉,并输出过滤后的商品属 性f曰息。附记9.根据附记1至8中任何一项所述的方法,其中,所述评论信息是采用面向 互联网的网络爬虫的方式或者采用指定数据来源的方式定期地自动从网络上收集的。附记10. —种用于从包括评论语句的评论信息中提取商品属性信息的设备,包 括预处理单元,用于对评论信息执行包括分句、分词、词性标注在内的预处理;高频商品属性信息提取单元,用于从经预处理后的评论信息中提取出候选商品属 性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商 品属性信息;补充商品属性信息提取单元,用于通过利用根据所提取出的高频商品属性信息从 评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充 商品属性信息;以及过滤单元,用于根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。附记11.根据附记10所述的设备,其中,所述补充商品属性信息提取单元进一步 包括模板获取器,用于基于所提取出的高频商品属性信息,从经预处理后的评论信息 中提取高频商品属性信息的上下文信息,由此获取模板;以及商品属性信息提取器,用于利用所获取的模板从经预处理后的评论信息中提取商 品属性信息,并将其输出作为补充商品属性信息。附记12.根据附记11所述的设备,其中,所述模板获取器通过下述方式获取模 板基于所提取出的每一个高频商品属性信息,从经预处理后的评论信息中提取每一 个高频商品属性信息的上下文信息,从而构成一个候选模板;用每一个候选模板在评论信息中包括的所有评论语句中进行匹配,并统计出候选 模板在所有评论语句中被匹配上的频度;以及基于对候选模板的频度统计结果,从所有候选模板中选择满足预定条件的候选模 板,并将其输出作为从评论信息中获取的模板。附记13.根据附记12所述的设备,其中,在所述补充商品属性信息提取单元确定 要循环执行基于模板的商品属性信息提取的情况下,模板获取器基于所获取的补充商品属 性信息从评论信息中重新获取模板,而且商品属性信息提取器基于新获取的模板执行商品 属性信息提取,并重复这个过程,直到满足循环结束条件为止。附记14.根据附记11至13中任意一项所述的设备,其中,所述商品属性信息提取 器通过以下方式利用所获取的模板从经预处理后的评论信息中提取商品属性信息利用所获取的模板从经预处理后的评论信息中构建第一候选单元,该第一候选单 元是评论语句中与模板匹配上的中间片断;统计与每一个第一候选单元匹配的不同模板的个数;构建第一候选列表,在该第一候选列表中存储每一个第一候选单元的开头词作为 关键词,并在之后存储该第一候选单元中在该开头词后的其他词,及开头词和其他词一起 出现在评论语句中的出现次数;以及参照所构建的第一候选列表,根据预定的过滤方法,对第一候选单元进行过滤,将 过滤后的第一候选单元输出作为所述商品属性信息。附记15.根据附记14所述的设备,其中,所述商品属性信息提取器对第一候选单 元执行下述过滤处理根据预先设定的第一过滤规则,对第一候选单元执行基于规则的过滤;参照所构建的第一候选列表对第一候选单元执行剪枝过滤,以从中滤掉非高频的 部分商品属性信息;以及对第一候选单元进行阈值过滤,将出现次数满足预定第一阈值条件的第一候选单 元确定为所述商品属性信息。附记16.根据附记10至15中任何一项所述的设备,其中,所述高频商品属性信息 提取单元进一步包括候选单元构建装置,用于基于对评论信息进行预处理而得到的评论语句中的词和词性向量,构建一元词、二元词、三元词作为商品属性信息的第二候选单元;统计装置,用于统计所构建的第二候选单元在评论信息中出现的次数;候选列表构建装置,用于构建第二候选列表,在该第二候选列表中存储每一个第 二候选单元的开头词作为关键词,并在之后存储该第二候选单元中在该开头词后的其他词 及其在评论语句中的出现次数;基于规则的过滤装置,用于根据预先设定的第二过滤规则,对第二候选单元执行 基于规则的过滤;剪枝过滤装置,用于参照所构建的第二候选列表对第二候选单元执行剪枝过滤, 以从中滤掉非高频的部分商品属性信息;以及阈值过滤装置,用于对第二候选单元进行阈值过滤,将出现次数满足第二预定阈 值条件的第二候选单元确定为高频商品属性信息。附记17.根据附记10至16中任何一项所述的设备,其中,所述过滤单元根据预先 设定的词汇长度阈值条件,从所提取出的高频商品属性信息和补充商品属性信息中将词长 不满足词汇长度阈值条件的商品属性信息滤掉,并输出过滤后的商品属性信息。附记18.根据附记10至17中任何一项所述的设备,其中,所述设备进一步包括用于从外部设备接收从网上收集到的评论信息的评论信息接收单元;或者用于从网络上收集评论信息的评论信息收集单元,其中,所述评论信息是采用面向互联网的网络爬虫的方式或者采用指定数据来源 的方式定期地自动从网络上收集的。附记19. 一种计算机程序代码,用于在计算设备上被执行时使计算设备执行根据 附记1至9中任何一项所述的方法的处理。附记20. —种其上存储有计算机程序代码的计算机可读存储介质,所述计算机程 序代码在计算设备上被执行时,用于使计算设备执行根据附记1至9中任何一项所述的方 法的处理。最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅 仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实 体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其 他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不 仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、
物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的
要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求 所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的 范围不仅限于说明书所描述的过程、设备、制造、物质的结构、手段、方法和步骤的具体实施 例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行 与在此所述的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要 被开发的过程、设备、制造、物质的结构、手段、方法或者步骤。因此,所附的权利要求旨在它 们的范围内包括这样的过程、设备、制造、物质的结构、手段、方法或者步骤。
权利要求
一种用于从包括评论语句的评论信息中提取商品属性信息的方法,包括如下步骤a)对评论信息执行包括分句、分词、词性标注在内的预处理;b)从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及d)根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。
2.一种用于从包括评论语句的评论信息中提取商品属性信息的设备,包括预处理单元,用于对评论信息执行包括分句、分词、词性标注在内的预处理;高频商品属性信息提取单元,用于从经预处理后的评论信息中提取出候选商品属性信 息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属 性信息;补充商品属性信息提取单元,用于通过利用根据所提取出的高频商品属性信息从评论 信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品 属性信息;以及过滤单元,用于根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属 性信息进行过滤,并输出过滤后的商品属性信息。
3.根据权利要求2所述的设备,其中,所述补充商品属性信息提取单元进一步包括模板获取器,用于基于所提取出的高频商品属性信息,从经预处理后的评论信息中提取高频商品属性信息的上下文信息,由此获取模板;以及商品属性信息提取器,用于利用所获取的模板从经预处理后的评论信息中提取商品属 性信息,并将其输出作为补充商品属性信息。
4.根据权利要求3所述的设备,其中,所述模板获取器通过下述方式获取模板基于所提取出的每一个高频商品属性信息,从经预处理后的评论信息中提取每一个高 频商品属性信息的上下文信息,从而构成一个候选模板;用每一个候选模板在评论信息中包括的所有评论语句中进行匹配,并统计出候选模板 在所有评论语句中被匹配上的频度;以及基于对候选模板的频度统计结果,从所有候选模板中选择满足预定条件的候选模板, 并将其输出作为从评论信息中获取的模板。
5.根据权利要求4所述的设备,其中,在所述补充商品属性信息提取单元确定要循环 执行基于模板的商品属性信息提取的情况下,模板获取器基于所获取的补充商品属性信息 从评论信息中重新获取模板,而且商品属性信息提取器基于新获取的模板执行商品属性信 息提取,并重复这个过程,直到满足循环结束条件为止。
6.根据权利要求3至5中任意一项所述的设备,其中,所述商品属性信息提取器通过以 下方式利用所获取的模板从经预处理后的评论信息中提取商品属性信息利用所获取的模板从经预处理后的评论信息中构建第一候选单元,该第一候选单元是 评论语句中与模板匹配上的中间片断;统计与每一个第一候选单元匹配的不同模板的个数;构建第一候选列表,在该第一候选列表中存储每一个第一候选单元的开头词作为关键 词,并在之后存储该第一候选单元中在该开头词后的其他词,及开头词和其他词一起出现 在评论语句中的出现次数;以及参照所构建的第一候选列表,根据预定的过滤方法,对第一候选单元进行过滤,将过滤 后的第一候选单元输出作为所述商品属性信息。
7.根据权利要求6所述的设备,其中,所述商品属性信息提取器对第一候选单元执行 下述过滤处理根据预先设定的第一过滤规则,对第一候选单元执行基于规则的过滤; 参照所构建的第一候选列表对第一候选单元执行剪枝过滤,以从中滤掉非高频的部分 商品属性信息;以及对第一候选单元进行阈值过滤,将出现次数满足预定第一阈值条件的第一候选单元确 定为所述商品属性信息。
8.根据权利要求2至7中任何一项所述的设备,其中,所述高频商品属性信息提取单元 进一步包括候选单元构建装置,用于基于对评论信息进行预处理而得到的评论语句中的词和词性 向量,构建一元词、二元词、三元词作为商品属性信息的第二候选单元; 统计装置,用于统计所构建的第二候选单元在评论信息中出现的次数; 候选列表构建装置,用于构建第二候选列表,在该第二候选列表中存储每一个第二候 选单元的开头词作为关键词,并在之后存储该第二候选单元中在该开头词后的其他词及其 在评论语句中的出现次数;基于规则的过滤装置,用于根据预先设定的第二过滤规则,对第二候选单元执行基于 规则的过滤;剪枝过滤装置,用于参照所构建的第二候选列表对第二候选单元执行剪枝过滤,以从 中滤掉非高频的部分商品属性信息;以及阈值过滤装置,用于对第二候选单元进行阈值过滤,将出现次数满足第二预定阈值条 件的第二候选单元确定为高频商品属性信息。
9.根据权利要求2至8中任何一项所述的设备,其中,所述过滤单元根据预先设定的词 汇长度阈值条件,从所提取出的高频商品属性信息和补充商品属性信息中将词长不满足词 汇长度阈值条件的商品属性信息滤掉,并输出过滤后的商品属性信息。
10.根据权利要求2至9中任何一项所述的设备,其中,所述设备进一步包括 用于从外部设备接收从网上收集到的评论信息的评论信息接收单元;或者用于从网络上收集评论信息的评论信息收集单元,其中,所述评论信息是采用面向互联网的网络爬虫的方式或者采用指定数据来源的方 式定期地自动从网络上收集的。
全文摘要
公开了一种用于从包括评论语句的评论信息中提取商品属性信息的方法和设备。所述方法包括a)对评论信息执行预处理;b)从预处理后的评论信息中提取出候选商品属性信息,并将出现次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;和d)根据预定过滤方法,对所述高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。利用根据本发明实施例的方法和设备,可无指导地自动提取商品属性信息,而且在保证提取高频商品属性信息的同时,兼顾了商品属性信息提取过程中可能漏掉的非高频商品属性信息。
文档编号G06F17/30GK101968788SQ20091016441
公开日2011年2月9日 申请日期2009年7月27日 优先权日2009年7月27日
发明者于浩, 夏迎炬, 孟遥, 张姝 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1