基于用户评论文本特征的自动摘要方法及其自动摘要系统的制作方法

文档序号:6575616阅读:278来源:国知局
专利名称:基于用户评论文本特征的自动摘要方法及其自动摘要系统的制作方法
技术领域
本发明涉及一种针对用户评论的文本特征进行文本自动摘要的自动摘要方 法及其自动摘要系统,属于知识挖掘技术领域。
背景技术
基于文本特征的自动摘要技术是使用计算机技术自动地为电子文档生成 "一段较原文短小且涵盖了原文中重要信息的文本"。随着互联网的深入发展, 信息爆炸式增长使得文本自动摘要技术的应用越来越广泛。根据处理对象的不 同,文本摘要可分为单文档自动摘要和多文档自动摘要两类。
单文档自动摘要技术是为单一文档自动生成摘要的技术,主要采用基于句 子抽取的方法,即首先依据词频、句子的位置、句法结构、文档结构等因素计 算句子的得分,然后选取得分最高的若干句子作为文摘句,将所有文摘句按它 们在原文中的顺序组织成文摘。此外,单文档自动摘要还可以采用基于自然语 言理解的文摘生成方法,利用语言学知识分析文本的深层语言结构,并且利用 领域知识对语义进行判断、推理,得到文档的语义表示,然后根据文档的语义 表示生成摘要。相较而言,句子抽取的方法较简单,适用范围广;而基于自然 语言理解的文摘生成方法十分复杂,且依赖于领域知识库,具有严格领域受限 的特性。因此,目前主流的单文档自动摘要仍然采取基于句子抽取的方法。
多文档自动摘要是为同一主题下的多个文档自动生成摘要,需要考虑不同 文档内容上的冗余与冲突。多文档自动摘要主要有三类方法(1)使用信息抽
取技术抽取各个文档中的重要信息,人工定制或半自动地生成摘要的模板,将 抽取的信息填入模板生成摘要;(2)首先使用单文档文摘技术为各个文档生成 摘要,然后过滤其中冗余和冲突的内容,将剩余内容组织生成摘要;(3)首先 对组成文档的所有句子进行分类或聚类,然后从各个集合中选取表现主题的句
5子组织成文摘。采用第三种方法的一个典型工具是MEAD,具体参见Radev D R, Jing H, Stys M, et al. Centroid-based summarization of multiple documents. Information Processing and Management, 2004, 40:919-938。 MEAD是一个基 于文档聚类和文档集合特征的多文档自动摘要系统,MEAD先对多文档中的句子 进行聚类,使用统计方法选取各个句子集合中词频最高的词和短语组成伪句子 作为集合的"质心",然后计算集合中其他句子与质心的相似度作为句子的得分, 最后选取各个集合中得分最高的句子作为文摘句,将文摘句组织起来生成文档 摘要。
随着Web2. 0的发展,互联网逐渐成为一个人们可以自由发表言论的平台, 网络上开始出现大量的包含丰富的主观见解的文本,如用户评论等。目前,文 本自动摘要的研究对象主要是科技文献和新闻等具有严谨的文档结构、语言风 格相对统一、陈述客观事实的文本;而用户评论往往是针对事物特定方面表达 主观见解的文本,其具有结构灵活松散、语言风格多样化特点。考虑到用户评 论的以上特点,本发明采用了基于特征的分类方法,即首先分析大量评论,从 中识别出用户评论的所有特征,然后根据句子评价的特征对单个评论句进行分 类。目前情感分析领域提出了一些从用户评论中识别特征的方法,如频繁项集 挖掘方法,基于概率语言模型的方法,模式发现与模式匹配的方法,以及基于 启发式规则的无监督学习方法等。
这些主观性本文数量巨大且分布比较分散,所以要获得其中包含的丰富的 知识往往要花费大量的时间和精力。本发明主要采用第三类方法为用户评论生 成摘要,提出一种特征识别与过滤算法,通过对比实验说明特征识别的查准率 和Fl值都有较大的提高。

发明内容
为了克服现有技术结构的不足,本发明提供一种基于用户评论文本特征的 自动摘要方法及其自动摘要系统,其能够自动为大量的用户评论生成简洁、全面的摘要,以帮助人们更快更好地从用户评论中获取知识。本发明特征识别的查 准率和Fl值都有较显著的提高。本发明解决其技术问题所采用的技术方案是
一种基于用户评论文本特征的自动摘要方法,其包括以下歩骤
步骤l,用户评论预处理爬取并解析用户评论网页,得到用户评论,然后 对所述用户评论进行预处理,得到预处理后的用户评论;
步骤2,特征识别通过分析所述预处理后的用户评论,从中识别出被用户 评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;
歩骤3,评论句分类将所述预处理后的用户评论句按所述候选特征分类, 从而得到相应候选特征的评论句类;
步骤4,特征过滤根据所述评论句类对候选特征进行过滤,从而得到最终 特征及其所对应的候选评论句类;
步骤5,摘要生成计算所述候选评论句类中每个句子的得分,抽取若干 文摘句生成摘要。
上述步骤l中进一步包括,所述爬取并解析用户评论网页是指,针对选取 的特定的事物爬取该事物的所有用户评论网页,得到爬取的用户评论,然后解 析所述爬取的用户评论,获得用户评论文本。
上述歩骤1中,对所述用户评论进行预处理是指,标注用户评论中的所所 有词语的词性,去除其中的停用词,并对剩余词语进行词干抽取,得到预处理 后的用户评论文本。
上述步骤2中,所述被用户评价的特征是指是用户在评价某件事物时着眼 的某个侧面、某个细节、某个属性或者某个组成部分。
上述步骤2中,所述使用统计方法识别出候选特征是指提取所述被用户 评价的特征相应的用户评论句中的所有名词,计算单个名词出现的频率以及任 意两个名词共现的频率;选取出现频率最高的单个名词和共现频率最高的名词作为候选特征。
上述步骤4中所述的对候选特征进行过滤是指,根据组成特征的名词在评 论句中出现的相对位置,以及各个特征之间意义上的泛化与特化关系,过滤无 意义和冗余的候选特征。
上述步骤5中进一歩包括釆用统计方法计算山表现各个评论句类主题的关 键词,然后根据评论句内容与主题的契合度、评论句的长度以及评论句在整篇 评论中出现的位置,计算评论句的得分,然后抽取用户评论句类中得分最高的 若干原评论句组织生成摘要。
种基于用户评论文本特征的自动摘要方法,进一步包括所述采用统计方 法计算出表现各个评论句类主题的关键词是指,在对评论句分类的基础上,使 用统计的方法找出每个类的关键词,构造表示该评论句类主题的伪句子一质心, 计算基于评论句与质心的相似度;所述评论句内容与主题的契合度是指评论句
与质心的相似度。
一种基于用户评论文本特征的自动摘要系统,其包括
用户评论预处理模块其用于爬取并解析用户评论,然后对所述用户评论 进行预处理;
特征识别模块其通过分析所述预处理后的用户评论,从用户评论中识别 出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出 候选特征。
评论句分类模块其将用户评论句按所述候选特征分类,从而得到相应候 选特征的评论句类;
特征过滤模块其根据评论句分类的结果对候选特征进行进一歩过滤,从 而得到感兴趣的候选特征作为最终特征,以及得到所对应的候选评论句类;
摘要生成模块其用来计算所述候选评论句类的得分,抽取若干文摘句牛 成摘要。其中,用户评论预处理模块将预处理结果发送到特征识别模块,得到识别 出的候选特征,将经过所述用户评论模块预处理后的用户评论文本和特征识别 模块识别出的候选特征送入评论句分类模块进行分类,得到评论句类;对所述 候选特征进行过滤得到最终特征及其对应的候选评论句类;摘要生成模块以所 述候选评论句类和所述最终特征作为输入进行统计分析并生成摘要。
本发明的有益效果
本发明提出了一种基于用户评论文本的自动摘要方法,第一次将文本自动 摘要技术应用于包含丰富主观信息的用户评论,并且针对用户评论的特点提出 了基于特征的分类方法。
本发明方法能够生成简洁、全面的用户评论摘要,大大縮短用户阅读评论 获取有用信息的时间,提高知识利用率;基于特征的本方法是切合用户评论自 身特点的,本发明提出的特征识别与特征过滤算法的査准率可达81%以上,査全 率可达52%,査准率和F1值较选取的对比算法都有较大的提高。在网络时代信息 爆炸式增长的背景下,根据本发明的用户评论自动摘要方法具有重大的意义, 可以广泛应用于电子商务等诸多领域,能够显著提高从海量信息中获取知识的 质量和效率。


图l为根据本发明的基于用户评论文本特征的自动摘要方法的总流程图2为根据本发明方法的评论句分类的流程图3为根据本发明方法的摘要生成的流程图。
具体实施例方式
下面结合附图和具体实施方式
对本发明作进一歩详细描述 实施例l:
以下结合一个在电子商务中为用户评论生成摘要的例子,详细描述本发明 的具体实施方式
。电子商务是互联网上重要的Web应用,电子商务网站往往允许用户对商品
发表评论,这些包含着用户对商品购买和使用的主观性体验的评论,常常可以 作为其他用户挑选商家和商品的参考,也可以作为商家改进服务的依据。大型 网站匕的热门商品往往包含成百上千条用户评论,阅读十分耗时。本发明可以 为大量用户评论自动生成简洁、全面的摘要,大大提高知识获取的效率。
如图l所示,基于特征的用户评论自动摘要方法主要包括以下几个步骤 步骤1用户评论预处理爬取并解析用户评论,然后对所述用户评论进行 预处理。
为电子商务中商品的用户评论生成摘要,首先需要从电子商务网站上爬取
针对该商品的所有用户评论网页。在本实施例中,从www. amazon. com上爬取针 对商品Apple iPod touch的所有用户评论网页,解析网页得到939条用户评论。
在开始自动摘要之前,需要对用户评论进行一系列预处理。使用Stanford Part-of-Speech Tagger对用户评论进行词性标注,Stanford Part-of—Speech Tagger是一个使用最大熵模型的词性标注器,准确率可达96.86%。此外,删除 用户评论中的删除停用词,使用Porter Stemmer为剩余的词语抽取词干。处理 后的评论句采用向量空间模型表示和存储。
步骤2特征识别通过分析大量用户评论,从用户评论中识别出被用户评价 的特征,然后从所述被用户评价的特征屮,使用统计方法识别出候选特征。
如前所述,事物的特征是用户在评价某件事物时着眼的某个侧面、某个细 节或者某个属性、某个组成部分。在电子商务领域中,用户着眼的往往是商品 本身的属性或组成部分,或者购物过程中的某个侧面或细节,这些被统称为特 征。这些特征往往是名词或者两个名词组成的词组;因为不同用户采用相同的 词语表示特征,而往往用不同的词语表达他们的购物和用户体验,所以表示特 征的词语出现的频率较其他词语更高。基于此,本发明采用一种基于频繁项集 挖掘的统计方法进行特征识别,能够自适应地识别各种商品的特征。
频繁项集挖掘的问题描述是〉是一个含N个项集的集合,其
10中>,/ = 1,2,...,^是一个^项集,/7,/ = 1,2,...,",是一个项。给定一个参数
最小支持度^V^^p^"频繁项集挖掘是为了找出所有满足以下条件的项集S: D中至少存在/V* //7.w/^o;^个项集& ,使得S ^ & 。
Apriori算法是频繁项集挖掘的经典算法之一。它采用宽度优先搜索策略, 利用Apriori性质,即满足最小支持度要求的m项集一定是所有满足要求的n 项集的并集的子集(m〉n),有效地縮小了搜索空间。
与Apriori算法不同,本文的特征算法仅识别单字和双字特征,即1-项集 和2-项集,尤其特别为两者指定了不同的最小支持度/^/7sz//^0rW和 啦'77^/A^r^。之所以如此,是因为组成双字特征两个词语共现的频率要远低于 单字特征出现的频率。若两者采用同样的最小支持度,则参数太大会导致无法 有效识别双字特征,参数太小会导致识别大量错误的单字特征。该算法步骤如 下
1) 抽取用户评论中所有名词生成事务文件,文件每行为一个评论句中出现 的名词;
2) 遍历事务文件,统计每个名词的支持度;事务文件的总行数,即评论句 总数为
3) 选取支持度不小于/z/i/^,pw^的名词为单字特征;
4) 以所有支持度不小于^i/^w/^or^的名词作为双字特征候选集;
5) 遍历事务文件,统计任意两个名词所组成的词组的支持度,选取支持度 不小于/wV s,por"的词组作为双字特征。
如算法步骤4)所示,选取支持度不小于/77i/7s,por"的名词而不是所有名 词作为双字特征候选集,是利用Apriori性质以縮小搜索空间。算法中的两个 参数啦'刀s砂/ oi^7和肌V^w/^or^通过一些列实验学习得到,其中单字特征支 持度/w'/LSi/ftwrW为0. 012,双字特征支持度/w'/7s,/ orz^为0. 005。
步骤3评论句分类将用户评论句按所述候选特征分类,从而得到相应候 选特征的评论句类。识别出商品的所有被评价的特征后,依次分析每一个评论句评价的特征, 将评论句分到该特征对应的评论句类中。于是得到一系列评论句类,其中每一 个类对应一个特征,包含评价该特征的所有评论句。
步骤4特征过滤根据评论句分类的结果对候选特征进行过滤,从而得到 感兴趣的候选特征及其所对应的候选评论句。
完成评论句分类后,需要根据分类的结果,考虑组成双字特征的两个词语 在评论句中出现的位置以及出现的次数,过滤无意义的双字特征;然后根据候 选单字特征在概念上与双字特征的包含关系过滤冗余的单字特征。
对于双字特征过滤,观察到组成双字特征的两个词语在评论句屮的出现往 往距离较近,而且保持一致的相对顺序。为此定义了有效的双字特征的概念。 定义1 一个有效的双字特征f^ ,w^应满足以下条件
(1) f-〈WpW,在评论句S中共现,w,和^保持w,在前w,在后的相对顺序, 且两者出现位置的距离小于给定阈值W'/7^『i》e;
(2) 更新双字特征的支持度为满足条件(1)的评论句的数目,双字特征
的支持度必须大于给定阈值历i^ wp/ 。
若双字特征,< ,^>的支持度小于给定阈值,则该双字特征是无意义的。 对于单字特征过滤,定义了单字特征的纯支持度(pure support)的概念。 定义2 已知所有双字特征/;,/2,...,/;,,2 。 一个单字特征w的纯支持度,是指w 出现且/;,/2,...,/ ,2不出现的评论句的总数。
有效的单字特征是指纯支持度不小于给定阈值巡i^o^^p的单字特征,纯支 持度小于历i"; s,p的单字特征是冗余的。
例如,battery life和life为算法1识别出的特征,battery life的支持度为20, life的支持度为30,则life的纯支持度为30-20=10。若给定 肌V AWA^20,则life是冗余的单字特征。
评论句分类与特征过滤算法的具体描述如下
输入经过预处理的用户评论,以及算法l识别出的候选特征 输出经过过滤的特征,以及各个特征对应的评论句类
过禾呈Classifier(V&c/oprw'ze, / i/75"〃巡啦'邵6"〃卯)
2while读入一个评论句5,
3 for A中的每一个词语w,
4 if ,是算法1识别出的一个单字特征then
5 《-^在^中出现的位置
6 =恥wm u <y7 , )
7 将评论句&分到单字特征w,对应的评论句类。
8 for腳ns中的每一对名词(w"《),(Wi,《)
9 if <w,,wt >是双字特征&& 《〈w油丽fee then
10 将A分到双字特征《^,vn >对应的评论句类^
11 else if <wt,,->是3又字牛寺个正&& o#,<vw>^cws/ze then
12 将s,分到双字特征〈^, >对应的评论句类
13 for每一个双字特征< W/,w, >
14 根据定义1更新 的支持度
15 if s,, < yz i776""淨then
16 删除双字特征
1317 for在双字特征中出现的每一个名词w,
18 根据定义1计算w,的纯支持度戸"w,
19 if 戸p巧〈迈i邵幼; p then
20 删除单字特征w,
算法2第1-12行成评论句分类,如图2所示,给定一个评论句,算法先判断其中出现的每 -个名词是否是单字特征,然后判断每两个单字特征组成的名词对是否是双字特征,然后将该评论句分到相应的单字特祉或双字特征对应的评论句类。具体评论句分类过程如下
(l)读入一个评论句s,记录其中出现的名词^,2,...,,,判断,力(—l,…t)是单字特征?如果不是,继续处理s中下-个名词w,+,直到处理完s中出现的所有名词;(2)如果w,是单字特征,则将s分到w,对应的类c,,将w,加入nouns;对nouns中的每一对名词< >,判断〈",w'p是双字特征?如果是,那么将s分到<勺,^>对应的类^;否则,继续回到(1)继续处理s中下一个名词。
算法2第13-16行根据定义1进行双字特征过滤,第17-20行根据定义2完成单字特征过滤。三个参数r^^H^ 'ze,肌';isw/^和啦V7/^WAD分别表示组成双字特征的两个名词在评论句中出现位置间的最大距离,双字特征的最小支持度,和单字特征的最小纯支持度。经过系列实验学习,『力7t/o^ize取值为2,瓜i/ s〃/ p禾口 /z i/^swp/3的取f直:^另ij与历j'/ 5"〃/ parz^禾口 /w'/ sw/^orz^相同,为0. 005和0,012。
歩骤5摘要生成计算所述候选评论句的得分,抽取若干文摘句生成摘要。在评论句分类的基础上,本发明使用句子抽取的方法生成摘要。图3为摘要生成的流程图。如图3所示,对于每一个评论句类,先计算组成评论句词语
的权重,抽取若干权重最高的关键词组成表示该评论句类主题的质心向量;然后基于评论句与质心的相似度、评论句长度以及句子在整篇评论中的位置计算评论句的得分,按照压缩率抽取得分最高的若干评论句作为该分类的文摘句;最后按照一定顺序排列各个评论句类的文摘句生成摘要。
^="1^2,...,^>为某种产品某个特征的评论句分类,w是d中评论句的数目。
& =<、,,、,.., ,,、hl,2,…,.V是评论句5,的向量模型表示,"是整个评论句分类中出现的词语的总数,w,中f是评论句的标识符,而J是词语的全局标识符。
=,("'"',/ = 1,2,...义/' = 1,2,...^是词语,的权值。特别地,当巧没有在a中出现时、=0.
评论句分类d的质心是个能反映该分类的主题的伪句子,同样采用向量模型表示,ce"的^W)=<、,、,.,、 >。其中、为关键词v^的权重,计算方法为
《=log
出现的句子数
对于每个评论句,计算以卜三种得分
(1) 基于质心的得分如下<formula>formula see original document page 15</formula>
即表示评论句的向量与质心向量的余弦相似度。因为质心是表示文档集合主题的伪句子,与质心越相似的评论句越能反映文档集合的主题,故而得分越高。
(2) 基于评论句长度的得分如下
,、j中最短句的长度n, , W1
长度越短的句子得分越高,可以使相同长度的摘要包含更多的句子,从而包含更加丰富的信息。(3)基于段落首句的得分如下
,、卩,如果si是段落首句
f '、 否则
根据Baxendale的研究,句子在文档中的位置对句子重要性的影响重大,段落首句是该段落中心句的概率为85%。因此,段落首句得分为l。
对于一个评论句、,其初始得分为基于质心和基于长度的得分的线性和,即score。
) = " * score乙) +々* score, (s,) + y承score, )
其中"为基于质心得分的权值,/ 是基于评论句长度的得分的权值,^是基
于段落首句的得分的权值,0<",/ ,7<1且《 + / + 7 = 1。通过一系列实验考量生成摘要的质量和实际的应用需求,选取"=0.5,^ = 0.3,y = 0.2 。
得到评论句的初始得分后,依次从各分类中抽取得分最高的句子加入摘要;若摘要长度未达到压縮率的限制,则在每次迭代后重新计算各分类中剩余评论句的得分,然后抽取得分最高的句子加入摘要,直到摘要长度达到限制时迭代结束。第(k+l)次迭代时,评论句x,的得分计算方法为
scorek+l") = scorek") — ;scorek 0:)
其中^是第k次迭代后选取的得分最高的评论句。每次迭代后重新计算句子
得分的目的是为了为与已选取的句子内容不相似的句子赋予更高的得分,以降低所生成的摘要的冗余度。
最终生成摘要吋需要考虑从各个评论句类中选取的文摘句之间的相对顺序。这里先将特征按支持度的降序排列,依次各个特征对应的评论句类中选取一个文摘句加入摘要。
性能评测
基于特征的用户评论自动摘要方法首先需要分析用户评论识别出被评价的特征,然后将所有评论句按照所评价的特征进行分类,使用句子抽取的方法从各个评论句类中抽取文摘生成摘要。因此,特征识别的质量对于生成摘要的质
16评测特征识别的质量的指标主要有以下三
杳全率(Recall) ^正确识别的特征数—— 人工标注的特征数二水.
査准率(Precision) w =確另歸魏
识别的特征总数
Fl值(Fl-measure) fi= 2p7
p + i
在用户评论摘要的应用中,有些特征往往只被很少的用户评价,而在摘要篇幅受限的情况下应该优先考虑被用户普遍关注的特征,所以特征识别的査准率比查全率更重要。
实验选定的对比算法是Hu & Liu在情感分析系统FBS研究中采用的Apriori算法(Hu Minqing, Liu Bing. Mining and Summarizing Customer Reviews.SIGKDD, 2004, 168-177)。实验数据是从电子商务网站amazon、cnet、和印inions上收集的5种商品的英文用户评论,包括2款移动电话、l款笔记本电脑、l款MP3播放器和1款数码相机,每种商品有数百条用户评论。
首先选取一个标注者阅读所有用户评论,人工标注出其中的特征,表1第2列为各种商品人工标注的特征数。然后比较算法识别的特征与人工标注特征,第3列和第7列分别为算法识别出的特征数;统计算法识别正确的特征数,计算查准率、査全率和F1值。实验结果表明,本发明采用的特征识别与过滤算法的查全率为51.9%,査准率为81.0%,而F1值为62. 7%,相较于对比算法查准率提高了24%, Fl值提高了6。/。。
表l特征识别的质量评测产品名称人工标 注的特 征数FBS特征识别与特征过滤算法特征 数査准率査全 率Fl值特征 数查准 率.查全 率Fl值
移动电话183630. 6830. 5180. 589430. 8370. 4340. 571
移动电话2100640. 7500. 4800. 585610. 8030. 4900. 609
笔记本65600. 6330. 5850. 608430. 8370. 5540. 667
MP3播放器68700. 5860. 6030. 594530. 7740. 6030. 678
数码相机62570. 6320. 5810.605400.8000. 5460. 627
平均值75. 662. 80. 6570. 5530. 59648. 00.8100. 5丄90. 630
在准确的特征识别的前提下,给定压縮率(实验中取1%),基于特征的用户
评论白动摘耍方法能够生成覆盖所有被识别出的特征(查全率为51. 9%)的摘耍, 而且能够大大縮短阅读时间(1%),从而显著提高用户从海量用户评论中获取有
用信息的效率,这在信息爆炸式增长的网络时代具有重大的实践意义和应用前
旦 足。
以上仅为本发明较佳的具体实施方式
,但木发明的保护范围并不局限于此, 本发明方法同样适用于电子产品、电子书籍、手机和提高用户关联度的扩大销 售领域。此外,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
权利要求
1.一种基于用户评论文本特征的自动摘要方法,其包括以下步骤步骤1,用户评论预处理爬取并解析用户评论网页,得到用户评论,然后对所述用户评论进行预处理,得到预处理后的用户评论;步骤2,特征识别通过分析所述预处理后的用户评论,从中识别出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;步骤3,评论句分类将所述预处理后的用户评论句按所述候选特征分类,从而得到相应候选特征的评论句类;步骤4,特征过滤根据所述评论句类对所述候选特征进行过滤,从而得到最终特征及其所对应的候选评论句类;步骤5,摘要生成计算所述候选评论句类中每个句子的得分,抽取若干文摘句生成摘要。
2. 根据权利要求l所述的基于用户评论文本特征的自动摘要方法,其特征 是步骤1中,所述爬取并解析用户评论网页是指,针对选取的特定的事物爬 取该事物的所有用户评论网页,得到爬取的用户评论,然后解析所述爬取的用 户评论,获得用户评论文本。
3. 根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特 征是步骤1中,对所述用户评论进行预处理是指,标注所述用户评论中的所 有词语的词性,去除其中的停用词,并对剩余词语进行词干抽取,得到所述预 处理后的用户评论。
4. 根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特 征是,步骤2中所述被用户评价的特征是指是用户在评价某件事物时着眼的某 个侧面、某个细节、某个属性或者某个组成部分。
5. 根据权利要求l所述的基于用户评论文本特征的自动摘要方法,其特征 是,步骤2中所述使用统计方法识别出候选特征是指提取所述被用户评价的特 征相应的用户评论句中的所有名词,计算单个名词出现的频率以及任意两个名 词共现的频率;选取出现频率最高的单个名词和共现频率最高的名词作为候选 特征。
6. 根据权利要求l所述的基于用户评论文本特征的自动摘要方法,其特征是步骤4中所述的对候选特征进行过滤是指,根据组成特征的名词在评论句中 出现的相对位置,以及各个特征之间意义上的泛化与特化关系,过滤无意义和 冗余的候选特征。
7. 根据权利要求l所述的基于用户评论文本特征的自动摘要方法,其特征 是步骤5中所述计算所述候选评论句的得分是指根据所述候选评论句的K度、 位置和内容计算所述候选评论句的得分。
8. 根据权利要求1或7所述的基于用户评论文本特征的自动摘要方法,其特征是步骤5进一步包括采用统计方法计算山表现各个评论句类主题的关键词, 然后根据评论句内容与主题的契合度、评论句的长度以及评论句在整篇评论中 出现的位置,计算评论句的得分,然后抽取用户评论句类中得分最高的若干原 评论句组织生成摘要。
9.根据权利要求8所述的基于用户评论文本特征的自动摘要方法,其特征是所述采用统计方法计算出表现各个评论句类主题的关键词是指,在对评论 句分类的基础上,使用统计的方法找出每个类的关键词,构造作为表示该评论 句类主题的伪句子的质心,计算基于评论句与质心的相似度;所述评论句内容与主题的契合度是指评论句与质心的相似度。
10. —种基于用户评论文本特征的自动摘要系统,其包括 用户评论预处理模块其用于爬取并解析用户评论网页,得到用户评论,然后对所述用户评论进行预处理,得到预处理后的用户评论;特征识别模块其通过分析所述预处理后的用户评论,从中识别出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征; 评论句分类模块其将所述预处理后的用户评论句按所述候选特征分类,从而得到相应候选特征的评论句类;特征过滤模块其根据所述评论句分类对所述候选特征进行过滤,从而得到最终特征及其所对应的候选评论句类;摘要生成模块计算所述候选评论句类中每个句子的得分,抽取若干文摘句生成摘要,其中,用户评论预处理模块将预处理结果发送到特征识别模块,得到识别 出的候选特征;将经过所述用户评论模块预处理后的用户评论文本和特征识别 模块识别出的候选特征送入评论句分类模块进行分类,得到评论句类;对所述 候选特征进行过滤得到最终特征及其对应的候选评论句类;摘耍生成模块以所 述候选评论句类和所述最终特征作为输入进行统计分析并生成摘要。
全文摘要
一种基于用户评论文本特征的自动摘要方法及其自动摘要系统,该方法包括以下步骤爬取并解析用户评论网页,并对用户评论进行一系列预处理;从用户评论中识别出被用户评价的特征;将用户评论句按其评价的特征进行分类,并根据评论句分类的结果过滤特征;以及计算评论句的得分,抽取若干文摘句生成摘要。本发明能够从大量用户评论中准确地识别用户关注的特征,根据评论的特征进行评论句分类,然后使用基于句子抽取的文本摘要方法自动生成简洁、全面的摘要,从而帮助用户显著提高获取知识的效率和质量;本发明应用于电子商务领域能够缩短用户挑选商品的时间,提高购物效率,改善购物体验。
文档编号G06F17/30GK101667194SQ200910093409
公开日2010年3月10日 申请日期2009年9月29日 优先权日2009年9月29日
发明者铭 张, 章彦星 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1