选择用于显示的高质量评论的制作方法

文档序号:6569726阅读:156来源:国知局
专利名称:选择用于显示的高质量评论的制作方法
技术领域
公开的实施例一般涉及搜索引擎。更加具体地,公开的实施例涉 及用于选择评论和用于表示的来自评论的内容的方法和系统。
背景技术
许多互联网用户在获得产品或服务之前对产品或服务进行调查。 许多互联网用户还在光顾产品或服务的供应商之前调查该供应商。当 前,许多用户遵循的方法是利用提供产品、服务和/或其供应商的评级 禾口评论的网站。例如,诸如 www.pricegrabber.com、 www.bizrate.com 和www.resellerratings.com之类的网站提供了产品及其供应商的评级和 评论。
为了获得对于产品、服务或供应商的评论和评级的全面了解,用户可以访问许多提供评论和评级的网站,并且阅读那些网站提供的多 个评级和评论。然而,这个过程相当耗时并且麻烦。为了避免花费时 间浏览各种网站上的评论和评级,用户可能满足于评级和评论的简单 概述。这样以来,将会高度希望的是,使用户能够更加有效地对他们有 兴趣获得(例如通过购买、出租、租借或其它类似交易)的产品和服 务以及他们有兴趣光顾的产品和服务的供应商进行调查。发明内容在本发明的一些实施例中,处理评论的方法包括识别多个评论; 基于至少预定的质量标准选择多个评论的子集;以及生成包括所选择的子集的内容的响应。


图1图示了根据本发明的一些实施例的网络。图2是根据本发明的一些实施例的用于接收和响应用于评论概要 的请求的过程的流程图。图3是根据本发明的一些实施例的用于选择代表性评论的过程的 流程图。图4是根据本发明的一些实施例的用于选择高质量评论的过程的 流程图。图5是根据本发明的一些实施例的用于聚类评论并且从群集中选 择评论的过程的流程图。图6是根据本发明的一些实施例的用于生成来自评论内高质量内 容的摘录的过程的流程图。图7图示了根据本发明的一些实施例的用于处理评论的系统。相同的参考标记指示附图中的相应部分。
具体实施例方式
对主题(诸如产品、服务或其供应商)进行调查的用户可能不想 通过几个网站花费时间阅读众多评论和评级,并且可能满足于主题的 评论和评级的概述。概述可以包括主题的评论的样本。然而,仅仅随 机选择评论用于包括在样本中对用户来说不是很有帮助。公开的实施 例基于预定的非随机标准选择评论用于包括在评论样本中,并且选择 来自评论的文本,用于在评论的摘录中使用。
图1图示了根据本发明的一些实施例的网络。网络100包括一个
或多个客户端102、一个或多个文件主机104和评论引擎106。网络100 还包括连接这些组建的网络108。
文件主机104存储文件并且提供到文件的访问。文件可以是任何 机器可读数据,包括文本、图形、多媒体内容等等的任何组合。在一 些实施例中,文件可以是超文本标记语言(HTML)亦即网页中写入的 文本、图形和其它可能形式的信息的组合。文件可以包括一个或多个 到其它文件的超链接。文件主机102中存储的文件可以通过统一资源 定位符(URL)或网址或任何其它适当形式的标识和/或位置来定位和/ 或识别。文件主机104还存储用户向它们提交的评论,并且经由诸如 网页之类的文件提供到评论的访问。
客户端102包括客户端应用程序,用户能够从该客户端应用程序 访问诸如网页之类的文件。在一些实施例中,客户端应用程序包括网 络浏览器。网络浏览器的例子包括Firefox、 Internet Explorer和Opera 。 在一些实施例中,用户还能够经由客户端102向文件主机104或评论 引擎106提交评论。
评论包括关于主题或主题的类的内容(例如评语、评估、意见等 等)。在一些实施例中,内容是文本的。在其它实施例中,内容还可 以包括音频、视频或文本、音频和视频的任何组合。评论的主题是特定实体或对象,评论中的内容向该实体或对象提 供评语、评估、意见等。在一些实施例中,可以根据主题的类型对评 论的主题进行分类。主题类型的例子包括产品、服务、产品的供应商、 服务的供应商等等。评论可以指向主题的类。主题的类包括多个特定 实体或对象,它们共享共同的品质、特性或特征。例如,特定的产品 线可以是主题的类,该主题可以是评论的主题。作为另一个例子,具 有特定品牌的全部产品可以是主题的类,该主题可以是评论的主题。
评级可以与评论相关联,并且和评论一起存储。评级(或"评级 分值")表示评论的主题(或主题的类)的分值(在预定范围内)。 评级的格式可以是数字值或是能够映射到数字值的任何非数字格式。 例如,非数字的赞成或反对评级可以分别映射到二进制值1或0。评级 形式的例子包括符号或描述格式(正/负、赞成/反对等等)和数字格式
(1 — 3、 l一5、 1 — 10、 1 —100等等)。在一些实施例中,除评级之外, 评论还可以与用于主题的特定方面的子评级相关联。子评级可以是用 于主题的具体方面的分值。
评论引擎106包括评论服务器110、评论储存库112、评论收集器 114和文件储存库116。评论服务器110生成包括评论和/或评论摘录的 响应,以便向客户端102传送。评论服务器110还向客户端102的用 户提供接口,用于向评论引擎106提交评论和评级。
评论收集器114收集来自文件的评论。评论收集器114分析文件, 并且提取来自文件的评论、评级和其它相关信息(诸如评论的作者、 评论日期、评论主题等等)。将所提取的评论传送到评论储存库112 以便存储。评论收集器114从中提取评论的文件可以存储在文件主机 104和/或文件储存库116中。
文件储存库116是在文件主机104中存储的文件的至少一个子集
9的副本的存储器。存储在文件储存库116中的文件可以从文件主机104
中收集并且通过评论引擎106存储在那里。在一些实施例中,文件储 存库116可以位于搜索引擎(未示出),该搜索引擎对于评论引擎106 是可访问的,并且该搜索引擎负责搜集来自文件主机104的文件并且 将它们存储在文件储存库116中。
存储在评论引擎106中的评论由客户端102的用户写入并且被提 交到文件主机104或评论引擎106。提交到文件主机104的评论可以从 存储在文件主机104的文件或存储在文件储存库116中的文件的副本 中提取。评论还可以由用户提交到评论引擎106。从文件提取的评论和 提交到评论引擎106的评论都被传递到评论储存库112以便存储。
文件主机104或评论引擎106可以为用户提供向它们提交评论的 能力。例如,文件主机104或评论引擎106可以提供在线表格,用户 能够填写他们的评论和评级然后提交。在提交和存储后,评论可以被 其它用户通过诸如网页之类的文件来访问。
评论的源是将评论向其提交的实体。源可以通过向其提交评论的 文件主机104的位置和/或标识符来识别。在一些实施例中,评论的源 可以通过向其提交评论的文件主机104的域来识别。例如,如果评论 被提交给在域www.xyz.com之下的文件主机,那么所提取的评论的源 可以是"xyz.com"。在用户向评论引擎106提交评论的情况下,评论 引擎106可以被认为是源。
评论储存库112存储评论和相关的评级。评论储存库112还存储 用于每个评论的主题或主题的类和主题类型(即,主题或主题的类是 否是产品、产品提供商等等)。评论储存库112还可以存储用于每个 评论的源、作者和日期。在一些实施例中,评论和评级可以在评论储 存库112中与评论和评级自身的一个或多个评估相关联。评论和评级 的评估可以评估评论和评级的有帮助性和/或可信性。例如,评论和评级的评估可以包括有帮助/无帮助评级。作为另一个例子,评论和评级 可以与度量值相关联,所述度量值基于对其作者的名声的衡量。基于
名声的度量值的例子记载在2005年9月30提交的名称为"System and Methods for Reputation Management"的美国专利申请中,其申请号为 11/241,693,其内容通过引用结合于此。
应当意识到的是,评论引擎106的组件中的每一个可以分布在多 个计算机之上。例如,评论储存库112可以配置(deploy)在M个服 务器之上,其中映射函数如"模M"函数用于确定在M个服务器的每 一个中存储哪些评论。类似地,评论服务器110可以分布在多个服务 器之上,并且评论收集器114和文件储存库116可以各自分布在多个 计算机之上。然而,为了便于说明起见,我们将会讨论评论引擎106 的组件,如同它们在单个计算机上实现一样。
图2是根据本发明的一些实施例的用于接收和响应用于评论概要 的请求的过程的流程图。如上所述,评论引擎106收集并存储由用户 向文件主机104提交的评论以及用户向评论引擎106提交的评论。用 户可以通过客户端102向评论引擎请求关于主题如产品、服务或提供 商的评论信息。例如,用户可以在客户端102上显示的网页中的链接 上进行点击,这触发向评论引擎106传送请求。下面描述用于处理这 样的请求的示范性过程。
经由客户端102,用户可以向评论引擎106请求关于主题或主题的 类的评论概要。评论引擎106从客户端102接收关于主题的评论概要 的请求(202)。识别关于存储在评论储存库112中的主题的评论(204)。 选择所识别的评论的子集(206)。生成包括来自所选择的子集的内容 的响应(208)。将响应传送到客户端102 (210)。客户端102在接收 到响应之后,在客户端应用程序如网络浏览器中呈现该响应,以便展 示给用户。生成的响应是传送到客户端102以便呈现和展示给用户的文件。 响应文件可以包括关于主题的评论概要。评论概要包括诸如关于主题 的总体评级的信息,其进一步的细节将参考图3在下面描述。评论概 要还可以包括则由评论源给出的关于主题的集体评级(如果可得到的 话)。由评论源给予主题的集体评级是基于与提交给该源的主题的评论 相关联的评级由评论源所确定的评级。集体评级如何被确定可以根据 评论源而变化,但在此没有关系。由于各种原因,不是所有的评论源 都可以具有关于主题的集体评级。例如, 一些评论源可以决定根本不 具有集体评级,而其它评论源则可以要求在确定和给出集体评级之前, 关于主题的评级的数目达到预定最小值。在评论概要中包括集体评级 是可选的。
评论概要还包括评论样本。在一些实施例中,评论样本可以包括 所选择的评论中的至少一部分的全部内容。对于基于文本的评论,评 论的全部内容是评论的整个文本。对基于视频的评论,评论的全部内 容是评论的全部视频剪辑。在其它一些实施例中,评论样本可以包括
选择的评论中的至少一部分的摘录,其进一步的细节将参考图6在下
面描述。然而,应当意识到的是,在一些实施例中,评论样本可以既 包括一部分所选择的评论的全部内容又包括其它所选择的评论的摘 录。评论样本还可以包括一个或多个到评论的源的链接,其中,评论 的全部内容或摘录包括在评论样本中。
图3是根据本发明的一些实施例的用于选择代表性评论的过程的
流程图。在接收到来自用户的关于主题的评论概要的请求之后,评论
引擎106能够选择许多评论以便包括在主题的评论样本中,使得样本 中的评论代表关于主题的总体评级。
识别关于特定主题的评论和评论的源(302)。为了与特定主题相 关的所有评论而搜索评论储存库112,可以从评论储存库112中识别评 论。所识别的评论形成关于特定主题的评论的全集。如果可得到的话,从每个所识别的源中识别关于主题的集体评级(304)。对于每个所识别的评论源,识别出在各个源中的全集中评论的数目(306)。这是在 全集中有多少个评论包括在每个源中的简单计数。为主题确定总体评级分值(308)。总体评级分值可以是评论源给 出的关于主题的集体评级的数学组合。在一些实施例中,总体评级分 值是集体评级的加权平均。权重是基于包括在每个源中的全集中的评 论的数目。这样,在全集中具有更多评论的源的集体评级在加权平均 中是有利的。用于计算总体评级的示范性公式为其中,OR为总体评级,S是具有至少一个全集中的评论(亦即至 少一个关于主题的评论)和关于主题的聚合评级的评论源的数目,r; 是来自源i的集体评级,并且iii是处在源i中的全集中的评论的数目。 如果评论源各自为它们的集体评级使用不同的规格和/或形式,则集体 评级首先被转换成和/或归一化成与用于总体评级的规格/形式相同的 规格和形式。在一些实施例中,总体评级基于l-5数字评级规格,这样 集体评级就被转换成和/或归一化成该规格。然而,应当意识到的是, 其他评级规格也可以用于总体评级。在一些实施例中,如上面的公式 所示,集体评级通过处在每个评论源中的全集中的评论的数目的对数 而被加权。对数可以有任何适合的底数,诸如底数2、底数IO或底数 e。在其它一些实施例中,集体评级通过处在每个评论源中的全集中的 评论的数目而被加权,如下式所示 <formula>formula see original document page 13</formula>在确定了总体评级之后,识别总体评级落在其中的评级范围 (310)。评级规格可以分成两个或更多评级范围。例如,1-5规格可
以分成3个范围。3.66和5之间的评级(包括边界)可以指示关于主 题方面的经验已总体为正。1和2.33之间的评级(包括边界)可以指 示关于主题方面的经验已总体为负。2.34至3.65之间的评级(包括边 界)可以指示关于主题方面的经验已总体被混合。作为另一个例子, 相同的l-5规格可以分成4个范围。4.1和5之间的评级(包括边界) 可以指示优秀评级。3.1和4之间的评级(包括边界)可以表示良好评 级。2.1和3之间的评级(包括边界)可以表示一般评级。l和2之间 的评级(包括边界)可以表示差评级。应当意识到的是,上面的评级 范围例子仅仅是示范性的,并且可以使用划分评级规格的其他方式。 然而,为了便于说明起见,我们将会讨论图3中图示的过程,如同评 级规格分成了3个范围高/正范围、低/负范围和中间/混合范围。
如果总体评级落在低范围内(310-低),则选择与低范围内的评 级相关联的全集中的评论(312)。评论可以在每个源的基础上进行选 择,或者全部从全集中选择。如果评论在每个源的基础上被选择,则 可以从每个源中选择与低范围内的评级相关联的达到第一预定数目的
评论。如果全部从全集中选择评论,则可以从全集中选择达到第二预 定数目的评论,而不考虑评论源。
如果总体评级落在中间范围内(310-中间),则选择与高范围内 的评级相关联的全集中的评论和与低范围内的评级相关联的全集中的 评论(314)。换言之,在所选择的评论之中的是与高范围内的评级相 关联的评论以及与低范围内的评级相关联的评论。在其他实施例中, 选择与中间范围内的评级相关联的全集中的评论。如上所述,评论可
以在每个源的基础上或者全部从全集中进行选择。
如果总体评级落在高范围内(310-高),则选择与高范围内的评 级相关联的全集中的评论(316)。如上所述,评论可以在每个源的基础上或者作为整体从评论的集合中进行选择。在一些实施例中,可以包括另外的选择标准。例如,另外的标准可以是待选择的评论不具有引起反对(objectionable)的内容如亵渎或 明显与性有关的内容。作为另一个例子,另外的标准可以是待选择的 评论必须具有超过预定阈值的基于名声的度量值。更一般地,可以选 择与总体评级落在其中的评级范围内的和也满足零或更多其它预定标 准的评级范围内的评级相关联的评论。生成包括所选择的评论的内容的响应(318)。生成的响应是被传 送到客户端102以便呈现并展示给用户的文件。响应文件包括关于主 题的评论概要。评论概要可以包括信息如关于主题的总体评级和可选 的由评论源给出的关于主题的集体评级。如上所述,评论概要还包括 评论样本,所述评论样本包括所选择的评论或其摘录中的至少一部分。图4是根据本发明的一些实施例的用于选择高质量评论的过程的 流程图。在接收到来自用户的请求关于主题的评论概要之后,评论引 擎106能够选择许多评论以便包括在主题的评论样本中,使得评论包 括高质量内容。识别关于特定主题的评论和评论的源(402)。为了与特定主题相 关联的所有评论而搜索评论储存库112,可以从评论储存库112中识别 评论。所识别的评论形成关于特定主题的评论的全集。在一些实施例 中,初始识别的评论在402被过滤,或者在过程的稍后阶段被过滤, 以便去除包含引起反对的内容的任何评论。为每个识别的评论确定质量分值(404)。质量分值是评论内容质 量的量度。质量分值提供了用于在评论的质量方面相互比较评论的基 础。质量分值可以基于一个或多个预定因素。在一些实施例中,预定 因素包括评论的长度、评论中句子的长度、与评论中的词相关联的值以及评论的语法质量。可以基于每个因素为评论确定次分值,并且将 次分值进行组合以便为评论确定质量分值。然而,应当意识到的是, 可以包括另外的和/或可替代的因素。关于评论的语法质量,具有合适的语法和大写字母(例如实际地 使用句子,评论没有全部大写)的评论是有利的。这样,具有"合适" 的语法和大写字母的评论就得到针对这个因素的较高次分值。具有糟 糕语法和不合适的大写字母的评论趋向于较不可读。进而,整个用大 写的评论常常被认为是粗鲁的。在一些实施例中,评论中句子的检测 可以基于句子分界符如评论中句号的检测。在一些实施例中,可以针 对附着到语法质量的另外标记如主语-动词的一致性、缺乏语意连贯的 句子或段落等等来评估评论。在一些实施例中,可以在语法检验器的 辅助下执行对评论的语法和大写字母的评估,所述语法检验器在本领 域中是众所周知的,不需要进一步地描述。关于评论的长度,不太长也不太短的评论是有利的。短的评论(例 如几个词)趋向于不提供信息,而长的评论(例如许多段落)趋向于 不如较短的评论那样可读。在一些实施例中,评论长度可以基于词计 数。在其它一些实施例中,评论长度可以基于字符计数或句子计数。 评论长度次分值可以基于评论的长度与预定"最优"评论长度之间的 差。在一些实施例中,还可以考虑评论中句子的长度。评论引擎可以 优选"合理"长度的句子而不是极长或极短的句子。在一些实施例中, 用于评论的句子长度次分值可以基于评论中句子的长度和预定"最优" 句子长度之间的差的平均值。关于与评论中的词相关联的值,具有高值词的评论相对于具有低 值词的评论是有利的。在一些实施例中,词值基于与词相关联的反向文件频率(IDF)值。具有高IDF值的词一般被认为是更"有价值"。词的IDF基于一组文本中文本的数目除以包括至少一次出现该词的集中的文本的数目。评论引擎106可以确定跨越评论储存库112中的评 论的IDF值,并且将值存储在一个或多个表中。在一些实施例中,为 每种类型的评论生成IDF值的表。例如,为全部产品评论生成IDF值 的表;为全部产品提供商评论生成表,等等。亦即,用于为产品评论 确定IDF值的表的文本集是评论储存库112中的所有产品评论;用于 为产品提供商评论确定IDF值的表的文本集是评论储存库112中的所 有产品提供商评论,等等。每个主题类型具有它自己的IDF值表,因 为在关于一个主题类型的评论中有价值的词可能不像关于另一个主题 类型的评论中一样有价值。对于任何识别的评论,针对评论中每个不同词的频率被确定并乘 以针对该词的IDF。针对评论的词值次分值为^ 《we及其中,WVR为针对评论R的词值次分值,fw,R为不同的词w在评 论R中出现的次数(检索词频率或"TF"),并且log IDFw为针对词 w的IDF值的对数。针对词w的IDF值取自适合于评论的主题类型的 IDF值的表。例如,如果评论R的主题为产品,则IDFw值取自针对产 品评论的IDF值表。在其它一些实施例中,词值基于在评论环境中被认为有价值的词 的预定词典。可以为不同的主题类型限定分开的词典,因为不同的词 可能对于在关于不同主题类型的评论中使用有价值。例如,可能存在 对于其中主题为产品的评论有价值的词的词典和对于其中主题为提供 商的评论有价值的词的另一个词典。在这些实施例中,词值次分值可 以基于有多少预定词典中的词包括在各个评论中的计数。评论引擎106基于每个预定因素评估每个所识别的评论,并且基 于其评估为每个因素确定次分值。使用下面的示范性公式可以将针对 因素中的每一个的次分值组合成质量分值-F其中,Q是针对评论的质量分值,F是进入质量分值的因素的数 目,qj是针对因素j的次分值,而weightj则是针对因素j的权重。在一 些实施例中,权重全都等于1,在这种情况下质量分值Q为针对因素 的分值之和。在其它一些实施例中,可以为每个因素不同地限定权重。 一般地,可以基于每个因素对质量分值的重要性以及因素对评论的质 量是正面贡献还是负面贡献来限定权重。在一些实施例中,评论的年龄可以被认为是评论的质量分值中的 因素。 一般地,较新的评论是有利的,因为它们更多地反映了关于评 论主题的最近经验,这比更远过去的经验更加重要。增加质量分值的 加分点可以应用于基于评论年龄的评论的质量分值。例如, 一天前的 评论可以得到其质量分值方面的增加(无论是相加还是相乘),而一 年前的评论则得不到加分。基于质量分值选择评论(406)。选择具有最高质量分值的评论。 评论可以在每个源的基础上或者作为整体从全集中进行选择。如果评 论在每个源的基础上被选择,则选择用于每个源的多个最高分值评论。 例如,每个源可以选择IO个最高分值评论。在一些实施例中,通过用 质量分值对评论进行排序来执行选择,并且评论取自最高分值评论, 直到预期数目的评论已被选择为止。在一些实施例中,预定内容标准也可以是用于选择评论的另外标 准。关于满足预定标准的内容,可以定义标准,以便使具有可能冒犯 用户的评论中的内容如亵渎或明显与性有关的内容的评论不利;这样 的词或短语常常很少或无助于对主题的理解并且能够使阅读评论的用 户不舒服。通过定义与冒犯的或引起反对的内容通常相关联的内容的 词典并且将评论中的内容与该词典相匹配,可以进行针对内容满足预 定标准的评论的评估。从考虑的选择之中去除具有引起反对的内容如亵渎或明显与性有关的语言的评论。可以在分值确定期间(404)或者 在评论选择时(406)进行针对内容满足预定内容标准的评论内容评估;何时进行评估是设计选择的问题。在一些实施例中,评级分值标准可以是用于评论选择的另外标准。 例如,用于选择代表性评论的过程,如上所述可以与当前过程相结合, 以便选择代表主题总体评级的高质量评论。这样一来,就可以选择与 总体评级落在其中的评级范围内的评级相关联的并且具有高质量分值 的评论。应当意识到的是,上述另外的标准仅仅是示范性的,并且上述标 准和其它标准的任何组合都可以另外考虑用于评论选择。更一般地, 评论引擎可以选择满足零或更多其它预定标准的最高分值(根据质量 分值)的评论。生成包括选择的评论的响应(408)。生成的响应是被传送到客户 端102以便呈现并展示给用户的文件。响应文件包括关于主题的评论 概要。评论概要可以包括信息如关于主题的总体评级和可选的由评论 源给出的关于主题的集体评级。评论概要还包括评论样本,所述评论 样本包括来自选择的评论的内容,如参考图2在上面描述的那样。图5是根据本发明的一些实施例的用于聚类评论并且选择来自群 集的评论的过程的流程图。识别关于特殊主题的评论(502)。通过为了与特定主题相关联的所有评论而搜索评论储存库112,可以从评论储 存库112中识别评论。识别的评论形成关于主题的评论的全集。
生成评论的词值矢量(504)。词值矢量包括关于评论中的词的检 索词频率一反向文件频率值。检索词频率一反向文件频率(也被称为
"TF-IDF"或"TFIDF")是一种用于评估词在文件中或者在这些实施 例的情况下词在评论中的重要性的技术。关于评论的词的值随着该词 在评论中出现的次数而增加,但是该次数由包括该词的评论的全集中 的评论数目进行偏移。对于识别的评论的全集中的任何评论,可以生 成词值的矢量。例如,评论R可以具有以下权重矢量
其中,力到Vn是评论全集中所有不同词关于评论T的词值。在一 些实施例中,词及其相关形式被一起计数。例如,动词的动词时态可 以作为相同动词的出现而被计数,而不是仅仅因为拼写可能不同而作 为不同的词被计数。
可以通过以下示范性公式确定关于评论R的词W的值 ,/ 《i^Og碼
其中,Vw,R是关于评论R的词w的值,fw,R是词w在评论R之内 出现的次数(检索词频率),而logIDFw则是关于词w的IDF值的对 数,如上所述。如果评论R不具有词w (fw,R = 0),则词值Vw,R为0。 词值Vw,R能够永不为负,因为fw,R》0 (出现的次数永不为负)并且log IDFw>0。
在为全集中的每个评论生成词值矢量之后,基于词值矢量将全集 中的评论组织成群集(506)。词值矢量被嵌入矢量空间中,其中每个
20词值矢量为该矢量空间中的"点"。使用聚类算法可以将"点"分组 成一个或多个群集。 一个示范性聚类算法是K均值聚类算法。K均值 聚类算法在本领域中是众所周知的。然而,为便于理解公开的实施例 起见,在下面描述K均值算法
以下伪代码说明了 K平均算法的基本步骤: 随机生成与k个群集相关联的k个质心 将每个矢量分配给k个群集中的一个 重复直到结束条件满足 重新确定群集质心 将每个矢量重新分配给群集
在K均值算法中,预定义任意数k。在一些实施例中k为2和16 之间的值,而在其它一些实施例中k为2和50之间的值。生成词值矢 量的矢量空间中的K个随机矢量。k个随机矢量是用于矢量空间的初 始质心。每个初始质心表示群集的"中心"。换言之,任意定义k个 初始群集和它们的中心。基于各个词值矢量和每个质心之间的相似性 (距离),将每个词值矢量分配给k个群集中的一个。将词值矢量分 配给与其最相似(距离最短)的质心。
在一些实施例中,词值矢量和质心之间的相似性(距离)是余弦 相似性(也被称为"余弦距离")
COS0 =
其中,X,Y为矢量X和Y的点积,l闪IXIIYII为矢量X的长度乘 以矢量Y的长度,而cos8则为余弦相似性。如果矢量X和Y恰好相 同,则余弦相似性值为1。在这些实施例中用于余弦相似性的值的范围 在0和1之间,包括边界(余弦相似性能够永不为负,因为词值能够 永不为负)。因此,余弦相似性更加接近于1的评论更加相似(较短距离),而余弦相似性更加接近于0的评论则更加不相似(较长距离)。 在其它一些实施例中,可以使用确定距离或相似性的可替选的方式。
在一些实施例中,若干预定规范评论可以用作初始质心。规范评 论是这样的预定评论集,其充当对主题的特定方面进行评论的评论的 范本。规范评论集可以取决于评论全集的主题是什么而变化。例如, 可以包括关于诸如易于使用和性能之类方面的规范评论的关于主题是 产品的规范评论集,可以不同于可以包括诸如客户服务和货运时间性 之类方面的规范评论的关于主题是产品提供商的规范评论集。
在将词值矢量分配给k个群集之后,重新确定用于k个群集的质 心。亦即,为每个群集重新确定质心。通过取词值矢量在群集中的"平 均值"(不包括初始质心;初始质心仅对于初始群集分配是相关的), 可以确定用于群集的质心。用于确定质心C的公式为
<formula>formula see original document page 22</formula>
其中,CS为群集的大小(群集中词值矢量的数目),而Vi则是 群集中词值矢量的归一化矢量(转换成单位长度的矢量)。
在确定新的质心之后,词矢量值被重新分配到群集中,这次是基 于与新质心的相似性。将词值矢量分配给与其最相似的质心。在每个 词值矢量被重新分配给群集之后,重复重新确定质心和重新分配词值 矢量的迭代。迭代重复直到满足结束条件为止。在一些实施例中,结 束条件是何时满足收敛准则。收敛准则可以是在完成迭代之后,没有 词值矢量被重新分配给不同的群集。在其它一些实施例中,结束条件 是已进行了预定次数的迭代。应当意识到的是,可以使用可替选的聚类方式,诸如分级聚类、 模糊C均值算法以及其它。
在将评论分组成群集之后,识别评论群集的大小(508)。这简单
地为每个群集中评论的数目(用词值矢量表示,不包括质心)。
从每个群集中选择评论(510)。在一些实施例中,与群集大小成 比例地从每个群集中选择评论。从评论全集中选择预定总数的评论, 以充当评论全集的样本。与群集大小成比例地从群集中选择样本中的 评论。与从较小的群集中选择的样本相比,从较大的群集中选择的样 本具有更多评论。在一些实施例中,极小的群集(例如少于预定数目
的评论或少于全集中总体评论数目的预定百分比)可以从评论选择中 排除;没有来自该群集的评论将会被选择以包括在样本中。如果群集 被排除,那么可以从其它群集中选择一个或多个评论,使得样本中评 论的数目达到预定的总数。
在一些实施例中,可以基于另外的预定标准从群集中选择评论。 例如,可以基于评论的质量从群集中选择评论,如参考图4在上面描 述的那样。与低质量的评论相比,高质量的评论一般更富有信息并更 易于阅读。这样,例如,如果要从群集中选择IO个评论,那么使用另 外的质量标准,可以选择来自该群集的IO个最高质量的评论。作为另 一个例子,可以基于与评论相关联的评级从群集中选择评论,如参考 图3在上面描述的选择过程那样。更一般地,只要群集向评论样本提 供与群集大小成比例的多个评论,就可以基于零或更多预定标准选择
来自该群集的评论。
生成包括选择的评论的响应(512)。生成的响应是被传送到客户 端102以便呈现并展示给用户的文件。响应文件包括关于主题的评论 概要。评论概要可以包括信息如关于主题的总体评级和可选的由评论 源给出的关于主题的集体评级。评论概要还包括评论样本,所述评论样本包括来自所选择的评论的内容,如参考图2在上面描述的那样。
通过聚类评论并且从群集中选择评论,选择表示评论的专题焦点 的评论样本。聚类帮助评论引擎识别聚焦在主题的特殊方面的评论。 通过用评论聚焦在其上的方面分开评论(成为群集)并且从群集中选 择评论以便包括在评论样本中,用户在被显示评论样本之后,能够更 好地理解主题的哪个方面特别值得注意,或者对于已具有关于主题方 面的经验的其它用户具有特殊的关注。
图6是根据本发明的一些实施例的用于生成来自评论内高质量内 容的摘录的过程的流程图。为了节省时间,用户可能优选只阅读部分 评论而不是评论的全部内容。评论引擎可以选择评论内的特定内容以 包括在评论样本中作为评论摘录。
识别评论(602)。将所识别的评论分成区块(604)。在一些实 施例中,区块是评论的句子。亦即,评论的每个句子是评论的区块。
可以基于句子分界符如句号来识别评论中的句子。可能有这样的情况 评论可能只有一个区块,诸如当评论只有一个句子时。为了便于说明, 下面来描述图5的过程,仿佛评论的区块是评论的句子一样。然而,
应当意识到的是,可以使用对评论进行分区的可替选的方式(诸如z 个词的区块,其中z为预定的整数)。
为评论的每个句子确定质量分值(606)。关于评论句子的质量分 值类似于关于评论的质量分值,如参考图4在上面描述的那样。句子 质量分值提供了评论的句子关于它们质量的相对排序的基础。质量分 值可以基于一个或多个因素。可以基于因素中的每一个确定次分值。 使用类似于参考图3在上面描述的权重求和方程,可以将次分值组合 成句子的质量分值。在一些实施例中,预定因素包括句子的长度、与 句子中的词相关联的值以及句子在评论之内的位置。关于评论句子的长度,不太长也不太短的句子(亦即"合理长度" 的句子)是有利的。极其短的句子可能不包括很多信息,而极其长的 句子则可能难以阅读。在一些实施例中,基于句子长度的次分值可以 基于评论中的句子从预定"最优"句子长度的偏离。句子长度可以基 于词计数或字符计数。
关于与句子中的词相关联的值,具有高值词的句子相对于具有低
值词的句子是有利的。在一些实施例中,词值基于与词相关联的反向 文件频率(IDF)值,类似于参考图4在上面描述的计分评论中使用的
词值因素。对于句子,每个不同的词在句子中的频率被确定并乘以关 于该词的IDF。针对评论的词值次分值为
ws尸
其中,WVp为针对句子P的词值次分值,4,p为词w在句子P中 出现的次数,并且log IDFw为针对词w的IDF值的对数。
在其它一些实施例中,词值基于在评论上下文中被认为有价值的 词的预定词典。可以为不同的主题类型限定分开的词典,因为不同的 词可能对于在关于不同主题类型的评论中的使用是有价值的。例如, 可能存在对于其中主题为产品的评论有价值的词的词典和对于其中主 题为提供商的评论有价值的词的另一个词典。在这些实施例中,词值 次分值可以基于有多少预定词典中的词包括在各个句子中的计数。
关于句子在评论之内的位置,在一些实施例中评论引擎可能偏好
在评论的开头出现的句子。这样,基于位置的次分值就可以基于为评
论中的句子数目进行归一化的句子在评论中的位置。例如,对于具有 10个句子的评论中的第4个句子,关于该句子的位置次分值可以为4/10
=0.2。在确定关于句子的次分值之后,使用类似于参考图4在上面描述 的公式,可以将次分值在数学上组合成关于句子的质量分值。
识别评论句子的组合(608)。每个组合包括满足预定长度标准的
评论的一个或多个连续句子。在一些实施例中,长度标准为组合的长
度等于预定最大摘录长度(其可以基于词计数或字符计数)或者超过
最大摘录长度达组合中最后句子的一部分。下面通过伪代码来说明用
于识别组合的示范性算法
For each sentence i in the review: integer j = i combination i - sentence j
while (length(combination i) < max—snippet—length) combination i = combination i + sentence (++j)
如上面的伪代码所示,组合作为评论中的一个句子开始,并且随 后的句子附加到组合中, 一直到并且包括使组合的长度等于或大于最 大摘录长度的第一个句子。这样,组合就是评论的尽可能多的连续句 子的拼接,而没有使组合的长度超过最大摘录长度,可能加上一个另 外的句子,其当被添加到组合时,使组合的长度等于或大于最大摘录长度。
在其它一些实施例中,该算法可以被改进以还考虑有多少要被附 加的句子将会在最大摘录长度之内,亦即,有多少"空间"保留在组 合内以容纳另外的句子。例如,可能更加值得的是,当组合只比最大 摘录长度短一两个词时,不将另外的句子附加到组合。
选择具有最高组合质量分值的组合(610)。在一些实施例中,关 于组合的组合质量分值是组合之内句子质量分值的简单求和。在其它 一些实施例中,组合质量分值可以是组合之内句子质量分值的加权求 和、简单平均或加权平均。
使用所选择的组合生成摘录(612)。摘录包括所选择的组合,直 到最大摘录长度。如果组合超过了最大摘录长度,则从组合的末尾截短内容,直到组合的长度等于最大摘录长度为止。在一些实施例中, 如果在截短到最大摘录长度之后,组合中的最后句子只有小部分(例 如一或两个词)保留,则组合可以被截短到比最大摘录长度短。换言 之,可能更加值得的是,如果在将组合截短到最大摘录长度之后,组 合中的最后句子只有几个词会保留,则通过去除该句子来进行截短。
生成包括摘录的响应(614)。生成的响应是被传送到客户端102 以便呈现并展示给用户的文件。响应文件包括关于主题的评论概要。 评论概要可以包括信息如关于主题的总体评级和可选的由评论源给出 的关于主题的集体评级。评论概要还包括评论样本,所述评论样本包
括来自所选择的评论的内容,如参考图2在上面描述的那样。
评论引擎106从它的评论储存库中选择评论并且生成包括来自所 选择的评论的内容的响应(诸如全部评论和/或摘录)以便传送到客户 端102。图3、 4和5图示了用于选择关于样本的评论的三个过程。图 6图示了用于生成评论的摘录的过程,该评论可以是在图3、 4和/或5 的过程中选择的评论。应当意识到的是可以将上述过程进行组合。例 如,评论引擎106可以选择对应于总体分值落在其中的评级范围并且 具有高质量分值的多个评论。作为另一个例子,评论引擎106可以聚 类关于主题的评论,并且与群集大小成比例地从每个群集中选择对应 于总体分值落在其中的评级范围并且具有高质量分值的评论。生成这 些所选择的评论的摘录,并且生成包括摘录的响应。更一般地,可以 基于一个或多个预定标准选择评论,并且这些评论的摘录可以被生成 并包括在向客户端102发送的响应中。
图7是图示根据本发明的一些实施例的评论处理系统700的框图。 系统700典型地包括一个或多个处理单元(CPU) 702、 一个或多个网 络或其它通信接口 710、存储器712以及用于互连这些部件的一个或多 个通信总线714。系统700可选地可以包括用户接口 704,该用户接口 704包括显示装置706和键盘/鼠标708。存储器712包括高速随机存取存储器如DRAM、 SRAM、 DDR RAM或其它随机存取固态存储装置, 并且可以包括非易失性存储器如一个或多个磁盘存储装置、光盘存储 装置、快闪存储装置或其它非易失性固态存储装置。存储器712可以 可选地包括远离(一个或多个)CPU702设置的一个或多个存储装置。 在一些实施例中,存储器712存储以下程序、模块和数据结构或其子 集
,操作系统716,其包括用于处理各种基本系统服务和用于执行硬
件相关任务的过程;
*网络通信模块718,其用于经由一个或多个通信网络接口 710(有 线或无线)如因特网、其它广域网、局域网、城域网等等将评论处理 系统700连接到其它计算机;
评论存储接口 720,其与评论存储系统对接;
源识别模块722,其识别评论的源;
评论识别模块724,其识别来自评论源的评论和相关评级; *总体评级模块726,其确定关于主题的总体评级,并且确定总体 评级落在哪个评级范围之下;
评论质量计分模块728,其确定关于评论的质量分值; 评论群集模块730,其将评论组织成群集;
-评论区块模块732,其将评论分成区块,确定关于区块的质量分 值,识别区块的组合,并且选择具有最高组合质量分值的组合;
评论选择模块734,其基于一个或多个预定标准选择评论;
,内容过滤器736,其评估关于内容满足预定内容标准如引起反对 的内容的评论和评论区块;以及
响应生成模块738,其生成包括评论和/或评论的摘录的响应。
系统700还包括评论存储系统740。评论存储系统740存储评论和 相关评级。评论存储系统740包括生成评论的摘录的摘录生成器742。 在一些实施例中,摘录生成器742可以位于存储器712中而不是评论 存储系统740中。上述识别的元件中的每一个可以存储在前面提到的存储装置中的 一个或多个中,并且对应于用于执行上述功能的指令集。上述识别的 模块或程序(亦即指令集)不需要作为分开的软件程序、过程或模块 来实现,从而在各种实施例中这些模块的不同子集可以组合或另外重 新布置。在一些实施例中,存储器712可以存储上述识别的模块和数 据结构的子集。进而,存储器712可以存储在上面没有描述的另外的 模块和数据结构。
尽管图7示出了 "评论处理系统",但是图7打算更多是作为各 种特征的功能描述,与作为在此描述的实施例的结构示意相比,所述 特征可以存在于一组服务器中。实际上,并且如本领域技术人员认识 到的那样,分开示出的项目能够组合,而一些项目则能够分开。例如, 在图7中分开示出的一些项目能够在单个服务器上实现,而单个项目 则能够由一个或多个服务器实现。用于实现评论处理系统的服务器的 实际数目和特征如何在它们之间进行分配将会根据实施例的不同而改 变,并且可以部分地取决于该系统在峰值使用期期间以及平均使用期 期间必须处理的数据流量。
应当意识到的是,上面的描述不在它们的应用方面被限制到纯粹 文本的亦即由字符串组成的评论。该描述能够适用于包括音频、视频 或其它形式的媒体的评论。例如,对于包括音频的评论(诸如仅有音 频的评论或者具有音频轨道的视频评论),可以使用本领域众所周知 的语音到文本转换将音频转换成文本。转换的文本可以用作用于上述 选择和摘录生成过程的"评论"。音频或视频评论的摘录会成为具有 如下语音的音频或视频的部分,所述语音具有基于评论的转换文本为 摘录选择的词。如果评论质量是用于选择音频/视频评论的标准,则语 法质量因素可以适用于媒体。例如,字母大写在评论的内容是语言而 不是文本时并不非常相关,并从而能够忽略不计。
为了说明的目的,己参考特定实施例描述了前述说明书。然而,示意性的上述讨论不打算穷举或将本发明限制到公开的精确形式。考 虑到上述教导,许多修改和改变都是可能的。实施例被选择并描述, 以便最好地说明本发明的原理及其实际应用,以从而使得本领域技术 人员能够最好地使用本发明和具有各种修改的各种实施例,如适于预 期特殊用途的那样。
权利要求
1. 一种处理评论的方法,包括 识别多个评论;基于至少预定的质量标准选择所述多个评论的子集;以及 生成包括来自所选择的子集的内容的响应。
2. 根据权利要求l所述的方法,其中,选择包括基于至少所述 预定质量标准和预定年龄标准,选择所述多个评论的子集。
3. 根据权利要求l所述的方法,其中,选择包括基于至少所述 预定质量标准和预定内容标准,选择所述多个评论的子集。
4. 根据权利要求l所述的方法,其中,选择包括基于至少所述 预定质量标准和预定评级分值标准,选择所述多个评论的子集。
5. 根据权利要求1所述的方法,其中,选择包括 基于由以下组成的组中的至少一个确定所述多个评论中的每一个的质量分值各个评论的长度、各个评论中句子的长度、与各个评论 中的一个或多个词相关联的值以及各个评论的语法质量;以及基于至少各个质量分值选择所述多个评论的子集。
6. 根据权利要求l所述的方法,其中,生成响应包括生成所选 择的子集中的多个评论的摘录。
7. 根据权利要求6所述的方法,其中,生成评论的摘录包括将所述评论区分成一个或多个区块; 基于预定标准选择所述区块的子集;以及 生成包括来自所选择的所述区块的子集的内容的摘录。
8. —种用于处理评论的系统,包括 一个或多个模块,其包括以下指令-用于识别多个评论;用于基于至少预定的质量标准选择所述多个评论的子集;以及 用于生成包括来自所选择子集的内容的响应。
9. 根据权利要求8所述的系统,其中,所述一个或多个模块包括以下指令用于基于至少所述预定质量标准和预定年龄标准,选择所述多个评论的子集。
10. 根据权利要求8所述的系统,其中,所述一个或多个模块包括以下指令用于基于至少所述预定质量标准和预定内容标准,选择所述多个评论的子集。
11. 根据权利要求8所述的系统,其中,所述一个或多个模块包括以下指令用于基于至少所述预定质量标准和预定评级分值标准, 选择所述多个评论的子集。
12. 根据权利要求8所述的系统,其中,所述一个或多个模块包括以下指令用于基于由以下组成的组中的至少一个确定关于所述多个评论中 的每一个的质量分值各个评论的长度、各个评论中句子的长度、与 各个评论中的一个或多个词相关联的值以及各个评论的语法质量;以及用于基于至少各个质量分值选择所述多个评论的子集。
13. 根据权利要求8所述的系统,其中,所述一个或多个模块包括以下指令用于生成所选择的子集中的多个评论的摘录。
14. 根据权利要求13所述的系统,其中,所述一个或多个模块包括以下指令用于将所述评论区分成一个或多个区块; 用于基于预定标准选择所述区块的子集;以及 用于生成包括来自所述区块的所选择的子集的内容的摘录。
15. —种用于与计算机系统结合使用的计算机程序产品,所述计 算机程序产品包括计算机可读存储介质和嵌入其中的计算机程序机 制,所述计算机程序机制包括指令,所述指令用于识别多个评论;基于至少预定的质量标准选择所述多个评论的子集;以及 生成包括来自所选择的子集的内容的响应。
16. 根据权利要求15所述的计算机程序产品,其中,用于选择的 所述指令包括指令用于基于由以下组成的组中的至少一个确定关于所述多个评论中的每 一个的质量分值各个评论的长度、各个评论中句子的长度、与各个 评论中的一个或多个词相关联的值以及各个评论的语法质量;以及基于至少各个质量分值选择所述多个评论的子集。
17. 根据权利要求15所述的计算机程序产品,其中,用于生成响 应的所述指令包括用于生成所选择的子集中的多个评论的摘录的指 令。
18. 根据权利要求n所述的计算机程序产品,其中,用于生成评论的摘录的所述指令包括指令用于将所述评论区分成一个或多个区块; 基于预定标准选择所述区块的子集;以及 生成包括来自所述区块的所选择的子集的内容的摘录。
19. 一种用于处理评论的系统,包括用于识别多个评论的装置;用于基于至少预定的质量标准选择所述多个评论的子集的装置;以及用于生成包括来自所选择的子集的内容的响应的装置。
全文摘要
描述了选择用于显示的评论的方法和系统。识别关于主题的评论。基于预定质量标准选择所识别评论的子集。选择还可以基于零或更多其它预定标准。生成包括来自所选择的评论的内容的响应。内容可以包括选择的评论中的至少一些的全部内容或摘录。
文档编号G06Q99/00GK101313330SQ200680043620
公开日2008年11月26日 申请日期2006年9月29日 优先权日2005年9月30日
发明者库沙尔·B·戴夫, 杰里米·A·希尔顿 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1