基于互联网的厂商口碑自动排序系统的制作方法

文档序号:6597800阅读:138来源:国知局
专利名称:基于互联网的厂商口碑自动排序系统的制作方法
技术领域
本发明涉及一种厂商口碑自动排序系统。
背景技术
买卖商品是一种经常性且重要的活动,无论对于生产者还是消费者都具有重要意 义。如何使消费者在最短的时间内,了解到其所关心商品的比较全面的信息是非常重要的。 将充斥于网络的、产品使用后大量评论信息进行结构化和量化的展示,对于促进生产者了 解使用者意见和消费者对同类产品进行比较都具有极为重要的实用价值。消费者为买到适 合心意的产品,一般会对不同生产厂家进行对比和了解;而对于生产者或商家来说,通过与 竞争者的对比也有利于发现自己的优势、劣势及用户的兴趣点和偏好,从而为生产决策提 供参考和依据。随着网络的普及和信息资讯建设取得的极大进步,越来越多的人们倾向于 通过搜索引擎获取关于产品的各种相关信息,如用户使用后意见、厂家信誉和口碑、价格信 息等,从而为其消费决策提供支持。事实上,在互联网上存在着大量关于产品的评论和意 见。这些产品使用者的反馈相对于厂家提供的产品介绍网页对于潜在购买者来说更容易接 受,因此提供了购买产品的重要参考。目前了解产品信息途径存在的问题是无法进行不同产品及其诸多特征的横向、迅 速、直观的比较。通用的搜索引擎难以进行专门的意见搜索,会返回大量无关信息等。即使 能准确收集到有关某项产品的相关评论,也会由于数量庞杂众多,使得用户耗费较多的阅 读时间。现有的搜索引擎在搜索上比较有效,但在资讯的整理特别是结构化处理上就显得 相对不足。尽管很多厂家通过 设计反馈表的方式收集用户意见,但是其表格数据项一般相 对固定且消费者参与较少。此外由生产者自行设计的产品统计对比信息可信度也难以保 证。产品比较一度是非常费时费力的工作,人们往往事先对产品特征了解甚少(如部 件、功能、外观、售后服务、价格等),此外,同类产品往往有多种不同厂家、不同型号的选择。 或者用户不知道某产品都有哪些品牌和生产厂家,不知道有哪些相关服务和相关配套产 品。这些导致消费者常常会买到不符合需求的产品,或者有着用不到的功能,造成金钱上的 浪费。总而言之,人们缺乏事先全面了解产品特征及使用情况的信息。

发明内容
本发明的目的是提供一种基于互联网的厂商口碑自动排序系统,以解决消费者无 从检索到对相关商品评价信息的缺陷。它包括一号服务器,接受网上访问者的请求,从互联网上识别和收集对相关商品的评价 fn息;二号服务器,对收集到的相关商品评价信息进行结构化和规范化处理,从而得出 对同一商品各个生产厂家的口碑排序;三号服务器,向网上访问者发布相关商品的不同生产厂家的口碑排序结果。
本发明提供一种自动挖掘用户对产品意见的技术。依托在互联网上的形形色色的 产品意见评论文档为处理对象,进行相应的结构化、量化处理,从而形成清晰的口碑对比结 果。通过将大量无结构化的、表达方式多样的评论转化成清晰有意义的规律性结构化信息, 使人们可以从宏观的角度来观察数据。这种技术能够提供导航和浏览机制,从而极大地方 便分析和决策。其结果可用于为有购买产品意向的潜在用户辅助决策,也可以供生成商家 了解市场上用户反映和意见,并对产品做进一步改进提供参考。本发明的特点在于1)设 计量化和结构化技术,实现口碑对比的快速浏览;2)信息源来自互联网,使信息量较大,且 信息的评价范围也非常广泛。


图1是本发明工作过程示意图,图2是实施方式一工作过程第四步骤中评价对象 与上下文极性关联的获取方法,图3是实施方式二中量化二维表的示意图。
具体实施方式

具体实施方式
一下面结合图1具体说明本实施方式。本实施方式包括一号服务器,接受网上访问者的请求,从互联网上识别和收集对相关商品的评价 fn息;二号服务器,对收集到的相关商品评价信息进行结构化和规范化处理,从而得出 对同一商品各个生产厂家的口碑排序;在二号服务器中构造一个具有一定规模的通用情感倾向性词典;针对需要进行挖 掘用户意见的产品,构造相应的专业极性词词典;获取和识别若干评价该产品的句子;对 评论句子进行句法分析,在此基础上识别评价的对象、评价对象与观点的对应关系;根据所 有句子的识别结果,利用该产品的部件和属性特征,获得结构化和量化的直观结果。三号服务器,向网上访问者发布相关商品的不同生产厂家的口碑(即大众对该厂 家生产的产品的某项质量指标或整体性价比的)排序结果。本发明的工作工程如下一、产品评论信息的准确识别与及时全面获取。利用产品评论领域相对确定、主题 与特征相对确定的特点,事先分领域收集大量产品评论相关的语料,从中统计出可以用于 描述产品评论的特征词集或模式对,并定期检索网络或者重点关注若干网络站点,用于主 动发现相关信息。利用网络主题爬虫技术和人工收集整理相结合,获得足够规模的多领域、 不同主题的产品评论语料库;对获得的产品评论语料库按重要性进行主题分级,并为每个 主题人工标注产品评论关键词及关键词模式对。人工标注关键词及关键词模式对的效果可 以利用通用搜索引擎或者设计单独的评价系统来进行评价。如果某一关键词及关键词模式 对被输入给通用搜索引擎或者设计单独的评价系统后,能返回所期望的信息,则认为标注 成功。而人工标注的关键词及关键词模式对的评分也可以通过其返回所期望的信息的数量 和质量而进行量化。利用产品评论语料库及人工标注的关键词及关键词模式对,对人工标 注的关键词及关键词模式对进行重要性评价,并进行冗余消除等处理,从而获得最终的产 品评论特征集。利用最终的产品评论特征集检索网络,获得潜在的产品评论信息文档流。二、产品评论信息的的快速分类和聚类整理。
产品评论信息的组织与整理非常关键。文本分类和文本聚类是两种非常重要的技术,且二者相互补充。文本分类是一种按照经验分类体系和历史训练的结果对信息组织 的手段,其类别体系是先组的、有系统的,类目和文献之间具有相对独立性。因而文本分类 适合根据预案和领域专家的经验知识对产品评论信息类型、性质及所属领域的大致迅速判 定,有助于减少搜索空间。相比于文本分类,文本聚类则是先有文本信息后有类,类的性质及整个类目体系 完全由需要处理的产品评论信息内容所决定;从类目形成过程上看,分类是从总到分,聚类 是从分到总。相比之下,聚类处理更加细化,更能发现产品评论信息的方方面面、新线索、新 主题乃至各种谣言,平常容易被忽略的信息主题在聚类后将被识别,因而更容易被发现,因 为聚类提供了一种直观、可视化的产品评论信息查看和管理方法。聚类系统需要在达到一 定聚类质量的前提下,达到较高的效率。此外考虑到产品评论信息的实际特点,聚类需要具 有处理动态文本的能力,因为信息的获取是渐进的,信息量将随着时间的递进而逐渐增加。 可见,为了能够适应产品评论对信息处理的要求,聚类系统应该具有较强的动态自适应能 力、快速处理能力且便于检索。三、产品评论信息的消费者关注焦点特征识别。所谓焦点特征,重点是指被消费者广泛关注的、能够反映和描述产品评论方方面 面的特征。将产品特征分为5种,即属性、部件、部件的特征,相关概念,相关部件等。提取 焦点特征的意义还在于可以通过语言分析的手段计算消费者对大多数特征的态度和意见。 因而可以实现特征的参数化,并进一步计算其量化的取值。因此焦点特征及相应公众意见 的量化是反映产品评论的重要指标和描述。从网络上发表的与产品评论有关的评论意见等信息来提取焦点特征可以考虑利 用启发式规则。此时可供利用的信息包括1)焦点特征一般是名词或者名词短语;2)焦 点特征一般与观点词在一定的句法范围内,处理的句法单位可以是句子、单句或者组块;3) 焦点特征一般具有一些特定的语法结构。如“adj(形容词)、n(名词)”、“n ad j " ”等模式; 上述启发式规则需要结合使用,例如特征一般为名词或者名词短语,但不能简单地将出现 在用户评论中的名词作为特征,这就需要利用焦点特征出现的语法规则信息和统计信息, 为此可以通过句法分析获得句子的句法结构。可以将名词作为候选特征并进行概率估计评 价其作为焦点特征的可能性。此外如果一个名词在平衡的综合语料库(以1998年人民日报 为例)中的频率较高,则可以降低其作为特征的概率。除了上述基于规则的方法外,可以考 虑利用与观点词的同现统计信息来发现特征。在用户评论意见语料中,观点和态度往往是 针对某一具体特征(变量),为此,可以利用句法分析手段,在一定规模的人工标注语料上, 发现特征与观点词的同现模式和规模,进而利用这些模式和带有态度倾向的观点词来发现 特征。焦点特征是根据具体的产品而提取的,是基于内容的,不同类型产品其特征参数 也不同,并且随着时间推移及新技术、产品改进等变化在不同阶段其特征参数集也将变化。 因此特征提取机制具有自适应、动态性、基于内容等特点。此外,特征评价涉及到句子级别 的抽取评价问题和总体特征抽取的评价问题。尽管单句的特征抽取识别精度对于特征集的 获取是重要的基础工作,但整体特征集的获取事实上可以在一定程度内容忍单句特征抽取 识别的误差。
四、产品评论信息的关注特征及观点对的自动提取。采用极性词驱动的办法来处理(1)利用极性词词典,首先获取句子中的极性词; (2)判断极性词的词性,极性词词性大致有如下几种情况形容词a (例如“*****真/d不 错/a”)、动词ν (例如,“*****比较/d人性化/V,)、名词η (例如,“*****很/d有/ν特色 /η”)等;(3)如果极性词直接作为特征的修饰语,例如“及时有效的应对措施”,则可以直接 提取特征_观点对;(4)如果极性词词性为“a (形容词)”,则需要往前查找,查找其描述的 主语特征,例如“照相功能显得比较人性化”中的“照相功能”和“人性化”可以据此确定为 特征_观点对;(5)如果极性词为“ν (动词)”,可能有两种情况一种是带宾语的模式,可以 将动词直接赋给宾语中的核心名词;另外一种情况是没有宾语的情况,此时可以直接将谓 语上的动词极性传递给主语;(6)如果极性词为“η (名词)”,则直接提取特征_观点对。特征-观点对的提取离不开倾向词典的支持。目前可以借鉴和利用的相关中文资 源包括国内的知网第一版等。但有些词无法严格给出其极性,因为其态度方向是动态的,即 依赖于上下文环境和特征,在不同的情景模式下,其极性方向往往不同。例如,“大”、“小”、 “高”、“低”等词。这些词虽然规模有限,但其出现频率特别高,几乎可以用于修饰所有特征。 为了识别其在不同情境模式下,与具体特征搭配时的极性方向,采用如下方法(1)人工找 到这些动态极性词;(2)在语料规模足够且确定、与具体特征相对应的特征_观点对数量规 模较大的前提下,该特征的口碑应该是稳定的,可以识别出其总体评论倾向,设为Ψ。如果 该特征公众争议较大,则重新选取语料。(3)找到与该特征描述最多的动态极性词;(4)将 Ψ的方向直接赋给修饰该特征的动态极性词。五、产品评论信息的量化。采用等时间间隔对语料进行采样,根据产品相关子事件的发生时间定义不等间隔 的时间节点,从而评估子事件(如产品改进和更新换代)的发生对后续序列的影响。令对 于某个特征维Fy在采样时间节点Tx与前一个时间节点之间的时间段内的态度信息量化 值为Attitude (Tx,Fy),此时假设有η个特征和观点对被识别,其中有η+个正向,η_个反向 (Π++ΙΓ彡η),则可以计算其量化取值,例如通过公式Attitude (Tx,Fy) = (n+-rO /n来计算, 可以进一步在实践中修正,例如要求评论的η必须大于某个阈值。因为对于某个特征,如果 量化值接近零,则表示无人评价,也有可能评价的人较多,但争议较大。此外,在相同量化取 值(例如Attitude (Tx,Fy) = ξ ‘)的情况下,则可能是只有ξ ‘个相同倾向的评论,也有 可能是很多评论但二者的差值为ξ ‘。此时可以设定一个置信度因子Ψ (0 < Ψ < 1),其 具体取值通过对评价的次数进行分段处理而得到,评价次数越多,量化取值的置信度也越 大。则此时的公式将修正为Attitude (Tx,Fy) = Ψ(η+-η_)/η。使得置信度较大的特征其量 化取值得以强化。量化的作用在于1)通过大量的统计,可以将引起广泛关注的特征突出,对特征 进行分类管理或者进行特征重要性排序;2)规避了由于语言处理技术精度不高、个别语句 不符合语法规范及可能的误差带来的问题。量化建立在前面所述的特征和观点对的识别 基础上,量化后的数据可以在不同的特征维及时间节点上形成比较精确化和直观的对比数 据。
具体实施方式
二 本实施方式与实施方式一的不同点是一号服务器先产生用 于从互联网检索产品评论信息的查询表达式后获取到足够规模的面向特定产品的评论语料;二号服务器对特定产品的评论语料进行评价对象获取、特征-观点对识别等处 理,特别是对于动态极性词与不同特征关联时的极性取值问题,采取了一种有效的处理策 略;在此基础上,进行结构化和量化计算处理,从而获得对该类产品的不同厂商及型号的量 化二维表,并据此进行排序比较操作,从而供消费者和生产者参考。量化二维表为二维表,其中一维为产品的不同厂商以及型号,另外一维是该种产 品的所有特征。例如,对于手机产品而言,特征包括“电池”、“手感”、“照相功能”等。二维 表中的数据为用户对同一特征,不同型号产品的口碑量化数值。
权利要求
基于互联网的厂商口碑自动排序系统,其特征在于它包括一号服务器,接受网上访问者的请求,从互联网上识别和收集对相关商品的评价信息;二号服务器,对收集到的相关商品评价信息进行结构化和规范化处理,从而得出对同一商品各个生产厂家的口碑排序;三号服务器,向网上访问者发布相关商品的不同生产厂家的口碑排序结果。
2.根据权利要求1所述的基于互联网的厂商口碑自动排序系统,其特征在于在二号 服务器中构造一个具有一定规模的通用情感倾向性词典;针对需要进行挖掘用户意见的产 品,构造相应的专业极性词词典;获取和识别若干评价该产品的句子;对评论句子进行句 法分析,在此基础上识别评价的对象、评价对象与观点的对应关系;根据所有句子的识别结 果,利用该产品的部件和属性特征,获得结构化和量化的直观结果。
3.根据权利要求1所述的基于互联网的厂商口碑自动排序系统,其特征在于一号服务 器先产生用于从互联网检索产品评论信息的查询表达式后获取到足够规模的面向特定产 品的评论语料;二号服务器对特定产品的评论语料进行评价对象获取、特征_观点对识别 等处理;在此基础上进行结构化和量化计算处理,从而获得对该类产品的不同厂商及型号 的量化二维表,并据此进行排序比较操作。
全文摘要
基于互联网的厂商口碑自动排序系统,本发明涉及一种厂商口碑自动排序系统。它解决了消费者无从检索到对相关商品评价信息的缺陷。本发明用于厂商口碑的排序工作。它包括一号服务器,接受网上访问者的请求,从互联网上识别和收集对相关商品的评价信息;二号服务器,对收集到的相关商品评价信息进行结构化和规范化处理,从而得出对同一商品各个生产厂家的口碑排序;三号服务器,向网上访问者发布相关商品的不同生产厂家的口碑排序结果。
文档编号G06Q30/00GK101833560SQ20101010380
公开日2010年9月15日 申请日期2010年2月2日 优先权日2010年2月2日
发明者刘秉权, 刘远超, 刘铭, 单丽莉, 孙承杰, 林磊, 王晓龙 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1