利用自动生成的标签对评论进行结构化的系统和方法与流程

文档序号:13098999阅读:343来源:国知局
利用自动生成的标签对评论进行结构化的系统和方法与流程



背景技术:

目前,许多在线网站允许用户对可用在网站上,或网站引用的对象,诸如应用(即“app”)、电影、书籍、酒店、饭店等写评论。评论能与该对象相关联并且依赖于做出查看或购买决定的其他用户。提供评论的用户界面(“ui”)通常包括用于用户录入评论的文本框。还存在用于用户对所评论的对象录入总得分的地方。

用户难以在智能电话或其他移动设备上写评论,因为这样的设备通常具有较小的屏幕尺寸并且缺少全尺寸键盘。因此,用户通常不愿提供评论,或者提供对其他人不太有用的简略文本。另一问题涉及针对对象发表的大量评论。例如,受欢迎的电影具有由用户提交的上百评论屏幕页。由于很少用户有时间来阅读针对一些对象的所有或甚至大多数评论,所以用户难以获得其他用户对对象的体验的准确感受。



技术实现要素:

公开的主题的实施例提供允许用户利用对用户界面的最小输入,有效地提供高质量和结构化评论的系统和方法。评论的质量和录入评论所需的减少的输入可以吸引更多用户提供评论和/或阅读评论。

根据公开主题的实施例,一种方法包括:利用具有输入设备和显示设备的计算设备提供从评论者接收针对对象的评论的用户界面;根据所述对象和所述评论者从数据库中存储的对象标签集合选择标签集,所述数据库通信地耦合到所述计算设备;由所述计算设备的显示设备在显示器上显示所选择的标签集;由所述输入设备接收移除所显示的标签中的一个或多个的输入;以及由存储设备存储所述标签集中根据针对所述对象所接收的输入而提交的剩余标签。

根据公开主题的实施例,提供一种系统,包括:计算设备,所述计算设备提供从评论者接收针对对象的评论的用户界面;通信地耦合到所述计算设备的数据库,所述数据库存储对象标签集合;耦合到所述计算设备的显示设备,所述显示设备用于显示由所述计算设备从所述数据库选择的标签集;耦合到所述计算设备的输入设备,所述输入设备接收移除在所述显示设备上显示的标签中的一个或多个的输入;以及耦合到所述计算设备的存储设备,所述存储设备存储所述标签集中根据针对所述对象所接收的输入而提交的剩余标签。

公开主题的实施例可以提供一种包括指令的非暂时性计算机可读介质,所述指令在由计算机执行时执行方法,所述方法包括:利用服务器根据待评论的对象和评论者从在数据库中存储的对象标签集合选择标签集,所述数据库通信地耦合到所述服务器;将所选择的标签集从所述服务器提供给所述评论者的计算设备;利用所述服务器从计算设备接收用于从所述所选择的标签集移除所述标签中的一个或多个的输入数据;以及由存储设备存储所述标签集中的剩余标签以便与所述评论者和所述对象相关联。

根据公开主题的实施例,提供通过自动生成的标签将评论结构化的装置以便包括利用具有输入设备和显示设备的计算设备,提供从评论者接收针对对象的评论的用户界面;根据所述对象和所述评论者,从数据库中存储的对象标签集合选择标签集,所述数据库通信地耦合到所述计算设备;由所述计算设备的显示设备在显示器上显示所选择的标签集;由所述输入设备接收移除所显示的标签中的一个或多个的输入;以及由存储设备存储所述标签集中根据针对所述对象所接收的输入而提交的剩余标签。

根据以下详细描述、附图以及权利要求的考虑,所公开主题的附加特征、优点以及实施例可以得到阐述或者是显而易见的。此外,应理解的是前文的概要和以下详细描述是说明性的,并且旨在在不限制权利要求的范围的情况下提供进一步说明。

附图说明

为提供对所公开主题的进一步理解而包括的附图被结合进在本说明书中并构成本说明书的一部分。附图还图示出所公开的主题的实施例并连同本详细描述一起用于解释所公开的主题的实施例的原理。并不尝试示出比所公开主题和可以实施所公开主题的各种实施方式的基本理解所需的更详细的结构细节。

图1示出根据公开主题的实施例的示例方法。

图2示出根据公开主题的实施例的结构化评论系统的层次图。

图3示出根据公开主题的实施例的示例显示。

图4示出根据公开主题的实施例的计算设备。

图5示出根据公开主题的实施例的网络配置。

图6示出根据公开主题的实施例的示例性网络和系统配置。

具体实施方式

公开主题的实施例能在要求评论者更少文字输入的情况下有效地收集对象的高质量用户评论。这能使得用户更易于提交更准确评论。此外,可以更准确地概述提交的评论。甚至由此使得大量评论对其他用户更有用。

在公开主题的实施例中,可以由计算机和/或机器读取结构化评论,使得从评论挖掘和/或提取有用信息。对每个对象(例如app、电影、书籍、酒店、饭店、产品等),能生成与对象有关的机器可读标签的集合。对每个评论者,基于它们与对象的可能相关性,选择该集合中的标签集并且呈现给评论者。评论者可以去除与该对象无关和/或与评论者有关该对象的意见不一致的标签。该系统将由评论者留下的标签结合该对象存储作为结构化评论。

在公开主题的实施例中,图1所示的方法100通过自动生成的标签,提供这样的结构化评论。利用具有输入设备(例如图4所示的用户输入26)和显示设备(例如图4所示的显示器22)的计算设备(例如图4所示的设备20和/或图5所示的设备10,11),在操作110中,可以提供用户界面(例如图3所示的用户界面300)来从评论者接收针对对象的评论。该对象可以是应用(即,“app”)、电影、饭店、酒店、旅游景点、产品等。

在操作120,根据对象和评论者,从在通信地耦合到计算设备的数据库中存储的对象标签集合选择标签集。在一些实施例中,如图5所示并且如下所述,数据库15和/或服务器13可以包括对象标签集合,并且可以选择将由经由网络7通信地耦合到数据库15和/或服务器13的设备10,11呈现的标签集。例如,可以选择的标签集可以包括主题标签、质量标签、价格标签和能够定义的标签。标签在含义方面不同,取决于待评论的对象。

主题标签可以描述与对象有关的主题和/或类型。例如,能用“主题:社交网络”、“主题:即时消息”等对待评论的社交网络应用(即,待评论的对象)加标签。质量标签可以描述对象的质量。例如,当待评论的对象为应用时,质量标签可以是“质量:慢”、“质量:快”、“质量:稳定”、“质量:差”等。即,质量标签可以与应用的速度、稳定性和/或整体有用性有关。在另一示例中,在待评论的对象为酒店的情况下,质量标签可以包括“质量:干净”、“质量:脏”、“质量:友好”、“质量:安静”等。即,质量标签与清洁度、工作人员的举止、酒店的环境等有关。价格标签可以描述该对象的相对于价值的价格。例如,价格标签可以包括“价格:昂贵”、“价格:免费”、“价格:$50-$100”等。在一些实施例中,可以根据标签所属对象的特性来定义标签的类型。这样的标签可以被称作能够定义的标签。

在操作130,计算设备(例如图4所示的设备20)的显示设备(例如图4所示的显示器22)能在显示器上显示所选择的标签集。例如,图3所示的用户界面(“ui”)300是与待评论的应用有关的所显示标签集的示例。在图1所示的操作140,输入设备(例如,图4所示的用户输入26)可以接收用于移除一个或多个所显示标签的输入。如图3所示,可以选择一个或多个输入315,325,335和345来移除相应的标签310,320,330和340。当标签与该对象无关时,评论者可以移除标签。在操作150,存储设备(例如图4所示的固定储存器23和/或可移动介质25,和/或图5所示的服务器13和/或数据库15)可以存储根据接收的对该对象的输入所提交的剩余标签(即,标签集中未移除的标签)。例如,如图3所示,用户可以选择提交按钮350来存储剩余的标签。

公开主题的实施例可以包括由数据库存储评论者的评论活动的日期和时间。即,例如,图3所示的ui300中的任何用户选择的日期和时间可以被存储在数据库中(例如,选择包括评论哪一对象、选择移除哪些标签、将哪些标签与所评论的应用一起存储等)。该方法可以包括由数据库存储由评论者的计算设备选择和显示的标签集。数据库可以存储由评论者移除的一个或多个标签。即,该系统可以存储与对象(诸如待评论的文档)相关联地选择哪些标签以显示给用户,以及由用户移除的标签和剩余的那些标签(即,在移除标签后选来存储的标签)。数据库可以存储用户对评论活动花费的时间量。即,本文公开的系统可以监视评论者在评论活动上花费的时间量,以及例如调整标签的选择以便减少用于评论活动的时间量。替选地,该系统可以调整用户界面和/或对象的呈现和/或待评论的标签,以便减少评论活动时间。

公开主题的方法可以包括根据评论者的存储历史和对象,利用计算设备(例如图4所示的设备20,或图5所示的服务器13)预测评论者提交标签集中的标签的概率。例如,评论者的存储历史可以包括人口统计、语言、兴趣等。评论者提交标签集中的标签的概率能够是根据对象特征,诸如主题、喜欢数、不喜欢数、质量等。

在公开主题的实施例中,根据从评论者接收的用户输入评论的对象集和与所提交的每个对象相关联的评论标签可以被存储在数据库(例如图5的数据库15)中。

在上文所述的方法100中,从对象标签集合选择标签集可以包括例如选择标签集以便最小化用于每个评论的评论者输入以及最大化从评论获得的信息。即,该系统可以使用在数据库中存储的数据(例如评论时间量等)来选择可以减少评论者对每个评论提供的时间量和/或输入数的标签。通过增加标签的选择准确度,可以减少评论输入数以及可以增加从用户获得的与对象有关的评论信息。

图2示出根据公开主题的实施例的结构化评论系统200的层次图。结构化评论系统200可以包括对象加标签模块210、评论用户界面(ui)220、评论者日志模块230、评论者模型240、标签语料库模块250、标签模块260和/或标签选择模块270,如下详细所述。

结构化评论系统200的对象加标签模块210可以利用机器可读标签的集合来批注每个对象。标签可以包括主题标签、质量标签、价格标签和能够定义的标签。例如,例如,待评论的社会交通应用能被添加以下标签:“主题:公交”、“主题:地铁”等。质量标签可以描述对象的质量。例如,当待评论的对象为应用时,质量标签可以为“质量:准确”、“质量:不可靠”等。在另一示例中,在待评论的对象为饭店的情况下,质量标签可以包括“质量:高端”、“质量:快餐”、“质量:高档”、“质量:休闲”等。价格标签可以描述该对象相对于价值的价格。例如,价格标签可以包括“价格:昂贵”、“价格:中等”、“价格:廉价”、“价格:$20-$50”、“价格:$50-$100”等。在一些实施例中,可以根据对象的特性来定义标签的类型。这样的标签可以被称为能够定义的标签。

结构化评论系统200的评论用户界面(ui)220为评论者提供用户界面。给定对象(例如应用、电影、书籍、酒店、饭店、产品等)和评论者,标签选择模块270(如下文详细所述)从对象标签集合选择标签集并且在评论者的ui内呈现标签。例如,在图4所示并且如下所述的设备20的显示器22上显示ui。要求评论者移除与对象不相关的标签,并且要求评论者将剩余标签(例如,未被选择以移除的标签)保存到和/或提交给该系统。在图3中显示示例ui300,尽管ui能具有不同的外观。

图3所示的ui300包括主题标签310、性能标签320(其是如上所述的能够定义的标签的示例)、质量标签330和用于作为应用(即,app)的对象的价格标签340。通过对移除按钮315,325,335和/或345的相应选择,可由评论者移除标签310,320,330和/或340。当评论者已经确定移除哪些标签时,如果有的话,评论者可以选择ui300的提交按钮350以便保存和/或提交剩余标签(即,未被移除的标签)。尽管ui300示出包括主题、质量、价格和性能四个标签,但ui300也可以包括任何适当数目和/或类型的标签。

如图2所示,结构化评论系统200可以包括评论者日志模块230,其可以记录所有用户评论行为(例如,ui300内的评论者行为活动等)。例如,评论者日志模块230可以监视评论活动的日期和时间、选择并且呈现给评论者的标签、由评论者移除的标签、由评论者提交的标签、评论者花费的时间等。

给定评论者的行为历史和对象属性,结构化评论系统200的评论者模型240可以预测评论者保留标签的概率。即,如由p(keep|review,doc,tag)表示的,给定评论者、对象(“doc”)以及标签,评论者模型240可以预测保留标签的概率(p)。

可以多种方式构建和/或开发评论者模型240。下述示例提供基于机器学习的解决方案来构建评论者模型240。由特征向量表示每个三元组(review,doc,tag)。例如,评论者能具有如人口统计、语言、兴趣等的特征。对象(“doc”)能具有如主题、喜欢数、不喜欢数、质量等的特征。

评论者模型240可以处理评论日志(例如,评论者日志模块230的评论日志)。每个在前用户评论能由评论者模型240处理为机器学习训练样本。如果评论者选择保留呈现给他/她的标签(例如通过图3所示的ui300),训练样本能被标记为正,否则训练样本被标记为负。

评论者模型240可以通过训练样本来训练分类模型。能被用作分类模型的机器学习模型包括svm(支持向量机)模型、逻辑回归等。

图2所示的结构化评论系统200的标签语料库模块250可以存储标签相关信息。例如,标签语料库模块250可以对每个对象存储由一个或多个评论者提交(例如,通过选择图3所示的ui300的提交按钮350)的标签集。标签语料库模块250可以存储与统计s(tag)相关联的每个标签,统计(stats)s(tag)包括该标签被呈现给评论者的次数、由评论者移除该标签的次数、评论者保留该标签的次数等。对每个评论者,可以存储由评论者评论的对象集,以及由评论者提交的与每个对象相关联的标签。

图2所示的结构化评论系统200的标签模型260可以模拟例如对象具有标签和/或熵的概率,作为包含在与对象有关的评论中的信息量的度量。通过下述公式,近似对象具有标签的概率,即,p(tag|doc,s(tag)):

即,上述概率考虑保留(在用户界面300中)呈现给评论者的标签(例如,未由评论者移除的标签)的次数和标签被呈现给评论者的次数。这能指示在评论者之间标签的相对受欢迎程度或不受欢迎程度。该信息被存储在数据库中,并且可以与特定评论者和/或特定对象相关联。

能由下述公式确定对象不具有标签的概率:

通过下述等式,从上述概率计算对象(即“doc”)中的每个对象的熵(e):

在上述等式中,t可以是作为标签集t的一部分的单个标签。

标签与对象相关联的置信度越高,熵越小。通过下述公式,测量从标签获得的信息。

h(doc)=-∑tage(tag|doc,s(tag))

图2所示的结构化评论系统200的标签选择模块270可以给定特定对象和评论者、从对象标签集合选择标签集并且可以将所选择的标签集呈现给评论者。所选择的标签可以最小化对每个评论的不同评论者输入数(或总输入)以及最大化从评论获得的信息。可以假定如果选择评论者很可能保留的更多标签(例如,具有评论者将保留的更高概率的标签),评论者需要越少输入。这能通过选择具有高保留概率p(keep|review,doc,tag)的标签来进行近似,如上结合评论者模块240所述。可以使用下述等式来近似评论者输入数:

k(t)=|t|-∑t∈tp(keep|reviewer,doc,t)

在上述等式中,t可以是被选择并且呈现给评论者的标签集,以及k是评论者输入的近似数(例如,k(t)为被选择并且呈现给用户的标签集的评论者输入的近似数)。假定如果评论者能提交越少在前评论者评价过的标签,就能获得更多信息。例如,如果大多数在前评论者已经对社交网络应用提交过标签“主题:社交网络”,那么如果将该标签再次呈现给本评论者,信息增益会很小。在由评论者保留或移除标签后,能够通过信息变化δh(doc,t)来近似信息增益:

δh(doc,t)=h(doc,t)-h(doc)

其中,h(doc,t)和h(doc)分别为评论者提交标签后和提交标签前的信息。

在本文公开的系统和方法中,有两种不同的选择标签的方法。在一些实施例中,系统和方法可以查找最大化下述的标签集t:

在上述等式中,α可以是控制k或δh的重要性的预定参数,其中,δh为信息变化(例如,从于对象有关的评论者输入获得的信息量)。可以通过下述公式,计算用于每个单个标签t的目标:

k(t)=1-p(keep|reviewer,doc,t)

δh(doc,t)=e(t|doc,s(t))-e(t|doc,s′(t))

f(t)=-k(t)+αδh(doc,t)))

在上述等式中,s(t)和s′(t)是当前评论者将标签t添加到对象前后的评论统计,以及f(t)与用户输入数和获得的信息有关。

因此,能将上述目标函数因式分解为:

即,最优标签集t为具有最大f(t)的标签。

在实施方式收集关于用户的个人信息或者利用个人信息的情况下,可以为用户提供控制程序或特征是否收集用户信息(例如,关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前位置)或控制是否和/或如何从内容服务器接收与用户更相关的内容的机会。另外,某些数据在其被存储或使用之前可以被以一种或多种方式处理,使得个人可识别信息被去除。因此,用户可以控制如何收集关于用户的信息和该信息如何被本文中公开的系统使用。

可以以多种组件和网络架构实现并使用结构化评论系统和方法的当前公开的主题的实施例。图4是适合于实现本公开主题的实施例的计算设备20的示例。例如,计算设备20可以显示图3中所示并且如上所述的ui300。例如,设备20可以是台式计算机或膝上型计算机或者移动计算设备,诸如智能电话、智能手表、平板电脑、可穿戴计算设备等。设备20可以包括总线21,总线21将计算机20的主要组件互连,诸如中央处理器24、存储器27(诸如随机存取储器(ram)、只读存储器(rom)、闪速ram等)、用户显示器22(诸如显示屏)、其可以包括一个或多个控制器和关联的用户输入设备的用户输入接口26(诸如键盘、鼠标、触摸屏等)、固定储存器23,诸如硬盘驱动、闪速储存器等、可操作用于控制和接收光盘、闪速驱动等的可移动媒体组件25以及可操作用于经由适当的网络连接与一个或多个远程设备通信的网络接口29。

总线21允许中央处理器24与如先前所述的一个或多个存储器组件之间的数据通信,所述存储器组件可以包括ram、rom以及其它存储器。通常,ram是操作系统和应用程序被加载到其的主存储器。rom或闪存组件能够除了其它代码之外包含控制基本硬件操作(诸如与外围组件的交互)的基本输入输出系统(bios)。驻留在计算机20的应用一般地被存储在计算机可读介质上并被经由计算机可读介质进行访问,该计算机可读介质诸如硬盘驱动(例如,固定储存器23)、光驱、软盘或其它存储介质。

固定储存器23可以与计算机20集成,或者可以是单独的且通过其它接口被访问。网络接口29可以经由有线或无线连接来提供到远程服务器的直接连接。网络接口29可以使用如本领域的技术人员将很容易理解的任何适当技术和协议来提供这样的连接,包括数字式蜂窝电话、wifi、蓝牙(r)、近场等。例如,网络接口29可以允许计算机经由如下面更详细地描述的一个或多个局域网、广域网或其它通信网络与其它计算机通信。

许多其它设备或组件(未示出)可以被以类似方式连接(例如,对象扫描仪、数码相机等)。相反地,并非图4中所示的所有组件都需要存在以实施本公开。可以以与所示的不同的方式将组件互连。诸如图4中所示的计算机的操作在本领域中是很容易知晓,并且在本申请不进行详细讨论。实现本公开的代码可以被存储在计算机可读存储介质中,诸如存储器27、固定储存器23、可移动介质25中的一个或多个,或者在远程存储位置上。

图5示出了根据所公开的主题的实施例的示例网络布置。诸如显示设备。诸如本地计算机、智能电话、智能手表、可穿戴计算设备、平板计算设备等一个或多个设备10、11可以经由一个或多个网络7而连接到其它设备。每个设备可以是如先前所述的计算设备。网络可以是本地网络、广域网、互联网或任何其它适当的通信网络,并且可以在包括有线和/或无线网络的任何适当平台上实现。该设备可以与一个或多个远程设备通信,所述远程设备诸如服务器13和/或数据库15。远程设备可以直接地被设备10、11访问,或者一个或多个其它设备可以提供中间访问,诸如在服务器13提供对存储在数据库15中的资源的访问的情况下。设备10、11还可以访问由诸如云计算布置和服务的远程平台17或由远程平台17提供的服务。远程平台17可以包括一个或多个服务器13和/或数据库15。

图6示出了根据所公开主题的实施例的示例布置。一个或多个设备或系统10、11,诸如远程服务或服务提供方11、用户设备10(诸如本地计算机、智能电话、平板计算设备等)可以经由一个或多个网络7连接到其它设备。网络可以是本地网络、广域网、互联网或任何其它适当的通信网络或多个网络,并且可以在包括有线和/或无线网络的任何适当平台上实现。设备10、11可以与一个或多个远程计算机系统(诸如处理单元14、数据库15以及用户界面系统13)通信。在某些情况下,设备10、11可以与用户面对的界面系统13通信,其可以提供对一个或多个其它系统(诸如数据库15、处理单元14等)的访问。例如,用户界面13可以是提供来自一个或多个其它计算机系统的数据的用户可访问web页面。用户界面13可以针对不同的客户端提供不同的界面,诸如其中向用户设备10上的web浏览器客户端提供人类可读web页面,并且向远程服务客户端11提供计算机可读api或其它接口。

用户界面13、数据库15和/或处理单元14可以是整体系统的一部分,或者可以包括经由私有网络、互联网或任何其它适当网络通信的多个计算机系统。一个或多个处理单元14可以是例如分布式系统的一部分,所述分布式系统诸如,基于云的计算系统、搜索引擎、内容递送系统等,其也可以包括数据库15和/或用户界面13或与之通信的一部分。在某些布置中,分析系统5可以提供后端处理,诸如其中所存储或获取的数据在被递送到处理单元14、数据库15和/或用户界面13之前被分析系统5预处理。例如,机器学习系统5可以向一个或多个其它系统13、14、15提供各种预测模型、数据分析等。

一般来说,所公开主题的各种实施例可以包括计算机实现过程和用于实施那些过程的装置或者以该形式体现。实施例还可以计算机程序产品的形式体现,该计算机程序产品具有包含用非暂时和/或有形介质(诸如软盘、cd-rom、硬盘驱动、usb(通用串行总线)驱动或任何其它机器可读存储介质)体现的指令的计算机程序,使得当计算机程序代码被加载到计算机中并由计算机执行时,该计算机变成用于实施所公开主题的实施例的装置。实施例还可以以计算机程序代码的形式体现,该计算机程序代码例如无论是被存储在存储介质中、被加载到计算机中和/或由计算机执行或者通过某种传输介质传送,诸如通过电线或线缆、通过光纤或者经由电磁辐射,使得当计算机程序代码被加载到计算机中并由计算机执行时,计算机变成用于实施所公开主题的实施例的装置。当在通用微处理器上实现时,计算机程序代码段将微处理器配置成以创建特定逻辑电路。

在某些配置中,存储在计算机可读存储介质上的计算机可读指令集可以由通用处理器实现,该通用处理器可以将通用处理器或包含通用处理器的设备变换成被配置成实现或执行指令的专用设备。可以使用硬件来实现实施例,所述硬件可以包括处理器,诸如通用微处理器和/或专用集成电路(asic),其以硬件和/或固件来体现根据公开主题的各实施例的技术的全部或一部分。处理器可以被耦合到存储器,诸如ram、rom、闪存、硬盘或者能够存储电子信息的任何其它设备。存储器可以存储适合于由处理器执行以执行根据公开主题的实施例的技术的指令。

出于说明的目的,已参考特定实施例来描述前文的描述。然而,以上说明性讨论并不意图是穷举的或使公开主题的实施例限于所公开的精确形式。鉴于以上教导,可以进行许多修改和变更。选择并描述实施例以便于解释所公开主题的实施例的原理及其实际应用,从而使得本领域的其他人能够利用那些实施例以及具有可能适合于设想的特定用途的各种修改的各种实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1