用于信誉生成的方法、装置、计算机程序产品和系统与流程

文档序号:11142263阅读:457来源:国知局
用于信誉生成的方法、装置、计算机程序产品和系统与制造工艺

本公开的实施例一般涉及信息技术,并且更具体地涉及基于计算机的数据挖掘和融合。



背景技术:

网络的快速发展已经显著地改变了人们表达他们的观点的方式。现今,人们能够通过许多联网应用(诸如网站或平台等)自由地发布他们对任何实体(例如,产品、旅店、服务等)的见解、反馈、评论和态度,以表达他们的个人观点。他们也能够在在线和移动社交网络中自由地分享他们的态度和评论。随着在自然语言中,观点表达了人们的主观态度、评价和推测;由联网用户所贡献的这种类型的内容已经被公认为是有价值的信息。它可以被利用以分析对特定对象(例如,话题或产品)的公众观点。

对于做出明智决策而言,提取实体的信誉信息是重要的。然而,没有现有方法能够以综合的方式通过对以自然语言表达的观点、以及观点投票、观点引用和用户反馈评分进行挖掘和融合,来生成信誉。此外,缺乏信誉的综合可视化以高效地帮助用户进行决策。因此,期望的是提供用于信誉生成的改进的技术解决方案。



技术实现要素:

提供发明内容以便以简要的方式介绍构思的选择,将在以下详细的描述中进一步描述该构思的选择。发明内容不旨在确定所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。

根据本公开的一个方面,提供了一种方法,该方法用于从与实体相关联的多个观点来生成该实体的信誉,其中以自然语言来表达所述实体和所述多个观点。所述方法包括:基于关于所述实体的每个观点的相关性,过滤所述多个观点;将过滤的观点融合到至少一个主要观点集中;以及基于所述至少一个主要观点集,生成信誉值。

根据本公开的另一个方面,提供了一种计算机程序产品,其被包含在由计算机可读的分发介质上,并且包括程序指令,当所述程序指令被加载到计算机中时,所述程序指令执行上述方法。

根据本公开的另一个方面,提供了一种非短暂性的计算机可读介质,在其上编码有语句和指令以使得处理器执行上述方法。

根据本公开的另一个方面,提供了一种用于从与实体相关联的多个观点来生成该实体的信誉的装置,其中以自然语言来表达所述实体和所述多个观点。所述装置包括:过滤器,其被配置为基于关于所述实体的每个观点的相关性,过滤所述多个观点;融合器,其被配置为将过滤的观点融合到至少一个主要观点集中;以及信誉生成器,其被配置为基于所述至少一个主要观点集,生成信誉值。

根据本公开的另一个方面,提供了一种系统,该系统包括上述装置和观点数据,所述观点数据被配置为存储关于与实体相关联的多个观点的信息。

从结合附图一起阅读的本公开的说明性实施例的以下详细描述,本公开的这些和其它目标、特征和优点将变得明显。

附图说明

图1是根据实施例的说明系统的简化框图;

图2是根据另一个实施例的说明系统的简化框图;

图3是根据又一个实施例的说明系统的简化框图;

图4是根据又一个实施例的说明系统的简化框图;

图5是根据又一个实施例的说明系统的简化框图;

图6是根据实施例的描绘信誉生成的过程的流程图;

图7是根据实施例的描绘信誉生成和可视化的过程的流程图;

图8是根据实施例的描绘推荐的过程的流程图;

图9示出了根据实施例的信誉可视化的示例。

具体实施方式

出于解释的目的,在以下描述中阐述细节以便提供所公开的实施例的彻底理解。然而,对于本领域的技术人员而言将明显的是,可以在没有这些具体细节或使用等同的布置来实现实施例。

如本文中描述的,本公开的一个方面包括:提供用于从与实体相关联的多个观点生成该实体的信誉的技术解决方案。图1示出了能够实现本公开的一些实施例的系统100。

如图1所示出的,系统100包括:多个用户设备1011-101n,它们每个操作地连接到应用服务器102。用户设备1011-101n可以是任何种类的用户设备或计算设备,其包括但不限于,智能电话、平板计算机、便携式计算机、服务器、瘦客户端、机顶盒和PC,它们运行任何种类的操作系统,操作系统包括但不限于,Windows、Linux、UNIX、Android、iOS和它们的变型。例如,用户设备1011-101n可以是Windows电话,其具有安装中其中的应用,使用该应用,用户能够访问由应用服务器102提供的服务。服务可以是任何种类的服务,其包括但不限于,新闻服务(诸如,Nokia Xpress Now,NBC News)、社交网络服务(LinkedIn、Facebook、Twitter、YouTube),消息传送服务(诸如,WeChat,Yahoo!Mail)、以及在线购物服务(诸如,Amazon、Alibaba、TaoBao等)。用户也可以使用安装在用户设备1011-101n中的网络浏览器(诸如Internet Explorer,Chrome和Firefox)或其他合适的应用来访问服务。在这种情况下,应用服务器102将是网络服务器。

用户可以发布关于实体的以自然语言表达的他的观点。此处,词语“观点”一般指由用户做出的任何长度的表达,其包括但不限于,评论、评语、批评、偏好、反馈、陈述、声明和主张。此处,词语“实体”一般指用户能够获得的项目,其包括但不限于,产品、旅店、饭店、服务、音乐或艺术作品、文学作品(诸如新闻、文章、故事、书籍和报告)。此外,用户能够对实体评分,例如,从“0”到“5”,其中“0”用于最不喜欢,“5”用于最喜欢。而且,第二用户能够对第一用户的观点进行投票或引用。例如,第二用户可以赞成或反对(例如,喜欢或不喜欢)第一用户的观点,并且也可以对该实体表达他自己的观点。例如,应用服务器102能够在观点数据103中存储和检索与实体相关联的观点,并且向正在查看该实体的用户提供关于实体的观点。

观点数据103具有关于可以提供给用户的实体的信息和与每个实体相关联的观点,其可以由应用服务器102和系统100的其它组件使用。实体和观点被表达在自然语言中,诸如英语或汉语。例如,当实体是文学作品时,它的表达可以是该作品本身;当实体是产品或服务时,它的表达可以是该实体的描述。观点数据103可以被存储在中心或分布式数据库中,诸如RDBMS、SQL、NoSQL等,或存储为在任何存储介质(诸如HDD、磁盘、CD、DVD、蓝光盘、EEPROM、SSD等)上的一个或多个文件。可以从应用服务器102或从另一个连接的元件(诸如另一个应用服务器、网站、平台、存储设备等)获取观点数据103,并且它们可以实时地或在一段时间段上被自动地或手工地更新。注意的是,在本公开中描述的实施例不局限于特定种类的服务、服务的特定实现方式、特定种类的实体、或特定的自然语言。

系统100包括:过滤器104,其被配置为:基于关于实体的每个观点的相关性,过滤多个观点,其中该实体与每个观点相关联。如上所述,用户可以发布以自然语言表达的他们的观点,并且用户可以自由地对其它观点进行投票或引用。一些不负责的或甚至恶意的用户可以在实体下输入广告信息、垃圾信息或不相关的语句,或者恶意地夸大或打击实体。因此,过滤器104旨在过滤掉与它们相关联的实体不相关或相对于他们相关联的实体具有较小的相关性或关联性的观点。

根据一个实施例,过滤器104能够使用观点相关性以测量观点与它的相关联的实体的关联性。通过示例,观点相关性可以被表示为正规化数值,诸如在[0,1]之间,其指示可以基于它们的相似性和关联性从实体生成观点的概率。因此,相关性值可以区分关联性的程度,而不是在一些现有技术中仅将观点分类为垃圾信息或非垃圾信息。

在这个实施例中,过滤器104基于在观点和实体之间的相似性,以及在与该实体相关联的多个观点之间的关联性,计算每个观点的相关性。考虑以下因素中的至少一个因素,使用向量空间模型(VSM)来计算相似性,该因素包括在表达中的词语的重要性和在词语之间的语义相似性。在本领域中,VSM是众所周知的,其作为代数模型用于将文本文档(以及一般地,任何对象)表示为标识符(诸如索引词语)的向量。在这个实施例中,观点或实体被表达在自然语言中,其可以由VSM来表示。例如,实体或观点的表达D可以被视为在多维向量空间中的点,其被表示为(tl,w1;t2,w2;...;tm,wm)。这里,ti表示在D中出现的词语i,wi表示在D中出现的词语ti的次数,其用于评估在D中的词语ti的重要性。

例如,可以如下使用VSM来计算在观点r和它相关联的实体A之间的相似性:

其中函数c(w,r)表示在r中出现的词语w的次数,c(w,A)表示在A中出现的词语W的次数。c(w,r)和c(w,A)分别是在观点r和实体A的向量表示中的词语w的权重。

与传统的VSM不同,在这个实施例中,过滤器104也考虑了在表达中的词语的重要性(例如,权重)和在词语之间的语义相似性以计算相似性。例如,可以基于在实体中词语的重要性来调节在实体A中的词语w的权重。在A中广泛分布的和/或在标题中或在段落的第一/最后句子中出现的词语可能是表达中的关键词语。因此在这个实施例中,过滤器104能够使用以下公式2来计算在A中的词语w的权重:

Weight(w,A)=c(w,A)*M*Pos(w)+1 (2)

其中,Weight(w,A)表示在A中的词语w的权重,c(w,A)表示在A中出现的词语w的次数,M表示包含词语w的段落的数量。取决于w的位置来设置Pos(w)的值。在这个实施例中,过滤器104通过将“1”添加在公式(2)的末尾以避免零的可能性,使用数据平滑方法。

根据这个实施例,过滤器104也考虑在词语之间的语义相似性。在自然语言中,许多语义上相似的概念可以使用不同的词组或短语来表达。有可能的是,不同的词语可以用在实体及其相关联的观点的表达中。因此,使用基于词语的VSM的直接比较可能是有危害的。过滤器104可以使用任何现有的或将来的语义相似性技术以发现语义上相似的词语。例如,Y.Neuman等人描述了语义相似性测量的细节,文章标题为“Fusing distributional and experiential information for measuring semantic relatedness”(Information Fusion,14(3)(2012),281-287),通过引用将该文献整体并入本文。另一个示例是HowNet(www.keenage.com),其是针对自然语言(例如,汉语和英语)的权威本体论。在HowNet中,每个词语链接到若干概念,并且每个概念由逗号分隔的若干原始(primitive)表达来表示。由Y.Guan等人公开了量化语义相似性的细节,文章标题为“Quantifying semantic similarity of Chinese words from HowNet”(Proceedings of the International Conference on Machine Learning and Cybernetics(2002)234-239),通过引用将该文献整体并入本文。

在这个实施例中,在两个词语之间的相似性被定义为它们对应的概念的最大相似性,以及可以基于它们的原始表达的相似性来计算两个概念的相似性。因此,可以使用以下公式:

Semantic(w1,w2)=max Semantic(c1i,c2j) (3)

其中Semantic(w1,w2)是在词语w1和w2的语义相似性测量;c1i是w1的概念,以及c2i是w2的概念。

从以上,可以如下获得最终的公式以计算在观点r和它相关联的实体A之间的相似性:

如以上示出的,这个实施例使用了改进的VSM,其考虑了两个新的因素:在A中的词语的重要性和在词语之间的语义相似性。以这种方式,这个实施例能够提供比传统的VSM更准确的相似性计算。

此外,在这个实施例中,过滤器104不仅基于在观点和实体之间的相似性,而且基于在观点之间的关联性,来计算每个观点的相关性。作为示例,在观点r类似于具有针对实体的高关联度的另一个观点,则观点r应当也与该实体有关,即使它没有与该实体的高度相似度。

根据这个实施例,在两个观点之间的关联性可以被表示为它们的余弦相似性。基于观点之间的余弦相似性,构建观点的无向图。在该图中,每个节点表示观点;它的值表示与实体的观点相关性;在两个节点之间的边的权重表示两个对应的观点的余弦相似性。如果在两个观点之间的相似性不是零,则在该图中,对应的节点作为邻居被彼此连接。根据这个图,融合器105能够基于合适的算法(诸如随机游走算法),计算由观点之间的关联性所贡献的观点ri的相关性Per(ri’,A),例如,使用以下加权方案:

其中adj[ri]表示ri的邻居的观点。w(rj,ri)是rj和ri之间的余弦相似性。注意的是,尽管在这个实施例中,w(rj,ri)指rj和ri之间的余弦相似性,但是公式4和其它算法也能够用于计算rj和ri之间的相似性。在某些情况下,公式4可以获得更好的结果,因为如上所述,它考虑了词语的重要性和词语的语义相似性。

在一个实施例中,过滤器104能够整合两种测量,即在观点和它相关联的实体之间的相似性,和观点之间的关联性。作为示例,过滤器104可以使用如下的整合公式:

其中ri是关于实体A的观点,R是关于A的所有观点的集合,Sim(ri,A)表示基于公式(4)的在ri和A之间的正规化的相似性。Pertinence(ri,A)表示ri与A的关联度。参数d表示衰减系数,其控制在该公式中在两个项目之间的折中。注意的是,在不同的情况下,d可以被设置为不同的值。根据实施例,d被设置为d=0.7。adj[ri]和w(rj,ri)具有如公式(5)中的相同含义。

在下面的算法1中描述了根据实施例的计算最终相关性的详细过程。这里,输出被定义为向量pk,其表示在kth次迭代后所有观点的平稳的相关值。阈值ε(其是预定值)用于控制迭代的终止。||pk-pk-1||表示在pk和pk-1之间的差。如果||pk-pk-1||小于阈值ε,则迭代将自动终止。

在计算了每个观点的相关性之后,过滤器104可以过滤掉其相关性小于第一阈值的观点。在不同的上下文中可以区别地定义第一阈值。例如,如果与目标实体相关联的观点的数量非常大,则第一阈值可以被定义为较大以尽可能地排除许多不太相关联的观点。作为对照,如果仅有小数量的观点与目标实体相关联,则第一阈值可以被定义为相对小以包含尽可能多的观点。在另一个实施例中,可以通过基于训练或历史数据的机器学习,来确定第一阈值。此外,可以在一段时间后,或当满足一个或多个预定条件时,修改或更新第一阈值。另外,第一阈值被配置以便在计算效率和观点过滤的准确性之间进行平衡。

如在图1中示出的,系统100还包括:融合器105,其被配置为将过滤的观点融合到至少一个主要观点集中。主要观点集被定义为相似观点的集合。在确定观点之间的相似性中,融合器105可以使用任何现有的技术(诸如公式(1))或改进的技术(诸如公式(4))。

在一个实施例中,融合器105还被配置为:基于两个观点之间的关系,将两个观点之间的相似性设置为某一值。如上所述,第二用户可以赞成或反对(例如喜欢或不喜欢)第一用户的现有观点,或在新的观点中引用旧的观点。

在这个实施例中,在肯定投票观点和它投票的观点之间的相似性被设置为“1”;而在否定投票观点和它投票的观点之间的相似性被设置为“0”。针对引用观点,在肯定引用观点和它引用的观点之间的相似性被设置为c(0.5<c<=1),而在否定引用观点和它引用的观点之间的相似性被设置为1-c。

在获得观点之间的相似性之后,如果观点之间的相似性大于第二阈值,则融合器105随后可以将那些观点融合到主要观点集中。

根据实施例,融合器105可以使用以下观点融合算法:

如上示出的,除了融合之外,算法2还返回以下输出:在每个主要观点集中的相似性的和Sk,在每个主要观点集中的相似观点的数量Nk,在每个主要观点集中的关于实体A的评分的和Vk。假设每个观点具有关于相关联的实体的评分。然而,针对每个观点,可能未必是这样。

根据一个实施例,系统100还可以包括:第一评分器(未示出),其被配置为生成观点的评分,其中该观点没有提供关于相关联的实体的评分。例如,在相同主要观点集中的其他观点的平均评分可以用于未评分的观点。当在主要观点集中的所有观点未能提供关于相关联的实体的任何评分时,第一评分器可以通过使用任何现有的或将来的评分生成技术,生成针对每个观点的评分。例如,由C.W.Leung等人已经公开了评分生成的细节,其文章名称为“A probabilistic rating inference framework for mining user preferences from reviews”(World Wide Web 14(2011)187-215),通过引用将该文章整体并入本文。

如在图1中示出的,系统100还包括:信誉生成器106,其被配置为基于与实体相关联的至少一个主要观点集来生成针对该实体的信誉值。在一个实施例中,信誉生成器106可以如下来生成信誉值:

这里,瑞利(Rayleigh)累积分布函数应用于建模整数N的影响,其中σ>0是参数,其相反地控制数字N如何快速地影响θ(N)的增加。如在公式(7)中示出的,瑞利累积分布函数用于建模主要观点的流行度,其由它的观点集平均相似性Sk/Nk和平均评分值Vk/Nk来调整。注意的是,公式(7)仅是示例性公式,本领域的技术人员将能够通过使用融合器105的至少一些或所有结果来设想出其它合适的公式。

在一个实施例中,信誉生成器106能够在观点数据103中存储针对实体的信誉值和有关信息(诸如,融合器105的融合结果和输出)。例如,融合结果可以包括:在每个主要观点集中的相似性的和,在每个主要观点集中相似观点的数量,在每个主要观点集中关于实体的评分的和,所有主要观点集的相似性的分布,所有主要观点集的观点的分布,所有主要观点集的评分的分布,等。以这种方式,如果诸如用户设备1011的用户设备或应用服务器102请求实体的信誉值和有关信息,则系统可以从那里检索它们。因此,能够节省时间和计算资源。同时,对于服务器有可能的是,提供对应的服务以提供所请求的聚合信息,从而担当观点挖掘的(云)服务提供商。

图2是根据另一个示例的说明系统200的简化框图。系统200包括多个用户设备1011-101n、应用服务器102、观点数据103、过滤器104、融合器105和信誉生成器106。在图1和图2中,使用类似的标记表示类似的组件。出于简洁,在此省略了类似组件的描述。

如在图2中示出的,系统200还包括:第一推荐器108,其被配置为基于实体的信誉值来推荐实体。根据实施例,在观点数据103中,存在多个实体和它们相关联的观点,信誉生成器106如上所述生成针对每个实体的信誉值。第一推荐器108然后可以根据它们的信誉值对实体进行排名,并且推荐具有最高信誉值的实体,例如,前10个实体。

如在图2中示出的,系统200还包括:可视化器107,其被配置为向用户提供信誉可视化。根据实施例,可视化器107能够向用户呈现充分的信息以便帮助他的决策。例如,它能够示出前面的主要观点和它们的流行度,主要观点的平均相似性,主要观点的平均评分,以及正规化的信誉值。

图9示出了根据实施例的信誉可视化的示例。在这个示例中,针对每个实体,具有最高流行度的前三个主要观点被示出为矩形条。每个条的长度(宽度)指示流行度(持有类似观点的人的百分比),条的颜色或样式指示主要观点集的平均评分。不同的颜色或样式可以用于指示观点类型或类别,例如,非常好、好、中立、差、非常差等。条的高度示出主要观点集的观点相似性。整个尺度是1。条被连接。在条的末尾处,示出了用于信誉生成的过滤的观点的总数量和正规化的信誉值。可替代地,信誉值可以被显示在其他形式中,诸如星的数量。注意的是,图9仅是说明性示例,本领域的技术人员将能够设想出其它方式以呈现信誉和有关信息。在这个实施例中,信誉可视化旨在提供关于从过滤的观点数据所挖掘的主要观点的充分的视图。

图3是根据另一个实施例的说明系统300的简化框图。系统300包括多个用户设备1011-101n、应用服务器102、观点数据103和过滤器104。在图1到图3中,使用类似的标记表示类似的组件。出于简洁,在此省略了类似组件的描述。

如在图3中示出的,系统300还包括:第二推荐器301,其被配置为:基于其它用户的评分和用户和其它用户的现有观点,计算关于候选实体的该用户的估计评分,其中该用户还没有对该实体进行评论,并且基于估计的评分来推荐该实体。应当理解的是,类似的用户具有类似的偏好。因此,可能的是,预测用户关于候选实体的评分,即使该用户还没有提供关于候选实体的他的观点或评分,或即使该用户还没有看到该实体。这可以通过以下来实现:检查具有相似品味或偏好的其他用户的活动。

在一个实施例中,第二推荐器301可以如下计算关于候选实体的用户的估计评分:

这里,假设的是,用户u0对多个实体AA={A1,……,Am}持有观点{r0,1,r0,2,r0,3,……,r0,m};多个其他用户u1,…,un还提供关于不仅在AA中的实体,而且没有由用户u0评论的其他实体Ap(p∈P)的观点。ri,j表示由ui提供的关于Aj的观点,Vi,p表示关于Ap的ui的评分。Sim(r0,j,ri,j)表示关于相同的实体Aj在用户u0的观点和类似用户ui的观点之间的相似性。如上所述,可以通过使用现有的技术(诸如公式(1))或改进的技术(诸如公式(4))来计算相似性。t0是阈值,其可以是预定义的值或根据上下文来确定,以及用于排除与用户u0不是非常相似的一些用户。V0,p表示关于Ap的u0的估计评分。

在计算估计的评分之后,第二推荐器301基于估计评分来推荐一个或多个实体。例如,如果在Ap中存在多个实体,则第二推荐器301能够根据它们的估计评分对实体进行排名,并且推荐具有最高估计评分的实体,例如前10个实体。

类似于以上描述的实施例,在计算估计评分之前,过滤器103可以对观点数据进行过滤以排除不相关的观点或垃圾信息。以这种方式,能够改进用于推荐的估计的准确性。

图4是根据另一个实施例的说明系统400的简化框图。系统400包括多个用户设备1011-101n、应用服务器102、观点数据103和过滤器104。在图1到图4中,使用类似的标记表示类似的组件。出于简洁,在此省略了类似组件的描述。

如在图4中示出的,系统400还包括:观点估计器401,其被配置为基于用户和其它用户现有的观点,生成关于候选实体的该用户的估计的观点,其中该用户还没有对该候选实体评论。如上所解释的,类似的用户具有类似的偏好。可能的是,预测关于候选实体的用户的观点,即使该用户还没有评论候选实体,或甚至该用户还没有看到该实体。这可以通过检查具有类似的品味或偏好的其他用户的活动来实现。

在一个实施例中,观点估计器401能够如下生成关于候选实体的用户的估计观点。:

这里,假设用户u0持有关于多个实体AA={A1,……,Am}的观点{r0,1,r0,2,r0,3,……,r0,m},多个其他用户u1,…,un也提供关于不仅在AA中的实体而且没有被用户u0评论的其他实体Ap(p∈P)的观点。ri,j表示由ui提供的关于Aj的观点,Sim(r0,j,ri,j)表示关于相同实体Aj在用户u0的观点和用户ui的观点之间的相似性。如上所述,可以通过使用现有的技术(诸如公式(1))或改进的技术(诸如公式(4))来计算相似性。t0是阈值,其可以是预定义的值或根据上下文来确定,以及用于排除与用户u0不是非常相似的一些用户。r0,p表示关于Ap的u0的估计观点。

类似于上述实施例。在计算估计观点之前,过滤器103可以对观点数据进行过滤以排除不相关的观点或垃圾信息。以这种方式,能够改进估计的准确性。

图5是根据另一个实施例的说明系统500的简化框图。系统500包括多个用户设备1011-101n、应用服务器102、观点数据103和过滤器104。在图1到图5中,使用类似的标记表示类似的组件。出于简洁,在此省略了类似组件的描述。

如在图5中示出的,系统500还包括:第三推荐器501,其被配置为基于关于实体的与用户类似的其他用户的感情来推荐该实体。如以上解释的,类似的用户具有类似的偏好。可能的是,预测关于候选实体的用户的偏好,即使该用户还没有评论候选实体,或甚至该用户还没有看到该实体。这可以通过检查具有类似的品味或偏好的其他用户的活动来实现。

在这个实施例中,假设用户u0持有关于多个实体AA={A1,……,Am}的观点{r0,1,r0,2,r0,3,……,r0,m},多个其他用户u1,…,un也提供关于不仅在AA中的实体而且没有被用户u0评论的其他实体Ap(p∈P)的观点。第三推荐器501可以如下计算在用户u0和其他用户u1,…,un之间的相似性:

这里,r0,j表示由u0提供的关于Aj的观点,ri,j表示由另一个用户ui提供的关于Aj的观点(i=1…n)。Sim(r0,j,ri,j)表示关于相同实体Aj在两个观点(即用户u0的观点和用户ui的观点)之间的相似性。如上所述,可以通过使用现有的技术(诸如公式(1))或改进的技术(诸如公式(4))来计算相似性。针对用户u1,…,un中的每个用户,第三推荐器501将用户ui和用户u0之间的所有观点相似性进行求和。该和用作用户u0和用户ui之间的相似性的测量。第三推荐器501然后根据关于用户u0的它们的相似性对用户u1,…,un进行排名。从而,第三推荐器501可以找出最相似的用户或多个用户。最后,第三推荐器501基于最相似的用户(多个)的感情来推荐用户u0还没评论的一个或多个实体。例如,第三推荐器501向用户u0推荐最相似用户(多个)“喜欢”或“不喜欢”的实体。

将了解的是,上述实施例和它们的组件可以以各种方式被组合。例如,第一推荐器208、第二推荐器301、观点估计器401、第三推荐器501或它们的任何组合可以被并入到在图1和图2中说明的实施例中。融合器105、信誉生成器106和/或可视化器207也可以被并入到在图3至图5说明的实施例中。

图6是根据实施例的描绘信誉生成的过程600的流程图。如在该图中示出的,过程600从步骤601开始,其中基于关于观点相关联的实体的每个观点的相关性,来过滤多个观点。如上使用其它实施例所描述的,在步骤601处,系统基于观点和实体之间的相似性,多个观点之间的关联性,来计算每个观点的相关性。此外,在相似性和关联性的计算中,可以通过考虑以下因素中的至少一个因素,使用向量空间模型(VSM),该因素包括在表达中的词语的重要性和在词语之间的语义相似性。在获得每个观点的相关性值后,第一阈值可以用于过滤掉其相关性值小于第一阈值的哪些观点。

在过滤后,该过程前进到步骤605,其中过滤的观点被进一步融合到至少一个主要观点集中。如以上使用其它实施例所描述的,在步骤605,系统计算过滤的观点之间的相似性。如果在类似的观点之间的相似性大于第二阈值,则类似的观点被融合到主要观点集中。类似于上述实施例,可以通过使用现有的技术(诸如公式(1))或改进的技术(诸如公式(4))来计算相似性。例如,如上所述,系统可以考虑以下因素中的至少一个因素,使用向量空间模型,该因素包括在表达中的词语的重要性和在词语之间的语义相似性。

此外,在两个观点具有投票关系的情况下,即一个观点对另一个观点进行投票,则两个观点之间的相似性可以被设置为某一值。例如,在肯定投票观点和它投票的观点之间的相似性可以被设置为“1”;而在否定投票观点和它投票的观点之间的相似性可以被设置为“0”。此外,在两个观点具有引用关系的情况下,即一个观点引用另一个观点,则这两个观点之间的相似性被设置为另一个值。例如,肯定引用观点和它引用的观点之间的相似性可以被设置为c(0.5<c<=1),而否定引用观点和它引用的观点之间的相似性可以被设置为1-c。

在融合后,该过程前进到步骤610,其中基于至少一个主要观点集,生成针对实体的信誉值。如上所述,在生成信誉值中,可以考虑多个因素,诸如在每个主要观点集中的观点的数量,它的观点集平均相似性和它的平均评分值。

图7是根据实施例的描绘信誉生成和可视化的过程700的流程图。在这个实施例中,步骤701,705和710分别类似于在图6中的601、605和610。出于简化,在此省略这些步骤的描述。如在图7中示出的,在步骤710处生成针对实体的信誉值之后,该过程前进到步骤715,其中参考至少一个主要观点集,来可视化观点和实体的信誉值。如上所述,图9示出了信誉可视化的示例。针对每个实体,具有最高流行度的前三个主要观点被示出为矩形条。这些条被连接。在条的末尾处,示出了用于信誉生成的过滤观点的总数和正规化的信誉值。此外,图9仅是说明性示例,并且本领域的技术人员将能够设想出其它方式以呈现信誉和有关信息。

图8是根据实施例的描绘推荐的过程800的流程图。在这个实施例中,步骤801,805和810分别类似于在图6中的601、605和610,和图7中的步骤701,705和710。出于简化,在此省略这些步骤的描述。如在图8中示出的,在这个实施例中,在步骤810处生成针对实体的信誉值之后,系统基于它的信誉值推荐实体。例如,在存在多个实体的情况下,可以通过步骤801至810获得每个实体的信誉值。然后,系统根据它们的信誉值进行排名,并且推荐具有最高信誉值的实体,例如前10个实体。

在另一个实施例中,提供了推荐过程以基于其它用户的评分和用户和其它用户的现有观点,来计算该用户对候选实体的估计评分,其中该用户还没有对该实体进行评论。如上解释的,类似的用户具有类似的偏好。可能的是,预测用户关于候选实体的评分,即使该用户还没有提供关于候选实体的他的观点或评分,或即使该用户还没有看到该实体。这可以通过以下来实现:检查具有相似品味或偏好的其他用户的活动。类似地,以上描述的公式(8)可以用于估计用户关于候选实体的评分。在计算相似性中,如上所述,系统可以使用现有技术(诸如公式(1))或改进的技术(诸如公式(4))。在计算了估计评分后,在Ap中的多个实体可以根据它们估计的评分被排名,并且可以推荐具有最高估计评分的实体。

在这个实施例中,在计算估计评分之前,系统可以对观点数据进行过滤以排除不相关的观点或垃圾信息。以这种方式,能够改进估计的准确性。然而,例如在观点数据相对干净并且不包含许多垃圾信息或不相关的观点的情况下,可以省略过滤的步骤。

在另一个实施例中,提供观点估计的过程以基于用户和其它用户的现有观点,生成关于候选实体的该用户的估计观点,其中该用户还没有对候选实体进行评论。如上解释的,类似的用户具有类似的偏好。可能的是,预测用户关于候选实体的观点,即使该用户还没有评论候选实体,或即使该用户还没有看到该实体。这可以通过以下来实现:检查具有相似品味或偏好的其他用户的活动。类似地,以上描述的公式(9)可以用于生成用户关于候选实体的估计观点。在计算相似性中,如上所述,系统可以使用现有技术(诸如公式(1))或改进的技术(诸如公式(4))。

类似于上述实施例,在计算估计评分之前,系统可以对观点数据进行过滤以排除不相关的观点或垃圾信息。以这种方式,能够改进估计的准确性。然而,例如在观点数据相对干净并且不包含许多垃圾信息或不相关的观点的情况下,可以省略过滤的步骤。

在另一个实施例中,提供推荐的过程以基于用户最相似的其它用户关于实体的感情,来推荐实体,其中该用户还没有对候选实体进行评论。如上解释的,类似的用户具有类似的偏好。可能的是,预测关于候选实体的用户的偏好,即使该用户还没有评论候选实体,或即使该用户还没有看到该实体。这可以通过以下来实现:检查具有相似品味或偏好的其他用户的活动。该过程首先使用上述公式(10)以计算在目标用户u0和其它用户u1,…,un中的每个用户之间的相似性。在获得相似性之后,根据关于用户u0的它们的相似性对用户u1,…,un进行排名。从而,该过程可以找出最相似的用户(多个)。最后,该过程基于最相似的用户(多个)的感情,来推荐一个或多个实体,其中用户u0还没有对该一个或多个实体进行评论。例如,该过程可以向用户u0推荐最相似用户(多个)“喜欢”或“不喜欢”的实体。

类似于上述实施例,在这个实施例中,在计算估计评分之前,系统可以对观点数据进行过滤以排除不相关的观点或垃圾信息。以这种方式,能够改进估计的准确性。然而,例如在观点数据相对干净并且不包含许多垃圾信息或不相关的观点的情况下,可以省略过滤的步骤。

将了解的是,上述实施例和它们的组件可以以各种方式被组合。例如,在一个实施例中,上述推荐中的任何推荐可以被组合在一起以例如基于如上所述的信誉值、观点的相似性、评分和/或感情,提供推荐结果。此外,推荐和它们的组合也可以被并入到信誉生成的过程中。

根据本公开的一个方面,提供了一种装置,该装置用于从与实体相关联的多个观点来生成该实体的信誉,其中以自然语言来表达所述实体和所述多个观点,该装置包括:被配置为实现上述方法的构件。在一个实施例中,该装置包括:被配置为基于关于所述实体的每个观点的相关性,过滤所述多个观点的构件;被配置为将过滤的观点融合到至少一个主要观点集中的构件;以及被配置为基于所述至少一个主要观点集,生成信誉值的构件。

该装置还可以包括:构件,其被配置为基于观点和实体之间的相似性,在所述多个观点之间的关联性,来计算每个观点的相关性,以及构件,其被配置为过滤掉其相关性小于第一阈值的观点。

根据一个实施例,考虑以下因素中的至少一个因素,使用向量空间模型来计算相似性,该因素包括在表达中的词语的重要性和在词语之间的语义相似性。

根据一个实施例,该装置还包括:构件,其被配置为计算在过滤的观点之间的相似性,以及构件,其被配置为如果在两个观点之间的相似性大于第二阈值,则将这两个观点融合到主要观点集中。

根据一个实施例,考虑以下因素中的至少一个因素,使用向量空间模型来计算相似性,该因素包括在表达中的词语的重要性和在词语之间的语义相似性。

根据一个实施例,两个观点包括第一观点和对所述第一观点投票的第二观点;以及在两个观点之间的相似性被设置为第一相似值。

根据一个实施例,两个观点包括第一观点和对所述第一观点引用的第二观点;以及在两个观点之间的相似性被设置为第二相似值。

根据一个实施例,该方法还包括:构件,其被配置为基于在每个主要观点集中的观点的数量,它的观点集平均相似性和它的平均评分值,来生成信誉值。

根据一个实施例,该装置还包括:构件,其被配置为针对未能提供关于相关联的实体的评分的观点而设置评分。

在一个实施例中,该装置还包括:构件,其被配置为通过参考至少一个主要观点集,对观点和实体的信誉进行可视化。

在一个实施例中,该装置还包括:构件,其被配置为基于实体的信誉值来推荐实体。

在一个实施例中,该装置还包括:构件,其被配置为基于其它用户的评分和用户和其它用户的现有观点,计算该用户关于候选实体的估计的评分,其中该用户还没有对候选实体进行评论;以及构件,其被配置为基于估计的评分来推荐该实体。

在一个实施例中,该装置还包括:构件,其被配置为基于其它用户的观点和用户和其它用户的现有观点,计算该用户关于候选实体的估计的观点,其中该用户还没有对候选实体进行评论。

在一个实施例中,该装置还包括:构件,其被配置为基于用户的最相似的用户关于实体的感情,来推荐该实体,其中该用户还没有对该实体进行评论。

注意的是,在图1-5中描绘的系统100、200、300、400和500的组件中的任何组件可以被实现为硬件或软件模块。在软件模块的情况下,可以将它们包含在有形的计算机可读可记录存储介质上。例如,所有软件模块(或其任何子集)可以在相同的介质上,或每个软件模块可以在不同的介质上。例如,软件模块可以在硬件处理器上运行。可以使用运行在硬件处理器上的如上所述的不同的软件模块来执行方法步骤。

另外,本公开的一个方面可以使用在通用计算机或工作站上运行的软件。此类实现方式可以使用例如处理器、存储器和例如由显示器和键盘形成的输入/输出接口。如本文中使用的词语“处理器”旨在包含任何处理设备,诸如例如,包含CPU(中央处理器)和/或其它形式的处理电路的处理器。此外,词语“处理器”可以指不只一个个体处理器。词语“存储器”旨在包含与处理器或CPU相关联的存储器,诸如例如RAM(随机访问存储器)、ROM(只读存储器)、固定存储器(例如,硬盘)、可移动存储设备(例如,磁盘)、闪速存储器等。处理器、存储器和输入/输出接口(诸如显示器和键盘)可以例如经由作为数据处理单元的一部分的总线互连。合适的互连(例如,经由总线)也可以被提供给网络接口(诸如网卡),其可以用于与计算机网络进行接口,以及被提供给介质接口,诸如磁盘或CD-ROM驱动器,其可以用于与介质进行接口。

因此,计算机软件(其包含用于执行如本文所描述的本公开的方法的指令和代码)可以被存储在相关联的存储器设备中的一个或多个相关联的存储器设备中,并且当准备好被使用时,被部分地或全部地加载(例如加载到RAM中)并由CPU执行。此类软件可以包括但不限于固件、驻留软件、微码、以及诸如此类。

如指出的,本公开的一些方面可以采用包含在计算机可读介质中的计算机程序产品的形式,该计算机可读介质具有在其上包含的计算机可读程序代码。此外,可以使用任何组合的计算机可读介质。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。例如,计算机可读存储介质可以是但不限于电、磁、光、电磁、红外线或半导体系统、装置、或设备、或上述的任何合适组合。计算机可读存储介质的更具体的示例(非限制性列表)可以包括以下:具有一个或多个线缆的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或上述的任何合适组合。在本文档的上下文中,计算机可读介质可以是任何有形的介质,其可以包括或存储程序以供指令执行系统、装置或设备使用或与其连接。

用于执行针对本公开的多个方面的操作的计算机程序代码可以被编写在至少一种编程语言的任何组合中,其包括面向对象的编程语言(诸如Java,Smalltalk,C++等)和传统的过程编程语言(诸如“C”编程语言)或类似的编程语言。程序代码全部可以在用户计算机上运行,部分地在用户计算机上运行,作为独立的软件包,部分地在用户计算机上运行并且部分地在远程计算机上运行,或全部在远程计算机或服务器上运行。

在附图中的流程图和框图说明了根据本公开的可能的实现方式的架构、功能和操作。在这点上,在流程图或框图中的每个框可以表示代码的模块、组件、段、或部分,其包括用于实现指定的逻辑功能(多个)的至少一个可执行指令。还应当注意的是,在一些可替代的实现方式中,在框中注明的功能可以以与图中所注明的顺序不同的顺序而发生。例如,取决于所涉及的功能,顺序地示出的两个框可以实际上大体上同时执行,或一些框有时可以以相反的顺序来执行。还需要注意的是,框图和/或流程图中的框的组合可以由来基于专用硬件的系统(其执行指定功能或动作)、或专用硬件和计算机指令的组合来实现。

在任何情况下,应当理解的是,在本公开中说明的组件可以被实现在各种形式的硬件、软件或它们的组合中,例如专用集成电路(ASIC)、功能电路、适当编程的通用数字计算机(其具有相关联的存储器)以及诸如此类。考虑到本文中提供的本公开的教导,相关领域的技术人员将能够设想出本公开的组件的其它实现方式。

本文所使用的词语仅是出于描述特定实施例的目的,并且不是意在限制实施例。如本文所使用的,单数形式“一个”、“一种”和“所述”意味着也包含复数形式,除非上下文中清楚地另外指明。还应当理解的是,当在本文使用时,词语“包括”和/或“包含”指存在所阐明的特征、数字、步骤、操作、元素和/或组件,但是不排除存在或附加一个或多个其它特征、数字、步骤、操作、元素、组件和/或其组合。

出于说明的目的,已经提供了各种实施例的描述,但是描述不旨在是详尽的或限制于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变型对于本领域的技术人员而言将是明显的。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1