用于检测偏离用户的方法和装置的制造方法

文档序号:9865526阅读:170来源:国知局
用于检测偏离用户的方法和装置的制造方法
【技术领域】
[0001]本发明涉及计算机及互联网技术领域,具体涉及一种用于检测偏离用户的方法和
目.ο
【背景技术】
[0002]随着互联网技术的发展,门户网站、论坛、微博、微信等社交网络平台已成为人们获取和分享信息和资源的越来越重要的途径,且已发展成为一种虚拟的社会形态。在各种社交网络平台上,人们会针对各种主题(例如,某种产品等)发表各种评论,这些评论对于全面了解和评估该主题的各方面具有重要意义。然而,在网络上也存在许多偏离用户评论,这些偏离用户评论或者是对某个主题的某个方面有着偏离主流的想法,因而不顾及该主题的其他方面;或者属于网络“水军”,他们通常受雇于人,出于营销或不正当竞争等特定目的,发表大量非正常评论来控制舆论。因此,如何从网络上的大量评论中排除偏离用户的评论,获得更为理性和客观的用户评论,以有助于获得对特定主题的更理性和客观的了解,是一个需要解决的问题。

【发明内容】

[0003]在本发明的一个方面,提供了一种用于检测偏离用户的方法,包括:获取标准用户和待检测用户针对给定主题的评论;根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间中,其中属性维度反映给定主题的方面;根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。
[0004]在本发明的另一个方面,提供了一种用于检测偏离用户的装置,包括:获取模块,被配置为获取标准用户和待检测用户针对给定主题的评论;评分计算模块,被配置为根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间,其中属性维度反映给定主题的方面;判断模块,被配置为根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。
[0005]本发明的技术方案可以有效地检测和识别来自互联网的用户评论中的偏离用户及其评论,从而有助获得关于特定主题的排除了偏离评论的更为理性和客观的评论。
【附图说明】
[0006]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0007]图1示出了根据本发明的实施例的用于检测偏离用户的方法;
[0008]图2示意性地示出了根据本发明的实施例的用于检测偏离用户的方法的原理;
[0009]图3示出了根据本发明的实施例的用于检测偏离用户的装置;以及
[0010]图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
[0011]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0012]现参照图1,其示出了根据本发明的实施例的用于检测偏离用户的方法。如图所示,该方法包括如下步骤:
[0013]在步骤101,获取针对给定主题的标准用户评论以及待检测的用户评论。所述给定主题例如可以是某一类产品,例如汽车等,也可以是人们感兴趣的任何其他话题。所述标准用户评论和待检测的用户评论均可以来自于互联网,例如门户网站、网上论坛、微博、微信坐寸ο
[0014]所述标准用户评论例如可以是已被证明排除了网络水军评论等非正常评论的正常的用户评论。所述标准用户评论可以来自于针对该给定主题的用户评论的历史数据,例如来自采用实名制的网站的用户评论数据、得到广泛认可的专家论坛中的评论数据、或者论坛中级别较高和获得广泛好评的用户的评论数据等。
[0015]所述标准用户评论以及待检测的用户评论都是与用户相关联的,都具有用户ID。该用户ID例如可以是用户在网站上注册的用户ID,或者是用户的上网设备的IP地址等。一个用户ID可以对应于一条或多条评论。因此,所述标准用户评论以及所述待检测的用户评论都可以被划分到不同用户ID。
[0016]所述获取的标准用户评论可以被存储在一标准用户评论数据库中。
[0017]在步骤102,对于该给定主题,建立反映该主题的不同方面的多个属性维度。例如,对于汽车主题,可以建立小型、低价等属性维度。这样,由这些属性维度可以构成一个多维空间。
[0018]在步骤103,根据标准用户评论中每一个用户ID的一条或多条评论,计算该用户对于给定主题的各属性维度的评分,并且同样,对于待检测的用户评论所属的每一个用户ID,根据该用户ID的待检测的一个或多条评论计算该用户对于给定主题的各属性维度的评分。
[0019]这样,就可以获得一个评分矩阵,该矩阵的每一列可代表一个用户ID,每一行可代表一个属性维度,而每一个矩阵元素可代表其所属列所代表的用户ID针对其所属行所代表的属性维度的评分。
[0020]可以采用现有的评分方法中的一个来计算一用户ID的评论对于一属性维度的评分,例如可以采用如下过程来计算一用户ID的评论对于一属性维度的评分:
[0021]在子步骤1031,创建评价词数据库,所述评价词例如可包括“赞”、“好极了”、“好”、“不错”、“极差”等等。所述评价词可以由本发明的装置的使用者根据其经验、专家意见以及用户评论的历史数据等创建,也可以由本发明的装置根据用户评论的历史数据自动创建。
[0022]在子步骤1032,针对评价词数据库中的每一评价词,根据该评价词所反映的使用者的态度是正面还是负面以及其强烈程度,给予该评价词一个分数。例如,对于“好极了”可给予最高分数,“好”稍低分数,“不错”更低分数,“极差”最低分数。该步骤可以由本发明的装置的使用者根据其经验或专家意见等执行。
[0023]在子步骤1033,对于一用户ID的每一条评论,首先判断该评论涉及给定主题的哪一个属性维度,然后对该条评论进行评价词切分,从而获得构成该条评论的一个或多个评价词。
[0024]在子步骤1034,对于构成该条评论的评价词赋予不同权重,以使该条评论的最终得分归一化(例如,位于O和I之间)。该步骤可以由本发明的装置的使用者根据其经验或专家意见等执打。
[0025]在子步骤1035,将该条评论的所有评价词的评分乘以各自权重后相加,从而获得该条评论所属的用户ID针对该条评论涉及的主题维度的评分。该评分例如位于O和I之间,且分数越高,表示评价越高。
[0026]这样,就获得了每个用户ID针对给定主题的每个属性维度的评分,从而获得所述评分矩阵。<
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1