用于检测偏离用户的方法和装置的制造方法_2

文档序号:9865526阅读:来源:国知局
br>[0027]对于该评分矩阵中缺失的元素,即特定用户ID可能没有针对特定属性的评论,可以使用现有的矩阵填充技术进行填充。所述矩阵填充技术例如可以是常用于推荐系统的协同过滤技术(collaborative filtering)、矩阵分解算法等。
[0028]这样,可以由各属性维度构成的多维属性空间中的一个点来代表一个用户ID,该点的坐标值表示该用户ID针对每个属性维度的评分数据集。也就是说,可以将所述标准用户以及待检测用户可以映射到所述多维属性空间,由多维属性空间中的一些点来表示。
[0029]返回图1,在步骤104,根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。也就是说,如果待检测用户在多维属性空间中较为接近标准用户分布,则可判断待检测用户不属于偏离用户,而如果待检测用户在多维属性空间中较为远离标准用户分布,则可判断待检测用户属于偏离用户。
[0030]图2示意性地示出了根据本发明的实施例的用于检测偏离用户的方法的原理。如图2所示,根据各用户评论针对特定主题的三个属性维度属性A、属性B、属性C的评分,将待检测用户用户I 一用户6以及标准用户用户A —用户F都映射到由属性A、属性B和属性C构成的三维空间中。标准用户用户A —用户F在该三维空间中具有特定的分布区域。待检测用户用户4、用户5和用户6较接近标准用户的分布区域,因此可判断待检测用户用户
4、用户5和用户6为非偏离用户。而待检测用户用户1、用户2和用户3较远离标准用户的分布区域,而集中于原点附近,因此可判断待检测用户用户1、用户2和用户3为偏离用户。
[0031]存在多种方法可用来判断待检测用户与标准用户在多维空间中分布的相似性。例如,可以使用基于分类超平面的相似度判断方法等来判断待检测用户与标准用户在多维空间中分布的相似性。根据本发明的一些实施例,通过以下过程来判断待检测用户与标准用户在多维空间中分布的相似性:
[0032]在子步骤1041,在所述多维属性空间中对表示标准用户的所有点以及表示待检测用户的所有点进行聚类,从而将全部标准用户聚类到若干类,例如聚类到A、B、C三个聚类,并且也将全部待检测用户聚类到若干类,例如聚类到1、2、3类。对用户进行聚类的物理意义在于,不同的用户可能注重于不同的属性维度,例如,有些用户注重于产品的外观,因此倾向于给予特定外观属性更高的评分;有些用户注重于产品的性价比,因此倾向于给予低价属性更高的评分;而有些用户注意于品牌,因此倾向于给予特定品牌属性更高或更低的评分,等等。
[0033]可以使用现有的聚类方法中的一个进行聚类。例如,可以使用K-均值、基于网格的聚类等方法进行聚类。
[0034]然后,可计算每个聚类的聚类中心。
[0035]在子步骤1042,在所述多维属性空间中,对于每个待检测用户的聚类,计算其聚类中心到每个标准用户聚类的聚类中心的距离。
[0036]在子步骤1043,响应于计算一待检测用户聚类的聚类中心距每个标准用户聚类的聚类中心的距离均大于指定阈值,可判断该待检测用户聚类属于偏离用户聚类。
[0037]反之,如果该待检测用户聚类的聚类中心到某个标准用户聚类的聚类中心的距离小于或等于一指定阈值,则可判断该待检测用户聚类属于该标准用户聚类,从而不属于偏离用户聚类。
[0038]例如,对于待检测用户聚类1,依次计算其聚类中心到标准用户聚类A、B、C的聚类中心的距离为 Dis (I, A)、Dis (I, B)、Dis (I, C)。如果 Dis (I, A)、Dis (I, B)、Dis (I, C)均大于一指定阈值,则可判断待检测用户聚类I可能为偏离用户聚类。
[0039]进一步地,可根据所述距离中的一个或多个计算该待检测用户为偏离用户的概率。例如,距离越大,则为偏离用户的概率越大。
[0040]此后,可以对所判断的非偏离用户和偏离用户进行相应处理,例如将非偏离用户的评论纳入评论集合,以得出对给定主题的较为客户有效的评价,而将偏离用户的评论排除。再例如,可将所判断的非偏离用户的评论存入标准用户评论数据库,以用于以后的偏离用户评论检测,等等。此外,对于所判断的偏离用户可以进一步由本发明的装置的使用者根据经验或专家意见等进行行为分析,以进一步进行确认或其他处理。
[0041]以上参照附图描述了根据本发明的实施例的用于检测偏离用户的方法,应指出的是,以上描述仅为示例,而不是对本发明的限制,在本发明的其他实施例中,该方法可具有更多、更少或不同的步骤,且各步骤之间的顺序、包含、功能等关系可以与所描述和图示的不同。
[0042]现参照图3描述根据本发明的实施例的用于检测偏离用户的装置。该装置中的各模块可用来执行如上所述的根据本发明的实施例的方法的相应步骤,为简明起见,在以下描述中省略了与以上描述重复的部分细节。因此,可参照以上描述获得对该装置的更详细的了解。
[0043]如图3所示,该装置300包括如下模块:
[0044]获取模块301,被配置为获取标准用户和待检测用户针对给定主题的评论;
[0045]评分计算模块302,被配置为根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间中,其中属性维度反映给定主题的方面;以及
[0046]判断模块303,被配置为根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。
[0047]根据本发明的实施例,所述判断模块303包括如下子模块:聚类子模块,被配置为在所述多维空间中分别将标准用户和待检测用户进行聚类;距离计算子模块,被配置为对于每一个待检测用户聚类,计算其聚类中心距每个标准用户聚类的聚类中心的距离;以及判断子模块,被配置为响应于计算一待检测用户聚类的聚类中心距每个标准用户聚类的聚类中心的距离均大于指定阈值,判断该待检测用户聚类属于偏离用户聚类。
[0048]根据本发明的实施例,所述判断子模块还被配置为:响应于计算一待检测用户聚类的聚类中心距一标准用户聚类的聚类中心的距离小于指定阈值,判断该待检测用户聚类属于该标准用户聚类。
[0049]根据本发明的实施例,所述评分计算模块302包括:数据库建立子模块,被配置为建立评价词数据库,并赋予数据库中的评价词以分数;属性维度确定子模块,被配置为确定用户评论涉及的给定主题的属性维度;切分子模块,被配置为将用户评论进行评价词切分,从而获得构成该评论的一个或多个评价词;权重赋予子模块,被配置为对于构成该评论的一个或多个评价词分别赋予不同权重;评分获得子模块,被配置为将属性相同属性维度的所述一个或多个评价词的分数乘以其权重后相加,从而获得该用户评论针对给定主题的该属性维度的评分。
[0050]根据本发明的实施例,所述评分计算模块302还包括:矩阵构成子模块
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1