一种用户可信度的计算方法及装置与流程

文档序号:12596299阅读:494来源:国知局
一种用户可信度的计算方法及装置与流程

本申请涉及网络技术领域,尤其涉及一种用户可信度的计算方法及装置。



背景技术:

随着社交网络的逐渐发展,社交平台也越来越多,比如,微博、Instagram、Facebook、Twitter等。由于这些社交平台与微博平台的功能类似,因此将这类社交平台统称为类微博平台。在类微博平台上用户可以相互关注、相互留言、查看其发表信息等各种功能,因此类微博平台被用户广泛使用。

随着类微博平台的用户数量逐渐增多,在类微博平台的出现了一些不良现象;例如,一些用户会在类微博平台上发布垃圾信息或发布谣言信息。这些不良现象会导致公众信息紊乱、对社会造成不良影响。

为此,一些技术人员设想为类微博平台上每个用户设置一个可信度,可信度用于表征用户是否可信。如果一个用户的可信度为可信等级,则说明该用户一般不会发布垃圾信息或谣言信息。如果一个用户的可信度为不可信等级,则说明该用户可能会发布垃圾信息或谣言信息。

在类微博平台上,每个用户具有用于体现类型、级别以及社会网络影响力的网络信息特征;例如,关注数量、粉丝数量、发布信息数量等。用户的网络信息特征在一定程度上可以体现用户的可信度;例如,一个用户的粉丝数量越多,则表示该用户越趋于可信;一个用户的粉丝数量越少,则代表该用户越趋于不可信。因此,现有技术对用户的网络信息特征进行分析处理,从而确定类微博平台上用户的可信度。

但是,确定一个用户的可信度理应综合多方面因素来考虑,现有技术中仅仅利用用户的网络信息特征来进行分析处理,这难免使得计算得到的可信度准确率较低。

鉴于此,现在需要一种新的技术手段来准确确定类微博平台上的用户可信度,以便将用户可信度应用于类微博平台的垃圾信息过滤和谣言信息识别。



技术实现要素:

本申请提供了一种用户可信度的计算方法及装置,本申请可以来准确确定类微博平台上的用户可信度,以便将用户可信度应用于类微博平台的垃圾信息过滤和谣言信息识别。

为了实现上述目的,本申请提供了以下技术手段:

一种用户可信度的计算方法,包括:

将待检测用户的特征信息输入至预设可信度模型;其中,所述预设可信度模型为利用已标定可信度等级的特征信息训练后得到的,以特征信息为输入并以可信度等级为输出的模型;所述特征信息包括个人信息特征以及网络信息特征;

在所述预设可信度模型计算之后,输出所述待检测用户的可信度等级。

优选的,所述特征信息还包括:

用于体现用户所发布信息情感极性的情感极性因子;

其中,所述情感极性包括用于表示用户所发布信息为乐观向上的正向情感极性,用于表示发布信息为消极负面的负向情感极性,或,表示发布信息无情感表达的中性情感极性。

优选的,所述情感极性因子的计算公式为:

其中,InfoEmotion表示情感极性因子、EmotionOfInfo表示某条发布信息的情感极性,n表示发布信息的数量,emotion+表示n条发布信息中情感极性为正向的数量总和,emotion-表示n条发布信息中情感极性为负向的数量总和,n为非零自然数。

优选的,在所述输出所述待检测用户的可信度等级之后,还包括:

为所述待检测用户赋予与所述可信度等级对应的初始等级值;

确定与所述待检测用户相互关注的多个好友的初始等级值;

依据所述多个好友的初始等级值以及所述待检测用户的初始等级值,量化所述待检测用户的可信度;

其中,在所述预设可信度模型中每个可信度等级均对应的一个初始等级值。

优选的,所述量化所述待检测用户的可信度公式包括:

其中,C(A)用于表示所述待检测用户的量化可信度,Cred(A)表示所述待检测用户的初始等级值,Cred(i)表示m个好友的初始等级值,d表示调节因子。

优选的,所述预设可信度模型中所有可信度等级初始等级值组成等差数列。

优选的,所述预设可信度模型包括至少三个可信度等级,并且,所述至少三个可信度等级包含可信等级和不可信等级。

优选的,所述预设可信度模型包括四个可信度等级,并且,所述四个可信度等级分别为可信等级、趋于可信等级、趋于不可信等级和不可信等级。

优选的,所述网络信息特征包括:

用于体现用户的粉丝增长速度的涨粉速率;

用于体现用户的信息发布频率的发布活跃度;

用于体现用户的信息收藏频率的收藏活跃度;

用于体现用户的关注粉丝比率的互粉比例系数;

用于体现用户的相互关注比例的关注相熟度;和/或,

用于体现用户的关注数量和粉丝数量比率的关注粉丝比。

优选的,所述个人信息特征包括:

用户是否有个人描述,用户是否有个性化域名,用户是否微号,用户的性别,用户是否允许所有人给我发私信,用户是否允许标识用户的地理位置,用户是否与允许所有人对自己的微博进行评论,和/或,用户是否已进行实名认证。

一种用户可信度的计算装置,包括:

输入单元,用于将待检测用户的特征信息输入至预设可信度模型;其中,所述预设可信度模型为利用已标定可信度等级的特征信息训练后得到的,以特征信息为输入并以可信度等级为输出的模型;所述特征信息包括个人信息特征以及网络信息特征;

输出单元,用于在所述预设可信度模型计算之后,输出所述待检测用户的可信度等级。

优选的,所述特征信息还包括:

用于体现用户所发布信息情感极性的情感极性因子;

其中,所述情感极性包括用于表示用户所发布信息为乐观向上的正向情感极性、用于表示发布信息为消极负面的负向情感极性,或,表示发布信息无情感表达的中性情感极性。

优选的,所述情感极性因子的计算公式为:

其中,InfoEmotion表示情感极性因子、EmotionOfInfo表示某条发布信息的情感极性,n表示发布信息的数量,emotion+表示n条发布信息中情感极性为正向的数量总和,emotion-表示n条发布信息中情感极性为负向的数量总和。

优选的,还包括:

赋值单元,用于为所述待检测用户赋予与所述可信度等级对应的初始等级值;

确定单元,用于确定与所述待检测用户相互关注的多个好友的初始等级值;

量化单元,用于依据所述多个好友的初始等级值以及所述待检测用户的初始等级值,量化所述待检测用户的可信度;

其中,在所述预设可信度模型中每个可信度等级均对应的一个初始等级值。

优选的,所述量化所述待检测用户的可信度公式包括:

其中,C(A)用于表示所述待检测用户的量化可信度,Cred(A)表示所述待检测用户的初始等级值,Cred(i)表示m个好友的初始等级值,d表示调节因子。

优选的,所述预设可信度模型中所有可信度等级初始等级值组成等差数列。

优选的,所述预设可信度模型包括至少三个可信度等级,并且,所述至少三个可信度等级包含可信等级和不可信等级。

优选的,所述预设可信度模型包括四个可信度等级,并且,所述四个可信度等级分别为可信等级、趋于可信等级、趋于不可信等级和不可信等级。

优选的,所述网络信息特征包括:

用于体现用户的粉丝增长速度的涨粉速率;

用于体现用户的信息发布频率的发布活跃度;

用于体现用户的信息收藏频率的收藏活跃度;

用于体现用户的关注粉丝比率的互粉比例系数;

用于体现用户的相互关注比例的关注相熟度;和/或,

用于体现用户的关注数量和粉丝数量比率的关注粉丝比。

优选的,所述个人信息特征包括:

用户是否有个人描述,用户是否有个性化域名,用户是否微号,用户的性别,用户是否允许所有人给我发私信,用户是否允许标识用户的地理位置,用户是否与允许所有人对自己的微博进行评论,和/或,用户是否已进行实名认证。

从以上技术特征,可以看出本申请具有以下技术手段:

由于本申请所使用的预设可信度模型为利用用户的网络信息特征和个人信息特征进行分析处理后得到的,所以,预设可信度模型可以综合考虑两个方面因素。相对于现有技术仅仅考虑一个方面因素而言,由于分析处理的因素增加,所以使得预设可信度模型可以更加准确表示特征信息与类别标签之间关系。所以,利用预设可信度模型计算得到的用户可信度更加准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的构建预设可信度模型实施例一的流程图;

图2为本申请实施例公开的用户可信度的计算方法实施例一的流程图;

图3为本申请实施例公开的构建预设可信度模型实施例三的流程图;

图4为本申请实施例公开的构建预设可信度模型实施例四的流程图;

图5为本申请实施例公开的用户可信度的计算方法实施例四的流程图;

图6为本申请实施例公开的用户可信度的计算方法中量化用户可信度的流程图;

图7为本申请实施例公开的用户可信度的计算装置的结构图;

图8为本申请实施例公开的又一用户可信度的计算装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

由于现有技术在计算用户可信度时,仅仅对用户网络信息特征一个方面进行分析处理,这使得计算得到的用户可信度的准确率较低。所以本申请发明人对类微博平台进行探索,以查找其它可以用于表征用户可信度的特征。

在本申请发明人进行相关研究过程中发现,在类微博平台上每个用户均包括用于体现用户个人信息个人信息特征;例如,姓名、性别、年龄以及个人描述等。个人信息特征在一定程度上也可以体现用户可信度;即,若一个用户的个人信息特征填写的越多,则该用户越趋向于可信;若一个用户的个人信息特征填写的越少,则该用户越趋于不可信。在类微博平台上可以将每个用户的网络信息特征和个人信息特征统称为用户的特征信息。

为了提高用户可信度的准确率,本申请对用户特征信息中的个人信息特征和网络信息特征一并进行分析处理。由于可以综合考虑两个方面因素,所以相对于仅仅考虑一个方面因素而言,可以提高用户可信度的准确率。

本申请利用用户的特征信息进行分析处理得到用户可信度的过程,实际为利用用户的特征信息构建预设可信度模型的过程。本申请构建得到的预设可信度模型可以达到以用户的特征信息为输入、以用户的可信度等级(用户可信度)为输出的目的。因此,在构建得到预设可信度模型之后,便可以将待检测用户的特征信息输入至预设可信度模型,从而获得预设可信度模型输出的表征用户可信度的可信度等级。

预设可信度模型实际为一种分类器,利用训练完成的分类器可以实现将检测用户分为可信等级或不可信等级的目的;因此,构建预设可信度模型的过程实际为训练分类器过程。目前,分类器具有很多类型,例如:CART决策树分类、朴素贝叶斯分类和支持向量机等。

如图1所示,为构建预设可信度模型的实施例一的具体步骤。

步骤S101:为每个用户的特征信息赋予类别标签。其中,类别标签为可信等级或不可信等级。

首先在类微博平台上获取训练数据,以便利用训练数据来训练分类器。由于本申请需要利用个人信息特征和网络信息特征来训练分类器,所以本实施例中的训练数据为多个用户的个人信息特征和网络信息特征。用户的个人信息特征和网络信息特征可以统称为用户的特征信息。

在本实施例中,用户的个人信息特征可以为:用户是否有个人描述,用户是否有个性化域名,用户是否微号,用户的性别,用户是否允许所有人给我发私信,用户是否允许标识用户的地理位置,用户是否与允许所有人对自己的微博进行评论,和/或,用户是否已进行实名认证。用户的网络信息特征可以为:关注数量、粉丝数量和/或发布信息数量。

获取训练数据的过程可以为利用类微博平台开放的API(Application Programming Interface,应用程序编程接口)获取多个用户的特征信息。在实际应用过程中,发现类微博平台处于对用户隐私的考虑,开放API有诸多限制。为了获取用户完整的特征信息,可以利用Python爬虫技术来抓取多个用户的特征信息。

本实施例中利用分类器可以将待检测用户分为可信等级或不可信等级两个类别,所以,分类器可以设置两个类别标签,一个类别标签为可信等级,一个类别标签为不可信等级。

为了实现训练分类器的目的,在获得多个用户的特征信息之后,技术人员可以人为地依据每个用户特征信息判断该用户是否可信,并为每个用户的特征信息赋予相应的类别标签,这个过程可以作为标定过程。

具体而言,在技术人员确定一个用户可信之后,则为该用户的特征信息赋予可信等级的类别标签;反应到数据层面即为构建该用户的特征信息与可信等级类别标签的对应关系。在技术人员确定一个用户不可信之后,则为该用户赋予不可信等级的类别标签;反应到数据层面即为构建该用户的特征信息与不可信等级类别标签的对应关系。

可以理解的是,如果由一个技术人员来标定训练数据中多个用户的可信度等级,那么在该技术人员标定错误之后,会导致由该训练数据训练后的分类器也是不准确的。所以,可以采用多个技术人员进行标定,并将多数技术人员确定可信度等级确定为该用户的可信度等级。这样可以降低由人为误差带来的误差率。

步骤S102:利用每个用户的特征信息以及已标定的类别标签训练分类器;其中,用户特征信息为个人信息特征和网络信息特征。

分类器具有一个或多个参数(参数数量可依据具体分类器而定),每个参数均具有初始的参数值。将每个用户的特征信息和类别标签输入至分类器中。分类器可以利用所有参数的参数值的和一定的拟合算法,来拟合每个用户的个人信息特征、网络信息特征以及类别标签,最终得到一个包含所有参数的拟合公式。

如果拟合过程不满足终止条件,则重复修改所有参数的参数值,并重新利用所有参数值和一定的拟合算法来拟合每个用户的个人信息特征、网络信息特征以及类别标签,直到拟合过程满足终止条件。当拟合过程满足终止条件则表示训练分类器的过程已经结束。

训练的分类器的目的为:建立以用户的特征信息为自变量、以用户的类别标签(可信度等级)为输出量之间的函数方程,在分类器中函数方程即为拟合公式。由于训练数据中已有特征信息和类别标签的对应关系,所以本步骤的目的为通过不断更改参数值的方式获取准确的拟合公式,以便拟合公式能够尽量满足训练数据中大部分用户的特征信息与类别标签之间的对应关系。

即,在训练数据为用户的特征信息和可信等级的类别标签时,利用拟合公式可以建立该特征信息与可信等级类别标签之间等式。在训练数据为用户的特征信息和不可信等级的类别标签时,利用拟合公式可以建立该特征信息与不可信等级类别标签之间等式。

步骤S103:将训练完成的分类器作为预设可信度模型。

将训练完成的分类器作为后续过程中所需使用的预设可信度模型。因此,预设可信度模型器便为以用户的特征信息为自变量、以用户的类别标签(可信度等级)为输出量之间的函数方程。因此,预设可信度模型可以在接收一个用户的特征信息(自变量)之后,经过预设可信度模型的计算,便可以输出类别标签(可信度等级)。

在利用图1所示的实施例一构建预设可信度模型之后,下面介绍本申请提供的一种用户可信度的计算方法的实施例一。如图2所示,具体包括以下步骤:

步骤S201:将待检测用户的特征信息输入至预设可信度模型;其中,特征信息包括网络信息特征和个人信息特征。即所述预设可信度模型为利用已标定可信度等级的特征信息训练后得到的,以特征信息为输入并以可信度等级为输出的模型;所述特征信息包括用于体现用户个人信息的个人信息特征,以及,用于体现用户类型、级别及其社会网络影响力的网络信息特征。

本申请的预设可信度模型具有接收待检测用户的特征信息并输出待检测用户的类别标签(可信度等级)的功能。因此,在需要确定待检测用户的可信度等级的情况下,可以预先经过类微博平台开放的API或者Python爬虫技术来获取待检测用户的特征信息。本实施例中待检测用户的特征信息为网络信息特征和个人信息特征。

在本实施例中,待检测用户的个人信息特征可以为:待检测用户是否有个人描述,待检测用户是否有个性化域名,待检测用户是否微号,待检测用户的性别,待检测用户是否允许所有人给我发私信,待检测用户是否允许标识用户的地理位置,待检测用户是否与允许所有人对自己的微博进行评论,和/或,待检测用户是否已进行实名认证。待检测用户的网络信息特征可以为:关注数量、粉丝数量和/或发布信息数量。

然后,将获得的待检测用户的网络信息特征和个人信息特征输入至预设可信度模型。

步骤S202:在所述预设可信度模型计算之后,输出所述待检测用户的可信度等级。

预设可信度模型可以表征以用户的特征信息为自变量、以用户的类别标签(可信度等级)为输出量之间的函数方程。所以,预设可信度模型接收待检测用户的特征信息过程,相当于将待检测用户的特征信息作为自变量输入至函数方程的过程。在预设可信度模型计算之后,便可以输出表征待检测用户的可信度等级的类别标签;相当于函数方程在接收自变量之后,经过计算得到输出量的过程。

从以上技术内容可以看出本申请具有以下有益效果:

由于本申请所使用的预设可信度模型为利用用户的网络信息特征和个人信息特征进行分析处理后得到的,所以,预设可信度模型可以综合考虑两个方面因素。相对于现有技术仅仅考虑一个方面因素而言,由于分析处理的因素增加,所以使得预设可信度模型可以更加准确表示特征信息与类别标签之间关系。所以,利用预设可信度模型计算得到的用户可信度更加准确。

在图1所示的构建预设可信度模型的实施例一中,用户的网络信息特征仅仅为关注数量、粉丝数量和/或发布信息数量。虽然,这些数据可以在一定程度上反应用户可信度。但是,这些数据均为网络信息特征的表面数据,即在图1所示的实施例中并没有对网络信息特征进行深入分析,这会使得构建得到预设可信度模型不准确。

所以,本申请发明人对用户网络信息特征进行深入分析,并得到以下6种网络信息特征:

第一种:用于体现用户的粉丝增长速度的涨粉速率。计算公式如下:

……公式1

其中,FoPd表示涨粉速率,followersCount表示用户所拥有的粉丝数量,wage表示用户使用类微博平台的年限。

涨粉速率用于体现用户在每天内粉丝增长速度,通过研究发现在一个用户较为可信时,其粉丝增长速度较快。所以,涨粉速率与用户可信度成正比,即涨粉速率越大表示该用户越为可信。

第二种:用于体现用户的信息发布频率的发布活跃度。计算公式如下:

……公式2

其中,StPd表示发布活跃度,statusesCount表示发布信息的数量,wage表示用户使用类微博平台的年限。

微博活跃度用于体现用户每天发布信息的频率,通过研究发现在一个用户较为可信时,该用户会定期发布信息。所以,发布活跃度与用户可信度成正比,即发布活跃度越大表示该用户越为可信。

第三种:用于体现用户的信息收藏频率的收藏活跃度。计算公式如下:

……公式3

其中,FavPm表示收藏活跃度,favoritesCount表示信息收藏数量,wage表示用户使用类微博平台的年限。

收藏活跃度用于体现用户的收藏信息的频率,通过研究发现如果一个用户可信时,该用户不会频繁收藏信息,所以用户收藏活跃度与用户可信度成反比,即收藏活跃度越大表示该用户越为不可信。

第四种:用于体现用户的关注粉丝比率的互粉比例系数。计算公式如下:

……公式4

其中,BiFo表示互粉比例系数,biFollowersCount表示已关注粉丝的数量,followersCount表示关注自己的用户数量,即粉丝数量。

互粉比例系数用于体现用户关注粉丝的比率,通过研究发现,如果一个用户可信,其关注粉丝的数量不会过多;所以互粉比例系数与用户可信度成反比,即互粉比例系数越大表示该用户越为不可信。

第五种:用于体现用户的相互关注比例的关注相熟度。计算公式如下:

……公式5

其中,BiFr表示关注相熟度,biFriendCount表示在相互关注的好友数量,friendCount表示自身所关注的用户数量。

关注相熟度用于体现相互关注的比例,通过研究发现如果一个用户可信,则该用户所关注用户一般也会关注自己。所以,关注相熟度与用户可信度成正比,即关注相熟度越大表示该用户越为可信。

第六种:用于体现用户的关注数量和粉丝数量比率的关注粉丝比。计算公式如下:

……公式6

其中,FrFo表示关注粉丝比,friendCount表示自身关注的用户数量,followersCount表示关注自己的用户数量。

关注粉丝比用于体现关注数量和粉丝数量比率,通过研究发现如果一个用户可信,则其关注的用户数量较少,关注自己的粉丝数量较多。所以,关注粉丝比与用户可信度成反比,即关注粉丝比表示该用户越为不可信。

上述6个公式图1所示实施例一中原有的网络信息特征(关注数、粉丝数和发布信息数量)进行了深入分析,深入分析之后的网络信息特征,不仅可以在深层次反应用户的网络信息特征,还可以在多角度反应用户的网络信息特征。

在重新确定网络信息特征之后,本申请提供了一种构建预设可信度模型的实施例二,详细步骤参见图1所示。与实施例一的具体执行过程不同的是,实施例二中网络信息特征不再是关注数、粉丝数和发布信息数量,取而代之的为涨粉速率、发布活跃度、收藏活跃度、互粉比例系数、关注相熟度和/或关注粉丝比。

可以理解的是,在网络信息特征不同之后,分类器中的拟合公式也会有所不同,从而使得构建得到预设可信度模型也会随之变化。由于网络信息特征在深层次、多角度发展诠释网络信息特征,所以实施例二中得到的预设可信度模型,比实施例一种得到的预设可信度模型可以更加准确反应特征信息与可信度等级之间的对应关系。

与本申请提供的一种构建预设可信度模型的实施例二相对应,本申请还提供了一种用户可信度的计算方法的实施例二,详细步骤参见图2所示的实施例。与图2所示的用户可信度的计算方法的实施例一不同的是,实施例二中待检测用户的特征信息中的网络信息特征,由原来的待检测用户的关注数、粉丝数和发布信息数量,更改为待检测用户的涨粉速率、发布活跃度、收藏活跃度、互粉比例系数、关注相熟度和/或关注粉丝比。

由实施例二可以看出本申请具有以下有益效果:

由于在构建预设可信度模型实施例二中考虑了深入分析之后的网络信息特征(涨粉速率、发布活跃度、收藏活跃度、互粉比例系数、关注相熟度和/或关注粉丝比),所以,在实施例二中构建的预设可信度模型可以更加准确反应特征信息与可信度等级之间的对应关系。所以,利用更加准确的预设可信度模型计算待检测用户的可信度等级时,也会使得待检测用户的可信度等级更加准确。

此外,构建预设可信度模型的实施例一和实施例二中,得到预设可信度模型仅仅具有两个可信度等级,也即两个类别标签(可信等级和不可信等级)。但是,将用户分为可信等级和不可信等级在实际应用价值较小,所以本申请设想预设可信度模型应该至少包括三个可信度等级,也即三个类别标签。

以预设可信度模型包括三个可信度等级为例,三个可信度等级具体可以为可信等级、不可信等级以及中间等级。中间等级用于表示用户位于可信等级与不可信等级之间的一个可信度等级。

以预设可信度模型包括四个可信度等级为例,四个可信度等级具体可以为可信等级、趋于可信等级、趋于不可信等级以及不可信等级。趋于可信等级用于表示用户趋于可信但不完全可信;趋于不可信等级用于表示用户趋于不可信但不是完全不可信。

可以理解的是,预设可信度模型中可信度等级越多,其实际应用价值越大。但是,随着预设可信度模型中可信度等级的增加,构建预设可信度模型的难度也会逐渐增加,相应的处理难度也大大增加。所以,预设可信度模型中可信度等级的数量,可以根据实际情况而定,在此不再赘述。

下面以构建四个可信度等级的预设可信度模型为例,重新对构建预设可信度模型的过程进行详细描述。如图3所示,本申请提供构建预设可信度模型的实施例三的具体步骤。

步骤S301:为每个用户的特征信息赋予类别标签。其中,类别标签为可信等级、趋于可信等级、趋于不可信等级或不可信等级。

首先获得多个用户包含网络信息特征和个人信息特征的特征信息,网络信息特征可以为实施例一中深入分析前的网络信息特征(关注数、粉丝数和发布信息数量),也可以为实施例二中深入分析之后的网络信息特征(涨粉速率、发布活跃度、收藏活跃度、互粉比例系数、关注相熟度和/或关注粉丝比)。

由于本实施例所要构建的可信度模型具有四个可信度等级,分别为可信等级、趋于可信等级、趋于不可信等级以及不可信等级。所以,在获得多个用户的特征信息之后,技术人员可以人为地依据每个用户特征信息判断该用户属于哪一个可信度等级,并为每个用户的特征信息赋予相应的类别标签,这个过程可以作为标定过程。

步骤S302:利用每个用户的特征信息以及已标定的类别标签训练分类器;其中,用户特征信息为个人信息特征和网络信息特征。

步骤S303:将训练完成的分类器作为预设可信度模型。

步骤S302和步骤S303的具体执行过程,与图1所示的实施例一致,在此不再赘述。

与本申请提供的一种构建预设可信度模型的实施例三相对应,本申请还提供了一种用户可信度的计算方法的实施例三,详细步骤参见图2所示的实施例。与图2所示的用户可信度的计算方法的实施例一不同的是,实施例三预设可信度模型具有多个可信度等级。与图1所示的实施例一相比,多个可信度等级在实际应用价值较大,可以丰富实际应用。

针对构建预设可信度模型的实施例一、实施例二和实施例三,由于在训练分类器的分类器可以采用多种方式,所以,本申请采用实验手段来验证采用每个方式训练后的分类器的准确率。参见表1为采用3-折交叉验证策略手段来分别测量CART决策树、GaussianNB和SVC三种训练方式训练后生成的预设可信度模型的分类准确率。

表1

从表1可以看到,与GaussianNB和SVC方式相比,CART决策树方式在对用户进行分类时达到较好的实验结果。在对用户的可信度进行判断时,分类器在95%的置信区间内可以达到(75.27%,79.27%)的准确率。因此,在实际应用中可以选择CART决策树的方法来训练分类器。

为了进一步测量构建预设可信度模型的准确率,以实施例三构建预设可信度模型为例,利用测试数据对预设可信度模型进行测试。参见表2为采用实施例三构建的预设可信度模型的测试结果。

表2

从表2我们可以看到,预设可信度模型对可信用户的识别有较高的准确率,这说明可信用户被判断为可信等级的概率比较高。从表2所示的实验结果可以看出预设可信度模型的分类准确率达到76%,在多分类问题中该实验结果明显优于随机猜测。因此,实验结果表明本申请构建的预设可信度模型可以利用用户的特征信息对用户可信度进行自动分类。

但是,本申请申请人发现预设可信度模型的误判的主要发生在相邻类别标签之间,跨类别标签误判的情况比较少。造成这个问题的主要原因为预设可信度模型缺乏拥有足够的特征信息来更准确地区分相邻类别标签之间的细微差别。这表明利用个人信息特征和网络信息特征两个方面因素来分析处理仍然不够,所以,本申请发明人继续寻找用于表示用户可信度的特征。

在本申请发明人研究过程中发现,用户发布的信息有的带有情感极性;例如,乐观、开心、悲观和消极等;有的不带有情感极性。所以,本申请可以设定三个情感极性:用于表示用户所发布信息为乐观向上的正向情感极性、用于表示发布信息为消极负面的负向情感极性,以及,表示发布信息无情感表达的中性情感极性。

用户发布信息的情感极性,可以侧面反应用户的情感极性。即,用户经常发布消极负面的信息,则表示该用户偏向于消极负面的情感极性;若用户经常发布乐观正向的消息,则表示该用户偏向于乐观正向的情感极性。

虽然用户的情感极性与用户可信度是弱相关,但是在一定程度上也可以反映用户可信度,通过大量实验研究发现:积极乐观的用户在一定程度上比消极悲观的用户更为可信。

所以,本申请发明人设想在特征信息中加入用户的情感极性因子,利用情感极性因子、个人信息特征和网络信息特征一并进行分析处理。综合考虑三个方面的因素相对于考虑两个方面因素而言,可以提高预设可信度模型的准确率。下面介绍计算用户的情感极性因子的过程。

由于一个用户在一段时间内的情感极性是不尽相同的,例如,在该段时间内较为消极悲观,在另一段时间内较为积极乐观。所以,本申请提取用户近期的多条信息并判断每条信息的情感极性,然后利用多条信息的平均情感极性,来综合分析并确定用户的情感极性因子。因为一个事物的平均水平,可以侧面反应一个事物的整体水平,这是符合一定的自然规律。所以,本申请利用一个用户多条信息的平均情感极性,来作为该用户的情感极性因子,因此也符合自然规律的规定。确定一条信息的情感极性可以采用处理器来处理的方式,即预先设定表示正向情感极性的多个正向关键词,例如,开心、快乐、Happy等等;预先设定负向情感极性的多个负向关键词,例如,悲观、消极、不高兴等等。

如果处理器判定一条信息中包含正向关键词,则表示该条信息为正向情感极性。如果处理器判定一条信息中包含负向关键词,则表示该条信息为负向情感极性。如果一条信息中既不包含正向关键词又不包含负向关键词,则表示用于该条信息为中性情感极性。

在确定每条信息情感极性之后,可以综合分析多条信息的情感极性,再将多条信息的情感极性的平均情感极性,确定用户的情感极性因子。具体过程,可以参见下述公式:

……公式7

其中,InfoEmotion表示情感极性因子、EmotionOfInfo表示某条发布信息的情感极性,n表示发布信息的数量,emotion+表示n条发布信息中情感极性为正向的数量总和,emotion-表示n条发布信息中情感极性为负向的数量总和。

在公式7中利用来计算n条信息的平均情感极性,以此来表示用户表达情感的倾向程度。利用emotion++emotion-来计算正向情感极性和负向情感极性的和值,用于表示用户倾向于表示那种情感极性。通过公式7所示的计算公式,便可以综合分析并得到用户的情感极性因子。

下面介绍构建预设可信度模型的实施例四,如图4所示,具体包括以下步骤:

步骤S401:为每个用户的特征信息赋予类别标签。其中,特征信息包括网络信息特征、个人信息特征和情感极性因子。类别标签为可信等级、趋于可信等级、趋于不可信等级或不可信等级。

首先获得多个用户包含网络信息特征和个人信息特征的特征信息,网络信息特征可以为实施例一中深入分析前的网络信息特征(关注数、粉丝数和发布信息数量),也可以为实施例二中深入分析之后的网络信息特征(涨粉速率、发布活跃度、收藏活跃度、互粉比例系数、关注相熟度和/或关注粉丝比)。然后,按公式7所示的计算公式,计算每个用户的情感极性因子。用户的网络信息特征、个人信息特征和情感极性因子统称为用户的特征信息。

由于本实施例所要构建的可信度模型具有四个可信度等级,分别为可信等级、趋于可信等级、趋于不可信等级以及不可信等级。所以,在获得多个用户的特征信息之后,技术人员可以人为地依据每个用户特征信息判断该用户属于哪一个可信度等级,并为每个用户的特征信息赋予相应的类别标签,这个过程可以作为标定过程。

步骤S402:利用每个用户的特征信息以及已标定的类别标签训练分类器;其中,用户特征信息为个人信息特征、网络信息特征和情感极性因子。

步骤S403:将训练完成的分类器作为预设可信度模型。

步骤S402和步骤S403的具体执行过程与图1所示的实施例一致,在此不再赘述。

与本申请提供的一种构建预设可信度模型的实施例四相对应,本申请还提供了一种用户可信度的计算方法的实施例四,如图5所示,具体包括以下步骤:

步骤S501:将待检测用户的特征信息输入至预设可信度模型;其中,特征信息包括个人信息特征、网络信息特征和情感极性因子。其中,所述预设可信度模型为利用已标定可信度等级的特征信息训练后得到的,以特征信息为输入并以可信度等级为输出的模型;所述特征信息包括用于体现用户个人信息的个人信息特征,以及,用于体现用户类型、级别及其社会网络影响力的网络信息特征。此外,特征信息还包括用于体现用户情感极性的情感极性因子。

本实施例可以预先确定待检测用户的情感极性因子,并获取待检测用户的网络信息特征和个人信息特征。然后,将情感极性因子、个人信息特征和网络信息特征输入至预设可信度模型。

步骤S502:在所述预设可信度模型计算之后,输出所述待检测用户的可信度等级。

预设可信度模型可以表征以用户的情感极性因子、网络信息特征和个人信息特征为自变量、以用户的类别标签(可信度等级)为输出量之间的函数方程。所以,预设可信度模型在接收待检测用户的情感极性因子、网络信息特征和个人信息特征之后,在经过计算之后,便可以输出待检测用户的可信度等级。

从本实施例的技术手段,可以看出本实施例具有以下有益效果:

由于本实施例所使用的预设可信度模型为利用用户的网络信息特征、个人信息特征和情感极性因子进行分析处理后得到的,所以,预设可信度模型可以综合考虑三个方面因素。相对于现有技术仅仅考虑一个方面因素而言,由于分析处理的因素增加,所以使得预设可信度模型可以更加准确表示特征信息与类别标签之间关系。所以,利用预设可信度模型计算得到的用户可信度更加准确。

上述内容中涉及的一种用户可信度的计算方法的实施例一、实施例二、实施例三和实施例四中均是对用户可信度进行定性分析,即上述实施例仅仅可以确定用户的可信度等级。但是,上述实施例均无法具体量化用户的可信度。

因此,本申请在上述实施例基础上,又增加了量化用户可信度的过程。如图6所示,量化用户可信度过程具体包括以下步骤:

步骤S601:为所述待检测用户赋予与所述可信度等级对应的初始等级值;其中,在所述预设可信度模型中每个可信度等级均对应的一个初始等级值。

预先为预设可信度模型中每个可信度等级赋予初始等级值。以预设可信度模型具有四个可信度等级为例,为可信等级赋予初始等级值为1,为趋于可信等级赋予初始等级值为0.75,为趋于不可信等级赋予初始等级值为0.5,为不可信等级赋予初始等级值为025。

在为每个可信度等级赋予初始等级值时,各个可信度等级之间的初始等级值可组成等差数列。这样的话,各个可信度等级之间的差值是一致的,使得量化得到的用户可信度具有较高的代表性和准确度。当然,技术人员可以根据具体情况来确定各个可信度等级的初始等级值,在此不做限定。

在按上述实施例确定待检测用户的可信度等级之后,确定与可信度等级对应的初始等级值,然后将初始等级值赋予待检测用户。假设,待检测用户为A,则用Cred(A)表示待检测用户的初始等级值。

步骤S602:确定与所述待检测用户相互关注的多个好友的初始等级值。

汉语中有句话为近朱者赤近墨者黑,应用到本申请中即为如果一个用户的周围朋友为不可信用户,那么该用户在一定程度上也可能向不可信靠拢。如果一个用户的周围朋友为可信用户,那么该用户在一定程度上向可信靠拢。

所以,本申请针对待检测用户的多个好友,均利用上述实施例来计算可信度等级,并根据每个好友的可信度等级赋予相应的初始等级值。假设选取待检测用户的m个好友,则好友用户的初始等级值可以采用Cred(i)i=1,2……m来表示。

步骤S603:依据所述多个好友的初始等级值以及所述待检测用户的初始等级值,量化所述待检测用户的可信度。

可以理解的是,单单使用待检测用户的初始等级值,或者单单使用多个好友的平均等级值,均无法准确量化待检测用户的可信度。因此,本步骤综合考虑多个好友的平均等级值以及待检测用户的初始等级值。

详细计算公式可以参见公式8:

…公式8

其中,i=1,2……m;C(A)用于表示所述待检测用户的量化可信度,Cred(A)表示所述待检测用户的初始等级值,Cred(i)表示m个好友的初始等级值,d表示调节因子。调节因子d可以在实验过程中确定,并依据实际情况而定,在此不再限定。图6所示的本实施例可以实现量化用户可信度目的。

如图7所示,本申请提供了一种用户可信度的计算装置,包括:

输入单元71,用于将待检测用户的特征信息输入至预设可信度模型;其中,所述预设可信度模型为利用已标定可信度等级的特征信息训练后得到的,以特征信息为输入并以可信度等级为输出的模型;所述特征信息包括用于体现用户个人信息的个人信息特征,以及,用于体现用户类型、级别及其社会网络影响力的网络信息特征;

输出单元72,用于在所述预设可信度模型计算之后,输出所述待检测用户的可信度等级。

其中,所述预设可信度模型包括至少三个可信度等级,并且,所述至少三个可信度等级包含可信等级和不可信等级。在优选的情况下,所述预设可信度模型包括四个可信度等级,并且,所述四个可信度等级分别为可信等级、趋于可信等级、趋于不可信等级和不可信等级。

其中,所述网络信息特征包括:

用于体现用户的粉丝增长速度的涨粉速率;

用于体现用户的信息发布频率的发布活跃度;

用于体现用户的信息收藏频率的收藏活跃度;

用于体现用户的关注粉丝比率的互粉比例系数;

用于体现用户的相互关注比例的关注相熟度;和/或,

用于体现用户的关注数量和粉丝数量比率的关注粉丝比。

其中,所述个人信息特征包括:

用户是否有个人描述,用户是否有个性化域名,用户是否微号,用户的性别,用户是否允许所有人给我发私信,用户是否允许标识用户的地理位置,用户是否与允许所有人对自己的微博进行评论,和/或,用户是否已进行实名认证。

所述特征信息还包括:用于体现用户所发布信息情感极性的情感极性因子;其中,所述情感极性包括用于表示用户所发布信息为乐观向上的正向情感极性、用于表示发布信息为消极负面的负向情感极性,或,表示发布信息无情感表达的中性情感极性。

特征信息中的所述情感极性因子的计算公式可以为:

其中,InfoEmotion表示情感极性因子、EmotionOfInfo表示某条发布信息的情感极性,n表示发布信息的数量,emotion+表示n条发布信息中情感极性为正向的数量总和,emotion-表示n条发布信息中情感极性为负向的数量总和。

如图8所示,本申请提供的一种用户可信度的计算装置还包括:

赋值单元81,用于为所述待检测用户赋予与所述可信度等级对应的初始等级值;

确定单元82,用于确定与所述待检测用户相互关注的多个好友的初始等级值;

量化单元83,用于依据所述多个好友的初始等级值以及所述待检测用户的初始等级值,量化所述待检测用户的可信度;

其中,在所述预设可信度模型中每个可信度等级均对应的一个初始等级值。

其中,所述量化所述待检测用户的可信度公式包括:

其中,C(A)用于表示所述待检测用户的量化可信度,Cred(A)表示所述待检测用户的初始等级值,Cred(i)表示m个好友的初始等级值,d表示调节因子。

其中,所述预设可信度模型中所有可信度等级初始等级值组成等差数列。

从以上技术特征,可以看出本申请具有以下技术手段:

由于本申请所使用的预设可信度模型为利用用户的网络信息特征和个人信息特征进行分析处理后得到的,所以,预设可信度模型可以综合考虑两个方面因素。相对于现有技术仅仅考虑一个方面因素而言,由于分析处理的因素增加,所以使得预设可信度模型可以更加准确表示特征信息与类别标签之间关系。所以,利用预设可信度模型计算得到的用户可信度更加准确。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1