一种微博数据处理方法、装置及系统的制作方法

文档序号:8223639阅读:329来源:国知局
一种微博数据处理方法、装置及系统的制作方法
【技术领域】
[0001] 本申请设及自然语言处理及社交网络领域,特别设及一种微博数据处理方法、装 置及系统。
【背景技术】
[0002] 近几年来,随着社交网络的迅猛发展,微型博客(Micro-blog)备受用户的青睐, 如新浪微博、腾讯微博是国内知名的微博网站,截止到2012年12月,新浪微博注册用户突 破5. 03亿,腾讯微博则达到了 5. 4亿,而微博用户每日发博量超过惊人的2亿条。由于微 博既具有媒体传播特性,又具有社交网络特性,因此吸引了众多研究人员对微博数据进行 分析研究。
[0003] 其中,对微博数据进行分析研究中,识别不同微博网站下的同一用户是比较重要 的,因为能够识别出不同微博网站下的同一用户将有利于企业制定精准的广告投放,有助 于研究同一用户使用不同社交网络的使用动机分析及其相关分析W此来帮助社交网络运 营更好的开发社交网络产品。
[0004] 但是,目前尚不存在一种行之有效的方法来识别出不同微博网站下的同一用户。

【发明内容】

[0005] 为解决上述技术问题,本申请实施例提供一种微博数据处理方法、装置及系统,W 达到对不同微博网站下的同一用户的识别的目的,技术方案如下:
[0006] 一种微博数据处理方法,包括:
[0007] 对待测样本进行特征抽取,得到待测特征抽取结果值,其中,所述待测样本为第一 微博账号信息和第二微博账号信息组成的一对信息,所述第一微博账号信息对应的账号所 属微博网站和所述第二微博账号信息对应的账号所属微博网站不同;
[000引确定所述待测特征抽取结果值所包含的各个数值为待分类特征值;
[0009] 使用最大滴分类器,计算每个待分类特征值在所述待测样本预设为正类和负类 时,对应的待分类正预测子条件概率和待分类负预测子条件概率;
[0010] 将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正 预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待 分类负预测条件概率;
[0011] 比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;
[0012] 在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类 别为正;
[0013] 在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类 别为负;
[0014] 在所述待测样本的类别为正时,确定所述待测样本对应的两个账号属于同一用 户;
[0015] 在所述待测样本的类别为负时,确定所述待测样本对应的两个账号不属于同一用 户。
[0016] 优选的,所述使用最大滴分类器,计算每个待分类特征值在所述待测样本预设为 正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的过程,包 括:
[0017] 使用最大滴目标函数公式
【主权项】
1. 一种微博数据处理方法,其特征在于,包括: 对待测样本进行特征抽取,得到待测特征抽取结果值,其中,所述待测样本为第一微博 账号信息和第二微博账号信息组成的一对信息,所述第一微博账号信息对应的账号所属微 博网站和所述第二微博账号信息对应的账号所属微博网站不同; 确定所述待测特征抽取结果值所包含的各个数值为待分类特征值; 使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对 应的待分类正预测子条件概率和待分类负预测子条件概率; 将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正预测 条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待分类 负预测条件概率; 比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小; 在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为 正; 在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为 负; 在所述待测样本的类别为正时,确定所述待测样本对应的两个账号属于同一用户; 在所述待测样本的类别为负时,确定所述待测样本对应的两个账号不属于同一用户。
2. 根据权利要求1所述的方法,其特征在于,所述使用最大熵分类器,计算每个待分类 特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负 预测子条件概率的过程,包括: 使用最大熵目标函数公式
'分别计算每个待分类特征值 在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其 中,该y为待测样本,该X为待分类特征值,Pλ (y IX)为待分类预测子条件概率,exp ()为自 然数e为底的指数函数,fi ()为二值特征函数,所述
,Ai为特征函数值 fi(x,y)在y为+1时的正最优权值或在y为-1时的负最优权值且相同X对应的不同特征函 数值的权值相同,
9对每个待分类特征值对应的特征函数值进行求和的函数,
%对7 为不同值时对应的数据进行求和的函数; 其中,所述y为+1表示所述待测样本预设为正类,所述y为-1表示所述待测样本预设 为负类,每个待分类特征值对应的各个特征函数值分别对应所述待测样本的预设类型正和 负,在计算待分类正预测子条件概率时,若待分类特征值包含在预设特征值中,则λ为该 待分类特征值对应的正最优权值,否则λ为〇,在计算待分类负预测子条件概率时,若待分 类特征值包含在所述预设特征值中,则λ为该待分类特征值对应的负最优权值,否则λ为 0〇
3. 根据权利要求1或2所述的方法,其特征在于,所述第一微博账号信息和所述第二微 博账号信息各自至少包括: 用户身份标识号码ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例。
4. 根据权利要求3所述的方法,其特征在于,所述对待测样本进行特征抽取,得到待测 特征抽取结果值的过程,包括: 判断所述第一微博账号信息中的用户ID和所述第二微博账号信息中的用户ID是否相 同,若相同,则用数值1表示待测特征抽取结果第一子值,若不相同,则用数值〇表示待测特 征抽取结果第一子值; 判断所述第一微博账号信息中的昵称和所述第二微博账号信息中的昵称是否相同,若 相同,则用数值1表示待测特征抽取结果第二子值,若不相同,则用数值〇表示待测特征抽 取结果第二子值; 判断所述第一微博账号信息中的性别和所述第二微博账号信息中的性别是否相同,若 相同,则用数值1表示待测特征抽取结果第三子值,若不相同,则用数值〇表示待测特征抽 取结果第三子值; 比较所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄,若所述第一 微博账号信息中的年龄和所述第二微博账号信息中的年龄均未填写,用数值〇表示待测特 征抽取结果第四子值,若所述第一微博账号信息和所述第二微博账号信息中仅有一个微博 账号信息中的年龄已填写,则用数值1表示待测特征抽取结果第四子值,若所述第一微博 账号信息中的年龄和所述第二微博账号信息中的年龄相同,则用数值2表示待测特征抽取 结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄不相 同,则用数值3表示待测特征抽取结果第四子值; 判断所述第一微博账号信息中的所在地和所述第二微博账号信息中的所在地是否相 同,若相同,则用数值1表示待测特征抽取结果第五子值,若不相同,则用数值〇表示待测特 征抽取结果第五子值; 判断所述第一微博账号信息中的粉丝用户与关注用户的比例和所述第二微博账号信 息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示待测特 征抽取结果第六子值,若否,则用数值O表示待测特征抽取结果第六子值; 将所述待测特征抽取结果第一子值、所述待测特征抽取结果第二子值、所述待测特征 抽取结果第三子值、所述待测特征抽取结果第四子值、所述待测特征抽取结果第五子值和 所述待测特征抽取结果第六子值组成待测特征抽取结果值。
5. 根据权利要求1所述的方法,其特征在于,所述最大熵分类器的训练过程包括: 获取多个不同的正类样本和多个不同的负类样本,所述正类样本包括两个正账号信 息,两个正账号信息分别为同一用户在两个不同微博网站中的账号信息,所述负类样本包 括两个负账号信信息,两个负账号信息属于不同用户且其各自对应的账号属于不同的微博 网站,所述正类样本对应的两个微博网站与所述负类样本对应的两个微博网站相同,所述 待测样本对应的两个微博网站与所述正类样本对应的两个微博网站相同; 分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1