一种微博数据处理方法、装置及系统的制作方法

文档序号：8223639阅读：329来源：国知局

一种微博数据处理方法、装置及系统的制作方法
【技术领域】
[0001] 本申请设及自然语言处理及社交网络领域，特别设及一种微博数据处理方法、装置及系统。
【背景技术】
[0002] 近几年来，随着社交网络的迅猛发展，微型博客（Micro-blog)备受用户的青睐，如新浪微博、腾讯微博是国内知名的微博网站，截止到2012年12月，新浪微博注册用户突破5. 03亿，腾讯微博则达到了 5. 4亿，而微博用户每日发博量超过惊人的2亿条。由于微博既具有媒体传播特性，又具有社交网络特性，因此吸引了众多研究人员对微博数据进行分析研究。
[0003] 其中，对微博数据进行分析研究中，识别不同微博网站下的同一用户是比较重要的，因为能够识别出不同微博网站下的同一用户将有利于企业制定精准的广告投放，有助于研究同一用户使用不同社交网络的使用动机分析及其相关分析W此来帮助社交网络运营更好的开发社交网络产品。
[0004] 但是，目前尚不存在一种行之有效的方法来识别出不同微博网站下的同一用户。

【发明内容】

[0005] 为解决上述技术问题，本申请实施例提供一种微博数据处理方法、装置及系统，W 达到对不同微博网站下的同一用户的识别的目的，技术方案如下：
[0006] 一种微博数据处理方法，包括：
[0007] 对待测样本进行特征抽取，得到待测特征抽取结果值，其中，所述待测样本为第一微博账号信息和第二微博账号信息组成的一对信息，所述第一微博账号信息对应的账号所属微博网站和所述第二微博账号信息对应的账号所属微博网站不同；
[000引确定所述待测特征抽取结果值所包含的各个数值为待分类特征值；
[0009] 使用最大滴分类器，计算每个待分类特征值在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率；
[0010] 将各个待分类特征值对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个待分类特征值对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率；
[0011] 比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小；
[0012] 在比较结果为所述待分类正预测条件概率最大的情况下，确定所述待测样本的类别为正；
[0013] 在比较结果为所述待分类负预测条件概率最大的情况下，确定所述待测样本的类别为负；
[0014] 在所述待测样本的类别为正时，确定所述待测样本对应的两个账号属于同一用户；
[0015] 在所述待测样本的类别为负时，确定所述待测样本对应的两个账号不属于同一用户。
[0016] 优选的，所述使用最大滴分类器，计算每个待分类特征值在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率的过程，包括：
[0017] 使用最大滴目标函数公式
【主权项】
1. 一种微博数据处理方法，其特征在于，包括：对待测样本进行特征抽取，得到待测特征抽取结果值，其中，所述待测样本为第一微博账号信息和第二微博账号信息组成的一对信息，所述第一微博账号信息对应的账号所属微博网站和所述第二微博账号信息对应的账号所属微博网站不同；确定所述待测特征抽取结果值所包含的各个数值为待分类特征值；使用最大熵分类器，计算每个待分类特征值在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率；将各个待分类特征值对应的待分类正预测子条件概率进行乘运算，得到待分类正预测条件概率，将各个待分类特征值对应的待分类负预测子条件概率进行乘运算，得到待分类负预测条件概率；比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小；在比较结果为所述待分类正预测条件概率最大的情况下，确定所述待测样本的类别为正；在比较结果为所述待分类负预测条件概率最大的情况下，确定所述待测样本的类别为负；在所述待测样本的类别为正时，确定所述待测样本对应的两个账号属于同一用户；在所述待测样本的类别为负时，确定所述待测样本对应的两个账号不属于同一用户。
2. 根据权利要求1所述的方法，其特征在于，所述使用最大熵分类器，计算每个待分类特征值在所述待测样本预设为正类和负类时，对应的待分类正预测子条件概率和待分类负预测子条件概率的过程，包括：使用最大熵目标函数公式
'分别计算每个待分类特征值在y分别为+1和-1时，对应的待分类正预测子条件概率和待分类负预测子条件概率，其中，该y为待测样本，该X为待分类特征值，Pλ (y IX)为待分类预测子条件概率，exp ()为自然数e为底的指数函数，fi ()为二值特征函数，所述
，Ai为特征函数值 fi(x，y)在y为+1时的正最优权值或在y为-1时的负最优权值且相同X对应的不同特征函数值的权值相同，
9对每个待分类特征值对应的特征函数值进行求和的函数，
％对7 为不同值时对应的数据进行求和的函数；其中，所述y为+1表示所述待测样本预设为正类，所述y为-1表示所述待测样本预设为负类，每个待分类特征值对应的各个特征函数值分别对应所述待测样本的预设类型正和负，在计算待分类正预测子条件概率时，若待分类特征值包含在预设特征值中，则λ为该待分类特征值对应的正最优权值，否则λ为〇,在计算待分类负预测子条件概率时，若待分类特征值包含在所述预设特征值中，则λ为该待分类特征值对应的负最优权值，否则λ为 0〇
3. 根据权利要求1或2所述的方法，其特征在于，所述第一微博账号信息和所述第二微博账号信息各自至少包括：用户身份标识号码ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例。
4. 根据权利要求3所述的方法，其特征在于，所述对待测样本进行特征抽取，得到待测特征抽取结果值的过程，包括：判断所述第一微博账号信息中的用户ID和所述第二微博账号信息中的用户ID是否相同，若相同，则用数值1表示待测特征抽取结果第一子值，若不相同，则用数值〇表示待测特征抽取结果第一子值；判断所述第一微博账号信息中的昵称和所述第二微博账号信息中的昵称是否相同，若相同，则用数值1表示待测特征抽取结果第二子值，若不相同，则用数值〇表示待测特征抽取结果第二子值；判断所述第一微博账号信息中的性别和所述第二微博账号信息中的性别是否相同，若相同，则用数值1表示待测特征抽取结果第三子值，若不相同，则用数值〇表示待测特征抽取结果第三子值；比较所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄，若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄均未填写，用数值〇表示待测特征抽取结果第四子值，若所述第一微博账号信息和所述第二微博账号信息中仅有一个微博账号信息中的年龄已填写，则用数值1表示待测特征抽取结果第四子值，若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄相同，则用数值2表示待测特征抽取结果第四子值，若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄不相同，则用数值3表示待测特征抽取结果第四子值；判断所述第一微博账号信息中的所在地和所述第二微博账号信息中的所在地是否相同，若相同，则用数值1表示待测特征抽取结果第五子值，若不相同，则用数值〇表示待测特征抽取结果第五子值；判断所述第一微博账号信息中的粉丝用户与关注用户的比例和所述第二微博账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围，若是，则用数值1表示待测特征抽取结果第六子值，若否，则用数值O表示待测特征抽取结果第六子值；将所述待测特征抽取结果第一子值、所述待测特征抽取结果第二子值、所述待测特征抽取结果第三子值、所述待测特征抽取结果第四子值、所述待测特征抽取结果第五子值和所述待测特征抽取结果第六子值组成待测特征抽取结果值。
5. 根据权利要求1所述的方法，其特征在于，所述最大熵分类器的训练过程包括：获取多个不同的正类样本和多个不同的负类样本，所述正类样本包括两个正账号信息，两个正账号信息分别为同一用户在两个不同微博网站中的账号信息，所述负类样本包括两个负账号信信息，两个负账号信息属于不同用户且其各自对应的账号属于不同的微博网站，所述正类样本对应的两个微博网站与所述负类样本对应的两个微博网站相同，所述待测样本对应的两个微博网站与所述正类样本对应的两个微博网站相同；分别对各个所述正类样本和各个所述负类样本进行特征抽取，得到对应的正训练

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李寿山;王晶晶;段湘煜;周国栋;
技术所有人：苏州大学;
我是此专利的发明人

上一篇：一种缓存数据的更新方法、数据使用端和系统的制作方法
上一篇：文章处理的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。