一种微博数据处理方法、装置及系统的制作方法_2

文档序号:8223639阅读:来源:国知局
样本 和负训练样本; 确定各个所述正训练样本和各个所述负训练样本中包含的数值为特征值; 依据公^
分别计算每个特征值在各个y各自分别为+1 和-1时,对应的正预测条件概率和负预测条件概率; 其中,所述y为任意一个正训练样本或任意一个负训练样本,所述X为特征值, Ρλ(γ|χ)为预测条件概率,exp〇为自然数e为底的指数函数,fi〇为二值特征函数,所述
,Ai为特征函数值fi(x, y)的权值且相同X对应的不同特征函数值的 权值相同
为对每个特征值对应的特征函数值进行求和的函数,
为对y为不同值时对 应的数据进行求和的函数,所述初始值已知; 利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预 测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值 各自对应的特征函数值的正最优权值; 利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预 测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值 各自对应的特征函数值的负最优权值。
6.根据权利要求5所述的方法,其特征在于,在所述正账号信息至少包括:用户ID、昵 称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、 昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述分别对各个所述正 类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本的过程包 括: 判断各个正类样本各自的两个正账号信息中的用户ID是否相同,若相同,则用数值1 表示正特征抽取结果第一子值,若不相同,则用数值0表示正特征抽取结果第一子值; 判断各个正类样本各自的两个正账号信息中的昵称是否相同,若相同,则用数值1表 示正特征抽取结果第二子值,若不相同,则用数值0表示正特征抽取结果第二子值; 判断各个正类样本各自的两个正账号信息中的性别是否相同,若相同,则用数值1表 示正特征抽取结果第三子值,若不相同,则用数值0表示正特征抽取结果第三子值; 比较各个正类样本各自的两个正账号信息中的年龄,若两个正账号信息中的年龄均未 填写,用数值〇表示正特征抽取结果第四子值,若两个正账号信息中仅有一个正账号信息 中的年龄已填写,则用数值1表示正特征抽取结果第四子值,若两个正账号信息中的年龄 相同,则用数值2表示正特征抽取结果第四子值,若两个正账号信息中的年龄不相同,则用 数值3表示正特征抽取结果第四子值; 判断各个正类样本各自的两个正账号信息中的所在地是否相同,若相同,则用数值1 表示正特征抽取结果第五子值,若不相同,则用数值0表示正特征抽取结果第五子值; 判断各个正类样本各自的两个正账号信息中的粉丝用户与关注用户的比例是否属于 同一比例范围,若是,则用数值1表示正特征抽取结果第六子值,若否,则用数值0表示正特 征抽取结果第六子值; 将各个正类样本各自对应的所述正特征抽取结果第一子值、所述正特征抽取结果第二 子值、所述正特征抽取结果第三子值、所述正特征抽取结果第四子值、所述正特征抽取结果 第五子值和所述正特征抽取结果第六子值组成正特征抽取结果值,作为各个正类样本各自 对应的正训练样本; 判断各个负类样本各自的两个负账号信息中的用户ID是否相同,若相同,则用数值1 表示负特征抽取结果第一子值,若不相同,则用数值〇表示负特征抽取结果第一子值; 判断各个负类样本各自的两个负账号信息中的昵称是否相同,若相同,则用数值1表 示负特征抽取结果第二子值,若不相同,则用数值O表示负特征抽取结果第二子值; 判断各个负类样本各自的两个负账号信息中的性别是否相同,若相同,则用数值1表 示负特征抽取结果第三子值,若不相同,则用数值O表示负特征抽取结果第三子值; 比较各个负类样本各自的两个负账号信息中的年龄,若两个负账号信息中的年龄均未 填写,用数值〇表示负特征抽取结果第四子值,若两个负账号信息中仅有一个负账号信息 中的年龄已填写,则用数值1表示负特征抽取结果第四子值,若两个负账号信息中的年龄 相同,则用数值2表示负特征抽取结果第四子值,若两个负账号信息中的年龄不相同,则用 数值3表示负特征抽取结果第四子值; 判断各个负类样本各自的两个负账号信息中的所在地是否相同,若相同,则用数值1 表示负特征抽取结果第五子值,若不相同,则用数值〇表示负特征抽取结果第五子值; 判断各个负类样本各自的两个负账号信息中的粉丝用户与关注用户的比例是否属于 同一比例范围,若是,则用数值1表示负特征抽取结果第六子值,若否,则用数值O表示负特 征抽取结果第六子值; 将各个负类样本各自对应的所述负特征抽取结果第一子值、所述负特征抽取结果第二 子值、所述负特征抽取结果第三子值、所述负特征抽取结果第四子值、所述负特征抽取结果 第五子值和所述负特征抽取结果第六子值组成负特征抽取结果值,作为各个负类样本各自 对应的负训练样本。
7. -种微博数据处理装置,其特征在于,包括: 第一特征抽取单元,用于对待测样本进行特征抽取,得到待测特征抽取结果值,其中, 所述待测样本为第一微博账号信息和第二微博账号信息组成的一对信息,所述第一微博 账号信息对应的账号所属微博网站和所述第二微博账号信息对应的账号所属微博网站不 同; 第一确定单元,用于确定所述待测特征抽取结果值所包含的各个数值为待分类特征 值; 第一计算单元,用于使用最大熵分类器,计算每个待分类特征值在所述待测样本预设 为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率; 第二计算单元,用于将各个待分类特征值对应的待分类正预测子条件概率进行乘运 算,得到待分类正预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进 行乘运算,得到待分类负预测条件概率; 比较单元,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大 小,在比较结果为所述待分类正预测条件概率最大的情况下,触发第二确定单元确定所述 待测样本的类别为正,在比较结果为所述待分类负预测条件概率最大的情况下,触发第三 确定单元确定所述待测样本的类别为负; 第四确定单元,用于在所述待测样本的类别为正时,确定所述待测样本对应的两个账 号属于同一用户; 第五确定单元,用于在所述待测样本的类别为负时,确定所述待测样本对应的两个账 号不属于同一用户。
8. 根据权利要求7所述的装置,其特征在于,所述第一计算单元包括: 计算子单元,用于使用最大熵目标函数公式
'分别计算 每个待分类特征值在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预 测子条件概率,其中,该y为待测样本,该X为待分类特征值,Ρλ (y IX)为待分类预测子条件 概率,exp〇为自然数e为底的指数函数,AO为二值特征函数,所述.
, λ i为特征函数值f i (X,y)在y为+1时的正最优权值或在y为-1时的负最优权值且相同 X对应的不同特征函数值的权值相同
为对每个待分类特征值对应的特征函数值进行求 和的函数
为对y为不同值时对应的数据进行求和的函数; 其中,所述y为+1表示所述待测样本预设为正类,所述y为-1表示所述待测样本预设 为负类,每个待分类特征值对应的各个特征函数值分别对应所述待测样本的预设类型正和 负,在计算待分类正预测子条件概率时,若待分类特征值包含在预设特征值中,则λ为该 待分类特征值对应的正最优权值,否则λ为〇,在计算待分类负预测子条件概率时,若待分 类特征值包含在所述预设特征值中,则λ为该待分类特征值对应的负最优权值,否则λ为 0〇
9. 根据权利要求7或8所述的装置,其特征在于,在所述第一微博账号信息和所述第二 微博账号信息各自至少包括:用户身份标识号码ID、昵称、性别、年龄、所在地和粉丝用户 与关注用户的比例的情况下,所述第一特征抽取单元包括: 第一判断子单元,用于判断所述第一微博账号信息中的用户ID和所述第二微博账号 信息中的用户ID是否相同,若相同,则用数值1表示待测特征抽取结果第一子值,若不相 同,则用数值〇表示待测特征抽取结果第一子值; 第二判断子单元,用于判断所述第一微博账号信息中的昵称和所述第二微博账号信息 中的昵称是否相同,若相同,则用数值1表示待测特征抽取结果第二子值,若不相同,则用 数值〇表示待测特征抽取结果第二子值; 第三判断子单元,用于判断所述第一微博账号信息中的性别和所述第二微博账号信息 中的性别是否相同,若相同,则用数值1表示待测特征抽取结果第三子值,若不相同,则用 数值〇表示待测特征抽取结果第三子值; 第一比较子单元,用于比较所述第一微博账号信息中的年龄和所述第二微博账号信 息中的年龄,若所述第一微博账号信息中的
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1