一种微博用户交互式性别识别方法及装置的制造方法_2

文档序号:8282466阅读:来源:国知局
在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0036] 微博不仅仅给单个用户发表自己的感悟和建议提供了一个好的平台,而且利用某 些交互机制让其用户之间可以进行交互沟通。因此利用两个微博用户之间的交互文本对用 户交互式性别进行分类是一项具有重要意义的任务。具体来讲,该任务将微博用户之间的 交互划分为四种类别,分别为:女对女(ff)、女对男(fm)、男对女(mf)和男对男(mm)。值 得注意的是,该任务不仅能预测用户的性别,而且能帮助社会学研宄人与人之间的交流,并 且在使人机交互更人性化方面有一定的价值。
[0037] 参见图1示出了本发明一种微博用户交互式性别识别方法的一个实施例的流程 示意图。
[0038] 由图1可知,在本实施例中,该方法包括:
[0039] 101 :获取微博用户的个人资料信息和用户之间的交互文本信息。
[0040] 可选的,在本实施例中,微博用户的个人资料信息和用户信息可通过微博提供的 API接口进行抓取。
[0041] 具体的抓取过程为:构建一个用户队列;从用户队列取出一个用户作为种子用 户,抓取种子用户的个人资料信息和种子用户与其他用户之间的交互文本信息。其中,所述 用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉 丝用户加入到用户队列中。
[0042] 进而,反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
[0043] 102 :根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行 标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男。
[0044] 通过步骤101中抓取的用户个人资料中的性别信息,用户之间的额交互文本信息 进行交互式性别类别标注。该性别类别标注具体以下四种,女对女(ff)、女对男(fm)、男对 女(mf)和男对男(mm)。需要说明的是,在抓取时需要保证每两个交互的用户之间的微博评 论数不少于十条,以保证抓取的可靠性。参见表1示出了本发明所抓取的多个用户样本。
[0045]
【主权项】
1. 一种微博用户交互式性别识别方法,其特征在于,包括: 获取微博用户的个人资料信息和用户之间的交互文本信息; 根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其 中所述交互式性别类别包括;女对女、女对男、男对女和男对男; 将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大滴分类 器; 利用所述最大滴分类器对测试样本的交互文本信息进行交互式性别类别,W对测试样 本性别进行识别。
2. 根据权利要求1所述的方法,其特征在于,所述获取微博用户的个人资料信息和用 户之间的交互文本信息,包括: 构建一个用户队列; 从用户队列取出一个种子用户,抓取种子用户个人资料信息和种子用户与其他用户之 间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和 粉丝用户,并将关注用户和粉丝用户加入到用户队列中; 反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
3. 根据权利要求1所述的方法,其特征在于,所述根据所述个人资料信息,对用户之间 的交互文本信息对交互式性别类别进行标注,包括: 根据所述个人资料信息中的性别信息对用户之间的交互文本信息进行交互时性别类 别进行标注。
4. 根据权利要求1所述的方法,其特征在于,所述将进行标注的所述交互文本信息作 为训练样本,并利用所述训练样本建立最大滴分类器,包括: 利用所述训练样本及Mallet提供的最大滴工具包构建最大滴分类器。
5. -种微博用户交互式性别识别装置,其特征在于,包括: 信息采集模块,用于获取微博用户的个人资料信息和用户之间的交互文本信息; 交互式性别类别标注模块,用于根据所述个人资料信息,对用户之间的交互文本信息 对交互式性别类别进行标注,其中所述交互式性别类别包括;女对女、女对男、男对女和男 对男; 分类器构建模块,用于将已经标注的所述交互文本信息作为训练样本,并利用所述训 练样本建立最大滴分类器; 测试样本性别识别模块,用于利用所述最大滴分类器对测试样本的交互文本信息进行 交互式性别类别,W对测试样本性别进行识别。
6. 根据权利要求5所述的装置,其特征在于,所述信息采集模块包括: 用户列队构建单元,用于构建一个用户队列; 种子用户选定单元,用于从用户队列取出一个用户,抓取种子用户个人资料信息和种 子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、 性别、及关注用户和粉丝用等,并将关注用户和粉丝用户加入到用户队列中;反复抓取多个 种子用户,直到抓取的种子用户数目达到设定数值。
7. 根据权利要求5所述的装置,其特征在于,所述交互式性别类别标注模块包括: 类别标注子模块,用于根据所述个人资料信息中的性别信息对用户之间的交互文本信 息进行交互式性别类别进行标注。
8.根据权利要求5所述的装置,其特征在于,所述分类器构建模块包括: 分类器构建子模块,用于利用所述训练样本及Mallet提供的最大滴工具包构建最大 滴分类器。
【专利摘要】本方案公开了一种微博用户交互式性别识别方法及装置。该方法首先获取微博用户的个人资料信息和用户之间的交互微博文本,并利用交互用户个人资料中的性别信息对交互文本的交互式性别类别进行标注;然后利用标注好的用户之间的交互文本作为训练样本,并利用训练样本训练最大熵分类器;最后,对某测试交互用户集进行分类。综合来看,本发明可以利用交互文本对微博中的两个交互用户的交互式性别进行识别,且在训练样本数量有限的情况下,达到较高的准确率。
【IPC分类】G06F17-30
【公开号】CN104598648
【申请号】CN201510087855
【发明人】李寿山, 王晶晶, 段湘煜, 周国栋
【申请人】苏州大学
【公开日】2015年5月6日
【申请日】2015年2月26日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1