一种微博用户交互式性别识别方法及装置的制造方法

文档序号:8282466阅读:391来源:国知局
一种微博用户交互式性别识别方法及装置的制造方法
【技术领域】
[0001] 本发明涉及自然语言处理和社交网络领域,尤其涉及一种微博用户交互式性别识 别方法及装置。
【背景技术】
[0002] 互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪 等各种情感的公共平台,并且产生大量的社交网站,同时微型博客(Microblog)也随之产 生,成为又一个跨时代产品。用户通过微博发表的文本中蕴含了大量的信息,且越来越多的 研宄工作开始关注微博,其中重要的一类研宄是微博用户性别类别。
[0003] 所谓微博用户性别类别,就是通过对微博用户的信息和关系数据进行决策树分 析、相关性分析和关联规则来挖掘用户性别特征,并根据这些特征来对单个用户的性别类 别进行分类。然而目前的研宄工作主要集中在通过用户的注册信息,对单个用户的性别进 行预测。

【发明内容】

[0004] 有鉴于此,本发明提供一种微博用户交互式性别识别方法和装置,通过用户之间 的交互文本信息,对用户的性别进行预测。
[0005] 为实现上述目的,本发明提供如下技术方案:
[0006] 一种微博用户交互式性别识别方法,包括:
[0007] 获取微博用户的个人资料信息和用户之间的交互文本信息;
[0008] 根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标 注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男;
[0009] 将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵 分类器;
[0010] 利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测 试样本性别进行识别。
[0011] 优选的,所述获取微博用户的个人资料信息和用户之间的交互文本信息,包括:
[0012] 构建一个用户队列;
[0013] 从用户队列取出一个种子用户,抓取种子用户个人资料信息和种子用户与其他用 户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用 户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中;
[0014] 反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
[0015] 优选的,所述根据所述个人资料信息,对用户之间的交互文本信息对交互式性别 类别进行标注,包括:
[0016] 根据所述个人资料信息中的性别信息对用户之间的交互文本信息进行交互时性 别类别进行标注。
[0017] 优选的,所述将进行标注的所述交互文本信息作为训练样本,并利用所述训练样 本建立最大摘分类器,包括:
[0018] 利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。
[0019] -种微博用户交互式性别识别装置,包括:
[0020] 信息采集模块,用于获取微博用户的个人资料信息和用户之间的交互文本信息;
[0021] 交互式性别类别标注模块,用于根据所述个人资料信息,对用户之间的交互文本 信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女 和男对男;
[0022] 分类器构建模块,用于将已经标注的所述交互文本信息作为训练样本,并利用所 述训练样本建立最大熵分类器;
[0023] 测试样本性别识别模块,用于利用所述最大熵分类器对测试样本的交互文本信息 进行交互式性别类别,以对测试样本性别进行识别。
[0024] 优选的,所述信息采集模块包括:
[0025] 用户列队构建单元,用于构建一个用户队列;
[0026] 种子用户选定单元,用于从用户队列取出一个种子用户,抓取种子用户个人资料 信息和种子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户 名、用户ID、性别、及关注用户和粉丝用等,并将关注用户和粉丝用户加入到用户队列中; 反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
[0027] 优选的,所述交互式性别类别标注模块包括:
[0028] 类别标注子模块,用于根据所述个人资料信息中的性别信息对用户之间的交互文 本信息进行交互时性别类别进行标注。
[0029] 优选的,所述分类器构建模块包括:
[0030] 分类器构建子模块,用于利用所述训练样本及Mallet提供的最大熵工具包构建 最大摘分类器。
[0031 ] 经由上述的技术方案可知,与现有技术相比,本方案公开了 一种微博用户交互式 性别识别方法及装置。该方法基于微博中用户之间的交互文本,用以识别某两个交互的微 博用户的交互式性别是女对女、女对男、男对女还是男对男。首先,获取微博用户的个人资 料信息和用户之间的交互微博文本,并利用交互用户个人资料中的性别信息对交互文本的 交互式性别类别进行标注;然后利用标注好的用户之间的交互文本作为训练样本,并利用 训练样本训练最大熵分类器;最后,对某测试交互用户集进行分类。综合来看,本发明可以 利用交互文本对微博中的两个交互用户的交互式性别进行识别,且在训练样本数量有限的 情况下,达到较高的准确率。
【附图说明】
[0032] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。
[0033] 图1示出了本发明一种微博用户交互式性别识别方法的一个实施例的流程示意 图;
[0034] 图2示出了本发明一种微博用户交互式性别识别装置的一个实施例的结构示意 图。
【具体实施方式】
[0035] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1