一种基于微博用户关系的用户性别识别方法及系统的制作方法

文档序号:6628143阅读:888来源:国知局
一种基于微博用户关系的用户性别识别方法及系统的制作方法
【专利摘要】本发明提供一种基于微博用户关系的用户性别识别方法及系统,本发明方法包括以下步骤:S1.根据微博网站提供的API接口,收集微博用户的用户信息,并对不同用户进行分类。S2.根据已分类用户的userid获取其关注者和粉丝两者的userid,并将所述关注者和粉丝两者的userid整理成文本。S3.使用信息增益对训练样本进行特征提取,并使用最大熵分类器将待分类样本进行分类。本发明相比使用微博文本,具有更好的微博用户性别分类效果。
【专利说明】-种基于微博用户关系的用户性别识别方法及系统

【技术领域】
[0001] 本发明属于自然语言处理【技术领域】,具体涉及一种基于微博用户关系的用户性别 识别方法及系统。

【背景技术】
[0002] 目前,微博是web2. 0时代新兴起的一种集成化、开放化的互联网社交服务。它打 通了移动通信网和互联网的界限,用户可以通过手机、頂软件和外部API接口等途径,即时 向外发布140字以内的文本,因此越来越受到互联网用户的青睐。数据显示,截止到2011年 5月底,仅在Twitter网上的微博注册用户就已达3亿。以新浪微博为例,从2009年8月新 浪微博开始发布,到2011年4月,仅20个月的时间,新浪微博注册用户便达到1. 42亿。继 新浪微博上线后,腾讯、网易、搜狐等也纷纷微博服务。微博已经成为中国网民上网的主要 活动之一,在此环境下,微博分析技术渐渐受到广大研究者的关注。
[0003] 微博的自动分析一般集中在两项基本任务上面:微博用户分析和微博内容分析。 其中,微博用户分析是微博内容分析的基础。对于微博用户性别的识别,已有的研究主要是 针对Twitter等外文网站,大多数通过对文本信息的各种分析、处理,来实现性别的分类, 这一类主要是通过微博内容分析来实现的。由于微博消息不像传统的文本,其内容短小且 多用口语化,并且消息中经常有一些表情符号,传统的文本分类方法,达不到很好的分类效 果。
[0004] 鉴于此,本发明提出一种基于微博用户关系的用户性别识别方法及系统,以解决 上述问题。


【发明内容】

[0005] 本发明提供一种基于微博用户关系的用户性别识别方法,包括以下步骤。
[0006] S1 :根据微博网站提供的API接口,收集微博用户的用户信息,并对不同用户进行 分类。
[0007] S2 :根据已分类用户的userid获取其关注者和粉丝两者的userid,并将所述关注 者和粉丝两者的userid整理成文本。
[0008] S3 :使用信息增益对训练样本进行特征提取,并使用最大熵分类器将待分类样本 进行分类。
[0009] 优选的,在步骤S1中,所述用户信息包括用户的关注者和粉丝两者的userid及 gender字段,并且对不同用户根据gender字段进行分类。
[0010] 优选的,在步骤S1中,所述收集微博用户的用户信息过程包括以下步骤:
[0011] S101、随机选择一个用户作为种子用户,利用微博提供的API接口抓取用户的用 户信息;
[0012] S102、根据所抓取的用户信息中的关注者和粉丝两者的userid,继续抓取所述关 注者和粉丝两者的用户信息,直至抓取数量达到所需规模。
[0013] 优选的,在步骤S1中,是根据所抓取的用户信息中的gender字段值,对用户类型 进行分类,其中gender字段值包括m、f及n,m表示男,f表示女,η表示未知。
[0014] 优选的,步骤S2还包括:将所述关注者和粉丝两者的userid整理成文本后,分别 存放在文件的两行,并选取等量的男性及女性用户文本形成训练样本,另外选取等量的男 性及女性用户文本形成测试样本。
[0015] 优选的,步骤S3还包括,利用训练样本构建最大熵分类器,其中使用的最大熵是 MALLET机器学习工具包。
[0016] 优选的,步骤S3所述的信息增益计算方式为:
[0017]

【权利要求】
1. 一种基于微博用户关系的用户性别识别方法,其特征在于,包括以下步骤: 51、 根据微博网站提供的API接口,收集微博用户的用户信息,并对不同用户进行分 类; 52、 根据已分类用户的userid获取其关注者和粉丝两者的userid,并将所述关注者和 粉丝两者的userid整理成文本; 53、 使用信息增益对训练样本进行特征提取,并使用最大熵分类器将待分类样本进行 分类。
2. 根据权利要求1所述的方法,其特征在于,在步骤Sl中,所述用户信息包括用户的关 注者和粉丝两者的userid及gender字段,并且对不同用户根据gender字段进行分类。
3. 根据权利要求1或2所述的方法,其特征在于,在步骤Sl中,所述收集微博用户的用 户信息过程包括以下步骤: 5101、 随机选择一个用户作为种子用户,利用微博提供的API接口抓取用户的用户信 息; 5102、 根据所抓取的用户信息中的关注者和粉丝两者的userid,继续抓取所述关注者 和粉丝两者的用户信息,直至抓取数量达到所需规模。
4. 根据权利要求1或2所述的方法,其特征在于,在步骤Sl中,是根据所抓取的用户信 息中的gender字段值,对用户类型进行分类,其中gender字段值包括m、f及n,m表示男, f表不女,n表不未知。
5. 根据权利要求1所述的方法,其特征在于,步骤S2还包括:将所述关注者和粉丝两 者的userid整理成文本后,分别存放在文件的两行,并选取等量的男性及女性用户文本形 成训练样本,另外选取等量的男性及女性用户文本形成测试样本。
6. 根据权利要求1所述的方法,其特征在于,步骤S3还包括,利用训练样本构建最大熵 分类器,其中使用的最大熵是MALLET机器学习工具包。
7. 根据权利要求1所述的方法,其特征在于,步骤S3所述的信息增益计算方式为:
其中,P(Cj)表示Cj类文档在语料中出现的概率,PUi)表示语料中包含特征项&的文 档的概率,P(C^ti)表示文档包含特征项&时属于q类时的条件概率,P(i;)表示语料中不 包含特征项h的文档的概率,P(Cy 11,.)表示文档不包含特征项&时属于&的条件概率,M表示类别数。
8. 根据权利要求7所述的方法,其特征在于,计算信息增益后,选择信息增益值排在前 4000 位的userid。
9. 一种基于微博用户关系的用户性别识别系统,其特征在于,包括语料获取与预处理 模块、用户信息处理模块、训练分类器模块及待测用户分类模块,所述语料获取与预处理模 块连接用户信息处理模块,所述用户信息处理模块连接训练分类器模块,所述训练分类器 模块连接待测用户分类模块, 所述语料获取与预处理模块,用于根据API接口获取微博用户的用户信息; 所述用户信息处理模块,用于根据用户gender字段值将用户分类,再根据用户userid将用户关系整理成相应格式的文本,并从中随机选出训练样本、测试样本; 所述训练分类器模块,用于构建最大熵分类器; 所述待测用户分类模块,用于根据所述最大熵分类器对待测数据进行分类。
【文档编号】G06F17/30GK104268214SQ201410494539
【公开日】2015年1月7日 申请日期:2014年9月24日 优先权日:2014年9月24日
【发明者】李寿山, 黄磊, 周国栋, 孔芳 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1