一种基于微博用户关系的用户性别识别方法及系统的制作方法

文档序号：6628143阅读：888来源：国知局

一种基于微博用户关系的用户性别识别方法及系统的制作方法
【专利摘要】本发明提供一种基于微博用户关系的用户性别识别方法及系统，本发明方法包括以下步骤：S1.根据微博网站提供的API接口，收集微博用户的用户信息，并对不同用户进行分类。S2.根据已分类用户的userid获取其关注者和粉丝两者的userid，并将所述关注者和粉丝两者的userid整理成文本。S3.使用信息增益对训练样本进行特征提取，并使用最大熵分类器将待分类样本进行分类。本发明相比使用微博文本，具有更好的微博用户性别分类效果。
【专利说明】-种基于微博用户关系的用户性别识别方法及系统

【技术领域】
[0001] 本发明属于自然语言处理【技术领域】，具体涉及一种基于微博用户关系的用户性别识别方法及系统。

【背景技术】
[0002] 目前，微博是web2. 0时代新兴起的一种集成化、开放化的互联网社交服务。它打通了移动通信网和互联网的界限，用户可以通过手机、頂软件和外部API接口等途径，即时向外发布140字以内的文本，因此越来越受到互联网用户的青睐。数据显示，截止到2011年 5月底，仅在Twitter网上的微博注册用户就已达3亿。以新浪微博为例，从2009年8月新浪微博开始发布，到2011年4月，仅20个月的时间，新浪微博注册用户便达到1. 42亿。继新浪微博上线后，腾讯、网易、搜狐等也纷纷微博服务。微博已经成为中国网民上网的主要活动之一，在此环境下，微博分析技术渐渐受到广大研究者的关注。
[0003] 微博的自动分析一般集中在两项基本任务上面：微博用户分析和微博内容分析。其中，微博用户分析是微博内容分析的基础。对于微博用户性别的识别，已有的研究主要是针对Twitter等外文网站，大多数通过对文本信息的各种分析、处理，来实现性别的分类，这一类主要是通过微博内容分析来实现的。由于微博消息不像传统的文本,其内容短小且多用口语化，并且消息中经常有一些表情符号，传统的文本分类方法，达不到很好的分类效果。
[0004] 鉴于此，本发明提出一种基于微博用户关系的用户性别识别方法及系统，以解决上述问题。

【发明内容】

[0005] 本发明提供一种基于微博用户关系的用户性别识别方法，包括以下步骤。
[0006] S1 :根据微博网站提供的API接口，收集微博用户的用户信息，并对不同用户进行分类。
[0007] S2 :根据已分类用户的userid获取其关注者和粉丝两者的userid，并将所述关注者和粉丝两者的userid整理成文本。
[0008] S3 :使用信息增益对训练样本进行特征提取，并使用最大熵分类器将待分类样本进行分类。
[0009] 优选的，在步骤S1中，所述用户信息包括用户的关注者和粉丝两者的userid及 gender字段，并且对不同用户根据gender字段进行分类。
[0010] 优选的，在步骤S1中，所述收集微博用户的用户信息过程包括以下步骤：
[0011] S101、随机选择一个用户作为种子用户，利用微博提供的API接口抓取用户的用户信息；
[0012] S102、根据所抓取的用户信息中的关注者和粉丝两者的userid，继续抓取所述关注者和粉丝两者的用户信息，直至抓取数量达到所需规模。
[0013] 优选的，在步骤S1中，是根据所抓取的用户信息中的gender字段值，对用户类型进行分类，其中gender字段值包括m、f及n，m表示男，f表示女，η表示未知。
[0014] 优选的，步骤S2还包括：将所述关注者和粉丝两者的userid整理成文本后，分别存放在文件的两行，并选取等量的男性及女性用户文本形成训练样本，另外选取等量的男性及女性用户文本形成测试样本。
[0015] 优选的，步骤S3还包括，利用训练样本构建最大熵分类器，其中使用的最大熵是 MALLET机器学习工具包。
[0016] 优选的，步骤S3所述的信息增益计算方式为：
[0017]

【权利要求】
1. 一种基于微博用户关系的用户性别识别方法，其特征在于，包括以下步骤： 51、根据微博网站提供的API接口，收集微博用户的用户信息，并对不同用户进行分类； 52、根据已分类用户的userid获取其关注者和粉丝两者的userid，并将所述关注者和粉丝两者的userid整理成文本； 53、使用信息增益对训练样本进行特征提取，并使用最大熵分类器将待分类样本进行分类。
2. 根据权利要求1所述的方法，其特征在于，在步骤Sl中，所述用户信息包括用户的关注者和粉丝两者的userid及gender字段，并且对不同用户根据gender字段进行分类。
3. 根据权利要求1或2所述的方法，其特征在于，在步骤Sl中，所述收集微博用户的用户信息过程包括以下步骤： 5101、随机选择一个用户作为种子用户，利用微博提供的API接口抓取用户的用户信息； 5102、根据所抓取的用户信息中的关注者和粉丝两者的userid，继续抓取所述关注者和粉丝两者的用户信息，直至抓取数量达到所需规模。
4. 根据权利要求1或2所述的方法，其特征在于，在步骤Sl中，是根据所抓取的用户信息中的gender字段值，对用户类型进行分类，其中gender字段值包括m、f及n，m表示男， f表不女，n表不未知。
5. 根据权利要求1所述的方法，其特征在于，步骤S2还包括：将所述关注者和粉丝两者的userid整理成文本后，分别存放在文件的两行，并选取等量的男性及女性用户文本形成训练样本，另外选取等量的男性及女性用户文本形成测试样本。
6. 根据权利要求1所述的方法，其特征在于，步骤S3还包括，利用训练样本构建最大熵分类器，其中使用的最大熵是MALLET机器学习工具包。
7. 根据权利要求1所述的方法，其特征在于，步骤S3所述的信息增益计算方式为：
其中，P(Cj)表示Cj类文档在语料中出现的概率，PUi)表示语料中包含特征项&的文档的概率，P(C^ti)表示文档包含特征项&时属于q类时的条件概率，P(i；)表示语料中不包含特征项h的文档的概率，P(Cy 11,.)表示文档不包含特征项&时属于&的条件概率，M表示类别数。
8. 根据权利要求7所述的方法，其特征在于，计算信息增益后，选择信息增益值排在前 4000 位的userid。
9. 一种基于微博用户关系的用户性别识别系统，其特征在于，包括语料获取与预处理模块、用户信息处理模块、训练分类器模块及待测用户分类模块，所述语料获取与预处理模块连接用户信息处理模块，所述用户信息处理模块连接训练分类器模块，所述训练分类器模块连接待测用户分类模块，所述语料获取与预处理模块，用于根据API接口获取微博用户的用户信息；所述用户信息处理模块，用于根据用户gender字段值将用户分类，再根据用户userid将用户关系整理成相应格式的文本，并从中随机选出训练样本、测试样本；所述训练分类器模块，用于构建最大熵分类器；所述待测用户分类模块，用于根据所述最大熵分类器对待测数据进行分类。
【文档编号】G06F17/30GK104268214SQ201410494539
【公开日】2015年1月7日申请日期:2014年9月24日优先权日:2014年9月24日
【发明者】李寿山, 黄磊, 周国栋, 孔芳申请人:苏州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李寿山;黄磊;周国栋;孔芳
技术所有人：苏州大学
我是此专利的发明人

上一篇：医学影像三维可视化系统的制作方法
上一篇：腕带和手环类产品采用十种手势实现输入或选择的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。