一种兴趣识别方法、设备以及数据分析方法_3

文档序号：9810523阅读：来源：国知局

一套主题分类结构，并收集符合主题的文本集，作为训练数据。然后，根据训练文本，训练文本集的主题模型。当系统接收到查询请求时，收集用户相关的数据，计算各个博文文本的主题分类的最大概率，作为该博文的初始主题指数，计算该博文的权重值，权重值由当前日期离发送微博消息的天数差的自然对数的指数、发文者的权重值等因素构成。最后，结合权重值，累加类别的概率值，生成兴趣指数分布。
[0049] 以上基于微博用户兴趣识别方法至少具有如下优点：第一，利用微博数据识别用户兴趣爱好，相比于其他的用户相关的外部数据，微博具有真实性高、时效性强、数据开放性等优点；第二，在线下训练模型；在训练集数据不断扩展的情况下，能够逐步增加识别特征，提高系统识别的准确度；第三，引入了内容类别、发送时间、用户类型等方面信息参与分析，提高识别准确率；同时，采用参数方式调节设置各个信息内容的权重，具有相当的灵活性和适应性。
[0050] 尽管以上以微博作为社交网络的一个具体示例介绍了本申请的兴趣识别方法，但本领域技术人员容易明白，该兴趣识别方法也可以通过除微博以外的其他社交网络(例如微信等）来实行，其本质是相同的。
[0051] 另外，上面介绍的兴趣识别方法可通过计算机程序的方式来进行实现。
[0052] 上文中，参照附图描述了本发明的【具体实施方式】。但是，本领域中的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的【具体实施方式】作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。
【主权项】
1. 一种基于社交网络的兴趣识别方法，包括：接收关于一用户的兴趣的查询请求；从社交网络收集与该用户相关的数据，所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息；根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；根据所述消息的发送时间来计算所述消息的第一权重；通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘，并针对所有消息依次进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及根据所述兴趣指数值，分析该用户的兴趣分布；其中，所述对于某一主题分类的兴趣指数值与用户对该主题分类的兴趣度成正比。2. 如权利要求1所述的兴趣识别方法，其中，所述第一权重设置为当前日期与所述发送时间的天数差的自然对数的指数与时间调剂因子两者的乘积，所述时间调剂因子可被调节，其取值范围为大于〇小于1。3. 如权利要求1或2所述的兴趣识别方法，其中，所述权重值还包括与消息的发送方相关的第二权重。4. 如权利要求1所述的兴趣识别方法，其中，所述兴趣分类模型根据如下的步骤来预先确定： (a) 获取训练数据并对所述训练数据进行标注； (b) 将所述训练数据转换为特征向量集合；以及 (c) 识别所述特征向量集合中的特征并量化该特征对主题分类的贡献度，从而生成基于文本的兴趣分类模型。5. 如权利要求4所述的兴趣识别方法，其中，步骤（a)包括：使用网络爬虫从数据源处收集页面数据；对所收集的页面数据进行文本数据的抽取；设置若干个兴趣类别；以及为所抽取的每一份文本数据标注一标签，所述标签的内容为所述若干个兴趣类别中的至少一个类别。6. 如权利要求4所述的兴趣识别方法，其中，步骤（b)包括：将所述文本数据按照一定规范切分成词序列；对所述词序列标注词性，并去除与兴趣识别无关的一些词；为所述词序列进行编码，并转换空间向量模型；以及根据所述空间向量模型，进行特征的选择，从而得到特征向量的集合。7. 如权利要求1所述的兴趣识别方法，其中，所述社交网络为微博。8. 如权利要求5所述的兴趣识别方法，其中，所述数据源为门户网站、论坛以及微博，并且其中，对于门户网站和论坛，所抽取的文本为标题、正文、发表时间和文档标签，而对于微博，所抽取的文本为正文和发表时间。9. 如权利要求6所述的兴趣识别方法，其中，去除与兴趣识别无关的一些词包括：去除介词、代词、副词以及连词；以及去除停用词，所述停用词为实际含义较少、对判断文章内容作用不大的词语。10. -种基于社交网络的兴趣识别设备，包括：接收装置，用于接收关于一用户的兴趣的查询请求；收集装置，用于从社交网络收集与该用户相关的数据，所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息；第一计算装置，用于根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；第二计算装置，用于根据所述消息的发送时间来计算所述消息的第一权重；第三计算装置，用于通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘，并进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及分析装置，用于根据所述兴趣指数值，分析该用户的兴趣分布；其中，所述对于某一主题分类的兴趣指数值与用户对该主题分类的兴趣度成正比。11. 如权利要求10所述的兴趣识别设备，其中，所述第二计算装置配置成计算当前日期与所述发送时间的天数之间差的自然对数的指数，并将其与时间调剂因子相乘，其中，所述时间调剂因子可被调节，取值范围为大于0小于1。12. 如权利要求10或11所述的兴趣识别设备，其中，所述权重值还包括与消息的发送方相关的第二权重。13. 如权利要求10所述的兴趣识别设备，还包括：获取装置，用于获取训练数据并对所述训练数据进行标注；转换装置，用于将所述训练数据转换为特征向量集合；以及识别装置，用于识别所述特征向量集合中的特征并量化该特征对主题分类的贡献度，从而生成基于文本的兴趣分类模型。14. 如权利要求13所述的兴趣识别设备，其中，所述获取装置包括：第一单元，用于使用网络爬虫从数据源处收集页面数据；第二单元，用于对所收集的页面数据进行文本数据的抽取；第三单元，用于设置若干个兴趣类别；以及第四单元，用于为所抽取的每一份文本数据标注一标签，所述标签的内容为所述若干个兴趣类别中的至少一个类别。15. 如权利要求13所述的兴趣识别设备，其中，所述转换装置包括：第五单元，用于将所述文本数据按照一定规范切分成词序列；第六单元，用于对所述词序列标注词性，并去除与兴趣识别无关的一些词；第七单元，用于为所述词序列进行编码，并转换空间向量模型；以及第八单元，用于根据所述空间向量模型，进行特征的选择，从而得到特征向量的集合。16. 如权利要求10所述的兴趣识别设备，其中，所述社交网络为微博。17. 如权利要求14所述的兴趣识别设备，其中，所述第二单元配置为当数据源为门户网站和论坛时，抽取其标题、正文、发表时间和文档标签，而当数据源为微博时，抽取其正文和发表时间。18. 如权利要求15所述的兴趣识别设备，其中，第六单元配置为去除介词、代词、副词以及连词；以及去除停用词，所述停用词代表实际含义较少、对判断文章内容作用不大的词语。19. 一种数据分析方法，包括：在接收关于一用户的兴趣的查询请求后，从社交网络收集与该用户相关的数据，所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息；根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；根据所述消息的发送时间来计算所述消息的第一权重；根据所述消息的发送者来计算所述消息的第二权重；通过将所述属于某一主题分类的概率与包括所述第一权重和所述第二权重的权重值进行相乘，并进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及根据所述兴趣指数值，分析该用户的兴趣分布；其中，所述对于某一主题分类的兴趣指数值与用户对该主题分类的兴趣度成正比。
【专利摘要】<b>本申请公开了一种基于社交网络的兴趣识别方法，包括：接收关于一用户的兴趣的查询请求；从社交网络收集与该用户相关的数据；根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；根据所述消息的发送时间来计算所述消息的第一权重；</b><b>通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘，并进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及根据所述兴趣指数值，分析该用户的兴趣分布。本申请还公开了一种兴趣识别设备与数据分析方法。</b>
【IPC分类】G06F17/30, G06Q30/02
【公开号】CN105573995
【申请号】CN201410525882
【发明人】冯亮, 尹亚伟, 张上誉
【申请人】中国银联股份有限公司
【公开日】2016年5月11日
【申请日】2014年10月9日

完整全部详细技术资料下载

当前第3页1 2 3