一种兴趣识别方法、设备以及数据分析方法_2

文档序号：9810523阅读：来源：国知局

为门户网站、论坛以及微博，并且其中，对于门户网站和论坛，所抽取的文本为标题、正文、发表时间和文档标签，而对于微博，所抽取的文本为正文和发表时间。
[0031] 在上述数据分析方法中，去除与兴趣识别无关的一些词包括：去除介词、代词、副词以及连词；以及去除停用词，所述停用词为实际含义较少、对判断文章内容作用不大的词语。
【附图说明】
[0032] 在参照附图阅读了本发明的【具体实施方式】以后，本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是：这些附图仅仅用于配合具体实施方式说明本发明的技术方案，而并非意在对本发明的保护范围构成限制。
[0033] 图1是根据本申请的实施例，基于社交网络的兴趣识别方法的示意图。
【具体实施方式】
[0034] 下面介绍的是本发明的多个可能实施例中的一些，旨在提供对本发明的基本了解，并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解，根据本发明的技术方案，在不变更本发明的实质精神下，本领域的一般技术人员可以提出可相互替换的其它实现方式。因此，以下【具体实施方式】以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
[0035] 本申请提出了一种基于社交网络(诸如微博等)的用户兴趣分析识别方法。相比于其他用户相关的外部数据，社交网络具有真实性高、时效性强、数据开放性等优点。对分析用户个人属性，识别兴趣爱好有着重要价值。以下以微博为例介绍，介绍本申请的具体实施例。
[0036] 在观察了各个主流微博平台后，发明人发现微博表现形式和用户属性在不同平台上存在一些差异。但是，微博的基本属性（即文本内容和以关注方式建立联系)却是相同的，因此，以下将把分析范围聚焦在文本内容。另外，直观上讲，自身发送的微博信息是与用户最为紧密相关的数据，在最大程度上体现了用户兴趣和关注点，但是，部分的用户较少发送微博，他们在多数情况下是作为观众围观关注者发送的消息。所以，为提高分析结果的准确性，本申请同时着眼于用户自身和关注者两方面发布的微博消息。
[0037] 如图1所示，基于微博的兴趣识别方法，包括：接收关于一用户的兴趣的查询请求；从社交网络收集与该用户相关的数据；根据预先确定的兴趣分类模型，得出所述用户对于某一主题分类的兴趣指数值；以及根据所述兴趣指数值，分析该用户的兴趣分布。兴趣分类模型可通过如下三个阶段来预先确定：1)训练数据获取和标注；2)特征抽取；以及3) 构建模型。其中，训练数据获取和标注阶段用于负责从指定的网站中收集页面信息，抽取文本格式内容，并对文本内容进行标注。特征抽取阶段用于将收集得到的文本生成候选特征，并加以筛选，供下一阶段构建模型。构架模型阶段负责训练文本的主题分类模型。
[0038] 在一个具体实现中，当用户提交识别请求，兴趣识别设备首先从微博平台中抽取该用户的微博数据，并使用训练得到的模型，分析该用户兴趣分布，最后返回识别结果。
[0039] 微博中的热点不断推陈出新，其中很大一部分的内容涉及到时事新闻、热点消息。具有产生频率快，聚集人气广，流行时间短等特点。这就要求兴趣识别设备能够快速识别这些热点信息。所以获得兴趣分类模型的三个阶段每隔一段时间运行，以尽可能收集到时新信息，保证训练模型的时新度。
[0040] 在一个具体实施例中，在训练数据获取和标注阶段，训练数据要求为文本类型。候选的数据源有很多，包括门户网站中报道、主题论坛(例如百度贴吧、天涯论坛）中帖子和微博数据本身等。而理想的数据源具有以下几个特点：文本工整度高、话题涵盖面广、表达方式与微博贴近、内容实新、和自分类性等特点。门户网站中的报道、论坛帖子、微博在这几方面各有长短，因此，本申请同时采用这几种数据源作为训练数据。该阶段的具体工作步骤如下： 1) 使用网络爬虫或者其他方式从数据源中下载收集页面数据； 2) 文本数据抽取。由于在上个步骤中，从门户网站和论坛中下载得到的数据为HTML 页面，其中夹杂对数据分析无意义的HTML标签和脚本代码。从HTML页面中，抽取指定的文本内容。对于门户网站报道和论坛帖子，抽取的目标是标题、正文、发表时间和文档标签(若有)。而微博内容，抽取的目标则是正文和发表时间； 3) 将带有标题的文本，复制两份标题添加至正文； 4) 设置若干个兴趣类别，例如：体育、娱乐、财经和科技等等； 5) 数据标注。每份文本标注一个标签，标签的内容是预先设置的文本主题类别。一些门户网站中新闻报道附有文档标签，通过设置标签和主题映射的关系，快速标注文档；如果报道附带η个不同主题类别的标签（η大于1)，那么复制η份文本，并逐一设置不同标签；剩余文本采用人工方式进行标注。
[0041] 在一个具体的实施例中，抽取特征阶段负责将文本转化为特征向量，以便后续的模式学习。具体工作步骤如下： 1) 对文本进行分词。分词是将文本按照一定规范切分成词序列的过程，例如：句子"上海地处长江入海口"，经过分词过程，转化为"上海/地处/长江/入海口"序列； 2) 标注词性，并去除介词、代词、副词、连词； 3) 去除停用词。停用词是指实际含义较少，对判断本文内容作用不大的词语。停用词的选择范围来自于搜索引擎公开的停用词列表； 4) 为字词进行ID编码，ID编码的格式为32为Integer整数，生成一份字词装换的编码字典〈字词，ID〉。这样，后续的文本处理都是基于字词的ID进行的，而非字词本身，这样可以有效地减少处理时计算机的存储和计算负担； 5) 将文本装换为空间向量模型。向量空间模型将文本内容转化为向量空间中的向量，其中，向量空间中的一条坐标轴代表一个字或词，坐标轴之间代表的字或词不重复。文本包含该字或词的数量表示该坐标轴的值。坐标轴的值域理论上从零到正无限； 6) 特征选择，在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征。特征选择能剔除不相关或冗余的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。在实际操作中，我们通过计算特征和相关类别的统计信息，去除若干特征。
[0042] 经过以上步骤，训练文本可转换为特征向量集合。
[0043] 在一个具体实施例中，模型构建阶段负责识别特征并量化特征对主题判断的贡献度，从而生成文本的主题模型，旨在帮助系统快速准确地判断文档主题。该阶段用到的主要算法是分类，分类算法是一种有监督的机器学习算法，需要预先设置有标注的训练数据。为了防止训练数据倾斜，影响模型效果，每个类别选取接近数量的训练数据文档，文档的字数尽可能接近。
[0044] 通常，用户发表的微博内容和关注者发表的内容，很大程度上，反映了用户所见所闻和所思所感，以上两部分内容有助于系统判断用户兴趣。同时，本申请的发明人注意到： 1)微博内容发表时间越是距离当前较近，越能够反映用户真实兴趣；2)各个微博账户发表微博频率不同，发消息频繁的微博账户可能过度影响兴趣识别的结果。为了有效地处理这些问题，本申请使用参数方式调节各个信息内容的权重。具体工作步骤如下： 1)用户提交服务时，系统首先需要从微博平台中抽取。系统接收用户提交微博账号信息。根据账号信息，后台网络爬虫搜集该用户过去制定时间内发送的微博消息集合和其关注者发送的微博消息集合； 2) 将每一条微博消息的内容文本、转发文本和发者的昵称三者的字符串叠加，以字符连接，形成完整的微博信息； 3) 逐一计算微博信息的主题分类的概率值和权重值。结合权重值，累加类别的概率值，生成兴趣指数的向量，指数越高，用户持有该兴趣的概率越大。反之亦然。
[0045] 计算兴趣指数的完整伪代码如下表1所示：
其中，在表1所示的算法第8行的生成消息权重方法为，首先，计算当前日期离发送微博消息的天数差的自然对数的指数。然后将该指数乘以时间调剂因子α，α的值域为〇到 1，调剂因子越大，发布时间距离越近的微博对兴趣识别的影响力越大，反之亦然。
[0046] 算法第13行规约化方式是，以数据均衡调节因子β为幂，取类别打分的指数。β 的值域为〇到1，数据均衡调节因子越小，各账户发布的微博对兴趣识别的影响力越均衡，反之亦然。
[0047] 算法第14行的累加方式过程中，首先，将自发微博的权重因子II乘以自发微博消息的兴趣类别打分，1- η乘以关注人微博消息的兴趣类别打分。随后，两者相加生成最终的兴趣指数。η是自发微博的权重因子，值域为〇到1。η越大，则表示自发微博对判断兴趣识别的影响力越大，反之亦然。
[0048] 综上所述，本申请结合微博数据特点和微博用户操作习惯，分析了用户相关的微博内容，以识别该用户的兴趣。具体方法包括：首先，设定

完整全部详细技术资料下载

当前第2页1 2 3