一种基于社交网络的短话题文本识别方法及装置的制造方法

文档序号:9616250阅读:257来源:国知局
一种基于社交网络的短话题文本识别方法及装置的制造方法
【技术领域】
[0001] 本发明涉及社交网络技术领域,尤其涉及一种基于社交网络的短话题文本识别方 法及装置。
【背景技术】
[0002] 在社交网络的短话题文本识别领域中涉及几个概念:短话题文本,是指在微博等 社交网络中,有些账号发表的博文其书写形式是将关键字放在两个#之间,后面再加上其 他内容,通过两个#之间的关键字来概括博文所表达信息的主题,此类博文属于短话题文 本。用户能力标签,是指描述用户在社交网络中通过自填信息、发表的博文等信息所呈现出 的能力特征的标签。短话题文本对应的能力标签,是指描述用户发表的某一篇博文内容的 标签,也称内容标签。用户标签,是指社交网络中用户描述用户能力、兴趣的标签。
[0003]现有技术基于关键字特征的分类方案,主要是将话题信息和博文内容一起当做普 通文本,利用标注的训练集进行特征选择和参数学习,将训练出的模型对新文本进行分类 计算,最终将用户发表的博文同内容标签进行关联。其存在分类准确率低,而且分类覆盖率 偏低的技术缺陷。

【发明内容】

[0004] 本发明实施例提供一种基于社交网络的短话题文本识别方法及装置,以有效提高 短话题文本分类的准确率和覆盖率。
[0005] -方面,本发明实施例提供了一种基于社交网络的短话题文本识别方法,所述基 于社交网络的短话题文本识别方法包括:
[0006] 接收基于社交网络的短话题文本;
[0007] 获取所述短话题文本的话题关键词;
[0008] 根据所述短话题文本的话题关键词,利用预设的所述社交网络的话题关键词与能 力标签的映射关系,确定所述短话题文本对应的能力标签;
[0009] 为所述短话题文本设置对应的能力标签。
[0010] 另一方面,本发明实施例提供了一种基于社交网络的短话题文本识别装置,所述 基于社交网络的短话题文本识别装置包括:
[0011] 接收单元,用于接收基于社交网络的短话题文本;
[0012] 获取单元,用于获取所述短话题文本的话题关键词;
[0013] 映射单元,用于根据所述短话题文本的话题关键词,利用预设的所述社交网络的 话题关键词与能力标签的映射关系,确定所述短话题文本对应的能力标签;
[0014] 标签单元,用于为所述短话题文本设置对应的能力标签。
[0015] 上述技术方案具有如下有益效果:短话题文本分类识别,如果采用现有技术的短 文本分类,由于内容有限,会造成准确率和覆盖率偏低,而本发明实施例引入话题关键词, 并将话题关键词同能力标签映射后,同时引入发布者的能力标签,能有效提尚短话题文本 分类的准确率和覆盖率。
【附图说明】
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0017] 图1为本发明实施例一种基于社交网络的短话题文本识别方法流程图;
[0018] 图2为本发明实施例一种基于社交网络的短话题文本识别装置结构示意图;
[0019] 图3为本发明实施例另一种基于社交网络的短话题文本识别装置结构示意图。
【具体实施方式】
[0020] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0021] 如图1所示,为本发明实施例一种基于社交网络的短话题文本识别方法流程图, 所述基于社交网络的短话题文本识别方法包括:
[0022] 101、接收基于社交网络的短话题文本;
[0023] 102、获取所述短话题文本的话题关键词;
[0024] 103、根据所述短话题文本的话题关键词,利用预设的所述社交网络的话题关键词 与能力标签的映射关系,确定所述短话题文本对应的能力标签;
[0025] 104、为所述短话题文本设置对应的能力标签。
[0026] 优选的,所述为短话题文本设置对应的能力标签,具体包括:利用预先构建的所述 短话题文本所对应用户具备的能力标签及其对应的权重,对确定出的所述短话题文本对应 的能力标签进行加权或降权修正;其中,用户具备的能力标签对应的权重的计算公式为: - 100,count为短话题文本所对应用户被分到能力标签映射集中相关分组 的总次数,所述能力标签映射集是指与所述短话题文本所对应用户的能力标签具有关联关 系的标签集合;为所述短话题文本设置对应的加权或降权修正后的能力标签。
[0027] 优选的,构建所述短话题文本所对应用户具备的能力标签及其对应的权重的方 法,具体包括:利用能力标签映射集、以及其他用户对所述短话题文本所对应用户的分组信 息,构建出所述短话题文本所对应用户具备的能力标签及其对应的权重。
[0028] 优选的,所述为短话题文本设置对应的能力标签,具体包括:利用确定出的能力标 签所对应用户的话题标签及其对应的权重,对所述短话题文本对应的能力标签进行加权或 降权修正;其中,话题标签对应的权重的计算公式为:Weightlable= 0. 4*Clable+0. 6*Avglable, 其中,Weightlable表示话题标签对应的能力标签集中相应的能力标签的权重值,Clable表示每 个话题标签对应能力标签频次归一化到0 -100的结果,Avglable表示相应的能力标签的平 均权重;为所述短话题文本设置对应的加权或降权修正后的能力标签。
[0029] 优选的,所述利用确定出的能力标签所对应用户的话题标签及其对应的权重,对 所述短话题文本对应的能力标签进行加权或降权修正,具体包括:利用确定出的所述能力 标签所对应用户的话题标签作为训练集,使用贝叶斯分类器或标签传播算法LPA,对所述短 话题文本对应的能力标签进行加权或降权修正。
[0030] 对应于上述方法实施例,如图2所示,为本发明实施例一种基于社交网络的短话 题文本识别装置结构示意图,所述基于社交网络的短话题文本识别装置包括:
[0031] 接收单元21,用于接收基于社交网络的短话题文本;
[0032] 获取单元22,用于获取所述短话题文本的话题关键词;
[0033] 映射单元23,用于根据所述短话题文本的话题关键词,利用预设的所述社交网络 的话题关键词与能力标签的映射关系,确定所述短话题文本对应的能力标签;
[0034] 标签单元24,用于为所述短话题文本设置对应的能力标签。
[0035] 优选的,如图3所示,为本发明实施例另一种基于社交网络的短话题文本识别装 置结构示意图,所述基于社交网络的短话题文本识别装置不但包括:接收单元21、获取单 元22、映射单元23和标签单元24,还包括:第一修正单元25,用于利用预先构建的所述短 话题文本所对应用户具备的能力标签及其对应的权重,对确定出的所述短话题文本对应 的能力标签进行加权或降权修正;其中,用户具备的能力标签对应的权重的计算公式为:
为短话题文本所对应用户被分到能力标签映射集中相关分组 的总次数,所述能力标签映射集是指与所述短话题文本所对应用户的能力标签具有关联关 系的标签集合;所述标签单元24,具体用于为所述短话题文本设置对应的加权或降权修正 后的能力标签。
[0036] 优选的,所述基于社交网络的短话题文本识别装置还包括:构建单元26,用于利 用能力标签映射集、以及其他用户对所述短话题文本所对应用户的分组信息,构建出所述 短话题文本所对应用户具备的能力标签及其对应的权重。
[0037] 优选的,所述基于社交网络的短话题文本识别装置还包
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1