主题标签推荐方法及装置的制造方法

文档序号:9200377阅读:157来源:国知局
主题标签推荐方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息处理技术,尤其涉及一种主题标签推荐方法及装置。
【背景技术】
[0002] 随着互连网和移动终端的普及,使用社交网络的用户越来越多。大家可以通过社 交网络来发布或转发一些消息,随着用户的增多,社交网络上发布的消息量也越来越大。
[0003] 为了提升用户在社交网络上的体验,现有社交网络提出了主题标签(hashtag)功 能,即用户发布消息时通过"#"号隔离词汇以标定被隔离的词汇作为hashtag,该hashtag 为所发布消息主题。这样hashtag可以帮助用户获取特定话题、相关事件等消息。但是这 种方式必须依赖用户每次发布消息时都附带上指定标记来标定hashtag,如果用户没有标 定hashtag就不能确定出用户发布消息的主题。
[0004] 对于没有标定hashtag的消息,现有技术中确定消息主题的方式,主要采用消息 聚类,将用户发布的消息中出现数量较多的词汇作为主题标签。
[0005] 但是,采用该聚类技术获取的主题标签往往并不能准确表达用户发布消息的主题。

【发明内容】

[0006] 本发明实施例提供一种主题标签推荐方法及装置,用于解决推荐的主题标签不能 准确表达用户发布消息的主题的问题。
[0007] 本发明实施例第一方面提供一种主题标签推荐方法,包括:
[0008] 获取用户在社交网络上发布的第一消息,所述第一消息是指没有被标记主题标签 的消息;
[0009] 根据所述社交网络的主题模型,获取所述第一消息的主题标签;
[0010] 将所述获取的第一消息的主题标签显示在屏幕上以供所述用户选择;
[0011] 根据所述用户选择的结果,确定所述第一消息的主题标签。
[0012] 结合第一方面,在第一方面的第一种可能的实施方式中,所述根据所述社交网络 的主题模型,获取所述第一消息的主题标签之前,还包括:
[0013] 从所述社交网络中获取第二消息,所述第二消息是指标记有主题标签的消息;
[0014] 对所述第二消息进行预处理,并保存所述预处理的结果;
[0015] 通过使用机器学习法对所述预处理的结果进行训练,获得所述社交网络的主题模型。
[0016] 结合第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式 中,所述对所述第二消息进行预处理,并保存所述预处理的结果,包括:
[0017] 将所述第二消息按词汇进行切分;
[0018] 根据预设词性从所述切分的结果中获取词组;
[0019] 将所述词组按照预设格式进行存储。
[0020] 结合第一方面的第一种可能的实施方式或第二种可能的实施方式,在第一方面的 第二种可能的实施方式中,所述通过使用机器学习法对所述预处理的结果进行训练,获得 所述社交网络的主题模型包括:
[0021] 使用机器学习法对所述预处理的结果进行采样,根据所述采样结果获取主题-词 汇概率分布以及主题-主题标签概率分布;
[0022] 根据所述主题-词汇概率分布以及所述主题-主题标签概率分布,获取所述社交 网络的主题模型。
[0023] 结合第一方面至第一方面的第三种可能的实施方式中任一项,在第一方面的第四种 可能的实施方式中,所述根据所述社交网络的主题模型,获取所述第一消息的主题标签包括:
[0024] 采用公式
计算所述第一 消息du的主题标签为h的概率,并获取所述p (hdu)的值大于第一预设阈值的主题标签,其 中:Vt,h表示在主题t的主题标签中出现主题标签h的概率,IIm表示所述用户选用用户 r的历史主题的概率,θ μ表示用户r发布的消息属于主题t的概率,π ^表示一个词汇属 于非主题词汇的概率,表示非主题词汇中出现'd,n的概率,n i表示一个词汇属于主 题词汇的概率,氣表示属于主题t的词汇中出现'd,n的概率,'d, n表示所述第一消息 中的词汇η ;
[0025] 所述将所述获取的第一消息的主题标签显示在屏幕上以供所述用户选择包括:
[0026] 将所述ρ (h I c〇的值大于第一预设阈值的主题标签显示在屏幕上以供所述用户选择。
[0027] 结合第一方面的第四种可能的实施方式,在第一方面的第五种可能的实施方式 中,所述采用公式
计算所述第一 消息du的主题标签为h的概率,包括:
[0028] 将所述社交网络的主题模型中的从大到小进行排列,并按照从大到小 的顺序依次代入公式
计算,当计 算获取的P (h I du)值小于第二预设阈值时终止计算,所述第二预设阈值小于或等于所述第 一预设阈值。
[0029] 本发明实施例第二方面提供一种主题标签推荐装置,包括:
[0030] 获取模块,用于获取用户在社交网络上发布的第一消息,所述第一消息是指没有 被标记主题标签的消息;根据所述社交网络的主题模型,获取所述第一消息的主题标签;
[0031] 推荐模块,用于将所述获取的第一消息的主题标签显示在屏幕上以供所述用户选择;
[0032] 确定模块,用于根据所述用户选择的结果,确定所述第一消息的主题标签。
[0033] 结合第二方面,在第二方面的第一种可能的实施方式中,所述获取模块,还用于从 所述社交网络中获取第二消息,所述第二消息是指标记有主题标签的消息;
[0034] 所述装置还包括:
[0035] 预处理模块,用于对所述第二消息进行预处理,并保存所述预处理的结果;
[0036] 学习模块,用于通过使用机器学习法对所述预处理的结果进行训练,获得所述社 交网络的主题模型;
[0037] 所述获取模块,具体用于根据所述学习模块获得的述社交网络的主题模型,获取 所述第一消息的主题标签。
[0038] 结合第二方面的第一种可能的实施方式,在第二方面的第二种可能的实施方式 中,所述预处理模块,具体用于将所述第二消息按词汇进行切分;根据预设词性从所述切分 的结果中获取词组;将所述词组按照预设格式进行存储。
[0039] 结合第二方面的第一种可能的实施方式或第二种可能的实施方式,在第二方面的 第二种可能的实施方式中,所述学习模块,具体用于使用机器学习法对所述预处理的结果进 行采样,根据所述采样结果获取主题-词汇概率分布以及主题-主题标签概率分布;根据所 述主题-词汇概率分布以及所述主题-主题标签概率分布,获取所述社交网络的主题模型。
[0040] 结合第二方面至第二方面的第三种可能的实施方式中任一项,在 第二方面的第四种可能的实施方式中,所述获取模块,具体用于采用公式
汁算所述第一消息du的主题标签 为h的概率,并获取所述p (h I du)大于第一预设阈值的主题标签,其中:Vtih表示在主题t 的主题标签中出现主题标签h的概率,IIm表示用户u选用用户r的历史主题的概率,Θ M 表示用户r发布的消息属于主题t的概率,π ^表示一个词汇属于非主题词汇的概率, 表示非主题词汇中出现的概率,π i表示一个词汇属于主题词汇的概率,氣表示属 于主题t的词汇中出现wu,d,n的概率;
[0041] 所述推荐模块,具体用于将所述P (h I du)的值大于第一预设阈值的主题标签显示 在屏幕上以供所述用户选择。
[0042] 结合第二方面的第四种可能的实施方式,在第二方面的第五种 可能的实施方式中,所述获取模块,具体用于将所述社交网络的主题模型 中的Vt.h从大到小进行排列,并按照Vt.h从大到小的顺序依次代入公式
计算,当计算获取的P (h I du)值小 于第二预设阈值时终止计算,所述第二预设阈值小于或等于所述第一预设阈值。
[0043] 本发明实施例中,获取用户在社交网络上发布的没有标记主题标签的第一消息, 根据社交网络的主题模型,获取该第一消息的主题标签,并将这些主题标签显示在屏幕上 供用户选择,根据用户的选择结果,确定该第一消息的主题标签。实现了通过主题模型来向 用户推荐主题标签,并由用户的选择来最终确定主题标签,这样最终确定的主题标签才能 最接近用户原本想表达的主题。
【附图说明】
[0044] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附 图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。 [0045] 图1为本发明提供的主题标签推荐处理方法实施例一的流程示意图;
[0046] 图2为本发明提供的主题标签推荐处理方法实施例二的流程示意图;
[0047] 图3为本发明提供的主题标签推荐处理装置实施例一的结构示意图;
[0048] 图4为本发明提供的主题标签推荐处理装置实施例二的结构示意图;
[0049] 图5为本发明提供的主题标签推荐处理装置实施例三的结构示意图。
【具体实施方式】
[0050] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051] 图1为本发明提供的主题标签推荐处理方法实施例一的流程示意图,如图1所示, 该方法包括:
[
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1