一种挖掘知识图谱的方法及装置制造方法

文档序号:6501427阅读:133来源:国知局
一种挖掘知识图谱的方法及装置制造方法
【专利摘要】本发明公开了一种挖掘知识图谱的方法及装置,属于计算机领域。所述方法包括:根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区用户属于的主题论坛或所述社区用户属于的即时通信工作的聊天群,对所述社区用户进行聚类并形成社区用户圈子,所述社区原始数据包括所述社区用户对其他社区用户的关注度信息和所述社区用户与所述其他社区用户共同关注的话题个数;根据所述社区用户圈子包括的社区用户产生的用户行为数据,创建所述社区用户圈子的知识图谱。所述装置包括:聚类模块和创建模块。本发明能够提高搜索关联词汇的精度。
【专利说明】一种挖掘知识图谱的方法及装置

【技术领域】
[0001] 本发明涉及计算机领域,特别涉及一种挖掘知识图谱的方法及装置。

【背景技术】
[0002] 随着搜索引擎技术的快速发展,目前搜索引擎中出现了知识图谱,用户在搜索引 擎中输入关键词,搜索引擎根据该关键词从知识图谱中搜索出与该关键词相关联的关联词 汇给用户。
[0003] 其中,事先需要挖掘知识图谱来供搜索引擎使用,目前现有技术的提供了一种挖 掘知识图谱的方法,可以为:对文献库中包括的每篇文献进行分析,分析出文献中包括的各 词汇之间的关联性,根据各词汇之间的关联性构建一个知识图谱。如此,当用户向搜索引擎 输入一个关键词时,搜索引擎会从该知识图谱中搜索出该关键词的关联词汇。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 不同词汇在不同的人群中具有的含义可能不同,某人群的用户搜索出的关联词汇 更希望搜索出的是该人群对应的词汇,而目前该人群的对应的词汇都沉没在搜索的大量关 联词汇中,搜索关联词汇的精度不高。


【发明内容】

[0006] 为了提高搜索关联词汇的精度,本发明提供了一种挖掘知识图方法及装置。所述 技术方案如下:
[0007] -种挖掘知识图谱的方法,所述方法包括:
[0008] 根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区用户属于的 主题论坛或所述社区用户属于的即时通信工作的聊天群,对所述社区用户进行聚类并形成 社区用户圈子,所述社区原始数据包括所述社区用户对其他社区用户的关注度信息和所述 社区用户与所述其他社区用户共同关注的话题个数;
[0009] 根据所述社区用户圈子包括的社区用户产生的用户行为数据,创建所述社区用户 圈子的知识图谱。
[0010] 一种挖掘知识图谱的装置,所述装置包括:
[0011] 聚类模块,用根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区 用户属于的主题论坛或所述社区用户属于的即时通信工作的聊天群,对所述社区用户进行 聚类并形成社区用户圈子,所述社区原始数据包括所述社区用户对其他社区用户的关注度 信息和所述社区用户与所述其他社区用户共同关注的话题个数;
[0012] 创建模块,用于根据所述社区用户圈子包括的社区用户产生的用户行为数据,创 建所述社区用户圈子的知识图谱。
[0013] 在本发明实施例中,根据该社区用户的社区原始数据、用户属性、属于的主题论坛 或属于的即时通信工作的聊天群,对该社区用户进行聚类并形成社区用户圈子,根据该社 区用户圈子包括的社区用户产生的用户行为数据,创建该社区用户圈子的知识图谱。如此, 当某一社区用户圈子的社区用户需要搜索关键词的关联词汇时,可以到该社区用户圈子对 应的知识图谱中搜索出该社区用户圈子对应的关联词汇,提高搜索关联词汇的精度。

【专利附图】

【附图说明】
[0014] 图1是本发明实施例1提供的一种挖掘知识图谱的方法流程图;
[0015] 图2是本发明实施例2提供的一种挖掘知识图谱的方法流程图;
[0016] 图3是本发明实施例3提供的一种挖掘知识图谱的方法流程图;
[0017] 图4是本发明实施例4提供的一种挖掘知识图谱的装置结构示意图。

【具体实施方式】
[0018] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0019] 实施例1
[0020] 参见图1,本发明实施例提供了一种挖掘知识图谱的方法,包括:
[0021] 步骤101 :根据社区用户的社区原始数据、社区用户的用户属性、社区用户属于的 主题论坛或社区用户属于的即时通信工作的聊天群,对社区用户进行聚类并形成社区用户 圈子;
[0022] 其中,该社区原始数据包括社区用户对其他社区用户的关注度信息和该社区用户 与其他社区用户共同关注的话题个数。
[0023] 步骤102 :根据该社区用户圈子包括的社区用户产生的用户行为数据,创建该社 区用户圈子的知识图谱。
[0024] 在本发明实施例中,根据社区用户的社区原始数据、用户属性、属于的主题论坛或 属于的即时通信工作的聊天群,对社区用户进行聚类并形成社区用户圈子,根据该社区用 户圈子包括的社区用户产生的用户行为数据,创建该社区用户圈子的知识图谱。如此,当某 一社区用户圈子的社区用户需要搜索关键词的关联词汇时,可以到该社区用户圈子对应的 知识图谱中搜索出该社区用户圈子对应的关联词汇,提高搜索关联词汇的精度。
[0025] 实施例2
[0026] 参见图2,本发明实施例提供了一种挖掘知识图谱的方法,包括:
[0027] 步骤201 :获取社区用户的社区原始数据,该社区原始数据包括社区用户对其他 社区用户的关注度信息和社区用户与其他社区用户共同关注话题的个数;
[0028] 具体地,获取社区用户对其他社区用户的关注度信息和社区用户与其他社区用户 共同关注话题的个数。
[0029] 其中,社区用户对其他社区用户的关注度信息包括:社区用户的收听信息、社区用 户转发其他社区用户发布的内容的转发次数、社区用户评论其他社区用户发布的内容的评 论次数、社区用户发送信息给其他社区用户的信息发送次数和/或社区用户发送私信给其 他社区用户的私信发送次数。
[0030] 其中,社区用户的收听信息包括该社区用户收听的其他社区用户的身份标识。
[0031] 其中,在本发明实施例中,社区服务器中存储有社区包括的每个社区用户的收听 信息、每个社区用户转发其他社区用户的社区的转发次数、每个社区用户评论其他社区用 户发布的内容的评论次数、每个社区用户发送信息给其他社区用户的信息发送次数、每个 社区用户发送私信给其他社区用户的私信发送次数以及每个社区用户关注的社区话题。
[0032] 所以,在本发明实施例中,对于任一个社区用户,可以从社区服务器中获取该社区 用户的收听信息、该社区用户转发其他社区用户发布的内容的转发次数、该社区用户评论 其他社区用户发布的内容的评论次数、该社区用户发送信息给其他社区用户的信息发送次 数、该社区用户发送私信给其他社区用户的私信发送次数和/或该社区用户关注的社区话 题,根据该社区用户关注的社区话题和其他社区用户关注的社区话题,获取该社区用户和 其他社区用户共同关注的社区话题。
[0033] 步骤202 :根据社区用户对其他社区用户的关注度信息,计算社区用户对其他社 区用户的关注度分数;
[0034] 其中,社区用户对其他社区用户的关注度分数包括:社区用户对其他社区用户的 收听信息分数、社区用户转发评论其他社区用户发布的内容的转发评论分数、社区用户发 送信息给其他社区用户的信息发送分数和/或社区用户发送私信给其他社区用户的私信 发送分数。
[0035] 其中,根据社区用户的收听信息,计算社区用户对其他社区用户的收听信息分数, 可以为:
[0036] 根据社区用户收听其他社区用户的收听信息和公式(1),计算社区用户对其他社 区用户的收听分数;
[0037]

【权利要求】
1. 一种挖掘知识图谱的方法,其特征在于,所述方法包括: 根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区用户属于的主题 论坛或所述社区用户属于的即时通信工作的聊天群,对所述社区用户进行聚类并形成社区 用户圈子,所述社区原始数据包括所述社区用户对其他社区用户的关注度信息和所述社区 用户与所述其他社区用户共同关注的话题个数; 根据所述社区用户圈子包括的社区用户产生的用户行为数据,创建所述社区用户圈子 的知识图谱。
2. 如权利要求1所述的方法,其特征在于,所述根据所述社区用户的社区原始数据对 所述社区用户进行聚类并形成社区用户圈子,包括: 根据所述社区用户的社区原始数据,计算所述社区用户对其他社区用户的亲密度分 数,所述亲密度分数用于标识所述社区用户对其他社区用户的亲密程度; 根据所述社区用户对其他社区用户的亲密度分数,对所述社区用户进行聚类并形成社 区用户圈子。
3. 如权利要求2所述的方法,其特征在于,所述根据所述社区用户的社区原始数据,计 算所述社区用户对其他社区用户的亲密度分数,包括: 根据所述社区用户对所述其他社区用户的关注度信息,计算所述社区用户对所述其他 社区用户的关注度分数; 根据所述社区用户与所述其他社区用户共同关注的话题个数,计算所述社区用户与所 述其他社区用户之间的关注热点分数; 根据所述社区用户对所述其他社区用户的关注度分数和所述社区用户与所述其他社 区用户之间的关注热点分数,计算所述社区用户对所述其他社区用户的亲密度分数。
4. 如权利要求2所述的方法,其特征在于,所述根据所述社区用户对其他社区用户的 亲密度分数,对所述社区用户进行聚类并形成社区用户圈子,包括: 扫描社区用户; 根据所述扫描的社区用户对除所述扫描的社区用户以外的其他社区用户的亲密度分 数和所述其他社区用户对所述扫描的社区用户的亲密度分数,计算所述扫描的社区用户与 所述其他社区用户之间的用户距离; 选取与所述扫描的社区用户的之间的用户距离小于预设用户距离门限的社区用户,将 所述扫描的社区用户与所述选取的社区用户聚类成一个社区用户圈子。
5. 如权利要求2所述的方法,其特征在于,所述根据所述社区用户对其他社区用户的 亲密度分数,对所述社区用户进行聚类并形成社区用户圈子,包括: 扫描社区用户,将其他社区用户形成第一用户集合,根据所述扫描的社区用户对所述 第一用户集合包括的社区用户的亲密度分数和所述第一用户集合包括的社区用户对所述 扫描的社区用户的亲密度分数,计算所述扫描的社区用户与所述第一用户集合包括的社区 用户之间的用户距离; 从第一用户集合中选取与所述社区用户之间的用户距离最小的社区用户,将所述社区 用户和所述选取的社区用户组成第二用户集合,获取第一用户集合包括的未选择的社区用 户与所述第二用户集合的边数,选取与所述第二用户集合的边数最多的社区用户,统计所 述边数最多的社区用户的个数; 如果所述统计的个数不为零,则将所述边数最多的社区用户添加到所述第二用户集合 中,计算所述第二用户集合包括的任一社区用户与所述第二用户集合包括的其他社区用户 之间的边数,选取边数最少的社区用户,如果所述边数最少的社区用户的个数小于二分之 一的所述统计的个数,则将所述边数最少的社区用户从所述第二用户集合中排除; 对所述第二用户集合包括的社区用户的个数进行判断,如果所述第二用户集合包括的 社区用户的个数大于或等于预设第一阈值且小于或等于预设第二阈值,将所述第二用户集 合包括的社区用户聚类形成社区用户圈子。
6. 如权利要求1所述的方法,其特征在于,所述根据所述社区用户圈子包括的社区用 户产生的用户行为数据,创建所述社区用户圈子的知识图谱,包括: 从所述社区用户圈子包括的每个社区用户产生的用户行为数据中将同一主题的用户 行为数据形成文档; 对形成的每个文档进行挖掘,得到所述社区用户圈子的知识图谱。
7. 如权利要求6所述的方法,其特征在于,所述根据形成的每个文档,采用挖掘知识图 谱算法进行挖掘,得到所述社区用户圈子的知识图谱,包括: 对形成的每个文档包括的数据进行分词,并将所述每个文档包括的分词分别组成每个 文档的特征向量; 根据所述每个文档的特征向量,对所述每个文档进行聚类,将同一话题的文档聚为一 个文档聚类; 对所述每个文档聚类包括的文档进行挖掘,得到所述社区用户圈子的知识图谱。
8. -种挖掘知识图谱的装置,其特征在于,所述装置包括: 聚类模块,用于根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区用 户属于的主题论坛或所述社区用户属于的即时通信工作的聊天群,对所述社区用户进行聚 类并形成社区用户圈子,所述社区原始数据包括所述社区用户对其他社区用户的关注度信 息和所述社区用户与所述其他社区用户共同关注的话题个数; 创建模块,用于根据所述社区用户圈子包括的社区用户产生的用户行为数据,创建所 述社区用户圈子的知识图谱。
9. 如权利要求8所述的装置,其特征在于,所述聚类模块包括: 第一计算单元,用于根据所述社区用户的社区原始数据,计算所述社区用户对其他社 区用户的亲密度分数,所述亲密度分数用于标识所述社区用户对其他社区用户的亲密程 度; 聚类单元,用于根据所述社区用户对其他社区用户的亲密度分数,对所述社区用户进 行聚类并形成社区用户圈子。
10. 如权利要求9所述的装置,其特征在于,所述第一计算单元包括: 第一计算子单元,用于根据所述社区用户对所述其他社区用户的关注度信息,计算所 述社区用户对所述其他社区用户的关注度分数; 第二计算子单元,用于根据所述社区用户与所述其他社区用户共同关注的话题个数, 计算所述社区用户与所述其他社区用户之间的关注热点分数; 第三计算子单元,用于根据所述社区用户对所述其他社区用户的关注度分数和所述社 区用户与所述其他社区用户之间的关注热点分数,计算所述社区用户对所述其他社区用户 的亲密度分数。
11. 如权利要求9所述的装置,其特征在于,所述聚类单元包括: 第四计算子单元,用于扫描社区用户;根据所述扫描的社区用户对除所述扫描的社区 用户以外的其他社区用户的亲密度分数和所述其他社区用户对所述扫描的社区用户的亲 密度分数,计算所述扫描的社区用户与所述其他社区用户之间的用户距离; 聚类子单元,用于选取与所述扫描的社区用户的之间的用户距离小于预设用户距离门 限的社区用户,将所述扫描的社区用户与所述选取的社区用户聚类成一个社区用户圈子。
12. 如权利要求9所述的装置,其特征在于,所述聚类单元包括: 扫描子单元,用于扫描社区用户,将其他社区用户形成第一用户集合,根据所述扫描的 社区用户对所述第一用户集合包括的社区用户的亲密度分数和所述第一用户集合包括的 社区用户对所述扫描的社区用户的亲密度分数,计算所述扫描的社区用户与所述第一用户 集合包括的社区用户之间的用户距离; 统计子单元,用于从第一用户集合中选取与所述社区用户之间的用户距离最小的社区 用户,将所述社区用户和所述选取的社区用户组成第二用户集合,获取第一用户集合包括 的未选择的社区用户与所述第二用户集合的边数,选取与所述第二用户集合的边数最多的 社区用户,统计所述边数最多的社区用户的个数; 排除子单元,用于如果所述统计的个数不为零,则将所述边数最多的社区用户添加到 所述第二用户集合中,计算所述第二用户集合包括的任一社区用户与所述第二用户集合包 括的其他社区用户之间的边数,选取边数最少的社区用户,如果所述边数最少的社区用户 的个数小于二分之一的所述统计的个数,则将所述边数最少的社区用户从所述第二用户集 合中排除; 第一聚类子单元,用于对所述第二用户集合包括的社区用户的个数进行判断,如果所 述第二用户集合包括的社区用户的个数大于或等于预设第一阈值且小于或等于预设第二 阈值,将所述第二用户集合包括的社区用户聚类形成社区用户圈子。
13. 如权利要求8所述的装置,其特征在于,所述创建模块包括: 形成单元,用于从所述社区用户圈子包括的每个社区用户产生的用户行为数据中将同 一主题的用户行为数据形成文档; 挖掘单元,用于对形成的每个文档进行挖掘,得到所述社区用户圈子的知识图谱。
14. 如权利要求13所述的装置,其特征在于,所述挖掘单元包括: 分词子单元,用于对形成的每个文档包括的数据进行分词,并将所述每个文档包括的 分词分别组成每个文档的特征向量; 第二聚类子单元,用于根据所述每个文档的特征向量,对所述每个文档进行聚类,将同 一话题的文档聚为一个文档聚类; 挖掘子单元,用于对所述每个文档聚类包括的文档进行挖掘,得到所述社区用户圈子 的知识图谱。
【文档编号】G06F17/30GK104102635SQ201310112407
【公开日】2014年10月15日 申请日期:2013年4月1日 优先权日:2013年4月1日
【发明者】程刚 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1