一种基于知识的用户兴趣挖崛方法

文档序号:10552993阅读:202来源:国知局
一种基于知识的用户兴趣挖崛方法
【专利摘要】本发明涉及网络搜索领域,其公开了一种基于知识的用户兴趣挖崛方法,包括以下步骤:(A)系统服务器采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。本发明的有益效果是:概念语义背景图的提出,有利于网络爬行虫更好地选择爬行方向,与广度优先和传统的主题爬行方法相比,它可以更快地找到用户感兴趣的网页,在浩瀚的网页上找到有效的资源;同时,把相似度的计算提前到了概念的层面上,作语义上的匹配,可以更好地计算用户兴趣与网页的相关度。
【专利说明】
一种基于知识的用户兴趣挖崛方法
技术领域
[0001] 本发明涉及网络搜索领域,尤其涉及一种基于知识的用户兴趣挖崛方法。
【背景技术】
[0002] 与概念语义背景图相关的主题爬行方面有两种:一是链接背景图,M.Diligenti, F.M.Coetzee,S.Lawrence,C.L.Giles,Focused crawling using context graphs,The 26th International Conference on Very Large Database(VLDB),2000,pp.527-534?此 方法是将网络上的网页关系映射到一个图中,形成网页的链接背景图,可以用来判断待爬 行的网页与用户的目标网页之间的距离,进而安排网页的爬行顺序。但链接背景图的方法 是基于一种假设,在同一主题中的所有的网页之间都有一种层次关系,然而,当网页之间没 有这种层次关系的时候,链接背景图的方法无法使用。二是相关背景图,H.Ching-Chi, ff.Fan,Topic-specific crawling on the Web with the measurements of the relevancy context graph, Information Systems 31(2006)232-246 ?这种方法是对链接 背景图方法的一种改进,它是基于这种假设下提出的,链接到同一个网页的那些网页,它们 往往有相关的内容,语义相关的一些网页,它们也会链接到内容相关的一些网页上。但是这 两种方法对相似度的判断只是停留在关键字匹配的层面上。而概念语义背景图,把相似度 的计算提前到了概念的层面上,作语义上的匹配,可以更好地计算用户兴趣与网页的相关 度。

【发明内容】

[0003] 为了解决现有技术中的问题,本发明提供了一种基于知识的用户兴趣挖崛方法, 解决现有技术中在网络主体爬行中相似度的判断仅仅停留在关键字匹配层面上的问题。
[0004] 本发明提供了一种基于知识的用户兴趣挖崛方法,包括以下步骤:(A)系统服务器 采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义 背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。
[0005] 作为本发明的进一步改进,所述步骤(A)中,系统服务器把用户的查询词提交给搜 索引擎并在返回页的结果中让用户选择有兴趣的网页并构成用户的主题兴趣集合。
[0006] 作为本发明的进一步改进,所述步骤(B)中,系统服务器通过主题兴趣集合建立 反映用户兴趣的概念图;所述系统服务器在建立用户主题兴趣模型之前先进行建概念格处 理。
[0007] 作为本发明的进一步改进,所述步骤(C)中,所述系统服务器将概念格转换为可以 直观表示网页间的语义关系的概念语义背景图。
[0008] 作为本发明的进一步改进,所述步骤(D)中,所述系统服务器增加或减少概念语义 背景图。
[0009] 作为本发明的进一步改进,所述系统服务器将概念格转换为可以直观表示网页间 的语义关系的概念语义背景图的具体方法为:系统服务器先确定核心概念并将核心概念放 入概念背景图的第0层,然后再利用概念格中每个概念的属性个数的多少,把概念格中的概 念映射到概念背景图相应的层次当中去。
[0010] 作为本发明的进一步改进,系统服务器利用概念格的属性词给概念格中的概念分 层,其分层方法为:概念格中的核心概念插入到概念背景图的中间,作为概念背景图的第0 层;在概念格中的非核心概念中,概念的属性词完全包括核心概念的属性词并与核心概念 有较高的相似度的属性词作为概念背景图的第一层中的结点;在剩余的非核心概念集中, 概念的属性词包括(N-i + 1)个核心概念的属性词的那些概念,作为概念背景图的第i层,其 中N表示核心概念中的属性词的个数,i G [ 1,N]。
[0011] 作为本发明的进一步改进,系统服务器将用户选择的页面组合在一起,形成兴趣 主题页面集合,采用TF-IDF对这个页面集合提取特征并进行加权统计,然后对这些特征按 照权值大小排序,选择排在前面的特征作为建概念格的属性集合。
[0012] 作为本发明的进一步改进,所述属性集合包括人工智能、机器学习、知识发现、 agent技术、模式识别、自然语言处理、特征提取、机器翻译以及知识表示。
[0013] 本发明的有益效果是:概念语义背景图的提出,有利于网络爬行虫更好地选择爬 行方向,与广度优先和传统的主题爬行方法相比,它可以更快地找到用户感兴趣的网页,在 浩瀚的网页上找到有效的资源;同时,把相似度的计算提前到了概念的层面上,作语义上的 匹配,可以更好地计算用户兴趣与网页的相关度。
【附图说明】
[0014] 图1是本发明基于概念语义背景图挖掘用户兴趣的方法的流程图。
[0015] 图2是本发明中概念格的一实施例图。
[0016] 图3是本发明中用户主题兴趣的语义背景图实施例图。
[0017] 图4是本发明中概念格转换为概念背景图的流程图。
[0018] 图5是本发明中增加概念背景图中的概念的流程图。
[0019] 图6是本发明中减少概念背景图中的概念的流程图。
[0020] 图7是本发明中8个页面作为对象集,构成的背景表。
【具体实施方式】
[0021] 下面结合【附图说明】及【具体实施方式】对本发明进一步说明。
[0022] 如图1所示,一种基于知识的用户兴趣挖崛方法,包括以下步骤:(A)系统服务器采 集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背 景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。
[0023] 所述步骤(A)中,系统服务器把用户的查询词提交给搜索引擎并在返回页的结果 中让用户选择有兴趣的网页并构成用户的主题兴趣集合。
[0024] 所述步骤(B)中,系统服务器通过主题兴趣集合建立反映用户兴趣的概念图;所述 系统服务器在建立用户主题兴趣模型之前先进行建概念格处理。
[0025] 所述步骤(C)中,所述系统服务器将概念格转换为可以直观表示网页间的语义关 系的概念语义背景图。
[0026] 所述步骤(D)中,所述系统服务器增加或减少概念语义背景图。
[0027] 所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背 景图的具体方法为:系统服务器先确定核心概念并将核心概念放入概念背景图的第〇层,然 后再利用概念格中每个概念的属性个数的多少,把概念格中的概念映射到概念背景图相应 的层次当中去。
[0028] 系统服务器利用概念格的属性词给概念格中的概念分层,其分层方法为:概念格 中的核心概念插入到概念背景图的中间,作为概念背景图的第〇层;在概念格中的非核心概 念中,概念的属性词完全包括核心概念的属性词并与核心概念有较高的相似度的属性词作 为概念背景图的第一层中的结点;在剩余的非核心概念集中,概念的属性词包括(N-i+1)个 核心概念的属性词的那些概念,作为概念背景图的第i层,其中N表示核心概念中的属性词 的个数,iG[l,N]。
[0029]系统服务器将用户选择的页面组合在一起,形成兴趣主题页面集合,采用TF-IDF 对这个页面集合提取特征并进行加权统计,然后对这些特征按照权值大小排序,选择排在 前面的特征作为建概念格的属性集合。
[0030] 所述属性集合包括人工智能、机器学习、知识发现、agent技术、模式识别、自然语 言处理、特征提取、机器翻译以及知识表示。
[0031] 用户主题数据采集:
[0032] 要使用概念语义背景图,首先,要构建用户的主题兴趣,通常采用用户参与的方式 来确定用户的兴趣。如把用户的查询词提交给搜索引擎G00GLE,在它返回的第一个页面的 十个结果中让用户选择有兴趣的网页,构成用户的主题兴趣集合,通过这个页面集合去建 立用户主题模型,即反映用户兴趣的概念图。
[0033]建立用户主题兴趣模型:
[0034]获得了用户兴趣主题页面集合之后,需要利用这些页面来为用户建立一个主题特 征关系模型表现该主题。本文使用的是形式概念分析的方法,通过建立概念格来表现用户 的搜索目标背景。首先将用户精选的页面组合在一起,形成兴趣主题页面集合,采用TF-IDF 对这个页面集合提取特征并进行加权统计,之后对这些特征按照权值大小排序,选择排在 前面的N个特征做为建格的属性集合,然后就可以建立模型,建模的过程首先是建格。例如, 用户选择了 a~i所示的特征做为属性集,8个页面作为对象集,构成了如图7所示的形式背 景表,进而建立了如图2所示的概念格。
[0035]建立概念语义背景图:
[0036]建立好用户兴趣的概念格后,把它转化为,可以直观表示网页间的语义关系的概 念语义背景图。转化方法如下:首先要确定出核心概念,假定用户指定的主题特征集为 "abc",那么就可以将属性集为"abc"的概念看作核心概念,把核心概念放入概念背景图的 第〇层。然后再利用概念格中每个概念的属性包括核心概念属性个数的多少,把格中的概念 映射到背景图相应的层次当中去,原则如下,若核心概念的属性词的个数为N,则非核心概 念集中,属性词包括核心概念的词的个数为(N-i+1)个的那些属性放入第i层,iG[l,N]。直 到概念格中的所有概念都映射到背景图中,就构成了能表示用户兴趣主题的语义背景图模 型。语义背景图如图3所示。
[0037]概念背景图使用:
[0038]语义背景图建立后,就可以用它来判断待爬行网页与主题的相似度,当有一个新 网页的时候,利用IF-IDF切词分词来提取出能够表示该网页的属性词,用这些属性词来表 示这个网页,和概念背景图的概念作语义相似度的计算,计算概念相似度的公式如下:我们 定义概念㈤山)和(E2,I 2)之间的相似度计算方法如下:
[0039] SimCC{ {El, lx) ,{E", In))=丨(万1 ° 丨.-* w + 丨n '2) I * (1 - r) "" r m
[0040] 其中r是集合EjPE2*元素的个数最大值,m是集合I#PI2中元素的个数的最大值, w是权重,El PIE2表示在集合Ei和E2中相同的元素个数,Ii n 12表示在集合Ii和12中相同的元 素的个数。
[0041] 在爬行的过程中,需要动态更新概念背景图,以达到更好的表示用户的兴趣。使用 概念背景图的方法的主题爬行,可以有效地提高主题爬行虫的召回率和精确率,提高爬行 虫的效率。
[0042] 更新概念背景图的方法在下面的流程图中进行详细说明。
[0043]在一实施例中,为了能够给用户提供一个满意的服务,就必须准确得知用户的兴 趣所在。一般可以通过通用搜索引擎进行关键字的搜索,在返回的结果集中去跟踪用户的 主题兴趣。本文通过Google提供的Web Service接口来返回与用户初始输入的关键词相关 的网页,并将这些返回的结果作为候选主题页面,推荐给用户,用户在浏览过程中对其满意 的页面会做下标记,这些页面就构成了用户的主题兴趣集合。
[0044] 在获得了用户兴趣主题页面集合之后,就需要利用这些页面来为用户建立一个主 题特征关系模型,这个模型要能很好的表现这个主题。本文使用的是形式概念分析的方法, 通过建立概念格来表现用户的搜索目标背景。首先将用户精选的页面组合在一起,形成兴 趣主题页面集合,采用TF-IDF对这个页面集合提取特征并进行加权统计,之后对这些特征 按照权值大小进行排序,选择排在前面的N个特征作为构建概念格的属性集合。
[0045] 用概念背景图来计算待爬行的网页与用户主题兴趣之间的相似度。实验证明,利 用概念的属性词给概念格中的概念分层效果明显,分层方法如下:
[0046] 1)核心概念最能够反映用户的主题兴趣,因此把概念格中的核心概念插入到概念 背景图的中间,作为概念背景图的第〇层。
[0047] 2)在概念格中的非核心概念中,概念的属性词完全包括核心概念的属性词,与核 心概念有较高的相似度,作为概念背景图的第一层中的结点。
[0048] 3)在剩余的非核心概念集中,概念的属性词包括(N-i + 1)个核心概念的属性词的 那些概念,作为概念背景图的第I层,其中N表示核心概念中的属性词的个数,iG[l,N]。
[0049] 把概念格中的每一个概念映射到概念背景图的相应的层次中去,形成概念背景 图。
[0050] 增量概念更新概念背景图:
[0051 ] 1)增量概念生成步骤:
[0052] 1、首先根据新对象的属性个数判断该新概念在背景图中的层次N;
[0053] 2、然后将新对象的属性与背景图中第N-1层上的所有概念属性求交集;
[0054] 3、根据交集结果的不同,得出不同类型的增量概念;
[0055] 2)增量式更新概念背景图
[0056] a.找出主题相关的网页
[0057]预测得分大的网页即为主题相关的网页 [0058] b.更新概念背景图 [0059] 更新步骤如下:
[0060] (i)首先判断增量概念的层次N。
[0061] (ii)然后计算该增量概念与N-1层上所有概念的相似度,取相似度最大的那个概 念作为该增量概念的子概念(内层为子概念,外层为父概念),同时在这两个概念之间加条 边。
[0062] (iii)直到所有的增量概念都加入到概念背景图中。算法描述如下:
[0063]减少概念更新概念背景图:
[0064] 随着时间不断变化,主题爬行虫爬回来的网页中会有一些过时网页,这些网页或 者内容不能很好反映用户主题或者已经不存在了,那么相应的概念背景图中会存在一些过 时的、不能反映用户主题的信息,这时就需要在概念背景图中及时删除这些过时的信息,这 些过时信息在概念背景图中是以概念的形式体现的,通过删除概念背景图中的一些概念达 到删除过时信息的目的。步骤如下:
[0065] (1)从预测得分低的网页中找到与主题不相关的网页。
[0066] (2)删除与不相关网页有关的概念。
[0067] 使用概念背景图的方法的主题爬行,可以有效地提高主题爬行虫的召回率和精确 率,提高爬行虫的效率。
[0068] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定 本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在 不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的 保护范围。
【主权项】
1. 一种基于知识的用户兴趣挖崛方法,其特征在于包括以下步骤: 步骤(A)、系统服务器采集用户主题数据; 步骤(B)、系统服务器建立用户主题兴趣模型; 步骤(C)、系统服务器建立概念语义背景图; 步骤(D)、系统服务器更新概念语义背景图以更新用户主题兴趣数据。2. 根据权利要求1所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述 步骤(A)中,系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择 有兴趣的网页并构成用户的主题兴趣集合。3. 根据权利要求2所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述 步骤(B)中,系统服务器通过主题兴趣集合建立反映用户兴趣的概念图;所述系统服务器在 建立用户主题兴趣模型之前先进行建概念格处理。4. 根据权利要求3所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述 步骤(C)中,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义 背景图。5. 根据权利要求1所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述 步骤(D)中,所述系统服务器增加或减少概念语义背景图。6. 根据权利要求4所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述 系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图的具体方 法为:系统服务器先确定核心概念并将核心概念放入概念背景图的第O层,然后再利用概念 格中每个概念的属性个数的多少,把概念格中的概念映射到概念背景图相应的层次当中 去。7. 根据权利要求3所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:系统 服务器利用概念格的属性词给概念格中的概念分层,其分层方法为:概念格中的核心概念 插入到概念背景图的中间,作为概念背景图的第O层;在概念格中的非核心概念中,概念的 属性词完全包括核心概念的属性词并与核心概念有较高的相似度的属性词作为概念背景 图的第一层中的结点;在剩余的非核心概念集中,概念的属性词包括(Ν-i+l)个核心概念的 属性词的那些概念,作为概念背景图的第i层,其中N表示核心概念中的属性词的个数,ie [1,Ν]〇8. 根据权利要求2所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:系统 服务器将用户选择的页面组合在一起,形成兴趣主题页面集合,采用TF-IDF对这个页面集 合提取特征并进行加权统计,然后对这些特征按照权值大小排序,选择排在前面的特征作 为建概念格的属性集合。9. 根据权利要求8所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述 属性集合包括人工智能、机器学习、知识发现、agent技术、模式识别、自然语言处理、特征提 取、机器翻译以及知识表示。
【文档编号】G06F17/30GK105912637SQ201610217052
【公开日】2016年8月31日
【申请日】2016年4月8日
【发明人】孟庆瑞, 江静炜
【申请人】西藏飞跃智能科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1