一种基于复杂网络的压缩空间高效搜索方法

文档序号:6464938阅读:200来源:国知局
专利名称:一种基于复杂网络的压缩空间高效搜索方法
技术领域
本发明涉及社会网络分析以及图论等领域,特别是涉及一种基于复杂网络的压縮空间高 效搜索方法。
背景技术
随着越来越多的顾客开始在线购物,传统的目标营销方法已经不适用了。最好的营销方 法是让顾客自己来进行商品的推荐和营销。社会学的研究结果表明,彼此之间经常交互的用 户之间往往比较相似。彼此联系的用户之间很可能很相似,而相似的用户倾向于购买同样的 产品。目前社会网络网站十分流行,例如FaceBook, Myspace, Twitter等社交网站的广泛流 行,使得在线目标营销拥有大量的数据资源。由于利用用户之间的口口相传,使得通过虚拟 社会网络进行目标营销策略更加高效和快捷。
通过社会网络进行目标营销,传统的方法是通过比较不同用户对同一组商品的评价来计 算用户的相似度矩阵,利用这种方法获得的相似度矩阵非常稀疏,绝大部分用广之间没有任 何关联关系。为了解决这个问题,研究者又提出了一种方法,即利用信任关系来进行社会网 络的扩展,但由于在线网络上的信任关系是领域无关的,当某个用户将另一个用户加到信任 列表或朋友列表中时,并没有指定所信任的领域,而不同用户的偏好和个人兴趣差异较大, 因此单单利用信任关系进行扩展会非常的不精确。为了解决相似度矩阵的稀疏问题,以及提
供更精确的目标营销,本发明提出了一种利用评价网络来降低相似度矩阵稀疏度的方法,将 评分相似度和评价相似度整合起来计算节点之间相互的影响力作用。由于评价关系是领域明 确的,因此目标营销的准确度高。
根据对47个市场的26, 486名Internet用户的全球尼尔森调査显示,78%的用户认为其 他用户的推荐是最可靠的一种广告形式。82%阅读过评价的用户表明他们购买商品的决策直接 受到这些评价的影响。因此利用用户评价关系来分析用户之间的影响力关系是十分准确的。 一方面用户的评价在顾客进行购买商品决策时起到了非常重要的作用,另一方面评价关系能 够很好地反映顾客的个人偏好和兴趣。
对于寻找一个网络中的核心节点,通常的方法有利用节点度数、最短距离以及贪心算法 等来寻找一个复杂网络中的最大覆盖,使得尽可能多的节点被激活。
本发明的目的在于克服上述技术的缺陷,而提供一种基于复杂网络的压縮空间高效搜索方 法,针对在复杂网络中,不同的参数反映网络不同方面的特性,而网络覆盖最大化是NP难问 题,不同的参数度量方法只能考察某一方面的特性,因此本发明提出一种启发信息压缩空间 搜索算法,可以最大可能地找出一组较优解。
本发明的目的是通过以下技术方案来实现的。这种基于复杂网络的压缩空间高效搜索方 法,包括以下歩骤-
(1) 通过网络爬虫从每个用户在商品在线评论网站Epinions. com的个人主页上进行抓 取信任关系,用户被看作是图中的节点,信任关系被看作是一条有向边,从信任别人的用户 指向被信任的用户;
(2) 当两个用户同时对两个或两个以上的相同商品进行评分后,计算这两个用户的商品 评分相似度,在计算两个用户的商品评分相似度时,将每个用户对共同评价的商品的评分看 成是一个一维向量,然后利用向量之间的距离来计算两个用户彼此之间的相似度,计算公式 如下<formula>formula see original document page 5</formula>
其中,说mp(J,5)表示用户v4和用户B之间的商品评分相似度,P代表商品,W代表 两个用户共同评价的商品的数量,cC^代表两个向量的最大可能距离;
(3)当一个用户D经常阅读用户C写的评论并进行评分的话,那么可以将用户D对用 户C的评分看作是一个一维向量,设定用户C对自己所写的评论的评分都是最高分,我们仍 然利用向量之间的距离来计算两个用户彼此之间的评论评分相似度。计算公式如下-<formula>formula see original document page 5</formula>
其中,S^,(C,":i表示用户C和用户Z)之间的评论评分相似度,r代表评论,々代表 用户C在某一个具体的领域所写的文章的数量,《n代表两个向量之间的最大可能距离;
(4)选定某一特定的领域,然后抓取出在该领域写过评论和评价过该领域评论的用户列 表,选取前面N个节点,然后抓取这N个节点彼此之间的信任关系、商品评分关系和评论评 价关系,即将这N个节点两两彼此之间的关系都挖掘出来;
(5) 根据商品评分相似度和评论评价相似度对信任网络进行扩展,形成一个包含多种启 发信息的复杂有向网络图,用户被看作是有向图中的节点,商品评分关系或评论评价关系看 作是有向图中的边,商品评分相似度或评论评价相似度的大小作为有向边上的权重;
(6) 根据社会网络分析的几种不同参数对整个有向网络中的节点进行排序,包从三种算
法排序结果中选择前M个候选节点,M的取值为想要确定的最终核心用户的数量,总共选取3
XM个候选节点,如果上述三种情况选取的节点数目未到达3XM,那么继续从二种算法的第
M+l个节点继续添加,使得候选节点的数目到达3XM;
(7)在候选的3XM个节点中选取M个节点最为核心用户,共有C^M种组合,得出一个在
3XM个节点中挖掘M个核心节点的最优解,也就是全局解空间的一个较优解。
本发明的有益效果通过贪心、爬山、入度排序等的预先处理,该算法在全局范围中选取 如下启发信息将经过上述三种算法选择出的三个有序最优结点集合并成一个混沌的候选结 点集,并补充加入上述三种算法的次优结点集,构成一个在有效时间内可以进行完全枚举的 候选结点全集。即,将一个巨大、松散、带有极大冗余信息的原解空间,压縮成了一个可以 被计算机处理的、集中的、带有高启发信息的另一个解空间。可以说是进行了一次全局意义 上的分支定界。接下来的全枚举,解决到了上述三种一般算法难以解决的问题即充分利用 了候选结点之间的交互信息,从而避免陷入局部最优。


图1为本发明中用户社会网络关系示意图;
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作 进一步地详细描述
本发明所述的基于复杂网络的压縮空间高效搜索方法,步骤如下
(1) Epinions.com是一个商品在线评论网站,用户在网站上提交对商品的评论(review) 并对该商品进行打分(score),其他的用户阅读这些评论和打分,并对此进行反馈评价(Rate), 同时Epinions. com还可以让用户指定自己的信任网络(Web of Trust)。当某个用户阅读了另 一个用户所写的大量商品评论并觉得很有帮助的话,他可以将该用户添加到自己的信任网络 中。以往很多研究者往往只针对上述的一种关系构建网络,例如有的研究者仅仅研究信任关 系,有的研究者仅仅关注商品评分相似度关系,各个单独的关系仅仅从一个侧面反映两个用 户之间的联系,所包含的信息不全面。本发明构建了一个包含多种关系的在线社会网络,将 信任关系、商品评分相似度和评论反馈相似度等多种关系进行融合,从而生成一个包含大量 启发信息的复杂社会网络。
(2) 信任关系可以通过网络爬虫从每个用户在Epinions. com的个人主页上进行抓取。 用户被看作是图中的节点,信任关系被看作是一条有向边,从信任别人的用户指向被信任的 用户。
(3)当两个用户同时对两个或两个以上的相同商品进行评分后,就可以计算这两个用户 的商品评分相似度。在计算两个用户的商品评分相似度时,将每个用户对共同评价的商品的 评分看成是一个一维向量,然后利用向量之间的距离来计算两个用户彼此之间的相似度。计 算公式如下<formula>formula see original document page 7</formula>其中,S/WpOiS)表示用户J和用户^之间的商品评分相似度,P代表"product"(商 品),"代表两个用户共同评价的商品的数量,XL代表两个向量的最大可能距离,当一
个用户对所有共同评价的商品都打分为最高分,而另一个用户对所有共同评价的商品都 打分为最低分的时候,那么两个向量之间的距离达到最大。
步骤(3)中将多种关系包括商品评分关系、评论评价关系和信任关系整合到同一个复杂 网络中,从而有效地降低了用户相似度矩阵的稀疏度,能够为确定用户之间彼此的影响 力提供更加准确的信息。
(4)当-'个用户0经常阅逮用户C写的评论并进行评分的话,那么可以将用户"对用户C 的评分看作是一个一维向量,因为商品的评论反映了用户的兴趣和个性偏好,因此我们设定 用户C对自己所写的评论的评分都是最高分(5分)。我们仍然利用向量之间的距离来计算两个 用户彼此之间的评论评分相似度。计算公式如下-<formula>formula see original document page 8</formula>其中,&'"!,.(<^,")表示用户€:和用户/)之间的评论评分相似度,r代表"review"(评 论),^代表用户C在某一个具体的领域所写的文章的数量。c/l^代表两个向量之间的最 大可能距离,当用户C对用户D所写的评论的打分都是最低分的时候,两个向量之间 的距离最大。
(5) 选定某一特定的领域,例如"书籍",然后抓取出在书籍领域写过评论和评价过书籍 领域评论的用户列表,选取前面30782个节点,然后抓取这30782个节点彼此之间的信任关 系、商品评分关系和评论评价关系。即将这30782个节点两两彼此之间的关系都挖掘出来。
(6) 根据商品评分相似度和评论评价相似度对信任网络进行扩展,形成一个包含多种启 发信息的复杂有向网络图。用户被看作是有向图中的节点,商品评分关系或评论评价关系看 作是有向图中的边,商品评分相似度或评论评价相似度的大小作为有向边上的权重。
(7) 根据社会网络分析的几种不同参数对整个有向网络中的节点进行排序,包括使用普 通贪心算法、爬山算法、高入度启发信息算法。从每种算法排序结果中选择前M个候选节点, M的取值为想要确定的最终核心用户的数量,总共可以选取3XM个候选节点。满足如下条 件之一的结点将会被选取为候选节点
根据高入度启发信息算法排序的前M个结点; 根据普通贪心算法排序的前M个结点; 根据爬山算法排序的前M个结点;
如果上述三种情况选取的节点数目末到达3XM (不同算法排序的候选节点会有重复,只 是排序不同),那么继续从三种算法的第M+1个节点继续添加,使得候选节点的数目到达3X M。
(8)在候选的3XM个节点中选取M个节点最为核心用户,共有C^M种组合,我们对各 种组合进行全枚举搜索,从而得出一个在3XM个节点中挖掘M个核心节点的最优解,也就是 全局解空间的一个较优解。由于利用初步的启发信息进行候选节点的筛选,选出了3XM个候 选结点,大幅度地压縮了解空间。在3XM个候选节点中采用全枚举搜索,可以充分地考虑这 3XM个点之间的交互信息,从而可以避免陷入爬山算法的局部最优。 一个结点本身含有四种信息,用AWeOAc^)来表示,
其中,a为一个结点可以单独激活周围结点的数量;b为一个结点对周围结点的有效影响 力总和。bs咖(mJn(P,w[i][j])),其中sum是求和,min是取较小值,i是我们讨论当前结 点,J-1...30782, w[i][j]为i(当前结点)对j的影响力,P为激活阈值。
c为一个结点的入度总和的数量
d为结点之间的合作信息。即单独个节点无法将周围节点激活,但是两个节点联合在 一起则可以将两个节点激活。
普通贪心算法只利用了所有结点的a, b信息;爬山算法只考虑到了所有结点的b信息和 初步的d信息,而入度排序只用到了所有结点的c信息,本发明构造的候选节点中进行全枚举 的算法利用了一些"精英结点"的a,b,c,d全部信息,因而可以获得最好的结果。 具体方法如下
(1) 假设一个社会网络中有N个用户,现有M个样品商品要赠送给顾客试用,候选用户的数 量是3XM个。然后利用上述提到的几种方法选取候选节点集C。
(2) 利用普通贪心算法,选取M个候选节点,统计每个结点能"单独"激活结点的数量,即 统计每个结点的"有效权重总和",即假定w[i] [j]是结点i对j的影响力,那么第i个结点 的"有效权重总和"=sum(min(P,W[i]U])),其中户l..N其排序规则为先比较单独激活 结点数量,按递减排(即选取前M个);在相同的情况下,按照有效权重总和递减排(即选取 前M个)。
(3) 利用爬山贪心算法,选取M个候选节点,其核心算法是搜索的一种简化,即存在一个评 价函数f(),用来评价所有的候选解,选取最优的侯选解来进行扩展。其步骤
(a) 初始化解空间,转(b)
(b) 求出当前每个点的f值,转(c)
(c) 选取最大的f值并将其加入队列q;如果队列Q满,则转(d),否则转(b)
(d) 完成爬山过程,计算可激活数。
f()的定义则是交互情况下的"有效权重总和",即减去了被激活的结点之间的关联权重。
(4) 利用社会网络中节点的入度排序,选择M个候选节点。
(5) 如果节点重复,不够3XM个节点的话,那么按照普通贪心算法的第(2)个规则选取前若 干个结点,使得侯选结点总数达到3XM。
(6) 在3XM个节点中进行全枚举搜索,然后得出3XM个节点组合中的最优解,做为整个网 络中的一个较优解。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要 求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
权利要求
1. 一种基于复杂网络的压缩空间高效搜索方法,其特征在于包括以下步骤(1)通过网络爬虫从每个用户在商品在线评论网站Epinions.com的个人主页上进行抓取信任关系,用户被看作是图中的节点,信任关系被看作是一条有向边,从信任别人的用户指向被信任的用户;(2)当两个用户同时对两个或两个以上的相同商品进行评分后,计算这两个用户的商品评分相似度,在计算两个用户的商品评分相似度时,将每个用户对共同评价的商品的评分看成是一个一维向量,然后利用向量之间的距离来计算两个用户彼此之间的相似度,计算公式如下其中,Simp(A,B)表示用户A和用户B之间的商品评分相似度,p代表商品,n代表两个用户共同评价的商品的数量,代表两个向量的最大可能距离;(3)当一个用户D经常阅读用户C写的评论并进行评分的话,那么可以将用户D对用户C的评分看作是一个一维向量,设定用户C对自己所写的评论的评分都是最高分,我们仍然利用向量之间的距离来计算两个用户彼此之间的评论评分相似度。计算公式如下其中,Simr(C,D)表示用户C和用户D之间的评论评分相似度,r代表评论,k代表用户C在某一个具体的领域所写的文章的数量,代表两个向量之间的最大可能距离;(4)选定某一特定的领域,然后抓取出在该领域写过评论和评价过该领域评论的用户列表,选取前面N个节点,然后抓取这N个节点彼此之间的信任关系、商品评分关系和评论评价关系,即将这N个节点两两彼此之间的关系都挖掘出来;(5)根据商品评分相似度和评论评价相似度对信任网络进行扩展,形成一个包含多种启发信息的复杂有向网络图,用户被看作是有向图中的节点,商品评分关系或评论评价关系看作是有向图中的边,商品评分相似度或评论评价相似度的大小作为有向边上的权重;(6)根据社会网络分析的几种不同参数对整个有向网络中的节点进行排序,包从三种算法排序结果中选择前M个候选节点,M的取值为想要确定的最终核心用户的数量,总共选取3×M个候选节点,如果上述三种情况选取的节点数目未到达3×M,那么继续从三种算法的第M+1个节点继续添加,使得候选节点的数目到达3×M;(7)在候选的3×M个节点中选取M个节点最为核心用户,共有种组合,得出一个在3×M个节点中挖掘M个核心节点的最优解,也就是全局解空间的一个较优解。
2. 根据权利要求1所述的基于复杂网络的压縮空间高效搜索方法,其特征在于在3 XM个候选节点中对各种组合采用全枚举搜索。
3. 根据权利要求1所述的基于复杂网络的压縮空间高效搜索方法,其特征在于根据 社会网络分析的几种不同参数对整个有向网络中的节点进行排序,包括使用普通贪心算法、 爬山算法、高入度启发信息算法。从每种算法排序结果中选择前M个候选节点,M的取值为 想要确定的最终核心用户的数量,总共可以选取3XM个候选节点。满足如下条件之一的结 点将会被选取为候选节点根据高入度启发信息算法排序的前M个结点; 根据普通贪心算法排序的前M个结点; 根据爬山算法排序的前M个结点;如果上述三种情况选取的节点数目未到达3XM,那么继续从三种算法的第M+l个节点继 续添加,使得候选节点的数目到达3XM。
全文摘要
本发明涉及一种基于复杂网络的压缩空间高效搜索方法,目的是在复杂网络中挖掘出影响力较大的核心节点作为初始活跃节点,然后根据网络有向边上的影响力权重继续激活网络中的其他节点,从而使得尽可能多的节点被激活。这个问题可以转化为图论中的网络覆盖最大化问题,在数学上已经被证明是NP难问题。针对在复杂网络中,不同的参数度量方法只能考察复杂网络某一方面的特性,因此本发明提出了一种基于启发信息的压缩空间搜索算法,通过普通贪心算法、爬山算法、高入度启发信息算法的预先处理,在全局范围中选出三个有序最优结点集合并成一个混沌的候选结点集,并补充加入上述三种算法的次优结点集,构成一个在有效时间内可以进行完全枚举的候选结点全集。本发明的搜索算法将一个巨大、松散、带有极大冗余信息的原解空间,压缩成一个计算机可处理的、集中的、带有高启发信息的另一个解空间,从而保证最大可能地找出一组较优解。
文档编号G06F17/30GK101388024SQ20081012136
公开日2009年3月18日 申请日期2008年10月9日 优先权日2008年10月9日
发明者吴朝晖, 宇 张, 陈华钧 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1