基于主题模型的订阅发布匹配方法及装置的制造方法

文档序号:10691195阅读:204来源:国知局
基于主题模型的订阅发布匹配方法及装置的制造方法
【专利摘要】本发明公开了一种基于主题模型的订阅发布匹配方法及装置,应用于位置感知订阅发布系统,方法包括:将订阅集合进行两层分级,使主题数量和关键主题相同的订阅位于同一个第二级子集中;第二级子集均根据每个订阅的空间区域信息建立空间索引树;事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子集,筛选出关键主题出现在事件的主题集合中的第二级子集,然后根据该事件的空间信息点检索筛选出的第二级子集对应的空间索引树,以获取匹配第二级子集中每个订阅的事件候选集,再进一步进行验证。本发明将语义匹配引入位置感知的订阅发布系统中,能够为每个订阅查询出在空间维度、文本语义纬度上符合订阅要求的若干事件的集合。
【专利说明】
基于主题模型的订阅发布匹配方法及装置
技术领域
[0001] 本发明属于通信技术领域,特别设及一种基于主题模型的订阅发布匹配方法及装 置,应用于位置感知的订阅发布系统。
【背景技术】
[0002] 随着移动互联网的快速发展,W及具有GI^功能的智能手机的普及,位置感知的订 阅/发布系统越来越多地受到了工业界和学术界研究人员的关注。在订阅/发布系统当中, 订阅者订阅自己感兴趣的信息作为订阅,发布者发布信息作为事件,如果订阅与事件有高 度的相关性,那么发布者发布的信息被推送给订阅者。
[0003] 目前,在位置感知的订阅/发布系统中,国内外有很多研究工作。主要有如下两个 分支,基于结构化数据和非结构化数据的位置感知的订阅发布系统。在结构化数据分支上, L.Guo提出了一种新位置感知订阅/发布系统,可W连续监控移动的订阅者接收来自社交媒 体和电子商务的结构化的事件信息流。JiaFfeng提出了 Ri-tree索引树,该索引树可W为每 个事件返回Top-k个订阅。Sadoghi将一种布尔表达式索引应用在位置感知的订阅/发布系 统当中,他将空间信息维度W谓词的形式加入在布尔表达式当中,W实现位置感知的订阅/ 发布系统。在非结构化数据分支上,Guoliang Li提出了一种高效地位置感知的订阅/发布 系统可W在高流速的事件流、千万级订阅数据集上实现微小时间内的检索。Yu等在 Guoliang Li的基础上提出了为每个事件返回Top-k订阅的算法,Lisi化en在位置感知的 订阅/发布系统当中引入时间维度,并设计出使每个订阅均能维持Top-k事件的匹配算法。 但是,运些工作主要是针对订阅与事件的匹配模式,查询方法等,并没有针对语义的匹配。 例如,当用户订阅"咖啡"时,"星己克"也应视作它的匹配,运是符合直觉的。但是,在现有技 术中,并没有将语义匹配引入位置感知订阅发布系统中的方法。

【发明内容】

[0004] 本发明的目的是提供了一种基于主题模型的订阅发布匹配方法和装置,能够将语 义匹配引入位置感知的订阅发布系统中W增加用户体验,并能够为每个订阅查询出同时在 空间维度、文本语义缔度上符合订阅要求的若干事件的集合。
[0005] 本发明提供的技术方案为:
[0006] 第一方面,本发明提供了一种基于主题模型的订阅发布匹配方法,应用于位置感 知的订阅发布系统,包括:
[0007] 将位置感知订阅发布系统中的一订阅集合根据每个订阅的主题数量分成多个互 不相交的第一级子集,使主题数量相同的订阅位于同一个第一级子集中;
[000引将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集, 使主题数量和关键主题均相同的订阅划分在同一个第二级子集中;
[0009]所述每个第二级子集均根据该第二级子集中每个订阅的空间区域信息建立一空 间索引树;
[0010] 所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件的主题数量 过滤掉和该事件不匹配的第二级子集,并筛选出关键主题出现在所述事件的主题集合中的 第二级子集,然后根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间索引 树,W获取匹配每个第二级子集中每个订阅的事件候选集;
[0011] 所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行匹配,判断该 订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题集合中;
[0012] 若是,则确定该订阅与该事件或多个事件匹配,查询到与该订阅匹配的事件;
[0013] 若否,则确定该订阅与该事件不匹配。
[0014] 优选的是,所述的基于主题模型的订阅发布匹配方法,所述将位置感知订阅发布 系统中的一订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集还包括:
[0015] 获取位置感知订阅发布系统中订阅集合中每个订阅的主题集合,并计算出所述每 个订阅的主题数量;
[0016] 从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率最小的主题 作为该订阅的关键主题。
[0017] 优选的是,所述的基于主题模型的订阅发布匹配方法,所述获取位置感知订阅发 布系统中订阅集合中每个订阅的主题集合包括:通过主题模型LDA对每个订阅中的关键字 集合进行主题映射获取该订阅的主题集合;所述获取每个事件的主题集合包括:通过主题 模型LDA对每个事件中的关键字集合进行主题映射获取该事件的主题集合。
[0018] 优选的是,所述的基于主题模型的订阅发布匹配方法,所述位置感知订阅发布系 统中一事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配的第二级子 集具体包括:若第二级子集中订阅的主题数量大于所述事件的主题数量,则确定该第二级 子集中的订阅与所述事件均不匹配。
[0019] 优选的是,所述的基于主题模型的订阅发布匹配方法,每个订阅的空间区域信息 W根据经缔度划分的最小边界矩形的形式来表示,每个事件的空间信息点由经缔度表示的 空间信息点表示,每个订阅S由如下第一公式表示,所述第一公式为:S={[Ksl,Ks2-Ksn], R},其中,[Ksi,Ks2-Ksn]表示订阅的关键字集合,R表示订阅的空间区域信息,每个事件e由 如下第二公式表示,所述第二公式为:6={比61,1(62。'1(6。],1〇(3},其中,瓜1,1(62。'1(6。]表示事 件的关键字集合,loc表示事件的空间信息点。
[0020] 优选的是,所述的基于主题模型的订阅发布匹配方法,每个订阅和每个事件通过 主题模型LDA进行主题映射后,每个订阅S由如下第Ξ公式表示,所述第Ξ公式为:s = {比smaχTPClΛKsmaχTPC2八…KsmaχTPCn],R},其中,[KsmaχTPCl八KsmaχTPC2八…KsmaχTPCn]表示 订阅的主题集合,每个事件由如下第四公式表示,所述第四公式为:e={[KemaxTPEi八 KemaxTPCg八…KemaxTPCm], loc},其中,化emaxT%八KemaxTPCg八…KemaxTPCm]表示事件的主题 集合。
[0021] 第二方面,本发明提供了一种基于主题模型的订阅发布匹配装置,应用于位置感 知的订阅发布系统,包括:
[0022] 第一分级模块,其用于将位置感知订阅发布系统中的订阅集合根据每个订阅的主 题数量分成多个互不相交的第一级子集;
[0023] 第二分级模块,其用于将所述每个第一级子集中的订阅根据每个订阅的关键主题 分成多个第二级子集;
[0024] 空间索引树建立模块,其用于将所述每个第二级子集均根据该第二级子集中每个 订阅的空间区域信息建立一空间索引树;
[0025] 过滤模块,其用于所述位置感知订阅发布系统中一事件流中的每个事件均根据该 事件的主题数量过滤掉和该事件不匹配的第二级子集;
[0026] 筛选模块,其用于筛选出关键主题出现在所述事件的主题集合中的第二级子集;
[0027] 检索模块,其用于根据该事件的空间信息点检索所述筛选出的第二级子集对应的 空间索引树,W获取匹配每个第二级子集中每个订阅的事件候选集;
[0028] 判断模块,其用于所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一 进行匹配时,判断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的 主题集合中;
[0029] 确定模块,若订阅的所有主题均出现在所述事件候选集中一事件或多个事件的主 题集合中,则所述确定模块确定该订阅与该事件与多个事件匹配;
[0030] 若订阅的所有主题不能均出现在所述事件候选集中一事件或多个事件的主题集 合中,则所述确定模块确定该订阅与该事件不匹配。
[0031] 优选的是,所述的基于主题模型的订阅发布匹配装置,还包括:
[0032] 映射模块,其用于通过主题模型LDA对位置感知订阅发布系统中的每个订阅和每 个事件的关键字集合进行主题映射,获取该订阅的主题集合和该事件的主题集合;
[0033] 选取模块,其用于从每个订阅的主题集合中选取出在整个数据集中主题分布出现 频率最小的主题作为该订阅的关键主题;
[0034] 计算模块,其用于计算所述位置感知订阅发布系统中每个订阅的主题数量和每个 事件的主题数量。
[0035] 本发明至少包括W下有益效果:由于将订阅集合根据每个订阅的主题数量分成多 个互不相交的第一级子集,又将每个第一级子集中的订阅根据每个订阅的关键主题分成多 个第二级子集,运样两层的分级方法就能使主题数量和关键主题均相同的订阅划分在同一 个第二级子集中,为获取到第二级子集中每个订阅匹配的事件,事件流中的每个事件首先 根据该事件的主题数量过滤掉和该事件不匹配的第二级子集,然后再筛选出关键主题出现 在事件的主题集合中的第二级子集,然后根据该事件的空间信息点检索筛选出的第二级子 集对应的空间索引树,通过上面的索引结构能够获取匹配每个第二级子集中每个订阅的事 件候选集,再进一步进行验证,运样就能够为每个订阅查询出在空间维度、文本语义缔度上 符合订阅要求的若干事件的集合,且该方法具有有效性和高效性。
【附图说明】
[0036] 图1为本发明所述的基于主题模型的订阅发布匹配方法的流程示意图;
[0037] 图2为例子1中3个订阅和1个事件的空间信息分布图;
[0038] 图3为例子1中3个订阅的主题集合索引图;
[0039] 图4为例子1中3个订阅和1个事件的RP?-trees索引结构图;
[0040] 图5为例子2中Ξ组索引方案内存开销的比较结果图;
[0041] 图6为例子2中Ξ组索引方案中不同的订阅数量的比较结果图;
[0042] 图7为例子2中Ξ组索引方案中不同的主题数量的比较结果图;
[0043] 图8为例子2中Ξ组索引方案中不同的事件主题集合长度时的比较结果图。
【具体实施方式】
[0044] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它 实施例,都属于本发明保护的范围。
[0045] 为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说 明。
[0046] 在实现本方案之初,由于对订阅中的关键字进行主题映射,且增加了空间区域信 息,所W需要对位置感知订阅/发布系统进行定义和说明。
[0047] 在位置感知的订阅/发布系统当中,一个订阅3={3.1',3.1?}由^下部分组成:文本 描述信息S.T和空间区域信息S.R,文本描述信息是指订阅者描述其需求的语言文字,S.T是 由一个关键字集合组成,即S.T=化sl,Ks2,…,Ksn},空间区域信息是指订阅者所感兴趣的空 间区域。订阅S由如下公式表示:S = {[Ksl,Ks2,…,Ksn],R}。一个事件e是由一个文本信息集 合e. T和一个空间信息点e. loc组成,e. T表达式为e. Τ=化el,Ke2,…,Kem},e. loc是一个由经 缔度表示的空间信息点。事件e可由如下公式表示:e= {:比el,Ke2,…,KemLloc}。
[0048] 在基于主题模型的位置感知订阅/发布系统当中,为了使得订阅和事件中的关键 字集合得到其主题映射,我们采用最常用的文档主题生成模型LDA(Latent Dirichlet Allocation),把包括订阅与事件的文本信息S.TW及e.T作为LDA的训练集与验证集,通过 不断地训练与验证收敛出订阅中关键字所对应主题分布。从每个关键字Ksi对应的主题 KsiTPE中选取分布概率最高的主题Ksma/K,然后我们将所有的具有最高分布概率的关键字 主题合取式作为订阅中的关键字主题集合S . Ttpc,即S . Ttpc=化smaxT% AKsmaxTPS八… KsmaxTPG。}。订阅S重新由如下公式表示:s = { KsmaxT%八KsmaxTPGg八…KsmaxTPG。] ,R}。对于 事件的文本信息e.T的关键字的主题映射,我们做与S.T相同的处理。即,e.TTPC=化ema/% 八KemaxTPGg八…KemaxTPGm}。所W事件e重新由如下公式表示:e = {[KemaxTPGi八KemaxTPCs 八…Kema^TPCm], loc}。
[0049] 在基于主题模型的位置感知订阅/发布系统匹配模式中,可W分为Ξ个模块:1、主 题匹配;2、主题集合匹配;3、空间信息匹配。
[0050] 定义1(主题匹配):对于一个给定的订阅主题Ksma/PGi和事件主题KemaxTPGj,如果 KsmaxTPGi= = Kema/PGj,那么,我们就称事件主题Kema/PGj匹配订阅主题Ksma/PCi。
[0051] 定义2(主题集合匹配):对于一个给定的订阅主题集合s.Ttpc和事件主题集合 e. Ttpc,如果对于VKsmaxT'PCi 巨s.Ttpc都有KsmaxTPGi = = KemaxTPGj,化emaxTPGj e e. Ttpc),那 么,我们就称事件主题集合e. Ττκ匹配订阅主题集合S. Ττκ。
[0052] 定义3(空间信息匹配):对于一个给定订阅中的空间区域信息s.R和事件中的空间 信息点e . 10 C,如果空间信息点e . 10 C落入空间区域信息S . R,那么,事件中的空间信息点 e. loc匹配订阅中的空间区域信息S.R。
[0053] 定义4(订阅与事件匹配):对于一个给定的订阅S与事件e,如果事件e的主题集合 e.TTPC与订阅s的主题集合s.Ttp砸配,同时,事件e的空间信息点与订阅s的空间区域信息 S.R匹配,那么,事件e与订阅S匹配。
[0054]定义5(LPSTM,Location-Aware 化blish/Subscribe basing topic Model,基于 主题模型的位置感知订阅/发布系统):对于一个给定的事件流E和一个给定的订阅集合S, 基于主题模型的位置感知订阅/发布系统的目的是要找到与S匹配的事件e,其中seS,ee E。
[0055] 本发明一实施例提供的基于主题模型的订阅发布匹配方法,应用于位置感知的订 阅发布系统,所述装置为具有实现本发明实施例所述方法功能的装置或设备,可W通过在 装置或设备中安装相关软件或硬件使其具有实现本发明实施例所述方法的功能,如图1所 示,所述方法包括:
[0056] SOI、获取位置感知订阅发布系统中一订阅集合中每个订阅的主题集合,并计算出 所述每个订阅的主题数量。
[0057] 其中,通过主题模型LDA对每个订阅中的关键字集合进行主题映射获取该订阅的 主题集合。
[0058] S02、从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率最小的 主题作为该订阅的关键主题。
[0059] 需要说明的是:根据定义2可知,如果一个事件e匹配一个订阅S,那么订阅S中所有 的主题都要出现在事件e的主题集合当中。如果订阅S中的一个主题没有在事件e的主题集 合当中出现,那么事件e肯定不是订阅S的结果。因此,给定一个事件e,我们只考虑那些关键 主题出现在事件e的主题集合中的订阅。在整个数据集具有低频率的主题更具有过滤订阅 的作用,因为较低频的主题出现在另一个事件中的可能性较低,因此选订阅的主题集合里 出现频率最低的主题作为关键主题。
[0060] S03、将所述位置感知订阅发布系统中的订阅集合根据每个订阅的主题数量分成 多个互不相交的第一级子集,使主题数量相同的订阅位于同一个第一级子集中。
[0061] 其中,订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子集,可W 表示如下:S = ^N1) U^N2) U^Ni)U….U^Nn);如果事件e的主题集合匹配订阅S中的主题 集合,那么事件e中的主题数量一定大于或等于S中的主题,如果不满足上述条件,订阅S中 必然有一个主题得不到事件e的匹配,根据定义2,事件e肯定不是订阅S的结果之一。
[0062] S04、将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级 子集,使主题数量和关键主题均相同的订阅划分在同一个第二级子集中。
[0063] 其中,将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级 子集表示为:L(Ni) = :L(si)Ul^(s2)Ul^(si)L>''..Ul^(Sn)。
[0064] S05、所述每个第二级子集均根据该第二级子集中每个订阅的空间区域信息建立 一空间索引树R-tree。
[0065] 需要说明的是,建立R-tree的目的是用来过滤事件的空间信息的。
[0066] S06、所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件的主题 数量过滤掉和该事件不匹配的第二级子集,并筛选出关键主题出现在所述事件的主题集合 中的第二级子集,然后根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间 索引树,W获取匹配每个第二级子集中每个订阅的事件候选集。
[0067] 其中,若第二级子集中订阅的主题数量大于所述事件的主题数量,则确定该第二 级子集中的订阅与所述事件均不匹配,所W事件的主题数量必须大于或等于第二级子集中 订阅的主题数量。运样可W把事件流中可能与第二级子集中的订阅的匹配的事件筛选出 来,然后再根据事件的空间信息点检索第二级子集对应的空间索引树,就可W获取匹配第 二级子集中每个订阅的事件候选集。
[0068] 其中,通过主题模型LDA对每个事件中的关键字集合进行主题映射获取该事件的 主题集合。
[0069] S07、所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行匹配,判 断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题集合中;
[0070] 若是,则确定该订阅与该事件或多个事件匹配,查询到与该订阅匹配的事件;
[0071] 若否,则确定该订阅与该事件不匹配。
[0072] 需要说明的是:我们将步骤S02、S03、S04、S05建立的分区分级索引结构称为RP?- trees,在RP?-trees中,每个订阅都有标志性主题,就是关键主题δ。
[0073] 对于上面的步骤,接下来我们来举一个具体的例子来说明。例子1如下所示:
[0074] 给定如下3个订阅和1个事件:sl = r'KFC,可W美团。",Rl};s2=r運当劳,上口服 务,酬宾活动。",R2} ;s3=r附近的必胜客,饿了么。",R2} ;el = r东环路肯德基开张!,欢 迎食客光临,可送餐上口!。",l〇cl}。其主题映射如下表1所示,空间信息分布如图2所示。由 图可知,el匹配si,因为si的主题集合[快餐,外卖]被el的主题集合[快餐,外卖]匹配,且 loci落入Ri,两者主题集合和空间信息都匹配,el匹配sUel不匹配s2,虽然loci落入R2,但 是s2的主题集合[快餐,促销,外卖]不被el的主题集合[快餐,外卖]匹配,所Wei不匹配s2。 另外,el不匹配S3,因为虽然loci没有落入R2,两者空间信息不匹配,故el不匹配S3。
[0075] 表 1
[0076]
[0077] 根据表1建立的主题集合索引结构,如图3所示,在第一步,根据订阅的主题集合中 主题数量分成两个子集L2,L3。然后,根据不同主题的出现频率选取出关键主题。运里我们假 设"快餐","促销"为整个数据集中的关键主题。给定一个事件el,其主题集合中的主题数量 为2,根据事件的主题数量,在子集L3中的订阅肯定不匹配e 1。
[007引如图4所示,给出了 RP?-化ees的索引结构,3口《-付663由立部分组成,第一部分是 步骤S03和步骤S04两步分区法划分的两层主题集合倒排索引。第二部分是相应订阅子集的 空间区域信息建立的空间索引树R-化ee。运些R-化ee是用来过滤事件的空间信息的,并用 来生成匹配订阅的候选集。为了解释RP?-trees的查询过程,给定一个事件ei=r东环路肯 德基开张!,欢迎食客光临,可送餐上口!。",loci},根据主题模型LDA找到事件关键字的主 题映射,即该事件可被重写为ei={[快餐Λ外卖],loci},计算出ei的主题集合中的主题个 数为2,所W,在L3中的订阅被剪掉,之后访问L2中的订阅,发现e冲存在主题"快餐",然后根 据loci检索相应的R-化ee(2,快餐)。发现,loci落在SI的空间区域Ri,之后,进一步验证SI的 主题集合中所有主题"快餐","外卖"均在ei中的主题集合出现,于是S1找到最终结果ei。
[0079] 本发明又一实施例提供了一种基于主题模型的订阅发布匹配装置,应用于位置感 知的订阅发布系统,包括:
[0080] 第一分级模块,其用于将位置感知订阅发布系统中的订阅集合根据每个订阅的主 题数量分成多个互不相交的第一级子集;
[0081] 第二分级模块,其用于将所述每个第一级子集中的订阅根据每个订阅的关键主题 分成多个第二级子集;
[0082] 空间索引树建立模块,其用于将所述每个第二级子集均根据该第二级子集中每个 订阅的空间区域信息建立一空间索引树;
[0083] 过滤模块,其用于所述位置感知订阅发布系统中一事件流中的每个事件均根据该 事件的主题数量过滤掉和该事件不匹配的第二级子集;
[0084] 筛选模块,其用于筛选出关键主题出现在所述事件的主题集合中的第二级子集;
[0085] 检索模块,其用于根据该事件的空间信息点检索所述筛选出的第二级子集对应的 空间索引树,W获取匹配每个第二级子集中每个订阅的事件候选集;
[0086] 判断模块,其用于所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一 进行匹配时,判断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的 主题集合中;
[0087] 确定模块,若订阅的所有主题均出现在所述事件候选集中一事件或多个事件的主 题集合中,则所述确定模块确定该订阅与该事件与多个事件匹配;
[0088] 若订阅的所有主题不能均出现在所述事件候选集中一事件或多个事件的主题集 合中,则所述确定模块确定该订阅与该事件不匹配。
[0089] 进一步的,所述的基于主题模型的订阅发布匹配装置,还包括:
[0090] 映射模块,其用于通过主题模型LDA对位置感知订阅发布系统中的每个订阅和每 个事件的关键字集合进行主题映射,获取该订阅的主题集合和该事件的主题集合;
[0091] 选取模块,其用于从每个订阅的主题集合中选取出在整个数据集中主题分布出现 频率最小的主题作为该订阅的关键主题;
[0092] 计算模块,其用于计算所述位置感知订阅发布系统中每个订阅的主题数量和每个 事件的主题数量。
[0093] 需要说明的是,基于主题模型的位置感知的订阅/发布系统有两个缔度需要处理, 一个是文本信息中关键字对应的主题集合,一个是空间区域信息,处理时,两个最初的方案 均是串行的将主题集合缔度,和空间区域信息缔度按顺序计算。在主题集合缔度上,我们采 用的是著名的倒排索引来索引订阅的主题集合,然后W开源的空间区域信息索引树R-tree 索引订阅的空间信息。我们可将该方案扩展为两个方法,一个是W事件e的空间信息点先从 R-化ee过滤出符合订阅S空间信息约束的事件候选集,再通过订阅的主题集合倒排索引验 证出发生主题集合匹配的订阅,从而得到最终结果。另一个是先从通过订阅主题倒排索引 来获得发生主题集合匹配的候选集,然后再在R-化ee上验证其空间信息维度上是否发生匹 配,如果空间信息也匹配,则返回最终结果。我们分别称运两个方法为S-Fist(空间信息优 先),TPC-First(主题集合优先)。众所周知,由于串行计算的性能低下,W及订阅的主题个 数偏少使得倒排索引的分区能力弱化,运使得W该方案为基础该S-Fist、TPC-First的效率 并不高,为此,我们设计了 RP?-trees来索引订阅。
[0094]下面将列举一个具体的例子来说明RP?-trees索引结构的优点,例子2如下所示: [00M]我们采用6万条微博签到信息记录作为我们的仿真实验数据集。每个用户签到信 息包括,用户的id,用户签到所掲示的空间信息点(经缔度),W及用户的微博文本。运些微 博稍作处理可W直接成为我们的事件信息流。另外,我们根据每个用户的签到空间信息点, W-定长、宽随机生成一个空间区域信息来作为订阅者所订阅的空间区域。并W该微博数 据作为订阅内容。由于微博数据量有限,我们有时候将微博文本根据标点符号拆分为若干 条文本信息,从而生成多种订阅。然后,根据微博的文本信息,我们采用主题模型LDA算法得 到每个微博关键字的所有主题分布中分布概率最大的主题作为关键字对应的主题,从而得 到每一个关键字的主题映射。我们总共生成了 10M个订阅,和0.1M个事件作为匹配测试数 据。表2详细介绍了数据集的参数设置。
[0096] 表 2
[0097]
[0099] 结果分析:
[0100] 将比较RP?-trees和另外两种基准方案S-Fist、TPC-First做对比试验。由于所有 S个索引都是内存索引,我们首先分析了个索引的内存花费情况。之后,我们分别W-下参 数维度多对照试验:不同的订阅个数,不同的主题个数,W及不同的事件主题集合的平均长 度。接下来我们将逐个展示基于W上参数的实验结果。我们W事件和订阅匹配事件作为评 价依据。
[0101] -、内存开销
[0102] 我们首先对照Ξ组索引方案随着订阅数量的增长引起的内存开销变化,实验结果 如图5所示。我们可W看到Ξ者内存开销随着订阅数量的增长而增长,在固定订阅数量不变 的情况下,Ξ者内存开销几乎一致,相较于S-Fist、TPC-First,RP?-trees的内存开销较大 一些,运是因为相较于其他两个索引5斗131:、了?(:斗;[^1:,1??了^-化663产生更多的1?-化66,运 将导致内存开销略微增大。由于S-Fist、TPC-First的索引结构其实是一样的,区分运两个 解决方案主要是从查询方案上,空间信息有先(S-Fist)还是主题集合信息优先(TPC- First)。
[0103] 二、不同的订阅数量
[0104] 为了测试Ξ个方法的稳定性,我们在不同订阅数量的分布下做了实验,平均事件 匹配时间在不同订阅个数下的分布如图6所示。我们可W看到,无论从绝对的平均匹配时间 上,还是索引的稳定性上,RP?-trees的表现最好。其次是TPC-First。运是因为RP?-trees 根据主题集合长度大小W及关键主题对订阅的分区能力远高于后两者。其次,由于RP?- tree S对订阅的分区能力强劲,使得每个相应R-tree所索引的空间信息量大幅减少,运增加 了 R-tree的对订阅的过滤效率。
[01化]Ξ、不同的主题数量
[0106] 主题个数对Ξ个索引来说都是一个非常重要的参数,因为Ξ个索引都是全部、或 部分根据主题的个数划分订阅子集的。从图7明显可W看出,当主题数量增加时,Ξ个索引 的平均事件匹配时间都在减少,运是因为随着主题数量的增加,Ξ个索引都会产生更小的 订阅分区,RP?-trees减小的更明显,运是因为RP?-trees首先根据关键主题划分订阅,当 主题个数增加时,单个的索引大小将会明显减少,结合R-化ee在空间信息上的过滤功能,使 得事件匹配时间相较于S-Fist、TPC-First进一步减少。除次之外,随着整个数据集中主题 个数的增加,事件匹配订阅的可能性进一步增加,运是因为随着主题个数的增加,事件的一 个主题匹配订阅的一个主题时,订阅和事件的相关性将增大。
[0107] 四、不同的事件主题集合长度
[0108] 该实验结果如图8所示。从图8我们可W明显的看出,只有RP?-trees对事件主题长 度运个参数敏感,因为相较于S-Fist、TPC-First,RP?-trees采用主题集合的长度将订阅分 区,随着事件的主题集合长度不断增大,RP?-trees根据主题集合长度剪枝的能力大大减 弱,使得平均事件匹配时间随着事件主题集合长度的增加而增加。
[0109] 尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列 运用,它完全可W被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地 实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限 于特定的细节和运里示出与描述的图例。
【主权项】
1. 一种基于主题模型的订阅发布匹配方法,应用于位置感知的订阅发布系统,其特征 在于,包括: 将位置感知订阅发布系统中的一订阅集合根据每个订阅的主题数量分成多个互不相 交的第一级子集,使主题数量相同的订阅位于同一个第一级子集中; 将所述每个第一级子集中的订阅根据每个订阅的关键主题分成多个第二级子集,使主 题数量和关键主题均相同的订阅划分在同一个第二级子集中; 所述每个第二级子集均根据该第二级子集中每个订阅的空间区域信息建立一空间索 引树; 所述位置感知订阅发布系统中发布的事件流中的每个事件均根据该事件的主题数量 过滤掉和该事件不匹配的第二级子集,并筛选出关键主题出现在所述事件的主题集合中的 第二级子集,然后根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间索引 树,以获取匹配每个第二级子集中每个订阅的事件候选集; 所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行匹配,判断该订阅 的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题集合中; 若是,则确定该订阅与该事件或多个事件匹配,查询到与该订阅匹配的事件; 若否,则确定该订阅与该事件不匹配。2. 如权利要求1所述的基于主题模型的订阅发布匹配方法,其特征在于,所述将位置感 知订阅发布系统中的一订阅集合根据每个订阅的主题数量分成多个互不相交的第一级子 集还包括: 获取位置感知订阅发布系统中订阅集合中每个订阅的主题集合,并计算出所述每个订 阅的主题数量; 从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率最小的主题作为 该订阅的关键主题。3. 如权利要求2所述的基于主题模型的订阅发布匹配方法,其特征在于,所述获取位置 感知订阅发布系统中订阅集合中每个订阅的主题集合包括:通过主题模型LDA对每个订阅 中的关键字集合进行主题映射获取该订阅的主题集合;所述获取每个事件的主题集合包 括:通过主题模型LDA对每个事件中的关键字集合进行主题映射获取该事件的主题集合。4. 如权利要求1所述的基于主题模型的订阅发布匹配方法,其特征在于,所述位置感知 订阅发布系统中一事件流中的每个事件均根据该事件的主题数量过滤掉和该事件不匹配 的第二级子集具体包括:若第二级子集中订阅的主题数量大于所述事件的主题数量,则确 定该第二级子集中的订阅与所述事件均不匹配。5. 如权利要求3所述的基于主题模型的订阅发布匹配方法,其特征在于,每个订阅的空 间区域信息以根据经炜度划分的最小边界矩形的形式来表示,每个事件的空间信息点由经 炜度表示的空间信息点表示,每个订阅s由如下第一公式表示,所述第一公式为:s={[K sl, Ks2···!(%],R},其中,[Ksl,Ks2…Ksn]表示订阅的关键字集合,R表示订阅的空间区域信息,每 个事件e由如下第二公式表不,所述第二公式为:e = { [Kel,Κθ2···Κθιι],loc},其中,[Kel,Ke2··· U表示事件的关键字集合,loc表示事件的空间信息点。6. 如权利要求5所述的基于主题模型的订阅发布匹配方法,其特征在于,每个订阅和每 个事件通过主题模型LDA进行主题映射后,每个订阅s由如下第三公式表示,所述第三公式 为:s = {[KsmaxTPCi AKsmaxTPC2 Λ …KsmaxTPCn],R},其中,[KsmaxTPCi AKsmaxTPC2 Λ … KsmaXTpen]表示订阅的主题集合,每个事件由如下第四公式表示,所述第四公式为:e = {[KemaxTPCiAKemaxTPC2A ,loc},其中,[Kemax TPCiAKemaxTPC2A 表 示事件的主题集合。7. -种基于主题模型的订阅发布匹配装置,应用于位置感知的订阅发布系统,其特征 在于,包括: 第一分级模块,其用于将位置感知订阅发布系统中的订阅集合根据每个订阅的主题数 量分成多个互不相交的第一级子集; 第二分级模块,其用于将所述每个第一级子集中的订阅根据每个订阅的关键主题分成 多个第二级子集; 空间索引树建立模块,其用于将所述每个第二级子集均根据该第二级子集中每个订阅 的空间区域信息建立一空间索引树; 过滤模块,其用于所述位置感知订阅发布系统中一事件流中的每个事件均根据该事件 的主题数量过滤掉和该事件不匹配的第二级子集; 筛选模块,其用于筛选出关键主题出现在所述事件的主题集合中的第二级子集; 检索模块,其用于根据该事件的空间信息点检索所述筛选出的第二级子集对应的空间 索引树,以获取匹配每个第二级子集中每个订阅的事件候选集; 判断模块,其用于所述每个订阅均与匹配该订阅的事件候选集中的所有事件一一进行 匹配时,判断该订阅的所有主题是否均出现在所述事件候选集中一事件或多个事件的主题 集合中; 确定模块,若订阅的所有主题均出现在所述事件候选集中一事件或多个事件的主题集 合中,则所述确定模块确定该订阅与该事件与多个事件匹配; 若订阅的所有主题不能均出现在所述事件候选集中一事件或多个事件的主题集合中, 则所述确定模块确定该订阅与该事件不匹配。8. 如权利要求7所述的基于主题模型的订阅发布匹配装置,其特征在于,还包括: 映射模块,其用于通过主题模型LDA对位置感知订阅发布系统中的每个订阅和每个事 件的关键字集合进行主题映射,获取该订阅的主题集合和该事件的主题集合; 选取模块,其用于从每个订阅的主题集合中选取出在整个数据集中主题分布出现频率 最小的主题作为该订阅的关键主题; 计算模块,其用于计算所述位置感知订阅发布系统中每个订阅的主题数量和每个事件 的主题数量。
【文档编号】H04W8/18GK106060154SQ201610505159
【公开日】2016年10月26日
【申请日】2016年6月30日
【发明人】鲜学丰, 赵朋朋, 崔志明
【申请人】江苏省现代企业信息化应用支撑软件工程技术研发中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1