信息检索方法和装置的制造方法_2

文档序号:9810556阅读:来源:国知局
同时有第一请求用户和第二请求用户发起检索请求时,与第一检索请求携带的检 索关键词匹配的社交网络信息可能包括第一关联用户所发布的第一社交网络信息,还可能 包括第二关联用户所发布的第二社交网络信息,即第三社交网络信息包括第一社交网络信 息中与第一检索请求所携带的检索关键词匹配的社交网络信息,还可以包括第二社交网 络信息中与第一检索请求所携带的检索关键词匹配的社交网络信息。例如,第三社交网络 信息为 UINl_UIN2_D0C_2_a,UINl_UIN2_D0C_2_b,UINl_UIN3_D0C_3_b 以及 UIN4_UIN3_ D0C_3_b所表示的社交网络信息。其中,UIN4_UIN3_D0C_3_b所表示的为第二社交网络信 肩、。
[0033] 步骤S208,从第一集合中选择作为检索结果的成员,其中,作为检索结果的成员中 的第一社交网络信息的标识所表示的第一社交网络信息为第三社交网络信息中的一个。 [0034] 从第一集合中选择的成员所表示的第一社交网络信息是同时存在于第一集合所 表示的第一社交网络信息和第三社交网络信息中的社交网络信息。表2示出了第一集合 和第三社交网络信息,从表2所示的第一集合中选择作为检索结果的成员时,可以很容易 从第一集合中选择出同时存在第一社交网络信息和第三社交网络信息中的社交网络信息, 即第一集合成员中的成员lUINl_UIN2_D0C_2_a、成员2UINl_UIN2_D0C_2_b和成员3UIN1_ UIN3_D0C_3_b,则将这三个选择出的成员作为检索结果。
[0035] 表 2
[0036]
[0037] 通过上述实施例,在检索的过程中,先根据第一请求用户的标识、第一关联用户的 标识得到第一集合,从第一集合中查找同时存在于第三社交网络信息中的社交网络信息, 由于将现有技术中的每个关联用户与其发布的社交网络信息的集合简化为第一集合中的 成员,并且该成员能够表示其所表示的社交网络信息所属的第一关联用户的标识、与该关 联用户的标识具有关联关系的第一请求用户标识,就不需要逐个将每个关联用户所发布的 社交网络信息与第三社交网络信息比较来获取检索结果,减少了比较的过程,从而解决了 现有技术中进行检索时,检索效率较低的问题,达到了提高检索效率的效果。
[0038] 具体地,从第一社交网络信息和第二社交网络信息中查找与检索请求携带的检索 关键词匹配的社交网络信息包括:从第一关联用户发布的第一社交网络信息以及第二关联 用户发布的第二社交网络信息中查找与第一检索请求携带的检索关键词匹配的社交网络 信息,作为第三社交网络信息;根据第三社交网络信息得到第二集合,其中,第二集合中的 每个成员包括:一条第三社交网络信息的标识、发布第三社交网络信息的关联用户的第三 关联用户标识、以及与第三关联用户标识具有关联关系的第三请求用户标识;其中,第三关 联用户标识为第一关联用户标识,第三请求用户标识为第一请求用户标识;或者,第三关联 用户标识为第二关联用户标识,第三请求用户标识为第二请求用户标识。
[0039] 根据第一请求用户标识、第一关联用户标识和社交网络信息的标识生成新的社交 网络信息标识,将社交网络信息的标识更新为新的社交网络信息标识,该社交网络标识能 够标识第一请求用户、第一关联用户与一条社交网络信息的关联关系。如新的社交网络信 息标识UINl_UIN2_D0C_2_a,第一请求用户标识为UIN1,第一关联用户标识为UIN2, UIN2所 指示的用户发布的社交网络信息中的一条:D0C_2_a。
[0040] 获取第三社交网络信息中每条社交网络信息的标识,得到第二集合。第二集合如 表3所示,第二集合中的四条社交网络信息中每条社交网络信息都包括:一条第三社交网 络信息的标识、发布第三社交网络信息的关联用户的第三关联用户标识、以及与第三关联 用户标识具有关联关系的第三请求用户标识,如第一条社交网络信息的第三请求用户标识 UIN1,第三关联用户标识UIN2,以及第三社交网络信息的标识D0C_2_a。
[0041] 表3:第二集合
[0042]
[0043] 在第二集合中,不仅包括第一社交网络信息,还包括第二社交网络信息。其中,在 第二集合中携带有第一请求用户标识的成员均为第一社交网络信息,携带有第二请求用户 标识的成员均为第二社交网络信息。从由此可见,通过第二集合中每个成员的标识就能区 分出每个成员属于第二社交网络信息还是第一社交网络信息,从而便于进行从第一集合中 选择作为检索结果的成员,提高了检索效率。
[0044] 在建立第二集合时,对第一社交网络信息和第二社交网络信息进行倒排索引,得 到多个关键词的集合。第一社交网络信息的标识、第二社交网络信息的标识和关键词的关 系如表4所示。
[0045] 表 4
[0046]
[0047] 根据表4所示的第一社交网络信息的标识、第二社交网络信息的标识和关键词的 关系,得到表5所示的关键词与第一社交网络信息、第二社交网络信息的对应关系。
[0048] 表 5
[0049]
[0050] 以表5中的关键词B为例,关键词B所对应的社交网络信息的标识与表3中的第 二集合的成员 对应,即表5中关键词B所对应的每个社交网络信息的标识所对应的包 括请求用户标识、关联用户标识和社交网络信息的标识的成员为第二集合的成员。
[0051] 进一步地,从第一集合中选择作为检索结果的成员包括:对第一集合与第二集合 取交集,得到同时包括在第一集合和第二集合中的成员,其中,得到的成员为作为检索结果 的成员。
[0052] 为了便于选择检索结果,可以对第一集合和第二集合取交集,具有相同的社交网 络信息标识的社交网络信息就是检索结果。
[0053] 在第二请求用户也请求检索时,可以根据第二请求用户标识和第二关联用户标识 生成第三集合,其中,第三集合中的每个成员包括第二请求用户标识、一个第二关联用户标 识以及一个第二关联用户标识所表示的第二关联用户发布的一条第二社交网络信息的标 识;对第三集合与第二集合取交集,得到同时包括在第三集合和第二集合中的成员,其中, 得到的成员为作为检索结果的成员。
[0054] 生成的第三集合的方式与生成第一集合的方式相同,区别在于,第一集合是关于 第一请求用户标识、第一关联用户标识和第一社交网络信息的标识的集合,而第三集合是 关于第二请求用户标识、第二关联用户标识和第二社交网络信息的标识的集合。由于在建 立第二集合时,已经由第一请求用户和第二请求用户发出检索请求,所以生成的第二集合 是根据第一社交网络信息和第二社交网络信息得到的,同样地,第三集合和第二集合取交 集,得到第二检索请求所请求检索的检索结果的成员。
[0055] 如果第二检索请求所携带的待检索关键词为B,第二请求用户标识为UIN4,第三 集合包括 UIN4_UIN3_D0C_3_a、UIN4_UIN3_D0C_3_b 和 UIN4_UIN5_D0C_5_a。从表 5 中查找 到关键词B所在行作为第二集合,用第三集合和第二集合做交集,从第二集合中找到UIN4_ UIN3_D0C_3_b作为检索结果。
[0056] 由于该实施例可以同时处理多个检索请求,并且针对每个检索请求只需根据检索 请求的请求用户的集合与关键词集合取交集就能得到检索结果,而不需要逐个计算请求用 户的每个关联用户所对应的社交网络信息的集合,即知道请求用户的标识和待检索关键词 就能得到检索结果,从而达到了提高检索效率的效果。
[0057] 为了避免在检索时,将请求用户的标识误判为检索结果,可以对请求用户的标识 进行特殊处理,例如,为第一请求用户标识添加特殊标记,以标记该第一请求用户标识为非 社交网络信息,还可以将第一请求用户标识隐藏,以使得在进行检索关键词的检索时,忽略 该第一请求用户标识。
[0058] 需要说明的是,该实施例中,在获取第一检索请求携带的第一请求用户标识、与 第一请求用户标识具有关联关系的第一关联用户标识以及第一关联用户标识所表示的第 一关联用户发布的第一社交网络信息的标识,以及第二检索请求所携带的第二请求用户标 识、与第二请求用户标识具有关联关系的第二关联用户标识以及第二关联用户标识所表示 的第二关联用户发布的第二社交网络信息的标识之前,包括:接收第一检索请求和第二检 索请求,其中,第一检索请求和第二检索请求均携带有检索关键词。其中,第一检索请求和 第二检索请求所携带的检索关键词可以为相同关键,也可以为不同的关键词。如果是不同 的关键词,则在表5中查找相应的检索关键词以得到第二集合,得到不同的第二集合。
[0059] 具体地,展示作为检索结果的成员包括的第一社交网络信息的标识、第一社交网 络信息或者第一社交网络信息的一部分。
[0060] 在得到检索结果之后,通过终端101展示检索结果,展示的检索结果可以的第一 社交网络信息的标识,可以是第一社交网络信息,还可以是社交网络信息的一部分,或者是 社交网络信息的链接,以及其他能够使第一请求用户查看该检索结果的内容。
[0061] 图3和图4分别示出了建立索引和进行检索的两个阶段,以下结合图3和图4对 本发明的优选实施例进行说明。
[0062] 索引阶段包括如下步骤S301至步骤S307。
[0063] 步骤S301,获取检索者UIN及其关系链UIN和文档数据。即获取第一请求用户 标识、第一关联用户标识和第一关联用户标识所表示的关联用户所发布的第一社交网络信 肩、。
[0064] 步骤S302,遍历每一个好友UIN。
[0065] 步骤S303,遍历该好友UIN的每一篇文档。
[0066] 步骤S304,生成文档ID,将该文档ID挂载到以检索者UIN为特殊关键词的倒排链 中,文本则进行正常分词建倒排链。即针对每条社交网络信息生成社交网络信息标识,按照 "新的文档DOCID = MD5 {发起检索者UIN+MD5 {:被检索者UIN+原始文档D0CID}} "。特殊关 键词即第一请求用户标识为非社交网络信息的关键词,以检索者UIN为特殊关键词的倒排 链为第一集合,文本倒排链则为第二集合。
[0067] 步骤S305,判断该好友UIN的所有文档遍历结束?如果是,则执行步骤S306,如果 否,则执行步骤S303。
[0068] 步骤S306,关系链遍历结束?如果是,则执行步骤S307,如果否,则执行步骤 S302〇
[0069] 步骤S307,将倒排信息写入索引平台。
[0070] 检索阶段包括如下步骤S401至步骤S403。
[0071] 步骤S401,获取检索者UIN发起检索请求,请求检索关键词。即获取第一请求用户 发起的检索请求所携带的检索关键词。
[0072] 步骤S402,将检索者UIN处理成特殊关键词SpecialJJIN,并将SpecialJJIN和关 键词同时下发给索引平台。
[0073] 步骤S403,索引平台将SpecialJJIN和关键词的倒排链求交集,得到检索者UIN的 关系链中包含关键词的相关
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1