一种上网偏好用户群体的确定方法和设备的制造方法

文档序号:8430783阅读:307来源:国知局
一种上网偏好用户群体的确定方法和设备的制造方法
【技术领域】
[0001] 本发明涉及网络技术领域,尤其涉及一种上网偏好用户群体的确定方法和设备。
【背景技术】
[0002] 在现有的技术方案中,一般可以基于网页内容进行客户行为分析,只要用户在上 网过程中浏览网页,系统就可基于分析用户使用手机或宽带上网的访问网址,根据网址库 进行深入分析匹配归类,总结出用户的喜好属性,从而根据用户的喜好在网站上个性化地 展现对其有价值的内容。
[0003] 其中,具体的实现示例如下:
[0004] 步骤A、选定一个或多个主题词,例如x86,宝马,张学友等,将其作为搜索关键词 输入搜索引擎,从而,获取到一系列此关键词相关的网页地址列表;
[0005] 步骤B、根据步骤A中的地址列表,与用户访问的日志行为相匹配,找到按照一定 规则访问这些地址列表的用户群体。
[0006] 这样的用户群体即为对上述选定的主题词感兴趣的用户群体。
[0007] 在实现本发明的过程中,发明人发现现有技术中至少存在以下问题:
[0008] 数据量大。以目前用户量状态,日志数据的数据规模非常巨大,并且增长迅速,如 果与关键词相关的网页地址列表做匹配,尤其是还需要匹配一定的规则的情况下,将会进 一步存在问题如下:
[0009] a)直接做关联操作性能极差,一方面,日志数据的数据规模非常巨大,另一方面, 与其进行关联的网页地址的数量,则会因为所选择的关键词差异以及检索规则的变化,而 产生剧烈的波动,其数据规模的稳定性很差,并且两者数据规模的差异也是非常巨大的,以 一个省的业务量为例,其每天可以产生170亿条日志数据,再加上计算周期,例如一周或一 个月,表规模巨大。而进行关联的网页地址的数量则可能只有20亿条左右。每次的用户群 体获取都要进行这两个大表的关联操作。
[0010] b)关联后的结果存储冗余度大,仍以上述数据为例,20亿条表的容量的8倍存储 冗余(170/20=8),并且,用户的日志数据时刻都在更新,如果想进行一定周期的用户行为群 体获取,则需要保存大量日志,造成大量存储空间的消耗。

【发明内容】

[0011] 本发明实施例的目的在于提供一种上网偏好用户群体的确定方法和设备,可以更 加准确快捷的确定上网偏好用户群体。
[0012] 为了达到上述目的,本发明实施例提供了一种上网偏好用户群体的确定方法,包 括:
[0013] 遍历待分析的用户上网日志记录,分别生成所述用户上网日志记录中所包括的各 URL所对应的倒排索引信息,其中,一个URL所对应的倒排索引信息具体包括访问所述URL 的用户标识,以及所述用户标识对所述URL的访问特征信息;
[0014] 当需要确定上网偏好用户群体时,选择所述上网偏好用户群体所对应的一个或多 个关键词,并根据选择的关键词确定相应的目标URL;
[0015] 根据所确定的目标URL所对应的倒排索引信息,确定对所述目标URL的访问特征 信息符合用户筛选条件的各用户标识所对应的用户组成所述上网偏好用户群体。
[0016] 优选的,所述当需要确定上网偏好用户群体时,选择所述上网偏好用户群体所对 应的一个或多个关键词,并根据选择的关键词确定相应的目标URL,具体包括:
[0017] 根据所选择的关键词所对应的倒排索引信息,确定所述关键词的出现次数满足第 一URL筛选条件的URL为所述关键词所对应的目标URL,其中,一个关键词所对应的倒排索 引信息具体包括含有所述关键词的网页的URL,以及所述关键词在所述网页中的出现次数; 或,
[0018] 根据所选择的关键词在搜索引擎中的网页搜索结果,确定满足第二URL筛选条件 的网页的URL为所述关键词所对应的目标URL。
[0019] 优选的,所述当需要确定上网偏好用户群体时,选择所述上网偏好用户群体所对 应的一个或多个关键词,并根据选择的关键词确定相应的目标URL,还包括:
[0020] 根据所选择的关键词所对应的业务特征信息,对所确定的目标URL进行筛选。
[0021] 优选的,所述遍历待分析的用户上网日志记录,分别生成所述用户上网日志记录 中所包括的各URL所对应的倒排索引信息,还包括:
[0022] 根据不同的分析周期的需要,对同一个URL分别生成不同时间区间下所对应的倒 排索引信息,并分别携带不同的时间戳信息。
[0023] 优选的,所述根据所确定的目标URL所对应的倒排索引信息,确定对所述目标URL 的访问特征信息符合用户筛选条件的各用户标识所对应的用户组成所述上网偏好用户群 体,具体包括:
[0024] 根据所确定的目标URL所对应的倒排索引信息,及其携带的时间戳信息,确定对 所述目标URL的访问次数和访问周期符合用户筛选条件的各用户标识所对应的用户组成 所述上网偏好用户群体。
[0025] 进一步的,本发明实施例还提出了一种网络设备,包括:
[0026] 生成模块,用于遍历待分析的用户上网日志记录,分别生成所述用户上网日志记 录中所包括的各URL所对应的倒排索引信息,其中,一个URL所对应的倒排索引信息具体包 括访问所述URL的用户标识,以及所述用户标识对所述URL的访问特征信息;
[0027]URL筛选模块,用于在需要确定上网偏好用户群体时,选择所述上网偏好用户群体 所对应的一个或多个关键词,并根据选择的关键词确定相应的目标URL;
[0028]用户筛选模块,用于根据所述生成模块所生成的与所述URL筛选模块所确定的目 标URL相对应的倒排索引信息,确定对所述目标URL的访问特征信息符合用户筛选条件的 各用户标识所对应的用户组成所述上网偏好用户群体。
[0029] 优选的,所述URL筛选模块,具体用于:
[0030] 根据所选择的关键词所对应的倒排索引信息,确定所述关键词的出现次数满足第 一URL筛选条件的URL为所述关键词所对应的目标URL,其中,一个关键词所对应的倒排索 引信息具体包括含有所述关键词的网页的URL,以及所述关键词在所述网页中的出现次数; 或,
[0031] 根据所选择的关键词在搜索引擎中的网页搜索结果,确定满足第二URL筛选条件 的网页的URL为所述关键词所对应的目标URL。
[0032] 优选的,所述URL筛选模块,还用于:
[0033] 根据所选择的关键词所对应的业务特征信息,对所确定的目标URL进行筛选。
[0034] 优选的,所述生成模块,还用于:
[0035] 根据不同的分析周期的需要,对同一个URL分别生成不同时间区间下所对应的倒 排索引信息,并分别携带不同的时间戳信息。
[0036] 优选的,所述用户筛选模块,具体用于:
[0037] 根据根据所述生成模块所生成的与所述URL筛选模块所确定的目标URL相对应的 倒排索引信息,及其携带的时间戳信息,确定对所述目标URL的访问次数和访问周期符合 用户筛选条件的各用户标识所对应的用户组成所述上网偏好用户群体。
[0038] 与现有技术相比,本发明实施例所提出的技术方案具有以下优点:
[0039] 通过应用本发明实施例所提出的技术方案,在需要确定上网偏好用户群体时,根 据上网偏好用户群体所对应的关键词确定相应的目标URL,并结合该目标URL所对应的倒 排索引信息,确定对该目标URL的访问次数符合用户筛选条件的各用户标识所对应的用户 组成该上网偏好用户群体,从而,充分利用倒排索引信息高性能、高灵活度的特征,实现上 网偏好用户群体的快速获取,避免了大量数据记录和匹配所带来的系统资源的消耗,提高 了上网偏好用户群体确定过程的处理效率和筛选准确度。
【附图说明】
[0040] 图1为本发明实施例提供的一种上网偏好用户群体的确定方法的流程示意图;
[0041] 图2为本发明实施例提
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1