一种推荐网站的方法和装置制造方法

文档序号:7812164阅读:221来源:国知局
一种推荐网站的方法和装置制造方法
【专利摘要】本发明公开了一种推荐网站的方法和装置,应用于移动终端,该方法包括:获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名;对获得的二级域名进行归并获得移动用户对各网站的偏好度;根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。本发明对用户上网行为记录中的二级域名进行归并获得移动用户对各网站的偏好度,由于二级域名能够很好的描述网站的类别,并且根据其来划分网站的类别的数量较少,因此网站推荐过程中所需要的存储量和计算量都较小。
【专利说明】一种推荐网站的方法和装置

【技术领域】
[0001]本发明涉及数据挖掘【技术领域】,尤指一种应用于移动终端的推荐网站的方法和装置。

【背景技术】
[0002]随着智能移动终端的普及,3G和4G技术的广泛应用。用户通过移动终端进行上网的次数和数据量都呈现爆发型增长。通过分析用户上网记录进而挖掘用户行为,从而根据用户偏好对用户进行定向服务(如向用户推荐符合用户喜好的网站)是未来移动互联网的重要应用方向。
[0003]现有的推荐网站的方法是:根据统一资源定位器(URL, Uniform ResoureLocator)地址向用户推荐网站。由于URL地址中所包含的信息较多,如果将URL地址作为类别进行推荐,则类别数量较大,加大了存储量和计算量。


【发明内容】

[0004]为了解决上述问题,本发明提出了一种推荐网站的方法和装置,能够降低存储量和计算量。
[0005]为了达到上述目的,本发明提出了一种推荐网站的方法,应用于移动终端,该方法包括:
[0006]获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名,对获得的二级域名进行归并获得移动用户对各网站的偏好度;
[0007]根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
[0008]优选地,所述获取上网行为记录中URL地址中的二级域名包括:
[0009]搜索所述URL地址中的特殊字符,将搜索到的特殊字符压入队列中,继续搜索所述URL地址中的特殊字符,直到最新压入队列中的特殊字符为第一特殊字符,且前一个压入的特殊字符为第二特殊字符,取出这两个特殊字符之间的字符串,在预先保存的域名后缀表中查找取出的字符串;若查找不到,则丢弃该上网行为记录;
[0010]若查找到,则将所述前一个压入的特殊字符作为当前特殊字符,将所述最新压入队列中的特殊字符作为后一个特殊字符,获取前一个特殊字符,若所述前一个特殊字符为第二特殊字符,则获取所述前一个特殊字符和所述后一个特殊字符之间的字符串,继续在所述域名后缀表中查找获得的所述前一个特殊字符和所述后一个特殊字符之间的字符串,若查找到,则将所述前一个特殊字符和所述后一个特殊字符之间的字符串作为域名后缀;若查找不到,则将所述当前特殊字符和所述后一特殊字符之间的字符串作为域名后缀;继续往前获取所述域名后缀前面的第三个特殊字符,获取所述域名后缀前面的第三个特殊字符和所述后一个特殊字符之间的字符串即为二级域名。
[0011]优选地,所述对获得的二级域名进行归并获得移动用户对各网站的偏好度包括:
[0012]通过映射Map过程,将所述移动用户的上网行为记录转换为所述移动用户对网站的偏好度;
[0013]通过化简Reduce过程,将获得的移动用户对网站的偏好度进行统计,得到所述移动用户对各网站的偏好度。
[0014]优选地,所述根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站包括:
[0015]根据获得的移动用户对各网站的偏好度计算物品相似度矩阵;
[0016]计算所述物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积;
[0017]按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站;
[0018]其中,所述物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,所述第一条件为对该元素对应的两个网站的偏好度均为非0,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。
[0019]优选地,所述根据获得的移动用户对各网站的偏好度计算物品相似度矩阵包括:
[0020]通过映射Map过程,将所述获得的移动用户对各网站的偏好度转换为每个移动用户的物品相似度矩阵;
[0021]通过化简Reduce过程,将所述每个移动用户的物品相似度矩阵相加得到所述物品相似度矩阵。
[0022]优选地,所述计算所述物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积,按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站包括:
[0023]通过映射Map过程,将物品相似度矩阵以列为单位进行拆分,将差分后的各列与待推荐用户对应的偏好度进行相乘,形成中间结果;
[0024]通过化简Reduce过程,对中间结果进行相加,并将相加的结果按照由大到小的顺序进行排列,将排列后的结果输出并推荐给用户。
[0025]优选地,所述根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站包括:
[0026]根据所述待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算所述待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第三条件的网站推荐给待推荐移动用户;
[0027]其中,所述第二条件为所述待推荐移动用户和其他各移动用户的偏好度为非零,所述第三条件为所述相似度最大的移动用户的偏好度较高,且所述待推荐移动用户的偏好度为O。
[0028]本发明提出了一种推荐网站的装置,至少包括:
[0029]获取模块,用于获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名;对获得的二级域名进行归并获得移动用户对各网站的偏好度;
[0030]推荐模块,用于根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
[0031]优选地,所述推荐模块具体用于:
[0032]根据获得的移动用户对各网站的偏好度计算物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积;按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站;其中,所述物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,所述第一条件为对该元素对应的两个网站的偏好度均为非O,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。
[0033]优选地,所述推荐模块具体用于:
[0034]根据所述待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算所述待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第二条件的网站推荐给待推荐移动用户;其中,所述第二条件为所述待推荐移动用户和其他各移动用户的偏好度为非零,所述第三条件为所述相似度最大的移动用户的偏好度较高,且所述待推荐移动用户的偏好度为O。
[0035]与现有技术相比,本发明包括:获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名;对获得的二级域名进行归并获得移动用户对各网站的偏好度;根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。通过本发明的方案,对用户上网行为记录中的二级域名进行归并获得移动用户对各网站的偏好度,由于二级域名能够很好的描述网站的类别,并且根据其来划分网站的类别的数量较少,因此网站推荐过程中所需要的存储量和计算量都较小。

【专利附图】

【附图说明】
[0036]下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
[0037]图1为本发明的推荐网站的方法流程图;
[0038]图2为本发明的推荐网站的装置的结构组成示意图。

【具体实施方式】
[0039]为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
[0040]参见图1,本发明提出了一种推荐网站的方法,应用于移动终端,该方法包括:
[0041]步骤100、获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名,对获得的二级域名进行归并获得移动用户对各网站的偏好度。
[0042]本步骤中,移动用户上网行为记录是原本已经存储的数据。例如,目前联通是采用Hadoop/Hbase的存储方式来保存移动用户上网行为记录的,如表I所示。
[0043]
行讀用户号码I日时分秒I高精度时间戳I记录哈希值(,,|”分隔各字


段)
列族Cdr
第一列 _ info详单记录,不同字段用T分隔开
第二列 —type — 两个字段的拼接:“网络类型I流量类型” —
第三列totcnt总流量,int类型,非字符串
[0044]表I
[0045]表I中,数据是以〈Key,Value〉的格式进行存储的,Key为行主键对应的值(即用户号码I日时分秒I高精度时间戳I记录哈希值),Value为列族对应的值(即详单记录、网络类型I流量类型和总流量)。其中,详单记录中包含了 URL地址(例如,http://news,uc.cn/xinwen/news/ucnews.htm ? uc_param_str = cpdnbifrpfvess)和手机号石马。
[0046]本步骤中,移动用户对各网站的偏好度为移动用户对各网站在预设时间内的访问次数。其中,采用二级域名来代表网站。二级域名是指顶级域名之下的域名。例如,URL地址为 http://news.uc.cn/xinwen/news/ucnews.htm ? uc_param_str = cpdnbifrpfvess的顶级域名为“uc.cn”, 二级域名为“news.uc.cn”。
[0047]本步骤中,预设时间可以根据存储设备的存储能力进行选取,一般可以选取3个月以上。
[0048]本步骤中,获取移动用户上网行为记录中URL地址的二级域名包括:
[0049]获取移动用户上网行为记录中的URL地址;获取获得的URL地址中的二级域名。
[0050]其中,具体可以采用现有方法从表1中获取URL地址,并不用于限定本发明的保护范围,这里不再赘述。
[0051]其中,获取URL地址中的二级域名的方法包括:
[0052]搜索URL地址中的特殊字符(特殊字符包括: ”等),将搜索到的特殊字符压入队列(队列的长度可以设为2)中,继续搜索URL地址中的特殊字符,直到最新压入队列中的特殊字符为第一特殊字符(如“/”),且前一个压入的特殊字符为第二特殊字符(如”),取出这两个特殊字符之间的字符串,在预先保存的域名后缀表中查找取出的字符串,若查找不到,则丢弃该上网行为记录;若查找到,则将前一个压入的特殊字符(如
”)作为当前特殊字符,将最新压入队列中的特殊字符(如“/”)作为后一个特殊字符,获取前一个特殊字符,若前一个特殊字符为第二特殊字符(如”),则获取前一个特殊字符和后一个特殊字符之间的字符串,继续在预先保存的域名后缀表中查找获得的前一个特殊字符和后一个特殊字符之间的字符串,若查找到,则将前一个特殊字符和后一个特殊字符之间的字符串作为域名后缀,若查找不到,则将当前特殊字符和后一特殊字符之间的字符串作为域名后缀;继续往前获取域名后缀前面的第三个特殊字符,获取域名后缀前面的第三个特殊字符和后一个特殊字符之间的字符串即为二级域名。
[0053]

【权利要求】
1.一种推荐网站的方法,其特征在于,应用于移动终端,该方法包括: 获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名,对获得的二级域名进行归并获得移动用户对各网站的偏好度; 根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
2.根据权利要求1所述的方法,其特征在于,所述获取上网行为记录中URL地址中的二级域名包括: 搜索所述URL地址中的特殊字符,将搜索到的特殊字符压入队列中,继续搜索所述URL地址中的特殊字符,直到最新压入队列中的特殊字符为第一特殊字符,且前一个压入的特殊字符为第二特殊字符,取出这两个特殊字符之间的字符串,在预先保存的域名后缀表中查找取出的字符串;若查找不到,则丢弃该上网行为记录; 若查找到,则将所述前一个压入的特殊字符作为当前特殊字符,将所述最新压入队列中的特殊字符作为后一个特殊字符,获取前一个特殊字符,若所述前一个特殊字符为第二特殊字符,则获取所述前一个特殊字符和所述后一个特殊字符之间的字符串,继续在所述域名后缀表中查找获得的所述前一个特殊字符和所述后一个特殊字符之间的字符串,若查找到,则将所述前一个特殊字符和所述后一个特殊字符之间的字符串作为域名后缀;若查找不到,则将所述当前特殊字符和所述后一特殊字符之间的字符串作为域名后缀;继续往前获取所述域名后缀前面的第三个特殊字符,获取所述域名后缀前面的第三个特殊字符和所述后一个特殊字符之间的字符串即为二级域名。
3.根据权利要求1所述的方法,其特征在于,所述对获得的二级域名进行归并获得移动用户对各网站的偏好度包括: 通过映射Map过程,将所述移动用户的上网行为记录转换为所述移动用户对网站的偏好度; 通过化简Reduce过程,将获得的移动用户对网站的偏好度进行统计,得到所述移动用户对各网站的偏好度。
4.根据权利要求1所述的方法,其特征在于,所述根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站包括: 根据获得的移动用户对各网站的偏好度计算物品相似度矩阵; 计算所述物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积; 按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站; 其中,所述物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,所述第一条件为对该元素对应的两个网站的偏好度均为非O,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。
5.根据权利要求4所述的方法,其特征在于,所述根据获得的移动用户对各网站的偏好度计算物品相似度矩阵包括: 通过映射Map过程,将所述获得的移动用户对各网站的偏好度转换为每个移动用户的物品相似度矩阵; 通过化简Reduce过程,将所述每个移动用户的物品相似度矩阵相加得到所述物品相似度矩阵。
6.根据权利要求4所述的方法,其特征在于,所述计算所述物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积,按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站包括: 通过映射Map过程,将物品相似度矩阵以列为单位进行拆分,将差分后的各列与待推荐用户对应的偏好度进行相乘,形成中间结果; 通过化简Reduce过程,对中间结果进行相加,并将相加的结果按照由大到小的顺序进行排列,将排列后的结果输出并推荐给用户。
7.根据权利要求1所述的方法,其特征在于,所述根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站包括: 根据所述待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算所述待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第三条件的网站推荐给待推荐移动用户; 其中,所述第二条件为所述待推荐移动用户和其他各移动用户的偏好度为非零,所述第三条件为所述相似度最大的移动用户的偏好度较高,且所述待推荐移动用户的偏好度为O0
8.一种推荐网站的装置,其特征在于,至少包括: 获取模块,用于获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名;对获得的二级域名进行归并获得移动用户对各网站的偏好度; 推荐模块,用于根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
9.根据权利要求8所述的装置,其特征在于,所述推荐模块具体用于: 根据获得的移动用户对各网站的偏好度计算物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积;按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站;其中,所述物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,所述第一条件为对该元素对应的两个网站的偏好度均为非0,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。
10.根据权利要求8所述的装置,其特征在于,所述推荐模块具体用于: 根据所述待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算所述待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第二条件的网站推荐给待推荐移动用户;其中,所述第二条件为所述待推荐移动用户和其他各移动用户的偏好度为非零,所述第三条件为所述相似度最大的移动用户的偏好度较高,且所述待推荐移动用户的偏好度为O。
【文档编号】H04L29/12GK104166722SQ201410418960
【公开日】2014年11月26日 申请日期:2014年8月22日 优先权日:2014年8月22日
【发明者】李 浩, 罗云彬, 王志军, 王伟华 申请人:中国联合网络通信集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1