数据处理方法、推荐源信息组织和信息推荐方法及装置的制造方法

文档序号:8922583阅读:224来源:国知局
数据处理方法、推荐源信息组织和信息推荐方法及装置的制造方法
【技术领域】
[0001] 本发明涉及网络信息技术领域,特别是涉及一种基于特征词抽取与处理的信息推 荐方法及装置。
【背景技术】
[0002] 随着网络技术的发展,推荐系统已经在各个领域得到了广泛的普及,成为网络信 息技术(InformationTechnology,IT)的一个重要的研究内容,获得了越来越多的关注。例 如,各种大型的电子商务系统(如淘宝网、各大网上书店等)都采用了各式各样的推荐系统。
[0003]在推荐系统中,如何组织推荐源信息以及向用户推送的推荐源信息是否符合用户 的需求是非常重要的。

【发明内容】

[0004]本发明提供了一种数据处理方法、推荐源信息组织和信息推荐方法及装置,能够 基于用户进行网络访问的行为记录数据自动设置特征词与类别之间的对应关系,并能够进 一步的根据该对应关系有效的组织推荐源信息以及信息推荐。
[0005] 依据本发明的第一个方面,提供了一种数据处理方法,包括:对收集到的多个用户 进行网络访问的行为记录数据进行过滤,以从所述收集到的行为记录数据中获取带类别的 样本数据;针对所述带类别的样本数据,对各类别的样本数据分别进行特征词抽取;存储 所述抽取的特征词与相应的类别之间的对应关系。
[0006] 依据本发明的第二个方面,提供了一种推荐源信息组织方法,包括上述数据处理 方法,且该推荐源信息组织方法还包括:根据所述抽取的特征词与相应的类别之间的对应 关系组织推荐源信息。
[0007] 依据本发明的第三个方面,提供了一种信息推荐方法,包括上述推荐源信息组织 方法,且该信息推荐方法还包括:从所述组织的推荐源信息中选取用户感兴趣的推荐源信 息,并向所述用户推送所述选取的推荐源信息。
[0008] 依据本发明的第四个方面,提供了一种数据处理装置,包括:样本数据获取模块, 用于对收集到的多个用户进行网络访问的行为记录数据进行过滤,以从所述收集到的行为 记录数据中获取带类别的样本数据;特征词抽取模块,用于针对所述带类别的样本数据,对 各类别的样本数据分别进行特征词抽取;存储模块,用于存储所述抽取的特征词与相应的 类别之间的对应关系。
[0009] 依据本发明的第五个方面,提供了一种推荐源信息组织装置,包括上述数据处理 装置,且该推荐源信息组织装置还包括:组织模块,用于根据所述抽取的特征词与相应的 类别之间的对应关系组织推荐源信息。
[0010] 依据本发明的第六个方面,提供了一种信息推荐装置,包括上述推荐源信息组织 装置,且该信息推荐装置还包括:信息推荐模块,用于从所述组织的推荐源信息中选取用户 感兴趣的推荐源信息,并向所述用户推送所述选取的推荐源信息。
[0011] 根据本发明提供的一种数据处理方法、推荐源信息组织和信息推荐方法及装置, 对多个用户的行为记录数据进行过滤获得样本数据,并对获取的每一类别的样本数据进行 特征词的抽取,这样,可以基于用户进行网络访问的行为记录数据自动的设置特征词与类 别之间的对应关系;通过利用上述设置的对应关系来组织推荐源信息,可以使各推荐源信 息能够更准确的分类,从而可以有效的为用户提供更准确的信息推荐服务。
【附图说明】
[0012] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
[0013] 图1示出了本发明实施例一提供的包括数据处理方法和推荐源信息组织方法在 内的信息推荐方法流程图;
[0014] 图2示出了本发明实施例一提供的获得样本数据过程的示意图;
[0015] 图3示出了本发明实施例一提供的网页的url对应的anchor示意图;
[0016] 图4示出了本发明实施例一提供的从样本数据中抽取特征词的方法流程图;
[0017] 图5示出了本发明实施例一提供的获取实体词的替代词的示意图;
[0018] 图6示出了本发明实施例一提供的获取实体词的替代词的一个具体例子的示意 图;
[0019] 图7示出了本发明提供实施例二提供的包括数据处理装置和推荐源信息组织装 置在内的信息推荐装置示意图。
【具体实施方式】
[0020] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的 范围。
[0021] 实施例一、包括数据处理方法和推荐源信息组织方法在内的信息推荐方法。下面 结合图1对本发明提供的方法进行详细说明。
[0022] 图1中,S101、对收集到的多个用户进行网络访问的行为记录数据进行过滤获取 样本数据,以从收集到的行为记录数据中获取带类别的样本数据。
[0023] 具体的,在用户浏览网页的过程中,浏览器客户端会向相应的网站服务器发送访 问请求,通常浏览器客户端向网站服务器发送的访问请求中承载的请求信息包括用户希望 访问的URL(Uniform/UniversalResourceLocator,统一资源定位符,也称为网页地址)、 请求类型以及http(Hypertexttransferprotocol,超文本传输协议)版本等信息。网 站服务器根据浏览器客户端发送的访问请求,将与访问请求相关的内容推送给浏览器客户 端。而目前有很多支持用户个性化服务的推荐系统,根据用户的访问请求向用户推荐用户 真正感兴趣的内容。在组织推荐系统的推荐源信息之前,需要收集多个用户的行为记录数 据(理想的状态是能够收集到全网所有用户进行网络访问的行为记录数据),具体的,用户 通过浏览器客户端进行网络访问时,浏览器客户端会将用户进行网络访问的行为记录数据 上报给相应的网络侧设备如浏览器的管理设备(即浏览器服务端),这样,浏览器的管理设 备就会收集到多个用户的行为记录数据。在优选实施例中,浏览器的管理设备可以收集到 网络中所有使用浏览器客户端的用户进行网络访问的行为记录数据。推荐系统中的词常用 于表示用户的个性化信息,可以从预先组织好的推荐源信息中查找与词相关的信息,并将 该信息推荐给用户。词的表示方法及词的抽取质量对推荐系统的推荐效果会产生较大的影 响。因此需要对收集到的用户进行网络访问的行为记录数据中的样本数据进行高质量的特 征词提取,然后根据抽取的特征词组织推荐源信息。要想实现高质量的特征词提取,首先需 要保证从用户的行为记录数据(如用户的浏览日志数据或用户的收藏夹数据等)中能够获 得高质量的样本数据。
[0024] 在特征词的抽取过程中,样本数据的质量对于特征词的抽取质量有很大的影响, 若样本数据中包含大量噪音(即与用户访问的内容无关的内容),则很难抽取到合理的特征 词。因此,在优选实施例中,采用模板过滤的方法从用户的行为记录数据中抽取高质量的样 本数据,其中,模板具有一定的规则,且带有一定的类别,可以将符合模板类别的用户的行 为记录数据过滤出来。具体的,主要是对用户浏览日志和/或收藏夹中的URL进行模板过 滤,在优选实施例中,定义三种URL模板:带类别的refer页url模板(可以简称为refer页 url模板)、带类别的最终页的url模板(可以简称为最终页的url模板)和通用的最终页的 url模板;其中,refer页url模板是针对用户访问的当前页面的前一个页面的url设置了 一定规则的模板,如在用户访问的当前页面的前一个页面的url满足一定的规则时,该模 板可以识别出该当前页面的前一个页面的url所属的类别;最终页的url模板是针对用户 访问的当前页面的url设置了一定规则的模板,如在用户访问的当前页面的url满足一定 的规则时,可以识别出用户访问的当前页面的url所属的类别,通用的最终页的url模板是 针对用户访问的当前页面的url以及当前页面的前一个页面的url设置了一定规则的模 板,如在用户访问的refer页满足refer页url模板且用户访问的当前页面的url是通用 的最终页时,可以识别出当前页面所属的类别为refer页所属的类别。在实际应用中,最终 页的url模板应和通用的最终页的url模板结合起来使用。上述通用的最终页通常是指不 是网站首页、帮助页面、登录页面以及注册页面等页面。
[0025] 如图2中示出了结合上述三种url模板从用户浏览日志和/或收藏夹数据中过滤 原始数据的具体实施过程。其中,用户浏览日志和/或收藏夹数据中至少包括url、该url 对应的标题和该url对应的anchor(指在网页中显示的网页链接的标题)。可以参见图3, 图3中标注处即为网页url对应的anchor,url对应的anchor与url对应的实际标题可能 会有一些差异,一般来说,url对应的anchor可能会对网页内容的概括更为准确一些。在用 户当前访问网页的url符合带类别的最终页的url模板,获取与模板中类别对应的url对 应的标题,即通过模板对用户访问的当前URL进行类别过滤,并获得该类别下每个url对应 的标题,通过规则过滤标题中的前后缀;或者用户访问的当前页面的前一页面的url符合 refer页url模板且用户访问的当前页面的url符合通用的最终页的url模板,即在用户 当前访问网页的url不具有类别、且用户当前访问网页的前一页面的url具有类别的情况 下,对用户访问的当前页面进行是否为通用的最终页的判断,如果为通用的最终页,则获取 refer页面的url对应的anchor,并通过正则过滤收集的anchor。最后将过滤处理后的标 题和anchor进行合并,并作去重处理,将过滤处理后的标题和anchor中重复的内容去掉。 由于在采用url模板过滤时,url模板中带有每个url的类别,因此采用上述方法,可以从 用户的浏览日志或收藏夹数据中获得各种类别的样本数据,其中,样本数据即为网页对应 的标题和链接标题,或者,样本数据为正则过滤后的标题和链接标题,或者,样本数据为去 重处理后的标题和链接标题。
[0026] 从用户浏览日志和/或收藏夹数据中获得各种类别的样本数据的一个具体的例 子,如下表1所示。
[0027]表1
[0029] 由表1中可以看出,所列的url符合refer页url模板的有:
[0030] 'http://basketball.titan24.com/nba/$;
[0031] 'http://bbs.hupu.com/rockets$;
[0032] 'http://bbs.hupu.com/vote$〇
[0033] 符合带类别的最终页的url模板的有:
[0034] 'http://voice,hupu.com/nba/([0~9]+).html$;
[0035]~http://basketbal1.titan24.com/nba/([0-9]+)-([0-9]+)_([0-9]+) / ([0-9]+) ?html$。
[0036] 符合通用的最终页的url模板
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1