数据处理方法、推荐源信息组织和信息推荐方法及装置的制造方法

文档序号：8922583阅读：224来源：国知局

数据处理方法、推荐源信息组织和信息推荐方法及装置的制造方法
【技术领域】
[0001] 本发明涉及网络信息技术领域，特别是涉及一种基于特征词抽取与处理的信息推荐方法及装置。
【背景技术】
[0002] 随着网络技术的发展，推荐系统已经在各个领域得到了广泛的普及，成为网络信息技术（InformationTechnology,IT)的一个重要的研究内容，获得了越来越多的关注。例如，各种大型的电子商务系统(如淘宝网、各大网上书店等）都采用了各式各样的推荐系统。
[0003]在推荐系统中，如何组织推荐源信息以及向用户推送的推荐源信息是否符合用户的需求是非常重要的。

【发明内容】

[0004]本发明提供了一种数据处理方法、推荐源信息组织和信息推荐方法及装置，能够基于用户进行网络访问的行为记录数据自动设置特征词与类别之间的对应关系，并能够进一步的根据该对应关系有效的组织推荐源信息以及信息推荐。
[0005] 依据本发明的第一个方面，提供了一种数据处理方法，包括：对收集到的多个用户进行网络访问的行为记录数据进行过滤，以从所述收集到的行为记录数据中获取带类别的样本数据；针对所述带类别的样本数据，对各类别的样本数据分别进行特征词抽取；存储所述抽取的特征词与相应的类别之间的对应关系。
[0006] 依据本发明的第二个方面，提供了一种推荐源信息组织方法，包括上述数据处理方法，且该推荐源信息组织方法还包括：根据所述抽取的特征词与相应的类别之间的对应关系组织推荐源信息。
[0007] 依据本发明的第三个方面，提供了一种信息推荐方法，包括上述推荐源信息组织方法，且该信息推荐方法还包括：从所述组织的推荐源信息中选取用户感兴趣的推荐源信息，并向所述用户推送所述选取的推荐源信息。
[0008] 依据本发明的第四个方面，提供了一种数据处理装置，包括：样本数据获取模块，用于对收集到的多个用户进行网络访问的行为记录数据进行过滤，以从所述收集到的行为记录数据中获取带类别的样本数据；特征词抽取模块，用于针对所述带类别的样本数据，对各类别的样本数据分别进行特征词抽取；存储模块，用于存储所述抽取的特征词与相应的类别之间的对应关系。
[0009] 依据本发明的第五个方面，提供了一种推荐源信息组织装置，包括上述数据处理装置，且该推荐源信息组织装置还包括：组织模块，用于根据所述抽取的特征词与相应的类别之间的对应关系组织推荐源信息。
[0010] 依据本发明的第六个方面，提供了一种信息推荐装置，包括上述推荐源信息组织装置，且该信息推荐装置还包括：信息推荐模块，用于从所述组织的推荐源信息中选取用户感兴趣的推荐源信息，并向所述用户推送所述选取的推荐源信息。
[0011] 根据本发明提供的一种数据处理方法、推荐源信息组织和信息推荐方法及装置，对多个用户的行为记录数据进行过滤获得样本数据，并对获取的每一类别的样本数据进行特征词的抽取，这样，可以基于用户进行网络访问的行为记录数据自动的设置特征词与类别之间的对应关系；通过利用上述设置的对应关系来组织推荐源信息，可以使各推荐源信息能够更准确的分类，从而可以有效的为用户提供更准确的信息推荐服务。
【附图说明】
[0012] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0013] 图1示出了本发明实施例一提供的包括数据处理方法和推荐源信息组织方法在内的信息推荐方法流程图；
[0014] 图2示出了本发明实施例一提供的获得样本数据过程的示意图；
[0015] 图3示出了本发明实施例一提供的网页的url对应的anchor示意图；
[0016] 图4示出了本发明实施例一提供的从样本数据中抽取特征词的方法流程图；
[0017] 图5示出了本发明实施例一提供的获取实体词的替代词的示意图；
[0018] 图6示出了本发明实施例一提供的获取实体词的替代词的一个具体例子的示意图；
[0019] 图7示出了本发明提供实施例二提供的包括数据处理装置和推荐源信息组织装置在内的信息推荐装置示意图。
【具体实施方式】
[0020] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。
[0021] 实施例一、包括数据处理方法和推荐源信息组织方法在内的信息推荐方法。下面结合图1对本发明提供的方法进行详细说明。
[0022] 图1中，S101、对收集到的多个用户进行网络访问的行为记录数据进行过滤获取样本数据，以从收集到的行为记录数据中获取带类别的样本数据。
[0023] 具体的，在用户浏览网页的过程中，浏览器客户端会向相应的网站服务器发送访问请求，通常浏览器客户端向网站服务器发送的访问请求中承载的请求信息包括用户希望访问的URL(Uniform/UniversalResourceLocator,统一资源定位符，也称为网页地址）、请求类型以及http(Hypertexttransferprotocol,超文本传输协议）版本等信息。网站服务器根据浏览器客户端发送的访问请求，将与访问请求相关的内容推送给浏览器客户端。而目前有很多支持用户个性化服务的推荐系统，根据用户的访问请求向用户推荐用户真正感兴趣的内容。在组织推荐系统的推荐源信息之前，需要收集多个用户的行为记录数据(理想的状态是能够收集到全网所有用户进行网络访问的行为记录数据)，具体的，用户通过浏览器客户端进行网络访问时，浏览器客户端会将用户进行网络访问的行为记录数据上报给相应的网络侧设备如浏览器的管理设备（即浏览器服务端)，这样，浏览器的管理设备就会收集到多个用户的行为记录数据。在优选实施例中，浏览器的管理设备可以收集到网络中所有使用浏览器客户端的用户进行网络访问的行为记录数据。推荐系统中的词常用于表示用户的个性化信息，可以从预先组织好的推荐源信息中查找与词相关的信息，并将该信息推荐给用户。词的表示方法及词的抽取质量对推荐系统的推荐效果会产生较大的影响。因此需要对收集到的用户进行网络访问的行为记录数据中的样本数据进行高质量的特征词提取，然后根据抽取的特征词组织推荐源信息。要想实现高质量的特征词提取，首先需要保证从用户的行为记录数据（如用户的浏览日志数据或用户的收藏夹数据等）中能够获得高质量的样本数据。
[0024] 在特征词的抽取过程中，样本数据的质量对于特征词的抽取质量有很大的影响，若样本数据中包含大量噪音（即与用户访问的内容无关的内容)，则很难抽取到合理的特征词。因此，在优选实施例中，采用模板过滤的方法从用户的行为记录数据中抽取高质量的样本数据，其中，模板具有一定的规则，且带有一定的类别，可以将符合模板类别的用户的行为记录数据过滤出来。具体的，主要是对用户浏览日志和/或收藏夹中的URL进行模板过滤，在优选实施例中，定义三种URL模板：带类别的refer页url模板(可以简称为refer页 url模板)、带类别的最终页的url模板(可以简称为最终页的url模板)和通用的最终页的 url模板；其中，refer页url模板是针对用户访问的当前页面的前一个页面的url设置了一定规则的模板，如在用户访问的当前页面的前一个页面的url满足一定的规则时，该模板可以识别出该当前页面的前一个页面的url所属的类别；最终页的url模板是针对用户访问的当前页面的url设置了一定规则的模板，如在用户访问的当前页面的url满足一定的规则时，可以识别出用户访问的当前页面的url所属的类别，通用的最终页的url模板是针对用户访问的当前页面的url以及当前页面的前一个页面的url设置了一定规则的模板，如在用户访问的refer页满足refer页url模板且用户访问的当前页面的url是通用的最终页时，可以识别出当前页面所属的类别为refer页所属的类别。在实际应用中，最终页的url模板应和通用的最终页的url模板结合起来使用。上述通用的最终页通常是指不是网站首页、帮助页面、登录页面以及注册页面等页面。
[0025] 如图2中示出了结合上述三种url模板从用户浏览日志和/或收藏夹数据中过滤原始数据的具体实施过程。其中，用户浏览日志和/或收藏夹数据中至少包括url、该url 对应的标题和该url对应的anchor(指在网页中显示的网页链接的标题)。可以参见图3，图3中标注处即为网页url对应的anchor,url对应的anchor与url对应的实际标题可能会有一些差异，一般来说，url对应的anchor可能会对网页内容的概括更为准确一些。在用户当前访问网页的url符合带类别的最终页的url模板，获取与模板中类别对应的url对应的标题，即通过模板对用户访问的当前URL进行类别过滤，并获得该类别下每个url对应的标题，通过规则过滤标题中的前后缀；或者用户访问的当前页面的前一页面的url符合 refer页url模板且用户访问的当前页面的url符合通用的最终页的url模板，即在用户当前访问网页的url不具有类别、且用户当前访问网页的前一页面的url具有类别的情况下，对用户访问的当前页面进行是否为通用的最终页的判断，如果为通用的最终页，则获取 refer页面的url对应的anchor,并通过正则过滤收集的anchor。最后将过滤处理后的标题和anchor进行合并，并作去重处理，将过滤处理后的标题和anchor中重复的内容去掉。由于在采用url模板过滤时，url模板中带有每个url的类别，因此采用上述方法，可以从用户的浏览日志或收藏夹数据中获得各种类别的样本数据，其中，样本数据即为网页对应的标题和链接标题，或者，样本数据为正则过滤后的标题和链接标题，或者，样本数据为去重处理后的标题和链接标题。
[0026] 从用户浏览日志和/或收藏夹数据中获得各种类别的样本数据的一个具体的例子，如下表1所示。
[0027]表1
[0029] 由表1中可以看出，所列的url符合refer页url模板的有：
[0030] 'http://basketball.titan24.com/nba/$；
[0031] 'http://bbs.hupu.com/rockets$；
[0032] 'http://bbs.hupu.com/vote$〇
[0033] 符合带类别的最终页的url模板的有：
[0034] 'http://voice,hupu.com/nba/([0~9]+).html$；
[0035]~http://basketbal1.titan24.com/nba/([0-9]+)-([0-9]+)_([0-9]+) / ([0-9]+) ?html$。
[0036] 符合通用的最终页的url模板

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭奇;肖镜辉;商胜;崔华;
技术所有人：北京搜狗科技发展有限公司;
我是此专利的发明人

上一篇：一种废弃话单处理方法及装置的制造方法
上一篇：一种建立输入建议的数据处理方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。