用户行为数据的处理方法及装置的制造方法

文档序号：8412604阅读：814来源：国知局

用户行为数据的处理方法及装置的制造方法
【专利说明】
【技术领域】
[0001]本发明涉及机器学习技术，尤其涉及一种用户行为数据的处理方法及装置。
【【背景技术】】
[0002]在机器学习中，可以利用大量已知的训练样本，构建分类模型即分类器，进而利用所构建的分类器对未知的数据进行评测。分类器可以应用在很多场景，例如，由于因网络作弊而产生的垃圾页面以及垃圾用户行为数据越来越多，严重影响了搜索引擎的检索效率和用户体验，因此，反作弊已经成为搜索引擎所面临的最重要的挑战之一，可以将利用已标注的正常数据和作弊数据，构建一个分类器，以对网络数据进行识别。现有技术中，可以利用所构建的一个分类器，对用户行为数据进行评测，以获得分类结果。
[0003]然而，采用单一的分类器，其所评测的用户行为数据的分类结果的准确率不高。
【
【发明内容】
】
[0004]本发明的多个方面提供一种用户行为数据的处理方法及装置，用以提高分类结果的准确率。
[0005]本发明的一方面，提供一种用户行为数据的处理方法，包括:
[0006]根据用户行为数据，获取同一 IP地址的待评测的M个统计数据，M为大于或等于2的整数；
[0007]将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果；
[0008]根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果；
[0009]根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据。
[0010]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，包括:
[0011]根据所述M个统计数据中指定统计数据所属的分类区间，获得与所述分类区间对应的一组分类器；
[0012]将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器，以获得每个分类器所输出的评测结果。
[0013]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据之后，还包括:
[0014]根据所述一次过滤的用户行为数据，获取同一用户标识信息所对应的待评测的N个统计数据，N为大于或等于2的整数；
[0015]将所述N个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果；
[0016]根据所述每个分类器所输出的评测结果，获得同一用户标识信息的分类结果；
[0017]根据所述同一用户标识信息的分类结果，对所述一次过滤的用户行为数据进行过滤处理，以获得二次过滤的用户行为数据。
[0018]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述同一用户标识信息的分类结果，对所述一次过滤的用户行为数据进行过滤处理，以获得二次过滤的用户行为数据之后，还包括:
[0019]获得同一 IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值；
[0020]若所述比值大于或等于预先设置的阈值，对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据，进行删除处理，以获得三次过滤的用户行为数据。
[0021]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据之后，还包括:
[0022]根据过滤的用户行为数据，进行用户行为分析，以获得用户行为特征。
[0023]本发明的另一方面，提供一种用户行为数据的处理装置，包括:
[0024]获取单元，用于根据用户行为数据，获取同一 IP地址的待评测的M个统计数据，M为大于或等于2的整数；
[0025]分类单元，用于将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果；
[0026]处理单元，用于根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果；
[0027]过滤单元，用于根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据。
[0028]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述分类单元，具体用于
[0029]根据所述M个统计数据中指定统计数据所属的分类区间，获得与所述分类区间对应的一组分类器；以及
[0030]将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器，以获得每个分类器所输出的评测结果。
[0031]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，
[0032]所述获取单元，还用于
[0033]根据所述一次过滤的用户行为数据，获取同一用户标识信息所对应的待评测的N个统计数据，N为大于或等于2的整数；
[0034]所述分类单元，还用于
[0035]将所述N个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果；
[0036]所述处理单元，还用于
[0037]根据所述每个分类器所输出的评测结果，获得同一用户标识信息的分类结果；
[0038]所述过滤单元，还用于
[0039]根据所述同一用户标识信息的分类结果，对所述一次过滤的用户行为数据进行过滤处理，以获得二次过滤的用户行为数据。
[0040]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述过滤单元，还用于
[0041]获得同一 IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值；以及
[0042]若所述比值大于或等于预先设置的阈值，对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据，进行删除处理，以获得三次过滤的用户行为数据。
[0043]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括分析单元，用于
[0044]根据过滤的用户行为数据，进行用户行为分析，以获得用户行为特征。
[0045]由上述技术方案可知，本发明实施例通过根据用户行为数据，获取同一 IP地址的待评测的M个统计数据，M为大于或等于2的整数，进而将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，并根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果，使得能够根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据，由于每个分类器是分别针对不同的统计数据，使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果，从而提高了分类结果的准确率。
[0046]另外，采用本发明提供的技术方案，使得用户行为数据的分类结果不再单独依赖于任何一个分类器的评测结果，而是综合考虑M个分类器中每个分类器的评测结果，这样，能够有效提高分类结果的准确率。
[0047]另外，采用本发明提供的技术方案，通过从IP地址和用户标识信息这两个维度，对用户行为数据进行过滤处理，能够较为准确地刻画用户行为特征，能够有效提高分类结果的准确率。
【【附图说明】】
[0048]为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0049]图1为本发明一实施例提供的用户行为数据的处理方法的流程示意图；
[0050]图2为本发明另一实施例提供的用户行为数据的处理装置的结构示意图；
[0051]图3为本发明另一实施例提供的用户行为数据的处理装置的结构示意图。
【【具体实施方式】】
[0052]为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。
[0053]另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示:单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
[0054]图1为本发明一实施例提供的用户行为数据的处理方法的流程示意图，如图1所不O
[0055]101、根据用户行为数据，获取同一 IP地址的待评测的M个统计数据，M为大于或等于2的整数。
[0056]102、将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果。
[0057]103、根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果。
[0058]104、根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据。
[0059]需要说明的是，101?104的执行主体可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的分类引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。
[0060]可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行限定。
[0061]这样，通过根据用户行为数据，获取同一 IP地址的待评测的M个统计数据，M为大于或等于2的整数，进而将所述M个统计数据中每个统计数据分别输入对应的分类器，以获得每个分类器所输出的评测结果，并根据所述每个分类器所输出的评测结果，获得所述IP地址的分类结果，使得能够根据所述IP地址的分类结果，对所述用户行为数据进行过滤处理，以获得一次过滤的用户行为数据，由于每个分类器是分别针对不同的统计数据，使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果，从而提高了分类结果的准确率。
[0062]本实施例中，部署了多个不同的分类器，每个分类器都具有各自的分类策略，每个分类器的输入参数为不同的统计数据，例如，分类器A的输入参数为

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：常明;陈朝钢;贾少攀;
技术所有人：百度在线网络技术(北京)有限公司;
我是此专利的发明人

上一篇：一种视频搜索方法及装置的制造方法
上一篇：信息搜索方法和信息搜索装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。