数据过滤方法与流程

文档序号:11216525阅读:4674来源:国知局
数据过滤方法与流程

本发明涉及数据处理技术领域,尤其涉及一种数据过滤方法。



背景技术:

随着互联网的飞速发展,日益膨胀的网络数据使互联网用户逐渐迷失在了信息的海洋之中。为此,各种个性化服务技术被提出来,为不同的用户提供不同的服务,以满足不同的需求。协同过滤推荐(collaborativefilteringrecommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。

然而,常常会有一些无效数据混杂在其中,造成协同过滤结果不准确,导致预测结果与实际存在偏差。



技术实现要素:

本发明的目的是提供一种数据过滤方法,能够对于数据进行识别和筛选,滤出有效数据,从而保证后续用于数据计算的数据有效性。

为实现上述目的,本发明提供了一种数据过滤方法,包括:

获取面向第一用户的待筛选的目标数据;

确定每个待筛选的目标数据的访问日志;所述访问日志包括所述目标数据的播放时长、访问所述目标数据的终端ip地址和访问动作的时间戳;

验证第一目标数据的访问日志中所述用户id和所述目标对象id的格式;

当验证通过时,统计同一终端ip地址对同一目标数据的访问动作的时间戳,并计算得到所述第一目标数据的访问频率;

确定所述第一目标数据的访问频率是否超过预定频率阈值;

当所述第一目标数据的访问频率超过预定频率阈值时,对所述第一目标数据添加所述第一数据属性;所述第一数据属性用以表示所述第一目标数据为无效数据;

将所述第一目标数据从所述待筛选的目标数据中删除。

优选的,所述方法还包括:

当所述验证不通过时,对所述第一目标数据添加所述第一数据属性;

根据所述第一数据属性,将所述第一目标数据从所述待筛选的目标数据中删除。

优选的,所述访问日志还包括:所述第一用户的用户id和所述目标数据的目标对象id的格式;在所述对所述第一目标数据添加第一数据属性之前,所述方法还包括:

确定所述第一目标数据的播放时长是否超过有效播放时间阈值;

当所述第一目标数据的播放时长不超过所述有效播放时间阈值时,对所述第一目标数据添加第一数据属性。

进一步优选的,所述方法还包括:

当所述第一目标数据的播放时长超过所述有效播放时间阈值时,将所述第一目标数据添加至有效数据集合。

优选的,所述验证所述用户id和所述目标对象id的格式具体为:

通过正则方式进行所述用户id和所述目标对象id的格式的数据校验。

优选的,当所述第一目标数据的访问频率不超过预定频率阈值时,将所述第一目标数据添加至有效数据集合。

本发明实施例提供的数据过滤方法,通过对目标数据的数据格式和数据访问频率的过滤来滤除无效数据,确定有效数据,从而保证后续用于数据计算的数据有效性。

附图说明

图1为本发明实施例提供的数据过滤方法的流程图。

具体实施方式

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

本发明实施例提供的数据过滤方法,能够用于自动的数据有效性的过滤和筛选。

下面结合图1所示的数据过滤方法的流程图,以面向用户的数据过滤服务的应用场景为例,对本发明实施例提供的数据过滤方法进行说明。

如图1所示,本发明的数据过滤方法包括如下步骤:

步骤110,获取面向第一用户的待筛选的目标数据;

具体的,在本实施例中,目标数据是按照用户属性存储的。每个用户具有一个目标数据的数据库,用以存储目标数据。

在具体的例子中,例如在对用户的影片观看喜好进行数据过滤的场景中,目标数据可以是用户观看影片的影片信息,比如影片名称、影片id、主演名称等等;在对用户的购物喜好进行数据过滤的场景中,目标数据可以是用户关注商品的商品信息,比如商品名称、商品id等。对于不同的应用场景,目标数据可以不同,但本发明的方法可以适用于多种场景。

因为目标数据是基于用户id进行存储的,所以可以通过用户id获取到所需要进行筛选的目标数据。

步骤120,确定每个待筛选的目标数据的访问日志;

具体的,访问日志是在目标数据被访问、查看的时候生成的。

访问日志可以包括目标数据的播放时长、第一用户的用户id和目标数据的目标对象id的格式等。

其中,目标数据的播放时长并不限制于其字面意思所显示的播放的概念。比如,对于目标数据是用户观看影片的影片信息的情况,播放时长可以是用户观看影片的时间;又比如对于目标数据是用户关注商品的商品信息的情况,播放时长可以是指用户停留在商品页面上查看的时间,或者在一定时段内的累计查看时间。

用户的用户id以及被查看的目标数据的目标对象id的格式也相应的都记录在访问日志中。这里所说的目标数据的目标对象id是指目标数据的唯一标识信息。比如商品id、影片id等等。

步骤130,验证第一目标数据的访问日志中用户id和目标对象id的格式,确定数据格式验证是否通过;

具体的,进行数据过滤时,在本例中首先对数据格式进行校验,确定待筛选目标数据的数据格式是否正确。

在具体实现中,进行数据格式验证可以通过正则方式来实现。

当数据格式验证通过时,执行步骤140,当数据格式验证不通过时,执行步骤170。

步骤140,统计同一终端ip地址对同一目标数据的访问动作的时间戳,并计算得到所述第一目标数据的访问频率;

具体的,在待筛选的目标数据中可能混入一类无效数据,比如用户模拟注入或者频繁调用上报的数据,这些数据需要进行过滤的。

具体可以通过目标数据相关联的终端ip地址和访问动作的时间戳来判定。例如可以统计同一终端ip地址对同一目标数据的访问动作的时间戳,确定对该目标数据的访问频率是否超过预定频率阈值。

当目标数据被访问时,每次访问都会添加一个时间戳,因此可以统计一端时间内的时间戳的数量来计算在这段时间内的平均访问频率。如果访问频率过高,则说明很有可能该数据是被频繁调用上报的数据,是非正常访问的数据。因此需要剔除。

步骤150,确定第一目标数据的访问频率是否超过预定频率阈值;

当第一目标数据的访问频率超过预定频率阈值时,执行步骤170。

当第一目标数据的访问频率不超过预定频率阈值时,执行步骤160。

步骤160,确定第一目标数据为有效数据;

具体的,可以对确定为有效数据的第一目标数据添加数据属性,用以表示其为有效数据。或者也可以将第一目标数据加入有效数据的数据列表中,在后续进行数据处理时,直接通过获取数据列表中的数据来得到有效数据。

步骤170,对第一目标数据添加第一数据属性;

具体的,第一数据属性用以表示第一目标数据为无效数据。通过为目标数据添加数据属性来标识该数据为无效数据。

步骤180,根据第一数据属性,将第一目标数据从待筛选的目标数据中删除。

当然也可以跳过步骤170,直接将无效的第一目标数据从待筛选的目标数据中删除。

此外,还可以通过设定有效播放时间阈值,可以对播放时间过短的数据进行筛除。因为如果用户观看时间过短,虽然是进行了目标数据的访问,但并不能客观反映用户的真实兴趣,而往往是因为没有兴趣才会出现观看时间过短的情况。

比如,以观看影片为例,观看时间小于1分钟,或者小于3分钟,并不能反映用户的兴趣。

而以查阅商品为例,用户在商品页面停留的时间小于5秒钟,可以认为用户对该商品没有兴趣,因此可以设定5秒这个时间为播放时间阈值。

为了更加准确的进行数据过滤,对于不同类型的目标数据,可以设置不同的有效播放时间阈值。具体的可以根据目标数据的目标对象id确定相应的有效播放时间阈值。

当第一目标数据的播放时长超过有效播放时间阈值时,确定第一目标数据为有效数据;

当第一目标数据的播放时长不超过有效播放时间阈值时,对第一目标数据添加第一数据属性,并且根据第一数据属性,将第一目标数据从待筛选的目标数据中删除。

本发明实施例提供的数据过滤方法,通过对目标数据的数据格式和数据访问频率的过滤来滤除无效数据,确定有效数据,从而保证后续用于数据计算的数据有效性。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1