一种流量筛选方法和系统与流程

文档序号:32006046发布日期:2022-11-02 13:13阅读:184来源:国知局
一种流量筛选方法和系统与流程

1.本技术涉及数据处理领域,具体涉及一种流量筛选的方法和系统。


背景技术:

2.目前,程序化的广告流量交易大体为如下过程:首先,终端用户打开app后,app通过移动终端将其自身的流量(例如广告位)以请求方式发送至流量交易平台,流量交易平台通过和流量买方(例如广告主)沟通确定该流量是否为其所需流量,如果是(即为命中),则买方通过例如竞价方式对流量进行交易,交易成功,则买方将自己的产品(广告)发送至app中(广告位)进行展示,以便终端用户点击广告、购买产品等操作。而为了获取流量价值,现有技术中存在大量的造假app或者伪造的终端用户,如果不对交易平台的收到的全部流量请求进行筛选,会给广告主带来经济损失,因此,如何从接收的全部流量请求中筛选出无效的请求以获取所需的真实流量是本领域技术人员亟需解决的技术问题。


技术实现要素:

3.针对上述技术问题,本技术采用的技术方案为:一种流量筛选方法,包括以下步骤:s100,获取预设时间段内的app流量数据d=[d1,d2,...,dm],其中,第m个app的流量数据dm至少包括:app标识idm、流量请求量rm、流量命中量ym和流量展示量sm,1≤m≤m;s200,基于所述app流量数据d获取高请求流量数据h=[e1,e2,...,en,f1,f2,...,fq]和低请求流量数据l=[l1,l2,...,l
t
];其中,第n个app的高请求流量数据en至少包括app标识eidn、流量请求量ern、流量命中量eyn和流量展示率espn,ern≥er
n+1
,eidn∈[id1,id2,...,idm],1≤n≤n;第q个app的高请求流量数据fq至少包括app标识fidq、流量请求量frq、流量命中率fypq和流量展示率fspq,frq≥fr
q+1
,fidq∈[id1,id2,...,idm],1≤q≤q;第t个app的低请求流量数据l
t
至少包括app标识lid
t
、流量请求量lr
t
、流量命中率lyp
t
和流量展示率lsp
t
,lr
t
≥lr
t+1
,lid
t
∈[id1,id2,...,idm],1≤t≤t;且ern≥fr1,frq≥lr1,[eid1,eid2,...,eidn]∪[fid1,fid2,...,fidq]∪[lid1,lid2,...,lid
t
]=[id1,id2,...,idm],],],],[eid1,eid2,...,eidn]∪[fid1,fid2,...,fidq]以外的请求量最大的t个app组成[lid1,lid2,...,lid
t
];s300,根据高请求流量数据[e1,e2,...,en]获取第一分类数据g=[g1,g2,...,gv],根据高请求流量数据[f1,f2,...,fq]获取第二分类数据k=[k1,k2,...,kb],根据低请求流量数据l获取第三分类数据j=[j1,j2,...,ja];其中,第v个app的第一分类数据gv至少包括app标识gidv、流量命中量gyv、流量展示率gspv,[gid1,gid2,...,gidv]为[eid1,eid2,...,eidn]中命中量最小的v个app,gspv≤gsp
v+1
,1≤v≤v;第b个app的第二分类数据kb至少包括app标识kidb、流量命中率
kypb、流量展示率kspb,[kid1,kid2,...,kidb]为[fid1,fid2,...,fidq]中命中率最小的b个app,kspb≤ksp
b+1
,1≤b≤b;第a个app的第三分类数据ja至少包括app标识jida、流量命中率jypa、流量展示率jspa,[jid1,jid2,...,jida]为[lid1,lid2,...,lid
t
]中命中率最小的a个app,jspa≤jsp
a+1
,1≤a≤a;s400,基于第一分类数据g获取第一无效流量数据vl1=[gid1,gid2,...,gid
x
],基于第二分类数据k获取第二无效流量数据vl2=[kid1,kid2,...,kidy]以及基于第三分类数据j获取第三无效流量数据vl3=[jid1,jid2,...,jidz],其中,],其中,
[0004]
一种流量筛选系统,包括非瞬时性存储器和处理器,所述非瞬时存储器存储有计算机程序,所述处理器用于加载并执行所述计算机程序以实现以上所述的流量筛选方法。
[0005]
本技术至少具有以下技术效果:本技术通过获取预设时间段内的目标app流量请求相关数据,并根据app的流量请求量进行第一次数据分层,得到了具有高请求量的app数据和具有低请求量的app数据,之后对具有高请求量的app进行基于命中量或命中率的第二次数据分层以及基于展示率的第三次数据分层,从中筛选出命中量低且展示率低的app,进而筛选出流量造假的app,对具有低请求量的app进行基于命中率的第二次数据分层以及基于展示率的第三次数据分层,从中筛选出命中率低且展示率也低的app,以便筛选出无积极作用的app或者造假的终端用户。通过本技术的流量筛选方法和系统,一方面可以最大可能地保留可用流量池,另一方面可以获取流量市场中真实的app流量请求。
附图说明
[0006]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0007]
图1为本技术实施例提供的流量筛选方法的流程图。
具体实施方式
[0008]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0009]
本技术实施例提供一种流量筛选方法,如图1所示,该方法包括以下步骤:
[0010]
s100,获取预设时间段内的app流量数据d=[d1,d2,...,dm],其中,第m个app的流量数据dm至少包括:app标识idm、流量请求量rm、流量命中量ym和流量展示量sm,1≤m≤m。
[0011]
具体的,在本技术中,所述预设时间段的时长取值的获取方式为:在预设时间段的每个单元时间片段内均活跃的app数量/在预设时间段内获取的全部app数量≥第九预设阈值,且在预设时间段的每个单元时间片段内均活跃的app的流量请求总量/在预设时间段内
获取的全部app的流量请求总量≥第十预设阈值。所述的每个单元时间片段为对所述预设时间段进行单元划分后获得,app在一个单元时间片段内活跃为在该单元时间片段内至少获取到该app的一个流量请求。进一步的,在本技术中,所述第九预设阈值的取值范围为[55%,65%],优选为60%,所述第十预设阈值的取值范围为[95%,100%],优选为98%。所述预设时间段的时长取值范围为[5天,8天],优选为7天,所述单元时间片段的时长取值范围为[0.5天,2天],优选为1天。通过上述方法对预设时间段的时长进行计算,可以在较短的时间段内获取较为完整的app流量相关数据,使得基于流量请求量、命中量和展示量进行的流量分析更精确、可靠。
[0012]
s200,基于所述app流量数据d获取高请求流量数据h=[e1,e2,...,en,f1,f2,...,fq]和低请求流量数据l=[l1,l2,...,l
t
]。在该步骤中,对具有高流量请求的app和具有低流量请求的app进行基于请求量的第一次数据分层,以便针对高流量请求和低流量请求的app执行不同的筛选策略。
[0013]
具体的,第n个app的高请求流量数据en至少包括app标识eidn、流量请求量ern、流量命中量eyn和流量展示率espn,ern≥er
n+1
,eidn∈[id1,id2,...,idm],1≤n≤n。其中,一个app的流量展示率=该app的流量展示量/该app的流量命中量,由于ern≥er
n+1
,可知e1,e2,...,en按照流量请求量从大到小降序排列。
[0014]
第q个app的高请求流量数据fq至少包括app标识fidq、流量请求量frq、流量命中率fypq和流量展示率fspq,frq≥fr
q+1
,fidq∈[id1,id2,...,idm],1≤q≤q。其中,一个app的流量命中率=该app的流量命中量/该app的流量请求量。由于frq≥fr
q+1
,所以f1,f2,...,fq按照流量请求量从大到小降序排列。
[0015]
第t个app的低请求流量数据l
t
至少包括app标识lid
t
、流量请求量lr
t
、流量命中率lyp
t
和流量展示率lsp
t
,lr
t
≥lr
t+1
,lid
t
∈[id1,id2,...,idm],1≤t≤t。由于lr
t
≥lr
t+1
,所以l1,l2,...,l
t
按照流量请求量从大到小降序排列。
[0016]
进一步,ern≥fr1,frq≥lr1,所以高请求流量数据h按照流量请求量从大到小降序排列,且高请求流量数据h中任一个app的流量请求量≥低请求流量数据l中任一个app的流量请求量。[eid1,eid2,...,eidn]∪[fid1,fid2,...,fidq]∪[lid1,lid2,...,lid
t
]=[id1,id2,...,idm],],],可知,高流量请求数据h中的app和低流量请求数据l中的app不同,且高流量请求数据h中的e1,e2,...,en和f1,f2,...,fq各自对应的app也不相同。进一步的,各自对应的app也不相同。进一步的,即高流量请求数据h中的所有app的流量请求量为所述预设时间段内获取的app流量请求量的第一预设阈值倍,具体的,在本技术中,所述第一预设阈值的取值范围为[75%,95%],优选为90%。阈值倍,具体的,在本技术中,所述第一预设阈值的取值范围为[75%,95%],优选为90%。[eid1,eid2,...,eidn]∪[fid1,fid2,...,fidq]以外的请求量最大的t个app组成[lid1,lid2,...,lid
t
],即从id1,id2,...,idm中排除高流量请求数据h中所有app后的app中,流量请求量最大的t个组成了所述低流量请求数据l中的全部app。具体的,在本技术中,所述第二预设阈值的取值范围为
[20%,30%],优选为25%。
[0017]
s300,根据高请求流量数据[e1,e2,...,en]获取第一分类数据g=[g1,g2,...,gv],根据高请求流量数据[f1,f2,...,fq]获取第二分类数据k=[k1,k2,...,kb],根据低请求流量数据l获取第三分类数据j=[j1,j2,...,ja]。在该步骤中,对高请求流量数据和低请求流量数据按照不同的筛选策略进行第二次数据分层。其根据app流量命中量或者命中率进行分层,可以在筛选造假的app同时,确保保留足够的流量池子以便后期使用。
[0018]
在本技术中,第v个app的第一分类数据gv至少包括app标识gidv、流量命中量gyv、流量展示率gspv,[gid1,gid2,...,gidv]为[eid1,eid2,...,eidn]中命中量最小的v个app,且gspv≤gsp
v+1
,1≤v≤v。即选择[eid1,eid2,...,eidn]中请求命中量最小的v个app按照其展示率升序排列。在本发明的另一个实施例中,也可以按照app展示率降序排列。其中,所述第三预设阈值的取值范围为[5%,20%],优选为10%。
[0019]
第b个app的第二分类数据kb至少包括app标识kidb、流量命中率kypb、流量展示率kspb,[kid1,kid2,...,kidb]为[fid1,fid2,...,fidq]中命中率最小的b个app,且kspb≤ksp
b+1
,1≤b≤b。即选择[fid1,fid2,...,fidq]中命中率最小的b个app按照其展示率升序排列。在本发明的另一个实施例中,也可以按照app展示率降序排列。具体的,所述第四预设阈值的取值范围为[20%,30%],优选为25%。
[0020]
第a个app的第三分类数据ja至少包括app标识jida、流量命中率jypa、流量展示率jspa,[jid1,jid2,...,jida]为[lid1,lid2,...,lid
t
]中命中率最小的a个app,且jspa≤jsp
a+1
,1≤a≤a;即选择[lid1,lid2,...,lid
t
]中命中率最小的b个app按照其展示率升序排列。在本发明的另一个实施例中,也可以按照app展示率降序排列。具体的,所述第五预设阈值的取值范围为[20%,30%],优选为25%。
[0021]
s400,基于第一分类数据g获取第一无效流量数据vl1=[gid1,gid2,...,gid
x
],基于第二分类数据k获取第二无效流量数据vl2=[kid1,kid2,...,kidy]以及基于第三分类数据j获取第三无效流量数据vl3=[jid1,jid2,...,jidz],其中,],其中,在该步骤中,对第一分类数据、第二分类数据以及第三分类数据进行再次数据分层,以获取筛选的无效流量对应的app。其中,基于展示率进行流量筛选,可以将高请求、低命中和低展示的造假app筛选出来,也可以将伪造的终端用户筛选出来,进而可以获取最真实的app流量。
[0022]
具体的,所述第六预设阈值的取值范围为[20%,30%],优选为25%,所述第七预设阈值的取值范围为[20%,30%],优选为25%,所述第八预设阈值的取值范围为[40%,60%],优选为50%。
[0023]
综合上述内容可知,本技术通过获取预设时间段内的目标app流量请求相关数据,并根据app的流量请求量进行第一次数据分层,得到了具有高请求量的app数据和具有低请
求量的app数据,之后对具有高请求量的app进行基于命中量或命中率的第二次数据分层以及基于展示率的第三次数据分层,从中筛选出命中量低且展示率低的app,以便筛选出流量造假的app,对具有低请求量的app进行基于命中率的第二次数据分层以及基于展示率的第三次数据分层,从中筛选出命中率低且展示率也低的app,以便筛选出无积极作用的app。通过本技术的流量筛选方法,一方面可以最大可能地保留可用流量池,另一方面可以获取流量市场中真实的app流量请求。根据本技术提出的流量筛选方法,通过实验数据分析可知,筛选出的无效流量的准确率较高,将所述无效流量替换为同请求量级别的其他app后,替换后的平台消耗比替换前的平台消耗提高了24%。
[0024]
优选的,在本技术中,对于第一预设阈值、第二预设阈值、第三预设阈值、第四预设阈值、第五预设阈值、第六预设阈值、第七预设阈值、第八预设阈值、第九预设阈值、第十预设阈值来说,均存在一对应的适当阈值误差,例如,
±
2%,该误差使得在计算的过程中,某个app的相关数据(例如请求量、命中量、命中率和展示率)均落入一个完整的数据部分,不会被拆分为两部分,例如,当第二预设阈值取值为25%时,t-1个app的请求量总和不足25%,t个时虽然超过25%,但是在该第二预设阈值的误差范围内,则此时选择将t个app的相关数据组成所述l,其他的阈值误差范围以此类推。且本领域技术人员可知,以上所述的阈值误差范围
±
2%仅为示例性举例,不作为每个预设阈值的唯一、确定误差范围,实际误差范围可以根据具体的数据相应确定。
[0025]
在本技术的另一实施例中,所述第三预设阈值、第四预设阈值、第五预设阈值、第六预设阈值、第七预设阈值、第八预设阈值的具体取值,可根据冒泡排序方法进行优化:依次调整一个预设阈值,根据流量替换后产生的正向增益获取该预设阈值的取值,其中,所述正向增益例如可以是平台消耗的增加或者展示率的增加,直至所有的预设阈值都调整结束,并达到正向增益的最大值。
[0026]
本技术的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
[0027]
本技术的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
[0028]
本技术的实施例还提供了一种流量筛选系统,包括非瞬时性存储器和处理器,所述非瞬时存储器存储有计算机程序,其特征在于,所述处理器用于加载并执行所述计算机程序以实现实现上述实施例提供的方法。
[0029]
本技术的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本技术各种示例性实施方式的方法中的步骤。
[0030]
虽然已经通过示例对本技术的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本技术的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本技术的范围和精神。本技术开的范围由所附权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1