对URL进行分类的方法和装置与流程

文档序号:11155132阅读:1169来源:国知局
对URL进行分类的方法和装置与制造工艺

本发明涉及大数据和互联网技术领域,尤其是一种对URL(Uniform Resource Locator,统一资源定位符)进行分类的方法和装置。



背景技术:

目前,基于DPI(Deep Packet Inspection,深度包检测)数据分析用户的上网行为主要是通过URL地址库匹配用户访问的网址,然后对用户打标签来实现。

URL地址库一般采用网页内容提取和识别技术来对URL进行分类来构建,但是,本发明的发明人发现,采用网页内容提取和识别技术对URL进行分类的方式具有如下缺点:

一是由于需要针对不同的网站设计个性化算法,因此,对URL进行分类时的工作量大,效率低;

二是在不同的网站改版后,需要通过人工辨别或重新识别来重新对URL进行分类,URL地址库无法自动更新。



技术实现要素:

本发明实施例所要解决的其中一个技术问题是:解决URL分类效率低的问题。

根据本发明的一方面,提供一种对URL进行分类的方法,包括:获取访问URL的各用户的用户特征信息和各用户访问该URL的访问次数,所述用户特征信息包括基于用户历史上网行为确定的用户标签和各用户标签的权重;根据获取到的各用户的用户特征信息和各用户访问URL的访问次数确定URL特征信息,所述URL特征信息包括URL的 网页类型和各网页类型的权重;根据所述URL特征信息对所述URL进行分类。

在一个实施例中,所述根据获取到的各用户的用户特征信息和各用户访问URL的访问次数确定URL特征信息包括:根据uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P计算访问该URL的每个用户j的标签向量uj,其中j为正整数,1≤j≤S,S为访问该URL的用户总数,xjn为用户j的用户标签,kjn为用户标签xjn的权重,jn为正整数,pj为用户j访问该URL的访问次数,P为所有用户访问该URL的总访问次数;将各用户j的标签向量uj中相同用户标签的权重累加,并按累加后的用户标签的系数的大小对用户标签进行排序,得到该URL的标签向量y=(x1×c1,x2×c2,…,xt×ct),其中xt为用户标签,用户标签xt的系数ct为S个用户的标签向量uj中与xt相同的用户标签的权重之和;从URL的标签向量y中选择用户标签的系数最大的前m个用户标签x1,x2,…xm作为该URL的网页类型,并将作为网页类型xi的权重。

在一个实施例中,所述根据所述URL特征信息对所述URL进行分类包括:选择各网页类型的权重中最大的一个或多个网页类型作为所述URL的网页类型,以对所述URL进行分类。

在一个实施例中,所述方法还包括:从采集的DPI数据中筛选出总访问次数大于预设阈值的URL作为所述URL。

在一个实施例中,所述方法还包括:采集所述URL的网页内容,并根据所述URL的网页内容和特定算法识别所述URL的网页类型,以对所述URL进行分类;将分类结果与根据所述URL特征信息对所述URL进行分类的分类结果进行比较;根据比较结果调整所述预设阈值的大小。

根据本发明的另一方面,提供一种对URL进行分类的装置,包括:用户特征信息获取模块,用于获取访问URL的各用户的用户特征信息和各用户访问该URL的访问次数,所述用户特征信息包括基于用户历史上网行为确定的用户标签和各用户标签的权重;URL特征信息确定 模块,用于根据获取到的各用户的用户特征信息和各用户访问URL的访问次数确定URL特征信息,所述URL特征信息包括网页类型和各网页类型的权重;URL分类模块,用于根据所述URL特征信息对所述URL进行分类。

在一个实施例中,所述URL特征信息确定模块包括:用户标签计算单元,用于根据uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P计算访问该URL的每个用户j的标签向量uj,其中j为正整数,1≤j≤S,S为访问该URL的用户总数,xjn为用户j的用户标签,kjn为用户标签xjn的权重,jn为正整数,pj为用户j访问该URL的访问次数,P为所有用户访问该URL的总访问次数;URL标签计算单元,用于将各用户j的标签向量uj中相同用户标签的权重累加,并按累加后的用户标签的系数的大小对用户标签进行排序,得到该URL的标签向量y=(x1×c1,x2×c2,…,xt×ct),其中xt为用户标签,用户标签xt的系数ct为S个用户的标签向量uj中与xt相同的用户标签的权重之和;URL特征信息确定单元,用于从URL的标签向量y中选择用户标签的系数最大的前m个用户标签x1,x2,…xm作为该URL的网页类型,并将作为网页类型xi的权重。

在一个实施例中,所述URL分类模块,具体用于选择各网页类型的权重中最大的一个或多个网页类型作为所述URL的网页类型,以对所述URL进行分类。

在一个实施例中,所述装置还包括:DPI数据分析模块,用于从采集的DPI数据中筛选出总访问次数大于预设阈值的URL作为所述URL。

在一个实施例中,所述装置还包括:网页内容采集模块,用于采集所述URL的网页内容,并根据所述URL的网页内容和特定算法识别URL的网页类型,以对所述URL进行分类;比较模块,用于将分类结果与根据所述URL特征信息对所述URL进行分类的分类结果进行比较;调整模块,用于根据比较结果调整所述预设阈值的大小。

本发明通过获取访问URL的各用户的用户特征信息可以确定URL的特征信息,从而可以确定URL的网页类型,以对URL进行分类。这 种分类方式一方面,无需针对不同的URL网站设计个性化算法,分类效率高;另一方面,在不同的URL网站改版后,即网页类型发生变化时,由于可以根据访问该URL的用户特征信息得到URL的特征信息,从而可以及时对URL重新进行分类,自动更新URL地址库。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明对URL进行分类的方法一个实施例的流程示意图;

图2是本发明对URL进行分类的方法一个例子的示意图;

图3是本发明对URL进行分类的装置一个实施例的结构示意图;

图4是本发明对URL进行分类的装置另一个实施例的结构示意图;

图5是本发明对URL进行分类的装置又一个实施例的结构示意图;

图6是本发明对URL进行分类的装置再一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本发明的发明人发现,在大数据统计的基础上,当访问一个URL网址的用户量较大时,URL网页的内容体现了访问用户的共同需求,而不是单个用户的特殊需求。因此,提出根据访问URL的各用户的用户特征信息反向标记URL的特征信息。本发明可用于电信DPI用户的行为分析,能够快速对访问量大的URL进行分类,识别新增URL的类别,在现有人工审核、基于网页分析的URL特征识别基础上,能够进一步提高URL分类的质量和数量。

图1是本发明对URL进行分类的方法一个实施例的流程示意图。如图1所示,该方法包括:

步骤102,获取访问URL的各用户的用户特征信息和各用户访问该URL的访问次数,其中,用户特征信息包括基于用户历史上网行为确定的用户标签和各用户标签的权重。

这里,根据用户的历史上网行为可以得到各用户的用户特征信息,例如,用户经常访问财经网站和体育网站,则可以给该用户打上两个用户标签,一个是财经网站,一个是体育网站。根据用户访问这两个网站的次数可以得到这两个用户标签的权重,从而得到用户特征信息。例如,用户特征信息可以包括如下内容:用户标签为财经网站和体育网站,财经网站的权重为20%,体育网站的权重为80%。

另外,可以对用户特征信息中的用户标签的数量进行调整,例如减少用户标签的数量,从而调整最终URL特征信息中的网页类型的数量。

步骤104,根据获取到的各用户的用户特征信息和各用户访问URL的访问次数确定URL特征信息,该URL特征信息包括URL的网页类型和各网页类型的权重。

各用户的用户特征信息可以反应URL特征信息,后文将给出示例性的详细说明。

步骤106,根据URL特征信息对该URL进行分类。

在得到URL的特征信息后,即得到了URL的网页类型和每个网页类型的权重,在一个实施例中,可以选择各网页类型的权重中最大的一个或多个网页类型作为URL的网页类型,以对URL进行分类。

本实施例通过获取访问URL的各用户的用户特征信息可以确定URL的特征信息,从而可以确定URL的网页类型,以对URL进行分类。这种分类方式一方面,无需针对不同的URL网站设计个性化算法,分类效率高;另一方面,在不同的URL网站改版后,即网页类型发生变化时,由于可以根据访问该URL的用户特征信息得到URL的特征信息,从而可以及时对URL重新进行分类,自动更新URL地址库。

作为一个具体实施例,图1所示步骤104可以通过如下方式来实现:

首先,根据uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P计算访问该URL的每个用户j的标签向量uj,其中j为正整数,1≤j≤S,S为访问该URL的用户总数,xjn为用户j的用户标签,kjn为用户标签xjn的权重,jn为正整数,pj为用户j访问该URL的访问次数,P为所有用户访问该URL的总访问次数。

然后,将各用户j的标签向量uj中相同用户标签的权重累加,并按累加后的用户标签的系数的大小对用户标签进行排序,例如升序或降序排列,从而得到该URL的标签向量y=(x1×c1,x2×c2,…,xt×ct),其中如果各用户的用户标签均不相同,则xt为用户标签,用户标签xt的系数ct为S个用户的标签向量uj中与xt相同的用户标签的权重之和。具体地,当xt=xjh时,ct可以表示为以下公式:其中kjh∈(kj1,kj2,…kjn),xjh∈(xj1,xj2,…xjn)。

之后,从URL的标签向量y中选择用户标签的系数最大的前m个用户标签x1,x2,…xm作为该URL的网页类型,并将作为网页类型xi的权重。即,分别为网页类型x1,x2,…xm的权重。

本实施例中,通过用户特征信息和各用户访问该URL的访问次数可以得到各用户的标签向量,根据各用户的标签向量可以得到URL的标签向量,从而得到URL的特征信息。

应理解,虽然上述实施例通过标签向量的方式实现了图1所示步骤104,然而这并非是限制性的,本领域技术人员可以采用其他方式根据各用户的用户特征信息和各用户访问URL的访问次数确定URL特征信息。

下面结合图2列举一个例子对本发明对URL进行分类的方法进行详细说明:

如图2所示,访问URL:http://x.x.com的总访问次数为P=10次。其中,用户A访问URL的访问次数为p1=2次,用户B访问URL的访问次数为p2=8次。

用户A的用户特征信息为:新闻,权重为0.6;购物,权重为0.2;体育,权重为0.1。

用户A的标签向量为u1=(x1×k11,x2×k12,…x1n×k1n)×p1/P=(新闻×0.6,购物×0.2,体育×0.1)×2/10=(新闻×0.12,购物×0.04,体育×0.02)。

用户B的用户特征信息为:购物,权重为0.5;婴幼,权重为0.3;视频,权重为0.1。

用户B的标签向量为u2=(x1×k21,x2×k22,…x2n×k2n)×p2/P=(购物×0.5,婴幼×0.3,视频×0.1)×8/10=(购物×0.4,婴幼×0.24,视频×0.08)。

将用户A的标签向量为u1和用户B的标签向量为u2中相同网页类型的权重相加(即购物的权重0.04+0.4相加)得到URL:http://x.x.com的标签向量为:y=(x1×m1,x2×m2,…,xt×mt) =(新闻×0.12,购物×0.44,体育×0.02,婴幼×0.24,视频×0.08)。

选择网页类型最大的2个,即购物和婴幼作为URL的网页类型,或者仅选择最大的一个,即购物作为URL的网页类型,以对该URL进行分类。

应理解,图2示意性地示出了两个用户访问URL的例子,在实际应用中,本发明提供的对URL进行分类的方法尤其适用于访问次数多的URL,在一个实施例中,可以从采集的DPI数据中筛选出总访问次数大于预设阈值的URL作为要进行分类的URL,从而增加分类的准确性。例如,计算某一段时间内DPI数据中各URL的访问次数,排序筛选出总访问次数大于预设阈值的URL作为要进行分类的URL。

另外,为了验证分类结果的正确性,在一个实施例中,对URL进行分类的方法还可以包括如下步骤:

步骤S1,采集URL的网页内容,并根据该URL的网页内容和特定算法对URL进行分类。

例如,通过人工审核或网页爬取的方式采集URL的网页内容,根据该URL的网页内容,通过文本挖掘算法识别该URL的网页类型,从而对URL进行分类。这里,对不同的URL需要对文本挖掘算法进行相应的调整。

步骤S2,将步骤S1得到的分类结果与根据URL特征信息对该URL进行分类的分类结果进行比较。

步骤S3,根据比较结果调整预设阈值的大小。

如果两个结果不一致,则可以将预设阈值的调整为更大的值,从而使得根据URL特征信息对URL进行分类的分类结果更加准确。如果两个结果一致,则无需调整预设阈值。

本实施例通过对两种分类结果的比较,可以验证本发明对URL分类的方法的正确性,根据验证结果可以适时地调整预设阈值的大小,从而进一步提高分类结果的可靠性。

本发明提供的对URL进行分类的方法同样适用于对APP地址分类。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说 明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

图3是本发明对URL进行分类的装置一个实施例的结构示意图。如图3所示,该装置包括:

用户特征信息获取模块301,用于获取访问URL的各用户的用户特征信息和各用户访问该URL的访问次数,其中,用户特征信息包括基于用户历史上网行为确定的用户标签和各用户标签的权重;

URL特征信息确定模块302,用于根据获取到的各用户的用户特征信息和各用户访问URL的访问次数确定URL特征信息,URL特征信息包括网页类型和各网页类型的权重;

URL分类模块303,用于根据URL特征信息对URL进行分类。

示例性地,URL分类模块303具体用于选择各网页类型的权重中最大的一个或多个网页类型作为URL的网页类型,以对URL进行分类。

本实施例通过获取访问URL的各用户的用户特征信息可以确定URL的特征信息,从而可以确定URL的网页类型,以对URL进行分类。这种分类方式一方面,无需针对不同的URL网站设计个性化算法,分类效率高;另一方面,在不同的URL网站改版后,即网页类型发生变化时,由于可以根据访问该URL的用户特征信息得到URL的特征信息,从而可以及时对URL重新进行分类,自动更新URL地址库。

图4是本发明对URL进行分类的装置另一个实施例的结构示意图。如图4所示,本实施例中的URL特征信息确定模块302可以包括:

用户标签计算单元311,用于根据uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P计算访问该URL的每个用户j的标签向量uj,其中j为正整数,1≤j≤S,S为访问该URL的用户总数,xjn为用户j的用户标签,kjn为用户标签xjn的权重,jn为正整数,pj为用户j访问该URL的访问次数,P为所有用户访问该URL的总访问次数;

URL标签计算单元321,用于将各用户j的标签向量uj中相同用户标签的权重累加,并按累加后的用户标签的系数的大小对用户标签进行 排序,得到该URL的标签向量y=(x1×c1,x2×c2,…,xt×ct),其中xt为用户标签,用户标签xt的系数ct为S个用户的标签向量uj中与xt相同的用户标签的权重之和;

URL特征信息确定单元331,用于从URL的标签向量y中选择用户标签的系数最大的前m个用户标签x1,x2,…xm作为该URL的网页类型,并将作为网页类型xi的权重。

本实施例中,通过用户特征信息和各用户访问该URL的访问次数可以得到各用户的标签向量,根据各用户的标签向量可以得到URL的标签向量,从而得到URL的特征信息。

图5是本发明对URL进行分类的装置又一个实施例的结构示意图。如图5所示,为了提高分类的准确,该装置还可以包括:

DPI数据分析模块501,用于从采集的DPI数据中筛选出总访问次数大于预设阈值的URL作为所述URL。

图6是本发明对URL进行分类的装置再一个实施例的结构示意图。如图6所示,该装置还可以包括:

网页内容采集模块601,用于采集URL的网页内容,并根据URL的网页内容和特定算法识别URL的网页类型,以对URL进行分类;

比较模块602,用于将分类结果与根据URL特征信息对URL进行分类的分类结果进行比较;

调整模块603,用于根据比较结果调整预设阈值的大小。

本实施例通过对两种分类结果的比较,可以验证本发明对URL分类的方法的正确性,根据验证结果可以适时地调整预设阈值的大小,从而进一步提高分类结果的可靠性。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的 或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1