一种网站分类管理方法与流程

文档序号:18030421发布日期:2019-06-28 22:36阅读:916来源:国知局

本发明属于网站分类管理技术领域,涉及到一种网站分类管理方法。



背景技术:

随着信息技术的快速发展,网站数量已数以百万计。为了能在如此众多的网站中快速搜索到需要的网站,网站分类技术应运而生。网站分类即利用网站的特征数据,对网站进行类别划分。便于将网站划分到最合适的类别中,以进行网站导航,为用户查询提供便利。此外,网站分类还可以鉴别出敏感网站以进行舆情监控。

目前,在对网站进行分类时,常利用爬虫技术。爬虫技术是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。爬虫技术通过对网站信息进行采集,获取网站的文本特征,进而利用特定的文本分类方法,如通过机器学习或者基于规则的方法,对网站进行分类,然而,由于网站数量众多,每个网站上的数据量也较多,若仍然采用爬虫技术采取海量的数据,造成网站分类的时间长、网站分类效率低的问题,为了提高网站分类的效率,且提高网站分类的准确性,现设计一种网站分类管理方法。



技术实现要素:

本发明的目的在于提供的网站分类管理方法,通过对待检测网站上的关键字与各网站类别的关键字进行对比,统计待检测网站与各网站类别间的关联度系数,并依次筛选剩余网站类别中关联度系数最大的网站的关联度系数是否大于设定的该网站类别的关联度系数,实现待检测网站的类别划分,解决了现有网站分类过程中存在的网站分类效率低以及准确性差的问题。

本发明的目的可以通过以下技术方案实现:

一种网站分类管理方法,包括以下步骤:

s1、进入待检测网站首页,获取待检测网站首页的图像信息,对获取的待检测网站图像信息中的文字进行提取;

s2、将提取的文字进行划分,划分成若干待检测关键字,构成待检测关键字集合b(b1,b2,...,bj,...,bm),bj表示为待检测网站中的第j个关键字;

s3、将提取的待检测关键字集合b与网站存储库中存储的不同网站类别对应的关键字进行逐一对比,得到网站关键字对比集合b′k(b′k1,b′k2,...,b′kj,...,b′km),b′kj表示为待检测网站中第j个关键字与第k个网站类别各关键字的对比情况;

s4、若待检测网站中第j个关键字与第k个网站类别中其中一关键字相同,则b′kj保留为该关键字,若待检测网站中第j个关键字均不等于第k个网站类别中所有关键字相同,则b′kj被预设的替换字所代替;

s5、筛选网站关键字对比集合中各关键字与网站存储库中各关键字对应的映射数值进行对比,得到在网站关键字映射数值集合ck(ck1,ck2,...,ckj,...,ckm),ckj表示为待检测网站中关键字与第k个网站类别中第j个关键字相对应的映射数值;

s6、根据网站关键字映射数值集合对网站类别中各关键字对应的比重进行重新排列,得到网站关键字比重集合fk(fk1,fk2,...,fkj,...,fkm),m∈n,fkj表示为待检测网站中第j个关键字对应的比重;

s7、根据网站关键字映射数值集合和网站关键字比重集合,统计待检测网站与各网站类别的关联度系数;

s8、获取待检测网站与各网站类别的关联度系数,筛选待检测网站与各网站类别间的关联度系数,筛选关联度系数最大的网站类别;

s9、判断待检测网站与关联度系数最大的网站类别间的关联度系数是否大于该网站类别设定的关联度系数阈值,若大于该网站类别设定的关联度系数阈值,则待检测网站划分为该网站类别,若小于该网站类别设定的关联度系数阈值,则执行步骤s10;

s10、剔除待检测网站与关联度系数最大的网站类别,筛选待检测网站与余下网站类别间的关联度系数,筛选出余下关联度系数最大的网站类别,并执行步骤s9,直至待检测网站与其中一网站类别间的关联度系数大于该网站类别设定的关联度系数阈值。

进一步地,所述关联度系数的计算公式为θk表示为待检测网站与第k个网站类别的关联度系数,fkj表示为待检测网站中第j个关键字对应的比重,ckj表示为ckj表示为待检测网站中关键字与第k个网站类别中第j个关键字相对应的映射数值,表示为最大的关联度数值,表示为最小的关联度数值。

进一步地,所述步骤s2中不同网站类别对应若干关键字,且同一网站类别中若干关键字构成网站关键字集合ak(ak1,ak2,...,aki,...,akn),k表示为第k个网站类别,aki表示为第k个网站类别中第i个关键字。

进一步地,不同网站类别对应的关联度系数阈值不同。

进一步地,不同关键字映射的数值不同,且网站关键字集合中各关键字所占的比重不同,分别为且fk1>fk2>...>fki>...>fknfk1,fk2,...,fki,...,fkn。

本发明的有益效果:

本发明提供的网站分类管理方法,通过对待检测网站上的关键字与各网站类别的关键字进行对比,统计待检测网站与各网站类别间的关联度系数,并依次筛选剩余网站类别中关联度系数最大的网站的关联度系数是否大于设定的该网站类别的关联度系数,一旦大于,则待检测网站进行网站类别的归类,提高了网站分类的管理效率以及分类的准确性。

具体实施方式

下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

一种网站分类管理方法,包括以下步骤:

s1、进入待检测网站首页,获取待检测网站首页的图像信息,对获取的待检测网站图像信息中的文字进行提取;

s2、将提取的文字进行划分,划分成若干待检测关键字,构成待检测关键字集合b(b1,b2,...,bj,...,bm),bj表示为待检测网站中的第j个关键字;

s3、将提取的待检测关键字集合b与网站存储库中存储的不同网站类别对应的关键字进行逐一对比,得到网站关键字对比集合b′k(b′k1,b′k2,...,b′kj,...,b′km),b′kj表示为待检测网站中第j个关键字与第k个网站类别各关键字的对比情况,其中,不同网站类别对应若干关键字,且同一网站类别中若干关键字构成网站关键字集合ak(ak1,ak2,...,aki,...,akn),k表示为第k个网站类别,aki表示为第k个网站类别中第i个关键字;

s4、若待检测网站中第j个关键字与第k个网站类别中其中一关键字相同,则b′kj保留为该关键字,若待检测网站中第j个关键字均不等于第k个网站类别中所有关键字相同,则b′kj被预设的替换字所代替;

s5、筛选网站关键字对比集合中各关键字与网站存储库中各关键字对应的映射数值进行对比,得到在网站关键字映射数值集合ck(ck1,ck2,...,ckj,...,ckm),ckj表示为待检测网站中关键字与第k个网站类别中第j个关键字相对应的映射数值,其中,不同关键字映射的数值不同,且网站关键字集合中各关键字所占的比重不同,分别为fk1,fk2,...,fki,...,fkn,且fk1>fk2>...>fki>...>fkn;

s6、根据网站关键字映射数值集合对网站类别中各关键字对应的比重进行重新排列,得到网站关键字比重集合fk(fk1,fk2,...,fkj,...,fkm),m∈n,fkj表示为待检测网站中第j个关键字对应的比重;

s7、根据网站关键字映射数值集合和网站关键字比重集合,统计待检测网站与各网站类别的关联度系数,所述关联度系数的计算公式为θk表示为待检测网站与第k个网站类别的关联度系数,fkj表示为待检测网站中第j个关键字对应的比重,ckj表示为ckj表示为待检测网站中关键字与第k个网站类别中第j个关键字相对应的映射数值,表示为最大的关联度数值,表示为最小的关联度数值;

s8、获取待检测网站与各网站类别的关联度系数,筛选待检测网站与各网站类别间的关联度系数,筛选关联度系数最大的网站类别;

s9、判断待检测网站与关联度系数最大的网站类别间的关联度系数是否大于该网站类别设定的关联度系数阈值,若大于该网站类别设定的关联度系数阈值,则待检测网站划分为该网站类别,若小于该网站类别设定的关联度系数阈值,则执行步骤s10;

s10、剔除待检测网站与关联度系数最大的网站类别,筛选待检测网站与余下网站类别间的关联度系数,筛选出余下关联度系数最大的网站类别,并执行步骤s9,直至待检测网站与其中一网站类别间的关联度系数大于该网站类别设定的关联度系数阈值。

本发明提供的网站分类管理方法,通过对待检测网站上的关键字与各网站类别的关键字进行对比,统计待检测网站与各网站类别间的关联度系数,并依次筛选剩余网站类别中关联度系数最大的网站的关联度系数是否大于设定的该网站类别的关联度系数,一旦大于,则待检测网站进行网站类别的归类,提高了网站分类的管理效率以及分类的准确性。

以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1