网址分类方法、装置、计算模块及计算机存储介质与流程

文档序号:35911676发布日期:2023-10-29 15:38阅读:37来源:国知局
网址分类方法、装置、计算模块及计算机存储介质与流程

本发明涉及计算机,具体涉及一种网址分类方法、装置、计算模块及计算机存储介质。


背景技术:

1、网址通常指互联网中的网页的地址。用户通过终端浏览网页时,终端中的浏览器等应用程序根据网址跳转到相应的网页。随着互联网的快速发展以及网民数量的不断攀升,用户对网址的访问行为产生了海量的数据,因此对海量网址进行精准可控的智能化管理的需求日益增多,其中的一项需求就是用算法和模型对海量网址进行精准的自动分类,这在网络安全场景和互联网营销场景中都有着广泛的应用。在相关技术中,服务器对网址进行分类时,通常爬取网址对应的网页的页面内容,并根据页面内容来判断当前的网址类别。目前业界先进的网址自动分类技术方案如下:

2、方案一:基于全监督学习的机器学习或深度学习。

3、该方案可以通过手动获取并构建特征,通过机器学习模型(如lr,svm,nb,knnn,gbdt等)进行训练和预测;或者无需手动构建特征,而是利用深度学习模型(如textcnn,dpcnn,fasttext,textrcnn等)的网络结构进行训练和预测。

4、然而,现有方案一的缺点如下:(1)具有较大的主观性和局限性,往往是片面或冗余的,最终表现为模型可控性低,场景适用范围小,开发细节繁琐。(2)模型性能严重依赖特征工程和网络结构的设计,且在一般情况下不如预训练模型。

5、方案二:基于pre-train,fine-tune范式的模型。

6、该方案基于预训练模型(如bert,xlnet,ernie,albert,roberta,bart,t5等)并将其应用到下游任务上,在预训练阶段和微调阶段根据下游任务设计训练对象并对预训练模型本体的部分参数进行调整。

7、现有方案二的缺点如下:(1)下游任务种类繁多,每个下游任务都需要对其参数进行微调,使得预训练和微调阶段的设计变得繁琐复杂。(2)预训练模型的体量一般较大,对其进行fine-tune的硬件要求、数据需求和实际代价较高。

8、综上所述,现有方案在网址自动分类领域存在步骤繁琐、实际代价高等问题。


技术实现思路

1、鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的网址分类方法、装置、计算模块及计算机存储介质。

2、根据本发明实施例的一个方面,提供了一种网址分类方法,包括:

3、获取样本网址数据,其中,样本网址数据包括:多个第一样本网址数据及第一样本网址数据对应的第一样本网址分类标签、多个无标注网址分类标签的第二样本网址数据;

4、根据多个第一样本网址数据、第一样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个初始网址分类模型,其中,每个网址分类提示模板对应一个初始网址分类模型;

5、利用n个初始网址分类模型对第二样本网址数据进行网址分类预测,得到第二样本网址分类标签;

6、根据多个第一样本网址数据、第一样本网址分类标签、多个第二样本网址数据、第二样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个目标网址分类模型;

7、获取待预测网址数据,利用n个目标网址分类模型对待预测网址数据进行网址分类预测,得到待预测网址数据对应的网址分类标签。

8、根据本发明实施例的另一方面,提供了一种网址分类装置,包括:

9、获取模块,适于获取样本网址数据,其中,样本网址数据包括:多个第一样本网址数据及第一样本网址数据对应的第一样本网址分类标签、多个无标注网址分类标签的第二样本网址数据;

10、第一训练模块,适于根据多个第一样本网址数据、第一样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个初始网址分类模型,其中,每个网址分类提示模板对应一个初始网址分类模型;

11、第一预测模块,适于利用n个初始网址分类模型对第二样本网址数据进行网址分类预测,得到第二样本网址分类标签;

12、第二训练模块,适于根据多个第一样本网址数据、第一样本网址分类标签、多个第二样本网址数据、第二样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个目标网址分类模型;

13、第二预测模块,适于获取待预测网址数据,利用n个目标网址分类模型对待预测网址数据进行网址分类预测,得到待预测网址数据对应的网址分类标签。

14、根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;

15、存储器用于存放至少一可执行指令,可执行指令使处理器执行上述网址分类方法对应的操作。

16、根据本发明实施例的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述网址分类方法对应的操作。

17、根据本发明上述实施例提供的方案,该方案简单、高效、成本低,预训练模型,相比传统的机器学习、深度学习网址分类模型的性能上准确率更高;采用基于prompt范式的预训练,省略了fine-tune模型的步骤,大大降低了模型训练的成本;该方法减少了模型训练和测试阶段之间的gap,在网址分类识别的小样本场景下很有效。

18、上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。



技术特征:

1.一种网址分类方法,包括:

2.根据权利要求1所述的方法,其中,所述利用n个初始网址分类模型对第二样本网址数据进行网址分类预测,得到第二样本网址分类标签进一步包括:

3.根据权利要求1或2所述的方法,其中,所述利用所述n个目标网址分类模型对所述待预测网址数据进行网址分类预测,得到所述待预测网址数据对应的网址分类标签进一步包括:

4.根据权利要求1或2所述的方法,其中,在获取样本网址数据之后,所述方法还包括:

5.一种网址分类装置,包括:

6.根据权利要求5所述的装置,其中,所述第一预测模块进一步适于:针对每个第二样本网址数据,分别利用n个初始网址分类模型进行网址分类预测,得到n个网址分类预测结果;

7.根据权利要求5或6所述的装置,其中,所述第二预测模块进一步适于:

8.根据权利要求5或6所述的装置,其中,所述装置还包括:

9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-4中任一项所述的网址分类方法对应的操作。


技术总结
本发明公开了一种网址分类方法、装置、计算模块及计算机存储介质,方法包括:获取样本网址数据;根据多个第一样本网址数据、第一样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个初始网址分类模型;利用n个初始网址分类模型对第二样本网址数据进行网址分类预测,得到第二样本网址分类标签;根据多个第一样本网址数据、第一样本网址分类标签、多个第二样本网址数据、第二样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个目标网址分类模型;获取待预测网址数据,利用n个目标网址分类模型对待预测网址数据进行网址分类预测,得到网址分类标签,该方案简单、高效、成本低。

技术研发人员:胡泽远,罗琼,李海传,蒋健
受保护的技术使用者:中国移动通信集团浙江有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1