一种页面识别方法、相关设备及存储介质与流程

文档序号:35985861发布日期:2023-11-10 08:29阅读:21来源:国知局
一种页面识别方法、相关设备及存储介质与流程

本申请涉及计算机,尤其涉及一种页面识别方法、相关设备及存储介质。


背景技术:

1、为了提升广告的曝光量,商品广告主经常一户多开,提交相似或相同的广告。这些操作对广告系统的检索和排序造成了诸多困扰,如多样性策略失效、单个广告行为偏少导致预估偏低等等。在应对措施上,除了加强广告主的教育、引导外,识别这些相似或相同的广告页面,对于整个广告系统有着重要作用,例如模型中的历史数据复用、新广告的判定、广告播放阶段的去重、用户体验问题。

2、目前,在进行广告页面去重时,通常是采用基于广告id的判重方法,然而,基于广告id的判重方法虽然较为简单,但如果广告主重复创建广告页面,或者该广告页面下存在多个商品,则会导致判重的准确率低,效果差。

3、可见,如何便捷、准确地识别重复页面已成为亟待解决的问题。


技术实现思路

1、本申请实施例提供一种页面识别方法、相关设备及存储介质,可以便捷、准确地识别重复页面。

2、第一方面,本申请实施例提供了一种页面识别方法,所述方法包括:

3、对目标页面进行信息提取,得到所述目标页面包含的文本信息,所述目标页面包括目标对象的描述信息。

4、基于所述目标页面包含的文本信息确定所述目标页面的特征信息,所述特征信息包括第一页面类别以及语义表征信息。

5、获取所述第一页面类别对应的多个簇,并基于所述目标页面的语义表征信息以及所述第一页面类别对应的多个簇对所述目标页面进行第一聚类处理,得到聚类结果,所述多个簇是对页面库中所述第一页面类别对应的多个页面进行第二聚类处理得到的。

6、基于所述聚类结果确定所述目标页面是否为重复页面。

7、第二方面,本申请实施例提供了一种页面识别装置,所述装置包括:

8、获取模块,用于对目标页面进行信息提取,得到所述目标页面包含的文本信息,所述目标页面包括目标对象的描述信息。

9、确定模块,用于基于所述目标页面包含的文本信息确定所述目标页面的特征信息,所述特征信息包括第一页面类别以及语义表征信息。

10、所述获取模块,还用于获取所述第一页面类别对应的多个簇。

11、处理模块,用于基于所述目标页面的语义表征信息以及所述第一页面类别对应的多个簇对所述目标页面进行第一聚类处理,得到聚类结果,所述多个簇是对页面库中所述第一页面类别对应的多个页面进行第二聚类处理得到的。

12、所述确定模块,还用于基于所述聚类结果确定所述目标页面是否为重复页面。

13、第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器、网络接口和存储装置,所述处理器、所述网络接口和所述存储装置相互连接,其中,所述网络接口受所述处理器的控制用于收发数据,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,用于执行如第一方面所述的页面识别方法。

14、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行,用以执行如第一方面所述的页面识别方法。

15、第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被计算机处理器执行时实现如第一方面所述的页面识别方法。

16、本申请实施例中,计算机设备可以对目标页面进行信息提取,得到目标页面包含的文本信息,目标页面包括目标对象的描述信息;计算机设备基于目标页面包含的文本信息确定目标页面的特征信息,该特征信息包括目标页面的第一页面类别以及语义表征信息;计算机设备获取第一页面类别对应的多个簇,并基于目标页面的语义表征信息以及第一页面类别对应的多个簇对目标页面进行第一聚类处理,得到聚类结果,该第一页面类别对应的多个簇是对页面库中该第一页面类别对应的多个页面进行第二聚类处理得到的;计算机设备基于该聚类结果即可确定目标页面是否为重复页面,可以看出,本申请实施例不需要大量的人工标注类目数据,而是通过自动化提取全面的页面信息,准确地确定出页面的类别以及语义上的表征信息,再根据语义上的表征信息在所属的页面类别包括的多个簇中进行聚类,有助于提升聚类结果的准确度,从而可以便捷、准确地识别重复页面。



技术特征:

1.一种页面识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对目标页面进行信息提取,得到所述目标页面包含的文本信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述多媒体特征数据包括多媒体地址数据以及图文关系数据,所述基于所述多媒体特征数据确定第二文本信息,包括:

4.根据权利要求1~3中任一项所述的方法,其特征在于,所述基于所述目标页面包含的文本信息确定所述目标页面的特征信息,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述目标页面的语义表征信息以及所述第一页面类别对应的多个簇对所述目标页面进行第一聚类处理,得到聚类结果,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述目标页面的语义表征信息以及所述每个候选页面的语义表征信息,对所述目标页面进行第一聚类处理,得到所述目标页面所属的目标簇,包括:

7.根据权利要求1或5或6所述的方法,其特征在于,所述基于所述聚类结果确定所述目标页面是否为重复页面,包括:

8.根据权利要求1或5或6所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1所述的方法,其特征在于,所述获取所述第一页面类别对应的多个簇之前,所述方法还包括:

10.一种页面识别装置,其特征在于,所述装置包括:

11.一种计算机设备,其特征在于,所述计算机设备包括处理器、网络接口和存储装置,所述处理器、所述网络接口和所述存储装置相互连接,其中,所述网络接口受所述处理器的控制用于收发数据,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,用于执行权利要求1~9中任一项所述的页面识别方法。

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行,用以执行权利要求1~9中任一项所述的页面识别方法。

13.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被计算机处理器执行时实现权利要求1~9中任一项所述的页面识别方法。


技术总结
本申请实施例提供了一种页面识别方法、相关设备及存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。方法包括:对目标页面进行信息提取,得到目标页面包含的文本信息,目标页面包括目标对象的描述信息;基于目标页面包含的文本信息确定目标页面的特征信息,该特征信息包括目标页面的第一页面类别以及语义表征信息;获取第一页面类别对应的多个簇,并基于目标页面的语义表征信息以及第一页面类别对应的多个簇对目标页面进行第一聚类处理,得到聚类结果,该第一页面类别对应的多个簇是对页面库中该第一页面类别对应的多个页面进行第二聚类处理得到的;基于该聚类结果确定目标页面是否为重复页面,可以便捷、准确地识别重复页面。

技术研发人员:王山雨
受保护的技术使用者:腾讯科技(北京)有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1