广告召回的方法及系统与流程

文档序号:13283548阅读:4922来源:国知局
广告召回的方法及系统与流程

本发明涉及互联网广告技术领域,更具体的说,涉及一种广告召回的方法及系统。



背景技术:

随着互联网的发展,网络平台为用户提供了越来越多的便利,如在网络上进行商品、服务交易等,为使商品、服务等被其他人广为知晓和了解,往往通过在网页上投放广告的方式来实现。

确定广告是否曝光主要由两个因素决定:一个是广告主的竞价,一个是广告的点击率。在计算广告的点击率之前,首先需要对广告召回,所谓广告召回指的是根据输入的关键词组获取广告的过程。然而,传统方案中的广告召回方法,当需要对海量广告进行召回时,会大大增大点击率预估服务的负担,甚至导致点击率预估服务无法正常工作。另外,海量召回的广告中,不乏存在一些低质广告,从而导致用户体验差。



技术实现要素:

有鉴于此,本发明公开一种广告召回的方法及系统,以实现在减轻点击率预估服务的负担的同时还可以提高用户体验。

一种广告召回的方法,包括:

对视频进行信息提取,得到包含视频提取信息的第一元组,其中,所述视频为广告曝光场景的上下文视频,所述视频提取信息中至少包括:对所述视频的标题进行分词得到的视频标题分词信息;

对广告进行信息初步提取,得到包含广告初步提取信息的第二元组,其中,所述广告初步提取信息中至少包括:对所述广告的标题进行分词得到的广告标题分词信息;

对所述广告初步提取信息进行信息深度提取,得到广告特征信息,并将所述广告特征信息放入所述第二元组,得到第三元组;

对所述第一元组和所述第三元组中相对应的元素进行离线匹配,得到离线匹配结果,所述离线匹配结果用于表征所述视频和所述广告的相关性得分;

根据预设相关性优先级的顺序以及所述离线匹配结果,选取与所述视频相关性得分高的预设数量的广告作为所述视频的广告匹配结果,并将所述广告匹配结果中的广告作为目标广告进行召回。

优选的,当所述广告特征信息包括:特征人物代言信息以及广告类别信息时,所述对所述广告初步提取信息进行信息深度提取,得到广告特征信息,并将所述广告特征信息放入所述第二元组,得到第三元组,具体包括:

对所述广告初步提取信息进行信息深度提取,得到特征人物代言信息以及广告类别信息,并将所述特征人物代言信息和所述广告类别信息放入所述第二元组,得到第三元组,其中,当从所述广告初步提取信息中未提取到所述特征人物代言信息时,所述特征人物代言信息为空,当从所述广告初步提取信息中未提取到广告类别信息时,所述广告类别信息为空。

优选的,所述视频提取信息还包括:对所述视频的描述进行分词得到的视频描述分词信息、视频标签信息、以及包含所述视频的导演和演员信息的视频人物信息。

优选的,当所述第二元组包含的所述广告初步提取信息还包括:广告标签信息、广告人物信息以及对所述广告的描述进行分词得到的广告描述分词信息时,相应的,所述第三元组还包括:

所述广告标签信息、所述广告人物信息和所述广告描述分词信息,其中,所述特征人物代言信息从属于所述广告人物信息,所述广告类别信息从属于所述广告标签信息。

优选的,所述对所述第一元组和所述第三元组中相对应的元素进行离线匹配,得到离线匹配结果,具体包括:

对所述第一元组中的所述视频标题分词信息和所述第三元组中的所述广告标题分词信息进行离线匹配,得到标题匹配结果;

对所述第一元组中的所述视频描述分词信息和所述第三元组中的所述广告描述分词信息进行离线匹配,得到描述匹配结果,

对所述第一元组中的所述视频人物信息和所述第三元组中的所述广告人物信息进行离线匹配,得到人物匹配结果;

对所述第一元组中的所述视频标签信息和所述第三元组中的所述广告标签信息进行离线匹配,得到标签匹配结果。

优选的,当所述匹配结果包括:所述标题匹配结果、所述描述匹配结果、所述人物匹配结果和所述标签匹配结果时,所述预设相关性优先级从高到低依次为:所述标题匹配结果>所述描述匹配结果>所述人物匹配结果>所述标签匹配结果。

优选的,所述对所述广告初步提取信息进行信息深度提取,得到特征人物代言信息以及广告类别信息,具体包括:

从所述广告初步提取信息中识别特征人物人名,根据识别出的特征人物人名,从所述广告初步提取信息中获取与识别出的特征人物人名相对应的特征人物代言信息;

根据所述广告初步提取信息和预先建立的离线训练模型,计算得到所述广告的广告类别信息;其中,所述离线训练模型以app广告类别作为标签,以所述app广告的描述信息作为训练文本,对所述训练文本分词并采用svm算法进行训练。

优选的,还包括:

将所述目标广告导入数据库,以供线上点击率预估服务使用。

一种广告召回的系统,包括:

视频信息提取单元,用于对视频进行信息提取,得到包含视频提取信息的第一元组,其中,所述视频为广告曝光场景的上下文视频,所述视频提取信息中至少包括:对所述视频的标题进行分词得到的视频标题分词信息;

广告信息初步提取单元,用于对广告进行信息初步提取,得到包含广告初步提取信息的第二元组,其中,所述广告初步提取信息中至少包括:对所述广告的标题进行分词得到的广告标题分词信息;

广告信息深度提取单元,用于对所述广告初步提取信息进行信息深度提取,得到广告特征信息,并将所述广告特征信息放入所述第二元组,得到第三元组;

匹配单元,用于对所述第一元组和所述第三元组中相对应的元素进行离线匹配,得到离线匹配结果,所述离线匹配结果用于表征所述视频和所述广告的相关性得分;

目标广告选取单元,用于根据预设相关性优先级的顺序以及所述离线匹配结果,选取与所述视频相关性得分高的预设数量的广告作为所述视频的广告匹配结果,并将所述广告匹配结果中的广告作为目标广告进行召回。

优选的,所述广告信息深度提取单元具体用于:

对所述广告初步提取信息进行信息深度提取,得到特征人物代言信息以及广告类别信息,并将所述特征人物代言信息和所述广告类别信息放入所述第二元组,得到第三元组,其中,当从所述广告初步提取信息中未提取到所述特征人物代言信息时,所述特征人物代言信息为空,当从所述广告初步提取信息中未提取到广告类别信息时,所述广告类别信息为空。

优选的,所述视频提取信息还包括:对所述视频的描述进行分词得到的视频描述分词信息、视频标签信息、以及包含所述视频的导演和演员信息的视频人物信息。

优选的,当所述第二元组包含的所述广告初步提取信息还包括:广告标签信息、广告人物信息以及对所述广告的描述进行分词得到的广告描述分词信息时,相应的,所述第三元组还包括:

所述广告标签信息、所述广告人物信息和所述广告描述分词信息,其中,所述特征人物代言信息从属于所述广告人物信息,所述广告类别信息从属于所述广告标签信息。

优选的,所述匹配单元具体用于:

对所述第一元组中的所述视频标题分词信息和所述第三元组中的所述广告标题分词信息进行离线匹配,得到标题匹配结果;

对所述第一元组中的所述视频描述分词信息和所述第三元组中的所述广告描述分词信息进行离线匹配,得到描述匹配结果,

对所述第一元组中的所述视频人物信息和所述第三元组中的所述广告人物信息进行离线匹配,得到人物匹配结果;

对所述第一元组中的所述视频标签信息和所述第三元组中的所述广告标签信息进行离线匹配,得到标签匹配结果。

优选的,当所述匹配结果包括:所述标题匹配结果、所述描述匹配结果、所述人物匹配结果和所述标签匹配结果时,所述预设相关性优先级从高到低依次为:所述标题匹配结果>所述描述匹配结果>所述人物匹配结果>所述标签匹配结果。

优选的,所述广告信息深度提取单元具体用于:

从所述广告初步提取信息中识别特征人物人名,根据识别出的特征人物人名,从所述广告初步提取信息中获取与识别出的特征人物人名相对应的特征人物代言信息;

根据所述广告初步提取信息和预先建立的离线训练模型,计算得到所述广告的广告类别信息;其中,所述离线训练模型以app广告类别作为标签,以所述app广告的描述信息作为训练文本,对所述训练文本分词后,采用svm算法进行训练。

优选的,还包括:

导入单元,用于将所述目标广告导入数据库,以供线上点击率预估服务使用。

从上述的技术方案可知,本发明公开了一种广告召回的方法及系统,对视频进行信息提取,得到包含视频提取信息的第一元组,对广告依次进行信息初步提取和深度提取,得到包含广告提取信息的第三元组,通过将第一元组和第三元组中相对应的元素进行离线匹配,得到表征视频和广告相关性的离线匹配结果,根据该离线匹配结果以及预设相关性优先级顺序确定召回的目标广告。相比传统方案而言,本发明在对广告进行召回前,考虑了视频与广告的相关性,并根据预设相关性优先级的顺序以及离线匹配结果进行召回广告的筛选,因此大大减少了召回广告的数量,减轻了点击率预估服务的负担,同时还提高了召回广告的精确度,提高了用户体验,从而解决了传统方案中海量广告召回时存在的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种广告召回的方法流程图;

图2为本发明实施例公开的一种得到第三元组的方法流程图;

图3为本发明实施例公开的一种广告召回的系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种广告召回的方法及系统,以实现在减轻点击率预估服务的负担的同时还可以提高用户体验。

参见图1,本发明一实施例公开的一种广告召回的方法流程图,该方法包括步骤:

步骤s101、对视频进行信息提取,得到包含视频提取信息的第一元组;

本实施例中,视频指的是广告曝光场景的上下文视频,比如一个视频位于一个广告的右侧,则该视频即是该广告曝光场景的上下文视频。

其中,视频提取信息中至少包括:对视频的标题进行分词得到的视频标题分词信息,所谓分词指的是:具有动词及形容词二者特征的词。比如,视频的标题为“欢乐颂27集预告”,对“欢乐颂27集预告”进行分词得到的视频标题分词信息为:“欢乐颂”、“27集”和“预告”。

在实际应用中,视频标题分词信息可以表示成列表形式。

本实施例中的第一元组指的是:视频提取信息的集合。

步骤s102、对广告进行信息初步提取,得到包含广告初步提取信息的第二元组;

其中,广告初步提取信息中至少包括:对广告的标题进行分词得到的广告标题分词信息。比如广告的标题为“福特翼虎汽车”,对“福特翼虎汽车”进行分词得到的广告标题分词信息为:“福特”、“翼虎”和“汽车”。

在实际应用中,广告标题分词信息可以表示成列表形式。

步骤s103、对广告初步提取信息进行信息深度提取,得到广告特征信息,并将所述广告特征信息放入所述第二元组,得到第三元组;

具体的,当广告特征信息包括:特征人物代言信息以及广告类别信息时,步骤s103具体包括:

对所述广告初步提取信息进行信息深度提取,得到特征人物代言信息以及广告类别信息,并将所述特征人物代言信息和所述广告类别信息放入所述第二元组,得到第三元组,其中,当从所述广告初步提取信息中未提取到所述特征人物代言信息时,所述特征人物代言信息为空,当从所述广告初步提取信息中未提取到广告类别信息时,所述广告类别信息为空。

其中,本步骤中的特征人物代言信息可以为明星代言信息,如杨幂代言溜溜梅,或企事业老板代言信息,比如董明珠代言格力,特征人物代言信息具体依据实际需要而定,本发明在此不做限定。广告类别信息指的是广告所属的类别,如微信中的app推广类广告,其类别信息为“社交软件”。

具体的,参见图2,本发明一具体实施例公开的一种得到第三元组的方法流程图,该方法包括步骤:

步骤s201、从广告初步提取信息中识别特征人物人名,根据识别出的特征人物人名,从广告初步提取信息中获取与识别出的特征人物人名相对应的特征人物代言信息;

举例说明,假设从广告初步提取信息中识别出的特征人物人名为杨幂,根据“杨幂”这一人名,从广告初步提取信息中获取与“杨幂”相对应的特征人物代言信息,如“溜溜梅”。

步骤s202、根据广告初步提取信息和预先建立的离线训练模型,计算得到广告的广告类别信息;

其中,离线训练模型的建立过程为:使用爬虫爬取appstore的数据,从该数据中获取app广告类别和app广告的描述信息,以app广告类别作为标签,以app广告的描述信息作为训练文本,在对训练文本分词并采用svm(supportvectormachine,支持向量机)算法进行训练。

当需要确定一个新的app广告的广告类别信息时,只需将该app广告的描述信息输入至离线训练模型,即可计算得到该app广告的广告类别信息,其中,app广告的描述信息为广告初步提取信息中的部分信息或全部信息。

需要说明的是,本实施例中离线训练模型包括但不限于以app广告类别作为标签,还可以为其它的广告类别,比如web广告类别。

步骤s203、将特征人物代言信息和广告类别信息放入第二元组,得到第三元组。

也就是说,第三元组中的元素由第二元组中的元素以及对广告初步提取信息深度提取得到的信息构成。

基于上述论述可知,本发明通过对广告初步提取信息进行信息深度提取来获取广告中的特征信息,以为后续选取需要召回的目标广告提供依据。

步骤s104、对第一元组和第三元组中相对应的元素进行离线匹配,得到离线匹配结果,离线匹配结果用于表征视频和广告的相关性得分;

需要说明的是,离线匹配结果可以用一个具体数值表示,第一元组中的视频标题分词信息和第三元组中的广告标题分词信息为相对应的元素,当视频标题分词信息和广告标题分词信息中均包含“杨幂”时,表明这两个元素匹配,得到的离线匹配结果为0.8,也即,视频和广告基于标题分词信息的相关性得分为0.8;反之,当视频标题分词信息和广告标题分词信息中不存在匹配的信息时,表示这两个元素不匹配,这时,得到的离线匹配结果为0,也即,视频和广告基于标题分词信息的相关性得分为0。

步骤s105、根据预设相关性优先级的顺序以及离线匹配结果,选取与视频相关性得分高的预设数量的广告作为视频的广告匹配结果,并将广告匹配结果中的广告作为目标广告进行召回。

需要说明的是,本实施例中的步骤s101用于对视频进行信息提取,步骤s102~步骤s103用于对广告进行信息提取,对视频进行信息提取的过程和对广告进行信息提取的过程,在实际过程中,并没有先后顺序,可以先对视频进行信息提取,或是先对广告进行信息提取,或是两个过程同时执行,图1所示的执行顺序只是其中的一种实现方案。

综上可知,本发明在对广告进行召回前,考虑了视频与广告的相关性,并根据预设相关性优先级的顺序以及离线匹配结果进行召回广告的筛选,因此大大减少了召回广告的数量,减轻了点击率预估服务的负担,同时还提高了召回广告的精确度,提高了用户体验,从而解决了传统方案中海量广告召回时存在的问题。

基于上述实施例可知,本发明通过将视频提取信息与广告提取信息进行匹配,来确定该视频和广告的相关性,可以理解的是,对于视频和广告而言,提取的信息越详细,越有助于发现视频和广告的相关性。

因此,为进一步优化上述实施例,第一元组包含的视频提取信息除了包括:视频标题分词信息之外,还可以包括:对视频的描述进行分词得到的视频描述分词信息、视频标签信息、以及包含视频的导演和演员信息的视频人物信息。

比如,视频的描述比如对视频内容的简介,视频的描述为“在一个名为“欢乐颂”的小区,居住着五个年龄相仿的女孩子”,对“在一个名为“欢乐颂”的小区,居住着五个年龄相仿的女孩子”进行分词得到的视频描述分词信息为“一个”、“名为”“欢乐颂”“小区”、“居住”“五个”“年龄”、“相仿”和“女孩子”。

视频标签信息如“爱情”、“都市”。

视频人物信息,如视频为电视剧《芈月传》,导演为:郑晓龙,演员包括:孙俪、刘涛、马苏、方中信等,则可以将郑晓龙、孙俪、刘涛、马苏、方中信等作为视频《芈月传》的视频人物信息。

可以理解的是,一个视频中可以包含有很多演员信息,然而,其中的很多演员并非是知名演员,因此,为提高视频和广告的相关性匹配,在实际应用中,可以将视频中涉及到的一些知名人物作为视频人物信息。

为方便后续视频和广告的匹配,在实际应用中,可以将第一元组表示为(title_seg_list,description_seg_list,people_list,tag_list),其中,title_seg_list表示视频标题分词信息,description_seg_list表示视频描述分词信息,people_list表示视频人物信息,tag_list表示视频标签信息。

为进一步优化上述实施例,第二元组包含的广告初步提取信息除了包括:广告标题分词信息之外,还可以包括:广告标签信息、广告人物信息以及对广告的描述进行分词得到的广告描述分词信息。

举例说明,广告标签信息如“爱情”“旅游”。

广告人物信息,如当广告为电子书时,广告人物信息为电子书作者,亦或是,一个广告有一个人物代言,该人物在表演时,还有其他的人物陪衬,广告代言人和陪衬人物合称广告人物信息。

广告描述分词信息,广告的描述为“一款对战手游”,对“一款对战手游”进行分词得到广告描述分词信息为“一款”、“对战”和“手游”。

由于第三元组中的元素包含第二元组中的元素,因此,相应的,第三元组除包括广告标题分词信息之外,还包括:广告标签信息、广告人物信息和广告描述分词信息。

综上可知,本发明通过在第一元组包含的视频提取信息中,在原有视频标题分词信息的基础上,添加了对视频的描述进行分词得到的视频描述分词信息、视频标签信息、以及包含视频的导演和演员信息的视频人物信息,使得视频的提取信息更加详细;在第二元组包含的广告初步提取信息中,在原有广告标题分词信息的基础上,添加了广告标签信息、广告人物信息以及对广告的描述进行分词得到的广告描述分词信息,使得广告的提取信息更加详细,从而更有助于发现视频和广告的相关性。

为方便后续视频和广告的匹配,在实际应用中,可以将第三元组表示为(title_seg_list,description_seg_list,people_list,tag_list),其中,title_seg_list表示广告标题分词信息,description_seg_list表示广告描述分词信息,people_list表示广告人物信息,tag_list表示广告标签信息。

需要说明的是,将第三元组中的元素和第一元组中的元素用相同英文词组表示的目的是为了方便匹配,然而,对于同一英文词组,在第一元组和第三元组中表示的是不同的信息。

其中,上述实施例中的特征人物代言信息从属于广告人物信息,广告类别信息从属于广告标签信息。也就是说,步骤s103对广告初步提取信息进行信息深度提取,得到特征人物代言信息以及广告类别信息之后,将特征人物代言信息放入第三元组中的people_list中,将广告类别信息放入tag_list中。

当第一元组包括:视频标题分词信息、视频描述分词信息、视频人物信息和视频标签信息,第三元组包括:广告标题分词信息、广告描述分词信息、广告人物信息和广告标签信息时,图1所示步骤s104具体包括:

对第一元组中的视频标题分词信息和第三元组中的广告标题分词信息进行离线匹配,得到标题匹配结果;

对第一元组中的视频描述分词信息和第三元组中的广告描述分词信息进行离线匹配,得到描述匹配结果,

对第一元组中的视频人物信息和第三元组中的广告人物信息进行离线匹配,得到人物匹配结果;

对第一元组中的视频标签信息和第三元组中的广告标签信息进行离线匹配,得到标签匹配结果。

需要说明的是,在实际应用中,第一元组和第三元组所包含的元素并不限于上述实施例示出的元素,对于本领域技术人员而言,还可以根据实际需要添加上述示出的元素之外的元素,第一元组和第三元组所包含的元素数量具体以及实际需要而定,本发明在此不做限定。

综上可知,本发明在对广告进行召回前,考虑了视频与广告的相关性,并根据预设相关性优先级的顺序以及离线匹配结果进行召回广告的筛选,因此大大减少了召回广告的数量,减轻了点击率预估服务的负担,同时还提高了召回广告的精确度,提高了用户体验,从而解决了传统方案中海量广告召回时存在的问题。

可以理解的是,第一元组和第三元组中,不同元素的匹配结果所表征的视频和广告的相关性得分会所有区别,因此,在实际应用中,对第一元组和第三元组不同的匹配结果设置了不同的优先级。

具体的,当第一元组和第三元组的匹配结果包括:标题匹配结果、描述匹配结果、人物匹配结果和标签匹配结果时,预设相关性优先级从高到低依次为:标题匹配结果>描述匹配结果>人物匹配结果>标签匹配结果。

在实际应用中,可以对不同的匹配结果设置不同的相关性得分,如标题匹配结果对应的相关性得分为0.8,描述匹配结果对应的相关性得分为0.5,人物匹配结果对应的相关性得分为0.3,标签匹配结果对应的相关性得分为0.1,根据相关性得分可以确定匹配级别。当第一元组和第三元组某一元素不匹配时,则该元素对应的匹配结果为0。

换言之,当视频和广告的标题匹配时,标题匹配结果为0.8,反之,当视频和第三元组的标题不匹配时,标题匹配结果为0;

当视频和广告的描述匹配时,描述匹配结果为0.5,反之,当视频和广告的描述不匹配时,描述匹配结果为0;

当视频和广告的人物匹配时,人物匹配结果为0.3,反之,当视频和广告的人物不匹配时,人物匹配结果为0;

当视频和广告的标签匹配时,标签匹配结果为0.1,反之,当视频和广告的标签不匹配时,标签匹配结果为0。

基于上述论述,根据预设相关性优先级的顺序以及离线匹配结果,选取与视频相关性得分高的预设数量的目标广告的过程具体如下:

假设选取与视频相关性得分高的目标广告的预设数量为100个;

当与视频标题匹配的广告数量超过100个时,则从与视频标题匹配的广告中随机选取100个广告作为用于召回的目标广告。

当与视频标题匹配的广告数量恰巧为100个时,则将这100个广告作为用于召回的目标广告。

当与视频标题匹配的广告数量低于100个时,首先将与视频标题匹配的广告选为用于召回的目标广告;其次,从与视频描述匹配的广告中选取剩余的广告;

当与视频描述匹配的广告数量多于差值时,该差值为预设数量100和与视频标题匹配的广告数量的差值,则从与视频描述匹配的广告中随机选取差值数量的广告,当与视频描述匹配的广告数量少于差值时,则继续从与视频人物匹配的广告数量中选取目标广告,以此类推,按照优先级顺序选取目标广告,直至获取预设数量的广告。

综上可知,本发明在对广告进行召回前,考虑了视频与广告的相关性,并根据预设相关性优先级的顺序以及离线匹配结果进行召回广告的筛选,因此大大减少了召回广告的数量,减轻了点击率预估服务的负担,同时还提高了召回广告的精确度,提高了用户体验,从而解决了传统方案中海量广告召回时存在的问题。

为进一步优化上述实施例,在步骤s105获取目标广告之后,还包括步骤:

将目标广告导入数据库,以供线上点击率预估服务使用。在实际应用中,点击率预估的模型可以把本发明得到的视频和广告的相关性匹配结果作为其特征使用。

其中,数据库可以选用couchbase。

与上述方法实施例相对应,本发明还公开了一种广告召回的系统。

参见图3,本发明一实施例公开的一种广告召回的系统的结构示意图,该系统包括:

视频信息提取单元301,用于对视频进行信息提取,得到包含视频提取信息的第一元组;

本实施例中的第一元组指的是:视频提取信息的集合。

其中,所述视频为广告曝光场景的上下文视频,所述视频提取信息中至少包括:对所述视频的标题进行分词得到的视频标题分词信息。比如,视频的标题为“植物大战僵尸攻略”,对“植物大战僵尸攻略”进行分词得到的视频标题分词信息为:“植物”“大战”“僵尸”和“攻略”。

广告信息初步提取单元302,用于对广告进行信息初步提取,得到包含广告初步提取信息的第二元组;

其中,所述广告初步提取信息中至少包括:对所述广告的标题进行分词得到的广告标题分词信息。比如广告的标题为“爱奇艺会员优惠”,对“爱奇艺会员优惠”进行分词得到的广告标题分词信息为:“爱奇艺”“会员”和“优惠”。

广告信息深度提取单元303,用于对所述广告初步提取信息进行信息深度提取,得到广告特征信息,并将所述广告特征信息放入所述第二元组,得到第三元组;

具体的,当广告特征信息包括:特征人物代言信息以及广告类别信息时,广告信息深度提取单元303具体用于:

对所述广告初步提取信息进行信息深度提取,得到特征人物代言信息以及广告类别信息,并将所述特征人物代言信息和所述广告类别信息放入所述第二元组,得到第三元组,其中,当从所述广告初步提取信息中未提取到所述特征人物代言信息时,所述特征人物代言信息为空,当从所述广告初步提取信息中未提取到广告类别信息时,所述广告类别信息为空。

其中,本步骤中的特征人物代言信息可以为明星代言信息,如杨幂代言溜溜梅。或企事业老板代言信息,比如董明珠代言格力,特征人物代言信息具体依据实际需要而定,本发明在此不做限定。广告类别信息指的是广告所属的类别,如微信中的app推广类广告,其类别信息为“社交软件”。

具体的,广告信息深度提取单元303具体用于:

(1)从广告初步提取信息中识别特征人物人名,根据识别出的特征人物人名,从广告初步提取信息中获取与识别出的特征人物人名相对应的特征人物代言信息;

举例说明,假设从广告初步提取信息中识别出的特征人物人名为杨幂,根据“杨幂”这一人名,从广告初步提取信息中获取与“杨幂”相对应的特征人物代言信息,如“溜溜梅”。

(2)根据广告初步提取信息和预先建立的离线训练模型,计算得到广告的广告类别信息;

其中,离线训练模型的建立过程为:使用爬虫爬取appstore的数据,从该数据中获取app广告类别和app广告的描述信息,以app广告类别作为标签,以app广告的描述信息作为训练文本,在对训练文本分词后并采用svm(supportvectormachine,支持向量机)算法进行训练。

当需要确定一个新的app广告的广告类别信息时,只需将该app广告的描述信息输入至离线训练模型,即可计算得到该app广告的广告类别信息,其中,app广告的描述信息为广告初步提取信息中的部分信息或全部信息。

(3)将特征人物代言信息和广告类别信息放入第二元组,得到第三元组。

也就是说,第三元组中的元素由第二元组中的元素以及对广告初步提取信息深度提取得到的信息构成。

基于上述论述可知,本发明通过对广告初步提取信息进行信息深度提取来获取广告中的特征信息,以为后续选取需要召回的目标广告提供依据。

匹配单元304,用于对所述第一元组和所述第三元组中相对应的元素进行离线匹配,得到离线匹配结果,所述离线匹配结果用于表征所述视频和所述广告的相关性得分;

需要说明的是,离线匹配结果可以用一个具体数值表示,第一元组中的视频标题分词信息和第三元组中的广告标题分词信息为相对应的元素,当视频标题分词信息和广告标题分词信息中均包含“杨幂”时,表明这两个元素匹配,得到的离线匹配结果为0.8,也即,视频和广告基于标题分词信息的相关性得分为0.8;反之,当视频标题分词信息和广告标题分词信息中不存在匹配的信息时,表示这两个元素不匹配,这时,得到的离线匹配结果为0,也即,视频和广告基于标题分词信息的相关性得分为0。

目标广告选取单元305,用于根据预设相关性优先级的顺序以及所述离线匹配结果,选取与所述视频相关性得分高的预设数量的广告作为所述视频的广告匹配结果,并将所述广告匹配结果中的广告作为目标广告进行召回。

综上可知,本发明在对广告进行召回前,考虑了视频与广告的相关性,并根据预设相关性优先级的顺序以及离线匹配结果进行召回广告的筛选,因此大大减少了召回广告的数量,减轻了点击率预估服务的负担,同时还提高了召回广告的精确度,提高了用户体验,从而解决了传统方案中海量广告召回时存在的问题。

基于上述实施例可知,本发明通过将视频提取信息与广告提取信息进行匹配,来确定该视频和广告的相关性,可以理解的是,对于视频和广告而言,提取的信息越详细,越有助于发现视频和广告的相关性。

因此,为进一步优化上述实施例,第一元组包含的视频提取信息除了包括:视频标题分词信息之外,还可以包括:对视频的描述进行分词得到的视频描述分词信息、视频标签信息、以及包含视频的导演和演员信息的视频人物信息。

为方便后续视频和广告的匹配,在实际应用中,可以将第一元组表示为(title_seg_list,description_seg_list,people_list,tag_list),其中,title_seg_list表示视频标题分词信息,description_seg_list表示视频描述分词信息,people_list表示视频人物信息,tag_list表示视频标签信息。

为进一步优化上述实施例,第二元组包含的广告初步提取信息除了包括:广告标题分词信息之外,还可以包括:广告标签信息、广告人物信息以及对广告的描述进行分词得到的广告描述分词信息。

由于第三元组中的元素包含第二元组中的元素,因此,相应的,第三元组除包括广告标题分词信息之外,还包括:广告标签信息、广告人物信息和广告描述分词信息。

综上可知,本发明通过在第一元组包含的视频提取信息中,在原有视频标题分词信息的基础上,添加了对视频的描述进行分词得到的视频描述分词信息、视频标签信息、以及包含视频的导演和演员信息的视频人物信息,使得视频的提取信息更加详细;在第二元组包含的广告初步提取信息中,在原有广告标题分词信息的基础上,添加了广告标签信息、广告人物信息以及对广告的描述进行分词得到的广告描述分词信息,使得广告的提取信息更加详细,从而更有助于发现视频和广告的相关性。

为方便后续视频和广告的匹配,在实际应用中,可以将第三元组表示为(title_seg_list,description_seg_list,people_list,tag_list),其中,title_seg_list表示广告标题分词信息,description_seg_list表示广告描述分词信息,people_list表示广告人物信息,tag_list表示广告标签信息。

需要说明的是,将第三元组中的元素和第一元组中的元素用相同英文词组表示的目的是为了方便匹配,然而,对于同一英文词组,在第一元组和第三元组中表示的是不同的信息。

其中,上述实施例中的特征人物代言信息从属于广告人物信息,广告类别信息从属于广告标签信息。也就是说,步骤s103对广告初步提取信息进行信息深度提取,得到特征人物代言信息以及广告类别信息之后,将特征人物代言信息放入第三元组中的people_list中,将广告类别信息放入tag_list中。

综上可知,本发明在对广告进行召回前,考虑了视频与广告的相关性,并根据预设相关性优先级的顺序以及离线匹配结果进行召回广告的筛选,因此大大减少了召回广告的数量,减轻了点击率预估服务的负担,同时还提高了召回广告的精确度,提高了用户体验,从而解决了传统方案中海量广告召回时存在的问题。

当第一元组包括:视频标题分词信息、视频描述分词信息、视频人物信息和视频标签信息,第三元组包括:广告标题分词信息、广告描述分词信息、广告人物信息和广告标签信息时,

匹配单元304具体用于:

对所述第一元组中的所述视频标题分词信息和所述第三元组中的所述广告标题分词信息进行离线匹配,得到标题匹配结果;

对所述第一元组中的所述视频描述分词信息和所述第三元组中的所述广告描述分词信息进行离线匹配,得到描述匹配结果,

对所述第一元组中的所述视频人物信息和所述第三元组中的所述广告人物信息进行离线匹配,得到人物匹配结果;

对所述第一元组中的所述视频标签信息和所述第三元组中的所述广告标签信息进行离线匹配,得到标签匹配结果。

需要说明的是,在实际应用中,第一元组和第三元组所包含的元素并不限于上述实施例示出的元素,对于本领域技术人员而言,还可以根据实际需要添加上述示出的元素之外的元素,第一元组和第三元组所包含的元素数量具体以及实际需要而定,本发明在此不做限定。

可以理解的是,第一元组和第三元组中,不同元素的匹配结果所表征的视频和广告的相关性得分会所有区别,因此,在实际应用中,对第一元组和第三元组不同的匹配结果设置了不同的优先级。

具体的,当第一元组和第三元组的匹配结果包括:标题匹配结果、描述匹配结果、人物匹配结果和标签匹配结果时,预设相关性优先级从高到低依次为:标题匹配结果>描述匹配结果>人物匹配结果>标签匹配结果。

在实际应用中,可以对不同的匹配结果设置不同的相关性得分,如标题匹配结果对应的相关性得分为0.8,描述匹配结果对应的相关性得分为0.5,人物匹配结果对应的相关性得分为0.3,标签匹配结果对应的相关性得分为0.1,根据相关性得分可以确定匹配级别。当第一元组和第三元组某一元素不匹配时,则该元素对应的匹配结果为0。

换言之,当视频和广告的标题匹配时,标题匹配结果为0.8,反之,当视频和第三元组的标题不匹配时,标题匹配结果为0;

当视频和广告的描述匹配时,描述匹配结果为0.5,反之,当视频和广告的描述不匹配时,描述匹配结果为0;

当视频和广告的人物匹配时,人物匹配结果为0.3,反之,当视频和广告的人物不匹配时,人物匹配结果为0;

当视频和广告的标签匹配时,标签匹配结果为0.1,反之,当视频和广告的标签不匹配时,标签匹配结果为0。

综上可知,本发明在对广告进行召回前,考虑了视频与广告的相关性,并根据预设相关性优先级的顺序以及离线匹配结果进行召回广告的筛选,因此大大减少了召回广告的数量,减轻了点击率预估服务的负担,同时还提高了召回广告的精确度,提高了用户体验,从而解决了传统方案中海量广告召回时存在的问题。

为进一步优化上述实施例,广告召回的还可以包括:

导入单元,用于将所述目标广告导入数据库,以供线上点击率预估服务使用。在实际应用中,点击率预估的模型可以把本发明得到的视频和广告的相关性匹配结果作为其特征使用。

需要说明的是,系统实施例中各组成部分的具体工作原理,请参见方法实施例对应部分,此处不再赘述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1