本发明涉及互联网应用技术领域,特别是一种用于网络论坛的广告投放方法及装置。
背景技术:
随着互联网个性化时代的到来,广告投放亦出现根据用户属性精准投放的趋势。
在精准投放方面,现有技术只能做到根据投放请求关键词和广告关键词的匹配,无法实现真正的语义相关,也就无法实现更加准确、丰富、对用户有联想能力的精准投放。比如:投放请求关键词为:“科幻”时,传统方法只能找到具有“科幻”的关键词广告,不能实现关键词关联。如果通过人工关联关键词方法,比如关联“科幻”和“玄幻”,能一定程度实现模糊匹配,但是人工关联词库中的词汇有限,且无法准确判断两个词的语义相关度,进而不能准确关联到匹配度高的词汇,也就无法实现精准的广告投放。
广告投放的另一个关键在于获得用户关键词,用户关键词往往与用户信息关系紧密,如对不同性别、处于不同年龄阶段的用户针对性投放其感兴趣的广告。一般来说,电商网站的用户信息往往比较真实,如地址、交易信息等,但对于论坛网站(例如天涯社区)这类虚拟社区,因本身不存在真实的交易,用户在虚拟社区中使用的身份信息与其真实信息往往存在较大差异,因此难以获得贴近真实的用户关键词,进而无法对这些用户进行精准的广告投放。
技术实现要素:
为了克服现有技术的缺陷,本发明提供一种用于网络论坛的广告投放方法及装置,为实现精准投放广告的目的,本发明结合论坛这类虚拟社区的特点做了两方面的改进,一方面,计算用户关键词与广告关键词的相似度,并进行相似度排序,选择相似度最高的广告进行投放,另一方面,通过修正用户的注册数据推测用户性别、年龄段,以及分析用户访问轨迹生成用户兴趣标签,从而获得贴近真实的用户关键词。
本发明采用技术方案如下:
一种用于网络论坛的广告投放方法,包括:
获取用户的关键词和在排期内的每个广告的关键词,所述用户的关键词包括至少一个用户关键词,所述广告的关键词包括至少一个广告关键词;
在词-向量库中查找用户关键词和广告关键词对应的向量;
根据用户关键词和广告关键词对应的向量,计算每个用户关键词与每个广告关键词的余弦相似度,累加用户的所有用户关键词与同一广告的所有广告关键词的余弦相似度,将累加结果作为用户和该广告的匹配度;
选取与用户匹配度最高的广告向用户投放。
优选地,所述获取用户的关键词具体为:从所述用户画像库中提取用户的关键词;
在获取用户的关键词和在排期内的每个广告的关键词之前还包括:
根据用户信息及用户访问过的帖子获得用户的性别、年龄段和兴趣标签,将所述性别、年龄段和兴趣标签作为用户的关键词;
将所述用户信息及用户的关键词进行对应存储,形成用户画像库。
具体地,所述根据用户信息及用户访问过的帖子获得用户的性别和年龄段包括:
收集论坛中已确认性别、年龄段的用户的用户信息及其访问过的所有帖子,分析所有所述帖子的主题分布,生成多个大类主题;
根据所述用户信息及其访问过的帖子所属大类主题,建立性别、年龄段和对应大类主题的标签训练数据,使用神经网络算法训练获得帖子主题对应的性别和年龄段的概率模型;
收集需要修正性别和年龄段的用户访问过的所有帖子,提取每个帖子的关键词,计算所述关键词与所述大类主题的相似度,选取相似度最高的大类主题作为用户最关心的主题,
将用户最关心的主题输入所述概率模型,推测得到用户的性别和年龄段。
具体地,所述根据用户信息及用户访问过的帖子获得用户的兴趣标签包括:
根据论坛中所有帖子的主题,创建多个兴趣主题;
提取用户历史访问的每个帖子的关键词,
计算所述关键词与所述兴趣主题的相似度,确定帖子所属兴趣主题,并将确定的所述兴趣主题的关键词作为用户的兴趣标签。
进一步地,在获取用户的关键词和在排期内的每个广告的关键词之前还包括:
对论坛帖子中的文本执行分词处理,得到文本的单词;
对所述文本的单词执行向量化处理,得到每个单词的向量;
将所述单词和向量对应存储,形成词-向量库。
相应地,本发明还提供了一种用于网络论坛的广告投放装置,包括:
获取模块,用于获取用户的关键词和在排期内的每个广告的关键词,所述用户的关键词包括至少一个用户关键词,所述广告的关键词包括至少一个广告关键词;
查找模块,用于在词-向量模块中查找用户关键词和广告关键词对应的向量;
关键词匹配模块,用于根据用户关键词和广告关键词对应的向量,计算每个用户关键词与每个广告关键词的余弦相似度,累加用户的所有用户关键词与同一广告的所有广告关键词的余弦相似度,将累加结果作为用户和该广告的匹配度;
执行模块,用于选取与用户匹配度最高的广告向用户投放。
进一步地,所述装置还包括:
第一处理模块,用于根据用户信息及用户访问过的帖子获得用户的性别、年龄段和兴趣标签,将所述性别、年龄段和兴趣标签作为用户的关键词;
用户画像模块,用于存储用户信息及与用户信息对应的用户的关键词。
具体地,所述第一处理模块包括:
第一预处理单元,用于收集网络论坛中已确认性别、年龄段的用户的用户信息及其访问过的所有帖子,分析所有所述帖子的主题分布,生成多个大类主题;
模型生成单元,用于根据所述用户信息及其访问过的帖子所属大类主题,建立性别、年龄段和对应大类主题的标签训练数据,使用神经网络算法训练获得帖子主题对应的性别、年龄段的概率模型;
第二预处理单元,用于收集需要修正性别、年龄的用户访问过的所有帖子,提取每个帖子的关键词,计算所述关键词与所述大类主题的相似度,选取相似度最高的大类主题作为用户最关心的主题,
第一确定单元,用于将用户最关心的主题输入所述概率模型,推测得到用户的性别和年龄段。
具体地,所述第一处理模块还包括:
第三预处理单元,用于根据论坛中所有帖子的主题,创建多个兴趣主题;
提取单元,用于提取用户历史访问的每个帖子的关键词;
第二确定单元,用于计算所述关键词与所述兴趣主题的相似度,确定帖子所属兴趣主题,并将确定的所述兴趣主题的关键词作为用户的兴趣标签。
进一步地,所述装置还包括:
第二处理模块,用于对论坛帖子中的文本执行分词处理,得到文本的单词;
对所述文本的单词执行向量化处理,得到每个单词的向量;
所述词-向量模块,用于存储单词及与所述单词对应的向量。
本发明的有益效果是:
(1)本发明通过计算用户关键词与广告关键词的相似度,并进行相似度排序,选择相似度最高的广告进行投放。采用本发明能够找到具有语义相关的匹配词,实现针对不同用户的广告精准投放。
(2)通过修正用户的注册数据推测用户性别、年龄段,以及分析用户访问轨迹生成用户兴趣标签,从而获得贴近真实的用户关键词,提升了用户画像的准确度。
(3)传统的生成兴趣标签方法,基本都是定义一些兴趣判别公式,然后计算满足公式的程度来判断兴趣,本发明采用模糊兴趣方式,采取多个关键词共同描绘一个兴趣主题,并使用统一方法,避免了每次都要针对不同兴趣标签定义不同公式,编程不同逻辑的麻烦,并且能更加准确、饱满的描绘用户兴趣。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例一的用于网络论坛的广告投放方法的流程图;
图2是本发明实施例一的构建用户画像库的方法的流程图;
图3是本发明实施例一的获得用户的性别和年龄段的方法的流程图:
图4是本发明实施例一的获得用户的兴趣标签的方法的流程图:
图5是本发明实施例一的构建词-向量库的方法的流程图;
图6是本发明的实施例二的用于网络论坛的广告投放方法的结构框图;
图7是本发明的实施例二的用于网络论坛的广告投放方法中第一处理模块的结构框图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例一:
请参见图1,图1是本发明的用于网络论坛的广告投放方法的流程图。所述用于网络论坛的广告投放方法包括如下步骤:
S101、获取用户的关键词和在排期内的每个广告的关键词,所述用户的关键词包括至少一个用户关键词,所述广告的关键词包括至少一个广告关键词;
S102、在词-向量库中查找用户关键词和广告关键词对应的向量;
S103、根据用户关键词和广告关键词对应的向量,计算每个用户关键词与每个广告关键词的余弦相似度,累加用户的所有用户关键词与同一广告的所有广告关键词的余弦相似度,将累加结果作为用户和该广告的匹配度;
S104、选取与用户匹配度最高的广告向用户投放。
下面就实施上述步骤S101-S104举例说明,其中,用户的用户关键词为:男性、青年、科技,广告A的关键词为:汽车、特斯拉,广告B的关键词为:水果、芒果。首先从“词-向量库”查找到这些关键词的向量,并两两计算余弦相似度,累加用户和某个广告的关键词相似度,如累加男性-汽车、男性-特斯拉、青年-汽车、青年-特斯拉、科技-汽车、科技-特斯拉的相似度,此累加结果作为用户和广告A的匹配度,累加男性-水果、男性-芒果、青年-水果、青年-芒果、科技-水果、科技-芒果的相似度,此累加结果作为用户和广告B的匹配度,如用户和广告A的匹配度高于用户和广告B的匹配度,则向用户投放匹配度更高的广告A。
进一步地,所述获取用户的关键词具体为:从所述用户画像库中提取用户的关键词;
参见图2,在获取用户的关键词和在排期内的每个广告的关键词之前还包括:
S201、根据用户信息及用户访问过的帖子获得用户的性别、年龄段和兴趣标签,将所述性别、年龄段和兴趣标签作为用户的关键词;
S202、将所述用户信息及用户的关键词进行对应存储,形成用户画像库。
参见图3,所述根据用户信息及用户访问过的帖子获得用户的性别和年龄段包括:
S301、收集论坛中已确认性别、年龄段的用户的用户信息及其访问过的所有帖子,分析所有所述帖子的主题分布,生成多个大类主题;
S302、根据所述用户信息及其访问过的帖子所属大类主题,建立性别、年龄段和对应大类主题的标签训练数据,使用神经网络算法训练获得帖子主题对应的性别和年龄段的概率模型;
S303、收集需要修正性别和年龄段的用户访问过的所有帖子,提取每个帖子的关键词,计算所述关键词与所述大类主题的相似度,选取相似度最高的大类主题作为用户最关心的主题,
S304、将用户最关心的主题输入所述概率模型,推测得到用户的性别和年龄段。
很多虚拟社区的用户注册资料是不准确的,比如性别、年龄,本实施例以天涯社区为例,对上述步骤S301-S304进行详细说明,采用分析用户在天涯社区的行为轨迹来修正性别、年龄段(由于修正具体年龄较为困难,但修正年龄段较为容易,且通过年龄段即可实现广告的精准投放,因此,修正年龄段即可)。具体步骤为:
1)先收集天涯社区中已确认性别、年龄段的用户及其所有访问过的帖子,使用LDA算法分析所有这些帖子的主题分布,生成20个主题,提取每个主题的关键词。
2)由1)可以建立性别、年龄段和对应主题的标签训练数据,使用神经网络算法训练获得帖子主题对应的性别、年龄段的概率模型。
3)收集需要修正性别、年龄段的用户所有访问的帖子,使用TF-IDF算法提取每个帖子的关键词,计算这些关键词和上述生成的20个主题的相似度,选取相似度最高的主题作为该用户最为关心的主题。
4)将用户最关心的主题输入神经网络概率模型,推测用户性别、所属年龄段。
参见图4,所述根据用户信息及用户访问过的帖子获得用户的兴趣标签包括:
S401、根据论坛中所有帖子的主题,创建多个兴趣主题;
S402、提取用户历史访问的每个帖子的关键词,
S403、计算所述关键词与所述兴趣主题的相似度,确定帖子所属兴趣主题,并将确定的所述兴趣主题的关键词作为用户的兴趣标签。
现以天涯社区为例,对上述步骤S401-S403进行说明。
(一)使用LDA(Latent Dirichlet Allocation,是一种文档主题生成模型,也称为一个三层贝叶斯概率模型)计算所有天涯论坛中的帖子,生成100个兴趣主题;
(二)使用TF-ID(Fterm frequency–inverse document frequency,是一种用于信息检索与数据挖掘的常用加权技术)计算每个帖子的关键词,通过关键词和100个主题的相似度计算每个帖子的主题;
(三)根据用户历史访问帖子的主题分布,计算用户最感兴趣的主题,使用用户最感兴趣的主题的关键词作为用户的兴趣标签。
进一步地,参见图5,在获取用户的关键词和在排期内的每个广告的关键词之前还包括:
S501、对论坛帖子中的文本执行分词处理,得到文本的单词;
S502、对所述文本的单词执行向量化处理,得到每个单词的向量;
S503、将所述单词和向量对应存储,形成词-向量库。
以天涯社区为例,实施步骤S501-S503具体包括:使用IKAnalyzer(IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包)对所有天涯帖子进行中文分词,分好词的语料使用word2vec(word to vector,是一个将单词转换成向量形式的工具)进行训练,获得每个词的100维向量表示,比如“科幻”表示为:(1.234,0.5434,0.56546……),将所述词和向量对应存储,形成词-向量库。该训练好的“词-向量库”供查找用户关键词和广告关键词对应的向量,可重复使用不必重新训练。
实施例二:
参考图6和图7,为实现上述实施例一所示的方法,本发明提供了一种用于网络论坛的广告投放装置的实施例,该装置与1-5所示的方法实施例相对应。
如图6所示,本实施例的用于网络论坛的广告投放装置包括:
获取模块100,用于获取用户的关键词和在排期内的每个广告的关键词,所述用户的关键词包括至少一个用户关键词,所述广告的关键词包括至少一个广告关键词;
查找模块200,用于在词-向量模块中查找用户关键词和广告关键词对应的向量;
关键词匹配模块300,用于根据用户关键词和广告关键词对应的向量,计算每个用户关键词与每个广告关键词的余弦相似度,累加用户的所有用户关键词与同一广告的所有广告关键词的余弦相似度,将累加结果作为用户和该广告的匹配度;
执行模块400,用于选取与用户匹配度最高的广告向用户投放。
进一步地,所述装置还包括:
第一处理模块500,用于根据用户信息及用户访问过的帖子获得用户的性别、年龄段和兴趣标签,将所述性别、年龄段和兴趣标签作为用户的关键词;
用户画像模块,用于存储用户信息及与用户信息对应的用户的关键词。
具体地,参见图7,所述第一处理模块包括:
第一预处理单元501,用于收集论坛中已确认性别、年龄段的用户的用户信息及其访问过的所有帖子,分析所有所述帖子的主题分布,生成多个大类主题;
模型生成单元502,用于根据所述用户信息及其访问过的帖子所属大类主题,建立性别、年龄段和对应大类主题的标签训练数据,使用神经网络算法训练获得帖子主题对应的性别、年龄段的概率模型;
第二预处理单元503,用于收集需要修正性别、年龄的用户访问过的所有帖子,提取每个帖子的关键词,计算所述关键词与所述大类主题的相似度,选取相似度最高的大类主题作为用户最关心的主题,
第一确定单元504,用于将用户最关心的主题输入所述概率模型,推测得到用户的性别和年龄段。
具体地,所述第一处理模块还包括:
第三预处理单元505,用于根据论坛中所有帖子的主题,创建多个兴趣主题;
提取单元,用于提取用户历史访问的每个帖子的关键词;
第二确定单元506,用于计算所述关键词与所述兴趣主题的相似度,确定帖子所属兴趣主题,并将确定的所述兴趣主题的关键词作为用户的兴趣标签。
更进一步地,所述装置还包括:
第二处理模块,用于对论坛帖子中的文本执行分词处理,得到文本的单词;
对所述文本的单词执行向量化处理,得到每个单词的向量;
所述词-向量模块,用于存储单词及与所述单词对应的向量。
本发明的有益效果是:
本发明通过计算用户关键词与广告关键词的相似度,并进行相似度排序,选择相似度最高的广告进行投放。采用本发明能够找到具有语义相关的匹配词,实现针对不同用户的广告精准投放。实践证明,实施本发明方案,相对原有精准投放系统平均提升了6%的广告点击率,利于提升公司的广告营收。
通过修正用户的注册数据推测用户性别、年龄段,以及分析用户访问轨迹生成用户兴趣标签,从而获得贴近真实的用户关键词,提升了用户画像的准确度。此外,传统的生成兴趣标签方法,基本都是定义一些兴趣判别公式,然后计算满足公式的程度来判断兴趣,本发明采用模糊兴趣方式,采取多个关键词共同描绘一个兴趣主题,并使用统一方法,避免了每次都要针对不同兴趣标签定义不同公式,编程不同逻辑的麻烦,并且能更加准确、饱满的描绘用户兴趣。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。