基于用户浏览习惯数据分析的广告投放方法与流程

文档序号：33000855发布日期：2023-01-18 01:11阅读：69来源：国知局

1.本发明涉及行销数据处理技术领域，具体涉及一种基于用户浏览习惯数据分析的广告投放方法。

背景技术：

2.处理用户数据所产生价值的方法由来已久，只是传统的数据以结构化数据为主，伴随网络技术的发展，互联网上每天都会产生以zb计算的非结构化数据，这些数据不断地影响着用户在互联网上的体验，也成为了广告营销技术的突破口。
3.用户浏览是非结构、稀疏的，目前的广告系统主要基于用户分类后推荐相似类型产品，这种被动响应式投放广告的技术容易将用户所看到的信息局限起来。目前为了减少此类影响，广告投放系统会随机性加入一些热度较高的广告来丰富用户所见的内容，但会带来持续的不良体验，甚至一些与用户无关的广告还会成为冒犯用户的源头。

技术实现要素：

4.为了解决上述技术问题，本发明的目的在于提供一种基于用户浏览习惯数据分析的广告投放方法，所采用的技术方案具体如下：本发明提出了一种基于用户浏览习惯数据分析的广告投放方法，所述方法包括：获得历史数据库中每个用户在每个商品上的视觉停留时间；所述商品包括浏览页商品和检索页商品；根据每个用户的浏览记录构建浏览页商品tf-idf集合和检索页商品tf-idf集合；根据浏览页商品tf-idf集合元素和检索页商品tf-idf集合元素之间的差异距离获得每个商品的交叉热度；根据交叉热度对商品进行筛选，获得热词商品，以热词商品的平均tf-idf作为对应用户的热词延伸特征基准；获得每个用户的商品视觉停留时间直方图；根据候选商品广告集合中每个候选商品的tf-idf与热词延伸特征基准差异获得第一代价；根据候选商品广告集合中每个候选商品与其他候选商品之间的tf-idf差异获得第二代价；第一代价与第二代价的和作为每个候选商品的候选代价；判断目标用户的候选商品广告集合与其他用户的浏览记录集合之间是否存在交集，若存在交集，则根据商品视觉停留时间直方图相似度、热词延伸特征基准相似度和交集中的最大候选代价获得目标用户和其他用户之间的匹配距离，根据匹配距离获得与目标用户的匹配用户；将匹配用户与目标用户的交集中最大候选代价对应的候选商品的广告投放至目标用户。
5.进一步地，所述获得历史数据库中每个用户在每个商品上的视觉停留时间包括：获得用户浏览一个商品检索页的检索页视觉停留时间，检索页上所有检索页商品的视觉停留时间均等于对应检索页的检索页视觉停留时间；获得用户浏览一个商品详情页的浏览页视觉停留时间，以浏览页视觉停留时间作为对应浏览页商品的视觉停留时间。
6.进一步地，所述根据浏览页商品tf-idf集合元素和检索页商品tf-idf集合元素之间的差异距离获得每个商品的交叉热度包括：获得每个商品在非所属tf-idf集合中的第一近邻样本集合；根据交叉热度公式获得每个商品的交叉热度，交叉热度公式包括：其中，为第个商品的交叉热度，为第个商品对应的第一近邻样本集合中的样本数量，为第个商品对应的tf-idf，为第一近邻样本集合中第个tf-idf，为余弦相似度求取函数。
7.进一步地，所述根据交叉热度对商品进行筛选，获得热词商品包括：根据商品之间的交叉热度差异和tf-idf差异获得差异距离，根据差异距离利用gmm算法对商品进行分组，获得至少两个商品类别；根据每个商品类别中的交叉热度对商品类别进行排序，选择前预设数量个商品类别作为热词类别，以热词类别中的商品作为热词商品。
8.进一步地，所述根据商品之间的交叉热度差异和tf-idf差异获得差异距离包括：以商品之间tf-idf的余弦距离作为tf-idf差异；以商品之间的交叉热度差值的绝对值作为交叉热度差异；以交叉热度差异和tf-idf差异的乘积作为商品之间的差异距离。
9.进一步地，所述根据候选商品广告集合中每个候选商品的tf-idf与热词延伸特征基准差异获得第一代价包括：以候选商品广告集合中每个候选商品的tf-idf与热词延伸特征基准的马氏距离作为第一代价。
10.进一步地，所述根据候选商品广告集合中每个候选商品与其他候选商品之间的tf-idf差异获得第二代价包括：获得候选商品广告集合中每个候选商品的第二近邻集合，获得每个候选商品与对应的第二近邻集合中样本的最大tf-idf差异；以候选商品广告集合中所有最大tf-idf差异中的中位数作为基础数据，获得候选商品广告集合中每个候选商品的最大tf-idf差异与基础数据的比值；将比值小于一的候选商品的第二代价置为一；将比值大于一的候选商品的第二代价置为对应的比值大小。
11.进一步地，所述匹配距离的获取方法包括：根据匹配距离公式获得匹配距离，匹配距离公式包括：其中，为用户和用户之间的匹配距离，为用户的商品视觉停留时间直方图，为用户的商品视觉停留时间直方图，为和之间的相似度，为
用户的热词延伸特征基准，为用户的热词延伸特征基准，为用户和用户之间交集中的最大候选代价，为余弦距离获取函数。
12.本发明具有如下有益效果：1.本发明实施例根据用户浏览数据的历史数据库获得每个用户浏览商品的tf-idf信息和视觉停留时间，根据商品停留时间直方图表征用户浏览过程中的视觉停留时间分布特征，根据热词延伸特征基准表征每个用户的浏览语义特征。进一步结合候选商品广告集合中每个候选商品的候选代价和用户之间的匹配关系对目标用户进行广告推荐，其中推荐过程考虑了用户的浏览检索代价和匹配用户的浏览习惯，能够为用户提供吸引力较大且能够代表一类用户群体的广告投放组合，不仅能够提高用户的体验和广告投放命中率，还能够动态引导用户看到更多更新奇的产品，避免了信息局限性的同时迎合了用户的浏览习惯。
13.2.本发明实施例根据用户的浏览类型将浏览过的商品分为浏览页商品和检索页商品，根据两种不同类型商品的tf-idf集合中元素的差异获得交叉热度，使得后续的热词延伸特征基准更贴切用户的浏览习惯，增加了热词延伸特征基准的参考性。
附图说明
14.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。
15.图1为本发明一个实施例所提供的一种基于用户浏览习惯数据分析的广告投放方法流程图。
具体实施方式
16.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于用户浏览习惯数据分析的广告投放方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
17.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
18.下面结合附图具体的说明本发明所提供的一种基于用户浏览习惯数据分析的广告投放方法的具体方案。
19.请参阅图1，其示出了本发明一个实施例提供的一种基于用户浏览习惯数据分析的广告投放方法流程图，该方法包括：步骤s1：获得历史数据库中每个用户在每个商品上的视觉停留时间；所述商品包括浏览页商品和检索页商品；根据每个用户的浏览记录构建浏览页商品tf-idf集合和检索页商品tf-idf集合。
20.用户在购物网站上进行商品浏览时，网站后台可根据用户的检索内容、浏览时长等多种信息构建每个用户的历史数据库，即历史数据库中的数据包含了用户的浏览习惯特征。进一步考虑到用户的浏览行为和检索行为虽然是伴随关系，但是两者在用户的目的上所体现的特征不同，用户可基于检索开启一段时间的浏览，而浏览也会导致用户修改检索关键词，因此将用户历史数据库中的商品分为浏览页商品和检索页商品。其中浏览页商品具体为用户浏览了商品详情页的商品；检索页商品具体为用户仅在检索页上浏览到的商品，其包含的商品信息较少，且一张检索页包含可包含多种商品。
21.对于用户的浏览过程中，浏览时间反应了用户对于商品的关注程度，即用户对一个商品的浏览时间越长，说明用户对该商品的关注度更高。并且用户对商品的浏览时间也能表征用户的购物习惯，即浏览时间越长越说明用户对于商品的挑选越仔细。因此在历史数据库中对历史数据进行统计，获得历史数据库中每个用户在每个商品上的视觉停留时间，具体包括：获得用户浏览一个商品检索页的检索页视觉停留时间，检索页上所有检索页商品的视觉停留时间均等于对应检索页的检索页视觉停留时间。获得用户浏览一个商品详情页的浏览页视觉停留时间，以浏览页视觉停留时间作为对应浏览页商品的视觉停留时间。需要说明的是，对于浏览页商品而言，浏览页商品的详情页中停留时间与该详情页的总交互时间相关，即详情页滑动所代表的时间综合，在实施过程中，实施者可再每次详情页滑动后延迟若干秒从而更准确地代表浏览页商品的视觉停留时间，具体延迟时间可根据实际情况具体设置，在此不做限定。
22.需要说明的是，为了便于后续的直方图统计，在本发明实施例中对所有视觉停留时间进行极差标准化，即将视觉停留时间进行归一化。对于较长的视觉停留时间，其接近于1；对于较短的视觉停留时间，说明用户不关注此类商品，其接近于0。
23.由于浏览和检索的行为不同，为了发现潜在的特征，需要统计历史数据库中每种商品的词集特征，对历史数据库进行词集统计后会获得所有商品中的标题、介绍文本等所有内容词的词频。
24.tf-idf是一种统计方法，用以评估一字词对于一个文件集或者一个语料库中的其中一份文件的重要程度，通过统计词频（tf）和逆文本频率指数（idf）获得一个词条的语义信息。通过分析历史数据库可获得每个商品中不同关键词的词频信息，即每个商品的tf-idf为一个包含多种元素的向量。可根据历史数据库中每个用户的浏览记录构建浏览页商品tf-idf集合和检索页商品tf-idf集合。需要说明的是，tf-idf为本领域技术人员熟知的技术手段，具体算法过程不再赘述。
25.步骤s2：根据浏览页商品tf-idf集合元素和检索页商品tf-idf集合元素之间的差异距离获得每个商品的交叉热度；根据交叉热度对商品进行筛选，获得热词商品，以热词商品的平均tf-idf作为对应用户的热词延伸特征基准；获得每个用户的商品视觉停留时间直方图。
26.根据用户的浏览实际情况可知，对于一个浏览页商品，其应当是先出现在检索页上，再通过用户的点击进入详情页，因此浏览页商品和检索页商品存在交叉特征。对于一个浏览页商品而言，其在检索页商品集合中对应的相似商品越多，说明该浏览页商品热度越高；检索页商品同理。因此根据浏览页商品tf-idf集合元素和检索页商品tf-idf集合元素
之间的差异距离获得每个商品的交叉热度，交叉热度反映了用户在浏览商品过程中对某个商品的关注程度，交叉热度越大，说明用户的检索次数或者浏览次数越多。具体交叉热度获取方法包括：获得每个商品在非所属tf-idf集合中的第一近邻样本集合。对于目标浏览页商品而言，其第一近邻样本集合是目标浏览页商品在对应的检索页商品tf-idf集合中，根据tf-idf的相似度进行挑选的，即第一近邻样本集合中的所有样本均为检索页商品的tf-idf，且为距离目标浏览页商品的tf-idf相似度最大的多个样本；对于检索页商品同理。需要说明的是，第一近邻样本集合中的样本数量可根据具体实施场景进行具体设置，在此不做限定。
27.根据交叉热度公式获得每个商品的交叉热度，交叉热度公式包括：其中，为第个商品的交叉热度，为第个商品对应的第一近邻样本集合中的样本数量，为第个商品对应的tf-idf，为交集集合中第个tf-idf，为余弦相似度求取函数。
28.在交叉热度公式中，表示余弦距离，其中分母中1的作用是为了防止分母为0，即整个公式为一个商品的平均余弦距离倒数，平均距离越大，说明对应的商品越冷门，交叉热度越小。
29.交叉热度越大，说明用户越关注对应商品，因此可根据交叉热度对商品进行筛选，获得热词商品，其中热词商品的tf-idf信息反映的语义信息表示了用户较为关注的语义信息，因此以热词商品的平均tf-idf作为对应用户的热词延伸特征基准。热词延伸特征基准表征了用户对于商品关键词的关注信息。需要说明的是，因为tf-idf为一个向量，因此在计算平均时，应针对所有特征的各个维度的数据构建平均基准，获得热词延伸特征基准。
30.其中，具体根据交叉热度对商品进行筛选，获得热词商品包括：根据商品之间的交叉热度差异和tf-idf差异获得差异距离，根据差异距离利用gmm算法对商品进行分组，获得至少两个商品类别。根据每个商品类别中的交叉热度对商品类别进行排序，选择前预设数量个商品类别作为热词类别，以热词类别中的商品作为热词商品。具体根据商品之间的交叉热度差异和tf-idf差异获得差异距离包括：以商品之间tf-idf的余弦距离作为tf-idf差异；以商品之间的交叉热度差值的绝对值作为交叉热度差异；以交叉热度差异和tf-idf差异的乘积作为商品之间的差异距离。即差异距离的表达式为：，其中，为商品a与商品b之间的差异距离，为商品a的交叉热度，为商品b的交叉热度，为商品a的tf-idf，为商品b的tf-idf，为余弦相似度获取函数。其中计算商品之间tf-idf的余弦距离的作用为对交叉热度差异进行约束，若商品之间语义相似度本身较小，而交叉热度差异较小，可能是因为用户浏览和搜索的交集较小导致
的，因此通过约束可以修正仅靠交叉热度差异来区分商品的误差，从而进一步区分出不同的商品类别。
31.需要说明的是，gmm算法为本领域技术人员熟知的一种分类算法，具体算法步骤不再赘述。并且算法执行后所获得的商品类别数量可根据具体实施场景进行具体设置，在本发明实施例中不做限定。在本发明实施例中，预设数量设置为商品类别数量的一半，可根据商品类别中的所有样本的平均交叉热度对商品类别进行排序，进而选择出热词类别。
32.进一步获得每个月用户的商品视觉停留时间直方图，根据步骤s1中对视觉停留时间的表述可知，商品视觉停留时间直方图反映出的视觉停留时间分布特征能够表示用户的浏览习惯和浏览风格。在本发明实施例中，将视觉停留时间分为10个等级，即商品视觉停留时间直方图中存在10个柱状体，横坐标为视觉停留时间等级，纵坐标为对应的出现频次。
33.步骤s3：根据候选商品广告集合中每个候选商品的tf-idf与热词延伸特征基准差异获得第一代价；根据候选商品广告集合中每个候选商品与其他候选商品之间的tf-idf差异获得第二代价；第一代价与第二代价的和作为每个候选商品的候选代价。
34.候选商品广告集合中每个候选商品的候选代价反应了候选商品与用户常浏览商品的差距，从互联网营销的实践可知，在购物网站的首页中应当存在一些用户难以见到、不常浏览的产品，进而吸引用户持续在该平台上对商品继续浏览。因此候选代价越大，意味着用户在保持现有的浏览习惯下，难以看到候选商品广告集合中的对应候选商品，在后续推送广告时就越应该将对应的候选商品推出，使得用户能对购物平台和候选商品产生兴趣，又增加了候选广告的曝光度。
35.本发明实施例将候选代价分为两部分，其中第一代价根据候选商品广告集合中每个候选商品的tf-idf与热词延伸特征基准差异获得，即第一代价反映了用户常用浏览语义特征与候选商品语义特征之间的差异；第二代价根据候选商品广告集合中每个候选商品与其他候选商品之间的tf-idf差异获得，反映了候选商品广告集合中候选商品的独特程度。
36.第一代价的具体获取方法包括：以候选商品广告集合中每个候选商品的tf-idf与热词延伸特征基准的马氏距离作为第一代价。需要说明的是，马氏距离为本领域技术人员熟知的技术手段，在此不做赘述。第一代价越大，说明用户经常关注的商品类型与对应候选商品越无关。
37.第二代价的具体获取方法包括：获得候选商品广告集合中每个候选商品的第二近邻集合，获得每个候选商品与对应的第二近邻集合中样本的最大tf-idf差异；以候选商品广告集合中所有最大tf-idf差异中的中位数作为基础数据，获得候选商品广告集合中每个候选商品的最大tf-idf差异与基础数据的比值；将比值小于一的候选商品的第二代价置为一；将比值大于一的候选商品的第二代价置为对应的比值大小。需要说明的是，第二近邻集合是根据每个候选商品与其他候选商品之间的tf-idf相似度获得，即选择多个与目标候选商品tf-idf最相似的其他候选商品作为目标候选商品的第二近邻集合，第二近邻集合中的样本数量可根据具体场景具体设置，在此不做赘述。对于每个候选商品而言，第二近邻集合中最大tf-idf差异越大说明对应的第二近邻集合分布越离散，即对应的候选商品在词集空间中越特殊，用户更难检索到对应候选商品。
38.以第一代价与第二代价的和作为每个候选商品的候选代价。
39.步骤s4：判断目标用户的候选商品广告集合与其他用户的浏览记录集合之间是否
存在交集，若存在交集，则根据商品视觉停留时间直方图相似度、热词延伸特征基准相似度和交集中的最大候选代价获得目标用户和其他用户之间的匹配距离，根据匹配距离获得与目标用户的匹配用户；将匹配用户与目标用户的交集中最大候选代价对应的候选商品的广告投放至目标用户。
40.在进行广告投放时，为了避免信息的局限性，在考虑候选商品广告集合的同时还应考虑不同用户之间的浏览习惯，使得最终推出的候选商品即能保证给目标用户带来新鲜感，还能保证目标用户对所推出的候选商品的接收程度。
41.首先需要判断目标用户的候选商品广告集合与其他用户的浏览记录集合之间是否存在交集，若不存交集，则说明两个用户之间是两种完全不同的用户群体，不能根据其他用户的浏览信息对目标用户进行广告推送；若存在交集，则说明其他用户能够为目标用户的推送提供参考，进一步根据根据商品视觉停留时间直方图相似度、热词延伸特征基准相似度和交集中的最大候选代价获得目标用户和其他用户之间的匹配距离，根据匹配距离获得与目标用户的匹配用户，即匹配用户为其他用户中与目标用户最匹配的一个用户，因此可将匹配用户与目标用户的交集中最大候选代价对应的候选商品的广告投放至目标用户。
42.在本发明实施例中，根据匹配距离获得与目标用户的匹配用户的方法选用km匹配算法，km算法为本领域技术人员熟知的技术手段，在此不做赘述。
43.具体获得匹配距离的方法包括：根据匹配距离公式获得匹配距离，匹配距离公式包括：其中，为用户和用户之间的匹配距离，为用户的商品视觉停留时间直方图，为用户的商品视觉停留时间直方图，为和之间的相似度，为用户的热词延伸特征基准，为用户的热词延伸特征基准，为用户和用户之间交集中的最大候选代价，为余弦距离获取函数。
44.在匹配距离公式中，表示商品视觉停留时间直方图之间的差异，商品视觉停留时间直方图差异能够既能体现用户浏览和打开商品时观看时长差异，还能体现用户浏览商品量繁多还是单独看的商品较多等浏览习惯的差异；表示热词延伸特征基准差异，热词延伸特征基准差异越大说明两个用户洗号和关注的内容差异越大。即两个差异越大说明两个用户之间的浏览习惯和浏览商品类型越不相关，则匹配距离越大；越大说明对应的候选商品越是需要推送的商品，则匹配距离越小。
45.获取匹配距离的原因在于，不同商品的信息量不同，例如一些科技类产品、化妆品与一些日用品之间在浏览时的浏览时长特征差异会较大，能够表示用户关注和阅读的仔细程度；从而在浏览习惯和浏览商品类型相似时进一步匹配出阅读商品信息上的特征差异。
46.将匹配用户与目标用户的交集中最大候选代价对应的候选商品的广告投放至目
标用户，能够为目标用户提供带有启发效果的商品广告推送结果，因为与目标用户浏览内容且浏览习惯相似的匹配用户曾经浏览过该产品，且该产品能够更容易让目标用户关注到更为特点的其他产品，进而引导目标用户对于商品的浏览，实现广告投放效应和吸引用户浏览的效果最大化。
47.综上所述，本发明实施例通过统计每个商品的视觉停留时间和tf-idf信息，获得每个用户的商品视觉停留时间直方图和热词延伸特征基准。根据用户的热词延伸特征基准在候选商品广告集合中计算每个候选广告的候选代价。进一步通过用户之间的商品视觉停留时间直方图、热词延伸特征基准和候选代价信息对目标用户进行匹配，获得目标用户的匹配用户，以目标用户的候选商品广告集合和匹配用户的浏览记录集合之间的交集中最大候选代价的候选商品作为推送商品。本发明实施例避免了投放广告的信息局限性，能够根据用户的浏览习惯和浏览内容引导用户浏览类型更丰富的商品。
48.需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
49.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。
50.以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘晓东嵇晨於雯雯冯思雨
技术所有人：鲸服科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。