一种广告投放方法及系统与流程

文档序号:19741228发布日期:2020-01-18 05:14阅读:187来源:国知局
一种广告投放方法及系统与流程

本发明属于互联网广告领域,具体涉及一种广告投放方法及系统。



背景技术:

随着移动互联网的发展,用户增长变得缓慢,流量红利逐渐到了一个瓶颈,如何精细化运营、进一步提升流量使用率是各互联网公司面临的一个问题。在微博普搜场景中,搜索结果与搜索词有强相关性,如果融入搜索词和广告的相关性,那么在搜索结果页面投放广告可以保证搜索流广告的效果及搜索场景体验。而如何关联搜索词和广告需要理解搜索词文本的内容,这是属于自然语言理解技术的一个研究课题。

将搜索词分类到对应的广告类别这个问题通常作为一个多类别文本分类问题来研究,作为一个监督学习任务首先要有大量的标注好的训练数据,然后用这些训练数据训练一个文本分类模型。训练数据包括用户的搜索文本以及对应的广告行业类别标签,比如搜索文本“电视剧月上重火”对应的广告行业类别为“文化娱乐”。传统的文本分类方法是采用n元模型n-gram特征来提取搜索词中的特征,然后输入到分类器如支持向量机svm(supportvectormachine)来对文本进行分类。随着深度学习的发展,文本分类方法也不断演进,以卷积神经网络cnn(convolutionalneuralnetworks)、循环神经网络rnn(recurrentneuralnetworks)、注意力attention机制为代表的神经网络方法可以自动特征提取,实现端到端的学习。当前在公开数据集上文本分类效果最好是bert模型,bert模型是google在2018年提出的,它采用transformer作为基础结构。模型分为两阶段来完成,首先在大量的公开数据如维基百科中无监督训练得到初始模型参数,然后再将模型应用在特定的下游任务如文本分类任务中,进一步fine-tuning模型。在sst-2(stanfordsentimenttreebank)等文本分类任务上取得94.9%的准确率,是当前最佳(state-of-the-art)的方案。

然而在现有技术中,对于如何匹配网络中搜索文本自身的特点进行广告投放仍然存在着模型构建的准确度、覆盖范围是否全面等问题。



技术实现要素:

本发明实施例提供一种广告投放方法及系统,根据搜索文本以及全面准确的概念模型进行针对性的广告投放。

为实现上述目的,一方面,本发明实施例提供了一种广告投放方法,所述方法包括:

确定用户搜索文本中每个词的权重值;

根据所述搜索文本中每个词的权重值与预先确定的广告行业对应的广告商业概念的索引词及索引词的权重值,确定所述搜索文本与广告商业概念的相关度;

根据所述搜索文本与广告商业概念的相关度确定所述搜索文本对应的广告行业并进行广告投放。

另一方面,本发明实施例提供了一种广告投放系统,所述系统包括:

搜索文本信息确定单元,用于确定用户搜索文本中每个词的权重值;

相关度确定单元,用于根据所述搜索文本中每个词的权重值与预先确定的广告行业对应的广告商业概念的索引词及索引词的权重值,确定所述搜索文本与广告商业概念的相关度;

广告投放单元,用于根据所述搜索文本与广告商业概念的相关度确定所述搜索文本对应的广告行业并进行广告投放。

上述技术方案具有如下有益效果:

本发明技术方案采用根据搜索文本以及全面准确的概念模型进行针对性的广告投放;构建了完整的广告行业知识图谱,通过计算文本与各广告行业下概念之间的相关度,将文本与广告行业关联,定向投放对应行业的广告,使广告投放更精确、具有可解释性;本方案的语义分类模型不需要做数据标注的工作,不需要考虑行业类别数据分布不均衡的问题,语义计算的准确率高,极大的减少了人工的工作量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一种广告投放方法的流程图;

图2是本发明实施例一种广告投放的效果展示图;

图3是本发明实施例一种广告投放系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

经过对微博搜索词的数据分析发现,微博搜索词有自身明显的特征:

1.搜索词文本偏短、并且行业的类别分布非常不均衡;

2.搜索词分布范围非常广,造成数据标注成本高;

3.时效性强、突发、难预料、可重用性差。微博每天的头部的搜索词都不太一样,某个/某类搜索词会突然出现,短时间流量突增,然后0.5~1.5天就回落/消失,单个热点事件的有效性约为1.3天,这导致搜索词的可重用性很差,也从侧面证明微博普搜和搜索引擎不一样,没有季节等有规律性的特点(即无法参考历史同期搜索词出策略),具有热点性、突发性、单次爆发、难预料等特征。

上述三个特点使得构建训练样本困难,用bert模型等有监督学习的方式来训练一个高准确度的文本分类模型比较难提。此外,除了将搜索词分类到广告行业类别,我们还希望能得到细粒度的广告概念层次关系,如搜索词“雅诗兰黛小棕瓶”,不仅能将它划分到“美容护肤”类别,还希望知道它是属于“化妆品”子类以及“面部化妆品”子子类,以及“雅诗兰黛”品牌,而“雅诗兰黛”品牌又是“化妆品品牌”的子节点。此外,“雅诗兰黛小棕瓶”的代言人是陈坤,利用这种复杂的概念之间的语义关系有助于提升广告投放的效果,让广告投放具有可解释性,而这种语义关系仅仅通过文本分类问题是不能解决的。

因此,项目需要解决以下技术问题:

1.如何不需要或者减少数据标注量的情况下提升模型准确度;

2.如何得到概念之间的语义关系,构建语义关系网络;

3.因为搜索词范围广,因此需要模型能够涵盖的知识面广,覆盖全部的搜索词。

知识图谱是2012年谷歌提出的一种技术,最初是用来优化搜索引擎,随着技术的发展,目前它在搜索、推荐、问答等领域应用广泛。为了提升搜索广告的投放效果,我们需要构建覆盖各个商业广告行业的知识图谱,而这种领域知识图谱的构建优先考虑借助公开的数据源。作为世界上最大的百科知识库,维基百科具有知识覆盖面广、概念层次结构化程度高、知识更新速度快等特点,在维基百科的category类别体系中,我们可以根据类别体系得到概念之间的层次树结构,从而可以分析概念之间的语义关系,如化妆品类,下面有眼部化妆品、唇部化妆品、化妆品公司、化妆品品牌等子节点,而化妆品公司又包括资生堂、联合利华等叶节点。从维基百科中抽取知识、整合语义知识的关联关系,构成完整的语义知识图谱。

如图1、2所示,是本发明实施例一种广告投放方法的流程图,所述方法包括:

s101、确定用户搜索文本中每个词的权重值;

优选地,所述搜索文本中每个词的权重值为搜索文本中每个词的词频-逆文本频率tf-idf值。

获取搜索文本,对搜索文本进行分词,并进行权重值计算后获得搜索文本中词向量t={wi};对于搜索文本中的每一个词,计算其词频-逆文本频率tf-idf值作为该词的权重值。取权重值最高的一定数量的词组成该搜索文本的词向量t={wi}。

如输入搜索文本“游客误将苹果手机当苹果投喂给棕熊”,对文本做分词、关键词提取,再与维基百科概念计算相关度,得到最相关的五个维基百科概念词条如下:

苹果/苹果公司/史蒂夫乔布斯/applemusic/棕熊。

s102、根据所述搜索文本中每个词的权重值与预先确定的广告行业对应的广告商业概念的索引词及索引词的权重值,确定所述搜索文本与广告商业概念的相关度;

我们下载2019年2月20日的中文维基百科的xml数据,从中抽取35个商业广告行业的概念及概念之间的语义关系。如“美容护肤”行业下面的“化妆品”概念节点的子树结构如下所示,从中可以看出概念之间的语义关系:

优选地,所述广告行业对应的广告商业概念的索引词及索引词的权重值,通过以下方法确定:

获取维基百科的可扩展标记语言xml数据,从中抽取广告行业对应的广告商业概念及概念之间的语义关系,并抽取概念的文本内容;对概念的文本内容做分词、去掉停用词处理;计算处理后的词相对于概念的tf-idf值,并按tf-idf值由高到低排序;选择tf-idf值最高的设定个数的词作为对应的概念的索引词,索引词对应的tf-idf值作为该索引词的权重值。

选择权重值高的设定个数的词作为对应的概念的索引词表,索引词对应的tf-idf值作为该索引词的权重值。如淡香水、花露水两篇文本对应的top10索引词如下:

淡香水:香水/古龙水/酒精/芳香油/伊莉莎白/天竺葵/芳香/含有/乙醇;

花露水:花露水/驱蚊/花露/酒精/大雅/洗胃/香水/蔷薇/涂抹/止痒。

优选地,所述词相对于概念的tf-idf值通过下式计算:

tfidfi,j=tfi,j×idfi,j,

其中,词频ni,j表示文本j中词i出现的次数;∑knk,j表示文本j中所有词的出现次数之和,k表示文本j中的词;

逆文本频率d|表示概念对应的所有文本的总数目,|{j:ti∈dj}|表示概念对应的所有文本中包含词i的文件dj的数目,ti表示概念对应的所有文本中与词i相同的词。如果词语不在数据中,那么分母为零,因此一般情况下使用1+|{j:ti∈dj}|。

概念对应的所有文本是指某个概念的所有维基百科文本,包括文本j。比如化妆品这个概念下,有描述雅诗兰黛的文本,也有描述资生堂、兰蔻的文本,这些文本都是化妆品这个大类下的,总数为|d|,这里假设只有这三篇文本,编码d1、d2、d3,那么|d|=3。比如“小黑瓶”在“兰蔻”这篇文本中出现,在“雅诗兰黛”、“资生堂”文本中没有出现,那么,计算“小黑瓶”的idf值时,公式中分母为1,因为只有d3这篇文本出现了“小黑瓶”。这里面词ti表示“小黑瓶”这个词,分母中j:ti表示ti这个词是否在文本dj中出现,这里就只有一个。i表示文本j中的词“小黑瓶”,ti表示概念对应的所有文本中与词i相同的词,dj表示第j篇文本。

“小黑瓶”的tf值是这个词在“兰蔻”这篇文章中出现的次数除以“兰蔻”这篇文章中词出现的总的数目。

优选地,所述根据所述搜索文本中每个词的权重值与预先确定的广告行业对应的广告商业概念中包含的词及词的权重值,确定所述搜索文本与广告商业概念的相关度,包括:

通过下式确定所述搜索文本与广告商业概念的相关度r:

其中,t表示所述搜索文本中的词的集合;

wi表示所述搜索文本中的第i个词;

vi表示所述搜索文本的词wi在所述搜索文本中的权重值;

kj表示广告商业概念中与词wi相同的词在该广告商业概念中的权重值。

s103、根据所述搜索文本与广告商业概念的相关度确定所述搜索文本对应的广告行业并进行广告投放。

微博用户在搜索页面的搜索框中输入要搜索的内容,语义分析服务会通过以上步骤计算文本内容与广告商业概念的相关度,从而分析搜索词是否属于某个广告行业,下面是一些搜索词被划分到对应广告类别的示例:

“电视剧月上重火”对应广告行业为:文化娱乐;

“出国留学是高中好还是大学好”对应广告行业为:教育培训;

“南粤织造布料”对应广告行业为:服饰箱包;

“蚊子咬了花露水有用吗”对应广告行业为:美妆;

“广发信用卡”对应广告行业为:金融;

“北京开推垃圾强制分类”对应广告行业为:政府企业。

如果搜索词属于某个广告行业,系统会在用户的搜索展示页面投放该行业的广告,“出国留学是高中好还是大学好”这个搜索词对应的“教育培训”的广告投放效果如图2所示。

对应于上述方法,如图3所示,是本发明实施例一种广告投放系统的示意图,所述系统包括:

搜索文本信息确定单元21,用于确定用户搜索文本中每个词的权重值;

相关度确定单元22,用于根据所述搜索文本中每个词的权重值与预先确定的广告行业对应的广告商业概念的索引词及索引词的权重值,确定所述搜索文本与广告商业概念的相关度;

广告投放单元23,用于根据所述搜索文本与广告商业概念的相关度确定所述搜索文本对应的广告行业并进行广告投放。

优选地,所述搜索文本信息确定单元中,搜索文本中每个词的权重值为搜索文本中每个词的词频-逆文本频率tf-idf值。

优选地,还包括索引词权重值确定单元,用于:

获取维基百科的可扩展标记语言xml数据,从中抽取广告行业对应的广告商业概念及概念之间的语义关系,并抽取概念的文本内容;

对概念的文本内容做分词、去掉停用词处理;

计算处理后的词相对于概念的tf-idf值,并按tf-idf值由高到低排序;

选择tf-idf值最高的设定个数的词作为对应的概念的索引词,索引词对应的tf-idf值作为该索引词的权重值。

优选地,索引词权重值确定单元具体用于通过以下式计算词相对于概念的tf-idf值:

tfidfi,j=tfi,j×idfi,j,

其中,词频ni,j表示文本j中词i出现的次数;∑knk,j表示文本j中所有词的出现次数之和,k表示文本j中的词;

逆文本频率d|表示概念对应的所有文本的总数目,|{j:ti∈dj}|表示概念对应的所有文本中包含词i的文件dj的数目,ti表示概念对应的所有文本中与词i相同的词。

优选地,所述相关度确定单元22具体用于:

通过下式确定所述搜索文本与广告商业概念的相关度r:

其中,t表示所述搜索文本中的词的集合;

wi表示所述搜索文本中的第i个词;

vi表示所述搜索文本的词wi在所述搜索文本中的权重值;

kj表示广告商业概念中与词wi相同的词在该广告商业概念中的权重值。

本申请是技术方案相比于现有技术,具有如下优点:

1.本申请构建了完整的广告行业知识图谱,通过计算文本与各广告行业概念之间的相关度,将文本与广告行业关联,定向投放对应行业的广告,使广告投放更精确、具有可解释性;

2.知识图谱的数据来源于世界上最大的知识库维基百科,因此具有知识覆盖面广、语义结构层次清晰完整的特点,解决微博搜索词涉及知识面广的问题,可以做到对全网知识的覆盖;

3.与现有技术相比,本方案的语义分类模型不需要做数据标注的工作,不需要考虑行业类别数据分布不均衡的问题,语义计算的准确率高,极大的减少了人工的工作量。

应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。

在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(asic),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中,asic可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1