一种基于网页特征的广告分类方法及装置的制作方法

文档序号：6434779阅读：196来源：国知局

专利名称：一种基于网页特征的广告分类方法及装置的制作方法
技术领域：
本发明涉及网页分类、广告分类、迁移学习等领域，具体涉及利用网页分类数据对广告进行自动分类。
背景技术：
网络分类广告是充分利用计算机网络的优势，对大规模的生活实用信息，按主题进行科学分类，并提供快速检索的一种广告形式。近来，网络分类广告已成为一种新的网络广告形式，其通过采用广告分类技术来为满足企事业单位和个人商户在互联网上发布各类产品和服务广告的需求，并为广大网民提供实用、丰富、真实的消费和商务信息资源。与传统媒体分类广告相比，网络分类广告容量大，表现形式多样化、立体化，可查询、收藏信息。
目前已有广告分类技术主要分为两类，一类是利用传统的文本分类方法；另一类是针对广告领域标注数据少的特点采用迁移学习的方法。传统文本分类方法通过对广告样本手工标注得到训练集，利用机器学习分类模型进行训练，从而得到广告分类器；迁移学习方法在网页等标注样本比较充足而广告的标注样本获取比较困难的情况下，将网页样本的特征空间向广告域空间或公共空间进行映射，在映射后特征空间上训练分类器，从而可以利用网页的标注样本对广告样本进行分类。
传统文本分类方法需要大量的广告标注样本，从而消耗大量的人力物力，且无法充分利用已标注过的丰富网页样本。迁移学习的方法可以比较好的利用现有网页样本资源，但往往忽视了网页之间的关联及网页与广告之间的关联。
传统的广告分类技术中，广告相关的描述通常比较短，相关关键词数目也比较少，导致其特征描述不充分，不利于广告的自动分类。同时，对广告的类别标注数据非常少，训练数据严重不足。
目前还没有一种能够克服传统技术中不足的广告分类的技术。发明内容
为克服现有技术中的不足，本发明提供了一种利用网页的标注数据实现广告的自动分类的方法和装置。本发明通过利用广告样本与网页样本之间的关联关系来对广告进行自动分类，能够提高广告分类的效率和准确率。
为了解决上述技术问题，本发明提供了一种基于网页特征的广告分类方法，其特征在于，包括以下步骤步骤A 从网页样本信息中提取网页特征信息，以及从广告样本信息中提取广告特征信息；步骤B 利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间，以得到映射到共同的特征空间的网页样本信息和广告样本信息；步骤C:基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器，根据训练后的分类器对广告样本信息进行分类以获得分类结果；步骤D 根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络，使所述分类结果沿所述链接网络进行传播，以获得修正后的分类结果；步骤E 根据修正后的分类结果更新训练集。4
进一步，该方法还包括，在所述步骤A中，从所述网页样本信息中的提取的所述网页特征信息的元素包括网页的统计参数、网页的语言参数、词频、词频-逆文档频度、和/ 或连接访问参数；从所述广告样本信息中提取的所述广告特征信息的元素具体包括广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、和/或广告本身的内容特征。
进一步，该方法还包括，在所述步骤B中，所述共同的特征空间为通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间。
进一步，该方法还包括，在所述步骤C中，所述分类结果包括所述广告样本信息中的每个广告样本被分到各个类别中的概率。
进一步，该方法还包括，在所述步骤D中，与广告样本相关联的网页样本信息包括展示过和/或正在展示该广告样本的网页、或者该广告样本被点击时所处的网页。
进一步，该方法还包括，步骤D中，针对各广告样本信息，依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
进一步，该方法还包括，在所述步骤D中，所述对所述分类结果进行修正具体包括Cij(i = 1，...，n，j = 1，...，m)为步骤C中得到的第i个广告样本被分为第j个类别 j的概率，Vi = Ivil，. . .，VikI为与第i个广告样本相关联的网页样本集合，通过如下表达式来修正分类概率Pu k c
P11 = (1 -oc)c Α ,、ι= Uutdegree(Vy)
其中Out deg ree (Vij)为节点Vij的出度，α为预设权值，0 < α < 1。
进一步，该方法还包括，在所述步骤E中，所述更新训练集具体包括针对每个广告类别，选择预测概率最大的预定数量的分类样本加入相应类别的训练集；或者，将分类概率大于预设值的分类样本加入相应类别的训练集。
进一步，该方法还包括，按预定迭代次数重复步骤C至Ε，将迭代结束后得到的分类结果作为最终分类结果。
进一步，该方法还包括，第一次训练分类器时，训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
本发明还提供一种基于网页类别特征的广告分类装置，其特征在于，包括以下单元提取单元，用于从网页样本信息中提取网页特征信息，以及从广告样本信息中提取广告特征信息；映射单元，用于利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间，以得到映射到共同的特征空间的网页样本信息和广告样本信息；训练单元，用于基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器，根据训练后的分类器对广告样本信息进行分类以获得分类结果；修正单元，用于根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络，使所述分类结果沿所述链接网络进行传播，以获得修正后的分类结果；更新单元，用于根据修正后的分类结果更新训练集。
进一步，该装置还包括，所述修正单元针对各广告样本信息，依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
进一步，该装置还包括，所述更新单元针对每个广告类别，选择预测概率最大的预5定数量的分类样本加入相应类别的训练集；或者，将分类概率大于预设值的分类样本加入相应类别的训练集。
进一步，该装置还包括，在所述广告分类装置中将所述更新单元更新后的训练集返回给所述训练单元，通过所述训练单元和所述修正单元重新获得修正后的分类结果，所述更新单元针对所述重新获得的修正后的分类结果重新更新所述训练集，在所述训练单元、所述修正单元和所述更新单元中按预定迭代次数重复上述操作，将迭代结束后得到的分类结果作为最终分类结果。
进一步，该装置还包括，所述训练单元第一次训练分类器时，训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
与现有技术相比，本发明具有以下优点
(1)能够充分利用已有的标注数据，避免大量重复性劳动；
(2)利用广告的历史投放和点击数据对分类效果的修正能够比较充分考虑广告与其所投放页面之间的语义关联；
(3)通过迭代过程可使分类结果更加准确。
本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其它优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中
图1是为根据本发明实施例一的基于网页特征的广告分类方法的流程图2是迁移学习方法的示意图3是获得共有映射特征空间的示意图4是根据本发明第二实施例的基于网页特征的广告分类装置的结构图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。
另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
图1为根据本发明实施例一的基于网页特征的广告分类方法的流程图，下面结合图1具体说明该方法的各步骤。
步骤S110，从网页样本信息中提取网页特征信息、以及从广告样本信息中提取广告特征信息。
在本实施例中，样本是一个网页或广告，特征是对样本的描述。一个样本可以表示成(x，y)，其中χ就是特征向量，也称作特征信息。另外还有一个y是样本的类别标签。通常，广告样本信息不带有标注信息，网页样本信息带有标注信息。标注信息通常是根据网页内容或相关查询词所作出的，是指人工或自动对网页所属类别所做出的判断。在本步骤中，从广告样本信息和网页样本信息(下文简称为广告样本和网页样本)中提取有效的广告特征向量和网页特征向量作为网页特征信息和广告特征信息。本步骤是机器学习的重要环节，旨在从所收集到的样本数据中提取有效的特征，使这些特征能够对样本进行比较准确的描述，并对外界干扰因素具备一定的鲁棒性。根据网页分类的特点，可以从三个角度提取网页特征向量，分别为从网页内容的角度、从网页查询关键词的角度、以及从网页链接的角度。从网页内容的角度，可以提取网页中关键词数量、词的平均长度、锚文本数及长度、可见文本比例、锚文本比例等统计参数，以及内容中关键词的TF*IDF(词频-逆文档频度)特征、N-gram(N元文法)相似度特征等语言参数等，作为网页特征向量的元素。对于网页查询关键词的角度，可以通过分析互联网用户的搜索报文或搜索引擎的搜索日志，得到用户通过搜索行为到达特定网页时所使用的关键词列表，这些关键词可以视为互联网用户对该网页所作出的标注行为。相对网页本身的内容，搜索关键词往往能够提供对网页更准确的描述，因此在本实施例中，还可以考察网页相关的查询词，将TF(词频)或TF*IDF(词频-逆文档频度)等参数作为网页特征向量的元素。从网页链接的角度，可以提取网页的出入度、PageRank(网页级别)、 TrustRank(网页的信任指数)、SpamRank(网页的作弊级别)等链接访问参数作为网页特征向量的元素。以上为网页特征向量的获得，下面将说明广告特征向量元素的获得。广告特征向量的各元素可以从如下渠道获得广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、广告本身的内容特征及图片、视频等多媒体广告的图像相关特征等。其中，竞价关键词、描述文本、广告文本内容等可以用TF*IDF或TF等统计特征，而竞价、投放时间等可以表示为数值型特征，投放区域可以区域编号的枚举型参数表示，而图片、视频等可以用SIFT特征(尺度不变特征) 等进行描述。步骤S120，利用迁移学习方法将网页特征信息和广告特征信息映射到共同的特征空间，以得到映射到共同的特征空间的网页样本信息和广告样本信息。在本步骤中，利用迁移学习方法将网页特征信息和广告特征信息分别从其所位于的网页域特征空间和广告域特征空间映射到共同的特征空间。迁移学习方法旨在实现不同领域、学习任务之间的知识迁移，使人们可以借鉴在一个熟悉问题中已学习到的知识来更快更方便的解决相近的新问题。迁移学习的工作过程可表示如图2所示，其中，源域样本对应本实施例的网页样本，目标域样本对应本实施例的广告样本，源域知识是指源域样本在其所组成的特征空间中的分布情况，模型训练是指将源域样本和目标域样本从其各自所在的特征空间映射到共同的特征空间。在本实施例中，目标域样本(广告)中无标注样本或标注样本很少，而源域样本(普通网页)中存在大量标注样本，可以适用迁移学习中的自学习方法(self-taught learning)。该方法的主要思想是通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间，如图3所示，其中特征空间1 表示目标域样本所在的特征空间，特征空间2表示源域样本所在的特征空间。具体的，假设预设有m个广告(样本)的分类类别，用1 = {1，. . .，m}来表示类别序号，每个类别中第i个训练样本记为( ),其中X丨为源域或目标域的样本元素，乂为样本的类别标示，i为自然数，表示样本元素序号。那么第1个类别的线性预测模型可以写为
权利要求
1.一种基于网页特征的广告分类方法，其特征在于，包括以下步骤步骤A 从网页样本信息中提取网页特征信息，以及从广告样本信息中提取广告特征 fn息；步骤B 利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间，以得到映射到共同的特征空间的网页样本信息和广告样本信息；步骤C:基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器，根据训练后的分类器对广告样本信息进行分类以获得分类结果；步骤D 根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络，使所述分类结果沿所述链接网络进行传播，以获得修正后的分类结果；步骤E 根据修正后的分类结果更新训练集。
2.根据权利要求1所述的方法，其特征在于，在所述步骤A中，从所述网页样本信息中提取的网页特征信息的元素包括网页的统计参数、网页的语言参数、词频、词频-逆文档频度、和/或连接访问参数；从所述广告样本信息中提取的广告特征信息的元素具体包括广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、和/ 或广告本身的内容特征。
3.根据权利要求1所述的方法，其特征在于，在所述步骤B中，所述共同的特征空间为通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间。
4.根据权利要求1所述的方法，其特征在于，在所述步骤C中，所述分类结果包括所述广告样本信息中的每个广告样本被分到各个类别中的概率。
5.根据权利要求1至4中任一项所述的方法，其特征在于，步骤D中，针对各广告样本信息，依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
6.根据权利要求5所述的方法，其特征在于，在所述步骤D中，与广告样本相关联的网页样本信息包括展示过和/或正在展示该广告样本的网页、或者该广告样本被点击时所处的网页。
7.根据权利要求5所述的方法，其特征在于，在所述步骤D中，所述对所述分类结果进行修正具体包括Cij(i = 1，. . .，n，j = 1，. . .，m)为步骤C中得到的第i个广告样本被分为第j个类别j的概率，Vi = Ivil, vik)为与第i个广告样本相关联的网页样本集合，通过如下表达式来修正分类概率Pu kαPii = (1 - (X)Cii +or* V---ι=ι Outdegree(Vy)其中Out deg ree (Vij)为节点Vij的出度，α为预设权值，0 < α < 1。
8.根据权利要求5所述的方法，其特征在于，在所述步骤E中，所述更新训练集具体包括针对每个广告类别，选择预测概率最大的预定数量的分类样本加入相应类别的训练集；或者，将分类概率大于预设值的分类样本加入相应类别的训练集。
9.根据权利要求1所述的方法，其特征在于，按预定迭代次数重复步骤C至E，将迭代结束后得到的分类结果作为最终分类结果。
10.根据权利要求9所述的方法，其特征在于，第一次训练分类器时，训练集由网页样本信息和/或少量的标注过的广告样本信息构成。
11.一种基于网页类别特征的广告分类装置，其特征在于，包括以下单元提取单元，用于从网页样本信息中提取网页特征信息，以及从广告样本信息中提取广告特征信息；映射单元，用于利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间，以得到映射到共同的特征空间的网页样本信息和广告样本信息；训练单元，用于基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器，根据训练后的分类器对广告样本信息进行分类以获得分类结果；修正单元，用于根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络，使所述分类结果沿所述链接网络进行传播，以获得修正后的分类结果；更新单元，用于根据修正后的分类结果更新训练集。
全文摘要
本发明公开了一种基于网页特征的广告分类方法和系统，该方法包括以下步骤从网页样本信息中提取网页特征信息，以及从广告样本信息中提取广告特征信息；利用迁移学习方法将网页特征信息和广告特征信息映射到共同的特征空间，以得到映射到共同的特征空间的网页样本信息和广告样本信息；基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器，根据训练后的分类器对广告样本信息进行分类以获得分类结果；根据广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络，使分类结果沿所述链接网络进行传播，以获得修正后的分类结果；根据修正后的分类结果更新训练集。本发明能够充分利用已有的标注数据，避免大量重复性劳动。
文档编号G06F17/30GK102508859SQ201110300130
公开日2012年6月20日申请日期2011年9月29日优先权日2011年9月29日
发明者李娜, 罗峰, 黄苏支申请人:北京亿赞普网络技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗峰;黄苏支;李娜
技术所有人：北京亿赞普网络技术有限公司
我是此专利的发明人

上一篇：嵌入式软件界面实现方法及系统的制作方法
上一篇：一种手写输入方法及装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。