广告主的分类方法及系统与流程

文档序号:15831465发布日期:2018-11-07 07:21阅读:648来源:国知局
广告主的分类方法及系统与流程

本发明涉及数据分类领域,具体涉及广告主的分类方法及系统。

背景技术

随着社交网络的应用广泛,更多广告主会选择将广告投放在社交网络中。对于广告主进行类分,能够更好的帮助网站对各广告主进行分析,从而对网站的经营分析提供帮助。通过大量数据分析发现,广告主在社交网络上发布的内容(实质上属于广告)比较单一,只有极少数会发布三种以上的内容,并且大量发布的内容都属于一个类别,因此,通过广告主发布的内容作为参考对广告主进行分类的方案是非常合理的。广告主一般在社交网络上发布的属于本文内容。

短文本分类是一种常见的自然语言处理方法的应用。它是指在一定的分类体系下,根据文本的内容自动地将其归入某个类别。系统的输入是需要进行分类处理的大量文本,系统的输出是与文本关联的类别。从数学角度来看,文本分类本质是一个映射过程,它将未标明类别的文本映射到分类体系下已有的类别中。

文本分类工作的研究在国外起始较早,早在20世纪60代,美国ibm公司提出把统计用于自动分类的思想。国内对于自动文本分类的工作则始于20实际80代初期。如今,中文分类技术已经趋于成熟。但是现有的分类方法在建模的过程中使用的函数简单,这也导致在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制。同时,算法需要利用监督学习或半监督学习来进行抽取特征,这需要大量的人力。特征提取结果的好坏也直接影响文本分类结果的好坏。因此,现有技术中的文本分类方法并不适用于社交网络中广告主的分类。



技术实现要素:

本发明要解决的技术问题在于,克服现有的技术的不足,提供广告主的分类方法及系统,准确的对广告主进行分类,解决社交网络中广告主的分类问题。

为达到上述技术目的,一方面,本发明提供的广告主的分类方法,包括:

将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;

构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:

对当前广告主发布的当前每条网页数据的数值矩阵进行特征提取,得到当前每条网页数据的各特征矩阵;

将当前每条网页数据的各特征矩阵进行分类,得到当前每条网页数据的预测类别;

对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。

另一方面,本发明提供的广告主的分类系统,包括:

转换单元,用于将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;

卷积单元,用于构建不同类别的卷积核;

提取单元,用于对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;

预测单元,用于将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;

投票单元,用于对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。

在本发明中,通过将广告主发布的内容,即网页数据转换为矩阵的形式进行分析,然后在配合卷积计算,可以精确的对网页数据进行分类;从而推出广告主的类别。本发明提升了分类的效率和准确率。解决了社交网络中广告主分类的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例的方法流程示意图;

图2为本发明实施例的另一种方法流程示意图;

图3为本发明实施例的系统一种结构示意图;

图4为本发明实施例的系统另一种结构示意图;

图5为本发明实施例中转换单元的结构示意图;

图6为本发明实施例中提取单元的结构示意图;

图7为本发明实施例中随机矩阵的示意图;

图8为本发明实施例中特征提取的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,作为一种实施例,本发明所述的广告主的分类方法,包括:

101、将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;

102、构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:

103、对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;

104、将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;

105、对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。

如图2所示,作为另一种实施例,本发明所述的广告主的分类方法,包括:

201、获取待分类的各广告主发布的每条原始网页数据;

202、对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据;

203、将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;

204、构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:

205、对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;

206、将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;

207、对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。

进一步地,所述将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵,具体包括:

构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;

针对每一个待分类的广告主发布的每条网页数据,执行如下操作:

对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;

基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;

将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵。

更进一步地,所述对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵,具体包括:

针对每条网页数据,执行如下操作:

对当前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;

针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;

对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;

将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,得到对应当前网页数据的各特征矩阵。

再进一步地,所述将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别,具体包括:

通过softmax回归模型对每条网页数据的各特征矩阵进行分类,得到当前广告主发布的每条网页数据的预测类别。

如图3所示,作为一种可能结构,广告主的分类系统,包括:

转换单元11,用于将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;

卷积单元12,用于构建不同类别的卷积核;

提取单元13,用于对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;

预测单元14,用于将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;

投票单元15,用于对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。

在本发明所述的广告主的分类系统中,提取单元13、预测单元14和投票单元15都是针对每一个待分类的广告主执行的。

如图4所示,作为另一种可能结构,广告主的分类系统,包括:

获取单元16,用于获取待分类的各广告主发布的每条原始网页数据;

预处理单元17,用于对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据;

转换单元11,用于将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;

卷积单元12,用于构建不同类别的卷积核;

提取单元13,用于对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;

预测单元14,用于将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;

投票单元15,用于对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。

如图5所示,作为一种可能结构,所述转换单元11,包括:

第一构建模块111,用于构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;

分词模块112,用于对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;

查找模块113,用于基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;

组合模块114,用于将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵。

在本发明所述的转换单元11中,分词模块112、查找模块113和组合模块114都是针对每个待分类的广告主发布的每条网页数据执行的。

如图6所示,作为一种可能结构,所述提取单元13,包括:

计算模块131,用于对当前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;

偏置模块132,用于针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;

激活模块133,用于对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;

池化模块134,用于将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,分别得到对应当前网页数据的各特征矩阵。

在上述技术方案中,所述预测单元14,具体用于:

通过softmax回归模型对当前网页数据的各特征矩阵进行分类,得到当前广告主发布的当前网页数据的预测类别。

以下结合应用实例对本发明实施例上述技术方案进行详细说明:

以社交网络为微博举例;

步骤1、获取待分类的各广告主发布的每条原始网页数据;

使用网络爬虫方法,自动定向爬取广告主的微博数据,即可以实现针对广告主的信息获取。标记类别,将微博中文本里的数据表示成一个句子。

获取原始微博数据后,可以将数据分为训练集和测试集。训练集用来训练微博博文分类模型,测试集用来测试模型分类的效果。

步骤2、对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据;

以去除获取到的原始微博数据中的无关噪声和重复数据;包括:删除网页链接、位置信息和重复的字句。然后将网络流行语及网络缩写记性人工标注;将表情符号用对应的文字代替。

步骤3、将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;具体地:

步骤3.1、构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;

如图7所示,构建的随机矩阵中,index为索引,在本随机矩阵中,索引代表了每个单词的行号。vocab代表了语料库中所有的单词。当然,图7中为方便展示省略了大部分单词。在本随机矩阵中,代表各单词的子块是随机矩阵的每个行向量,也就是说,每一各行向量都唯一对应一个单词。

本随机矩阵的高度为语料库中单词个数m,宽度embeddingsize为每一词向量的位数。宽度embeddingsize为超参数,本随机矩阵选用默认参数128。本随机矩阵的作用就是将每个单词都映射至向量。

步骤3.2、针对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;

在本实施例中,可以使用开源分词库jieba分词,进行分词。例如,第n个广告主的第i条微博内容为:iloveyou。

则分词得到content[i]=[i,love,you];

步骤3.3、基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;

对应的,将得到的分词分别转化为在随机向量中的索引符号,即行号;

vector=[i]=[1,2,3];

相应地,第n个广告主的第i条微博内容对应的各子块(行向量)为:

[-0.35301754-074718404…,0.8568539-0.97576588]

[-0.675362470.76219553…,-0.58868980.56818742]

[0.41945928-0.25878668…,0.262369840.52249086]

步骤3.4、将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵;

将步骤3.3中的3个行向量有上之下排列得到第n个广告主的第i条微博的数值矩阵。

在本实施例中,按照单词在句子中的顺序,从上到下的排列单词对应的列向量。

步骤4、构建不同类别的卷积核,针对当前广告主发布的当前网页数据的数值矩阵进行特征提取,得到当前网页数据的各特征矩阵;具体地:

步骤4.1、构建不同类别的卷积核;

在本实施例中,构建了三类不同尺寸的卷积核,分别为:3x128、4x128、5x128;而每个尺寸下又包括128个不同的卷积核。所以,本实施例中,共有3x128=384个不同干的卷积核。

步骤4.2、针对前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;

如图8中①卷积所示,从卷积核的尺寸上可以看出,每个卷积核的宽度和随机矩阵的宽度相同。因此,本实施例采用卷积核由上至下的卷积方式对第n个广告主的第i条微博的数值矩阵进行卷积计算。

浅色三行矩阵的patch为某个3x128的卷积核,该卷积核对第n个广告主的第i条微博的数值矩阵由上往下滑卷积,得到该3x128的卷积核对应的完整的卷积conv。

步骤4.3、针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;

如图8中②偏置所示,针对图8中的完成的卷积conv作偏置计算,得到该3x128的卷积核对应的偏置con_b。

步骤4.4、对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;

步骤4.5、将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,分别得到对应当前网页数据的各特征矩阵;

如图8中③偏置所示,对该3x128的卷积核对应的偏置con_b进行池化,得到该3x128的卷积核对应的特征矩阵con_b_pool。

图8中,对激活函数部分进行了省略。上述过程,可用下列公式表达:

conv=w*x+b,b∈r(1)

h_conv=relu(conv)(2)

h_pool=max_pool(h_conv)(3)

上述公式中,x为输入到卷积层的单条微博的矩阵表示,b是偏置项,卷积核w∈r^hk,r表示向量空间,h表示窗口大小,k表示维度,relu表示非线性函数,max_pool表示最大池化。

步骤5、将当前网页数据的各特征矩阵进行分类,得到当前网页数据的预测类别;

使用softmax回归模型对特征矩阵进行分类;对于一个样本而言,经过神经网络模型后,我们将获得到的384个特征,送入softmax回归模型进行分类,从而预测出相应的类别;具体的:

softmax(x1,384·w384,numberclasses+b1,numberclasses)(4)

步骤6、对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。

通过大量的数据分析发现:大部分广告主所发微博的类别比较单一,只有极少数会发3种以上类型的微博,并且大量的微博都是同一个类别。因此将微博类别代替广告主类别的方案是非常合理的。例如:某个广告主发布了三类微博,基于改进后的卷积神经网络模型类别预测为:

category1

category1

category2

我们采取投票决策的方式,取类别最多的类——category1作为广告主的类别标签。保证广告主和博文类别的一致性。

在本发明中,使用的卷积神经网络属于深层网络,而深层网络有着强大的特征学习能力,即其可以从少量的样本集中抓取到数据的本质特征。而且卷积神经网络有稀疏连接和权重共享这两个特点,可以减少全连接神经网络的训练参数,使神经网络结构变得更简单,适应性更强。

在预测微博博文分类的过程中,改进了传统卷积神经网络的训练结构:1、二维矩阵的宽度为切词后单词的数字表示,高度为句子长度。2、卷积核的宽度与单词宽度一致,卷积方向朝下,不朝右,这样保证了单词意义的完整。3、池化pooling阶段将1*n的向量转换为一个像素,进一步的精简了网络结构,更加匹配微博博文分类的预测场景。

在基于改进后的卷积神经网络预测微博博文类别的基础上,采取投票策略,对广告主进行分类。并且随着博文的变动,也可保证广告主和博文一致性,提升了广告主分类的效率和准确率。

应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。

在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(asic),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中,asic可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1