一种自动识别分类广告类型的广告分类方法

文档序号:6555564阅读:164来源:国知局
专利名称:一种自动识别分类广告类型的广告分类方法
技术领域
本发明涉及一种自动识别分类广告类型的广告分类方法,使用本方法后,用户办理广告时可以不需要选择分类广告的类型,属于广告分类方法技术领域。

背景技术
分类广告是近几年才发展起来的新型广告,对于分类广告中产生的一些问题并没有很及时的解决,在分类广告的办理中,很多还是沿用了传统的工商广告的办理方法,但是由于广告类型的不同,传统的方法已经不再适用。在分类广告的办理中,最突出的问题就是广告的类型选择。分类广告的类型比较多,更新比较快,用户在办理广告时不一定能清楚了解自己办理的广告属于哪一种类型,在这种情况下,如果选择错误的分类,会导致广告的效力,减弱甚至广告失效。
目前的广告分类还是主要依靠人工来判别,如图1所示,为人工分类方法流程结构示意图,用户在客户端办理分类广告时,需要根据自己的经验来判断要办理的广告属于哪一种类型,然后再录入广告的标题和内容,最后提交到数据库中。例如用户办理一则广告的内容为“写字楼出租”,根据经验来判断,这则广告属于房屋租赁这个类型。
这种凭借主观判断的分类方法对于广告类型不多,使用的广告类型较常见的时候不易发生错误,例如常用的广告类型有招聘求职、房屋租赁等等。今后,分类广告的类型将会越来越多,广告的分类会越来越细,届时人工判断的准确率就会降低。


发明内容
本发明的目的是发明一种能够根据用户提交的广告标题和内容自动判断广告的类型,并提高分类准确率的自动识别分类广告类型的广告分类方法。
为实现以上目的,本发明的技术方案是提供一种自动识别分类广告类型的广告分类方法,其特征在于,用JAVA语言编制程序,使用mysql作为数据库,运行在计算机内,并把KNN算法引入到基于空间向量模型的线性分类器,以便一次性的对关键词相似的广告进行自动分类,该分类方法在计算机内执行时依次含有以下步骤 一、在学习阶段 步骤1输入广告类型集;建立广告类型数据库,将每一种广告类型添加到数据库中,建成原始的广告类型集;广告类型数据库中建立两张数据表,一张表为广告类型表,一张为关键词表。
步骤2确定采用的属性单位以及线性分类器类型,本方法中采用的分类器为基于改进空间向量模型的线性分类器; 步骤3对广告类型集进行预处理,预处理包括中文语句的切分或者英文的stemming操作、同义词合并等; 步骤4属性抽取对广告类型集进行索引,得到原始属性集以及各广告类型的频度向量,广告类型用D表示,属性频度用t表示,指出现在广告类型中且能够代表该类型的基本语言单位,主要是由词或者短语构成,广告类型可以用属性频度的集合表示为D(T1,T2,…,Tn),其中Tk是属性频度,1<=k<=N; 步骤5对原始属性集采用现有降维操作,即频度、权重,得到属性集,降维最基本的思想,就是利用迭代的方法,在降维空间中定位特征向量,使得它们之间的距离和相异性被尽可能多地保留下来,为了达到这个目的,在迭代中需要不断减小下面的平方误差度量 p=∑[d*(xi,xj)-f(d(xi,xj))]2,式中, xi,xj是任意的不同样本对(i≠j),d(xi,xj)是xi和xj之间的原始的相异程度,d*(xi,xj)是低维空间中转换后的相异程度,f是一个单调变换函数; 步骤6以类型为单位,合并各广告的频度向量,得到类型的轮廓描述频度向量; 步骤7对含有n个属性值的广告类型而言,通常会给每个属性赋予一定的权重表示其重要程度,即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),为广告类型D的向量表示,其中Wk是Tk的权重,1<=k<=N,权重的计算方法使用特征频度-逆文档频度(TF*IDF)权重计算方法,TF*IDF方法使用词汇的出现频率来近似代表其重要程度,公式为 其中Wij表示词汇Term i在广告Document j的权重,Tf(tj,dj)表示i在j中出现的频率,df(ti)表示含有词汇i的广告的出现次数。M是所有广告的数目; 步骤8在向量空间模型中,两个概念D1和D2之间的内容相关度Sim(D1,D2)使用向量之间夹角的余弦值表示,公式为 步骤9根据下式,构建相应的线性分类器
其中

表示概念

是否属于分类cj,

取值为0或1,表示概念

是否属于分类cj,

表示测试概念

和周围概念

的相似程度,使用步骤8提到的空间向量模型相似公式来表示,bj是分类的阀值,需要通过反复的调试才能得到较好的值; 步骤10用一部分测试类型作为待分类类型,按照分类阶段的步骤对上一步骤得到的分类器进行测试,优化分类器的性能; 学习阶段结束; 二、在分类阶段 步骤1输入待分类广告类型(集);保存到查询数据库中; 步骤2按学习阶段相同的方法对待分类广告进行预处理; 步骤3根据学习阶段建立的属性集为待分类广告建立索引,得到广告类型权重向量,见学习阶段步骤7; 步骤4计算待分类广告的权重向量; 步骤5按分类器进行自动分类,见学习阶段步骤9得到分类结果; 分类阶段结束。
在广告类型中,不同类型之间分为两种情况。第一种情况是两种类型相距很远,即很不相似。在这两类类型中,它们使用的关键词完全不同,例如,房屋租赁和教育培训类。要预测一则广告属于其中哪一类,只需要检查它主要使用哪一类的属性集就可以了。这可以采用KNN算法来实现;第二种情况是类型之间很相似,甚至使用完全相同的属性集来描述主题内容,这时仅仅使用KNN算法就不能将这些类型区别开来,而需要测量各个属性更趋向于描述哪一广告类型,然后综合起来再预测广告所属的类型。在广告分类中,大部分广告属于第一种情况,最难的是第二种情况。
构造的统计量在描述统计数据的某方面统计特性时是存在误差的,只有当数据量趋于无穷大时才以概率1趋于所描述的统计特性。当数据量比较小,甚至数据稀疏时,统计量与真实值之间误差是很大的,要描述所有自然语言表示的广告内容,潜在的属性集会非常大,而用于机器学习的已知广告集(学习集)则相对较小。在相距较远的类型之间,由于它们使用的属性集很分散,会造成大量的稀疏数据。因此,在这种情况下得到的统计量是不可靠的,而且统计量越复杂,误差越大。在相近的类型之间,由于使用的属性相对集中,数据量能够达到一定规模。在这些类型之间得到的统计量具有较高的可靠性。本发明的核心思想来源于文本分类方法。文本分类解决的问题是如何使用户尽快找到想要的信息,如何对这些海量电子信息进行有效的组织和维护。文本分类的方法有很多种,例如基于概率模型的贝叶斯分类器,基于规则的决策树/决策规则分类器,基于人类分类经验的K最近邻分类器,基于类描述的线性分类器,基于最优超平面的支持向量机,通过对多个分类方法进行组合的分类器委员会等。根据文本分类方法,本发明提出了将KNN最近邻算法引入到改进空间向量的线性分类器中,结合成为一种新的分类器。在线性分类器,空间向量模型通过将广告内容描述为由各属性,即词,字,字串等为元素的向量,计算机可以使用向量运算来对广告内容进行操作,例如计算向量的长度,度量广告之间的相似度等。准确有效地对大部分相距很远的广告类型的自动分类。通过采用“基于KNN算法的改进空间向量模型分类器”,克服了基于空间向量模型的线性分类器中存在的现有问题,在大规模数据上运行的结果显示,本发明的广告类型自动识别方法显著地提高了分类准确率。
本发明的优点是能够根据用户提交的广告标题和内容自动判断广告的类型,并提高分类准确率。



图1为人工分类方法流程图; 图2为广告分类方法流程图; 图3为学习阶段程序流程框图; 图4为分类阶段程序流程框图。

具体实施例方式 以下结合附图和实施例对本发明作进一步说明。
实施例 用于本发明的设备包括广告办理服务器、广告分词处理设备、查询服务器、测试用服务器、索引服务器、词典服务器等。
广告办理服务器办理广告的应用程序,用户办理广告的服务器,用于提供和广告分类处理设备的接口; 广告分词处理设备服务器即工控机或性能较稳定的PC机;数据库用于保存广告的分词记录;分词程序将广告分成字或词; 查询服务器查询程序即从索引服务器中查询结果;如果缓存服务器中没有有效词的索引,就进入查询服务器中查找,查询服务器通过索引服务器查询有效词所属的广告类型。
索引服务器在索引服务器中建立索引库,即建立关键词到词典数据库的索引。建立索引可以提高查询的速度,索引库要根据词典的变化而随之更新。
词典服务器建立广告词典数据库即用于存放广告分类词;即每一个广告类型中能作为有效词的所有词语都存放到数据库中。
测试服务器测试程序。
如图2所示,为广告分类方法流程图,用户办理分类广告,可以首先录入广告的标题内容,例如广告的内容为“写字楼出租”,然后发出查询分类请求,进入自动分类过程,请求提交后,在广告内容中提取有效的关键词,在这则分类广告中,有效的关键词被分为三个,分别是“写字楼”、“出租”和“楼”,再判断这些关键词是否存在于缓存服务器中。如果该查询查过,且在失效时间之前,则直接从缓存服务器返回。如果没有查询过,则将查询提交到查询服务器。查询服务器根据查询词从索引库中得到所属的分类,根据“写字楼”、“楼”和“出租”三个关键词,可以从索引库中查出属于“房屋租赁”类型,然后返回这个结果,如果关键词比较多,从索引库中查出多个类型,比较权重,经过排序后返回结果并存入缓存服务器中供下一次调用。自动分类这一过程的实现,免去了由用户选择分类的过程,也就避免了发生选择不适当分类的问题。
在这一过程中,对有效关键词的统计是广告自动分类方法中最关键的步骤,有效关键词选择的准确与否直接关系到广告分类的准确与否,本发明提出的关键词提取的方法是一种基于KNN算法的改进空间向量分类方法,它把KNN算法引入到基于空间向量模型的线性分析器,以便一次性的对关键词相似的广告进行自动分类;用JAVA语言编制程序,运行在计算机内,该分类方法在计算机内执行时依次含有以下步骤 如图3所示,为学习阶段程序流程框图, 1.输入广告类型集;建立广告类型数据库,将每一种广告类型添加到数据库中,建成原始的广告类型集;广告类型数据库中建立两张数据表,一张表为广告类型表,一张为关键词表。
表1广告类型表 表2关键词表 1.根据广告类型建立索引库,索引库的用途是建立查询词到词典服务器的索引,索引库的建立可以提高用户查找分类的速度,当辞典服务器发生更改时,索引库也必须重新建立索引; 2.建立查询服务器,查询服务器的功能是根据查询词从索引库中取得结果,进行排序操作,最后返回结果,从一则广告中获得的有效关键词可能会有多个,关键词的权重是查询服务器对广告类型判断的重要依据,关键词的权重比较大,所对应的类型在排序时就排在前面,相反,关键词的权重较小的,其对应的广告类型就排在后面; 3.对广告类型进行预处理,根据分类广告标准,形成原始属性集;生成各类型的属性频度向量,以类型为单位,合并各类型的属性频度向量,生成各类型的轮廓描述频度向量,形式如表1所示,计算各类型的权重向量,形式如表2所示。生成分类器,并确定参数都为1; 4.分类阶段的属性抽取首先是将广告内容分成多个字词,分词方法的不同可以导致分类的不同,在分词方法的选择中,基于分类广告篇幅短小的特点使用了基于字符串匹配的机械分词方法; 5.去除无效词广告分词完成后,一则广告被分为多个字词,其中有些词语是对分类有用的词语,有些是对分类没有作用的词语,例如“的”、“是”等一些助词,本方法中采用chi-square权重降维; 6.判断查询词是否在缓存服务器中,去除了无效词之后,剩下的关键词都是对分类有用的词语,首先要判断有效关键词是否已经存在于缓存服务器中,如果存在,直接从缓存服务器中返回结果,如果不存在,将有效关键词提交到查询服务器中,查询服务器取得结果返回并在缓存服务器中保存结果以供下一次使用; 如图4所示,为分类阶段程序流程框图,在分类阶段,输入待分类广告类型(集);保存到查询数据库中;对待分类广告(集)进行预处理,输入分类器进行自动分类,输出可能属于的类型(集),表3为查询数据表的设计; 表3查询数据表 如 一则广告标题为“商铺招租”,广告内容为徐家汇商圈爱建园商铺现隆重对社会招租,商铺面积5680m2,另有商务办公用房1250m2,仓库2400m2,欢迎社会各界前来洽谈,电话64395012、64395072,联系人周先生,马先生。
(1)对待分类广告进行预处理; (2)根据在学习阶段确定的属性集,对待分类广告进行分词索引,共包含35个属性(分词),在这则广告中共出现了43次,生成属性频度向量,结果如表4所示。
表4待分类广告的属性频度 (3)计算待分类广告的权重向量。使用特征频度-逆文档频度(TF*IDF)权重计算方法。TF*IDF方法使用词汇的出现频率来近似代表其重要程度,公式为其中Wij表示词汇Term i在广告Document j的权重。tf(tj,dj)表示i在j中出现的频率。df(ti)表示含有词汇i的广告的出现次数。m是所有广告的数目,结果如表5所示。
表5待分类广告的权重向量 (4)在向量空间模型中,两个概念D1和D2之间的内容相关度Sim(D1,D2)使用向量之间夹角的余弦值表示,公式为 根据这个公式,可以计算出相关度,根据KNN算法的公式,构建相应的线性分类器
其中

表示概念

是否属于分类cj。

取值为0或1,表示概念

是否属于分类cj。

表示测试概念

和周围概念

的相似程度,由(4)中的公式得到。bj是分类的阀值,根据KNN算法公式得到每一个分词是否属于该类型。经过排除无效词,结果如表6所示 表6有效属性集 (5)将表3中待分类广告的有效属性的权重输入在学习阶段生成的分类器中进行自动分类,并输出分类结果。
以“房屋租赁”类型为例,待分类广告中的这10个有效属性在“房屋租赁”类型所包含的特征集中都出现,待分类广告的有效属性集属于房屋租赁这一类型,因此待分类广告被分为“房屋租赁”类型。这一结果符合待分类广告的实际内容,机器分类正确。
(6)为了检验我们发明的广告自动分类方法的分类效果,我们输入50000篇待分类广告,分类结果如表7所示 表7不同权重计算方法在不同属性集上的分类准确率(%) 由表4可以看出,我们发明的“基于改进空间向量模型的KNN最近邻分类器分类方法”在所有的属性集上都显著地提高了广告分类的准确率。当属性集包含全部属性时,分类准确率最高,达到95.0%,比只用改进空间向量模型的TF*IDF方法(89.7%)高出5.3%,比只用KNN算法(78.7%)高出了16.3%。可以看出,改进空间向量模型的检索方法只在属性集较大时才具有较好的分类效果,当属性集只包含10000个属性时,分类准确率很低,只有58.0%。而我们发明的“基于改进空间向量模型的KNN最近邻分类器分类方法”在所有属性集上都具有很高的分类准确率。
权利要求
1.一种自动识别分类广告类型的广告分类方法,其特征在于,用JAVA语言编制程序,运行在计算机内,并把KNN算法引入到基于空间向量模型的线性分析器,以便一次性的对关键词相似的广告进行自动分类,该分类方法在计算机内执行时依次含有以下步骤
一、在学习阶段
步骤1输入广告类型集;
步骤2确定采用的属性单位以及线性分类器类型;
步骤3对广告类型集进行预处理;
步骤4属性抽取对广告类型集进行索引,得到原始属性集以及各广告类型的频度向量,广告类型用D表示,属性频度用t表示,是指出现在广告类型中且能够代表该类型的基本语言单位,主要是由词或者短语构成,广告类型可以用属性频度的集合表示为D(T1,T2,…,Tn),其中Tk是属性频度,1<=k<=N;
步骤5对原始属性集进行采用现有降维操作,即频度、权重,得到属性集,降维最基本的思想,就是利用迭代的方法,在降维空间中定位特征向量,使得它们之间的距离和相异性被尽可能多的保留下来,为了达到这个目的,在迭代中需要不断减小下面的平方误差度量
p=∑[d*(xi,xj)-f(d(xi,xj))]2,式中,
xi,xj是任意的不同样本对(i≠j),d(xi,xj)是xi和xj之间的原始的相异程度,d*(xi,xj)是低维空间中转换后的相异程度,f是一个单调变换函数;
步骤6以类型为单位,合并各广告的频度向量,得到类型的轮廓描述频度向量;
步骤7对含有n个属性值的广告类型而言,通常会给每个属性赋予一定的权重表示其重要程度,即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),为广告类型D的向量表示,其中Wk是Tk的权重,1<=k<=N,权重的计算方法使用特征频度-逆文档频度(TF*IDF)权重计算方法,TF*IDF方法使用词汇的出现频率来近似代表其重要程度,公式为
其中Wij表示词汇Term i在广告Document j的权重,Tf(tj,dj)表示i在j中出现的频率,df(ti)表示含有词汇i的广告的出现次数。M是所有广告的数目;
步骤8在向量空间模型中,两个概念D1和D2之间的内容相关度Sim(D1,D2)使用向量之间夹角的余弦值表示,公式为
步骤9根据下式,构建相应的线性分类器
其中
表示概念
是否属于分类cj,
取值为0或1,表示概念
是否属于分类cj,
表示测试概念
和周围概念
的相似程度,使用(8)提到的空间向量模型相似公式来表示,bj是分类的阀值,需要通过反复的调试才能得到较好的值;
步骤10用一部分测试类型作为待分类类型,按照分类阶段的步骤对上一步骤得到的分类器进行测试,优化分类器的性能;
学习阶段结束;
二、在分类阶段
步骤1输入待分类广告类型(集);
步骤2按学习阶段相同的方法对待分类广告进行预处理;
步骤3根据学习阶段建立的属性集为待分类广告建立索引,得到广告类型权重向量,见学习阶段步骤7;
步骤4计算待分类广告的权重向量;
步骤5按分类器进行自动分类,见学习阶段步骤9得到分类结果;分类阶段结束。
全文摘要
本发明涉及一种自动识别分类广告类型的广告分类方法,其特征在于,用JAVA语言编制程序,运行在计算机内,并把KNN算法引入到基于空间向量模型的线性分析器,以便一次性的对关键词相似的广告进行自动分类,本发明的优点是能够根据用户提交的广告标题和内容自动判断广告的类型,并提高分类准确率。
文档编号G06Q30/00GK101097570SQ20061002830
公开日2008年1月2日 申请日期2006年6月29日 优先权日2006年6月29日
发明者陈壮坚, 丽 徐 申请人:上海唯客网广告传播有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1