基于决策树算法的seo关键词竞争程度计算方法

文档序号:6613783阅读:269来源:国知局
专利名称:基于决策树算法的seo关键词竞争程度计算方法
技术领域
本发明涉及一种SEO领域中的关键词竞争程度计算方法,特别是基于决策树算法的SEO关键词竞争程度计算方法。
背景技术
关键词是浏览者在搜索引擎中查找信息时输入的词语,这些关键词在SE0(SearchEngine Optimization,搜索引擎优化)中扮演着重要的角色,选择合理的关键词才能够迎合用户特定的搜索目标。只有选择正确的关键词,才能使网站SEO走在正确的大方向上。确定什么样的关键词决定了网站内容规划、链接建设等重要后续步骤。但是现有的SEO关键词计算方法基本都是定性描述的,如很多文献给出了关键词选择的准则,归纳有以下几 点①关键词不能过于宽泛关键词不要过于冷门;③要符合用户的搜索习惯可以将地理位置、形容词类的关键词与提供产品或者服务的关键词名称合并,形成长尾关键词竞争度会更强等。采用定性方法进行SEO关键词分析,很大程度上需要凭借SEO人员的经验进行,准确度不高。因此,如何快速、准确地对SEO关键词竞争度进行量化分析,成为SEO人员迫切需要解决的重要问题。

发明内容
本发明的目的是提供一种基于决策树算法的SEO关键词竞争程度计算方法,克服了人工凭借经验进行SEO关键词竞争程度计算效率低、准确性差的问题。本发明所采用的技术方案是基于决策树算法的SEO关键词竞争程度计算方法,包括以下步骤(I)选取关键词搜索结果数量P1、使用intitle指令搜索得到的结果页面数P2、搜索结果是否存在付费推广P3、搜索结果第一页中网站内页数P4、关键词在搜索结果第一页标题中出现的次数P5、关键词长度P6作为关键词竞争程度C的影响因素;(2)训练数据集的生成按照“关键词,Pl,P2,P3,P4,P5,P6,C”为一条优化数据记录,整理历史优化数据,并对相应的属性进行概化,形成训练数据集;(3)根据训练数据集构建决策树以P1-P6为非类别属性,以C为类别属性,采用C4. 5算法构建出相应的决策树,该决策树等价于一系列规则;(4)应用决策树进行关键词竞争程度分析将待决策的SEO关键词数据引入到上述决策树中去,并计算出相应的分析结果。所述步骤(2)的属性值概化方法如下将Pl 属性概化为四个区间,SP {S1 :
};
将P5 属性概化为三个区间,即{VI :
};将P6 属性概化为四个区间,SP :{ffl :
I)以Ρ1-Ρ6为非类别属性,以C为类别属性,根据信息增益率公式,计算出当前信息增益率最大的属性;2)将该属性作为树的根节点;3)根据该属性值的个数将训练表中的数据分为相应的分支;4)对于每个分支,重复I)-3)的过程,直到所有的数据都用光为止;5)将I) -4)过程中找到的属性连起来,就是一个决策树,叶子节点上是“竞争很强”,“竞争较强”,“竞争较小”,“竞争很小”这四个类别值。所述步骤(4)还包括以下步骤a).记录需要预测的关键词,获取其对应的影响因素P1-P6的值,P1-P6的获取可以通过在搜索引擎中输入关键词,查看搜索结果的各项指标的形式完成;b).将记录中与决策树根对应的属性值检索出来,并与决策树根属性的值进行比较,根据比较的结果决定下一层分支点的属性;c).将记录中与决策树下一层分支点属性对应的值提取出来,与该分支点的值比较,根据比较结果决定更下一层分支点的属性;d).重复c)的过程,直到所有的属性值都比较完毕,或者已经到达决策树叶子节点;该决策树叶子节点所对应的数值就是检测结果。本发明的有益效果本发明提供的基于决策树算法的SEO关键词竞争程度计算方法,能够快速、准确的对关键词进行量化分析,给SEO优化人员提供优化建议,提高SEO优化人员的工作效率。
具体实施例方式下面结合具体实施方式
对本发明进行详细说明。基于决策树算法的SEO关键词竞争程度计算方法,首先选取影响关键词竞争程度的因素PL P2,P3,P4,P5和P6,然后按照“关键词,Pl,P2,P3,P4,P5,P6,C,,为一条优化数据记录,整理历史优化数据,并对相应的属性进行概化,形成训练数据集,再以P1-P6为非类别属性,C为类别属性,采用C4. 5算法构建出相应的决策树,最后将待决策的SEO关键词数据引入上决策树中去,并计算出相应的分析结果。该方法的具体步骤如下(I)选取关键词搜索结果数量P1、使用intitle指令搜索得到的结果页面数P2、搜索结果是否存在付费推广P3、搜索结果第一页中网站内页数P4、关键词在搜索结果第一页标题中出现的次数P5、关键词长度P6作为关键词竞争程度的影响因素。以下分别对这些影响因素作出解释分析关键词搜索结果数量Pl :搜索结果页面都会显示关键词返回的相关页面总数。这个结果是搜索引擎经过计算认为与搜索词相关的所有页面,也就是参与这个关键词竞争的所有页面。一般来说,结果数越多,说明和该关键词相关的网络资源越丰富,因此竞争也就越激烈。使用intitle指令搜索得到的结果页面数P2 :该结果数是指通过搜索引擎指令“intitle :关键词”检索得到的结果页面数。有些情况下,单纯搜索关键词返回的结果中包含页面上出现关键词但页面标题中没有出现的页面,这些页面虽然也有一点相关性,但很可能只是偶然在页面上提到关键词而已,并没有针对关键词优化,这些页面针对这个特定关键词的竞争实力很低。采用这种方式检索到的结果能够在一定程度上反映出关键词的竞争情况。 搜索结果是否存在付费推广P3 :指的是搜索结果页面右侧是否有付费推广信息。一般来说广告商内部有专业人员做关键词研究和广告投放,他们必然已经做了详细的竞争程度分析及盈利分析,只有能产生效果和盈利的关键词,他们才会去投放广告。因此,搜索结果是否存在付费推广在某种程度上反映出了关键词的竞争程度,可作为衡量关键词竞争程度的指标之一。搜索结果第一页中网站内页数P4 :检索到的每个结果都有一个链接,这个链接可以是网站内页、列表页,或者是网站的首页。重要程度按首页、列表页、网站内页依次递减,因此,搜索结果第一页中内页数的多少也可以反映出关键词的竞争程度。关键词在搜索结果第一页标题中出现的次数P5:有些情况下,检索关键词仅在检索结果摘要中显示,标题中却不包含关键词,这些页面可能与关键词之间的相关性较小,因此检索关键词在标题中出现的次数也能反映出该关键词的竞争程度。关键词长度P6 :用户输入的关键词越长,代表检索目标越明确,往往造成检索数量越少,因此越长的关键词往往更容易优化到靠前的位置。(2)训练数据集的生成按照“关键词,Pl,P2,P3,P4,P5,P6,C”为一条优化数据记录,整理历史优化数据,并对相应的属性进行概化,形成训练数据集。属性概化方法如下将Pl 属性概化为四个区间,SP {S1 :
};将Ρ5 属性概化为三个区间,即{VI :
};将P6 属性概化为四个区间,SP :{ffl :
3)根据该属性值的个数将训练表中的数据分为相应的分支,如P2在10万-50万范围的记录放入根节点第一个子树分支;4)对于每个分支,重复I) -3)的过程,直到所有的数据都用光为止;5)将I) -4)过程中找到的属性连起来,就是一个决策树,叶子节点上是“竞争很强”,“竞争较强”,“竞争较小”,“竞争很小”这四个类别。C4. 5算法利用信息增益率来选择分类属性,通过递归运算构造决策树分支。①设S是训练集,是s个数据样本的集合,类别属性具有m个不同值Ci,si是类Ci中的样本数,Pi是任意样本属于Ci的概率,并用si/s估计。任意样本分类的期望信息
mI(S1 為,·.·,s,n ) = -YjPi Iog2 (P,)
^=I②由非类别属性A划分为子集的熵
VE(A) = ^(Slj + …+ smJ) Is χ !(Slj +... + Smj)
仁I其中,非类别属性A具有V个不同值{al,a2,一,av}。利用A将S划分为V个子集{SI,S2,其中Sj包含S中在A上具有值aj的样本。Si j是子集Sj中类Ci的样本数。③属性A的信息增益为Gain (A) = I (S1, +S2+. . . +sm) -E (A)④在C4. 5算法中引入属性的分裂信息来纠正信息增益,分裂信息定义如下Spl/ifnformalion(A, S)=-之 #/ ',
T=J I ^ I I ^ I其中,S1到Sc是属性A分割S而形成的c个样本子集。分裂信息是S关于属性A的各值的熵。⑤信息增益比率为
KGaln(A)(jamRa!io(A, Sj =-----
SpI "lnforma I ion (A,,V根据信息增益比率公式的定义将属性P1-P6进行,具有最高信息增益率的属性选作给定集合S的测试属性。创建一个根节点,并以该属性标记,对属性的每个值创建分枝,然后递归建树,最终完成决策树的构造,其中每一个节点都是属性中具有最大增益率的属性。(4)应用决策树进行关键词竞争程度分析将待决策的SEO关键词数据引入到上述决策树中去,并计算出相应的分析结果。该步骤还包括以下步骤a).记录需要预测的关键词,获取其对应的影响因素P1-P6的值,P1-P6的获取可以通过在搜索引擎中输入关键词,查看搜索结果的各项指标的形式完成;b).将记录中与决策树根对应的属性值检索出来,并与决策树根属性的值进行比较,根据比较的结果决定下一层分支点的属性;c).将记录中与决策树下一层分支点属性对应的值提取出来,与该分支点的值比较,根据比较结果决定更下一层分支点的属性;d).重复c)的过程,直到所有的属性值都比较完毕,或者已经到达决策树叶子节点;该决策树叶子节点所对应的数值就是检测结果。
如果某个关键词记录通过上述的1)-4)的过程,达到的叶子节点的值是“竞争很强”,则代表对于该关键词的竞争程度结果是“竞争很强”。
权利要求
1.基于决策树算法的SEO关键词竞争程度计算方法,其特征在于,包括以下步骤 (1)选取关键词搜索结果数量P1、使用intitle指令搜索得到的结果页面数P2、搜索结果是否存在付费推广P3、搜索结果第一页中网站内页数P4、关键词在搜索结果第一页标题中出现的次数P5、关键词长度P6作为关键词竞争程度C的影响因素; (2)训练数据集的生成按照“关键词,Pl,P2,P3,P4,P5,P6,C”为一条优化数据记录,整理历史优化数据,并对相应的属性进行概化,形成训练数据集; (3)根据训练数据集构建决策树以P1-P6为非类别属性,以C为类别属性,采用C4.5算法构建出相应的决策树,该决策树等价于一系列规则; (4)应用决策树进行关键词竞争程度分析将待决策的SEO关键词数据引入到上述决策树中去,并计算出相应的分析结果。
2.根据权利要求I所述的基于决策树算法的SEO关键词竞争程度计算方法,其特征在于,所述步骤(2)的属性值概化方法如下 将Pl属性概化为四个区间,即{S1 :
}; 将 P5 属性概化为三个区间,即{V1 :
}; 将 P6 属性概化为四个区间,SP {ffl [0,6),W2 [6,10),W3 [10, 20)}; 按搜索结果是否存在付费推广P3可划分为Y (存在);N (不存在); C分为四个级别“竞争很强”,“竞争较强”,“竞争较小”,“竞争很小”。其中“竞争很强”指的是由于该关键词竞争激烈,只能优化该关键词为35名之后;“竞争较强”是指优化关键词排名在15至35,“竞争较小”是指将关键词优化到4至12名,“竞争很小”是该关键词能够优化到搜索引擎检索结果的前3名。
3.根据权利要求I或2所述的基于决策树算法的SEO关键词竞争程度计算方法,其特征在于,所述步骤(3)中C4. 5算法是一种贪心算法,即选择最优的一个属性作为下一阶段的检测属性,具体过程如下 1)以P1-P6为非类别属性,以C为类别属性,根据信息增益率公式,计算出当前信息增益率最大的属性; 2)将该属性作为树的根节点; 3)根据该属性值的个数将训练表中的数据分为相应的分支; 4)对于每个分支,重复I)-3)的过程,直到所有的数据都用光为止; 5)将I)-4)过程中找到的属性连起来,就是一个决策树,叶子节点上是“竞争很强”,“竞争较强”,“竞争较小”,“竞争很小”这四个类别值。
4.根据权利要求3所述的基于决策树算法的SEO关键词竞争程度计算方法,其特征在于,所述步骤(4)还包括以下步骤 a).记录需要预测的关键词,获取其对应的影响因素P1-P6的值,P1-P6的获取可以通过在搜索引擎中输入关键词,查看搜索结果的各项指标的形式完成; b).将记录中与决策树根对应的属性值检索出来,并与决策树根属性的值进行比较,根据比较的结果决定下一层分支点的属性; C).将记录中与决策树下一层分支点属性对应的值提取出来,与该分支点的值比较,根据比较结果决定更下一层分支点的属性; d).重复C)的过程,直到所有的属性值都比较完毕,或者已经到达决策树叶子节点;该决策树叶子节点所对应的数值就是检测结果。
全文摘要
本发明公开了一种基于决策树算法的SEO关键词竞争程度计算方法,首先选取影响关键词竞争程度的因素P1,P2,P3,P4,P5和P6,然后按照“关键词,P1,P2,P3,P4,P5,P6和C”为一条优化数据记录,整理历史优化数据,并对相应的属性进行概化,形成训练数据集,再以P1-P6为非类别属性,C为类别属性,采用C4.5算法构建出相应的决策树,最后将待决策的SEO关键词数据引入上决策树中去,并计算出相应的分析结果。本发明能够快速、准确的对关键词进行量化分析,给SEO优化人员提供优化建议,提高SEO优化人员的工作效率。
文档编号G06F17/30GK102968447SQ20121041160
公开日2013年3月13日 申请日期2012年10月24日 优先权日2012年10月24日
发明者朱欣娟, 谭志强 申请人:西安工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1