本申请涉及网络技术领域,尤其涉及一种搜索引擎优化(Search Engine Optimization,SEO)词库的分类模型建立方法、关键词选取方法及装置。
背景技术:
SEO技术是指在明确搜索引擎自然排名机制的基础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的关键词自然排名,获得更多流量,从而达成网站销售及品牌建设目标的技术。SEO词库建设是SEO技术中的一个重要环节,SEO词库中的关键词将被生成符合网站统一资源定位符(Uniform Resource Locator,URL)规则的静态URL,并生成网站地图信息,提交给各搜索引擎,以便各搜索引擎的爬虫前来爬取,从而使得网站有机会在各搜索引擎的搜索结果进行展示。可见,SEO词库中关键词质量的高低会决定网站在搜索结果中的排名情况。
相关技术中,采用人工过滤的方式筛选SEO词库中的关键词。该方式耗时较长,筛选效率很低,在SEO词库建设初期关键词数量不大时,该方式还能够满足需求,随着网站规模变大,需要投放到搜索引擎的关键词数以百万、千万计,该方式则无法满足需求。因此,目前亟需一种SEO词库的分类模型建立方法,来实现自动筛选SEO词库中的关键词。
技术实现要素:
本申请实施例提供一种SEO词库的分类模型建立方法、关键词选取方法及装置,用以实现自动筛选SEO词库的关键词。
根据本申请实施例,提供一种SEO词库的分类模型建立方法,包括:
从SEO词库中选取第一关键词,得到样本集合;
确定所述样本集合中每个第一关键词的属性特征的取值;
划分每个属性特征的取值范围,得到每个属性特征的取值子范围;
计算所述样本集合的合格概率和不合格概率,并根据每个第一关键词的属性特征的取值计算所述样本集合中每个属性特征的取值子范围的合格概率和不合格概率;
将所述样本集合的合格概率和不合格概率,以及所述样本集合中每个属性特征的取值 子范围的合格概率和不合格概率确定为所述SEO词库的分类模型。
具体的,从SEO词库中选取第一关键词,具体包括:
过滤SEO词库中的非法字符;
采用取模方法从所述SEO词库过滤后剩余的关键词中选取第一关键词;或者,从所述SEO词库过滤后剩余的关键词中随机选取第一关键词。
具体的,确定所述样本集合中每个第一关键词的属性特征的取值,具体包括:
依次获取所述样本集合中的每个第一关键词,针对当前第一关键词执行:
获取与所述当前第一关键词对应的搜索结果列表;
计算所述搜索结果列表中每个搜索结果与所述当前第一关键词的相关度,得到对应搜索结果的档位;
选取档位大于设定档位的搜索结果,得到与所述当前第一关键词对应的选定搜索结果;
计算与所述当前第一关键词对应的选定搜索结果的总数、平均档位和档位方差。
具体的,根据每个第一关键词的属性特征的取值计算所述样本集合中每个属性特征的取值子范围的合格概率和不合格概率,具体包括:
确定每个第一关键词的属性特征的取值所落入的对应属性特征的取值子范围;
统计所述样本集合中每个属性特征的每个取值子范围包括的第一关键词的数量;
根据所述样本集合的合格概率和不合格概率分别计算所述样本集合中合格的第一关键词的数量和不合格的第一关键词的数量;
将所述样本集合中每个属性特征的每个取值子范围包括的第一关键词的数量分别与所述样本集合中合格的第一关键词的数量和不合格的第一关键词的数量相除,得到所述样本集合中对应属性特征的对应取值子范围的合格概率和不合格概率。
可选的,还包括:
获取第二关键词;
确定所述第二关键词的属性特征的取值;
根据所述第二关键词的属性特征的取值和所述SEO词库的分类模型计算所述第二关键词的合格概率和不合格概率;
若所述第二关键词的合格概率大于或等于所述第二关键词的不合格概率,确定所述第二关键词合格,将所述第二关键词加入所述SEO词库中;
若所述第二关键词的合格概率小于所述第二关键词的不合格概率,确定所述第二关键词不合格,不将所述第二关键词加入所述SEO词库中。
可选的,还包括:
获取所述SEO词库中的每个关键词对应的静态统一资源定位符URL在各个搜索引擎中的排名以及带来的流量;
将对应的静态URL在各个搜索引擎中的排名位于设定位置之后和/或带来的流量小于设定流量的关键词加入灰名单中。
可选的,还包括:
监控所述SEO词库中关键词的数量是否小于设定阈值、以及第一监控周期是否到期;
若所述SEO词库中关键词的数量小于所述设定阈值和/或所述第一监控周期到期后,执行从SEO词库中选取第一关键词,得到样本集合的步骤。
根据本申请实施例,还提供一种搜索引擎优化SEO词库的关键词选取方法,包括:
获取第二关键词;
确定所述第二关键词的属性特征的取值;
根据所述第二关键词的属性特征的取值和SEO词库的分类模型计算所述第二关键词的合格概率和不合格概率,所述SEO词库的分类模型是根据上述SEO词库的分类模型建立方法得到的;
若所述第二关键词的合格概率大于或等于所述第二关键词的不合格概率,确定所述第二关键词合格,将所述第二关键词加入所述SEO词库中;
若所述第二关键词的合格概率小于所述第二关键词的不合格概率,确定所述第二关键词不合格,不将所述第二关键词加入所述SEO词库中。
根据本申请实施例,还提供一种SEO词库的分类模型建立装置,包括:
选取单元,用于从SEO词库中选取第一关键词,得到样本集合;
第一确定单元,用于确定所述样本集合中每个第一关键词的属性特征的取值;
划分单元,用于划分每个属性特征的取值范围,得到每个属性特征的取值子范围;
第一计算单元,用于计算所述样本集合的合格概率和不合格概率,并根据每个第一关键词的属性特征的取值计算所述样本集合中每个属性特征的取值子范围的合格概率和不合格概率;
第二确定单元,用于将所述样本集合的合格概率和不合格概率,以及所述样本集合中 每个属性特征的取值子范围的合格概率和不合格概率确定为所述SEO词库的分类模型。
具体的,所述选取单元,用于从SEO词库中选取第一关键词,具体用于:
过滤SEO词库中的非法字符;
采用取模方法从所述SEO词库过滤后剩余的关键词中选取第一关键词;或者,从所述SEO词库过滤后剩余的关键词中随机选取第一关键词。
具体的,所述第一确定单元,用于确定所述样本集合中每个第一关键词的属性特征的取值,具体用于:
依次获取所述样本集合中的每个第一关键词,针对当前第一关键词执行:
获取与所述当前第一关键词对应的搜索结果列表;
计算所述搜索结果列表中每个搜索结果与所述当前第一关键词的相关度,得到对应搜索结果的档位;
选取档位大于设定档位的搜索结果,得到与所述当前第一关键词对应的选定搜索结果;
计算与所述当前第一关键词对应的选定搜索结果的总数、平均档位和档位方差。
具体的,所述第一计算单元,用于根据每个第一关键词的属性特征的取值计算所述样本集合中每个属性特征的取值子范围的合格概率和不合格概率,具体用于:
确定每个第一关键词的属性特征的取值所落入的对应属性特征的取值子范围;
统计所述样本集合中每个属性特征的每个取值子范围包括的第一关键词的数量;
根据所述样本集合的合格概率和不合格概率分别计算所述样本集合中合格的第一关键词的数量和不合格的第一关键词的数量;
将所述样本集合中每个属性特征的每个取值子范围包括的第一关键词的数量分别与所述样本集合中合格的第一关键词的数量和不合格的第一关键词的数量相除,得到所述样本集合中对应属性特征的对应取值子范围的合格概率和不合格概率。
可选的,还包括:
第一获取单元,用于获取第二关键词;
第三确定单元,用于确定所述第二关键词的属性特征的取值;
第二计算单元,用于根据所述第二关键词的属性特征的取值和所述SEO词库的分类模型计算所述第二关键词的合格概率和不合格概率;
第一加入单元,用于若所述第二关键词的合格概率大于或等于所述第二关键词的不合 格概率,确定所述第二关键词合格,将所述第二关键词加入所述SEO词库中;若所述第二关键词的合格概率小于所述第二关键词的不合格概率,确定所述第二关键词不合格,不将所述第二关键词加入所述SEO词库中。
可选的,还包括:
第二获取单元,用于获取所述SEO词库中的每个关键词对应的静态统一资源定位符URL在各个搜索引擎中的排名以及带来的流量;
第二加入单元,用于将对应的静态URL在各个搜索引擎中的排名位于设定位置之后和/或带来的流量小于设定流量的关键词加入灰名单中。
可选的,还包括:
监控单元,用于监控所述SEO词库中关键词的数量是否小于设定阈值、以及第一监控周期是否到期;若所述SEO词库中关键词的数量小于所述设定阈值和/或所述第一监控周期到期,转向所述选取单元。
根据本申请实施例,还提供一种搜索引擎优化SEO词库的关键词选取装置,包括:
获取单元,用于获取第二关键词;
确定单元,用于确定所述第二关键词的属性特征的取值;
计算单元,用于根据所述第二关键词的属性特征的取值和SEO词库的分类模型计算所述第二关键词的合格概率和不合格概率;
选取单元,用于若所述第二关键词的合格概率大于或等于所述第二关键词的不合格概率,确定所述第二关键词合格,将所述第二关键词加入所述SEO词库中;若所述第二关键词的合格概率小于所述第二关键词的不合格概率,确定所述第二关键词不合格,不将所述第二关键词加入所述SEO词库中。
本申请实施例提供一种SEO词库的分类模型建立方法、关键词选取方法及装置,从SEO词库中选取第一关键词,得到样本集合;确定所述样本集合中每个第一关键词的属性特征的取值;划分每个属性特征的取值范围,得到每个属性特征的取值子范围;计算所述样本集合的合格概率和不合格概率,并根据每个第一关键词的属性特征的取值计算所述样本集合中每个属性特征的取值子范围的合格概率和不合格概率;将所述样本集合的合格概率和不合格概率,以及所述样本集合中每个属性特征的取值子范围的合格概率和不合格概率确定为所述SEO词库的分类模型。该方案可以实现自动建立SEO词库的分类模型,进而可以实现自动筛选SEO词库的关键词,相对于相关技术中通过人工过滤筛选SEO词库的关键词的方式,耗时较短,筛选效率较高。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种SEO词库的分类模型建立方法的流程图;
图2为本申请实施例中S11的流程图;
图3为本申请实施例中S12的流程图;
图4为本申请实施例中S14的流程图;
图5为本申请实施例中另一种SEO词库的分类模型建立方法的流程图;
图6为本申请实施例中再一种SEO词库的分类模型建立方法的流程图;
图7为本申请实施例中再一种SEO词库的分类模型建立方法的流程图;
图8为本申请实施例中一种SEO词库的分类模型建立装置的结构示意图;
图9为本申请实施例中另一种SEO词库的分类模型建立装置的结构示意图;
图10为本申请实施例中再一种SEO词库的分类模型建立装置的结构示意图;
图11为本申请实施例中再一种SEO词库的分类模型建立装置的结构示意图;
图12为申请实施例中一种SEO词库的关键词选取方法的流程图;
图13为申请实施例中一种SEO词库的关键词选取装置的结构示意图。
具体实施方式
为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了实现自动筛选SEO词库中的关键词,本申请实施例提供一种SEO词库的分类模型建立方法,该方法可以应用在各个网站的SEO词库中,流程如图1所示,具体包括如下步骤:
S11:从SEO词库中选取第一关键词,得到样本集合。
目前,很多网站都有专门的SEO词库,在对SEO词库中的关键词进行筛选之前,需要首先建立该SEO词库的分类模型。通常SEO词库的关键词的数量会非常大,为了提升建立 分类模型的效率,可以从SEO词库中选取全部或部分关键词,选取的这些关键词即为第一关键词,所有的第一关键词组成样本集合。
S12:确定样本集合中每个第一关键词的属性特征的取值。
第一关键词的属性特征可以有很多,例如与第一关键词对应的选定搜索结果的总数、平均档位和档位方差等等,以下以这三种属性特征为例进行说明。
S13:划分每个属性特征的取值范围,得到每个属性特征的取值子范围。
筛选SEO词库中的关键词只是考虑关键词是否应该存在于SEO词库中,属于简单的二元分类,因此,可以采用朴素贝叶斯分类算法进行确定。朴素贝叶斯分类算法的思想基础是这样的:对于给出的待分类项,求解在各个类别下该待分类项出现的概率,即:P(a1|y1)和P(a1|y2),哪个类别的概率大,就认为该待分类项属于哪个类别。
在本申请实施例中,将样本集合中的关键词分为两类:应该进入SEO词库和不应该进入SEO词库。对于这两类,对与第一关键词对应的选定搜索结果的总数、平均档位和档位方差进行概率统计。由于这三个属性特征的取值是连续的,所以需要划分每个属性特征的取值范围,得到每个属性特征的取值子范围,具体可以根据经验进行划分。
例如,可以根据经验,将与第一关键词对应的选定搜索结果的总数a1划分为三个取值子范围:{a1≤20,20<a1≤40,a1>40},将与第一关键词对应的选定搜索结果的平均档位a2划分为三个取值子范围:{a2≤3,3<a2≤6,a2>6},将与第一关键词对应的选定搜索结果的档位方差a3分为两个取值子范围:{a3≤1.2,a3>1.2}。
S14:计算样本集合的合格概率和不合格概率,并根据每个第一关键词的属性特征的取值计算样本集合中每个属性特征的取值子范围的合格概率和不合格概率。
继续沿用上例,在确定每个属性特征的取值子范围后,计算样品集合的合格概率和不合格概率,可以但不限于采用经验预估的方式,例如,可以预估样品集合的合格概率为60%,样品集合的不合格概率为40%。
然后根据S12中确定的每个第一关键词的属性特征的取值计算样品集合中每个属性特征的取值子范围的合格概率和不合格概率。
S15:将样本集合的合格概率和不合格概率,以及样本集合中每个属性特征的取值子范围的合格概率和不合格概率确定为SEO词库的分类模型。
S14中计算得到的结果就是SEO词库的分类模型。
该方案可以实现自动建立SEO词库的分类模型,进而可以实现自动筛选SEO词库的关键词,相对于相关技术中通过人工过滤筛选SEO词库的关键词的方式,耗时较短,筛选效 率较高。
下面详细介绍上面各步骤。
具体的,上述S11中的从SEO词库中选取第一关键词的实现过程,如图2所示,具体包括:
S111:过滤SEO词库中的非法字符。
通常SEO词库中可能会包括很多非法字符,例如→、×、等等,这些字符不能投放到搜索引擎中进行自然排名使用,为非法字符,因此,首先需要过滤掉SEO词库中的这些非法字符。
S112:采用取模方法从SEO词库过滤后剩余的关键词中选取第一关键词;或者,从SEO词库过滤后剩余的关键词中随机选取第一关键词。
可以采用取模方法从SEO词库过滤后剩余的关键词中选取第一关键词,例如,如果模为5,可以每隔5个关键词取一个第一关键词;还可以从SEO词库过滤后剩余的关键词中随机选取第一关键词,当然这也包括将SEO词库过滤后剩余的关键词全部作为第一关键词的情况。
具体的,上述S12中的确定样本集合中每个第一关键词的属性特征的取值的实现过程如图3所示,具体包括:
S121:依次获取样本集合中的每个第一关键词。
S122:针对当前第一关键词执行:获取与当前第一关键词对应的搜索结果列表。
当前获取的第一关键词为当前第一关键词,可以首先获取当前第一关键词对应的搜索结果列表,通常当前第一关键词会生成多个静态URL,这些静态URL可能会被搜索引擎的爬虫爬取作为搜索结果进行展示,网站可以获取包括这些搜索结果的搜索结果列表来确定该关键词的属性特征的取值,具体可以构造搜索结果列表请求URL,通过该URL向搜索引擎请求获取与当前第一关键词对应的搜索结果列表。
S123:计算搜索结果列表中每个搜索结果与当前第一关键词的相关度,得到对应搜索结果的档位。
搜索结果列表中的搜索结果可以是URL,网站可以获取每个URL对应的网页中包括的信息,然后计算每个URL对应的网页中包括的信息与当前第一关键词的相关度,作为对应URL的档位。
S124:选取档位大于设定档位的搜索结果,得到与当前第一关键词对应的选定搜索结果。
与当前第一关键词对应的搜索结果列表中的搜索结果并不都适合参与确定当前第一关键词的属性特征的取值,因此可以选取一部分搜索结果,例如,可以选取档位大于设定档位的搜索结果作为与当前第一关键词对应的选定搜索结果。其中,设定档位可以根据实际需要进行设定。
S125:计算与当前第一关键词对应的选定搜索结果的总数、平均档位和档位方差。
为了确定与当前第一关键词对应的选定搜索结果的整体相关性,可以计算与当前第一关键词对应的所有选定搜索结果的平均档位;为了避免相关性的波动性太大,还可以引入档位方差。与当前第一关键词对应的选定搜索结果的总数、平均档位和档位方差就是当前第一关键词的属性特征的取值。
相应地,上述S14中的根据每个第一关键词的属性特征的取值计算样本集合中每个属性特征的取值子范围的合格概率和不合格概率的实现过程,如图4所示,具体包括:
S141:确定每个第一关键词的属性特征的取值所落入的对应属性特征的取值子范围。
S142:统计样本集合每个属性特征的每个取值子范围包括的第一关键词的数量。
例如,统计a1≤20的第一关键词的数量为b1,20<a1≤40的第一关键词的数量为b2,a1>40的第一关键词的数量为b3,a2≤3的第一关键词的数量为b4,3<a2≤6的第一关键词的数量为b5,a2>6的第一关键词的数量为b6,a3≤1.2的第一关键词的数量为b7,a3>1.2的第一关键词的数量为b8。
S143:根据样本集合的合格概率和不合格概率分别计算样本集合中合格的第一关键词的数量和不合格的第一关键词的数量。
假设样本集合的第一关键词的数量为c,样本集合的合格概率为d1,样本集合的不合格概率为d2,那么,样本集合中合格的第一关键词的数量为c1=cd1,样本集合中不合格的第一关键词的数量c2=cd2。
S144:将样本集合中每个属性特征的每个取值子范围包括的第一关键词的数量分别与样本集合中合格的第一关键词的数量和不合格的第一关键词的数量相除,得到样本集合中对应属性特征的对应取值子范围的合格概率和不合格概率。
继续沿用上例,可以得到:a1≤20的合格概率为b1/c1,20<a1≤40的合格概率为b2/c1,a1>40的合格概率为b3/c1,a2≤3的合格概率为b4/c1,3<a2≤6的合格概率为b5/c1,a2>6的合格概率为b6/c1,a3≤1.2的合格概率为b7/c1,a3>1.2的合格概率为b8/c1;a1≤20的不合格概率为b1/c2,20<a1≤40的不合格概率为b2/c2,a1>40的第一关键词的不合格概率为b3/c2,a2≤3的不合格概率为b4/c2,3<a2≤6的不合格概率为b5/c2,a2>6的不合格概率为b6/c2,a3≤1.2的不合格概率为b7/c2,a3>1.2的不合格概率为b8/c2。
本申请实施例还提供另一种SEO词库的分类模型建立方法,如图5所示,在如图1的基础上还包括:
S16:获取第二关键词。
可以应用S11-S15中建立SEO词库的分类模型来确定是否需要将第二关键词加入SEO词库中,其中,第二关键词可以是SEO词库中已有的关键词,也可以是SEO词库之外的关键词。
S17:确定第二关键词的属性特征的取值。
确定的方法可以与参见S12的描述。
S18:根据第二关键词的属性特征的取值和SEO词库的分类模型计算第二关键词的合格概率和不合格概率。
S19:确定第二关键词的合格概率是否小于第二关键词的不合格概率,若第二关键词的合格概率大于或等于第二关键词的不合格概率,执行S20;若第二关键词的合格概率小于第二关键词的不合格概率,执行S21。
S20:确定第二关键词合格,将第二关键词加入SEO词库中。
S21:确定第二关键词不合格,不将第二关键词加入SEO词库中。
下面列举一个实例进行说明,若第二关键词x的属性特征的取值为{a1=30,a2=8,a3=1.4},那么,x的合格概率为:
P(c=1|x)=P(c=1)P(20<a1≤40|c=1)P(a2>7|c=1)P(a3>1.2|c=1);
x的不合格概率为:
P(c=0|x)=P(c=0)P(20<a1≤40|c=0)P(a2>7|c=0)P(a3>1.2|c=0);
若P(c=1|x)≥P(c=0|x),则确定x合格,将x加入SEO词库中;若P(c=1|x)<P(c=0|x),则确定x不合格,不将x加入SEO词库中。
该方案中应用S11-S15建立的SEO词库的分类模型确定是否应该将第二关键词加入到SEO词库中,既实现自动筛选SEO词库中的关键词,也可以确定SEO词库之外的关键词是否需要加入到SEO词库中。
本申请实施例还提供再一种SEO词库的分类模型建立方法,如图6所示,在如图1的基础上,还包括:
S22:获取SEO词库中的每个关键词对应的静态URL在各个搜索引擎中的排名以及带来的流量。
S23:将对应的URL在各个搜索引擎中的排名位于设定位置之后和/或带来的流量小于设定流量的关键词加入灰名单中。
建立SEO词库的分类模型后,还可以确定SEO词库中的关键词是否需要加入灰名单中,灰名单中的关键词是不适合继续存在于SEO词库的关键词,具体可以分析应用日志,确定关键词对应的静态URL(网页)是否被搜索引擎的爬虫所爬取,若被爬虫爬取,调用监控程序监控搜索引擎。监控程序可以获取到关键词对应的静态URL在搜索引擎中的排名,以及给网站带来的流量(例如,用户点击量、用户收藏量、用户购买量等等),若对应的URL在各个搜索引擎中的排名位于设定位置之后和/或带来的流量小于设定流量的关键词加入灰名单中,其中,设定位置和设定流量可以根据实际需要进行设定。
该方案中SEO词库中的关键词并不是一成不变的,而是要实时监控SEO词库中的关键词是否合适继续存在于SEO词库中,若不适合就将该关键词加入灰名单中,从而可以确保SEO词库中的关键词的质量,进而提升网站在搜索引擎中的排名。
本申请实施例还提供再一种SEO词库的分类模型建立方法,如图7所示,在如图1的基础上,还包括:
S24:监控SEO词库中关键词的数量是否小于设定阈值、以及第一监控周期是否到期,若SEO词库中关键词的数量小于设定阈值和/或第一监控周期到期,执行S11。
建立SEO词库的分类模型后,还可以监控SEO词库中关键词的数量是否小于设定阈值、以及第一监控周期是否到期,若SEO词库中关键词的数量小于设定阈值和/或第一监控周期到期,说明SEO词库的分类模型准确性非常差,这时可以重新执行S11来确定SEO词库的分类模型,从而实现自动进行SEO词库的分类模型训练,进而实现SEO词库的自我更新优化。
基于同一发明构思,本申请实施例还提供一种SEO词库的分类模型建立装置,该装置的结构如8图所示,包括选取单元81、第一确定单元82、划分单元83、第一计算单元84和第二确定单元85,其中:
上述选取单元81,用于从SEO词库中选取第一关键词,得到样本集合;
上述第一确定单元82,用于确定样本集合中每个第一关键词的属性特征的取值;
上述划分单元83,用于划分每个属性特征的取值范围,得到每个属性特征的取值子范围;
上述第一计算单元84,用于计算样本集合的合格概率和不合格概率,并根据每个第一关键词的属性特征的取值计算样本集合中每个属性特征的取值子范围的合格概率和不合格概率;
上述第二确定单元85,用于将样本集合的合格概率和不合格概率,以及样本集合中每个属性特征的取值子范围的合格概率和不合格概率确定为SEO词库的分类模型。
该方案可以实现自动建立SEO词库的分类模型,进而可以实现自动筛选SEO词库的关键词,相对于相关技术中通过人工过滤筛选SEO词库的关键词的方式,耗时较短,筛选效率较高。
具体的,上述选取单元81,用于从SEO词库中选取第一关键词,具体用于:
过滤SEO词库中的非法字符;
采用取模方法从SEO词库过滤后剩余的关键词中选取第一关键词;或者,从SEO词库过滤后剩余的关键词中随机选取第一关键词。
具体的,上述第一确定单元82,用于确定样本集合中每个第一关键词的属性特征的取值,具体用于:
依次获取样本集合中的每个第一关键词,针对当前第一关键词执行:
获取与当前第一关键词对应的搜索结果列表;
计算搜索结果列表中每个搜索结果与当前第一关键词的相关度,得到对应搜索结果的档位;
选取档位大于设定档位的搜索结果,得到与当前第一关键词对应的选定搜索结果;
计算与当前第一关键词对应的选定搜索结果的总数、平均档位和档位方差。
具体的,上述第一计算单元84,用于根据每个第一关键词的属性特征的取值计算样本集合中每个属性特征的取值子范围的合格概率和不合格概率,具体用于:
确定每个第一关键词的属性特征的取值所落入的对应属性特征的取值子范围;
统计样本集合中每个属性特征的每个取值子范围包括的第一关键词的数量;
根据样本集合的合格概率和不合格概率分别计算样本集合中合格的第一关键词的数量和不合格的第一关键词的数量;
将样本集合中每个属性特征的每个取值子范围包括的第一关键词的数量分别与样本集合中合格的第一关键词的数量和不合格的第一关键词的数量相除,得到样本集合中对应属性特征的对应取值子范围的合格概率和不合格概率。
本申请实施例还提供另一种SEO词库的分类模型建立装置,与图8所示的装置相同的单元省略不表,如图9所示,在图8所示的装置的基础上还包括第一获取单元86、第三确定单元87、第二计算单元88和第一加入单元89,其中:
上述第一获取单元86,用于获取第二关键词;
上述第三确定单元87,用于确定第二关键词的属性特征的取值;
上述第二计算单元88,用于根据第二关键词的属性特征的取值和SEO词库的分类模型计算第二关键词的合格概率和不合格概率;
上述第一加入单元89,用于若第二关键词的合格概率大于或等于第二关键词的不合格概率,确定第二关键词合格,将第二关键词加入SEO词库中;若第二关键词的合格概率小于第二关键词的不合格概率,确定第二关键词不合格,不将第二关键词加入SEO词库中。
本申请实施例还提供再一种SEO词库的分类模型建立装置,与图8所示的装置相同的单元省略不表,如图10所示,在图8所示的装置的基础上,还包括第二获取单元90和第二加入单元91,其中:
上述第二获取单元90,用于获取SEO词库中的每个关键词对应的静态统一资源定位符URL在各个搜索引擎中的排名以及带来的流量;
上述第二加入单元91,用于将对应的静态URL在各个搜索引擎中的排名位于设定位置之后和/或带来的流量小于设定流量的关键词加入灰名单中。
本申请实施例还提供再一种SEO词库的分类模型建立装置,与图8所示的装置相同的单元省略不表,如11所示,在图8所示的装置的基础上,还包括:
监控单元92,用于监控SEO词库中关键词的数量是否小于设定阈值、以及第一监控周期是否到期;若SEO词库中关键词的数量小于设定阈值和/或第一监控周期到期,转向选取单元81。
基于同一发明构思,本申请实施例还一种SEO词库的关键词选取方法,如图12所示,该方法具体包括如下步骤:
S121:获取第二关键词。
第二关键词可以是SEO词库中已有的关键词,也可以是SEO词库之外的关键词。
S122:确定第二关键词的属性特征的取值。
确定的方法可以与参见S12的描述。
S123:根据第二关键词的属性特征的取值和SEO词库的分类模型计算第二关键词的合格概率和不合格概率,SEO词库的分类模型是根据上述SEO词库的分类模型建立方法得到的。
S124:确定第二关键词的合格概率是否小于第二关键词的不合格概率,若第二关键词的合格概率大于或等于第二关键词的不合格概率,执行S125;若第二关键词的合格概率小 于第二关键词的不合格概率,执行S126。
S125:确定第二关键词合格,将第二关键词加入SEO词库中。
S126:确定第二关键词不合格,不将第二关键词加入SEO词库中。
下面列举一个实例进行说明,若第二关键词x的属性特征的取值为{a1=25,a2=5,a3=1.1},那么,x的合格概率为:
P(c=1|x)=P(c=1)P(20<a1≤40|c=1)P(3<a2≤6|c=1)P(a3≤1.2|c=1);
x的不合格概率为:
P(c=0|x)=P(c=0)P(20<a1≤40|c=0)P(3<a2≤6|c=0)P(a3≤1.2|c=0);
若P(c=1|x)≥P(c=0|x),则确定x合格,将x加入SEO词库中;若P(c=1|x)<P(c=0|x),则确定x不合格,不将x加入SEO词库中。
该方案中根据上述SEO词库的分类模型建立方法建立的SEO词库的分类模型确定是否将第二关键词加入到SEO词库中,既实现自动筛选SEO词库中的关键词,也可以确定SEO词库之外的关键词是否需要加入到SEO词库中,从而可以对SEO词库中的关键词进行有效地质量监控,进而提升网站在搜索引擎中的排名。
基于同一发明构思,本申请实施例还提供一种SEO词库的关键词选取装置,该装置与如图12所示的SEO词库的关键词选取装置相对应,如图13所示,该装置包括获取单元131、确定单元132、计算单元133和选取单元134。其中:
上述获取单元131,用于获取第二关键词。
上述确定单元132,用于确定第二关键词的属性特征的取值。
上述计算单元133,用于根据第二关键词的属性特征的取值和SEO词库的分类模型计算第二关键词的合格概率和不合格概率。
上述选取单元134,用于若第二关键词的合格概率大于或等于第二关键词的不合格概率,确定第二关键词合格,将第二关键词加入SEO词库中;若第二关键词的合格概率小于第二关键词的不合格概率,确定第二关键词不合格,不将第二关键词加入SEO词库中。
该方案中根据上述SEO词库的分类模型建立方法建立的SEO词库的分类模型确定是否将第二关键词加入到SEO词库中,既实现自动筛选SEO词库中的关键词,也可以确定SEO词库之外的关键词是否需要加入到SEO词库中,从而可以对SEO词库中的关键词进行有效地质量监控,进而提升网站在搜索引擎中的排名。
上述说明示出并描述了本申请的优选实施例,但如前所述,应当理解本申请并非局限 于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。