一种网页标题处理方法和装置与流程

文档序号:11829947阅读:180来源:国知局
一种网页标题处理方法和装置与流程

本申请涉及互联网技术领域,尤其涉及一种网页标题处理方法和装置。



背景技术:

标题是对整个页面的描述即核心,主页的标题更是对整个网站的描述,最直接地告诉用户你是做什么的,提供什么产品或服务。一般在标题上写的都是网站最核心的关键词,标题的好坏是影响关键词排名最直接的因素。

在现有技术中,主要是通过人工的方式进行标题的确定。一般来说,作为站长,如果维护的网页比较少,大部分会比较用心的设置每个网页的标题,方法一般是通过页面表达的内容,提取几个核心的关键词,然后拿关键词去各大搜索引擎搜索,拿到相关的标题,然后从N个别人的标题,拆分、组合出自己页面的标题,修改后过段时间去各大搜索引擎查看新标题的效果;如果维护批量的页面,站长会创建模板,对类似的一批页面批量使用一个模板生成页面标题,过段时间去各大搜索引擎抽样查看投放的效果。

以上方案有以下几个缺点:a、当站长维护的网页较少时,虽然有精力对页面标题进行优化,但缺乏有效的算法进行支撑,人工排查的工作量比较大,优化效率相当低。b、当站长维护大量的网页时,靠人力堆积是不现实的,单一模板生成的批量页面标题对部分页面时正向的,但对另一部分可能是负面的,由于是抽样分析,只能关注整体效果,很难形成持续的优化效果。而且搜索引擎对页面的抓取是没有规律的,短时间内无法对批量页面进行更新,也就无法影响到排名,站长抽样时会遇到很多页面在搜索引擎没有更新的问题,抽 样效率非常低。



技术实现要素:

本申请实施例提出了一种网页标题处理方法和装置,用以解决目前在网页标题的确定上效率低的技术问题。

在一个方面,本申请实施例提供了一种网页标题处理方法,包括:

获得网页内容,对所述网页内容进行解析得到网页单元,提取所述网页单元的特征词;

对所述特征词进行筛选,确定出包含在标题词库中的重点特征词,将所述重点特征词生成标题单元;

根据所述标题单元生成标题集合,并对所述标题集合中的标题进行打分,选择得分最高的标题。

在另一个方面,本申请实施例提供了一种网页标题处理装置,包括:

网页解析子模块,用于获得网页内容,对所述网页内容进行解析得到网页单元;

特征词提取子模块,用于提取所述网页单元的特征词;

词库子模块,用于保存标题词库;

特征词筛选子模块,用于对所述特征词进行筛选,确定出包含在标题词库中的重点特征词;

重点特征词处理子模块,用于将所述重点特征词生成标题单元;

标题集合生成子模块,用于根据所述标题单元生成标题集合;

标题打分子模块,用于对所述标题集合中的标题进行打分,选择得分最高的标题。

有益效果如下:

在本申请中,通过对网页内容进行解析并进行特征提取,能够获得网页的特征词,并通过维护的标题词库对特征词筛选,将包含在标题词库中的重点特 征词作为重点特征词生成标题单元,并根据所述标题单元生成标题集合,并对所述标题集合中的标题进行打分,选择得分最高的标题,从而确定出网页的标题,采用本申请的方案,可以避免人工的太多参与,提高在网页标题的确定上的效率。

附图说明

下面将参照附图描述本申请的具体实施例,其中:

图1示出了本申请实施例中网页标题处理方法的流程图;

图2示出了本申请实施例一中网页标题处理流程中网页投放之前的一个示例流程图;

图3示出了本申请实施例二中网页标题处理流程中网页投放之前的一个示例流程图;

图4示出了本申请实施例三中网页标题处理流程中网页投放之后的一个示例流程图;

图5示出了本申请中一个示例的网页标题处理装置的结构图;

图6示出了本申请中一个示例的网页标题处理装置的结构图;

图7示出了本申请中一个示例的网页标题处理装置的结构图;

图8示出了本申请中一个示例的网页标题处理装置的结构图;

图9示出了本申请中一个示例的网页标题处理装置的结构图;

图10示出了本申请中一个示例的网页标题处理装置的结构图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。

发明人在发明过程中注意到目前主要由站长为维护的网页确定标题,这种主要由人工确定的方式,存在效率低的问题,针对上述不足,本申请实施例提出了一种网页标题处理方案,下面进行说明。

本申请可以应用在站点SEO(Search Engine Optimization,搜索引擎优化)中,是一种利用搜索引擎的搜索规则来提高目前网站在有关搜索引擎内的自然排名的方式。

本中请提到的页面标题可以是指打开网页后,查看页面源代码的head标签内的title标签内的内容,如:<title>1688.com,阿里巴巴打造的全球最大的采购批发平台</title>。

图1示出了本申请实施例的网页标题处理流程图,如图所示,包括:

步骤101,获得网页内容,对网页内容进行解析得到网页单元,提取网页单元的特征词;

步骤102,对提取得到的特征词进行筛选,确定出包含在标题词库中的重点特征词,将重点特征词生成标题单元;

步骤103,根据生成的标题单元生成标题集合,并对标题集合中的标题进行打分,选择得分最高的标题。

有益效果:

本申请实施例通过对网页内容进行解析并进行特征提取,能够获得网页的特征词,并通过维护的标题词库对特征词筛选,将包含在标题词库中的重点特征词作为重点特征词生成标题单元,并根据标题单元生成标题集合,并对标题集合中的标题进行打分,选择得分最高的标题,从而确定出网页的标题,采用本申请的方案,可以避免人工的太多参与,提高在网页标题的确定上的效率。

进一步地,为了使得生成的标题更符合各个搜索引擎当前的抓取特点,还可以按以下方式实施。

实施中,在将重点特征词生成标题单元之后,还将标题单元输出给搜索引擎进行搜索,根据搜索引擎反馈的排名情况生成搜索标题集合;

具体的根据标题单元生成标题集合的方案为:根据标题单元和搜索标题集合生成标题集合。

有益效果:

由于增加了搜索引擎当前根据标题单元得到的搜索排名情况,并同时根据标题单元和搜索标题集合生成标题集合,这样的标题集合体现了各个搜索引擎当前的抓取特点,再对标题集合中的标题进行打分,选择得分最高的标题可以使得生成的标题更符合各个搜索引擎当前的抓取特点。

进一步地,为了更好地维护标题词库,还可以按以下方式实施。

实施中,提取网页单元的特征词之后,在特征词中包括不在标题词库中的新词时,推送该新词进行人工审核,在人工审核该新词为有效新词时,添加到标题词库。

有益效果:

通过以上实施方式,可以动态维护标题词库,使得标题词库在使用中不断完善,而标题词库的完善也会使得标题词库的筛选更加合理,进而优化根据本申请方案确定出的网页标题。

进一步地,在选择得分最高的标题之后,可以根据得分最高的标题进行网页投放,也可以为了解决前期标题生成算法不够成熟的问题,并且融入站长经验,通过人工干预来优化标题的生成精准度之后再投放,具体按以下方式实施。

实施中,选择得分最高的标题之后,还将得分最高的标题推送人工审核,根据人工审核确定网页内容的标题并进行网页投放。

有益效果:

由于在选择得分最高的标题之后还有人工审核的环节,从而通过人工干预来优化标题的生成精准度。

以上的方案均是网页投放之前的内容,在网页投放之后,还可以进一步地,为了持续性地对网页标题进行维护,还可以按以下方式实施。

在网页投放之后,持续对网页的搜索引擎排名进行监控,在排名低于设定 阈值时,对网页标题进行更新处理。

有益效果:

通过在网页投放之后,持续对网页的搜索引擎排名进行监控,在排名低于设定阈值时,对网页标题进行更新处理,能够持续性地对网页标题进行维护,从而进一步保证网页标题的质量。

在网页投放之后,可以立即启动对该网页的搜索引擎排名进行监控,但是,进一步地,由于网页投放之后,爬虫可能不会立即抓走网页,因此,在网页投放之后立刻对网页的搜索引擎排名进行监控会浪费监控资源,因此,可以按以下方式实施。

实施中,在网页投放之后,对web日志进行分析,在发现爬虫爬走了网页后,启动对该网页的搜索引擎排名进行监控。

有益效果:通过对爬虫是否爬走了网页进行判断,可以避免在爬虫抓走网页之前就对该网页的搜索引擎排名进行监控,节约监控资源。

进一步地,由于爬虫爬走网页一段时间后才会更新该页面的索引,不同的引擎更新的时间间隔不一样,为了更加节省监控资源,因此,可以按以下方式实施。

实施中,维护各个搜索引擎的爬取索引时间表;在发现爬虫爬走了网页后,根据爬取索引时间表启动对该网页的搜索引擎排名进行监控。

有益效果:根据爬取索引时间表决定什么时候启动排名监控程序,可以降低爬取的次数,更加节省监控资源。

为了便于本申请的实施,下面以实例进行说明。

实施例一

实施例一是网页标题处理流程中网页投放之前的一个示例,图2所示,包括:

步骤201,获得网页内容,对网页内容进行Xpath解析得到网页单元;

本申请中对网页内容的解析方式并不具体限定,只要能够将网页内容解析 得到网页单元即可。

步骤202,通过特征提取算法提取网页单元的特征词;

以购物网站为例,特征提取算法针对的特征词可以包括营销词、属性词、产品词等,例如营销词可以为包邮、特价等,属性词可以是品牌属性、类目属性等;产品词可以是连衣裙、裤子等。

步骤203,对提取得到的特征词进行筛选,确定出包含在标题词库中的重点特征词;

本步骤对提取得到的特征词进行筛选后,还可以将不包含在标题词库中的特征词作为新词推送人工审核,在人工审核该新词为有效新词时,添加到标题词库。这样可以动态维护标题词库,使得标题词库在使用中不断完善,而标题词库的完善也会使得标题词库的筛选更加合理,进而优化根据本申请方案确定出的网页标题。

步骤204,将重点特征词通过排列组合的方式生成标题单元;

步骤205,将标题单元作为输入,执行标题生成算法生成标题集合;

步骤206,对标题集合中的标题进行打分,选择得分最高的标题。

对标题集合中的标题进行打分可以是利用算法对标题与网页内容的相关性进行打分,本申请中不对具体的打分算法进行限定。

在选择得分最高的标题之后,可以根据得分最高的标题进行网页投放,也可以在选择得分最高的标题之后,还将得分最高的标题推送人工审核,根据人工审核确定网页内容的标题并进行网页投放。

将得分最高的标题推送人工审核的这种方式,可以融入站长经验,通过人工干预来优化标题的生成精准度。

实施例二

实施例二也是网页标题处理流程中网页投放之前的一个示例,为了使得生成的标题更符合各个搜索引擎当前的抓取特点,本示例结合了各个搜索引擎的搜索结果,具体如图3所示,包括:

步骤301,获得网页内容,对网页内容进行Xpath解析得到网页单元;

步骤302,通过特征提取算法提取网页单元的特征词;

步骤303,对提取得到的特征词进行筛选,确定出包含在标题词库中的重点特征词;

步骤304,将重点特征词通过排列组合的方式生成标题单元;

步骤305,将标题单元输出给搜索引擎进行搜索,根据搜索引擎反馈的排名情况生成搜索标题集合;

本步骤具体可以把标题单元作为检索词,去各大搜索引擎搜索,拿到排名靠前(例如前五)的标题生成搜索标题集合。

步骤306,将标题单元和搜索标题集合作为输入,执行标题生成算法生成标题集合;

步骤307,对标题集合中的标题进行打分,选择得分最高的标题。

在实施例二中,由于增加了搜索引擎当前根据标题单元得到的搜索排名情况,并同时根据标题单元和搜索标题集合生成标题集合,这样的标题集合体现了各个搜索引擎当前的抓取特点,再对标题集合中的标题进行打分,选择得分最高的标题可以使得生成的标题更符合各个搜索引擎当前的抓取特点。

实施例二中相关部分的具体实现可参照实施例一。

实施例三

实施例三是网页标题处理流程中网页投放之后的一个示例,如图4所示:包括:

步骤401,在网页投放之后,对当日web日志进行分析,判断爬虫是否抓走网页,若是,进行步骤402,否则,返回步骤401进行下一日的web日志分析;

在具体实现中,步骤401并非必要步骤,是考虑到由于网页投放之后,爬虫可能不会立即抓走网页,因此,在网页投放之后立刻对网页的搜索引擎排名进行监控会浪费监控资源,在判断出爬虫抓走网页后再进行后续处理,能够更 有效地进行监控。

步骤402,根据爬取索引时间表启动对该网页的搜索引擎排名进行监控;

在具体实现中,可以在在网页投放之后直接启动对该网页的搜索引擎排名进行监控,也可以在步骤401判断出爬虫抓走网页后就直接启动对该网页的搜索引擎排名进行监控,增加爬取索引时间表,是考虑到爬虫爬走网页一段时间后才会更新该页面的索引,不同的引擎更新的时间间隔不一样,因此,根据爬取索引时间表启动对该网页的搜索引擎排名进行监控,可以降低爬取的次数,更加节省监控资源。

步骤403,判断该页面在搜索引擎的排名是否低于设定阈值,若是,进行步骤405,否则,进行步骤404;

具体如何判断该页面在搜索引擎的排名是否低于设定阈值可根据需要进行不同配置,例如,一共获得五个搜索引擎的排名情况,其中在三个搜索引擎中排名进入前20即不算低于设定阈值;或者根据五个搜索引擎的平均排名情况,若平均排名低于20则算低于设定阈值。

由于本申请中,对页面的排名监控是一个持续的过程,在判断该页面在搜索引擎的排名是否低于设定阈值时,可以获取该页面在搜索引擎的最新排名、以及在页面展示的标题,从而可以判断标题是否已更新,能够确定出更新后的标题的排名情况,针对更新后的标题进行排名监控。

步骤404,在监控周期到期时返回步骤403;

步骤405,对网页标题进行更新处理。

通过在网页投放之后,持续对网页的搜索引擎排名进行监控,在排名低于设定阈值时,对网页标题进行更新处理,能够持续性地对网页标题进行维护,从而进一步保证网页标题的质量。

具体地更新处理方式,可以是对标题进行快速回滚或者进一步优化,快速回滚是直接采用该网页之前使用的标题,在进一步优化时,可以进行人工干预,由人工直接选择新的网页标题,也可以由人工决定再进行一次本申请中的网页 标题处理流程。在具体实施中,也可以不经过人工决策,在判断出该页面在搜索引擎的排名是否低于设定阈值时,重新进行本申请中的网页标题处理流程。

基于同一发明构思,本申请实施例中还提供了一种网页标题处理装置,由于这些设备解决问题的原理与一种网页标题处理方法相似,因此这些设备的实施可以参见方法的实施,重复之处不再赘述。

如图5所示,本申请中的网页标题处理装置可以包括:

网页解析子模块501,用于获得网页内容,对网页内容进行解析得到网页单元;

特征词提取子模块502,用于提取网页单元的特征词;

词库子模块503,用于保存标题词库;

特征词筛选子模块504,用于对特征词进行筛选,确定出包含在标题词库中的重点特征词;

重点特征词处理子模块505,用于将重点特征词生成标题单元;

标题集合生成子模块506,用于根据标题单元生成标题集合;

标题打分子模块507,用于对标题集合中的标题进行打分,选择得分最高的标题。

为了方便后续描述,将网页解析子模决501、特征词提取子模块502、词库子模块503、特征词筛选子模块504、重点特征词处理子模块505、标题集合生成子模块506、标题打分子模块507包含在标题生成模块51中,在实现时,不限定图5中的各个单元均包括在一个模块当中。

为了使得生成的标题更符合各个搜索引擎当前的抓取特点,重点特征词处理子模块505还用于将标题单元输出给搜索引擎进行搜索,根据搜索引擎反馈的排名情况生成搜索标题集合;标题集合生成子模块506,用于根据标题单元和搜索标题集合生成标题集合。

为了动态地、更好地维护标题词库,使得标题词库在使用中不断完善,而标题词库的完善也会使得标题词库的筛选更加合理,进而优化根据本申请方案 确定出的网页标题,本申请中的网页标题处理装置还可以如图6所示,包括第一人工运营模块601;

特征词筛选子模块504,还用于在特征词中包括不在标题词库中的新词时,推送新词给第一人工运营模块601;

第一人工运营模块601,用于在人工审核新词为有效新词时,添加新词到词库子模块503中保存的标题词库。

本申请中的网页标题处理装置还可以包括网页投放模块701,用于进行网页投放。在标题生成模块51中标题打分子模块在选择得分最高的标题后,可以直接将将得分最高的标题输出给网页投放模块701,也可以如图7所示,标题生成模块51将得分最高的标题推送给第二人工运营模块702,第二人工运营模块702,用于根据人工审核确定网页内容的标题并提供给网页投放模块701,再由网页投放模块701进行网页投放。如图7所示的方式由于在选择得分最高的标题之后还有人工审核的环节,从而通过人工干预来优化标题的生成精准度。

为了实现网页投放之后的维护,本申请中的网页标题处理装置还可以包括排名监控模块801,用于在网页投放之后,持续对网页的搜索引擎排名进行监控,在排名低于设定阈值时,输出排名过低警告。

在具体实现时,排名监控模块801会拿到该页面在搜索引擎的最新排名、以及在页面展示的标题,从而可以判断标题是否已更新,能够确定出更新后的标题的排名情况,针对更新后的标题进行排名监控。

在排名监控模块801输出的排名过低警告时,可以对网页标题进行快速回滚或者进一步优化,在进一步优化时,可以进行人工干预,进行人工干预的方案如图8所示,包括排名监控模块801和第三人工运营模块802;第三人工运营模块802,用于在收到排名监控模块801的排名过低警告时,对网页标题进行人工干预。

在网页投放之后,可以立即启动对该网页的搜索引擎排名进行监控,但是, 由于网页投放之后,爬虫可能不会立即抓走网页,因此,在网页投放之后立刻对网页的搜索引擎排名进行监控会浪费监控资源,进一步地,本申请中的网页标题处理装置还可以如图9所示,还包括日志分析模块901,用于在网页投放之后,对web日志进行分析,在发现爬虫爬走了网页后,通知排名监控模块801,排名监控模块801根据该通知启动对网页的搜索引擎排名的监控。

在排名监控模块801收到日志分析模块901的通知后,可以立刻启动对网页的搜索引擎排名的监控,但是,由于爬虫爬走网页一段时间后才会更新该页面的索引,不同的引擎更新的时间间隔不一样,为了更加节省监控资源,因此,进一步地,本申请中的网页标题处理装置还可以如图10所示,还包括爬取引擎索引模块1001,用于维护各个搜索引擎的爬取索引时间表;

排名监控模块801在接收到日志分析模块901的通知后,根据爬取引擎索引模块1001维护的爬取索引时间表启动对网页的搜索引擎排名的监控。

为了描述的方便,以上所述装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1