网站内搜索词的聚类方法及装置与流程

文档序号:12063749阅读:366来源:国知局
网站内搜索词的聚类方法及装置与流程

本发明涉及信息技术领域,特别是涉及一种网站内搜索词的聚类方法及装置。



背景技术:

随着互联网技术的不断发展,企业自身对信息架构、管理、发布的需求,以及用户对信息的组织、查询、可寻性的要求越来越高,于是站内搜索出现了。尤其在内容丰富的网站中,当用户有目的地寻找目标内容但又无法直接从首页或导航页中直接找到时,这时用户就会求助于站内搜索。为了让用户可以更好地进行站内搜索,通常将站内搜索词进行聚类,聚类的作用是将意义相同或相近的站内搜索词放在同一个组内。这样就可以实现站内搜索词的聚类分析,能够更好地分析用户群体,用户需求等。

目前,在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类。然而采用现有方式进行搜索词聚类时,由于在最初聚类时系统还没有进行过聚类,即不存在聚类过程的经验,从而使得调整后的初始搜索词聚类算法误差较大,进而导致前期站内搜索词聚类的结果将会与预期的聚类结果相比产生很大的差异,而前期聚类结果的不准确将会导致后续的聚类结果发生更大的差异,最终造成网站内搜索词的聚类误差较大,精度较低。



技术实现要素:

有鉴于此,本发明提供一种网站内搜索词的聚类方法及装置,主要目的在 于减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。

依据本发明一方面,提供了一种网站内搜索词的聚类方法:包括:

获取网站对应的网站内容信息;

根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法;

根据调整后的搜索词聚类算法对所述网站的站内搜索词进行分类。

依据本发明另一方面,提供一种网站内搜索词的聚类装置,包括:

获取单元,用于获取网站对应的网站内容信息;

调整单元,用于根据所述获取单元获取的网站内容信息调整所述网站对应的初始搜索词聚类算法;

分类单元,用于根据所述调整单元调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明提供一种网站内搜索词的聚类方法及装置,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目 的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种网站内搜索词的聚类方法的流程图;

图2示出了本发明实施例提供的另一种网站内搜索词的聚类方法的流程图;

图3示出了本发明实施例提供的一种网站内搜索词的聚类装置的结构示意图;

图4示出了本发明实施例提供的另一种网站内搜索词的聚类装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种网站内搜索词的聚类方法,如图1所示,所述方法包括:

101、获取网站对应的网站内容信息。

其中,不同网站类别对应的网站内容信息不同。例如,对于购物类网站, 网站内容信息可以为产品名称、产品类型、产品配置等,本发明实施例不做限定。对于新闻类网站,网站内容信息可以为新闻标题、新闻热点、新闻概要等,本发明实施例不做限定。对于天气预报类网站,网站内容信息可以为一周天气状况信息、出行指数信息等,本发明实施例不做限定。

102、根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法。

其中,初始搜索词聚类算法为预先为该网站配置的搜索词聚类算法,用于对所述网站的站内搜索词进行分类。例如,对于购物类网站,可以根据产品名称、产品类型、产品调整所述网站对应的初始搜索词聚类算法,对于本发明实施例,根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,与目前根据以往聚类过程的经验来改进站内搜索词聚类的算法相比,由于在进行初始搜索词聚类算法的调整时,还不存在以往聚类过程的经验,从而导致调整后的搜索词聚类算法误差较大,进而导致网站内搜索词的聚类误差较大的问题相比,可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。

103、根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。

其中,不同网站对应的站内搜索词不同。例如,对于购物类网站,站内搜索词可以为价格、质量、外观、形状、同类别产品价格等,此时,站内搜索词价格和同类别产品价格可以划分为一类,站内搜索词质量、外观、形状可以划分为一类。

对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:获取A旅游网站对应的网站内容信息为景点名称、景点价格、用户评价,然后根据网站内容信息景点名称、景点价格、用户评价调整该A旅游网站对应的初始搜索词聚类算法,最后根据调整后的A旅游网站对应的搜索词聚类算法,对A 旅游网站中的站内搜索词进行分类,从而可以减少该A旅游网站的站内搜索词的聚类误差,提高A旅游网站的站内搜索词的聚类精度。

本发明实施例提供的一种网站内搜索词聚类方法,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。

本发明实施例提供了另一种域名解析信息的显示方法,下面如图2所示,所述方法包括:

201、获取网站对应的网站内容信息。

其中,不同网站类别对应的网站内容信息不同。例如,对于旅游类网站,网站内容信息可以为景点名称、景点价格、用户评价等,本发明实施例不做限定。对于游戏类网站,网站内容信息可以为游戏名称、玩家数量、热门程度等,本发明实施例不做限定。对于饮食类网站,网站内容信息可以为美食地点、用户点评等,本发明实施例不做限定。

对于本发明实施例,步骤201具体可以包括:根据预置爬虫程序获取所述网站对应的网站内容信息。所述预置爬虫程序可以实时获取所述网站对应的网站内容信息,或者按照一定时间间隔获取所述网站对应的网站内容信息,例如,每天或者每小时获取一次所述网站对应的网站内容信息,本发明实施例不做限 定。

202、根据预置过滤规则对所述网站内容信息进行过滤。

对于本发明实施例,所述预置过滤规则可以为去除网站内容信息中的重复信息,或者去除网站内容信息中的无用信息,本发明实施例不做限定。其中,去除网站内容信息中的无用信息可以为去除网站内容信息中的友情链接,广告信息等。通过对所述网站内容信息进行过滤,可以使得获取到的网站内容信息与该网站相关性更高,进而进一步提升站内搜索词的聚类精度。

203、根据过滤后的网站内容信息调整所述网站对应的初始搜索词聚类算法。

其中,初始搜索词聚类算法为预先为该网站配置的搜索词聚类算法,用于对所述网站的站内搜索词进行分类。例如,对于旅游类网站,可以根据景点名称、景点价格、用户评价调整所述网站对应的初始搜索词聚类算法,对于本发明实施例,通过根据过滤后的网站内容信息调整网站对应的初始搜索词聚类算法,与目前根据以往聚类过程的经验来改进站内搜索词聚类的算法相比,由于在进行初始搜索词聚类算法的调整时,还不存在以往聚类过程的经验,从而导致调整后的搜索词聚类算法误差较大,进而导致网站内搜索词的聚类误差较大的问题相比,可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。

对于本发明实施例,步骤203具体可以为:按照预置机器学习算法对所述过滤后的网站内容信息进行处理;然后根据所述处理结果对网站对应的初始搜索词聚类算法进行调整。其中,处理结果具体可以为按照预置机器学习算法对所述过滤后的网站内容信息进行学习的学习结果,所述初始搜索词聚类算法为预先配置的搜索词聚类算法。

204、根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。

其中,不同网站对应的站内搜索词不同。例如,对于旅游类网站,站内搜索词可以为景区价格、景区景色概况、景区旺季淡季、景区游客数量、景区特色景点等,此时,站内搜索词景区价格和景区旺季淡季可以划分为一类,站内搜索词景区景色概况、景区游客数量、景区特色景点可以划分为一类,从而可以方便用户查询和获取该网站的信息。

对于本发明实施例,站内搜索词具体可以通过预置监测代码获取。例如,当需要对A网站进行站内搜索词聚类时,可以预先在A网站中部署相应的监测代码,以获取A网站的站内搜索词。

对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:获取B购物网站对应的网站内容信息为产品名称、产品类型、产品配置、广告链接信息,然后将网站内容信息中的广告链接信息删除,以保证网站内容信息的精度,再根据过滤后的网站内容信息调整该B购物网站对应的搜索词聚类算法,最后根据B购物网站对应的调整后的搜索词聚类算法,对B购物网站中的站内搜索词进行分类,从而可以减少该B购物网站的站内搜索词的聚类误差,提高B购物网站的站内搜索词的聚类精度。

本发明实施例提供的另一种网站内搜索词聚类方法,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站 对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。

进一步地,作为图1所示方法的具体实现,本发明实施例提供了一种网站内搜索词的聚类装置,如图3所示,所述装置包括:获取单元31、调整单元32、分类单元33。

获取单元31,用于获取网站对应的网站内容信息。

调整单元32,用于根据所述获取单元31获取的网站内容信息调整所述网站对应的初始搜索词聚类算法。

分类单元33,用于根据所述调整单元32调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。

需要说明的是,本发明实施例提供的一种网站内搜索词的聚类装置所涉及各功能单元的其他相应描述,可以参考图1的对应描述,在此不再赘述。

本发明实施例提供的一种网站内搜索词聚类装置,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。

进一步地,作为图2所示方法的具体实现,本发明实施例提供了另一种网 站内搜索词的聚类装置,如图4所示,所属装置包括:获取单元41、调整单元42、分类单元43。

获取单元41,用于获取网站对应的网站内容信息。

调整单元42,用于根据所述获取单元41获取的网站内容信息调整所述网站对应的初始搜索词聚类算法。

分类单元43,用于根据所述调整单元42调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。

所述装置还包括:过滤单元44。

所述过滤单元44,用于根据预置过滤规则对所述网站内容信息进行过滤。

所述配置单元42,具体用于根据过滤后的网站内容信息调整所述网站对应的初始搜索词聚类算法。

所述调整单元42,具体还用于按照预置机器学习算法对所述网站内容信息进行学习。

所述调整单元42,具体还用于根据所述学习结果调整网站对应的初始搜索词聚类算法。

所述获取单元41,具体用于根据预置爬虫程序获取所述网站对应的网站内容信息。

所述获取单元41,还用于根据预置监测代码获取所述网站对应的站内搜索词。

需要说明的是,本发明实施例提供的另一种网站内搜索词的聚类装置所涉及各功能单元的其他相应描述,可以参考图2的对应描述,在此不再赘述。

本发明实施例提供的一种网站内搜索词聚类装置,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚 类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本发明实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。

所述网站内搜索词的聚类装置包括处理器和存储器,上述获取单元、调整单元、分类单元、过滤单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:

获取网站对应的网站内容信息;

根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法;

根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1