一种用于搜索业务的处理方法及系统与流程

文档序号:13619736阅读:162来源:国知局
本发明涉及互联网
技术领域
:,尤其涉及一种用于搜索业务的处理方法及系统。
背景技术
::随着在线购物平台所能够提供的产品的品类、数量的不断增加,用户搜索所需产品的准确度呈现下降趋势,以至于在每次的购物过程中,常常需要多次改变自己的搜索词才能找到自己真正需要的产品。目前各大在线购物平台,主要采用搜索与推广相结合的方案,来优化用户的购物体验,比如:改进反馈给用户的搜索结果,并获取更多的相关商品反馈给用户;同时还通过广告推荐/推广、自动推出商品子版块等方式将商品信息向用户推送。但是,所反馈的搜索结果越多,以及广告推荐/推广的越多,或者商品的子版块越设越多,就需要用户端的设备消耗流量下载大量的文本、图片等数据,尤其是当一次搜索反馈的结果还不准确时,需要用户再次进行搜索操作,这样又进一步增加了流量的消耗。另一方面,就用户键入的搜索词,目前也提供了展示同义词、或是相关联的搜索结果的方式,但是这类方式,主要还是由搜索服务提供商通过竞价排名的方式确定所展示的同义词以及相关联的搜索结果,依然不能满足用户对于一次搜索后的准确性的要求。综上所述,目前的搜索改进方案,虽然通过扩充搜索反馈的结果,以及广告推荐、推广的手段,为用户提供了更加丰富的搜索结果,但是同时也增加了用户的数据流量的消耗,尤其是当一次搜索反馈的结果还不准确时,用户再次进行的搜索操作会进一步增加流量的消耗。技术实现要素:本发明的实施例提供一种用于搜索业务的处理方法及系统,能够缓减用户多次改变自己的搜索词才能找到自己真正需要的产品的问题,并减少了流量的消耗。为达到上述目的,本发明的实施例采用如下技术方案:第一方面,本发明的实施例提供的方法,包括:从指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序;当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果;根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。结合第一方面,在第一方面的第一种可能的实现方式中,还包括:在将所提取的搜索词按照关联程度排序之前,从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数。结合第一方面,在第一方面的第二种可能的实现方式中,还包括:在将所提取的搜索词按照关联程度排序之前,读取所述指定时间段内的订单数据;利用所述订单数据,从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词,并提高对应相同商品信息的搜索词之间的关联程度参数。结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词,包括:从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息;当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联。结合第一方面,在第一方面的第四种可能的实现方式中,还包括:统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词;根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。结合第一方面,在第一方面的第五种可能的实现方式中,所述根据所述用户终端发送的搜索词查询排序结果,包括:将所述用户终端发送的搜索词分成至少两个最小分析单元,其中,每个最小分析单元被赋予词属性,所述词属性包括特征词性和备选改写词;根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,并获取所符合的关联规则对应的排序结果。结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,还包括:从数据源获取产品数据,所述数据源包括:仓库产品目录表、公共字库词库平台和开放电商资源平台;根据所述产品数据提取得到对应不同类别的产品信息的词库,其中,词库中产品信息的类别包括:产品名称、型号、品牌、颜色、材质、特质、风格、款式;对得到的词库中的词打上标签,并利用最大期望算法迭代增强打上标签的词,得到基本字典;所述将所述用户终端发送的搜索词分成至少两个最小分析单元,包括:利用所述基本字典中的词和所述词属性,通过所述隐马尔科夫模型,将所述用户终端发送的搜索词分成至少两个最小分析单元。结合第一方面的第五或六种可能的实现方式,在第七种可能的实现方式中,所述根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,包括:获取各个最小分析单元之间的语义关系,并根据所述语义关系确定各个最小分析单元之间的语境规则;根据各个最小分析单元的词属性、所述语义关系和所述语境规则,确定所述至少两个最小分析单元所符合的关联规则。第二方面,本发明的实施例提供的系统,包括:离线模块、在线模块和存储模块,所述存储模块,用于存储搜索日志;所述离线模块,用于从所述存储模块存储的指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序;所述在线模块,用于当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果;并根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。结合第二方面,在第二方面的第一种可能的实现方式中,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数;或者,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,读取所述指定时间段内的订单数据;并利用所述订单数据,从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息;当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联;并提高对应相同商品信息的搜索词之间的关联程度参数;或者,所述离线模块,还用于统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词;并根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。本发明实施例提供的用于搜索业务的处理方法及系统,通过数据挖掘找到搜索日志中搜索词之间的关联,通过提供关键词建议的方式,为用户提供其他用户曾经使用过的相关搜索词,帮助用户找到需要的商品,从而缓减了用户多次改变自己的搜索词才能找到自己真正需要的产品的问题,提高用户搜索体验,也减少了流量的消耗。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本发明实施例提供的系统架构示意图;图2为本发明实施例提供的用于搜索业务的处理方法的流程示意图;图3a为本发明实施例提供的一种具体实例中的界面示意图;图3b为本发明实施例提供的另一种具体实例中的界面示意图;图4为本发明实施例提供的用于搜索业务的处理系统的架构示意图。具体实施方式为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本
技术领域
:技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术领域
:技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本实施例中的方法流程,具体可以在一种如图1所示的用于搜索业务的处理系统上执行,其中包括:离线模块、在线模块和数据库。本实施例中所揭示的离线模块以及在线模块,具体可以是服务器、工作站、超级计算机等设备,或者是由多个服务器组成的一种用于数据处理的服务器集群系统。数据库具体可以是一种redis数据库或者其他类型的分布式数据库、关系型数据库等,具体可以是包括存储设备的数据服务器以及与数据服务器相连的存储设备,或者是由多个数据服务器和存储服务器组成的一种用于数据库的服务器集群系统。在本实施例中,离线模块具体可以用于从指定时间段内的搜索日志中提取搜索词,比如:提取并分析用户最近1周、1个月或者其他时间范围内生成的搜索日志,先通过预处理规则将所提取的搜索词规范成为可以正确处理的格式。再将所提取的搜索词按照关联程度排序,并将排序结果存储至数据库,比如存储在redis数据库,以便线上模块通过访问、查询数据库读取排序结果。在本实施例中,数据库具体可以用于存储系统在运行过程中生成的搜索日志(比如:包括了用户终端在一个会话时间段内的连续发送的搜索词的搜索日志)、离线模块生成的排序结果、用户终端在下单过程中系统产生的订单数据,其中订单数据包括订单所指向商品的商品信息等;所述数据源包括:存储在数据库的仓库产品目录表,所述数据库也可作为公共字库词库平台和开放电商资源平台的数据库,或者与公共字库词库平台和开放电商资源平台的数据库相连并进行数据交互。也可以是,离线模块在于数据库进行数据交互的同时,也与公共字库词库平台和开放电商资源平台的数据库相连并进行数据交互。在本实施例中,在线模块具体可以实现为一种搜索服务器或者用于搜索服务的服务器集群,在线模块用于根据用户输入用户设备的搜索词,通过预处理规则将用户输入的搜索词规范成为可以正确处理的格式后,查询数据库得到关联搜索词集合,并将关联搜索词集合返回给用户设备。用户设备具体可以实做成单独一台装置,或整合于各种不同的媒体数据播放装置中,诸如机顶盒、移动电话、平板电脑(tabletpersonalcomputer)、膝上型电脑(laptopcomputer)、多媒体播放器、数字摄影机、个人数字助理(personaldigitalassistant,简称pda)、导航装置、移动上网装置(mobileinternetdevice,mid)或可穿戴式设备(wearabledevice)等。本发明实施例提供一种用于搜索业务的处理方法,如图2所示,包括:s1、从指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序。其中,指定时间段可以根据具体的业务场景设定,在本实施例中并不限定为某一个固定不变的时间范围,例如:提取并分析用户最近1周、1个月、每个季度或者其他时间范围内生成的搜索日志;再例如:用户终端与在线模板的一个会话时间段可以作为所述指定时间段。在本实施例中,搜索词具体可以理解为通过分析大量搜索过某产品的用户的搜索日志,经过统计得到的用于描述产品的词组,搜索词之间存在关联则表示一些产品之间存在的联系。s2、当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果。其中,对接收到用户终端发送的搜索词进行预处理后,查询数据库。并根据数据库中相关词数量的多少及质量的高低,查询并确定排序结果,其中,排序结果包括按照关联程度进行排序的词组。在本实施例中,对接收到用户终端发送的搜索词进行的预处理,可以包括:若用户终端发送的搜索词为错别字,或者识别为无意义的词组,则在线模块可以根据在关联受欢迎程度较高的同音词,或者字形相近的词组,并自动纠错为这些同音词或者字形相近的词组,比如:输入搜索词“平果”后,在线模块可以根据在关联受欢迎程度较高的同音词,比如“苹果”并进行自动纠错。s3、根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。其中,在线模块可以智能去除关联搜索词集合中重复或相近的推荐词。需要说明的是,排序结果可以从一个redis中调取,也可以从其它redis中调用词组,并根据所确定的排序结果和相关词,得到关联搜索词集合并向用户设备反馈。例如:接收到用户终端发送的搜索词“xx牌”,查询数据库得到搜索词“xx牌”关联了“xx牌手机4s”、“xx牌手机3”、“xx牌手机2s”等表示“xx牌”手机的型号的词组,并且按照型号新旧排序。或者,从其它redis中调用词组,在其它redis中的排序结果为“xx牌平板”、“xx牌平板mini”,则可以得到包括指定数量的词组的关联搜索词集合,关联搜索词集合中各词组的顺序可以按照关联程度再次排序,比如:依次排列完成第一排序结果的词组(“xx牌手机4s”、“xx牌手机3”、“xx牌手机2s”)后,继续排列从其它redis中调用词组(“xx牌平板”、“xx牌平板mini”)。在实际应用中,由于用户设备显示屏幕的大小,关联搜索词集合中词组的数量可以为5-7个,并如图3a所示的显示在用户设备所示界面的搜索框下方列表,或者如图3b所示的显示在用户设备所示界面的悬浮框中,或者采用其他的界面规划方案显示关联搜索词集合,以便于用户点击所显示的关联搜索词集合中词组。本发明实施例提供的用于搜索业务的处理方法,通过数据挖掘找到搜索日志中搜索词之间的关联,通过提供关键词建议的方式,为用户提供其他用户曾经使用过的相关搜索词,帮助用户找到需要的商品,从而缓减了用户多次改变自己的搜索词才能找到自己真正需要的产品的问题,提高用户搜索体验,也减少了流量的消耗。在现有大部分的电子商务平台,以及在线购物平台中,主要采用的是基于用户的cookie和历史记录改善搜索结果的“个性化”搜索方案,这就需要针对每一个用户实时采集并维护cookie和历史记录,再改良并推送针对每一个用户的搜索结果,需要占用并消耗大量的网络资源,成本较高且难以普及至所有用户,往往是针对部分核心用户或者vip用户推出的“个性化”搜索服务。并且由于这类“个性化”搜索方案,需要锁定每一个用户并进行实时跟踪、采集cookie和历史记录,使得用户的隐私存在被泄露的风险,对于用户来说安全性较差。相对于现有的“个性化”的搜索方案,在本实施例中,在将所提取的搜索词按照关联程度排序之前,还包括:从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数。例如:用户在一个会话时间段内的连续搜索词是有关联的,若将一个会话时间段设置为30分钟,则从三十分钟内的搜索日志中提取用户输入的搜索词,比如:在这30分钟内用户连续通过用户设备输入了“yy牌手机6s”、“yy牌手机6splus”、“yy牌手机6s16g”,则这几个搜索词存在会话相关性,离线模块可以提高这些搜索词之间的关联程度参数。在本实施例中,提供一种对于关联程度进行量化的方式,即搜索词之间的关联程度参数的具体获取方式包括:根据所记录的usersession(用户会话)中出现的搜索词,通过统计搜索词的个数,以及每个搜索词出现的usersession(用户会话)中同时出现的其他搜索词的个数,计算得出这个搜索词与其他搜索词的关联程度参数。例如:调取记录文件,记录文件包括在同一个usersession(用户会话)中出现的搜索词,比如:记录文件包括usersession1:{a牌冰箱,冰箱,b牌冰箱,双门冰箱}、usersession2:{a牌冰箱,b牌冰箱}、usersession3:{双门冰箱,a牌冰箱}。离线模块统计每个搜索词出现的次数,以及在一个usersession(用户会话)内同时出现的其他搜索词的个数,并根据统计得到的结果进行计算关联程度参数,例如:a牌冰箱总共出现3次,b牌冰箱出现2次,而a牌冰箱和b牌冰箱一起出现的次数为2,则这两者的关联度为:一起出现次数/((a出现次数+b出现次数)/2),即2/((2+3)/2)=2/2.5=0.8,则得到a牌冰箱与b牌冰箱的关联程度参数=0.8。可选的,在本实施例中,在将所提取的搜索词按照关联程度排序之前,还包括:读取所述指定时间段内的订单数据。并利用所述订单数据,从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词,并提高对应相同商品信息的搜索词之间的关联程度参数。其中,订单数据具体可以是用户通过用户设备访问在线购物平台浏览商品并下单的过程中生成的数据,订单数据至少包括商品表示,还可以包括浏览信息、商品信息、物流信息等数据。具体的,所述从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词的具体方式,包括:从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息。当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联。例如:一个或多个用户通过不同的搜索词进行搜索,最终点击或购买了相同的产品,比如a用户搜索“苹果6s金色”,在返回结果页面点击了产品id为001的产品,用户b搜索“iphone6s土豪金16g”,在返回结果页面同样点击了产品id为001的产品,则上述搜索词具有点击相关性,是相关的。进一步的,搜索词之间的关联程度参数还可以通过搜索词在其他方面的相关性联系和一些系数加成,比如:顶级热词加成、产品品类相同加成等。可选的,在本实施例中还包括:统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词。并根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。离线模块通过自学习功能更新搜索词的排序结果,比如用户输入搜索词“苹果手机”,返回给用户设备的关联搜索词集合包括“iphone6splus64g玫瑰金”、“苹果手机6s16g银色”、“iphone6金色”。当统计到指定数量的用户在输入相同的搜索词,比如“苹果手机”之后又点击了关联搜索词集合中的词组的链接比如“iphone6splus64g玫瑰金”的链接,则说明搜索“苹果手机”的用户可能更想搜索的是“iphone6splus64g玫瑰金”,则对于被大量点击的关联搜索词集合中的词组在以后的算分过程中会得到进一步加分处理,使得其在排序结果中更加靠前,以及在返回的关联搜索词集合中的词组中更加靠前。在本实施例中,搜索词具体由离线模块通过数据挖掘大量搜索过某产品的用户的搜索日志,找出用户搜索词之间的关联,并根据用户的搜索词给出若干个相关的词组(关联搜索词集合中的词组)供用户选择,即相对于现有的根据用户的个性化信息进行改进搜索结果并返回给用户的方案,本实施例返回给用户的还是词组,在优化搜索准确性的方面,避免了返回搜索结果时需要加载搜索结果、图片等大量数据,消耗流量大且反映慢的问题。由于返回给用户的词组是离线模块基于搜索词之间的关联关系排序得到,综合考虑用户的点击模式和会话中的共现模式生成备选的搜索词,着眼于分析用户反馈信息,挖掘各种搜索词之间的关联,在用户输入搜索词之后,推荐高质量的相关词组,引导用户进行搜索。从而向用户提供更加准确的搜索词,或者是更加符合用户搜索意图的搜索词,又或者是用户可能搜索完当前搜索词想要进行的下一次搜索的搜索词。使得推荐结果的相关性得到提升,能帮助用户进一步明确或缩小搜索目标和范围,缩短用户搜索时间。且在满足用户不同搜索需求的同时,帮助用户规范化搜索词,提高推荐和搜索准确率,从而提高点击购买转换率。并且本实施例中,关联搜索词集合中的词组实质上由离线模块通过数据挖掘得到,且与用户设备进行数据交互的功能由在线模块承担,因此本实施例的系统架构能够基于目前常用的业务系统(比如:具备用于与用户进行数据交互的前端服务器和用于后台数据处理的后台服务器)布置,降低了使用成本。并且相对于现有技术,本实施例中不需锁定每一个用户并进行实时跟踪、采集cookie和历史记录,因此不需要占用过多的网络资源,也降低了用户的隐私被泄露的风险,提高安全性。在本实施例中,还提供一种对搜索词进行分析的方法,基于中文自然语言处理技术,从不同信息源挖掘,分析数据生成分类以及相关词库,然后根据自然语言处理后的搜索词结果进行改写,深度语义理解、分析,并生成可以被不同电子商务平台,供应商使用的通用格式的结果。尤其是用于所述根据所述用户终端发送的搜索词查询排序结果,其中包括:101,将所述用户终端发送的搜索词分成至少两个最小分析单元,其中,每个最小分析单元被赋予词属性,所述词属性包括特征词性和备选改写词。102,根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,并获取所符合的关联规则对应的排序结果。对于101,在本实施例中,可以通过挖掘和爬取产品数据,提取词库、建立词库之间对应关系,并生成基本字典,其中具体包括:从数据源获取产品数据,所述数据源包括:仓库产品目录表、公共字库词库平台和开放电商资源平台。例如:利用数据挖掘和网络爬虫技术,从仓库产品目录表,公共字库词库平台(互动百科)和开放电商资源平台(概括来说,可以说是公共的互联网络)挖掘出详细的产品数据。并根据所述产品数据提取得到对应不同类别的产品信息的词库,其中,词库中产品信息的类别包括:产品名称、型号、品牌、颜色、材质、特质、风格、款式。例如:通过机器学习和数据挖掘技术提取出相应地各类词库,主要词库有:产品名称、型号、品牌、颜色、材质、特质、风格、款式等。再对得到的词库中的词打上标签,并利用最大期望算法迭代增强打上标签的词,得到基本字典。具体的,使用隐马尔科夫模型(hiddenmarkovmodel)给词库中的词打上标签,并利用最大期望算法(expectation-maximizationalgorithm)迭代增强,改善该模型,用这些词库作为中文自然语言处理和语义分析的基本字典。所述将所述用户终端发送的搜索词分成至少两个最小分析单元的具体方式,包括:利用所述基本字典中的词和所述词属性,通过所述隐马尔科夫模型,将所述用户终端发送的搜索词分成至少两个最小分析单元。例如:利用基本词典中的词及其属性建立隐马尔科夫模型,将用户输入的原始搜索词分成多个最小分析单元,并且赋予每个最小分析单元特征词性、特征、可能的改写等属性,比如:用户输入‘10kg’,系统会会自动识别为‘十公斤’,或者当用户输入‘篮色’,系统检测到这并不是一个词并提醒可能的改写为‘蓝色’。对于102,可以通过分析单元之间的关联、规律等解析出用户的搜索意愿。即所述根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,包括:获取各个最小分析单元之间的语义关系,并根据所述语义关系确定各个最小分析单元之间的语境规则。并根据各个最小分析单元的词属性、所述语义关系和所述语境规则,确定所述至少两个最小分析单元所符合的关联规则。例如:当出现字母时,首先将字母划分为产品型号,拼音,英文和单位。使用lalr(look-aheadleftrecursive)语法分析器判定型号和单位。使用词典查找判定拼音和英文。同时我们也使用lalr语法分析器分析词和词之间的语义关系,比如‘价格不超过五百元’。并结合语境,对词语进行语义分析,从而能够分辨出‘苹果’一词在‘苹果手机’和‘苹果馅饼’中不同的含义。在分词之后,从词库中找到各个词的属性,从而为各个词赋予不同的权重,使得系统能够识别到‘三星手机’的侧重点在于‘手机’,而‘苹果手机壳’的侧重点在于‘壳’。经过对搜索词的自然语言处理和分析,生成与搜索词相关的特征列表,该特征列表涵盖了搜索词的字面含义,从字面提取的属性以及隐藏的属性,比如:价格范围、颜色、材质、型号、品牌、改写等等。根据特征列表,搜索引擎可以更准确的对搜索词进行搜索并确定排序结果,还可给予关键属性更大的比重,从而改善搜索效果,提高召回率。本发明实施例还提供一种用于搜索业务的处理系统,如图4所示包括:离线模块、在线模块和存储模块,所述存储模块,用于存储搜索日志。所述离线模块,用于从所述存储模块存储的指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序。所述在线模块,用于当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果;并根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。具体的,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数。或者,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,读取所述指定时间段内的订单数据;并利用所述订单数据,从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息;当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联;并提高对应相同商品信息的搜索词之间的关联程度参数。或者,所述离线模块,还用于统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词;并根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。本发明实施例提供的用于搜索业务的处理系统,通过数据挖掘找到搜索日志中搜索词之间的关联,通过提供关键词建议的方式,为用户提供其他用户曾经使用过的相关搜索词,帮助用户找到需要的商品,从而缓减了用户多次改变自己的搜索词才能找到自己真正需要的产品的问题,提高用户搜索体验,也减少了流量的消耗。其中,搜索词具体由离线模块通过数据挖掘大量搜索过某产品的用户的搜索日志,找出用户搜索词之间的关联,并根据用户的搜索词给出若干个相关的词组(关联搜索词集合中的词组)供用户选择,即相对于现有的根据用户的个性化信息进行改进搜索结果并返回给用户的方案,本实施例返回给用户的还是词组,在优化搜索准确性的方面,避免了返回搜索结果时需要加载搜索结果、图片等大量数据,消耗流量大且反映慢的问题。由于返回给用户的词组是离线模块基于搜索词之间的关联关系排序得到,综合考虑用户的点击模式和会话中的共现模式生成备选的搜索词,着眼于分析用户反馈信息,挖掘各种搜索词之间的关联,在用户输入搜索词之后,推荐高质量的相关词组,引导用户进行搜索。从而向用户提供更加准确的搜索词,或者是更加符合用户搜索意图的搜索词,又或者是用户可能搜索完当前搜索词想要进行的下一次搜索的搜索词。使得推荐结果的相关性得到提升,能帮助用户进一步明确或缩小搜索目标和范围,缩短用户搜索时间。且在满足用户不同搜索需求的同时,帮助用户规范化搜索词,提高推荐和搜索准确率,从而提高点击购买转换率。并且本实施例中,关联搜索词集合中的词组实质上由离线模块通过数据挖掘得到,且与用户设备进行数据交互的功能由在线模块承担,因此本实施例的系统架构能够基于目前常用的业务系统(比如:具备用于与用户进行数据交互的前端服务器和用于后台数据处理的后台服务器)布置,降低了使用成本。并且相对于现有技术,本实施例中不需锁定每一个用户并进行实时跟踪、采集cookie和历史记录,因此不需要占用过多的网络资源,也降低了用户的隐私被泄露的风险,提高安全性。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
:的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1