一种词串识别方法和服务器与流程

文档序号:16247692发布日期:2018-12-11 23:43阅读:146来源:国知局
一种词串识别方法和服务器与流程
本申请属于互联网
技术领域
,尤其涉及一种词串识别方法和服务器。
背景技术
随着电子商务的快速发展,人们越来越多地通过购物网站进行购物。由于文字表述的多可能性,越来越多地词语或出现,特别是新词汇的出现。在购物网站进行类目划分或者是进行目标对象匹配的时候,往往会通过分词词典进行类目划分等等。对于分词词典中没有收录的词可以称为未登陆词,随着品牌名称或者是影视剧等越来越多,新的品牌、影视剧等的出现,也就出现了越来越多的未登陆词。如何有效识别未登陆词,以将其增加至分词词典中,也就成了亟待解决的问题。例如:出现的品牌名等:七彩香袖、佳蒙曼璐等,出现的产品名:虾砖、绿西米等,可能都不在分词词典中,但是这些词的出现频率是很高的,如果将这种类型的词进行识别,并增加到分词词典中,势必可以有效提高对请求处理的速度,以及类目分类的准确性。针对上述问题,目前尚未提出有效的解决方案。技术实现要素:本申请目的在于提供一种词串识别方法和服务器,可以实现准确高效识别分词词典中未收录的新词的技术效果。本申请提供一种词串识别方法和服务器是这样实现的:一种词串识别方法,所述方法包括:获取多个搜索请求;获取基于所述多个搜索请求而产生的多个购买记录;确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。一种词串识别服务器,包括:处理器,其中:所述处理器用于获取多个搜索请求;获取基于所述多个搜索请求而产生的多个购买记录;确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。一种词串识别方法,所述方法包括:获取多个搜索请求;获取基于所述多个搜索请求而产生的多个用户行为记录;确定所述多个搜索请求中相邻词汇片段之间的关联度,其中,所述关联度是如下两个值之比:a)两个词汇片段相邻出现在多个用户行为记录中的产品描述信息中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述关联度,从所述多个搜索请求中识别出一个或多个词串。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法步骤。本申请提供的词串识别方法和服务器,通过搜索请求和购买记录,确定搜索请求中各相邻片段之间的购买关联度,然后基于购买关联度进行新词的识别。因为,引入了购买关联度的概念,将搜索和购买行为作为识别新词的依据,使得可以达到准确高效识别电商平台中新词的技术效果。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是基于规则的新词提取方法示意图;.图2是本申请提供的搜索购买图示意图;图3是本申请提供的新词识别系统的结构示意图;图4是本申请提供的识别服务器的结构示意图;图5是本申请提供的新词识别模块的流程示意图;图6是本申请提供的词串识别方法的方法流程图;图7是本申请提供的词串识别服务器的示意结构图;图8是本申请提供的词串识别装置的模块结构示意图。具体实施方式为了使本
技术领域
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。目前,新词发现(即,发现和识别未登陆词)的方式主要有:1)基于规则的方法和2)基于统计的方法。其中,基于规则的方法主要是根据领域内新词的特点构建规则库、模板库;如图1所示,利用“影视剧名+电视剧”的模板可以抽取出影视剧名字:三生三世十里桃花、何以笙箫默。基于web统计的方法一般是先对搜索请求或者网络文本中的语料枚举中所有可能的分词组合,然后,确定各种分词组合的特征值,以便确定出哪些分词组合可能是新词。然而,上先对搜索请求或者是网页文本等,进行分词处理得到生成相邻预定数量个字的序列,例如:两个字的序列,三个字的序列。然后,再在所有语料中统计出各个序列的特征量,最后,通过阈值来筛选新词。然而,上述两种方式都存在不同层面的问题:基于规则的方法需要对特定语料构建规则库,例如:建立“xxx+电视剧”这种规则,以提取出电视剧名。通过这种方式来筛选电视剧名、电影名是较为有效的。但是如果将这种方式应用在电商领域,因为电商领域中产品的多样性,产品类目的多样性,如果采用这种建立模板规则的方式,将增加很大的模板建立工作,实现起来较为复杂,且随着类目和产品的不断增多,也很难对模板进行穷举。基于web统计的新词识别方法,需要从语料中暴力枚举所有可能的词组合,例如:对于“来自\星星\的\你\同款\t恤\女\前\短\后\长”,长度为11的字串,需要生成55个组合,可以看出计算量是很大的,且因为是枚举所有可能的新词组合,也势必提升了噪声词组出现的可能。考虑到在电商搜索引擎中,用户在输入搜索请求进行后续的点击浏览或者是购买的时候,搜索请求和后续浏览购买操作中,是存在关联性,搜索请求和用户后续的行为数据之间是存在匹配性关联,即,用户的行为可以表达用户的意图。例如,用户搜索“高跟鞋”那么后续浏览购买记录中标题带有“高跟鞋”的产品被浏览购买的概率是更高一些的,相对而言,标题中是“高筒低跟美鞋”虽然也出现了“高、跟、鞋”三个字,但是因为表达的含义已经不是高跟鞋三个字连在一起的概念。再例如,如图2所示,例如,在“虎、妈、猫、爸”还不是一个分词词典记录的完整词的情况下,在进行产品搜索匹配的时候,如果是采用字词匹配的度的方式匹配出搜索结果,那么对于类似于“虎妈猫爸同款”、“赵薇同款虎妈猫爸”这种搜索请求,所匹配出的搜索结果可以如图2所示,既包括标题中虎妈猫爸妈连接在一起的,也包括虎妈猫爸不连接在一起的。对后续的浏览和购买记录进行分析可以发现,最终购买的产品大多是标题中“虎、妈、猫、爸”四个词联系在一起的,而对于近似“虎猫儿子女儿爸妈亲子装”这种标题中虽然携带有虎妈猫爸四个字,但因为四个字不连接在一起,被浏览和购买的概率相对小很多。这主要是因为用户的购买意图与输入搜索请求中的用词存在强关联性,虎妈猫爸作为一个独立完整概念的情况下,浏览和购买相对而言会倾向于标题中有该完整概念的词的产品。由此可见,用户在进行搜索和浏览购买的时候,已经进行分词组合意识上的筛选,如果可以结合这些行为记录进行新词的筛选,可以达到简单准确地新词识别。进一步的,如果将这种类型的词找出来,然后将其增加到分词词典中,这样在后续对搜索请求进行分词和产品匹配的时候,将会避免匹配出类似“虎猫儿子女儿爸妈亲子装”这种和用户搜索意图相差较远的产品,从而有效提高最终搜索结果的准确性。基于此,在本例中,考虑到可以结合用户在输入搜索请求后,最终的购买记录作为参考对象,识别出新词。为此,引入了一个概念:关联度,其中,关联度可以理解为搜索请求中的相邻分词片段(即,相邻词汇片段)是否也出现在最终的用户行为记录中的比率,即,基于相邻分词片段连接在一起的搜索请求,和用户的行为记录中的产品描述信息中这些分词片段也连接在一起的比例。在一个正向实施例中,关联度越大,代表搜索请求中的相邻分词片段更容易出现在最终的用户行为记录中,也代表了这些相邻分词片段更多地被用户认为是语意上存在较强关联性质的词串。因此,基于关联度,可以自动发现在用户的实际使用环境下存在语意关联的词串。在具体的实施方式中,上述关联度可以表示为:如下两个值之比:a)两个词汇片段相邻出现在多个用户行为记录中的产品描述信息(例如:产品的标题、产品的标签等)中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数。用户的行为记录可以包括但不限于以下至少之一:收藏记录、加购物车记录、购买记录、关注记录、加书签记录。即,上述这些行为都可以表征用户的意图,基于这些行为都可以表征用户对词串关联性的认知。只要是强意图的用户行为都可以作为确定词串的基础。相应的关联度也可以是:收藏关联度、加购物车关联度、购买关联度、关注关联度、加书签关联度等等。下面以购买关联度为示例进行说明,然而,值得注意的是,购买关联度仅是一种示意性描述,在实际实现的时候,还可以采用其它的关联度,例如:收藏关联度、加购物车关联度等都可以作为识别词串的内容。例如:分词片段1(gram1)和分词片段2(gram2)连接在一起出现在搜索请求中的情况下,购买产品的标题中,分词片段1(gram1)和分词片段2(gram2)也连接的次数所占的比例。基于分词片段1(gram1)和分词片段2(gram2)连接在一起的搜索请求所购买的产品中分词片段1(gram1)和分词片段2(gram2)连接在一起的产品数除以分词片段1(gram1)和分词片段2(gram2)连接在一起的搜索请求的次数。举例而言,在分词字典中,还没有收录“虎妈猫爸”,在进行新词发现的时候,对搜索请求已经购买产品的标题进行分析的时候,就会将“虎妈猫爸”划分为四个片段:虎、妈、猫、爸。这样在计算购买关联度的时候,也就相应的,会计算“虎”和“妈”之间的购买关联度,“妈”和“猫”之间的购买关联度,“猫”和“爸”之间的购买关联度。以计算“虎”和“妈”之间的购买关联度为例,可以是获取统计虎和妈一起且相连出现在搜索请求中的次数,以及基于这些搜索请求进行搜索后,购买的产品的标题中虎和妈一起且相连出现的次数,从而得到“虎”和“妈”之间的购买关联度。进一步的,考虑到在发现分词词典中未收录的词的时候,这些词也不是一定是两个分词片段组成的,因此,所以在得到新词的时候,可以是以连续几个分词片段之间的购买关联度都高于预定阈值,才作为一个新词。例如,当前分析的搜索词为:虎妈猫爸同款包,在分析的时候,可以先对搜索请求进行分词处理,得到了:虎、妈、猫、爸、同款、包这六个分词片段,计算得到相邻两个分词片段之间的购买关联度得到:虎与妈之间的购买关联度为0.95、妈与猫之间的购买关联度为0.92、猫与爸之间的购买关联度为0.95、爸与同款之间的购买关联度为0.21、同款与包之间的购买关联度为0.16。举例而言,以0.9作为预设阈值,那么对“虎妈猫爸同款包”这个搜索请求中进行新词发现的过程中,可以发现虎和妈之间、妈和猫之间、猫和爸之间的购买关联度都是大于0.9的,爸和同款之间的购买关联度是小于0.9的,因此,可以识别出一个新词:虎妈猫爸。然而,值得注意的是,上述所列举的阈值取0.9仅是一种示意性表述,在实际实现的时候,可以根据实际情况和新词选取的需求,选择合理的阈值,具体的取值,本申请不作限定。上面对购买关联度进行了一个说明,基于上述购买关联度的概念,本例中提供了一种新词识别系统,如图3所示,该系统可以包括:识别服务器100和数据存储器200,其中,该识别服务器用于进行新词的识别,该数据存储器可以用于存储搜索关键词(也可以称为搜索请求)和产品标题数据。该识别服务器100可以是一个服务器,也可以是多个服务器组成的服务器集群。该数据存储器200可以是用于保存信息的记忆设备。在数字系统中,能保存二进制数据的设备可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也可以为存储器,如ram、fifo等;在系统中,具有实物形式的存储设备也可以叫存储器等。实现的时候,该数据存储器200也可以采用云存储器的方式实现,具体实现方式,本申请不错限定,在一个实施方式中,识别服务器100和数据存储器200也可以集成在一个服务器中,具体采用何种方式可以根据实际需要选择,本申请对此不作限定。在一个实施方式中,上述识别服务器100可以采用在线方式实时识别新词,也可以采用离线的方式识别新词,也可以采用在线和离线结合的方式识别新词。在一个实施方式中,上述识别服务器100可以如图4所示,包括:预处理和分词模块101、搜索点击计算模块102、候选新词生成模块103和新词判别模块104。在一个实施方式中,识别服务器100可以先从数据存储器获取搜索请求(query)和点击的产品标题(title)数据,具体地,可以获取如下表1所示的数据:表1类型数据query虎妈猫爸同款t恤query赵薇同款虎妈猫爸query虎妈猫爸同款包title2016夏虎妈猫爸赵薇同款潮女包漆皮镜面title明星虎妈猫爸赵薇同款小包包2016春款title虎妈猫爸兔宝一家三四口半袖亲子装夏装2017款潮短袖t恤为了符合当前人们的语音习惯趋势,获取近期出现的新词,可以从数据存储器200中获取近期该电子商务平台上预定时间范围内的搜索和购买记录,例如,获取近三个月内的搜索和购买记录,或者是,近一个月内的搜索和购买记录等等。在一个实施方式中,可以是选择近期预定时间内所有的搜索和购买记录,也可以是按照预定规则和方式采样得到部分搜索和购买记录作为新词识别的数据。相对的,在保证数据采样足够全面的情况下,进行数据的采集和获取都是可以的。在获取到上述的数据之后,就可以通过图4中的预处理和分词模块101、搜索点击计算模块102、候选新词生成模块103和新词判别模块104进行新词的判别,具体地,预处理和分词模块101、搜索点击计算模块102、候选新词生成模块103和新词判别模块104。本领域人员应该认识到,上述所列举的识别服务器100的模块划分方式仅是一种示意性描述。上述模块可以拆分,也可以组合,例如:预处理和分词模块101可以拆分成预处理模块和分析模块,或者是,将两个或多个模块实现的功能集成在一个模块中实现都是可以的,并不构成对本申请的不当限定。下面对上述几个模块的执行流程进行一下说明:1)预处理和分词模块101该预处理和分词模块101可以对搜索请求和产品标题进行文字预处理以实现数据的格式统一。预处理过程可包括但不限于:去除敏感词、繁体转换为简体、全半角统一等。在完成上述数据清洗和/或数据的格式统一之后,就可以对数据处理后的搜索请求和产品标题文本进行分词,现有技术中存在多种分词技术,在此均可以被选用以完成本步骤的目的。例如,可以通过分词词典进行分词,即,按照词义的完整度,将文本划分为多个片段。例如,可以将上表1中的数据划分为下表2中的分词片段,其中,在表2中“/”表示分词分隔符。表2类型数据query虎/妈/猫/爸/同款/t恤query赵薇/同款/虎/妈/猫/爸query虎/妈/猫/爸/同款/包title2016/夏/虎/妈/猫/爸/赵薇/同款/潮/女包/漆皮/镜面title明星/虎/妈/猫/爸/赵薇/同款/小包包/2016/春款title虎/妈/猫/爸/同款/兔宝/一家/半袖/亲子装/夏装/2017/款/潮/t恤即,按照上述方式,实现了对文本数据的分词处理。2)搜索购买计算模块102在对获取的搜索和购买记录进行上述分词处理之后,就可以计算分词后两两相邻的片段之间的购买关联度了。例如,可以根据预定时间内(例如:一天内)所有电子商务平台上的搜索和购买行为构建出如图2所示的搜索购买图。计算搜索请求分词后相邻的片段之间的“购买关联度”,例如,计算分词片段1(gram1)和分词片段2(gram2)之间的购买连接段,可以、按照如下公式计算:其中,分母表示gram1和gram2相邻出现的搜索请求的次数,分子表示基于gram1和gram2相邻出现的搜索请求购买的产品中,gram1和gram2相邻出现在产品标题中的次数。以图2对应的搜索购买图为例,假设某个搜索请求里包含了一个新电视剧名“虎妈猫爸”,被分词切分为“虎”、“妈”、“猫”、“爸”,但只有将“虎妈猫爸”连在一起的时候才能表征用户期望的含义。用户搜索这个query后,去购买的产品一般也是与这个搜索请求的意图匹配的,例如:标题为“虎猫狗儿子爸妈亲子装”的产品与该搜索请求的意图不太匹配,那么该产品被购买的可能性也很小,对于产品标题中“虎”、“妈”、“猫”、“爸”几个字连在一起的产品被购买的概率会高很多,也就是“购买关联度”高。以搜索请求“虎妈猫爸同款包”为例,进行购买关联度计算之后,就可以得到每两个分词片段之间的购买关联度为:虎与妈之间的购买关联度为0.95、妈与猫之间的购买关联度为0.92、猫与爸之间的购买关联度为0.95、爸与同款之间的购买关联度为0.21、同款与包之间的购买关联度为0.16。3)候选新词生成模块103:在计算出购买关联度之后,就可以进行是否为新词的判断。例如,设置一个阈值,对于相邻片段之间的购买关联度超出该阈值的词串作为识别出的新词。在一个实施方式中,为了进一步提高识别新词的准确性和有效性,可以将通过购买关联度识别出的词串作为候选新词。在得到一些候选新词之后,再通过模型训练识别等方式,确定候选的新词是否可以作为识别出的新词。考虑到本身进行分词的时候,就已经将文本划分为了多个片段,因此,如果需要确定出候选新词的话,那么这个候选新词起码需要是两个片段。相应的,可以设置如下的标准作为筛选出候选新词的标准:a)关联度大于阈值;b)连接片段数大于等于2。上述的阈值,可以是预先固定设置好的,例如,设置为0.9,也可以是根据系统实时的精度需求进行调整的。其中,阈值会影响进入候选新词的词串的数量,阈值设置的越高,那么进入候选新词集合的词串数量就越少,阈值设置的越低,那么进入候选新词集合的新词的词串数量就越多。之所以设置连接片段大于等于2的要求主要是考虑到能成为新词的片段是分词分开了的片段,因此,识别出的新词的片段数起码是两个片段组合在一起的。假设预设的关联度阈值为0,9,那么上述:虎与妈之间的购买关联度为0.95、妈与猫之间的购买关联度为0.92、猫与爸之间的购买关联度为0.95、爸与同款之间的购买关联度为0.21、同款与包之间的购买关联度为0.16,所对应的搜索请求中所识别出的候选新词就是虎妈猫爸。因为,虎妈猫爸中每两个相邻片段之间的购买关联度都是大于0.9的,满足候选新词的要求。4)新词判别模块104通过该新词判别模块104可以存在也可以不存在。如果不存在新词判别模块,那么可以直接将上述购买关联度要求的词串作为最终识别出的新词。为了减少最终确定出的新词中的造成词组,提高识别出新词的准确性和有效性,在可以通过新词判别模块104对上述得到的候选新词进行一步识别,以减少噪声新词。在一个实施方式中,新词判别模块10可以通过构建训练模型的方式或者是通过构建分类器的方式实现对候选新词的精准识别。例如,可以通过决策树、svm等方法对候选新词集合中的各个新词进行识别,以筛选出最终的新词数据。在一个实施方式中,新词判别模块104可以按照如图5所示的流程进行:s1:标注训练样本词,其中,训练样本词中可以包括:正例和反例,其中,正例表示是新词,例如:“坑爹”,反例表示不是新词,例如:“坑爹的”。在一个实施方式中,可以以分词字典中已有的分词作为训练样本进行标注,表明哪些词是新词,哪些不是新词。s2:基于搜索请求、产品标题和搜索购买行为,计算训练样本词的特征数据,从而得到训练数据。其中,特征数据可以包括但不限于以下特征中的一种或多种:1)词串的购买关联度。在获取词串的购买关联度的时候,可以选择两个片段之间购买关联度最小的作为该词串的购买关联度。例如:“虎妈猫爸”,包含了4个片段,也就包含了3个“购买关联度”,即“虎和妈之间的购买关联度”、“妈和猫之间的购买关联度”、“猫和爸之间的购买关联度”。整个词串是否适合在一起,是通过词串中最小的关联度决定的,因此,可以选择词串中最小的购买关联度作为该词串的购买关联度。词串连接度=min(词串中购买连接度)2)片段之间的相关度。在确定词串的片段相关度的时候,可以选择词串中两个片段之间的最小相关度作为该词串的片段相关度。3)左边界熵。左边界熵用于衡量词在词串左侧出现的自由度。举例而言,假设一个词,在该词的左边出现的文字种类比较多,那么就表明这个词的左边界熵比较大,如果一个词,在该词的左边出现的文字种类比较少,那么就表明这个词的左边界熵比较小。例如:“衣裙”左边只出现过“连”,那么就表明“衣裙”这个词的左边界熵比较小。4)右边界熵。右边界熵用于衡量词在词串右侧出现的自由度,对于右边界熵的理解可以参见上面对左边界熵的说明,在此不再赘述。5)词串字数。例如:“虎妈猫爸”的词串字数为4。6)词串的片段数。例如:“来自/星星/的/你”,片段数为4。7)词串覆盖的搜索请求数。即,在统计结果中,含有该词串的搜索请求的数量。8)词串覆盖的产品标题数。即,在统计结果中,包含词串的产品标题的数量。s3:通过机器学习分类模型,对训练数据训练得到分类器。s4:计算候选新词集合中各个候选新词的特征数据,得到待预测数据。s5:通过分类器对待预测数据进行分类,以得到新词识别结果。在上例中,将搜索请求与搜索后购买产品的标题文本进行关联,提出了“购买关联度”的概念。基于购买关联度,获取候选新词词组和判别新词,从而达到了在节省计算成本的基础上,提升新词识别准确率的目的。在识别出新词之后,可以将识别出的新词增加到分词词典中,以更新分词词典。这样在后续基于分词词典进行搜索请求分词以匹配搜索结果的时候,新加入的新词中的词串就会被作为一个片段,这样在匹配得到的搜索结果中存在该新词的产品标题就会增多,从而有效提高了搜索结果的准确性,使得搜索得到的结果更能满足用户的搜索意图。然而,值得注意的是,上例中的新词识别方式仅是一种示例,在通过购买关联度确定出候选新词之后,再通过模型进行筛选。在实际实现的时候,也可以采用直接枚举出所有可能的字串组合生成候选新词,然后通过模型进行筛选。在建立模型的时候,引入购买关联度。图6是本申请词串识别方法一个实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。具体的如图6所述,本申请一种实施例提供的一种词串识别方法可以包括:步骤601:获取多个搜索请求;步骤602:获取基于所述多个搜索请求而产生的多个购买记录;步骤603:确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;步骤604:根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。其中,上述的词汇片段可以是通过对搜索请求进行分词处理得到的。在实现的时候,在本例中提出了两种实现方式:方式1)先根据分词处理后的搜索请求中各相邻词汇片段之间的购买关联度,从搜索请求中识别出候选词串;然后,获取所述候选词串的特征数据;根据特征数据,确定候选词串是否可作为新词,其中,特征数据可以包括但不限于以下至少之一:词串中片段的相关度、词串的左边界熵、词串的右边界熵、词串的字数、词串的片段数、包含该词串的搜索请求的数量、包含该词串的产品标题的数量。方式2)将分词处理后的搜索请求中各个片段进行枚举组合,将组合后形成的词串作为候选词串;然后,获取所述候选词串的特征数据,其中,所述特征数据可以包括:词串的购买关联度,进一步的,还可以包括但不限于以下至少之一:词串中片段的相关度、词串的左边界熵、词串的右边界熵、词串的字数、词串的片段数、包含该词串的搜索请求的数量、包含该词串的产品标题的数量;最后,根据特征数据,确定所述候选词是否可作为新词。上述方式1是根据购买关联度确定候选新词组合,方式2是采用枚举的方式确定候选新词组合。即,确定候选新词组合的方式不同,在实际实现的时候,可以根据实际情况和需求,选择采用哪种方式选择候选新词组合,本申请对此不作限定。在进行分词处理得到词汇片段的过程中,可以通过分词词典对所述搜索请求和所述购买记录中的标题进行分词处理。相应的,在根据分词处理后的搜索请求中各相邻片段之间的购买关联度,从搜索请求中识别出新词之后,就可以将识别出的新词增加至分词词典中,那么后续再需要分词的时候,这个词也就作为一个片段出现了。通过增加新词后的分词词典进行搜索匹配的时候,可以有效提高匹配结果的准确性,使得搜索出的结果更为符合用户的搜索意图。在一个实施方式中,在上述步骤601和步骤602中,可以是通过获取平台中预定时间内的访问记录数据,统计出多个搜索请求和各个搜索请求所对应的购买记录。这些访问记录可以是存储在平台中的,用于记录平台上用户的访问和购买记录。图7示出了根据本申请的一示例性实施例的词串识别服务器的示意结构图。请参考图7,在硬件层面,该服务器可以包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成词串识别装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。请参考图8,在软件实施方式中,该词串识别装置可以包括:第一获取模块、第二获取模块、确定模块和识别模块。其中:第一获取模块,用于获取多个搜索请求;第二获取模块,用于获取基于所述多个搜索请求而产生的多个购买记录;确定模块,用于确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;识别模块,用于根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。在一个实施方式中,上述识别模块可以将所述购买关联度超出预设阈值的多个词汇片段串联在一起,作为识别出的候选词串。在一个实施方式中,上述词串识别装置还可以包括优化模块,可以用于在根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串之后,将从所述多个搜索请求中识别出的一个或多个词串作为候选词串;获取所述候选词串的特征数据,并根据所述特征数据,确定所述候选词串是否可作为第一词串。在一个实施方式中,上述特征数据可以包括但不限于以下至少之一:词串中片段的相关度、词串的左边界熵、词串的右边界熵、词串的字数、词串的片段数、包含该词串的搜索请求的数量、包含该词串的产品标题的数量。在一个实施方式中,上述词串识别装置还可以包括:分词模块,用于在确定所述多个搜索请求中相邻词汇片段之间的购买关联度之前,对所述多个搜索请求进行分词处理,得到多个词汇片段。在一个实施方式中,上述分词模块可以具体用于通过分词词典对所述多个搜索请求进行分词处理。在一个实施方式中,上述词串识别装置还可以包括:添加模块,用于在根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串之后,将识别出的一个或多个词串添加至所述分词词典中。在一个实施方式中,上述第一获取模块和第二获取模块具体可以用于获取平台中预定时间内的访问记录数据;并基于所述访问记录数据,提取出多个搜索请求和基于所述多个搜索请求而产生的多个购买记录。本申请提供的词串识别方法和服务器,通过搜索请求和购买记录,确定搜索请求中各相邻片段之间的购买关联度,然后基于购买关联度进行新词的识别。因为,引入了购买关联度的概念,将用户的购买行为作为识别新词的依据,使得可以达到准确高效识别电商平台中新词的效果。进一步的,将识别出的新词增加至分词词典,可以使得后续通过该分词词典进行搜索匹配时的分词时,可以将新词作为一个完整词进行划分,基于这种划分结果进行搜索结果匹配可以有效提高搜索结果的准确性,使得搜索结果可以更为符合用户的搜索意图。值得注意的是,上例主要是以购买关联度作为关联度来识别词串,在实际实现的时候,也可以采用其它的关联度,例如:收藏关联度、加购物车关联度等等作为关联度识别词串。也可以是结合几种关联度一起作为关联度识别词串,例如,结合加购物车关联度和购买关联度,作为关联度识别词串,也可以是结合更多类型的关联度作为关联度以识别词串。本申请对此不作限定,在实际实现的时候,可以根据实际需要和情况确定采用哪种或者哪些用户行为的关联度作为关联度识别词串,本申请对此不作限定。虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然,也可以将实现某功能的模块由多个子模块或子单元组合实现。本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1