词项加权函数确定及基于该函数进行搜索的方法及装置的制作方法

文档序号:6354438阅读:209来源:国知局
专利名称:词项加权函数确定及基于该函数进行搜索的方法及装置的制作方法
技术领域
本申请涉及数据处理技术领域,尤其涉及一种词项加权函数确定及基于该函数进行搜索的方法及装置。
背景技术
在电子商务领域中,词项加权技术在智能搜索中具有广泛的应用,当搜索引擎接收到用户输入的查询关键词后,根据该查询关键词可以匹配非常多的产品描述信息,按照每个产品描述信息与用户输入的查询关键词的相关性,对每个产品描述信息进行排序是影响搜索引擎质量的核心因素。用户输入的查询关键词以及每个产品描述信息是由多个词项构成的,因此可以表征为词项的集合,用户输入的查询关键词以及每个产品描述信息的相关性程度,可以通过产品描述信息中每个词项与用户输入的查询关键词中每个词项的匹配重要程度来确定,因此一个精确的词项加权模型是提高用户搜索产品质量的基础及关键。对于一个给定的语言文本语句或语段,词项加权模型可以评测每个词项在表示该语言文本语句或语段内容上的重要性。词项加权模型可以广泛应用于电子商务搜索各种相关应用中,例如,搜索结果排序、查询改写、相关查询推荐和搜索广告匹配等。目前一般通过某一词项在每个产品描述信息中出现的频率进行词项分析,确定搜索结果,但是由于电子商务技术领域中产品描述信息一般较短,即其包含的词项一般较少,单单根据每个词项出现的频率很难准确的确定搜索结果。或者,在现有技术中也可以根据每个词项出现的频率,及人工对每个词项进行加权处理实现词项分析,但是该方法需要人工根据每个词项的重要性进行加权处理,对人工的要求很高,并且由于人工根据自己的经验对每个词项进行加权处理,很难保证在词项分析的过程中不出现错误,另外当每个产品的对应的类目发生变化时,还需要人工重新学习相应的规则,无法实现灵活扩展。

发明内容
有鉴于此,本申请实施例提供一种词项加权函数确定及基于该函数进行搜索的方法及装置,用以解决现有词项加权函数的确定不准确,扩展不灵活,以及导致的搜索结果不准确的问题。本申请实施例提供的一种词项加权函数的确定方法,包括服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;针对用户发送的查询关键词中的相应词项,及用户对返回的对应该查询关键词的信息点击的产品描述信息,执行以下步骤根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。本申请实施例提供的一种基于上述词项加权函数确定方法进行搜索的方法,包括
服务器根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息;在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量;根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值;根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。本申请实施例提供的一种词项加权函数的确定装置,包括获取模块,用于获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;加权分值确定模块,用于针对用户发送的查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,执行以下步骤根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量;排序学习模块,用于根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。本申请实施例提供的一种基于上述词项加权函数确定装置进行搜索的装置,包括查询结果确定模块,用于根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息;特征向量确定模块,用于在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量;分析提供模块,用于根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值,根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。本申请实施例提供了一种词项加权函数确定及基于该函数进行搜索的方法及装置,该方法中,服务器根据数据库中保存的查询点击日志信息,确定查询关键词中的相应词项与点击的产品描述信息中产品标题信息中相应其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,并根据设置的至少一种特征表示方式,确定相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。由于在本申请实施例中根据保存的查询点击日志信息中每个词项间的重要性关系,生成训练词项加权函数的词项序对样本数据,以及每个词项对应的特征表示向量,采用排序学习方法确定词项加权函数,从而可以保证确定的词项加权函数的准确性,另外本申请实现方案中排序学习所依赖的样本数据完全是自动生成的,因此其可扩展性比较高


图I为本申请实施例提供的进行词项加权函数确定的系统结构示意图;图2为本申请实施例提供的进行词项加权函数确定的过程;图3为本申请实施例提供的词项加权函数的详细确定过程;图4为本申请实施例提供的一种基于确定的词项加权函数进行搜索的过程;图5为本申请实施例提供的一种词项加权函数确定装置的结构示意图;图6为本申请实施例提供的一种基于词项加权函数确定装置进行词项搜索的装置的结构示意图。
具体实施例方式本申请为了有效的提闻词项加权函数确定的准确性,以及提闻词项加权函数确定方法的可扩展性,提供了一种词项加权函数的确定方法,以及基于确定的该词项加权函数进行搜索的方法。在本申请中进行词项加权函数确定的为服务器,并且服务器基于用户通过客户端输入的查询关键词,以及该用户对返回的对应该查询关键词的信息点击的产品描述信息,进行词项加权函数的生成。下面结合说明书附图,对本申请实施例进行详细说明。图I为本申请实施例提供的进行词项加权函数确定的系统结构示意图,在该系统中包含服务器11和客户端12。其中,当训练生成词项加权函数时,服务器11从数据库中获取保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,针对用户发送的查询关键词中的相应词项,及用户对返回的对应该查询关键词的信息点击的产品描述信息,执行以下步骤根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。在本申请实施例中,当用户通过客户端向服务器发送查询关键词时,服务器接收到该查询关键词,将该查询关键词发送到数据库中进行记录,并根据该查询关键词向用户返回对应该查询关键词的信息。当客户端接收到服务器返回的对应该查询关键词的信息后,将该信息提供给用户,其中该信息即为查询结果信息,并将接收到的用户在该返回的信息中所点击的产品描述信息发送给服务器,服务器将客户端发送的用户在该信息点击的产品描述信息发送到数据库,数据库将该查询关键词信息,以及用户在返回的对应该查询关键词信息中所点击的产品描述信息进行记录,生成查询点击日志信息。其中,该数据库可以位于服务器中,也可以位于进行信息统计的其他平台或终端内,具体的该服务器中可以包括数据库和搜索引擎,数据库用于生成并保存查询点击日志信息,搜索引擎具体用于根据接收到的客户端发送的查询关键词进行相应信息的查询。数据库在生成该查询点击日志信息时,可以根据服务器发送的查询关键词以及用户在返回的对应该查询关键词的信息中所点击的产品描述信息生成每个查询集合,即在每个查询集合中包含一个查询关键词,以及用户针对该查询关键词返回的信息点击的产品描述信息。

例如,数据库接收到的服务器发送的查询关键词为A,此时服务器将对应该查询关键词A的信息a、b、c和d返回给客户端,通过客户端显示给用户,用户点击的产品描述信息为a和c的产品描述信息,因此客户端将用户点击的产品描述信息发送到服务器,服务器将该a和c的产品描述信息发送到数据库,此时数据库将查询关键词A以及a和c的产品描述信息,确定为查询点击日志中的一个查询集合,保存在该查询点击日志中。当服务器进行词项加权函数的训练生成时,由于数据库中记录有查询点击日志信息,服务器从数据库获取该查询点击日志信息,根据该查询点击日志信息训练生成词项加权函数。具体的为了便于服务器进行词项加权函数的训练生成,服务器可以根据接收到的进行词项加权函数训练的指示,获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,或者,也可以当数据库中保存的查询点击日志记录了设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息时,数据库主动向服务器发起词项加权函数的训练生成的请求,服务器根据该请求,获取数据库中保存的查询点击日志信息,进行词项加权函数的生成。服务器获取了数据库中保存的查询点击日志信息后,根据该查询点击日志信息进行词项加权函数的确定。图2为本申请实施例提供的进行词项加权函数确定的过程,该过程包括以下步骤S201 :服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有一段时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息。S202 :针对用户发送的每个查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据。其中该其他词项为该产品标题信息包含的词项中,与该查询关键中包含的词项不同的词项,例如该产品标题信息包含词项A、B、C、D,该查询关键词中包含词项A、C,则该产品标题信息中的其他词项为词项B、D0该词项序对样本数据包含多组词项序对,其中每组词项序对包括两个词项,且包含该两个词项的重要性关系,另外每组词项序对中包括查询关键词中包含的一个词项。例如词项序对样本数据包括的一组词项序对包括词项A、B,其中词项A的重要性大于词项B的重要性,并且词项A为查询关键词中包含的词项。S203 :对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量。S204 :根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。本申请实施例中描述的关键词中的每个词项,如A、C,以及产品标题信息中的每个词项,如A、B、C、D,并不必然是指关键词或产品标题信息中的每一个文字或字符,可以是除去一些干扰词,如的、吗等之后进行分词获得的词项。本申请实施例中所用措辞“每个”,仅仅是为了方便描述本申请的具体实施方式
,并不能做为对本申请思想的限制。具体的在本申请实施例中,当服务器从数据库中基于数据库保存的查询点击日志信息,获取了进行训练的数据后,基于获取的训练数据确定词项序对样本数据,当确定了词项序对样本数据后,根据设置的至少一种特征表示方式,确定每个词项的针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对词项加权函数进行学习,确定进行词项分析的词项加权函数。本申请实施例中该排序学习方法可以为排序支持向量机(Rank SVM)方法、排序神经网络(Rank Net)方法、排序集成算法(Rank Boost)等。在本申请实施例中数据库中保存的查询点击日志,可以是用户对电子商务搜索引擎的用户点击信息,记录的查询点击日志信息。该查询点击日志(ClickThrough)信息中,记录用户的历史查询和用户对该查询结果文档的点击情况。在该查询点击日志中记录有每个查询集合,该查询集合可以表示为CT = {〈q,d> I q e Q,d e Dj其中,q为某时间段内用户基于客户端向搜索引擎提交的产生点击行为的每个查询关键词,Q是某个时间段内用户提交到搜索引擎的产生点击行为的查询关键词的集合,d为用户输入查询关键词后基于搜索引擎返回的信息点击的信息,Dq表示用户在输入查询关键词q后基于搜索引擎返回的信息点击的信息的集合,q = Q1Q2- . . qn为每个查询关键词q对应的词项序列,其序列长度为n ;d = Cl1Cl2. . . dm为点击信息的产品描述信息所对应的词项序列,其序列长度为m,在本申请中,一种典型的实现是用产品描述信息中的产品标题信息(title)来表征d。 在本申请实施例中在确定每个词项与点击的产品描述信息中产品标题信息中每个其他词项的重要性关系之前,所述方法还包括确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据设置的规则,对获取的每个查询集合中查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,进行过滤。 其中设置的规则包括以下一种或几种判断产品描述信息的产品标题信息中包含的词项的个数是否不小于查询关键词包含的词项的个数;判断查询关键词包含的词项,是否在产品描述信息的产品标题信息中包含的词项中全部出现;针对每个查询关键词,判断该查询关键词中包含的每两个词项是否不重复;针对每个产品描述信息,判断产品描述信息的产品标题信息中包含的每两个词项是否不重复。具体的在对获取的查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息进行过滤时,根据从数据库中获取的查询点击日志信息,针对该查询点击日志信息中记录的每个查询集合,例如该查询集合为CT',
权利要求
1.一种词项加权函数确定方法,其特征在于,包括 服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息; 针对用户发送的查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,执行以下步骤 根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
2.如权利要求I所述的方法,其特征在于,所述确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系之前,所述方法还包括 确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据设置的规贝U,对获取的每个查询集合中查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,进行过滤。
3.如权利要求2所述的方法,其特征在于,所述设置的规则包括以下一种或几种, 判断产品描述信息的产品标题信息中包含的词项的个数是否不小于查询关键词包含的词项的个数; 判断查询关键词包含的词项,是否在产品描述信息的产品标题信息中包含的词项中全部出现; 针对每个查询关键词,判断该查询关键词中包含的每两个词项是否不重复; 针对每个产品描述信息,判断产品描述信息的产品标题信息中包含的每两个词项是否不重复。
4.如权利要求I所述的方法,其特征在于,所述按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量包括 按照设置的统计特征表示方式、词级特征表示方式、语法特征表示方式和语义特征表示方式中的至少一种,确定该词项针对每种特征表示方式的特征表示向量。
5.如权利要求4所述的方法,其特征在于,当设置的特征表示方式为统计特征表示方式时,确定该每个词项针对统计特征表示方式的特征表示向量包括 根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量; 根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量; 确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的针对该查询关键词的信息中所点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量;和 确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量; 根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项针对统计特征表示方式的特征表示向量。
6.如权利要求4所述的方法,其特征在于,当设置的特征表示方式为词级特征表示方式时,确定该相应词项针对词级特征表示方式的特征表示向量包括 根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量; 根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量; 根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量; 根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对词级特征的特征表示向量。
7.如权利要求4所述的方法,其特征在于,当设置的特征表示方式为语法特征表示方式时,确定该相应词项针对语法特征表示方式的特征表示向量包括 根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量; 根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量; 将每个词项,与保存的词法中心词进行匹配,根据是否匹配成功,确定该词项对应该语法特征表示方式的特征表示第三子向量; 根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语法特征的特征表示向量。
8.如权利要求4所述的方法,其特征在于,当设置的特征表示方式为语义特征表示方式时,确定该相应词项针对语义特征表示方式的特征表示向量包括 根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表不第一子向量; 根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表不第二子向量;和 根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表不第三子向量; 根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语义特征表示方式的特征表示向量。
9.如权利要求I所述的方法,其特征在于,所述排序学习方法包括 排序支持向量机方法、排序神经网络方法和排序集成算法。
10.一种基于权利要求I所述的词项加权函数确定方法进行搜索的方法,其特征在于,所述方法包括 服务器根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果息; 在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量; 根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值;根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。
11.如权利要求10所述的方法,其特征在于,所述定该查询关键词对应的查询结果信息之前,所述方法还包括 根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定用户输入的所述查询关键词包含的每个词项对应相应特征表示方式的特征表示向量; 根据该特征表示向量,以及该进行词项分析的词项加权函数,确定该查询关键词中相应词项的分值; 根据确定的相应词项的分值,选择分值较大的词项作为查询结果信息确定的查询关键词中的词项。
12.如权利要求10或11所述的方法,其特征在于,所述相应的特征表示方式包括以下一种或几种 统计特征表示方式、词级特征表示方式、语法特征表示方式和语义特征表示方式。
13.如权利要求12所述的方法,其特征在于,当特征表示方式为统计特征表示方式时,确定词项对应统计特征表示方式的特征表示向量包括 根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量; 根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量; 确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量;和 确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量; 根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项对应统计特征表示方式的特征表示向量。
14.如权利要求12所述的方法,其特征在于,当特征表示方式为词级特征表示方式时,确定词项对应词级特征表示方式的特征表示向量包括 根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量; 根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量; 根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量; 根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应词级特征的特征表示向量。
15.如权利要求12所述的方法,其特征在于,当特征表示方式为语法特征表示方式时,确定词项对应语法特征表示方式的特征表示向量包括 根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量; 根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量; 根据每个词项是否为语法中心词,确定该词项对应语法特征表示方式的特征表示第三子向量; 根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语法特征的特征表示向量。
16.如权利要求12所述的方法,其特征在于,当特征表示方式为语义特征表示方式时,确定词项对应语义特征表示方式的特征表示向量包括 根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表不第一子向量; 根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表不第二子向量;和 根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表不第三子向量; 根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语义特征表示方式的特征表示向量。
17.—种词项加权函数确定装置,其特征在于,所述装置包括 获取模块,用于获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息; 加权分值确定模块,用于针对用户发送的查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,执行以下步骤根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量; 排序学习模块,用于根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
18.如权利要求17所述的装置,其特征在于,所述装置还包括 过滤模块,用于确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据设置的规则,对获取的每个查询集合中查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,进行过滤。
19.如权利要求18所述的装置,其特征在于,所述过滤模块,具体用于根据设置的规则的一种或几种进行过滤,其中设置的规则包括判断产品描述信息的产品标题信息中包含的词项的个数是否不小于查询关键词包含的词项的个数,判断查询关键词包含的词项,是否在产品描述信息的产品标题信息中包含的词项中全部出现,针对每个查询关键词,判断该查询关键词中包含的每两个词项是否不重复,针对每个产品描述信息,判断产品描述信息的产品标题信息中包含的每两个词项是否不重复。
20.如权利要求17所述的装置,其特征在于,加权分值确定模块,具体用于当设置的特征表示方式为统计特征表示方式时,根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量,根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量,确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户对返回的针对该查询关键词的信息点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量,和,确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量,根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项针对统计特征表示方式的特征表示向量。
21.如权利要求17所述的装置,其特征在于,加权分值确定模块,具体用于当设置的特征表示方式为词级特征表示方式时,根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量,根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量,根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对词级特征的特征表示向量。
22.如权利要求17所述的装置,其特征在于,加权分值确定模块,具体用于当设置的特征表示方式为语法特征表示方式时,根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量,根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量,根据每个词项是否为语法中心词,确定该词项对应语法特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语法特征的特征表示向量。
23.如权利要求17所述的装置,其特征在于,加权分值确定模块,具体用于当设置的特征表示方式为语义特征表示方式时,根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量,根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量,和,根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表不第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语义特征表示方式的特征表示向量。
24.一种基于权利要求17所述的词项加权函数确定装置进行词项搜索的装置,其特征在于,所述装置包括 查询结果确定模块,用于根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息; 特征向量确定模块,用于在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量; 分析提供模块,用于根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值,根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。
25.如权利要求24所述的装置,其特征在于,所述装置还包括 缩写确定模块,用于根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定用户输入的所述查询关键词包含的每个词项对应相应特征表示方式的特征表示向量,根据该特征表示向量,以及该进行词项分析的词项加权函数,确定该查询关键词中相应词项的分值,根据确定的相应词项的分值,选择分值较大的词项作为查询结果信息确定的查询关键词中的词项。
26.如权利要求24或25所述的装置,其特征在于,所述特征向量确定模块,具体用于当特征表示方式为统计特征表示方式时,根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量,根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量,确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量,和,确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表不子向量,根据至少一种特征表不子向量,以及该特征表不子向量对应的参数子向量,确定该词项对应统计特征表示方式的特征表示向量。
27.如权利要求24或25所述的装置,其特征在于,所述特征向量确定模块,具体用于当特征表示方式为词级特征表示方式时,根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量,根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量,根据词项的后缀,确定该词项对应词级特征表示方式的特征表不第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应词级特征的特征表示向量。
28.如权利要求24或25所述的装置,其特征在于,所述特征向量确定模块,具体用于当特征表示方式为语法特征表示方式时,根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量,根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量,根据每个词项是否为语法中心词,确定该词项对应语法特征表不方式的特征表不第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语法特征的特征表示向量。
29.如权利要求24或25所述的装置,其特征在于,所述特征向量确定模块,具体用于当特征表示方式为语义特征表示方式时,根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量,根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量,和,根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表示第三子向量,根据确定的至少一个 子向量,以及每个子向量对应的参数子向量,确定该词项对应语义特征表示方式的特征表示向量。
全文摘要
本申请公开了一种词项加权函数确定及基于确定的函数进行搜索的方法及装置,解决词项加权函数的确定不准确扩展不灵活问题。该方法服务器根据数据库中保存的查询点击日志信息,确定查询关键词中相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数样本数据,并根据设置的至少一种特征表示方式,确定相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数样本数据,在特征表示的基础上,采用排序学习方法对预设的词项加权函数进行学习。本申请中采用排序学习方法确定最优的词项加权函数,可以保证确定的词项加权函数的准确性,并且排序学习所依赖的样本数据完全自动生成,其可扩展性比较高。
文档编号G06F17/30GK102637179SQ20111003746
公开日2012年8月15日 申请日期2011年2月14日 优先权日2011年2月14日
发明者林锋, 赵京雷 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1