查询数据的获取方法、装置及终端与流程

文档序号:14266514阅读:261来源:国知局
查询数据的获取方法、装置及终端与流程

本发明涉及互联网技术领域,特别是涉及一种查询数据的获取方法、装置及终端。



背景技术:

伴随着互联网技术以及社会经济的飞快发展,互联网越来越影响人们的日常工作、学习及生活。例如,为了方便人们的生活,在外卖平台中除了提供传统的餐饮业务外,还提供超市、生鲜、药品等各项服务。

在外卖平台的客户端中,当用户以文字或者语音转化为文字的形式,输入查询关键字查询目标商品时,服务器会根据查询关键字查询与之匹配的目标商品,以供用户获取。目前,常见的查询方法是采用基于字典的方式,而常见的有两种字典:查询字典和查询片段字典。两种字典的查询格式一致,均包含多个条目,每个条目由一个字符串和对应的查询类别组成。但是,两种字典的优先级不同,查询字典的优先级高于查询片段字典,即当用户输入一个查询关键字时,优先匹配查询字典里的所有词条,若查询关键字完全匹配查询字典中的任意一个字符串,则以字符串对应的查询类别作为结果返回;如果匹配失败,继续匹配查询片段字典,若查询的一个子片段完全匹配了查询片段字典中的任意一个字符串,则以字符串对应的意图类别作为结果返回;若查询片段字典匹配失败,则返回空值。

发明人在实现上述发明过程中,发现现有技术中基于查询字典和查询片段字典中的任一种字典进行目标商品查询时,一个查询关键字可能会匹配字典中的多个条目,因此会发生多个查询类别之间的冲突,从而导致返回的查询结果出现错误;此外,该种基于字典查询的方式严重依赖于字典,而查询字典和查询片段字典均需要大量的人工去整理,成本较高,且出错率也较高。



技术实现要素:

有鉴于此,本发明提供的一种查询数据的获取方法、装置及终端,主要目的在于提高获取查询数据的准确性,同时减少不必要的人工资源开销。

第一方面,本发明提供了一种查询数据的获取方法,包括:

根据查询关键词提取获取目标查询结果的查询特征;

将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵,其中,所述预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别;

基于所述最大熵的查询特征与查询类别之间的对应关系,确定所述查询特征的最大熵所对应的查询类别;

返回与所述查询关键词属于同一所述查询类别的、且相关的所述目标查询结果。

可选的,在将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵之前,所述方法还包括:

定义所述预设查询分类模型的查询特征为一元词和/或多元词;

构建所述预设查询分类模型。

可选的,所述构建所述预设查询分类模型包括:

获取训练样例,所述训练样例为根据历史查询关键词及点击查询数据确定,所述点击查询数据中包含有商户类别;

根据所述训练样例与对应的点击查询数据的点击次数,确定点击每个商户类别的权重;

根据点击每个商户类别的权重最大值,确定所述训练样例与所述商户类别之间的对应关系,完成所述预设查询分类模型的构建。

可选的,获取训练样例包括:

从历史日志数据中获取预设时间段内的历史查询关键词及对应的点击查询数据;

根据所述点击查询数据确定商户标识id,并根据所述商户标识id确定商户类别;

将所述历史查询关键词、所述商户标识id及所述商户类别作之间的映射关系进行存储,记作一行;

根据定义的一元词和/或多元词提取所述历史查询关键词的历史查询特征,每个历史查询特征作为一个训练样例。

可选的,根据查询关键词提取获取目标查询结果的查询特征包括:

将所述查询关键词进行分词,每个分词可作为一个所述查询特征;

根据所述分词及所述预设查询分类模型的定义,提取所述查询关键词的一元词查询特征和/或多元词查询特征。

可选的,将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵包括:

将所述查询特征与所述预设查询分类模型中的历史查询特征进行匹配;

若匹配成功,则获取匹配历史查询特征所对应的最大权重;

根据所述最大权重及预设特征函数计算所述查询特征的最大熵,所述最大权重与最大熵成正比。

可选的,所述方法应用于外卖平台中,所述外卖平台中包含多种类别的查询数据。

第二方面,本发明提供一种查询数据的获取装置,包括:

提取单元,用于根据查询关键词提取获取目标查询结果的查询特征;

处理单元,用于将所述获取单元获取的所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵,其中,所述预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别;

确定单元,用于基于所述处理单元得到的所述最大熵的查询特征与查询类别之间的对应关系,确定所述查询特征的最大熵所对应的查询类别;

返回单元,用于返回与所述查询关键词属于同一所述查询类别的、且相关的所述目标查询结果。

可选的,所述装置还包括:

定义单元,用于在所述处理单元将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵之前,定义所述预设查询分类模型的查询特征为一元词和/或多元词;

构建单元,用于构建所述预设查询分类模型。

可选的,所述构建单元包括:

获取模块,用于获取训练样例,所述训练样例为根据历史查询关键词及点击查询数据确定,所述点击查询数据中包含有商户类别;

第一确定模块,用于根据所述获取模块获取的所述训练样例与对应的点击查询数据的点击次数,确定点击每个商户类别的权重;

第二确定模块,用于根据所述第一确定模块确定的点击每个商户类别的权重最大值,确定所述训练样例与所述商户类别之间的对应关系,完成所述预设查询分类模型的构建。

可选的,所述获取模块包括:

获取子模块,用于从历史日志数据中获取预设时间段内的历史查询关键词及对应的点击查询数据;

确定子模块,用于根据所述获取子模块获取的所述点击查询数据确定商户标识id,并根据所述商户标识id确定商户类别;

存储子模块,用于将所述确定子模块确定的所述历史查询关键词、所述商户标识id及所述商户类别作之间的映射关系进行存储,记作一行;

提取子模块,用于根据定义的一元词和/或多元词提取所述历史查询关键词的历史查询特征,每个历史查询特征作为一个训练样例。

可选的,所述提取单元包括:

分词模块,用于将所述查询关键词进行分词,每个分词可作为一个所述查询特征;

提取模块,用于根据所述分词模块得到的所述分词及所述预设查询分类模型的定义,提取所述查询关键词的一元词查询特征和/或多元词查询特征。

可选的,所述处理单元包括:

匹配模块,用于将所述查询特征与所述预设查询分类模型中的历史查询特征进行匹配;

获取模块,用于当所述匹配模块匹配成功时,获取匹配历史查询特征所对应的最大权重;

计算模块,用于根据所述最大权重及预设特征函数计算所述查询特征的最大熵,所述最大权重与最大熵成正比。

可选的,所述装置应用于外卖平台中,所述外卖平台中包含多种类别的查询数据。

第三方面,本发明还提供一种查询数据的获取终端,所述终端包括处理器和存储器,其中,所述存储器用于存储一条或多条计算机指令,所述一条或多条计算机指令被所述处理器执行以实现第一方面中任一项所述的查询数据的获取方法的步骤。

第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现第一方面中任一项所述的查询数据的获取方法的步骤。

借由上述技术方案,本发明提供的查询数据的获取方法、装置及终端,根据查询关键词提取获取目标查询结果的查询特征之后,将查询特征输入预设查询分类模型进行计算,得到查询特征的最大熵,其中,预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别,基于最大熵的查询特征与查询类别之间的对应关系,确定查询特征的最大熵所对应的查询类别,返回与查询关键词同一查询类别的、相关的查询结果;与现有技术相比,本发明无需人工的参与,节省人工成本,并且通过预设查询分类模型中训练得到的最大熵能够准确获取查询关键词所对应的目标查询结果,提高了返回结果的准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种数据的查询方法的流程图;

图2示出了本发明实施例提供的一种app显示界面的示意图;

图3示出了本发明实施例提供的另一种数据的查询方法的流程图;

图4示出了本发明实施例提供的一种构建所述预设查询分类模型的流程图;

图5示出了本发明实施例提供的一种数据的查询装置的组成框图;

图6示出了本发明实施例提供的另一种数据的查询装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为了提高根据查询意图返回目标查询结果的正确性,同时降低人工成本,本发明实施例提供一种数据的查询方法,该方法可应用于多种平台中,该些平台至少提供两种数据类型的服务,例如,在线购物商城、外卖平台、视频播放平台、新闻浏览平台等等包含多种数据类型的平台,为了便于后续实施例的描述,本发明实施例以外卖平台为例进行说明,该外卖平台中包含餐饮服务、超市服务、药品服务、鲜花蛋糕服务、水果生鲜服务等等,不同的服务类型对应不同的查询类别。需要说明的是,本发明以外卖平台为例的说明方式,并非易在限定本发明实施例仅能应用于外卖平台。如图1所示,所述方法包括:

101、根据查询关键词提取获取目标查询结果的查询特征。

外卖平台包含有前端及后台,其中,前端一般为外卖平台的应用程序(application,app),用户可通过app进行浏览、点击、获取查询数据等操作,后台一般为外卖平台的服务器,提供页面更新、查询数据返回等功能,本发明实施例所述的方法应用于后台端。其中,服务器作为一个查询数据的获取终端,其可以为独立的服务器,也可以为与服务器有数据交互关系的中继服务器,本发明实施例对查询数据的获取终端的类型不作具体限定。

如图2所示,图2示出了本发明实施例提供的一种app显示界面的示意图,当用户通过app在输入框中输入查询关键词“北京海底捞”,并点击搜索后,后台服务器接收到查询关键词。后台服务器根据查询关键词提取获取目标查询结果的查询特征,所述查询特征为查询关键词的全部内容或者部分内容,例如,若查询特征为查询关键词的全部内容,那么从查询关键词中提取一个两元词“北京-海底捞”,若查询特征为查询关键词的部分内容,如“北京”、“海底捞”,那么可根据查询关键词提取两个一元词特征“北京”和“海底捞”。

在实际应用中,在根据查询关键词提取查询特征时,提取的查询特征越多,得到的目标查询结果数量越少,内容越精确,提取的查询特征越少,得到的目标查询结果数量越多。例如,若查询特征为两元词“北京-海底捞”,那么目标查询结果中只要包含“北京-海底捞”即可;若查询特征为两个一元词“北京”、“海底捞”,那么对应的目标查询结果为包含“北京”的查询结果与包含“海底捞”的查询结果的总和。

102、将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵。

其中,所述预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别。训练样例根据历史查询关键词及点击查询数据确定,通过对训练样例的机器学习得到最大熵模型(预设查询分类模型),主要目的在于实现查询数据的类别分类,并不要求查询特征之间的独立性。

熵是用来描述无序性的参数,熵值越大,说明无序性越强,熵值越小,说明越有序。在本发明实施例中,通过对训练样例的学习,一个查询特征(通过历史查询关键词确定)可能会对应多种查询数据的类别分类(根据点击查询数据的类别确定),但是,该些类别的查询数据之间熵的大小存在差异,熵越大越能代表该类查询数据属于用户查询意图的概率越大;熵越小越能代表该类查询数据属于用户查询意图的概率越小,因此,为了提高用户查询意图的准确度,会将最大熵对应的查询类别,作为返回结果的类别。

在对预设查询分类模型进行训练学习时,确定出查询特征对应的不同查询类别的熵值大小,在使用预设查询分类模型时,将步骤101得到的查询特征输入预设查询分类模型即可得到该查询特征对应不同查询类别的熵值。示例性的,当查询特征为“北京-海底捞”时,火锅店查询类别的熵值为0.2,超市查询类别的熵值为0.5,饭店外卖查询类别的熵值为0.8等等,可确定查询特征“北京-海底捞”在预设查询分类模型中的最大熵为0.2。以上为示例性的说明,本发明实施例并不对查询特征及熵值大小进行具体限定。

103、基于所述最大熵的查询特征与查询类别之间的对应关系,确定所述查询特征的最大熵所对应的查询类别。

在预设查询分类模型中除了记录有最大熵的查询特征与查询类别之间的对应关系外,还记录有查询特征的任意熵值所对应的查询类别,如表1所示。为了提升查询速度,本发明实施例中在通过步骤102的方法确定查询特征的最大熵后,可直接确定查询类别,而并不逐一确定每个熵值所对应的查询类别。需要说明的是,表1仅为为了便于说明给出的示例,在实际应用中,查询特征的熵值大小,及其与查询类别的对应关系的存储方式不限于表格、具体内容不限于表1所示的内容。

表1

104、返回与所述查询关键词同一所述查询类别的、相关的目标查询结果。

在后台服务器中,数据库中会记录有同一查询类别下所包含的多种商品信息、多个门店、分店信息等。示例性的,当识别查询关键词“北京-海底捞”的目标查询类别为火锅店时,可结合根据用户的当前地理位置、或者,海底捞门店的好评率,向用户推荐多个关于海底捞的目标查询结果,如距离用户当前地理位置最近的商户信息、以该商户下的具体商品信息等等,准确的识别用户的查询意图。

需要说明的是,本发明实施在返回目标查询结果时,并不是单一的仅仅返回最大熵查询特征对应的查询类别,所对应的目标查询结果,其他查询类别对应的目标查询结果也会返回,只是在返回目标查询结果时,最大熵对应的目标查询结果排名靠前,其他查询类别对应的目标查询结果排名靠后,以满足不同用户的真是查询需求。示例性的,当查询关键词为“北京-海底捞”时,返回的目标查询结果中,排名前五的是海底捞火锅店信息,排名第六、第七的目标查询结果为超市售卖的海底捞火锅底料,排名第八至第十的目标查询结果为其他商家的海底捞商品等等。具体对返回目标查询结果的数量、排名不做限定。

结合上述的实现方式可以看出,本发明实施例提供的查询数据的获取方法,查询数据的终端根据查询关键词提取获取目标查询结果的查询特征之后,将查询特征输入预设查询分类模型进行计算,得到查询特征的最大熵,其中,预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别,基于最大熵的查询特征与查询类别之间的对应关系,确定查询特征的最大熵所对应的查询类别,返回与查询关键词同一查询类别的、相关的查询结果;与现有技术相比,本发明实施例无需人工的参与,节省人工成本,并且通过预设查询分类模型中训练得到的最大熵能够准确获取查询关键词所对应的目标查询结果,提高了返回结果的准确性。

为了更加详细地说明本发明实施例提供的查询数据的获取方法,特别是该方法应用于外卖平台中的使用,根据用户的获取数据意图向用户返回准确的目标查询结果,以提升用户的查询体验。具体步骤如图3所示,包括:

201、定义所述预设查询分类模型的查询特征为一元词和/或多元词。

定义查询特征为一元词或多元词的目的是提取获取目标查询结果的查询特征,该查询特征根据查询关键词(或者历史查询关键词)进行提取,其依赖于查询关键词的字符串长度,因此,为了适应不同的查询关键词的字符串长度的变化,在定义提取查询特征时,需定义多种方式提取方式。

所述一元词为将整个查询关键词作为一个整体进行提取,多元词为从查询关键词中提取两个及以上个多元词。多元词的个数越多,意味着在获取目标查询结果时,每个多元词都要与目标查询结果匹配,获得的查询数据更精确,但是,匹配目标查询结果的个数也相对减少。

为了提高匹配的准确度,当查询关键词的字符串长度允许拆分为多个分词时,确定对应的查询特征可以包含一个多元词查询特征和多个一元词查询特征,以匹配更多的商户。当查询关键词的字符串长度不允许查分为多个分词时,确定对应的查询特征为一个一元词。

202、根据查询关键词提取获取目标查询结果的查询特征。

在提取查询特征时,可以采用但不局限于以下方式,例如:将所述查询关键词进行分词,每个分词可作为一个所述查询特征,根据所述分词及所述预设查询分类模型的定义,提取所述查询关键词的一元词查询特征和/或多元词查询特征。

示例性的,若查询关键词为“维生素”,根据现有技术中的任意一种方法进行分词,得到分词维生素,所述维生素为不可拆分分词,因此提取的查询特征为“维生素”。若查询关键词为“张亮麻辣烫”,分词后得到:张亮、麻辣烫,根据预设查询分类模型的定义,可确定查询特征可以为一个多元词“张亮-麻辣烫”和两个一元词“张亮”、“麻辣烫”等等。具体的,本发明实施例对查询关键词及对应的查询特征不做限定。

203、将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵。

由步骤102可知,该预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别。在具体实施过程中,确定查询特征后,将所述查询特征与所述预设查询分类模型中的历史查询特征进行匹配,该历史查询特征为训练学习预设查询分类模型时,所使用的查询特征,若匹配成功,则获取匹配历史查询特征所对应的最大权重,根据所述最大权重及预设特征函数计算所述查询特征的最大熵。若匹配不成功,则根据查询特征或者查询特征的相似度从数据库中获取对应的目标查询结果。所述历史查询特征的确定是根据历史日志数据中的历史查询关键词确定的,而不是根据某一规则随机生成的,因此,历史查询特征具有一定的实用性、代表性。在实际应用中,通过训练样例进行机器学习得到预设查询分类模型时,其使用的历史查询特征较为全面、常用,因此,出现查询特征与所述预设查询分类模型中的历史查询特征不匹配的概率较小。

所述历史查询特征所对应的最大权重为用户通过历史查询关键词进行查询时,用户点击返回结果(某一查询类别)的最大概率,同一历史查询特征,用户点击同一个商户类别的次数越多,概率就越大,权重越大,对应的熵值就越小(最大熵的熵值最小)。

在根据所述最大权重及预设特征函数计算所述查询特征的最大熵时,其可以采用下述方式:argmaxy∑iwifi(x,y),其中,wi表示第i个查询特征的权重,fi表示第i个特征函数,x训练样本,y表示一个查询类别,由上述公式可以看出,所述最大权重与最大熵成正比,权重越大,熵值越小,其代表点击一类商户的概率越大,有关特征函数的描述请参考现有技术中的任意说明,本发明实施例在此不再进行赘述。

204、基于所述最大熵的查询特征与查询类别之间的对应关系,确定所述查询特征的最大熵所对应的查询类别。

对于确定查询特征的最大熵所对应的查询类别具体确定方式以在上述实施例中的步骤103中进行了说明,此处不再赘述。

205、返回与所述查询关键词属于同一所述查询类别的、且相关的所述目标查询结果。

对于返回目标查询结果具体实现方式以在上述实施例中的步骤104中进行了说明,此处不再赘述。

本发明实施例通过预设查询分类模型的机器学习思想去解决判定用户意识识别的问题,无需采用现有技术中需要人工整理字典的方式,节约资源,避免人工干预而降低准确性。本发明实施例还提供一种构建所述预设查询分类模型的方法,如图4所示,包括:

301、获取训练样例,所述训练样例为根据历史查询关键词及点击查询数据确定,所述点击查询数据中包含有商户类别。

对于本步骤的具体实现,获取训练样例的方式:

(1)从历史日志数据中获取预设时间段内的历史查询关键词及对应的点击查询数据。对于通过机器学习的方式构建预设查询分类模型,其首要步骤是对待学习的数据进行标注,而本发明实施例中将用户的点击查询数据作为标注数据进行学习,将用户的意图识别转化为如何确定查询分类上。在历史日志数据中除了包含历史查询关键词及对应的点击查询数据外,还包括有用户的账号信息、浏览时间、点击时间、连接跳转等信息,因此,需要从历史日志数据中提取历史查询关键词及对应的点击查询数据。

理论上,通过对历史日志数据中的历史查询关键词及对应的点击查询数据进行学习时,历史日志数据的时间段越长,得到的统计结果越精确,同时,计算量也会增加。在实际应用中,可以通过对1个月或者2个月内的连续历史日志数据中的历史查询关键词及对应的点击查询数据进行学习,具体的本发明实施例对此不做限定。

本发明实施例中,具体的点击查询数据可以是用户查看商户或在商户页面中查看具体商品的点击行为所生成的数据,还可以是关注商户、将商品加入购物车等点击数据。

(2)根据所述点击查询数据确定商户标识id,并根据所述商户标识id确定商户类别。

根据点击查询数据从商户的信息数据库中获取商户标识id,该商户标识id用于在外卖平台中唯一标识一家商户。根据商户标识id获取商户类型,商户类型包括:餐饮、鲜花、药店、超市、水果生鲜等等。

(3)将所述历史查询关键词、所述商户标识id及所述商户类别作之间的映射关系进行存储,记作一行。

建立历史查询关键词、所述商户标识id及所述商户类别三者之间的映射关系,并将映射关系进行存储。在训练学习过程中,会统计多个历史查询关键词、所述商户标识id及所述商户类别,因此,为了便于区分,在存储时,将每种映射关系分行存储,以便于后续的使用。

(4)根据定义的一元词和/或多元词提取所述历史查询关键词的历史查询特征,每个历史查询特征作为一个训练样例。

提取历史查询特征的方法与步骤202中提取查询特征的方法相同,有关提取历史查询特征的详细说明,详见步骤202的有关说明。

302、根据所述训练样例与对应的点击查询数据的点击次数,确定点击每个商户类别的权重。

同一个训练样例(历史查询特征),对应的点击查询数据中的商户类别可能会存在差异,例如,针对同一训练样例,点击查询数据中共包含4个商家,其中,点击商户a的次数为20次,点击商户b的次数为200次,点击商户c的次数为56次,点击商户d的次数为24次,由此可以看出,同一查询特征下,用户点击商户b的概率相对较大。

作为本发明实施例的一种可实现方式,在计算历史查询特征的权重时,将某个商户的点击次数除以同一训练样例下点击商户的总次数。呈由上一示例,同一训练样例下,点击商户的总次数为300,其中,点击商户b的权重为200/300=0.67,点击商户a的权重为20/300=0.067等等,其中,同一训练样例下点击不同商户的权重总和为1。

303、根据点击每个商户类别的权重最大值,确定所述训练样例与所述商户类别之间的对应关系,完成所述预设查询分类模型的构建。

在步骤302计算出点击每个商户类别的权重之后,获取权重最大值,并建立权重最大值对应的商户类别与训练样例(历史查询特征)之间的对应关系。在实际应用中,待学习的历史查询特征为多个,通过上述方法依次计算每个训练样例(历史查询特征)的各个点击商户类别的权重,并确定出权重最大值,完成所述预设查询分类模型的构建。

进一步的,作为对上述方法实施例的实现,本发明另一实施例还提供了一种查询数据的获取装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图5所示,包括:

提取单元41,用于根据查询关键词提取获取目标查询结果的查询特征;在根据查询关键词提取查询特征时,提取的查询特征越多,得到的目标查询结果数量越少,内容越精确,提取的查询特征越少,得到的目标查询结果数量越多

处理单元42,用于将所述获取单元41获取的所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵,其中,所述预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别;通过对训练样例的机器学习得到最大熵模型(预设查询分类模型),主要目的在于实现查询数据的类别分类,并不要求查询特征之间的独立性;熵是用来描述无序性的参数,熵值越大,说明无序性越强,熵值越小,说明越有序。在本发明实施例中,通过对训练样例的学习,一个查询特征(通过历史查询关键词确定)可能会对应多种查询数据的类别分类(根据点击查询数据的类别确定),但是,该些类别的查询数据之间熵的大小存在差异,熵越大越能代表该类查询数据属于用户查询意图的概率越大;熵越小越能代表该类查询数据属于用户查询意图的概率越小,因此,为了提高用户查询意图的准确度,会将最大熵对应的查询类别,作为返回结果的类别;

确定单元43,用于基于所述处理单元42得到的所述最大熵的查询特征与查询类别之间的对应关系,确定所述查询特征的最大熵所对应的查询类别;

返回单元44,用于返回与所述查询关键词属于同一所述查询类别的、且相关的所述目标查询结果;本发明实施在返回目标查询结果时,并不是单一的仅仅返回最大熵查询特征对应的查询类别,所对应的目标查询结果,其他查询类别对应的目标查询结果也会返回,只是在返回目标查询结果时,最大熵对应的目标查询结果排名靠前,其他查询类别对应的目标查询结果排名靠后,以满足不同用户的真是查询需求。

进一步的,如图6所示,所述装置还包括:

定义单元45,用于在所述处理单元42将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵之前,定义所述预设查询分类模型的查询特征为一元词和/或多元词;该查询特征根据查询关键词(或者历史查询关键词)进行提取,其依赖于查询关键词的字符串长度,因此,为了适应不同的查询关键词的字符串长度的变化,在定义提取查询特征时,需定义多种方式提取方式;

构建单元46,用于构建所述预设查询分类模型。

本发明实施例通过预设查询分类模型的机器学习思想去解决判定用户意识识别的问题,无需采用现有技术中需要人工整理字典的方式,节约资源,避免人工干预而降低准确性。如图6所示,所述构建单元46包括:

获取模块461,用于获取训练样例,所述训练样例为根据历史查询关键词及点击查询数据确定,所述点击查询数据中包含有商户类别;

第一确定模块462,用于根据所述获取模块461获取的所述训练样例与对应的点击查询数据的点击次数,确定点击每个商户类别的权重;

第二确定模块463,用于根据所述第一确定模块462确定的点击每个商户类别的权重最大值,确定所述训练样例与所述商户类别之间的对应关系,完成所述预设查询分类模型的构建。

进一步的,如图6所示,所述获取模块461包括:

获取子模块4611,用于从历史日志数据中获取预设时间段内的历史查询关键词及对应的点击查询数据;

确定子模块4612,用于根据所述获取子模块4611获取的所述点击查询数据确定商户标识id,并根据所述商户标识id确定商户类别;

存储子模块4613,用于将所述确定子模块4612确定的所述历史查询关键词、所述商户标识id及所述商户类别作之间的映射关系进行存储,记作一行;

提取子模块4614,用于根据定义的一元词和/或多元词提取所述历史查询关键词的历史查询特征,每个历史查询特征作为一个训练样例。

进一步的,如图6所示,所述提取单元41包括:

分词模块411,用于将所述查询关键词进行分词,每个分词可作为一个所述查询特征;

提取模块412,用于根据所述分词模块得到的所述分词及所述预设查询分类模型的定义,提取所述查询关键词的一元词查询特征和/或多元词查询特征。

进一步的,如图6所示,所述处理单元42包括:

匹配模块421,用于将所述查询特征与所述预设查询分类模型中的历史查询特征进行匹配;

获取模块422,用于当所述匹配模块匹配成功时,获取匹配历史查询特征所对应的最大权重;

计算模块423,用于根据所述最大权重及预设特征函数计算所述查询特征的最大熵,所述最大权重与最大熵成正比。

进一步的,所述装置应用于外卖平台中,所述外卖平台中包含多种类别的查询数据。

进一步的,本发明实施例提还提供一种查询数据的获取终端,所述终端包括处理器和存储器,其中,所述存储器用于存储一条或多条计算机指令,所述一条或多条计算机指令被所述处理器执行以实现上述图1、图3或图4所示的查询数据的获取方法的步骤。

进一步的,本发明实施例提还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现上述图1、图3或图4所示的查询数据的获取方法的步骤。

结合上述的实现方式可以看出,本发明实施例提供的查询数据的获取装置及终端,查询数据的终端根据查询关键词提取获取目标查询结果的查询特征之后,将查询特征输入预设查询分类模型进行计算,得到查询特征的最大熵,其中,预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别,基于最大熵的查询特征与查询类别之间的对应关系,确定查询特征的最大熵所对应的查询类别,返回与查询关键词同一查询类别的、相关的查询结果;与现有技术相比,本发明实施例无需人工的参与,节省人工成本,并且通过预设查询分类模型中训练得到的最大熵能够准确获取查询关键词所对应的目标查询结果,提高了返回结果的准确性。

本发明实施例还公开如下方案:

a1、一种查询数据的获取方法,包括:

根据查询关键词提取获取目标查询结果的查询特征;

将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵,其中,所述预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别;

基于所述最大熵的查询特征与查询类别之间的对应关系,确定所述查询特征的最大熵所对应的查询类别;

返回与所述查询关键词属于同一所述查询类别的、且相关的所述目标查询结果。

a2、根据a1所述的方法,在将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵之前,所述方法还包括:

定义所述预设查询分类模型的查询特征为一元词和/或多元词;

构建所述预设查询分类模型。

a3、根据a2所述的方法,所述构建所述预设查询分类模型包括:

获取训练样例,所述训练样例为根据历史查询关键词及点击查询数据确定,所述点击查询数据中包含有商户类别;

根据所述训练样例与对应的点击查询数据的点击次数,确定点击每个商户类别的权重;

根据点击每个商户类别的权重最大值,确定所述训练样例与所述商户类别之间的对应关系,完成所述预设查询分类模型的构建。

a4、根据a3所述的方法,获取训练样例包括:

从历史日志数据中获取预设时间段内的历史查询关键词及对应的点击查询数据;

根据所述点击查询数据确定商户标识id,并根据所述商户标识id确定商户类别;

将所述历史查询关键词、所述商户标识id及所述商户类别作之间的映射关系进行存储,记作一行;

根据定义的一元词和/或多元词提取所述历史查询关键词的历史查询特征,每个历史查询特征作为一个训练样例。

a5、根据a2所述的方法,根据查询关键词提取获取目标查询结果的查询特征包括:

将所述查询关键词进行分词,每个分词可作为一个所述查询特征;

根据所述分词及所述预设查询分类模型的定义,提取所述查询关键词的一元词查询特征和/或多元词查询特征。

a6、根据a3所述的方法,将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵包括:

将所述查询特征与所述预设查询分类模型中的历史查询特征进行匹配;

若匹配成功,则获取匹配历史查询特征所对应的最大权重;

根据所述最大权重及预设特征函数计算所述查询特征的最大熵,所述最大权重与最大熵成正比。

a7、根据a1-a6中任一项所述的方法,所述方法应用于外卖平台中,所述外卖平台中包含多种类别的查询数据。

b8、一种查询数据的获取装置,包括:

提取单元,用于根据查询关键词提取获取目标查询结果的查询特征;

处理单元,用于将所述获取单元获取的所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵,其中,所述预设查询分类模型用于根据训练样例训练得到每个查询特征对应的最大熵,最大熵的查询特征对应一个查询类别;

确定单元,用于基于所述处理单元得到的所述最大熵的查询特征与查询类别之间的对应关系,确定所述查询特征的最大熵所对应的查询类别;

返回单元,用于返回与所述查询关键词属于同一所述查询类别的、且相关的所述目标查询结果。

b9、根据b8所述的装置,所述装置还包括:

定义单元,用于在所述处理单元将所述查询特征输入预设查询分类模型进行计算,得到所述查询特征的最大熵之前,定义所述预设查询分类模型的查询特征为一元词和/或多元词;

构建单元,用于构建所述预设查询分类模型。

b10、根据b9所述的装置,所述构建单元包括:

获取模块,用于获取训练样例,所述训练样例为根据历史查询关键词及点击查询数据确定,所述点击查询数据中包含有商户类别;

第一确定模块,用于根据所述获取模块获取的所述训练样例与对应的点击查询数据的点击次数,确定点击每个商户类别的权重;

第二确定模块,用于根据所述第一确定模块确定的点击每个商户类别的权重最大值,确定所述训练样例与所述商户类别之间的对应关系,完成所述预设查询分类模型的构建。

b11、根据b10所述的装置,所述获取模块包括:

获取子模块,用于从历史日志数据中获取预设时间段内的历史查询关键词及对应的点击查询数据;

确定子模块,用于根据所述获取子模块获取的所述点击查询数据确定商户标识id,并根据所述商户标识id确定商户类别;

存储子模块,用于将所述确定子模块确定的所述历史查询关键词、所述商户标识id及所述商户类别作之间的映射关系进行存储,记作一行;

提取子模块,用于根据定义的一元词和/或多元词提取所述历史查询关键词的历史查询特征,每个历史查询特征作为一个训练样例。

b12、根据b9所述的装置,所述提取单元包括:

分词模块,用于将所述查询关键词进行分词,每个分词可作为一个所述查询特征;

提取模块,用于根据所述分词模块得到的所述分词及所述预设查询分类模型的定义,提取所述查询关键词的一元词查询特征和/或多元词查询特征。

b13、根据b10所述的装置,所述处理单元包括:

匹配模块,用于将所述查询特征与所述预设查询分类模型中的历史查询特征进行匹配;

获取模块,用于当所述匹配模块匹配成功时,获取匹配历史查询特征所对应的最大权重;

计算模块,用于根据所述最大权重及预设特征函数计算所述查询特征的最大熵,所述最大权重与最大熵成正比。

b14、根据b8-b13中任一项所述的装置,所述装置应用于外卖平台中,所述外卖平台中包含多种类别的查询数据。

c15、一种查询数据的获取终端,所述终端包括处理器和存储器,其中,所述存储器用于存储一条或多条计算机指令,所述一条或多条计算机指令被所述处理器执行以实现a1至a7中任一项所述的查询数据的获取方法的步骤。

d16、一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现a1至a7中任一项所述的查询数据的获取方法的步骤。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的查询数据的获取方法、装置及终端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1