生成数据对象标签、数据对象搜索方法、装置及电子设备与流程

文档序号:26407104发布日期:2021-08-24 16:21阅读:47来源:国知局
生成数据对象标签、数据对象搜索方法、装置及电子设备与流程

本申请涉及数据处理技术领域,特别是涉及生成数据对象标签、数据对象搜索方法、装置及电子设备。



背景技术:

在数据对象(商品对象或服务等)信息服务系统的搜索/推荐场景下,通常会为数据对象打上各类标签,如风格、样式、颜色等商品对象属性信息,促销、打折等商品销售信息,用户在通过词汇搜索数据对象的时候,若搜索词命中了这些标签信息,则带有这些标签信息的数据对象由于关联度较高,则会优先返回,便于用户获得最接近原始意图的数据对象的信息。换言之,数据对象的标签,是对数据对象更为细粒度的特征描述,它对提高数据对象曝光、点击、购买率具有关键影响。

数据对象标签的生成技术通常可分为人工填充与算法自动填充两大类,基于人工填充的方法中,商家用户在发布数据对象的时候,选择其对应的类目信息以及添加相应的文本标签描述信息。但是,人工填充的方式准确度不高,还存在由于不确定如何添加等原因而放弃添加的情形。

而算法自动填充的方法较多,例如基于商品文本特征来进行,通过构建文本特征数据底库,并通过计算当前数据对象的文本特征(通常可以从详情页中提取)与底库的文本数据特征的相似度,来自动生成标签,以便在具体的数据对象搜索、推荐等场景中使用。但是,在跨境的场景中,同一数据对象可能需要通过多种不同的语言进行发布,以便提供给多个不同语言的国家或地区的用户浏览。此时,如果仍然基于文本特征比对的方式自动生成标签,则需要分别针对不同语言的文本特征分别进行标签生成,工作量会非常大。

因此,如何更有效地为数据对象自动生成标签,成为需要本领域技术人员解决的技术问题。



技术实现要素:

本申请提供了生成数据对象标签、数据对象搜索方法、装置及电子设备,能够获取到更有效的训练样本,进而更有效地为数据对象自动生成标签。

本申请提供了如下方案:

一种生成数据对象标签的方法,包括:

获得分类模型,所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

确定待预测的数据对象及其对应的图像信息;

将所述待预测的数据对象的图像信息输入到所述分类模型中,以获得对应的文本标签。

一种提供数据对象搜索信息的方法,包括:

建立数据对象信息库,所述信息库中保存有数据对象关联的文本标签信息,所述文本标签信息包括带有搜索热点属性的目标词汇;所述文本标签信息是利用分类模型对数据对象的图像进行预测确定的;所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

接收搜索请求,并确定搜索关键词;

根据所述数据对象的所述文本标签与所述搜索关键词的匹配程度,提供搜索结果。

一种获取训练样本数据的方法,包括:

根据目标时间段内的用户搜索记录,确定具有搜索热点属性的目标词汇,所述具有搜索热点属性的目标词汇包括:搜索频次满足目标条件的词汇;

对以所述目标词汇为关键词发起搜索后的用户行为记录进行分析,从搜索结果中确定与所述目标词汇具有目标关系的目标数据对象;

利用所述目标词汇对所述目标数据对象对应的图像进行标注,并将带有标注信息的所述图像确定为训练样本,所述训练样本用于对目标模型进行训练,所述目标模型用于以待预测数据对象的图像为输入,输出匹配的目标词汇,以用于确定为所述待预测数据对象的文本标签。

一种分类模型的处理方法,包括:

获取训练样本,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

利用所述训练样本对所述分类模型进行训练。

一种生成数据对象标签的装置,包括:

分类模型获得单元,用于获得分类模型,所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

图像确定单元,用于确定待预测的数据对象及其对应的图像信息;

预测单元,用于将所述待预测的数据对象的图像信息输入到所述分类模型中,以获得对应的文本标签。

一种提供数据对象搜索信息的装置,包括:

数据对象信息库建立单元,用于建立数据对象信息库,所述信息库中保存有数据对象关联的文本标签信息,所述文本标签信息包括带有搜索热点属性的目标词汇;所述文本标签信息是利用分类模型对数据对象的图像进行预测确定的;所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

搜索请求接收单元,用于接收搜索请求,并确定搜索关键词;

搜索结果提供单元,用于根据所述数据对象的所述文本标签与所述搜索关键词的匹配程度,提供搜索结果。

一种获取训练样本数据的装置,包括:

目标词汇确定单元,用于根据目标时间段内的用户搜索记录,确定具有搜索热点属性的目标词汇,所述具有搜索热点属性的目标词汇包括:搜索频次满足目标条件的词汇;

目标数据对象确定单元,用于对以所述目标词汇为关键词发起搜索后的用户行为记录进行分析,从搜索结果中确定与所述目标词汇具有目标关系的目标数据对象;

标注单元,用于利用所述目标词汇对所述目标数据对象对应的图像进行标注,并将带有标注信息的所述图像确定为训练样本,所述训练样本用于对目标模型进行训练,所述目标模型用于以待预测数据对象的图像为输入,输出匹配的目标词汇,以用于确定为所述待预测数据对象的文本标签。

一种分类模型的处理装置,包括:

样本获取单元,用于获取训练样本,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

训练单元,用于利用所述训练样本对所述分类模型进行训练。

根据本申请提供的具体实施例,本申请公开了以下技术效果:

通过本申请实施例,为了能够基于数据对象的图像自动生成文本标签,并使得具体的文本标签具有搜索热点属性,可以在对模型进行训练的阶段进行处理。具体的,可以首先根据一定时间段内的用户搜索记录,确定出具有搜索热点属性的目标词汇,这种目标词汇可以添加到标签库中。另外,除了确定出目标词汇之外,还可以利用具体的目标词汇对数据对象图像进行标注,标注的结果可以作为训练样本对模型进行训练。为此,本申请实施例还可以对以这种目标词汇为关键词进行搜索后的用户行为记录进行分析,如果用户对搜索记录中的某些数据对象执行了目标行为,则可以证明这些数据对象与当前的搜索关键词具有比较深度的关联。进一步的,可以利用该搜索关键词对应的目标词汇对数据对象对应的图像进行标注,这种带有标注信息的数据对象图像便可以作为训练样本,用于对具体的模型进行训练。

由于在模型训练阶段,获取具体的训练样本时,这种训练样本并不是直接通过商家的标注结果等数据中进行读取,而是可以通过对用户使用目标词汇作为关键词进行搜索后的用户行为进行分析,从这种用户行为数据中挖掘出与具体的搜索关键词具有某种深度关联的数据对象,并进而利用该搜索关键词对应的目标词汇对数据对象的图像进行标注,以此作为训练样本。通过这种方式,可以使得训练样本的质量得到提升,便于提升模型的预测准确率。

在完成对模型的训练后,后续具体在通过模型进行预测时,就可以从标签库中确定出与目标数据对象的图像相匹配的目标词汇,并将其添加为数据对象的标签。由于本申请实施例中在自动生成标签时,只需要以数据对象的图像作为输入信息,而不需要依赖于文本内容,因此,可以在跨境场景中使用。另外,由于具体的标签库中的目标词汇是具有搜索热点属性,进而具体为数据对象添加的标签页是具有搜索热点属性,因此,这种标签更适合在搜索场景中使用,有利于提升搜索结果与搜索需求的匹配度,同时也提升具有对应属性的数据对象的曝光率。

当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图;

图2是本申请实施例提供的第一方法的流程图;

图3是本申请实施例提供的模型结构的示意图;

图4是本申请实施例提供的第二方法的流程图;

图5是本申请实施例提供的第三方法的流程图;

图6是本申请实施例提供的第四方法的流程图;

图7是本申请实施例提供的第一装置的示意图;

图8是本申请实施例提供的第二装置的示意图;

图9是本申请实施例提供的第三装置的示意图;

图10是本申请实施例提供的第四装置的示意图;

图11是本申请实施例提供的电子设备的示意图;。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。

在本申请实施例中,针对跨境等场景,可以提供基于数据对象的图像(例如,商品图,等)自动生成数据对象的文本标签的方案。具体实现时,可以提前利用关联有标签文本的图像对模型进行训练,在完成训练之后,可以以商品对象的图像作为模型的输入,模型通过对图像进行特征提取等处理,自动生成文本标签进行输出。

由于数据对象的图像通常是与语言无关的,例如,具体的数据对象是某件服装对应的商品对象,则其图像通常是该服装的照片,或者模特穿着该服装状态下的照片等,以便通过具体的图像向用户传达数据对象的相关信息,而不需要依赖于文本内容。换言之,在跨境场景下,同一数据对象在不同语种环境下的文本内容可能会不同(分别用不同的语种进行描述),但是,其图像往往是相同的。因此,本申请实施例中,可以从数据对象关联的图像出发,自动生成文本标签。

但是,本申请发明人在实现本申请的过程中还发现,为数据对象自动生成的标签,通常有两种主要的应用场景。一种是在商家等用户发布数据对象的过程中,为用户进行标签推荐,以便用户从推荐的标签中进行选择。另一种是对于已经发布的数据对象,通过自动为其生成标签,以便在数据对象搜索等过程中,通过标签与搜索关键词的匹配度,向用户提供搜索结果,等等。在两种不同的场景下,所生成的标签种类可以有不同的侧重点,以此提升在不同场景下标签的有效性。例如,对于第一种情况,主要是生成的标签可以是数据对象属性类的标签,例如,数据对象的风格、样式、颜色等都属于这类标签。而对于第二种情况,由于是在搜索场景下进行搜索词与数据对象标签的匹配,因此,具体所生成的标签可以是在搜索场景中更容易与搜索词匹配成功的标签,以此提升数据对象在搜索场景下的曝光率。

为此,本申请实施例还针对上述第二种情况,提供了对应的解决方案。在该方案中,不仅可以以数据对象的图像作为输入信息来进行标签的自动生成,而且还可以通过采用特殊的训练样本对模型进行训练,使得模型生成的标签可以具有“搜索热点词汇”等性质。具体的,在获取上述特殊的训练样本时,首先可以从目标时间段内(例如,最近一个月等)多个用户的搜索记录中,分析出具有搜索热点属性的搜索词。所谓的搜索热点属性,也即被用户用作搜索词的次数或频率高于某阈值或排序比较靠前的词汇。然后,获取与上述热点词汇相关的数据对象图像,在获取这种数据对象图像时,可以直接从数据对象信息库中已经添加有标签的数据对象中进行获取。但是,一方面,数据库中已有的数据对象标签可能存在不准确的情况,或者,另一方面。还存在大量实际与某热点词汇相关,但是并未添加该标签的数据对象。

针对上述情况,本申请实施例还提供了根据具体搜索场景中的用户行为记录来进行获取训练样本的方案。具体的,在确定出热点词汇后,可以对以上述热点词汇发起搜索后的用户行为信息进行分析,例如,如果某用户对搜索结果中的某数据对象进行了点击查看详情、收藏、加入待购买集合(例如,“购物车”等)、购买等行为,则证明该数据对象与当前热点词汇具有比较深度的绑定关系,进而可以在该热点词汇与该数据对象的图像之间建立“深度绑定”关系,并将这种具有“深度绑定关系”的热点词汇以及对应的数据对象的图像作为训练样本,以用于对具体的模型进行训练。通过这种方式,使得训练出的模型学习的是数据对象的图像与热点词汇之间的内在关系,因此,具体在通过该模型为数据对象自动生成标签时,就可以将该数据对象的图像输入到该模型中,相应的,模型可以对该数据对象的图像进行分类,确定出匹配的标签,并且,该标签是具有搜索热点属性的标签。

具体实现时,从系统架构角度而言,本申请实施例可以在数据对象信息服务系统中提供相应的功能,该数据对象信息服务系统可以包括服务端以及客户端两部分。其中,进行训练样本的收集以及模型的训练、进而为数据对象自动生成具有搜索热点属性的标签等操作,都可以在服务端完成。例如,服务端可以以系统数据库中的全量数据对象(也可以是其中的一部分)等作为待预测的数据对象,以分别为具体的数据对象生成具有搜索热点属性的标签(当然,对于与搜索热点无关的数据对象,则生成的标签可以为空)。具体为数据对象预测出的带有搜索热点属性的标签可以保存到数据对象信息库中,以便于在搜索场景下提升对应数据对象的曝光率。另外,由于系统中经常都会有新发布的数据对象,因此,服务端还可以按照一定的频率重新执行标签自动生成的操作,重新执行的标签自动生成处理主要针对系统中新发布的数据对象进行,并更新数据对象信息库。具体的,可以每天更新一次,或者,也可以是以其他的频率进行,例如,每两天或者每周更新一次,等等。另外,由于具体词汇的搜索热点属性可能也是动态变化的,因此,在实际应用中,具体模型的训练工作也可以是每隔一段时间重新进行,在重新进行模型训练时,可以重新确定带有搜索热点属性的目标词汇,重新根据用户对搜索结果的行为记录,为数据对象的图像进行打标,等等。

客户端则主要用于与用户进行交互,例如,可以在具体的页面中提供搜索入口,用户可以输入具体的关键词发起搜索,此时,服务端还可以基于数据对象信息库中具体数据对象的标签与关键词的匹配程度,提供具体的搜索结果。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先,该实施例一提供了一种获取训练样本数据的方法,该实施例一的执行主体可以是前述服务端,具体的,参见图2,该方法可以包括:

s201:根据目标时间段内的用户搜索记录,确定具有搜索热点属性的目标词汇,所述具有搜索热点属性的目标词汇包括:搜索频次满足目标条件的词汇;

在本申请实施例中,主要通过为数据对象添加具有搜索热点属性的标签,以此提升数据对象在搜索场景中的曝光率。而搜索热点属性通常是一种动态变化的属性,例如,某词汇可能在某段时间内具有很高的搜索热度,过了这段时间热度可能就降低了,等等。其中,具体搜索关键词的热度随时间变化的因素通常有多种,例如,部分关键词可能是受到季节、节日等影响,部分关键词可能会受到热点事件的影响,等等。

因此,在具体实现时,首先可以确定出哪些词汇可以作为具有搜索热点属性的标签存在。为此,在本申请实施例中,可以根据一段时间内的用户搜索记录来确定。例如,根据最近一个月内的用户搜索记录,确定出搜索次数或者频率比较高或排序比较靠前的搜索关键词,根据这些关键词确定出具有搜索热点属性的词汇。这种词汇就可以加入到标签库中,具体模型训练完成后,就是从这些词汇中为具体的数据对象选择具体的标签。

其中,在确定具有搜索热点属性的目标词汇时,可以直接对搜索关键词的出现频次等进行统计,然后,根据统计结果,将符合条件(例如,搜索频次高于目标阈值)的搜索关键词确定为目标词汇。或者,还可以对搜索关键词进行处理后,再确定具体的目标词汇。

例如,在若用户位于不同国家导致的搜索关键词语言不统一,则还可以首先将搜索关键词翻译至统一语言(如中文或英文)。

另外,还可以对搜索关键词进行分词处理,并将其中包含的无实际意义的词过滤掉。例如,以英文分词为例,由于英文语言的基本单位是单词,因此,首先可以按照空格、符号/段落等进行分隔,可使用正则表达式进行分隔操作,以将单个搜索记录的词组拆分成数个单词。之后,排除and/of/the/a等高频词,这类高频词会对词频统计带来较大影响,而不具有实际的热词意义。

此外,由于英文语言中还存在一些时态、单复数的标签,因此,还可以将单词的复数还原为单数,将ing、ed等时态变化还原为一般现在时。通过分词、过滤、词干提取等处理后,再对单词的出现频次等进行统计,以确定出具有搜索热点属性的词汇。例如,具体可以按照搜索条目数量统计分词后的单词频率,并选取某一频率阈值,在此频率阈值以上划定为高频热词,等等。

s202:对以所述目标词汇为关键词发起搜索后的用户行为记录进行分析,从搜索结果中确定与所述目标词汇具有目标关系的目标数据对象;

在获取到具有搜索热点属性的词汇后,可以对以这种目标词汇作为关键词进行搜索后的用户行为记录进行分析。其中,所谓搜索后的用户行为记录具体是指用户对搜索结果所执行的行为,具体的,由于搜索结果列表页面中通常可以包括多条搜索结果,用户可以通过列表页面中获取到关于各条搜索结果的摘要信息,包括图片、标题、价格属性信息等等,并且可以基于这些摘要信息判断是否点击具体的搜索结果以进入对应的数据对象详情页面进行浏览,进入详情页面后,还可以根据详情信息确定是否执行进一步的收藏、加入待购买集合(例如,购物车等)、通过“私聊”等方式获取卖家用户提供的客户服务、创建订单、成交等操作。

而如果用户对某数据对象执行了上述行为,则该数据对象与该搜索关键词之间具有较强的关联度,或搜索关键词可以作为这些数据对象的描述。相应的,可以确定该数据对象与该搜索关键词具有所述目标关系,该目标关系还可以称为“较强的关联关系”,等等。

s203:利用所述目标词汇对所述目标数据对象对应的图像进行标注,并将带有标注信息的所述图像确定为训练样本,所述训练样本用于对目标模型进行训练,所述目标模型用于以待预测数据对象的图像为输入,输出匹配的目标词汇,以用于确定为所述待预测数据对象的文本标签。

在确定出与目标词汇具有目标关系的数据对象之后,可以将这种数据对象对应的图像与所述目标词汇之间的关联关系确定为训练样本,然后,对目标模型进行训练。也就是说,由于本申请实施例是基于数据对象的图像进行标签的自动生成,因此,具体确定出具有绑定关系的数据对象以及目标词汇之后,可以利用该目标词汇对该数据对象的图像(例如,商品对象的主图等)进行标注,带有标注信息的数据对象图像便可以作为训练样本,用于对具体的模型进行训练。

需要说明的是,目标词汇的种类是较为繁多的,而通过前述方式,每个数据对象的图像可能会被标注多个目标词汇。而本申请实施例主要是从视觉角度对数据对象的图像进行分析,因此,在具体实现时,还可以将一些视觉无法识别的目标词汇标签筛除,使得关联到数据对象图像的标签都是视觉可判定的标签。例如,一些品牌词汇,或者“包邮”等销售属性类的词汇等等,都可以过滤掉,以提升训练样本的质量。

根据上步骤筛选后的视觉可分的目标词汇可以添加到标签库中,标签库中的每个标签可以分别进行数字编码,使得每一个标签对应于唯一数字标识,进而可以为每张图像完成多标签的编码关联。之后可以进入到具体的模型训练过程。

对于具体的模型,可以采用多种具体的算法或者结构来实现,例如,一种方式下,可以构建多标签神经网络。一种可选的网络结构可以如图3所示,其中,左侧一列的“圆圈”代表主干网络,具体可以采用resnet50作为主干神经网络(不限于此网络结构);右侧一列的“圆圈”部分代表的是最后一层神经元,具体可以采用sigmoid函数作为输出层的激活函数,另外可以选择交叉熵损失函数,等等。

在模型的结构等确定之后,就可以利用之前获取的训练样本对模型进行训练,通过多轮迭代,可以逐步更新模型中的参数(例如,神经网络中的权重矩阵等)。完成训练后,可以用具体的模型为数据对象生成具体的文本标签。这种文本标签是带有搜索热点属性的词汇,因此,后续可以在搜索场景中,使用这种文本标签为用户提供搜索结果,以提升搜索结果与搜索需求的匹配度,同时也提升具有对应属性的数据对象的曝光率。

总之,通过本申请实施例,为了能够基于数据对象的图像自动生成文本标签,并使得具体的文本标签具有搜索热点属性,可以在对模型进行训练的阶段进行处理。具体的,可以首先根据一定时间段内的用户搜索记录,确定出具有搜索热点属性的目标词汇,这种目标词汇可以添加到标签库中。另外,除了确定出目标词汇之外,还可以利用具体的目标词汇对数据对象图像进行标注,标注的结果可以作为训练样本对模型进行训练。为此,本申请实施例还可以对以这种目标词汇为关键词进行搜索后的用户行为记录进行分析,如果用户对搜索记录中的某些数据对象执行了目标行为,则可以证明这些数据对象与当前的搜索关键词具有比较深度的关联。进一步的,可以利用该搜索关键词对应的目标词汇对数据对象对应的图像进行标注,这种带有标注信息的数据对象图像便可以作为训练样本,用于对具体的模型进行训练。由于在模型训练阶段,获取具体的训练样本时,这种训练样本并不是直接通过商家的标注结果等数据中进行读取,而是可以通过对用户使用目标词汇作为关键词进行搜索后的用户行为进行分析,从这种用户行为数据中挖掘出与具体的搜索关键词具有某种深度关联的数据对象,并进而利用该搜索关键词对应的目标词汇对数据对象的图像进行标注,以此作为训练样本。通过这种方式,可以使得训练样本的质量得到提升,便于提升模型的预测准确率。

在完成对模型的训练后,后续具体在通过模型进行预测时,就可以从标签库中确定出与目标数据对象的图像相匹配的目标词汇,并将其添加为数据对象的标签。由于本申请实施例中在自动生成标签时,只需要以数据对象的图像作为输入信息,而不需要依赖于文本内容,因此,可以在跨境场景中使用。另外,由于具体的标签库中的目标词汇是具有搜索热点属性,进而具体为数据对象添加的标签页是具有搜索热点属性,因此,这种标签更适合在搜索场景中使用,有利于提升搜索结果与搜索需求的匹配度,同时也提升具有对应属性的数据对象的曝光率。

实施例二

该实施例二是与实施例一相对应的,针对获取到训练样本之后的模型训练过程,提供了一种分类模型的处理方法,参见图4,该方法可以包括:

s401:获取训练样本,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

s402:利用所述训练样本对所述分类模型进行训练。

实施例三

该实施例三也是与实施例一相对应的,针对完成模型训练之后,利用分类模型对数据对象进行预测的过程,提供了一种生成数据对象标签的方法,参见图5,该方法可以包括:

s501:获得分类模型,所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

其中,如果用户对搜索结果中的一个或多个数据对象执行了目标操作,则所述一个或多个数据对象为所述目标数据对象。所述目标操作具体可以包括:浏览详情页面、收藏、加入待购买集合、创建订单、成交,或者,获取客户服务资源。

s502:确定待预测的数据对象及其对应的图像信息;

s503:将所述待预测的数据对象的图像信息输入到所述分类模型中,以获得对应的文本标签。

实施例四

该实施例四也是与实施例一相对应的,针对具体的数据对象搜索过程,提供了一种提供数据对象搜索信息的方法,参见图6,该方法具体可以包括:

s601:建立数据对象信息库,所述信息库中保存有数据对象关联的文本标签信息,所述文本标签信息包括带有搜索热点属性的目标词汇;所述文本标签信息是利用分类模型对数据对象的图像进行预测确定的;所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

其中,如果用户对搜索结果中的一个或多个数据对象执行了目标操作,则所述一个或多个数据对象为所述目标数据对象。所述目标操作具体可以包括:浏览详情页面、收藏、加入待购买集合、创建订单、成交,或者,获取客户服务资源。

s602:接收搜索请求,并确定搜索关键词;

s603:根据所述数据对象的所述文本标签与所述搜索关键词的匹配程度,提供搜索结果。

具体实现时,还可以获取所述搜索结果关联的数据对象图像的视觉语义信息,并根据所述视觉语义信息将所述搜索结果进行分组后,再返回给客户端进行展示。其中,所谓的视觉语义是指非语言的语义信息的逐步积累的结果,例如图像中的类型颜色信息,或者动态图像中某动物或某人的运动特点,等等。关于具体图像的视觉语义的获取方式可以有多种,例如,可以利用已有技术中的相关模型进行提取,等等。通过这种方式,可以使得具有相同视觉语义的搜索结果可以聚合到一起提供给用户,便于用户进行浏览。

关于前述实施例二至四中的未详述部分,可以参见实施例一中的记载,这里不再赘述。

需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应,本申请实施例还提供了一种获取训练样本数据的装置,参见图7,该装置可以包括:

目标词汇确定单元701,用于根据目标时间段内的用户搜索记录,确定具有搜索热点属性的目标词汇,所述具有搜索热点属性的目标词汇包括:搜索频次满足目标条件的词汇;

目标数据对象确定单元702,用于对以所述目标词汇为关键词发起搜索后的用户行为记录进行分析,从搜索结果中确定与所述目标词汇具有目标关系的目标数据对象;

标注单元703,用于利用所述目标词汇对所述目标数据对象对应的图像进行标注,并将带有标注信息的所述图像确定为训练样本,所述训练样本用于对目标模型进行训练,所述目标模型用于以待预测数据对象的图像为输入,输出匹配的目标词汇,以用于确定为所述待预测数据对象的文本标签。

其中,所述目标数据对象确定单元具体可以用于:

如果用户对所述搜索结果中的一个或多个数据对象执行了目标操作,则将所述一个或多个数据对象确定为所述目标数据对象。

其中,所述目标操作包括:浏览详情页面、收藏、加入待购买集合、创建订单、成交,或者,获取客户服务资源。

具体的,所述目标时间段内的用户搜索记录中,包括对应多种不同语言的搜索关键词;

所述目标词汇确定单元具体可以包括:

翻译子单元,用于将所述多种不同语言的搜索关键词翻译为目标语言;

分词处理子单元,用于在所述目标语言下对所述搜索关键词进行分词处理,得到多个词汇;

无关词汇过滤子单元,用于将与数据对象描述信息无关的词汇过滤掉之后,统计所述词汇的搜索频次信息;

目标词汇确定子单元,用于根据各词汇的搜索频次信息,确定具有搜索热点属性的目标词汇。

其中,如果所述目标语言为英文,则所述装置还可以包括:

词干提取单元,用于在通过分词处理得到多个词汇后进行词干提取,其中,所述词干提取包括:将词汇的复数状态还原为单数,或者,将词汇的时态变化还原为一般现在时。

另外,该装置还可以包括:

词汇过滤单元,用于将计算机视觉无法识别的目标词汇过滤掉。

数字编码单元,用于对所述目标词汇进行数字编码,并为所述目标数据对象的图像进行对应的数字编码关联,以用于对所述目标模型进行训练。

与实施例二相对应,本申请实施例还提供了一种分类模型的处理装置,参见图8,该装置可以包括:

样本获取单元801,用于获取训练样本,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

训练单元802,用于利用所述训练样本对所述分类模型进行训练。

与实施例三相对应,本申请实施例还提供了一种生成数据对象标签的装置,参见图9,该装置可以包括:

分类模型获得单元901,用于获得分类模型,所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

图像确定单元902,用于确定待预测的数据对象及其对应的图像信息;

预测单元903,用于将所述待预测的数据对象的图像信息输入到所述分类模型中,以获得对应的文本标签。

其中,如果用户对搜索结果中的一个或多个数据对象执行了目标操作,则所述一个或多个数据对象为所述目标数据对象。所述目标操作具体可以包括:浏览详情页面、收藏、加入待购买集合、创建订单、成交,或者,获取客户服务资源。

与实施例四相对应,本申请实施例还提供了一种提供数据对象搜索信息的装置,参见图10,该装置可以包括:

数据对象信息库建立单元1001,用于建立数据对象信息库,所述信息库中保存有数据对象关联的文本标签信息,所述文本标签信息包括带有搜索热点属性的目标词汇;所述文本标签信息是利用分类模型对数据对象的图像进行预测确定的;所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;

搜索请求接收单元1002,用于接收搜索请求,并确定搜索关键词;

搜索结果提供单元1003,用于根据所述数据对象的所述文本标签与所述搜索关键词的匹配程度,提供搜索结果。

其中,如果用户对搜索结果中的一个或多个数据对象执行了目标操作,则所述一个或多个数据对象为所述目标数据对象。所述目标操作具体可以包括:浏览详情页面、收藏、加入待购买集合、创建订单、成交,或者,获取客户服务资源。

具体实现时,该装置还可以包括:

视觉语义获取单元,用于获取所述搜索结果关联的数据对象图像的视觉语义信息;

分组单元,用于根据所述视觉语义信息将所述搜索结果进行分组。

另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备,包括:

一个或多个处理器;以及

与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。

其中,图11示例性的展示出了电子设备的架构,具体可以包括处理器1110,视频显示适配器1111,磁盘驱动器1112,输入/输出接口1113,网络接口1114,以及存储器1120。上述处理器1110、视频显示适配器1111、磁盘驱动器1112、输入/输出接口1113、网络接口1114,与存储器1120之间可以通过通信总线1130进行通信连接。

其中,处理器1110可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。

存储器1120可以采用rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1120可以存储用于控制电子设备1100运行的操作系统1121,用于控制电子设备1100的低级别操作的基本输入输出系统(bios)。另外,还可以存储网页浏览器1123,数据存储管理系统1124,以及标签处理系统1125等等。上述标签处理系统1125就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1120中,并由处理器1110来调用执行。

输入/输出接口1113用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1114用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。

总线1130包括一通路,在设备的各个组件(例如处理器1110、视频显示适配器1111、磁盘驱动器1112、输入/输出接口1113、网络接口1114,与存储器1120)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1110、视频显示适配器1111、磁盘驱动器1112、输入/输出接口1113、网络接口1114,存储器1120,总线1130等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上对本申请所提供的生成数据对象标签、数据对象搜索方法、装置及电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1