商品标签生成方法及装置与流程

文档序号:14250414阅读:333来源:国知局
商品标签生成方法及装置与流程

本发明涉及互联网技术领域,尤其涉及一种商品标签生成方法及装置。



背景技术:

随着互联网技术的不断发展,越来越多的用户通过互联网进行相关活动,如浏览新闻、购物等。为了帮助用户对商品进行更细致的分类和整理,也为了方便用户更快地定位感兴趣的商品,很多互联网应用中为商品分配标签,细化对商品的描述和分类,同时服务器也可以根据标签向用户推荐相应的商品。其中,标签是指用来描述商品相关属性的短语。

目前,提取标签的方法,一般采用如下两种方式:人工分配商品标签,或服务器通过分析商品的相关描述信息,提取合适的标签;其中,商品相关描述信息例如包括商品的文字描述、用户对于商品的评论等文本信息。

上述第一种方式,由于互联网上的新商品层出不穷,仅依赖少量人力人工分配商品标签存在效率低的问题;第二种方式,仅根据商品的相关描述信息,存在准确度低、不全面的问题。



技术实现要素:

本发明提供一种商品标签生成方法及装置,以实现准确自动生成商品标签的目的。

第一方面,本发明实例提供一种商品标签生成方法,包括:

服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;

所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;

所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;

所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。

第二方面,本发明实例提供一种商品标签生成装置,包括:

获取模块,用于根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;

所述获取模块,还用于根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;

标签确定模块,用于确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;

处理模块,用于根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。

本发明实例提供的商品标签生成方法及装置,通过对商品文本描述信息和用户行为序列的分析,获取商品的文本特征和邻近对象,另外由少量人工确定部分商品的初始标签集,然后采用异源标签主题模型,模拟商品文本特征、临近对象和商品标签的生成过程,确定商品隐含主题分布和标签主题分布,进一步为所有商品生成标签。该商品标签的生成过程中,仅需要少量的人工参与,无需用户参与分配商品标签,因此相对成本低,适用范围广。另外,在异源标签主题模型中,商品的文本特征信息和邻近对象信息被同时用于生成商品标签,从而与仅基于商品文本描述信息生成标签的传统方法相比,本发明实例提供的商品标签生成方法生成的标签准确度和召回率都比较高。

附图说明

图1为本发明商品标签生成方法一实施例的流程图;

图2为本发明商品标签生成方法所适用的异源标签主题模型模拟商品标签的生成过程的概率图;

图3为本发明标签生成方法一实施例的提取商品邻近对象示意图;

图4为本发明商品标签生成装置一实施例的结构图。

具体实施方式

图1为本发明标签生成方法一实施例的流程图。本实施例的执行主体为服务器,适用于电子商务情境下,需要为商品自动生成标签的场景。具体的,本实施例包括如下步骤:

101、服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;

本步骤中,电子商务平台中的服务器,即互联网服务器,搜集商品的文本描述信息,经过分词、去除高频词和停用词等操作,将商品的文本描述信息中的每一个单词视作一个文本特征,将该单词在文本描述出现频次视作对应该文本特征对应的取值,可以以向量形式存储;所述商品为电子商务平台上交易的一般消费品或服务。

假设所有的文本特征都属于集合v,v={v1,v2,…,v|v|},为商品i所对应的文本特征的向量表示,其中,表示商品i的文本描述中,文本特征vj出现了次。特别的,对于的文本特征称为商品i的文本特征,同时定义也就是商品i的文本特征的个数。

102、所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;

本步骤中,所述服务器根据用户的行为序列提取所述商品的邻近对象及相应频次,并以向量形式存储。所述用户为电子商务平台上的一般消费者,所述行为序列为所述用户在电子商务平台上进行交互时的记录,包括所述用户在浏览、下载、搜索、购买等行为记录,所述邻近对象为针对某一特定商品,在所述用户的行为序列中与该商品在较短的时间间隔内先后或同时参与交互的其他商品,即在所述用户的行为序列中,且与该商品出现的时间间隔小于预设的时间间隔阈值的商品。

具体的,所述服务器通过以下方式提取商品的邻近对象:遍历所有用户的行为序列,预设的时间间隔阈值内同时或先后出现在同一用户行为序列的商品互为邻近对象。例如,对于一个具体的商品a和具体的用户u,如果用户u在与商品a交互的时,在时间间隔阈值内,也与商品b发生了交互,则商品b为商品a的邻近对象。商品b作为商品a的邻近对象的发生频次也相应增加1次;为统计商品a的所有邻近对象,需要遍历所有用户的行为序列。

假设所有的商品都属于集合d,d={d1,d2,…,d|d|},为商品i所对应的邻近对象的向量表示,其中,表示在商品的所有邻近对象中,特定商品dj出现了次。特别的,对于的邻近对象称为商品i的邻近对象,同时定义也就是商品i的邻近对象的个数。

103、所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;

本步骤中,服务器根据存储的商品丰富信息,确定商品集合内部分商品的初始标签集,这部分工作量相对较少,可以通过少量人工完成。

假设所有的初始标签都属于集合t,t={l1,l2,…,l|t|},li=(li1,li2,…,li|t|)表示商品i对应的初始标签集合的0/1向量表示,其中lij∈{0,1},lij=1表示商品i被分配了初始标签lj。特别的,对于lij>0的初始标签称为商品i的初始标签,同时定义mi=‖li‖0,也就是商品i的初始标签的个数。

104、所述服务器根据所述特征、所述邻近对象、及所述标签集,采用异源标签主题模型,为商品集内的商品生成标签。

本步骤中,服务器根据101中获得的商品的文本特征以及102中获得的商品的邻近对象,采用异源标签主题模型,对于一个具体的需要生成标签的商品,模拟商品的文本特征、邻近对象和标签的生成过程,确定商品隐含主题分布和标签主题分布,将与商品隐含主题分布契合程度高的标签作为所述商品的标签。

本发明实例提供的商品标签生成方法,通过对商品文本描述信息和用户行为序列的分析,获取商品的文本特征和邻近对象,另外由少量人工确定商品的初始标签集,然后采用异源标签主题模型,模拟商品文本特征、临近对象和商品标签的生成过程,确定商品隐含主题分布和标签主题分布,进一步为所有商品生成标签。该商品标签的生成过程中,仅需要少量的人工参与,无需用户参与分配商品标签,因此相对成本低,适用范围广。另外,在异源标签主题模型中,商品的文本特征信息和邻近对象信息被同时用于生成商品标签,从而与仅基于商品文本描述信息生成标签的传统方法相比,本发明实例提供的商品标签生成方法生成的标签准确度和召回率都比较高。

在上述过程的基础上,步骤104具体可以采用如下方式实现:

所述服务器根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;

所述服务器将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。

具体的,服务器根据异源标签生成主题模型,采用0阶展开的变分法求解所述商品隐含主题分布θ以及所述标签主题分布所述商品隐含主题分布θ和所述标签主题分布的内积为维度与标签数量相同的向量,将该向量中取值高于某一阈值的对应标签作为所述商品的标签。

一般来说,传统的文档主题生成模型(latentdirichletallocation,简称lda)中,每个文档对应一个特定的主题分布,而每个主题也对应一个特定的词分布。在生成一篇文档中的某个词的时候,首先要在该文档的主题分布中选择一个特定的主题,然后在该主题的词分布中选择一个特定的词,作为最终生成的词。而本发明实施实例采用的异源标签主题模型中,每一个所述商品对应一个文档,有一个特定的主题分布,该主题是无法观测到的,但是商品所具有的文本特征以及邻近对象均与该商品的隐含主题有关,同时商品所具有的标签也是这种隐含主题的反映。所述文本特征以及所述邻近对象均对应文档中的一个词,对应不同的主题,它们各有一个独立的分布。在不同的主题下,商品标签也有着不同的分布。简单来说,一个商品首先具有一个隐含主题分布,该商品的每个文本特征及邻近对象都反映了它的某个主题,然而并不是该商品的所有文本特征或邻近对象都与该商品的标签相关的,挑选其中几个文本特征或邻近对象用于指示商品的标签,这些文本特征或邻近对象的主题与所指示的商品标签的主题相同,商品的实际标签也是根据这些主题对应的标签分布挑选出来。

即所述异源标签主题模型下,所述商品对应一个文档,所述商品的每一个文本特征以及邻近对象对应所述文档中的一个词,所述文本特征或所述邻近对象对应不同的隐含主题,所述隐含主题对应不同的文本特征分布、不同的邻近对象以及标签分布。

下面,对本发明如何采用异源标签主题模型,为商品生成标签做详细说明。

上述步骤中,所述服务器根据储存的信息为所有所述商品提取所述文本特征和所述邻近对象,并根据部分所述商品的初始标签集,采用异源标签主题模型,为所述商品生成标签,具体为:所述服务器确定所述商品的候选标签集,所述候选标签集为步骤103中所有部分商品的初始标签集的并集;所述服务器为所述d个商品提取所述文本特征和所述邻近对象,采用异源标签主题模型,针对每一个所述商品模拟所述商品特征、所述邻近对象及标签的生成过程,为所述商品生成标签。

所述异源标签主题模型,包括:

所述服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;

所述服务器针对隐含主题k,根据所述隐含主题对应的文本特征分布φk,以及隐含主题对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征和邻近对象k的取值范围为从1到k;所述k为隐含主题总个数,且为大于1的整数;

所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布从所述标签分布的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈t={l1,l2,…,l|t|};|t|表示集合t的元素个数;所述t为所述初始标签集的并集;

其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布满足变量为η的狄利克雷分布;所述η为预设参数;

对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。

具体的,所述服务器根据所述商品i的隐含主题分布θi为每一个所述文本特征或所述邻近对象随机选取一个隐含主题k,假设共有k个隐含主题,则k∈{1,2,…,k},所述主题分布θi为用于限定所述商品的隐含主题的多项概率分布;所述服务器针对所述选择的主题k,根据所述主题k对应的文本特征分布φk或对应的邻近对象分布ψk,随机选取一个文本特征或邻近对象,所述文本特征分布φk或对应的邻近对象分布ψk为用于限定使得所述选取的文本特征或邻近对象满足特定条件的多项概率分布;待生成商品i的所有的文本特征及邻近对象之后,针对每一个所述初始标签,随机均匀选取一个所述文本特征或所述邻近对象作为所述初始标签的指示器,并以所述所选取一个文本特征或邻近对象对应的所述隐含主题,作为该所述初始标签的主题,并根据所述主题对应的标签分布随机选取一个标签,所述标签分布为用于限定使得所述选取的标签满足特定条件的多项概率分布。具体可参见图2.

图2为本发明商品标签生成方法所适用的异源标签生成主题模型模拟商品特征、邻近对象及标签的生成过程的概率图。参考图2,该概率图可以分解为三个个主要的物理过程:

过程一、以及

该过程表示在生成商品i的特征及邻近对象时,首先,确定商品i的主题分布θi,即商品i的隐含主题分布,该主题分布θi为一个取决于参数α的多项分布;然后,从主题分布θi的多项分布中随机采样主题作为商品i的第j个特征的隐含主题,同时从主题分布θi的多项分布中随机采样主题作为商品i的第r个邻近对象的隐含主题。

过程二、以及

该过程表示生成商品i的第j个特征或第r个邻近对象,根据主题对应的文本特征分布φk,随机采样一个特征作为最终生成的同时根据主题对应的邻近对象分布ψk,随机采样一个邻近对象作为最终生成的

过程三、

该过程表示生成商品i的第t个初始标签lt,首先变量yit选择某一文本特征或邻近对象作为该初始标签的指示变量,具体的,当时,选择商品i的第yit个文本特征作为指示变量,当时,选择商品i的第个邻近对象作为指示变量,根据相应指示变量所对应的主题zyit=k以及对应的标签分布随机采样一个标签作为最终生成的标签。

采用异源标签主题模型模拟所述商品标签的生成过程中满足如下条件:

第一、对于每个隐含主题k∈1,..,k,该主题对应的文本特征分布满足φk~dir(β),邻近对象分布满足ψk~dir(γ),标签分布满足其中β,γ,η为对应狄利克雷分布的先验参数。

第二、对于每个商品i∈d,有主题分布θi~dir(α),其中α是先验参数,

第三、对于每个商品i∈d:

(a)从θi的多项分布multi(θi)中随机采样一个主题

(b)从主题的多项分布中随机采样一个文本特征

(c)从θi的多项分布multi(θi)中随机采样一个主题

(d)从主题的多项分布中随机采样一个邻近对象

第四、对于每个商品i∈d,商品i有个文本特征和个邻近对象,针对商品i的第t个标签lt,

(a)从均匀分布中随机生成一个变量yit

(b)如果则该标签的主题为如果则该标签的主题为然后从多项分布中随机采样一个标签lt,有

其中,表示商品i所包含的隐含主题分布,为主题k生成各个标签的概率,即各个标签与该主题的相对关联性。

上述生成过程中的参数可通过0阶展开的变分法求解(collapsedvariationalbayeswith0-orderexpansion,简称cvb0)。具体的,假设隐变量和yit的后验分布相互独立,并分别取样自以μij,vir,λit为参数的多项分布,则这些参数的更新公式为:

其中,θi为θik组成的向量;组成的向量;mk·=∑lmkl;1(lit=l)表示当lit=l时取值为1;l∈t;lit表示商品i被分配了标签lt;为商品i对应的文本特征的向量表示,其中,表示商品i的文本描述信息中,文本特征vj出现了次;vj∈v={v1,v2,…,v|v|};|v|表示集合v的元素个数;为商品i对应的邻近对象的向量表示,其中,表示在商品i的所有邻近对象中,商品dr出现了次;dr∈d={d1,d2,…,d|d|};|d|表示集合d的元素个数;

其中,γ()为伽玛函数;表示时取值为1;表示时取值为1;计算n时不考虑对应的参数ij;表示计算n时不考虑对应的参数ir;表示计算m时不考虑对应的参数it;mi为所述商品i的初始标签集的元素个数。∝表示正相关。

是θik的估计值,表示商品i中第k个隐含主题的相关程度,的估计值,表示第k个隐含主题中标签l的相对关联性。

最后,服务器根据商品的主题分布θi和每个主题k下的标签分布为商品生成标签,越大表明越应该将标签l分配给商品d。

下面,以电子商务平台具体为360手机应用市场为例,对本发明的商品标签生成方法做详细说明。

360手机应用市场中的手机应用既有文本描述信息,同时又有大量用户浏览、下载手机应用的行为序列记录。

首先,所述手机应用市场服务器根据手机应用的文本描述信息提取手机应用的文本特征。

其次,所述手机应用市场服务器根据手机应用。服务器通过对于分析用户的浏览、下载记录,选择其中10万个用户在3个月内行为序列记录作为输入,提取手机应用的邻近对象。

具体的,图3为本发明标签生成方法一实施例的提取商品邻近对象示意图。如图3所示,假设总手机应用数为5个,总用户为3个,包括:用户1、用户2和用户3,他们对应的行为序列在图中以一串小方格表示,其中每一个小方格代表一个手机应用,相邻小方格之间的交互时间间隔为3分钟。选取3分钟作为提取邻近对象的时间间隔阈值,图3表示了在此标准下提取手机应用1的邻近对象的相关过程,最后可以得到在此情境下,手机应用1的对应的邻近对象向量表示为手机应用1的邻近对象为手机应用2、3、4,邻近对象个数为

然后,根据手机应用的相关描述信息以及使用体验,由公司少量员工为部分手机应用手动添加合适的标签,作为手机应用的初始标签集。

最后,根据提取的所述文本特征和所述邻近对象,并根据部分手机应用的初始标签集,采用异源标签生成主题模型,通过0阶展开的变分法求解所有手机应用隐含主题分布θ以及手机应用标签主题分布并将该向量中取值高于某一阈值的对应标签作为手机应用的标签。

另外,本实例可通过计算topn(n为3,5,8)的标签的标准折算累积获得(normalizeddiscountedcumulativegain,简称ndcg)值来衡量采用本发明实施例提供的标签生成方法的准确度,通过计算生成topn(n为3,5,8)的标签的召回率来衡量本发明实施例提供的标签生成方法的所生成标签的全面性。具体的,通过与现有发现,本发明实施例所提供的商品标签生成方法的topn(n为3,5,8)的标签的ndcg和召回率(n为3,5,8)均比对比的次优方法高10%左右。

图4为本发明提供的商品标签生成装置一实施例的结构图,如图4所示,本实施例的商品标签生成装置可以包括:

获取模块,用于根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;

所述获取模块,还用于根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;

标签确定模块,用于确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;

处理模块,用于根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。

可选的,还包括:

模型建立模块,用于根据所述文本特征、所述邻近对象和所述标签的生成过程,建立所述异源标签主题模型。

可选的,所述处理模块,具体用于:

根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;

将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。

可选的,所述异源标签主题模型,包括:

所述服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;

所述服务器针对隐含主题k,根据所述隐含主题对应的文本特征分布φk,以及隐含主题对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征和邻近对象k的取值范围为从1到k;所述k为隐含主题总个数,且为大于1的整数;

所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布从所述标签分布的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈t={l1,l2,…,l|t|};|t|表示集合t的元素个数;所述t为所述初始标签集的并集;

其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布满足变量为η的狄利克雷分布;所述η为预设参数;

对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。

可选的,获取所述标签lt的指示变量,具体包括:

从均匀分布中随机获取所述标签lt的指示变量yit;

则所述标签t对应的隐含主题为

则所述标签t对应的隐含主题为

其中,所述分布为所述商品i的文本特征个数和邻近对象个数。

可选的,所述处理模块,具体用于:

根据如下公式确定所述商品i的隐含主题分布θi和所述标签分布

其中,θi为θik组成的向量;组成的向量;mk·=∑lmkl;1(lit=l)表示当lit=l时取值为1;l∈t;lit表示商品i被分配了标签lt;为商品i对应的文本特征的向量表示,其中,表示商品i的文本描述信息中,文本特征vj出现了次;vj∈v={v1,v2,…,v|v|};|v|表示集合v的元素个数;为商品i对应的邻近对象的向量表示,其中,表示在商品i的所有邻近对象中,商品dr出现了次;dr∈d={d1,d2,…,d|d|};|d|表示集合d的元素个数;

其中,γ()为伽玛函数;表示时取值为1;表示时取值为1;计算n时不考虑对应的参数ij;表示计算n时不考虑对应的参数ir;表示计算m时不考虑对应的参数it;mi为所述商品i的初始标签集的元素个数。

可选的,所述获取模块具体用于:

对所述商品对应的文本描述信息进行分词操作,获取所述文本描述信息中的单词,将所述单词在所述文本描述信息中的出现频次作为所述文本特征中与所述单词对应的元素的取值。

本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1