一种标签分类方法、装置、电子设备及存储介质与流程

文档序号:16037003发布日期:2018-11-24 10:09阅读:217来源:国知局

本发明涉及计算机技术领域,尤其涉及一种标签分类方法、装置、电子设备及存储介质。

背景技术

随着互联网的迅猛发展,增加了更多不同类型的内容,为了更好的管理和利用这些内容,需要对这些内容进行分类。最为传统的做法是人工对内容进行分类,但是随着大数据技术和人工智能技术的发展,现有技术中,逐渐出现了基于大数据和人工智能技术的内容分类方法。

现有技术中,分类方法主要为提取内容的文本信息和/或图片信息,将其转换为特征向量,再利用人工标注数据进行分类模型训练,将该分类模型用于预测未标注的内容的类型。

但是,现有技术中的方法,仅能挖掘可以转为文本或是图片的内容,而对于应用程序(application,app)、商品等这样的新型内容来说,内容构成更为复杂,文本和图片仅是其内容的一部分,基于文本或图片信息进行特征提取,内容特征提取不充分,容易导致分类不准确。



技术实现要素:

本发明实施例提供一种标签分类方法、装置、电子设备及存储介质,以解决现有技术中内容分类准确、比较复杂的问题。

本发明实施例提供的具体技术方案如下:

本发明一个实施例提供了一种标签分类方法,包括:

获取用户在预设时间段内针对待分类标签产生的行为序列数据;

对所述行为序列数据进行分析,确定所述待分类标签与其它标签之间的相关性,并根据所述待分类标签与其它标签之间的相关性,计算所述待分类标签对应的标签向量;

根据所述待分类标签对应的标签向量和预先训练的分类模型,确定所述待分类标签的类别。

结合本发明的一个实施例,所述行为序列数据表示用户按照时间顺序对各标签产生的行为数据。

结合本发明的一个实施例,所述分类模型的训练方式为:

获取用户针对各标签产生的行为序列数据和所述各标签的类别;

对所述针对各标签产生的行为序列数据进行分析,确定所述各标签之间的相关性,并根据所述各标签之间的相关性,计算所述各标签对应的标签向量;

将所述各标签对应的标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得所述标签的分类模型。

结合本发明的一个实施例,所述各标签的类别为预先标注的,或者预先确定出的;

其中,预先确定出各标签的类别,具体包括:

获取用户的搜索下载数据,其中,所述搜索下载数据至少包括搜索词与对应下载的标签类别的类别词;

根据所述搜索下载数据,确定搜索词与类别词的相关性,并根据所述搜索词与类别词的相关性,获得各搜索词与类别词对应的词向量;

根据所述各搜索词与类别词对应的词向量,计算搜索词与类别词之间的相似度,确定相似度大于预设阈值的搜索词;

根据相似度大于预设阈值的搜索词对应的类别词,确定所述相似度大于预设阈值的搜索词对应的各标签的类别。

结合本发明的一个实施例,进一步包括:

提取所述各标签的内容特征,并根据所述各标签的内容特征,获得所述各标签对应的内容向量;

根据所述各标签对应的内容向量和标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得所述标签的分类模型。

本发明另一个实施例提供了一种标签分类装置,包括:

第一获取模块,用于获取用户在预设时间段内针对待分类标签产生的行为序列数据;

第一计算模块,用于对所述行为序列数据进行分析,确定所述待分类标签与其它标签之间的相关性,并根据所述待分类标签与其它标签之间的相关性,计算所述待分类标签对应的标签向量;

第一确定模块,用于根据所述待分类标签对应的标签向量和预先训练的分类模型,确定所述待分类标签的类别。

结合本发明另一个实施例,所述行为序列数据表示用户按照时间顺序对各标签产生的行为数据。

结合本发明另一个实施例,所述分类模型的训练方式为:

第二获取模块,用于获取用户针对各标签产生的行为序列数据和所述各标签的类别;

第二计算模块,用于对所述针对各标签产生的行为序列数据进行分析,确定所述各标签之间的相关性,并根据所述各标签之间的相关性,计算所述各标签对应的标签向量;

训练模块,用于将所述各标签对应的标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得所述标签的分类模型。

结合本发明另一个实施例,所述各标签的类别为预先标注的,或者预先确定出的;

其中,预先确定出各标签的类别,具体包括:

第三获取模块,用于获取用户的搜索下载数据,其中,所述搜索下载数据至少包括搜索词与对应下载的标签类别的类别词;

第三计算模块,用于根据所述搜索下载数据,确定搜索词与类别词的相关性,并根据所述搜索词与类别词的相关性,获得各搜索词与类别词对应的词向量;

第二确定模块,用于根据所述各搜索词与类别词对应的词向量,计算搜索词与类别词之间的相似度,确定相似度大于预设阈值的搜索词,并根据相似度大于预设阈值的搜索词对应的类别词,确定所述相似度大于预设阈值的搜索词对应的各标签的类别。

结合本发明另一个实施例,进一步包括:

提取模块,用于提取所述各标签的内容特征,并根据所述各标签的内容特征,获得所述各标签对应的内容向量;

则训练模块进一步用于:根据所述各标签对应的内容向量和标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得所述标签的分类模型。

本发明另一个实施例提供了一种电子设备,包括:

至少一个存储器,用于存储程序指令;

至少一个处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述任一种标签分类方法。

本发明另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种标签分类方法。

本发明实施例中,至少获取用户在预设时间段内针对待分类标签产生的行为序列数据;对所述行为序列数据进行分析,确定所述待分类标签与其它标签之间的相关性,并根据所述待分类标签与其它标签之间的相关性,计算所述待分类标签对应的标签向量;根据所述待分类标签对应的标签向量和预先训练的分类模型,确定所述待分类标签的类别,这样,根据用户的行为序列数据,计算获得标签的标签向量,对于复杂内容类型的标签,可以更加准确地表示标签的特征,解决了复杂内容的标签的特征提取困难的问题,基于该标签向量和分类模型来确定标签的类别,可以很大程度上提高标签分类的准确性,并且,根据用户的行为序列数据确定出的标签向量,与标签类别相关,因此,在训练过程中也不需要预先知道非常多的训练样本,减少了人工预先对标签类别进行标注的成本,降低了复杂性。

附图说明

图1为本发明实施例中标签分类方法的应用场景示意图;

图2为本发明实施例中标签分类方法的流程图;

图3为本发明实施例中一种用户行为序列数据示意图;

图4为本发明实施例中分类模型训练的原理示意图;

图5a为本发明实施例中一个标签分类效果示意图;

图5b为本发明实施例中另一个标签分类效果示意图;

图6为本发明实施例中标签分类装置结构示意图;

图7为本发明实施例中电子设备结构示意图;

图8为本发明实施例中终端结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为便于对本发明实施例的理解,下面先对几个概念进行简单介绍:

标签(item):互联网产品中供用户消费和使用的内容,可以但不限于是app、文章、视频、商品等。

用户的行为序列数据:用户按照时间顺序对item产生的行为数据。

item2vec:利用用户的行为序列数据生成item对应的标签向量的算法。

参考图1所示,其为本发明实施例中标签分类方法的应用场景示意图。包括终端和服务器,其中,用户可以对终端中安装的各种app执行下载、点击、搜索等行为,服务器可以通过终端向用户推荐类别相似的内容,也可以向用户展示各不同类别下的内容,以供用户进行选择。其中,终端可以是智能手机、平板电脑、便携式个人计算机、智能电视等任何智能设备,服务器可以为任何能够提供互联网服务的设备。

终端与服务器之间通过互联网相连,实现相互之间的通信,可选地,上述互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(localareanetwork,lan)、城域网(metropolitanareanetwork,man)、广域网(wideareanetwork,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

需要说明的是,本发明实施例中提供的标签分类方法可以由服务器实施。

本发明各个实施例中,以标签分类方法用于图1所示的应用场景图为例进行示意性说明。值得说明的是,本发明实施例中的应用场景架构图是为了更加清楚地说明本发明实施例中的技术方案,并不构成对本发明实施例提供的技术方案的限制,对于其它的应用场景架构和业务应用,本发明实施例提供的技术方案对于类似的问题,同样适用。

目前,互联网中不仅有大量的文本、图片、音频、视频等较为传统的内容,还增加了很多例如商品、主播、app、电台等比较复杂的内容类型,这样,仅依赖文本描述信息,或者图片信息,对标签的内容特征提取是远远不够的,进而造成分类不准确,而目前对于这些内容比较复杂的标签,对其特征提取是比较困难的,分类模型的训练样本较少。

本发明实施例中,在实现过程中发现,用户对各标签执行的行为的先后顺序是有一定关系的,例如标签为app,对app下载的先后顺序通常是有一定相关关系的,一个用户之前下载过街头篮球,则该用户之后会下载体育类app的概率会比下载时尚类app的概率更大,例如下载体育类app中的腾讯体育比下载时尚类app中的唯品会的概率更大,即p(腾讯体育|街头篮球)>p(唯品会|街头篮球)。

因此,本发明实施例中,可以认为前后下载顺序较近的app的类型也是接近的,前后下载的app序列之间具有一定的相关性,也就说用户的app下载序列也具有类似的上下文关系,可以根据用户的行为序列数据表征标签的特征,并用于分类模型的训练,进而来预测其它标签的类别。

参阅图2所示,为本发明实施例中,标签分类方法的流程图,该方法包括:

步骤200:获取用户在预设时间段内针对待分类标签产生的行为序列数据。

其中,行为序列数据表示用户按照时间顺序对各标签产生的行为数据。以行为数据为下载记录,标签为app为例,用户的行为序列数据表示用户按照时间顺序对app下载的行为列表,参阅图3所示,在某app商店里,用户的行为序列数据为用户先下载了“街头篮球”,然后下载了“腾讯体育”,接着下载了“虎扑”。

执行步骤200时,可以获取预设时间段内与待分类标签相关的行为序列数据,即包括该待分类标签的行为序列数据。

步骤210:对行为序列数据进行分析,确定待分类标签与其它标签之间的相关性,并根据待分类标签与其它标签之间的相关性,计算待分类标签对应的标签向量。

执行步骤210时,具体包括:基于预先训练的向量模型,对行为序列数据进行分析,并生成待分类标签对应的标签向量。

其中,预先训练的向量模型,例如为item2vec模型、全局的词向量表示(globalvectorsforwordrepresentation,glove)模型算法等,本发明实施例中并不进行限制,可以训练得到向量。

本发明实施例中,主要是基于用户的行为序列数据,用户的行为序列数据与用户的兴趣相关,根据行为序列数据中行为相近的标签的类别通常也是相近的特点,来生成标签的标签向量,其中,标签向量可以用于表征各标签之间的相关性,这样,得到的标签分量可以准确地体现标签的特征,可以有效表达标签内容之间的差异。

步骤220:根据待分类标签对应的标签向量和预先训练的分类模型,确定待分类标签的类别。

本发明实施例中,根据计算出的待分类标签的标签向量,可以将待分类标签的标签向量输入到分类模型中,分类模型可以计算待分类标签的标签向量与分类模型中各类别对应的权重值之间的乘积,即获得待分类标签属于各类别的概率,将概率最大对应的类别确定为待分类标签的类别。

这样,本发明实施例中,根据用户的行为序列数据计算标签的标签向量,相比仅依赖图片信息和/或文本信息,可以更加准确表征标签的特征,并且也解决了内容复杂特征提取困难的标签的特征提取问题,基于该标签向量和预设训练的分类模型来确定标签的类别,可以很大程度上提高标签分类的准确性,并且,本发明实施例中由于使用的用户行为序列数据与标签的标注数据即类别相关,因此,不需要非常多的标注数据,在实际实现过程中,一个类别下有50个左右的有标注数据的标签就可以进行分类训练,并获得较好的分类效果,即使有标注数据的标签不足10个,也可以达到一定的准确度,减少了人工对标签类别进行标注的成本,降低了复杂性,并且,现有技术中通过提取文本信息或图片信息来获得特征向量,这与标签本身内容、预先标注的类别体系都是紧密相关的,调整类别体系后,需要大量人力重构内容特征,而本发明实施例中由于行为序列数据与标签本身的内容特征关系不大,获得的标签向量是表征各标签之间的相关性的,对于不同的标签的类别体系来说,并不需要重新设计和调整内容特征的标签向量的构造方法,易于移植和扩展。

下面对标签的分类模型的训练方式进行简单说明,标签的分类模型的训练方式为:

首先,获取用户针对各标签产生的行为序列数据和各标签的类别。

其中,各标签的类别为预先标注的,或者预先确定出的。

本发明实施例中,在进行分类模型训练时,首先需要获取训练样本,训练样本中包括标签的标签向量和类别,但是实际中对于内容复杂、新型的标签,已知类别的并不多,也需要人工先预先进行标注,但是,基于人工标注一方面成本较高,一方面标注也是有限的,进而导致获取的训练样本也是有限的,因此,本发明实施例中为了提高训练样本的样本数,进而提高训练模型的准确性,提供了一种可能的实施方式:可以根据搜索词预先确定标签类别,具体为:

1)获取用户的搜索下载数据,其中,搜索下载数据至少包括搜索词与对应下载的标签类别的类别词。

例如,搜索下载数据为,用户想要下载某个购物app,通过终端的应用商店搜索“零售”,终端上会展示很多的app,用户可以从中找到所需的app,例如为“天猫”,则用户点击下载“天猫”app,例如已知“天猫”app的类别为“购物”,这样,即该用户的搜索下载数据为搜索词“零售”,对应下载的标签的类别为“购物”。

本发明实施例中,获取用户的搜索下载数据,用于之后的训练数据,这是因为,用户搜索某个词语,在该搜索词下用户下载的标签通常与该搜索词是相关的,例如用户搜索购物,但相应地下载一个游戏的概率会很小,因此,可以根据该相关关系,可以根据搜索词来确定各标签的类别。

2)根据搜索下载数据,确定搜索词与类别词的相关性,并根据搜索词与类别词的相关性,获得各搜索词与类别词对应的词向量。

例如,用户的搜索下载数据为搜索词“零售”,对应下载的标签类别为“购物”,这样通常也可以认为零售与购物是有一定的相关关系的。

3)根据各搜索词与类别词对应的词向量,计算搜索词与类别词之间的相似度,确定相似度大于预设阈值的搜索词。

4)根据相似度大于预设阈值的搜索词对应的类别词,确定相似度大于预设阈值的搜索词对应的各标签的类别。

也就是说,可以认为与类别词较相近的搜索词也可以作为一种类别词,或者直接将较相近的搜索词下的未标注类别的标签的类别,确定为与该搜索词较相近的类别词的类别。

然后,对针对各标签产生的行为序列数据进行分析,确定各标签之间的相关性,并根据各标签之间的相关性,计算各标签对应的标签向量。

具体地,可以采用以下几种实施方式:

第一种实施方式:采用item2vec模型算法,生成标签向量。

本发明实施例中,可以将用户已经有正行为的item作为一个n维向量,用户接下来会有正行为的item也作为一个n维向量,其中,正行为例如为下载行为,item例如为app,则基于item向量,用户在对itemn有正行为后,对itemc也会有正行为的条件概率可以用softmax函数和app向量来表示,可以表示为:

其中,vc为itemc的标签向量,un为itemn的标签向量,l为行为序列数据中包含的总item的数目,p为在对un有正行为后会对vc有正行为的概率。

该模型的目标是能够根据用户的行为序列数据来预测用户接下来最可能会下载哪些app,因此,上述条件概率的优化目标是,训练得到合适的参数vc和un,使得上述条件概率的取值最大,因此可以得到基于上述条件概率的优化目标为:

其中,d是所有用户的行为序列集。求解该优化目标,就可以得到item对应的标签向量。

也就是说,item2vec模型算法类似于word2vec模型算法,根据用户的行为序列数据,将行为最接近的标签的类别认为是最相似,就可以计算获得标签的标签向量。

第二种实施方式:采用glove模型算法,生成标签向量。

本发明实施例中,假设xij是itemj在itemi的上下文窗口内出现的次数,u表示itemi作为中心时对应的标签向量,v表示itemj作为上下文时对应的标签向量,可以通过求解下面的优化问题来得到最终的item向量:

其中,v是训练数据里item的个数,f(x)如下所示:

也就是说,本发明实施例中可以用u和v的内积来逼近itemj在itemi的上下文窗口内出现的次数的对数log(xij)

log(xij),这样获得的最终结果中相似的item对应的cos相似度会都会比较大,因此,在空间中相似的item会聚合到一起,这样获得的标签向量适用于训练分类模型。

当然,本发明实施例中,并不仅限与上述两种实施方式,对于其它生成标签向量的方式,也是可以的。这样,得到的标签分量可以用于表示各标签内容之间的差异,用于分类模型训练时,也可以提高分类模型训练的准确性,从而提高标签分类的准确性。

最后,将各标签对应的标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得标签的分类模型。

其中,预设的分类模型可以为支持向量机(supportvectormachine,svm)分类模型,也可以为逻辑回归(logisticregression)、决策树、神经网络、邻近算法或k最近邻(k-nearestneighbor,knn)分类模型等,本发明实施例中并不进行限制。

进一步地,为提高分类的准确性,本发明实施例中还可以提取各标签的内容特征,并根据各标签的内容特征,分别获得各标签对应的内容向量;根据各标签对应的内容向量和标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得标签的分类模型,其中,内容特征可以为文本信息或图片信息等,这样,也可以将用户的行为序列数据和标签的内容特征相结合,进行分类模型训练,提高标签分类的准确性。

进一步地,本发明实施例中还提供了一种确定标签的类别后的应用方式,根据标签的类别,向用户推荐相应的标签,这样,可以向不同用户推荐该用户感兴趣的标签,也可以让用户更加方便快速地找到所需的标签。

值得说明的是,本发明实施例中的标签分类方法以及标签,不仅可以用于应用商店的app自动分类或标签提取,也可以应用于互联网中其它内容的分类方法,例如,网上商城的商品自动分类或标签提取、阅读平台的文章自动分类或标签提取、直播平台的主播自动分类或标签提取、视频网站的视频自动分类或标签提取、音频播放平台的音频自动分类或标签提取、卡券平台的卡券自动分类或标签提取、理财平台的理财产品自动分类或标签提取、服务中介平台的服务自动分类或标签提取等。

基于上述实施例,参阅图4所示为本发明实施例中分类模型训练的原理示意图。可以分为以下几方面:

1)标签向量生成。

首先,获取用户的行为序列数据。

由于目前用户对各标签的操作数据,可以很容易获取到,并且数据量也是比较多的,可以获取一定时间段内的数据,也可以涵盖大部分的标签,例如,某应用商店的服务器可以很容易获取到其用户下载各app的行为序列数据。

然后,将用户的行为序列数据输入到item2vec模型中进行训练,例如若标签为app,则模型可以为app2vec模型,基于时间顺序相近的标签之间具有更大的相关性的原理,计算获得各标签的标签向量。

2)词向量生成。

首先,获取用户的搜索下载数据。

即搜索词标记(token)及对应的下载已有精确类别的标签的记录。

然后,将用户的搜索下载数据输入到token2vec模型中进行训练,基于搜索词与类别词的相关性,计算获得各token的词向量。

其中,token2vec模型与item2vec模型、app2vec模型的算法和原理都是相同的,只不过是针对的对象不同。

其中,在token2vec模型中训练时,可以将app类别的类别词视为token。

然后,计算搜索词与类别词之间的相似度,确定相似度大于预设阈值的搜索词,并确定各标签的类别。

这样,可以将确定出类别的标签,以及该标签的标签向量作为训练数据。

3)分类模型训练。将各标签对应的标签向量,以及确定的各标签的类别作为训练数据,输入预设的分类模型进行训练,获得标签的分类模型。其中,预设的分类模型例如为svm分类模型等。

这样,本发明实施例中,可以根据用户的行为序列数据,来获得标签特征的标签向量,可以更加准确地表达各标签的特征,并可以根据搜索下载数据来生成标注数据,即获得更多训练样本中标签的类别,可以减少人工标注数据的成本和复杂性,进而进行分类模型训练,生成标签的分类模型,来预测其它标签的类别,更加准确,参阅图5a和5b所示,为本发明实施例中分类效果示意图,可知,可以将应用划分为各种类别,例如购物、阅读、新闻、视频等,图5a中示出了“购物”类别下的各app。也可以针对游戏app划分为多个类别,例如休闲益智、网络游戏、飞行射击等,图5b中示出了全部游戏下的各app。

基于上述实施例,参阅图6所示,本发明实施例中,标签分类装置,具体包括:

第一获取模块60,用于获取用户在预设时间段内针对待分类标签产生的行为序列数据;

第一计算模块61,用于对所述行为序列数据进行分析,确定所述待分类标签与其它标签之间的相关性,并根据所述待分类标签与其它标签之间的相关性,计算所述待分类标签对应的标签向量;

第一确定模块62,用于根据所述待分类标签对应的标签向量和预先训练的分类模型,确定所述待分类标签的类别。

可选的,所述行为序列数据表示用户按照时间顺序对各标签产生的行为数据。

可选的,所述分类模型的训练方式为:

第二获取模块63,用于获取用户针对各标签产生的行为序列数据和所述各标签的类别;

第二计算模块64,用于对所述针对各标签产生的行为序列数据进行分析,确定所述各标签之间的相关性,并根据所述各标签之间的相关性,计算所述各标签对应的标签向量;

训练模块65,用于将所述各标签对应的标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得所述标签的分类模型。

可选的,所述各标签的类别为预先标注的,或者预先确定出的;

其中,预先确定出各标签的类别,具体包括:

第三获取模块66,用于获取用户的搜索下载数据,其中,所述搜索下载数据至少包括搜索词与对应下载的标签类别的类别词;

第三计算模块67,用于根据所述搜索下载数据,确定搜索词与类别词的相关性,并根据所述搜索词与类别词的相关性,获得各搜索词与类别词对应的词向量;

第二确定模块68,用于根据所述各搜索词与类别词对应的词向量,计算搜索词与类别词之间的相似度,确定相似度大于预设阈值的搜索词,并根据相似度大于预设阈值的搜索词对应的类别词,确定所述相似度大于预设阈值的搜索词对应的各标签的类别。

可选的,进一步包括:

提取模块69,用于提取所述各标签的内容特征,并根据所述各标签的内容特征,获得所述各标签对应的内容向量;

则训练模块65进一步用于:根据所述各标签对应的内容向量和标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得所述标签的分类模型。

基于上述实施例,参阅图7所示,本发明实施例中,一种电子设备的结构示意图。

本发明实施例提供了一种电子设备,其中,该电子设备可以为服务器或其它计算机装置等,该电子设备可以包括处理器710(centerprocessingunit,cpu)、存储器720、输入设备730和输出设备740等,输入设备730可以包括键盘、鼠标、触摸屏等,输出设备740可以包括显示设备,如液晶显示器(liquidcrystaldisplay,lcd)、阴极射线管(cathoderaytube,crt)等。

存储器720可以包括只读存储器(rom)和随机存取存储器(ram),并向处理器710提供存储器720中存储的程序指令和数据。在本发明实施例中,存储器720可以用于存储上述实施例中的标签分类方法的程序。

处理器710通过调用存储器720存储的程序指令,处理器710用于按照获得的程序指令执行:

获取用户在预设时间段内针对待分类标签产生的行为序列数据;

对所述行为序列数据进行分析,确定所述待分类标签与其它标签之间的相关性,并根据所述待分类标签与其它标签之间的相关性,计算所述待分类标签对应的标签向量;

根据所述待分类标签对应的标签向量和预先训练的分类模型,确定所述待分类标签的类别。

可选的,所述行为序列数据表示用户按照时间顺序对各标签产生的行为数据。

可选的,所述分类模型的训练方式为,所述处理器710还用于:

获取用户针对各标签产生的行为序列数据和所述各标签的类别;

对所述针对各标签产生的行为序列数据进行分析,确定所述各标签之间的相关性,并根据所述各标签之间的相关性,分别计算所述各标签对应的标签向量;

将所述各标签对应的标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得所述标签的分类模型。

可选的,所述各标签的类别为预先标注的,或者预先确定出的;

其中,预先确定出各标签的类别,所述处理器710用于:

获取用户的搜索下载数据,其中,所述搜索下载数据至少包括搜索词与对应下载的标签类别的类别词;

根据所述搜索下载数据,确定搜索词与类别词的相关性,并根据所述搜索词与类别词的相关性,获得各搜索词与类别词对应的词向量;

根据所述各搜索词与类别词对应的词向量,计算搜索词与类别词之间的相似度,确定相似度大于预设阈值的搜索词;

根据相似度大于预设阈值的搜索词对应的类别词,确定所述相似度大于预设阈值的搜索词对应的各标签的类别。

可选的,处理器710进一步用于:

提取所述各标签的内容特征,并根据所述各标签的内容特征,获得所述各标签对应的内容向量;

根据所述各标签对应的内容向量和标签向量,以及各标签的类别作为训练数据,基于预设的分类模型进行训练,获得所述标签的分类模型。

为便于说明,本发明中的实施例以包括触摸屏的便携式多功能装置800作示例性说明,本领域技术人员可以理解的,本发明中的实施例同样适用于其他装置,例如手持设备、车载设备、可穿戴设备、计算设备,以及各种形式的用户设备(userequipment,ue),移动台(mobilestation,ms),终端(terminal),终端设备(terminalequipment)等等。

图8示出了根据一些实施例的包括触摸屏的便携式多功能装置800的框图,所述装置800可以包括输入单元830、显示单元840、重力加速度传感器851、接近光传感器852、环境光传感器853、存储器820、处理器890、射频单元810、音频电路860、扬声器861、麦克风862、wifi(wirelessfidelity,无线保真)模块870、蓝牙模块880、电源893、外部接口897等部件。

本领域技术人员可以理解,图8仅仅是便携式多功能装置的举例,并不构成对便携式多功能装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。

所述输入单元830可用于接收输入的数字或字符信息,以及产生与所述便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地,输入单元830可包括触摸屏831以及其他输入设备832。所述触摸屏831可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作),并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作,将所述触摸动作转换为触摸信号发送给所述处理器890,并能接收所述处理器890发来的命令并加以执行;所述触摸信号至少包括触点坐标信息。所述触摸屏831可以提供所述装置800和用户之间的输入界面和输出界面。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏831,输入单元830还可以包括其他输入设备。具体地,其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键832、开关按键833等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元840可用于显示由用户输入的信息或提供给用户的信息以及装置800的各种菜单。进一步的,触摸屏831可覆盖显示面板841,当触摸屏831检测到在其上或附近的触摸操作后,传送给处理器890以确定触摸事件的类型,随后处理器890根据触摸事件的类型在显示面板841上提供相应的视觉输出。在本实施例中,触摸屏与显示单元可以集成为一个部件而实现装置800的输入、输出、显示功能;为便于描述,本发明实施例以触摸屏代表触摸屏和显示单元的功能集合;在某些实施例中,触摸屏与显示单元也可以作为两个独立的部件。

所述重力加速度传感器851可检测各个方向上(一般为三轴)加速度的大小,同时,所述重力加速度传感器851还可用于检测终端静止时重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。

装置800还可以包括一个或多个接近光传感器852,用于当所述装置800距用户较近时(例如当用户正在打电话时靠近耳朵)关闭并禁用触摸屏以避免用户对触摸屏的误操作;装置800还可以包括一个或多个环境光传感器853,用于当装置800位于用户口袋里或其他黑暗区域时保持触摸屏关闭,以防止装置800在锁定状态时消耗不必要的电池功耗或被误操作,在一些实施例中,接近光传感器和环境光传感器可以集成在一颗部件中,也可以作为两个独立的部件。至于装置800还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。虽然图8示出了接近光传感器和环境光传感器,但是可以理解的是,其并不属于装置800的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

所述存储器820可用于存储指令和数据,存储器820可主要包括存储指令区和存储数据区,存储数据区可存储关节触摸手势与应用程序功能的关联关系;存储指令区可存储操作系统、至少一个功能所需的指令等;所述指令可使处理器890执行本发明实施例中的标签分类方法。

处理器890是装置800的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器820内的指令以及调用存储在存储器820内的数据,执行装置800的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器890可包括一个或多个处理单元;优选的,处理器890可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器890中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,他们也可以在独立的芯片上分别实现。在本发明实施例中,处理器890还用于调用存储器中的指令以实现本发明实施例中的标签分类方法。

所述射频单元810可用于收发信息或通话过程中信号的接收和发送,特别地,将基站的下行信息接收后,给处理器890处理;另外,将设计上行的数据发送给基站。通常,rf电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(lownoiseamplifier,lna)、双工器等。此外,射频单元810还可以通过无线通信与网络设备和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystemofmobilecommunication,gsm)、通用分组无线服务(generalpacketradioservice,gprs)、码分多址(codedivisionmultipleaccess,cdma)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、长期演进(longtermevolution,lte)、电子邮件、短消息服务(shortmessagingservice,sms)等。

音频电路860、扬声器861、麦克风862可提供用户与装置800之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号,传输到扬声器861,由扬声器861转换为声音信号输出;另一方面,麦克风862将收集的声音信号转换为电信号,由音频电路860接收后转换为音频数据,再将音频数据输出处理器890处理后,经射频单元810以发送给比如另一终端,或者将音频数据输出至存储器820以便进一步处理,音频电路也可以包括耳机插孔863,用于提供音频电路和耳机之间的连接接口。

wifi属于短距离无线传输技术,装置800通过wifi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了wifi模块870,但是可以理解的是,其并不属于装置800的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

蓝牙是一种短距离无线通讯技术。利用蓝牙技术,能够有效地简化掌上电脑、笔记本电脑和手机等移动通信终端设备之间的通信,也能够成功地简化以上这些设备与因特网(internet)之间的通信,装置800通过蓝牙模块880使装置800与因特网之间的数据传输变得更加迅速高效,为无线通信拓宽道路。蓝牙技术是能够实现语音和数据无线传输的开放性方案。然图8示出了wifi模块870,但是可以理解的是,其并不属于装置800的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

装置800还包括给各个部件供电的电源893(比如电池),优选的,电源可以通过电源管理系统894与处理器890逻辑相连,从而通过电源管理系统894实现管理充电、放电、以及功耗管理等功能。

装置800还包括外部接口897,所述外部接口可以是标准的microusb接口,也可以使多针连接器,可以用于连接装置800与其他装置进行通信,也可以用于连接充电器为装置800充电。

尽管未示出,装置800还可以包括摄像头、闪光灯等,在此不再赘述。

基于上述实施例,本发明实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的标签分类方法。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1