一种给应用标注标签的方法和装置与流程

文档序号:11729479阅读:248来源:国知局
一种给应用标注标签的方法和装置与流程

本发明涉及信息处理技术领域,具体而言涉及一种给应用标注标签的方法和装置。



背景技术:

在应用商店或应用市场里提供的应用都具有1个或多个标签,标签的作用是标识各种应用程序的分类或内容,便于用户查找。而在应用商店或应用市场运营过程中,需要对新加入应用库的应用标注标签。例如:应用商店或应用市场刚上线了一个“贪吃蛇”应用,需要给这个应用标注标签,可以标注标签“休闲游戏”。给新上线的应用标注标签的传统方法是通过运营人员根据经验判断该应用适合什么样的标签。这种方法的缺陷有两个:

1、需要耗费巨大的人力成本。对于加入应用库的每一个新应用,运营人员都需要去查阅所有标签,找出合适的标签给应用标注上。

2、准确性难以保障并且效率低。由于加入应用库的新应用众多,运营人员不可能对每一款新应用都花时间去下载、安装、体验,运营人员一般是通过应用名作为判断依据,这导致准确性难以保障;而且靠人工来一个一个标注标签,效率低。



技术实现要素:

本发明的目的在于提供一种给应用标注标签的方法和装置,以改善上述问题。

本发明第一实施例提供了一种给应用标注标签的方法,其包括:

从预置应用库里的每个应用的应用描述信息中提取特征词信息;

将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息;

确定每个标签对归属其的每个特征词的第一偏好度;

从待标注标签的新应用的应用描述信息中提取特征词信息;

基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度;

根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。

本发明第二实施例提供了一种给应用标注标签的装置,其包括:

特征词信息提取单元,用于从预置应用库里的每个应用的应用描述信息中提取特征词信息,和从待标注标签的新应用的应用描述信息中提取特征词信息;

标签的特征词信息确定单元,用于将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息;

第一偏好度确定单元,用于确定每个标签对归属其的每个特征词的第一偏好度;

第二偏好度确定单元,用于基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度;

标签标注单元,用于根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。

优选的,所述特征词信息包含特征词和该特征词对其所属应用的权重,首先对应用描述信息进行分词处理以提取出特征词,然后统计每个特征词出现的概率作为该特征词对其所属应用的权重。

优选的,所述标签的特征词信息包括特征词和该特征词在该标签上的权重,在合并过程中相同的多个特征词合并为1个特征词,对每个特征词在该标签上的权重的计算方法如下:

且i∈a,j∈w

其中:

ft,j表示特征词j在标签t上的权重;

wi,j表示特征词j对预置应用库里具有标签t的应用i的权重;

a表示预置应用库里的具有标签t的应用集合;

w表示归属于应用集合a中的应用的特征词集合;

n表示应用集合a里的应用数量;

m表示特征词集合w里的特征词数量。

优选的,确定所述第一偏好度的方法如下:

其中:

pt,j表示标签t对特征词j的第一偏好度;

ft,j表示特征词j在标签t上的权重;

sj表示特征词j在从预置应用库里的所有应用的各自应用描述信息中所提取的全部特征词集合中出现的概率,其中:

且i∈aa,j∈aw

其中:

wi,j表示特征词j对预置应用库里的应用i的权重;

aa表示预置应用库里的所有应用的集合;

aw表示从所有应用的各自应用描述信息中所提取的所有特征词的集合;

n表示应用集合aa里的应用数量;

m表示特征词集合aw里的特征词数量。

优选的,确定所述第二偏好度的方法如下:

且j∈am

其中:

ri,t表示新应用i对标签t的第二偏好度;

pt,j表示标签t对特征词j的第一偏好度;

wi,j表示从新应用i的应用描述信息中提取的特征词j对新应用i的权重;

am表示所获得的归属于标签t的所有特征词的集合;

m表示归属于标签t的特征词集合里的特征词数量。

优选的,首先根据每个标签对归属其的每个特征词的第一偏好度按预设方式选取一定数量的特征词作为相应标签的主题特征词,接着确定所述第二偏好度,方法如下:

且j∈topict

其中:

ri,t表示新应用i对标签t的第二偏好度;

pt,j表示标签t对特征词j的第一偏好度;

wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;

topict表示所选取的归属于标签t的一定数量的主题特征词的集合;

m表示归属于标签t的主题特征词集合里的特征词数量。

根据本发明的一种给应用标注标签的方法和装置,通过应用库里已知的应用及其具有的标签,利用用于介绍应用的特点和核心功能的应用描述信息和分词技术,在待标注标签的新应用与标签库里的标签之间建立了关联性,实现了自动找出适合的1个或多个标签给新应用标注上,降低了人工成本,提高了准确性和工作效率。

附图说明

图1是本发明实施例提供的给应用标注标签的方法的流程图;

图2是本发明实施例提供的给应用标注标签的装置的示意性框图。

具体实施方式

下面将结合本发明实施例和附图,对本发明实施例中的技术方案进行清楚、完整地描述。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了能够实现自动给新入应用库的待标注标签的应用标注标签,需要在待标注标签的新应用与预置的标签库里的标签之间建立起关联性,下面通过实施例描述的方法利用了应用库里已知的应用及其具有的标签、以及用于介绍应用的特点和核心功能的应用描述信息和分词技术,建立了在待标注标签的新应用与预置的标签库里的标签之间的关联性,从而实现自动给应用标注标签的目的。

图1是本发明实施例提供的给应用标注标签的方法的流程图。如图1所示,本发明的给应用标注标签的方法包括以下步骤:

s1:从预置应用库里的每个应用的应用描述信息中提取特征词信息。

通常,在开发应用市场或应用商店时通常都会预置应用库,从应用市场或应用商店下载的第三方应用都在保存在该预置应用库中。另外,应用商店或应用市场提供的第三方应用都具有1个或多个标签,这些标签来自于在开发应用商店或应用市场时预置的标签库,标签的作用是标识各种应用程序的分类或内容,便于用户查找。这些对于本领域技术人员来说是公知常识,这里不对这些常规技术做过多介绍。

除此之外,预置应用库里的每个应用都具有应用描述信息,用于介绍该应用的特点和核心功能,以便让用户了解该应用,对该应用产生兴趣。

本发明提供的方法首先对应用描述信息进行分词处理以提取出特征词,然后统计每个特征词出现的概率作为该特征词对其所属应用的权重。这样,步骤s1所述的特征词信息包含特征词和该特征词对其所属应用的权重。可以采用本领域公知的分词技术来对应用描述信息进行分词处理,所提取出的特征词就是经过分词处理后得到的词语,或者称为关键词。

对某个应用i的描述信息提取的特征词信息记为wi

wi={w1:pci1,w2:pci2,w3:pci3,…}

其中:w1:pci1,w2:pci2,w3:pci3,…表示特征词和相应的权重,例如w1表示一个特征词,pci1表示该特征词在该应用i上的权重。

例如:应用“搜狗拼音输入法”的应用描述信息为:“打字精准、界面最个性的输入法,拥有全能的输入法”,对该描述信息分词处理后得到的特征词为:”打字、精准、界面、个性、输入法、拥有、全能、输入法”。那么“搜狗拼音输入法”的特征词信息为:

s2:将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息。

预置应用库里的已存在的每个应用都具有1个或多个标签,在对每个应用的描述信息提取了归属于应用的特征词,将具有相同标签的多个应用所拥有的相应特征词信息进行合并,合并后得到的特征词信息作为该标签的特征词信息。

所述标签的特征词信息同样地包括了特征词和该特征词在该标签上的权重。在多个特征词信息的合并过程中相同的多个特征词合并为1个特征词,对每个特征词在该标签上的权重的计算方法如下:

且i∈a,j∈w

其中:

ft,j表示特征词j在标签t上的权重;

wi,j表示特征词j对预置应用库里具有标签t的应用i的权重;

a表示预置应用库里的具有标签t的应用集合;

w表示归属于应用集合a中的应用的特征词集合;

n表示应用集合a里的应用数量;

m表示特征词集合w里的特征词数量。

可知,每个特征词在某个标签上的权重即为每个特征词在归属于具有该标签的应用集合中的应用的特征词集合中出现的概率。

以标签“直播”为例,假设具有该标签的应用有两个,分别是“斗鱼tv”、“yy”。应用“斗鱼tv”的特征词信息为应用“yy”的特征词信息为那么合并后,标签“直播”的特征词为("游戏","直播","娱乐"),标签“直播”的特征词信息为:

s3:确定每个标签对归属其的每个特征词的第一偏好度。

在得到标签库里的全部标签的各自特征词信息(一般可以认为预置应用库里的全部应用所具有的标签的集合涵盖了标签库里的全部标签),需要建立每个标签与归属其的特征词之间关联度,在这里以每个标签对归属其的每个特征词的第一偏好度作为关联度,确定所述第一偏好度的方法如下:

其中:

pt,j表示标签t对特征词j的第一偏好度;

ft,j表示特征词j在标签t上的权重,即在归属于具有标签t的应用集合中的应用的特征词集合中出现的概率;

sj表示特征词j在从预置应用库里的所有应用的各自应用描述信息中所提取的全部特征词集合中出现的概率,其中:

且i∈aa,j∈aw

其中:

wi,j表示特征词j对预置应用库里的应用i的权重;

aa表示预置应用库里的所有应用的集合;

aw表示从所有应用的各自应用描述信息中所提取的所有特征词的集合;

n表示应用集合aa里的应用数量;

m表示特征词集合aw里的特征词数量。

s4:从待标注标签的新应用的应用描述信息中提取特征词信息。

这里的实现步骤与步骤s1的实现方法相同,从待标注标签的新应用的应用描述信息中提取特征词信息,该特征词信息包含特征词和该特征词对其所属新应用的权重。同样可以记为wi

wi={w1:pci1,w2:pci2,w3:pci3,…}。

其它相关描述可以参见步骤s1的描述,这里不重复描述了。

s5:基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度。

当有了每个标签对归属其的每个特征词的第一偏好度、以及提取的归属于新应用的特征词信息,就可以建立起该新应用与标签库里的每个标签的关联度,在这里以该新应用对标签库里的每个标签的第二偏好度作为关联度,确定所述第二偏好度的方法如下:

且j∈am

其中:

ri,t表示新应用i对标签t的第二偏好度;

pt,j表示标签t对特征词j的第一偏好度;

wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;

am表示所获得的归属于标签t的所有特征词的集合;

m表示归属于标签t的特征词集合里的特征词数量。

从该公式可以看出:将新应用i看做是从新应用i的应用描述信息中提取的不同特征词j的组合,通过叠加标签t对归属于新应用i的每个特征词的第一偏好度值,得到该新应用i对该标签t的第二偏好度。注意,如果归属于新应用i的某个特征词不在归属于标签t的特征词集合里,则标签t对该特征词的第一偏好度为0。

在该实施例中,当归属于标签t的特征词集合里的特征词数量很多时,进行查找和累加的次数也多,会造成计算量大。下面介绍一个优选实施例,根据第一偏好度值的大小,预先从归属于标签t的特征词集合里筛选掉一部分特征词,即将较小第一偏好度值对应的特征词筛选掉,减少了归属于标签t的特征词集合里的特征词数量,可以降低计算量。

在一个优选实施例中,首先根据每个标签对归属其的每个特征词的第一偏好度按预设方式选取一定数量的特征词作为相应标签的主题特征词,即所述预设方式可以是根据标签t对归属于其的每个特征词的第一偏好度的从大到小顺序,选取第一偏好度排名在前面的一定数量的特征词作为主题特征词,也可以预设一个阈值,选取大于等于该阈值的多个第一偏好度所对应的相应多个特征词作为主题特征词,可以根据数据情况及业务场景自行定义,例如选取50个、100个、200个或其它值;接着确定所述第二偏好度,方法如下:

且j∈topict

其中:

ri,t表示新应用i对标签t的第二偏好度;

pt,j表示标签t对特征词j的第一偏好度;

wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;

topict表示所选取的归属于标签t的一定数量的主题特征词的集合;

m表示归属于标签t的主题特征词集合里的特征词数量。

s6:根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。

所述预设方式可以采用多种方式。例如,可以根据新应用对每个标签的第二偏好度值从大到小的顺序,选取第二偏好度排名在前面的1个或多个标签给该新应用标注上。可以根据数据情况及业务场景自行定义需要标注的标签数量,可以是1-5之间的任意数量,如1个、2个、5个等,或者还可以更多。

另外,也可以设置一个阈值,选取大于等于该阈值的1个或多个第二偏好度所对应的相应1个或多个标签给该新应用标注上。可以根据数据情况及业务场景自行定义需要标注的标签数量,可以是1-5之间的任意数量,如1个、2个、5个等,或者还可以更多。

根据本发明的给应用标注标签的方法,通过应用库里已知的应用及其具有的标签,利用用于介绍应用的特点和核心功能的应用描述信息和分词技术,在待标注标签的新应用与预置的标签库里的标签之间建立了关联性,实现了自动找出适合的1个或多个标签给新应用标注上,降低了人工成本,提高了准确性和工作效率。

图2是本发明实施例提供的给应用标注标签的装置的示意性框图。如图2所示,本发明的给应用标注标签的装置包括:

特征词信息提取单元,用于从预置应用库里的每个应用的应用描述信息中提取特征词信息,和从待标注标签的新应用的应用描述信息中提取特征词信息;

标签的特征词信息确定单元,用于将具有相同标签的多个应用的相应特征词信息合并,作为该标签的特征词信息;

第一偏好度确定单元,用于确定每个标签对归属其的每个特征词的第一偏好度;

第二偏好度确定单元,用于基于所述第一偏好度和提取出的新应用的特征词信息,确定该新应用对标签库里的每个标签的第二偏好度;

标签标注单元,用于根据该第二偏好度按预设方式从标签库里选取相应的1个或多个标签给该新应用标注上。

这里的按预设方式选取1个或多个标签的具体实现方式可以参考前述方法实施例中描述的实现方法。

优选的,所述特征词信息提取单元用于首先对应用描述信息进行分词处理以提取出特征词,然后统计每个特征词出现的概率作为该特征词对其所属应用的权重。

优选的,所述标签的特征词信息确定单元用于在合并过程中将相同的多个特征词合并为1个特征词,对每个特征词在该标签上的权重的计算方法如下:

且i∈a,j∈w

其中:

ft,j表示特征词j在标签t上的权重;

wi,j表示特征词j对预置应用库里具有标签t的应用i的权重;

a表示预置应用库里的具有标签t的应用集合;

w表示归属于应用集合a中的应用的特征词集合;

n表示应用集合a里的应用数量;

m表示特征词集合w里的特征词数量。

优选的,所述第一偏好度确定单元用于确定所述第一偏好度的方法如下:

其中:

pt,j表示标签t对特征词j的第一偏好度;

ft,j表示特征词j在标签t上的权重;

sj表示特征词j在从预置应用库里的所有应用的各自应用描述信息中所提取的全部特征词集合中出现的概率,其中:

且i∈aa,j∈aw

其中:

wi,j表示特征词j对预置应用库里的应用i的权重;

aa表示预置应用库里的所有应用的集合;

aw表示从所有应用的各自应用描述信息中所提取的所有特征词的集合;

n表示应用集合aa里的应用数量;

m表示特征词集合aw里的特征词数量。

优选的,所述第二偏好度确定单元用于确定所述第二偏好度的方法如下:

且j∈am

其中:

ri,t表示新应用i对标签r的第二偏好度;

pt,j表示标签t对特征词j的第一偏好度;

wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;

am表示所获得的归属于标签t的所有特征词的集合;

m表示归属于标签t的特征词集合里的特征词数量。

为了降低对所述第二偏好度的计算量,所述第二偏好度确定单元还用于首先根据每个标签对归属其的每个特征词的第一偏好度按预设方式选取一定数量的特征词作为相应标签的主题特征词,接着确定所述第二偏好度,方法如下:

且j∈topict

其中:

ri,t表示新应用i对标签t的第二偏好度;

pt,j表示标签t对特征词j的第一偏好度;

wi,j表示从新应用i的应用描述信息中提取的特征词j对该新应用i的权重;

topict表示所选取的归属于标签t的一定数量的主题特征词的集合;

m表示归属于标签t的主题特征词集合里的特征词数量。

这里的按预设方式选取一定数量的特征词作为相应标签的主题特征词的具体实现方式可以参考前述方法实施例中描述的实现方法。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,这里结合产品实施例描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再重复描述。

根据本发明的给应用标注标签的装置,通过应用库里已知的应用及其具有的标签,利用用于介绍应用的特点和核心功能的应用描述信息和分词技术,在待标注标签的新应用与预置的标签库里的标签之间建立了关联性,实现了自动找出适合的1个或多个标签给新应用标注上,降低了人工成本,提高了准确性和工作效率。

本发明实施例所提供的给应用标注标签的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,智能平板电脑,智能手机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom)、随机存取存储器(ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1