一种标签的生成方法及装置与流程

文档序号:12464667阅读:326来源:国知局
一种标签的生成方法及装置与流程

本发明涉及一种数据处理技术领域,特别是涉及一种标签的生成方法及装置。



背景技术:

标签是信息标识,是相关性很强的关键字,能够描述对应的实物、软件、著作等等,是以便于检索和分享。应用搜索引擎,是指提供搜索和下载应用程序APP的软件,能够根据标识APP的APP标签在现有的数百万个APP中,搜索符合用户需求的多个APP。

目前,现有通过标签挖掘方法建立搜索引擎,可以准确得到用户需求的APP。从APP简介和标题中得到能够反映APP内容信息的属性标签。将APP简介和标题合并在一起,从中抽取类别标签,并计算标签权重,选择权重较大的标签为APP标签。但是开发者为了提供APP的展现机会,往往提交大量的与APP相关性较弱的APP简介,导致APP简介中存在无关的作弊文字较多,使得生成的APP标签不能有效地标识对应的APP。



技术实现要素:

有鉴于此,本发明提供一种标签的生成方法及装置,主要目的在于提高APP标签标识APP的有效性。

依据本发明一个方面,提供了一种标签的生成方法,包括:

获取应用文本语料;

提取所述应用文本语料中的词项;

根据预置训练参数,按照主题模型训练所述词项;

根据所述主题模型的训练结果,生成标签。

依据本发明另一方面,还提供了一种标签的生成装置,包括:

获取单元,用于获取应用文本语料;

提取单元,用于提取所述应用文本语料中的词项;

训练单元,用于根据预置训练参数,按照主题模型训练所述词项;

生成单元,用于根据所述主题模型的训练结果,生成标签。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明提供的一种标签的生成方法及装置,与现有技术相比,本发明通过获取应用文本语料,然后提取应用文本语料中的词项,再根据预置训练参数,按照主题模型训练词项,最后根据主题模型的训练结果,生成标签,能够训练应用文本语料的词项,获取各个词项的能够标识应用文本语料的概率,选取概率较大的词项,能够提高标签标识应用文本语料的有效性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例一提供的一种标签的生成方法流程图;

图2示出了本发明实施例二提供的另一种标签的生成方法流程图;

图3示出了本发明实施例三提供的一种标签的生成装置组成框图;

图4示出了本发明实施例四提供的另一种标签的生成装置组成框图;

图5示出了本发明实施例四提供的提取单元的组成框图;

图6示出了本发明实施例四提供的生成单元的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例一提供了一种标签的生成方法,如图1所示,该方法包括:

101、获取应用文本语料。

其中,所述应用文本语料为生成标签提供文字基础,是标签文字的主要来源。例如,获取APP的标签,应用文本语料通常选取APP的摘要,摘要中包括APP的题目,简要的解释说明,以及推荐理由等等,本发明实施例不做具体限定。APP摘要能够充分体现用于文本语料的内容。

102、提取应用文本语料中的词项。

其中,所述词项是指词语或者词组,也是应用文本语料中的特征词语。对应用文本语料进行分词处理,得到应用文本语料的各个分词。可以将应用文本语料的各个分词作为应用文本语料的词项。但是并不是所有应用文本语料中的分词都是特征词语,所以还需要设置特征词语的筛选规则,从应用文本语料中筛选出特征词语。

需要说明的是,在汉语句式中,通常包括主语、谓语、宾语、定语、状语和补语。其中,主语、谓语和宾语是句子的主干,定语、状语和补语是对句子主干的修饰,所以主语、谓语和宾语通常能够标识应用文本语料的特征。主语和宾语的词性为名词,谓语的词性为动词,所以将应用文本语料中的名词和动词确定为特征词语,也就是应用文本语料的词项。

103、根据预置训练参数,按照主题模型训练词项。

其中,所述主题模型是一种对文本中隐含主题的建模方法。由于文字之间的相关性不仅仅决定于字面上的词语重复,还取决于文字背后的语义关联。主题模型克服了信息检索中相似度计算的确定,能够在海量互联网数据中自动寻找出文字间的语义主题,挖掘语义关联,使得搜索更加智能化。主题模型可以衡量文档之间的语义相似性,可以解决多义词的问题并且可以排除文档中噪音的影响。主题模型能够有效地挖掘语言背后隐含信息的关联关系。

需要说明的是,每一篇应用文本语料的词项,都是以一定的概率选择了某个主题,并从这个主题中以一定概率选择某个词语。对主题模型的训练,也就是计算每个词语出现的概率。主题模型的训练方法主要包括两种,一个是PLSA(Probabilistic Latent SemanticAnalysis,基于概率的潜在语义分析),另一个是LDA(Latent DirichletAllocation,潜在狄瑞雷克模型)。

PLSA算法,还叫做EM(Expectation-maximization,期望最大化)算法,它包含两个不断迭代的过程:E(Expectation-maximization,期望)过程和M(Max,最大化)过程。例如,食堂的大师傅炒了一盘菜,要等分成两份给两个人吃,显然没有必要拿天平去一点点去精确称量,最简单的办法是先随意的把菜分到两个碗中,然后观察是否一样多,把比较多的那一份取出一点放到另一个碗中,这个过程一直重复下去,直到大家看不出两个碗里的菜有什么差别为止。

LDA算法是对PLSA算法的改进,包括:“计算每个主题里的词语分布”和“计算训练文档中的主题分布”,相当于上述例子中在往两个人碗里分饭。在E过程中,通过贝叶斯公式可以由“词语-主题”矩阵计算出“主题-文档”矩阵。在M过程中,用“主题-文档”矩阵重新计算“词语-主题”矩阵。

另外,将选择的主题和迭代轮数,作为预置训练参数,参数的具体形式本发明实施例不做具体限定,训练应用文本语料的词项,获取各个词项的概率。

例如,LDA训练选择120个主题,迭代300轮,生成两个文件,分别是主题-词项概率分布,如表1所示:

表1:主题-词项概率分布中第四个主题中各个词项的概率表

另一个文件是应用文本语料-主题概率分布,以应用文本资料为微信APP为例,如表2示例:

表2:文档-主题概率分布中“微信”app的主题分布概率表

104、根据主题模型的训练结果,生成标签。

其中,所述标签是最能代表应用文本语料的描述词项。所述选择主题模型训练结果中概率大的词项作为标签,可以选取至少一个标签标识应用文本语料的联系。所述主题模型训练的结果中词项的概率也可能有偏差,所以在生成标签之前还可以对词项概率进行校正,在本发明实施例中对校正方法不做限定。

本发明提供的一种标签的生成方法,通过获取应用文本语料,然后提取应用文本语料中的词项,再根据预置训练参数,按照主题模型训练词项,最后根据主题模型的训练结果,生成标签。与现有技术相比,本发明能够训练应用文本语料的词项,获取各个词项的能够标识应用文本语料的概率,选取概率较大的词项,能够提高标签标识应用文本语料的有效性。

作为图1所示方法的进一步细化,本发明实施例二还提供了另一种标签的生成方法,如图2所示,该方法包括:

201、获取应用文本语料。

其中,所述应用文本语料通常还需要具备推广作用,为了能够有效地推广应用文本资料对应的产品,应用文本语料的发布者可能会在应用文本语料中添加一些利于推广但是关联性较弱的内容。为了提高应用文本语料与其对应的产品的关联程度,可以将一些与对应产品直接关联的扩展语料。

对于本发明实施例,如果应用文本语料是APP摘要,获取应用文本语料具体包括:获取会话日志中的查询数据;如果查找到查询数据对应的下载数据,则获取下载数据的APP摘要;将查询数据与APP摘要,确定为应用文本语料。

其中,所述会话日志中记录了用户在某段时间内的一系列搜索和下载行为,通常回话日志是以天为单位。回话日志中的查询数据是指所有用户在终端输入的查询数据,然而并不是每一次查询都会下载与查询数据相关的下载数据。下载数据中的APP摘要即为应用文本语料,而查询数据是与APP摘要关联的扩展语料。将查询数据与APP摘要作为应用文本语料。

示例性的,构造一个会话日志内部的查询检索查询串和下载序列,按照用户的搜索次序排序,检索查询串不去重,完整保存用户的搜索序列和下载序列。用户搜索某个检索查询串,下载了某些APP,就说明下载的APP与检索查询串之间存在语义关联,将APP也作为检索查询串扩展语料的一部分,将APP名字紧挨着拼在该检索查询串后。例如:一个用户回话日志序列是第一检索查询串、第二检索查询串、第三检索查询串,用户在输入第二检索查询串后下载了第一APP,把第一APP摘要写在第二检索查询串后、第三检索查询串前面,即第一检索查询串、第二检索查询串、第一APP、第三检索查询串,从而构造了一个回话日志序列。将回话日志系列确定为应用文本资料。

202、提取应用文本语料中的词项。

其中,所述提取词项可以包括对应用文本语料分词处理,生成应用文本语料的分词库、判断词项库中分词的词性、提取词性为有效词性的有效分词,本发明实施例不做具体限定,所述有效词性包括动词和名词,确定有效分词为词项。

需要说明的是,对应用文本语料进行分词处理,常用的分词方法有:前向分词、后向分词、前后向分词、最少切分,以及全切分等等,本发明实施例不做具体限定。应用文本语料的各个分词构成分词库。并不是分词库中的所有分词都是应用文本语料的特征词语,所以从分词库中筛选出可能是特征词语的分词,以提高生成标签的有效性。根据句式特点,选择分词的词性为动词或名称的有效分词,并将有效分词确定为词项。然后在根据词性判断的有效分词中,仍然存在不是特征词语的分词。

对于本发明实施例,所述提取词性为有效词性的有效分词还包括:获取词性为动词的动词分词;获取词性为名词的名词分词;判断每一个名词分词是否为无效名词分词,无效名词分词包括人名、地名或者机构名称;如果判断结果为否,则获取名词分词的有效名词分词;确定有效分词为词项,包括:确定动词分词和有效名词分词为词项。

其中,所述人名、地名或机构名称都是名词,但是通常不能作为一个产品或者一个软件的标签,所以通过删除无效名词分词,将动词分词和有效名称分词确定为词项,进一步提高生成标签的有效性。

对于本发明实施例,提取的各个词项不合并,词项的数量越多,被确定为标签的可能性越大。为了避免因重复次数少,而被误判成关联程度较弱的词项,在确定有效分词为词项步骤中,包括:判断有效分词是否与应用文本语料的题目分词相同;如果判断结果相同,则按照第一预置次数,重复添加有效分词;确定有效分词为词项。

一段应用文本语料的题目,通常是文本语料中最核心的部分,所以重复题目中的词项能够减少误判的概率。

由于现有的分词合成组成一个固有的短语,为了避免错误拆分,提取应用文本语料中的词项,还包括:根据预置紧密度算法,计算分词库中任意两个相邻分词的紧密度;如果紧密度大于第一预置阈值,则将紧密度对应的相邻分词合并成短语;确定短语为词项。

其中,所述紧密度算法,是计算两个相邻分词紧密度的算法,紧密度越高说明相邻两个分词能够合并成一个短语的可能性越大。选取第一预置阈值作为能够合并成短语的临界值。紧密度可采用如下公式计算:

其中,d(x,y)表示两个分词x、y的共现频数,d(x)表示分词x的出现频数,d(y)表示分词y的出现频数,D表示总的app数量,δ=0.7。确定短语为词项,包括:判断短语的紧密度是否大于第二预置阈值;如果判断结果为是,则按照第二预置次数,重复添加短语;确定短语为词项。为了减少误判的概率,与有效分词采用的方法类似,当短语的紧密度大于第二预置阈值时,重复添加短语。

203、计算词项的词频。

其中,所述词频,是指词项在应用文本语料中出现的频率。为了能够提高词项的有效性,根据词项的词频继续缩小词项的范围,提高词项的有效性。

204、删除词频大于第一预置词频且小于第二预置词频的词项。

需要说明的是,如果词项的词频特别高或者特别低,词项的有效性都不是很大,例如,在任意一篇文本中,出现次数最多的词可能是“的”,不是有效词项,所以选取词频在第一预置词频和第二预置词频之前的词项,作为最终选取的词项。

205、根据预置训练参数,按照主题模型训练词项。

本步骤与图1所示的步骤103所述的方法相同,这里不再赘述。

206、根据主题模型的训练结果,生成标签。

对于本发明实施例,生成标签具体包括:获取主题模型的训练结果,训练结果包括主题-词项概率分布和应用文本语料-主题概率分布;根据训练结果,计算词项的训练概率;根据预置校正算法,计算词项的校正概率;按照校正概率从大到小的顺序,确定预置数量的词项为标签。

其中,所述训练结果中包括主题-词项概率分布和应用文本语料-主题概率分布,每个词项的概率是将主题-词项概率分布中的词项概率,与词项对应的主题在应用文本语料-主题概率分布中的主题概率相乘的结果。由于文本资料的自身内容的排布不均,可能造成训练概率不够准确,所以对训练概率校正以获取更准确的词项的校正概率。选取预置数量的校正概率较大的词项确定为标签。

具体的根据预置校正算法,计算词项的校正概率,包括:根据文本深度表示模型训练词项,获取词项与应用文本语料的语义相似度;获取词项的位置权重;获取语义相似度用位置权重加权的加权值;将词项的训练概率与加权值的乘积,确定为校正概率。

其中,所述算法为计算词项校正概率的第一种算法。文本深度表示模型是一种成熟的算法模型,经过训练词项能够获取词项与应用文本余量的语义相似度。由于应用文本语料中通常第一句的重要程度最高,然后越靠后的重要程度越低,所以获取词项的位置权重。位置权重可以根据应用文本语料中的分隔符,每检测到一次分隔符降低一定比例的位置权重,在本发明实施例中对位置权重的设置方法不做限定。获取语义相似度和位置权重加权的加权值,再对词项的训练概率进行校正,计算校正概率。

对于本发明实施例,根据预置校正算法,计算词项的校正概率,包括:计算词项在应用文本语料中的出现频率;将训练概率与出现频率相乘,并将乘积结果与训练概率相加,获取词项的校正概率。

其中,所述算法可以做为计算词项校正概率的第二种算法,根据词项的出现频率,校正词项的训练概率,获取词项的校正概率。第二种算法也可以对第一种算法计算的校正概率做进一步的校正。如果是对第一种算法的进一步校正,那么在第一种算法需要将最后计算的校正概率,作为新的训练概率保存。

对于本发明实施例,确定预置数量的词项为标签,包括:获取应用文本语料的查询次数;根据预置选词算法,计算应用文本语料的选词数量;确定选词数量的词项为标签。

其中,在对应用文本语料查询时能够链接的标签数量有限,所以选取部分词项作为应用文本语料的标签。预置选词算法可采用折线函数法,例如一个折现函数“10:1;100:2;500:4;5000:5;10000:7;20000:10”,当搜索次数是10次时保留1个标签,当搜索次数100时保留2个标签,当搜索次数是7000时,标签数量介于5和7之间。由于选取的应用文本语料,与用户检索查询的输入有关,所以标签还能够根据用户的搜索更新和优化标签。

例如,对于一款新app,还没有与用户的交互历史记录,初始用APP摘要预测标签,随着与用户的不断交互,标签得到持续不断的优化和丰富,是实现应用搜索引擎核心技术功能搜索的基础,应用搜索引擎的搜索质量也在持续性提升。

本发明提供的一种标签的生成方法,通过获取应用文本语料,然后提取应用文本语料中的词项,再根据预置训练参数,按照主题模型训练词项,最后根据主题模型的训练结果,生成标签。与现有技术相比,本发明能够训练应用文本语料的词项,获取各个词项的能够标识应用文本语料的概率,选取概率较大的词项,能够提高标签标识应用文本语料的有效性。

进一步的,作为对上述图1所示方法的实现,本发明实施例提供了另一种标签的生成装置,如图3所示,该装置包括:获取单元31、提取单元32、训练单元33、生成单元34。

获取单元31,用于获取应用文本语料;获取单元31为一种标签的生成装置执行获取应用文本语料的功能模块。

提取单元32,用于提取应用文本语料中的词项;提取单元32为一种标签的生成装置执行提取应用文本语料中的词项的功能模块。

训练单元33,用于根据预置训练参数,按照主题模型训练词项;训练单元33为一种标签的生成装置执行根据预置训练参数,按照主题模型训练词项的功能模块。

生成单元34,用于根据主题模型的训练结果,生成标签。生成单元34为一种标签的生成装置执行根据主题模型的训练结果,生成标签的功能模块。

本发明提供的一种标签的生成装置,通过获取应用文本语料,然后提取应用文本语料中的词项,再根据预置训练参数,按照主题模型训练词项,最后根据主题模型的训练结果,生成标签。与现有技术相比,本发明能够训练应用文本语料的词项,获取各个词项的能够标识应用文本语料的概率,选取概率较大的词项,能够提高标签标识应用文本语料的有效性。

进一步的,作为对上述图2所示方法的实现,本发明实施例提供了另一种文件的压缩装置,如图4所示,该装置包括:获取单元41、提取单元42、训练单元43、生成单元44、计算单元45、删除单元46。

获取单元41,用于获取应用文本语料;

提取单元42,用于提取应用文本语料中的词项;

训练单元43,用于根据预置训练参数,按照主题模型训练词项;

生成单元44,用于根据主题模型的训练结果,生成标签。

具体地,所述获取单元41,包括:

第一获取模块4101,用于获取会话日志中的查询数据;

所述第一获取模块4101,还用于如果查找到查询数据对应的下载数据,则获取下载数据的APP摘要;

第一确定模块4102,用于将查询数据与APP摘要,确定为应用文本语料。

具体地,如图5所示,所述提取单元42,包括:

生成模块4201,用于对应用文本语料分词处理,生成应用文本语料的分词库;

判断模块4202,用于判断词项库中分词的词性;

提取模块4203,用于提取词性为有效词性的有效分词,有效词性包括动词和名词;

第二确定模块4204,用于确定有效分词为词项。

具体地,如图5所示,所述提取模块4203,包括:

第一获取子模块420301,用于获取词性为动词的动词分词;

第一获取子模块420301,还用于获取词性为名词的名词分词;

第一判断子模块420302,用于判断每一个名词分词是否为无效名词分词,无效名词分词包括人名、地名或者机构名称;

所述第一获取子模块420301,还用于如果判断结果为否,则获取名词分词的有效名词分词;

所述第二确定模块4204,用于确定动词分词和有效名词分词为词项。

具体地,如图5所示,所述第二确定模块4204,包括:

第二判断子模块420401,用于判断有效分词是否与应用文本语料的题目分词相同;

第一添加子模块420402,用于如果判断结果为是,则按照第一预置次数,重复添加有效分词;

第一确定子模块420403,用于确定有效分词为词项。

具体地,如图5所示,所述提取单元42,包括:

第一计算模块4205,用于根据预置紧密度算法,计算分词库中任意两个相邻分词的紧密度;

合并模块4206,用于如果紧密度大于第一预置阈值,则将紧密度对应的相邻分词合并成短语;

第三确定模块4207,用于确定短语为词项。

具体地,如图5所示,所述第三确定模块4207,包括:

第三判断子模块420701,用于判断短语的紧密度是否大于第二预置阈值;

第二添加子模块420702,用于如果判断结果为是,则按照第二预置次数,重复添加短语;

第二确定子模块420703,用于确定短语为词项。

进一步地,如图4所示,为了对提高标签标示应用文本语料的有效性,所述装置还包括:

计算单元45,用于提取应用文本语料中的词项之后,计算词项的词频;计算单元45为标签的生成装置的提取应用文本语料中的词项之后,计算词项的词频的功能模块。

删除单元46,用于删除词频大于第一预置词频且小于第二预置词频的词项。删除单元46为标签的生成装置的删除词频大于第一预置词频且小于第二预置词频的词项的功能模块。

进一步地,如图6所示,所述生成单元44,包括:

第二获取模块4401,用于获取主题模型的训练结果,训练结果包括主题-词项概率分布和应用文本语料-主题概率分布;

第二计算模块4402,用于根据训练结果,计算词项的训练概率;

第三计算模块4403,用于根据预置校正算法,计算词项的校正概率;

第四确定模块4404,用于按照校正概率从大到小的顺序,确定预置数量的词项为标签。

具体地,如图6所示,所述第三计算模块4403,包括:

第二获取子模块440301,用于根据文本深度表示模型训练词项,获取词项与应用文本语料的语义相似度;

所述第二获取子模块440301,还用于获取词项的位置权重;

所述第二获取子模块440301,还用于获取语义相似度用位置权重加权的加权值;

所述第三确定子模块440302,用于将词项的训练概率与加权值的乘积,确定为校正概率。

具体地,如图6所示,所述第三计算模块4403,包括:

第一计算子模块440303,用于计算词项在应用文本语料中的出现频率;

第三获取子模块440304,用于将训练概率与出现频率相乘,并将乘积结果与训练概率相加,获取词项的校正概率。

具体地,如图6所示,所述第四确定模块4404,包括:

第四获取子模块440401,用于获取应用文本语料的查询次数;

第二计算子模块440402,用于根据预置选词算法,计算应用文本语料的选词数量;

第四确定子模块440403,用于确定选词数量的词项为标签。

本发明提供的一种标签的生成装置,通过获取应用文本语料,然后提取应用文本语料中的词项,再根据预置训练参数,按照主题模型训练词项,最后根据主题模型的训练结果,生成标签。与现有技术相比,本发明能够训练应用文本语料的词项,获取各个词项的能够标识应用文本语料的概率,选取概率较大的词项,能够提高标签标识应用文本语料的有效性。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的标签的生成装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的实施例公开了:

A1、一种标签的生成方法,包括:

获取应用文本语料;

提取所述应用文本语料中的词项;

根据预置训练参数,按照主题模型训练所述词项;

根据所述主题模型的训练结果,生成标签。

A2、根据权利要求A1所述的方法,所述获取应用文本语料,包括:

获取会话日志中的查询数据;

如果查找到所述查询数据对应的下载数据,则获取所述下载数据的应用程序APP摘要;

将所述查询数据与所述APP摘要,确定为所述应用文本语料。

A3、根据权利要求A1所述的方法,所述提取所述应用文本语料中的词项,包括:

对所述应用文本语料分词处理,生成所述应用文本语料的分词库;

判断所述词项库中分词的词性;

提取所述词性为有效词性的有效分词,所述有效词性包括动词和名词;

确定所述有效分词为所述词项。

A4、根据权利要求A3所述的方法,所述提取所述词性为有效词性的有效分词,包括:

获取所述词性为动词的动词分词;

获取所述词性为名词的名词分词;

判断每一个所述名词分词是否为无效名词分词,所述无效名词分词包括人名、地名或者机构名称;

如果判断结果为否,则获取所述名词分词的有效名词分词;

所述确定所述有效分词为所述词项,包括:

确定所述动词分词和所述有效名词分词为所述词项。

A5、根据权利要求A3所述的方法,所述确定所述有效分词为所述词项,包括:

判断所述有效分词是否与所述应用文本语料的题目分词相同;

如果判断结果相同,则按照第一预置次数,重复添加所述有效分词;

确定所述有效分词为所述词项。

A6、根据权利要求A3所述的方法,所述提取所述应用文本语料中的词项,包括:

根据预置紧密度算法,计算所述分词库中任意两个相邻分词的紧密度;

如果所述紧密度大于第一预置阈值,则将所述紧密度对应的所述相邻分词合并成短语;

确定所述短语为所述词项。

A7、根据权利要求A5所述的方法,所述确定所述短语为所述词项,包括:

判断所述短语的紧密度是否大于第二预置阈值;

如果判断结果为是,则按照第二预置次数,重复添加所述短语;

确定所述短语为所述词项。

A8、根据权利要求A1所述的方法,所述提取所述应用文本语料中的词项之后,所述方法还包括:

计算所述词项的词频;

删除所述词频大于第一预置词频且小于第二预置词频的词项。

A9、根据权利要求A1所述的方法,所述根据所述主题模型的训练结果,生成标签,包括:

获取所述主题模型的训练结果,所述训练结果包括主题-词项概率分布和应用文本语料-主题概率分布;

根据所述训练结果,计算所述词项的训练概率;

根据预置校正算法,计算所述词项的校正概率;

按照所述校正概率从大到小的顺序,确定预置数量的所述词项为标签。

A10、根据权利要求A9所述的方法,所述根据预置校正算法,计算所述词项的校正概率,包括:

根据文本深度表示模型训练所述词项,获取所述词项与所述应用文本语料的语义相似度;

获取所述词项的位置权重;

获取所述语义相似度用所述位置权重加权的加权值;

将所述词项的训练概率与所述加权值的乘积,确定为所述校正概率。

A11、根据权利要求A10所述的方法,所述根据预置校正算法,计算所述词项的校正概率,包括:

计算所述词项在所述应用文本语料中的出现频率;

将所述训练概率与所述出现频率相乘,并将乘积结果与所述训练概率相加,获取所述词项的校正概率。

A12、根据权利要求A9所述的方法,所述确定预置数量的所述词项为标签,包括:

获取所述应用文本语料的查询次数;

根据预置选词算法,计算所述应用文本语料的选词数量;

确定所述选词数量的所述词项为所述标签。

B13、一种标签的生成装置,包括:

获取单元,用于获取应用文本语料;

提取单元,用于提取所述应用文本语料中的词项;

训练单元,用于根据预置训练参数,按照主题模型训练所述词项;

生成单元,用于根据所述主题模型的训练结果,生成标签。

B14、根据权利要求B13所述的装置,所述获取单元,包括:

第一获取模块,用于获取会话日志中的查询数据;

所述第一获取模块,还用于如果查找到所述查询数据对应的下载数据,则获取所述下载数据的APP摘要;

第一确定模块,用于将所述查询数据与所述APP摘要,确定为所述应用文本语料。

B15、根据权利要求B13所述的装置,所述提取单元,包括:

生成模块,用于对所述应用文本语料分词处理,生成所述应用文本语料的分词库;

判断模块,用于判断所述词项库中分词的词性;

提取模块,用于提取所述词性为有效词性的有效分词,所述有效词性包括动词和名词;

第二确定模块,用于确定所述有效分词为所述词项。

B16、根据权利要求B15所述的装置,所述提取模块,包括:

第一获取子模块,用于获取所述词性为动词的动词分词;

所述第一获取子模块,还用于获取所述词性为名词的名词分词;

第一判断子模块,用于判断每一个所述名词分词是否为无效名词分词,所述无效名词分词包括人名、地名或者机构名称;

所述第一获取子模块,还用于如果判断结果为否,则获取所述名词分词的有效名词分词;

所述第二确定模块,用于:

确定所述动词分词和所述有效名词分词为所述词项。

B17、根据权利要求B15所述的装置,所述第二确定模块,包括:

第二判断子模块,用于判断所述有效分词是否与所述应用文本语料的题目分词相同;

第一添加子模块,用于如果判断结果为是,则按照第一预置次数,重复添加所述有效分词;

第一确定子模块,用于确定所述有效分词为所述词项。

B18、根据权利要求B15所述的装置,所述提取单元,包括:

第一计算模块,用于根据预置紧密度算法,计算所述分词库中任意两个相邻分词的紧密度;

合并模块,用于如果所述紧密度大于第一预置阈值,则将所述紧密度对应的所述相邻分词合并成短语;

第三确定模块,用于确定所述短语为所述词项。

B19、根据权利要求B18所述的装置,所述第三确定模块,包括:

第三判断子模块,用于判断所述短语的紧密度是否大于第二预置阈值;

第二添加子模块,用于如果判断结果为是,则按照第二预置次数,重复添加所述短语;

第二确定子模块,用于确定所述短语为所述词项。

B20、根据权利要求B13所述的装置,所述装置还包括:

计算单元,用于所述提取所述应用文本语料中的词项之后,计算所述词项的词频;

删除单元,用于删除所述词频大于第一预置词频且小于第二预置词频的词项。

B21、根据权利要求B13所述的装置,所述生成单元,包括:

第二获取模块,用于获取所述主题模型的训练结果,所述训练结果包括主题-词项概率分布和应用文本语料-主题概率分布;

第二计算模块,用于根据所述训练结果,计算所述词项的训练概率;

第三计算模块,用于根据预置校正算法,计算所述词项的校正概率;

第四确定模块,用于按照所述校正概率从大到小的顺序,确定预置数量的所述词项为标签。

B22、根据权利要求B21所述的装置,所述第三计算模块,包括:

第二获取子模块,用于根据文本深度表示模型训练所述词项,获取所述词项与所述应用文本语料的语义相似度;

所述第二获取子模块,还用于获取所述词项的位置权重;

所述第二获取子模块,还用于获取所述语义相似度用所述位置权重加权的加权值;

第三确定子模块,用于将所述词项的训练概率与所述加权值的乘积,确定为所述校正概率。

B23、根据权利要求B22所述的装置,所述第三计算模块,包括:

第一计算子模块,用于计算所述词项在所述应用文本语料中的出现频率;

第三获取子模块,用于将所述训练概率与所述出现频率相乘,并将乘积结果与所述训练概率相加,获取所述词项的校正概率。

B24、根据权利要求B21所述的装置,所述第四确定模块,包括:

第四获取子模块,用于获取所述应用文本语料的查询次数;

第二计算子模块,用于根据预置选词算法,计算所述应用文本语料的选词数量;

第四确定子模块,用于确定所述选词数量的所述词项为所述标签。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1