内容推送方法、装置、电子设备和存储介质与流程

文档序号:23474947发布日期:2020-12-29 13:28阅读:128来源:国知局
内容推送方法、装置、电子设备和存储介质与流程

本发明涉及计算机领域,具体涉及一种内容推送方法、装置、电子设备和存储介质。



背景技术:

时效性(chronergy)是指信息仅在一定时间段内对受众具有价值的属性,时效性可以与信息在传播后引起受众接触和产生社会效果之间相关。

例如,以视频网站的视频推送场景为例,通常来说新闻视频的时效性较短,经典影视视频的时效性较长,若向用户推送过时的新闻视频,则会导致用户反感和负反馈,若提前下架了经典影视视频,则会导致用户认为视频网站的内容量太少。因此,推送视频时不考虑其时效性往往会引起视频网站的点击量降低、用户流失等问题。

因此,目前的内容推送方法往往忽略了对待推送内容的时效性,因此,目前内容推送方法的推送时间不够合理。



技术实现要素:

本发明实施例提供一种内容推送方法、装置、电子设备和存储介质,可以基于待推送内容的时效性进行推送,使得推送时间更加合理,从而提升推送时间的准确度。

本发明实施例提供一种内容推送方法,包括:

获取待推送内容的描述信息;

基于描述信息对待推送内容进行主题分析,得到待推送内容的内容主题;

根据描述信息和内容主题,确定待推送内容的内容特征;

基于内容特征对待推送内容进行时效分析,得到待推送内容的时效类型;

根据时效类型确定待推送内容的推送时长;

基于推送时长向用户推送待推送内容。

本发明实施例还提供一种内容推送装置,包括:

获取单元,用于获取待推送内容的描述信息;

主题单元,用于基于描述信息对待推送内容进行主题分析,得到待推送内容的内容主题;

特征单元,用于根据描述信息和内容主题,确定待推送内容的内容特征;

类型单元,用于基于内容特征对待推送内容进行时效分析,得到待推送内容的时效类型;

时长单元,用于根据时效类型确定待推送内容的推送时长;

推送单元,用于基于推送时长向用户推送待推送内容。

在一些实施例中,推送单元,用于:

向用户推送待推送内容,并记录推送时刻;

确定当前时刻,以及根据当前时刻和推送时刻确定已推送时长;

当已推送时长小于推送时长,则继续向用户推送待推送内容;

当已推送时长不小于推送时长,则停止向用户推送待推送内容。

在一些实施例中,时长单元,用于:

当时效类型为短效类型时,确定待推送内容的推送时长为第一预设时长;

当时效类型为中效类型时,确定待推送内容的推送时长为第二预设时长;

当时效类型为长效类型时,确定待推送内容的推送时长为第三预设时长。

在一些实施例中,特征单元,包括:

描述特征子单元,用于基于描述信息进行词嵌入处理,得到描述信息对应的描述特征;

主题特征子单元,用于基于内容主题进行词嵌入处理,得到内容主题对应的主题特征;

拼接子单元,用于对描述特征和主题特征进行特征拼接,得到内容特征。

在一些实施例中,待推送内容的描述信息包括标题信息和标签信息,描述特征包括标题特征和标签特征,描述特征子单元,用于:

基于标题信息进行词嵌入处理,得到标题信息对应的标题特征;

基于标签信息进行词嵌入处理,得到标签信息对应的标签特征;

在一些实施例中,拼接子单元,用于:

对标题特征、标签特征和主题特征进行特征拼接,得到内容特征。

在一些实施例中,待推送内容的描述信息包括标题信息和标签信息,主题单元,包括:

分词子单元,用于对待推送内容的标题信息和标签信息进行分词处理,得到多个词组;

词组主题分布子单元,用于确定词组的词组主题分布;

内容主题子单元,用于基于词组主题分布确定待推送内容的内容主题。

在一些实施例中,词组主题分布子单元,用于:

采用预设词典,确定词组对应的词组向量;

基于词组向量进行主题分析,得到词组的词组主题分布。

在一些实施例中,内容主题子单元,用于:

确定标题信息和标签信息中每一种词组的词组数量;

基于词组的词组数量确定词组在标题信息和标签信息中的词组占比;

基于词组占比和词组主题分布,确定待推送内容的内容主题。

在一些实施例中,类型单元,包括:

卷积子单元,用于采用n个不同大小的卷积核,对内容特征进行卷积处理,得到n个不同大小的卷积特征;

池化子单元,用于对n个不同大小的卷积特征进行最大池化处理,得到池化后卷积特征;

全连接子单元,用于基于池化后卷积特征进行全连接处理,得到待推送内容的时效类型分布;

类型子单元,用于基于时效类型分布,确定待推送内容的时效类型。

在一些实施例中,每个卷积核包括一对大小相同的子卷积核,每个卷积特征包括一对大小相同的子卷积特征,卷积子单元,用于:

采用n对不同大小的子卷积核,对内容特征进行卷积处理,得到n对不同大小的子卷积特征;

在一些实施例中,池化子单元,用于:

对子卷积特征进行最大池化处理,得到子卷积特征对应的池化后子卷积特征;

将池化后子卷积特征进行特征拼接,得到池化后卷积特征。

在一些实施例中,待推送内容包括待推送视频,主题单元,还包括:

抽帧子单元,用于对待推送视频进行视频抽帧处理,得到至少一帧视频图像;

图像识别子单元,用于基于视频图像进行图像识别,确定视频图像的图像主题分布;

分析子单元,用于基于所述描述信息和所述图像主题分布对所述待推送内容进行主题分析,得到所述待推送内容的内容主题。

在一些实施例中,分析子单元,用于:

对所述待推送内容的标题信息和标签信息进行分词处理,得到多个词组;

确定所述词组的词组主题分布;

基于所述词组主题分布确定所述待推送内容的内容主题分布;

采用预设权重,对所述图像主题分布和所述内容主题分布进行加权处理,得到加权后的图像主题分布和加权后的内容主题分布;

对所述加权后的图像主题分布和所述加权后的内容主题分布进行融合处理,得到融合主题分布;

根据所述融合主题分布确定所述待推送内容的内容主题。

本发明实施例还提供一种电子设备,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本发明实施例所提供的任一种内容推送方法中的步骤。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种内容推送方法中的步骤。

本发明实施例可以获取待推送内容的描述信息;基于描述信息对待推送内容进行主题分析,得到待推送内容的内容主题;根据描述信息和内容主题,确定待推送内容的内容特征;基于内容特征对待推送内容进行时效分析,得到待推送内容的时效类型;根据时效类型确定待推送内容的推送时长;基于推送时长向用户推送待推送内容。

本发明实施例可以通过分析待推送内容的时效类型,来在合适的推送时长内向用户推送该待推送内容。

特别针对于待推送内容的描述信息仅具有少量文字的情况,由于描述信息本身包含的信息量较少,因此,仅根据描述信息来分析待推送内容的时效类型往往会出现准确度低、泛化能力弱等问题,故本方案在分析待推送内容的时效类型之前,还可以先分析其所属的内容主题,从而在分析时效类型时,同时参考描述信息和内容主题,使得推送时长更加准确、合理。由此,本方案可以提升推送时间的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的内容推送方法的场景示意图;

图1b是本发明实施例提供的内容推送方法的流程示意图;

图2a是本发明实施例提供的内容推送方法的text-cnn结构示意图;

图2b是本发明实施例提供的内容推送方法的text-cnn具体结构示意图;

图2c是本发明实施例提供的内容推送方法的继续推送流程示意图;

图2d是本发明实施例提供的内容推送方法的停止推送流程示意图;

图2e是本发明实施例提供的内容推送方法的视频推送流程示意图;

图3a是本发明实施例提供的内容推送装置的第一种结构示意图;

图3b是本发明实施例提供的内容推送装置的第二种结构示意图;

图3c是本发明实施例提供的内容推送装置的第三种结构示意图;

图3d是本发明实施例提供的内容推送装置的第四种结构示意图;

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种内容推送方法、装置、电子设备和存储介质。

其中,该内容推送装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(personalcomputer,pc)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。

在一些实施例中,该内容推送装置还可以集成在多个电子设备中,比如,内容推送装置可以集成在多个服务器中,由多个服务器来实现本发明的内容推送方法。

在一些实施例中,服务器也可以以终端的形式来实现。

例如,参考图1a,内容推送装置10可以集成在电子设备中,该电子设备可以是由多个服务器组成的服务器集群。

内容推送装置10可以从数据库00获取待推送内容的描述信息,然后,内容推送装置10可基于描述信息对待推送内容进行主题分析,得到待推送内容的内容主题,再根据描述信息和内容主题,确定待推送内容的内容特征,内容推送装置10可以基于内容特征对待推送内容进行时效分析,得到待推送内容的时效类型,再根据时效类型确定待推送内容的推送时长,最后,内容推送装置10可以基于推送时长向用户终端20推送待推送内容。

以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。

人工智能(artificialintelligence,ai)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。

其中,自然语言处理技术(nlp,naturallanguageprocessing)是利用计算机代替人脑对人类的语言文本进行生成、翻译、理解等操作并进一步进行处理的技术。自然语言处理技术通常包括文本生成、文本处理、词法分析、语义理解、机器翻译、ai问答、关键词提取、搜索与推荐等技术,比如,语句生成、情绪分析、词性标注、问题理解、答案论证等。

在本实施例中,提供了一种基于nlp的内容推送方法,如图1b所示,该内容推送方法的具体流程可以如下:

101、获取待推送内容的描述信息。

其中,待推送内容时指等待被推送给用户端的内容信息。

待推送内容可以以多种媒体形式表现;比如,待推送内容可以是视频、图像、文本、音频,等等。

其中,描述信息是指描述待推荐内容的文本信息,比如,描述信息可以包括待推送内容的标题(title)、标签(tag)、简介、摘要、评论等信息。

该描述信息可以由文字、符号、数字等文本信息组成。其中,该描述信息可以通过直接或间接的方式获取。具体地,如直接获取待分发内容的标题、标签等直接文字呈现内容;如通过图片识别、语音识别等间接获取视频或音频中的字幕、背景语音所对应的文字等。

其中,获取待推送内容的方法具有多种,例如,可以通过网络从数据库获取。

102、基于描述信息对待推送内容进行主题分析,得到待推送内容的内容主题。

其中,内容主题(topic)是指待推送内容所属的主题类型,该内容主题(可简称为主题、主题关键词等)可以以文字的形式表达。例如,当待推送内容是篮球比赛视频,则该待推送内容所属的主题类型可以是体育主题;再例如,当待推送内容是美妆视频,则该待推送内容所属的主题类型可以是女性主题,等等。

在一些实施例中,待推送内容是待推送的文本时,可以同时基于该待推送文本和该待推送文本的描述信息来对待推送文本进行主题分析,得到待推送文本的内容主题。

例如,对于待推送的新闻文章,可以同时基于该待推送新闻文章和该待推送新闻文章的标题、评论、话题领域等描述信息来对其进行主题分析,得到该待推送新闻文章的内容主题。

在一些实施例中,待推送内容本身不包含文本信息时,需要基于描述信息对待推送内容进行主题分析,得到待推送内容的内容主题。

例如,对于待推送的视频,需要基于该视频的标题、标签、简介等描述信息来对其进行主题分析,得到该待推送视频的内容主题。

在本实施例中,可以采用主题模型(topicmodel)来对待推送内容进行主题分析。

其中,主题模型可以包括概率性潜在语义索引(probabilisticlatentsemanticindexing,plst)模型、隐含狄利克雷分布(latentdirichletallocation,lda)模型、弹珠机分布模型(pachinkoallocationmodel,pam),等等。

以下将以lda为例,介绍如何采用主题模型来对待推送内容进行主题分析,从而得到待推送内容的内容主题:

在一些实施例中,待推送内容的描述信息可以包括标题信息和标签信息,步骤102可以包括如下步骤:

(1)对待推送内容的标题信息和标签信息进行分词处理,得到多个词组;

(2)确定词组的词组主题分布;

(3)基于词组主题分布确定待推送内容的内容主题。

其中,词组主题分布是指词组属于某一主题的概率分布(以下将概率分布简称为分布)。

其中,分词处理是指将标题和标签拆分为多个词组,其中,分词的方法具有多种,例如,由于英文单词之间是由空格进行划分的,因此,对于英文文本,可以按照空格来将文本划分为多个词组;例如,由于在中文中没有词组的划分标志,因此,对于中文文本,需要采用基于预设词表的分词方法,或基于统计模型的分词方法、基于序列标注的分词方法,等等。

例如,中文文本的分词方法可以采用基于预设词表的分词方法,如正向最大匹配法(forwardmaximummatchingmethod,fmm)、逆向最大匹配法(backwardmaximummatchingmethod,bmm)、n-最短路径方法,等等。

以fmm为例,fmm可以对于输入的一段中文文本从左至右地依次切分出当前位置上长度最大的词。切分出来的词组的颗粒度越大,所能表示的含义越确切。

在一些实施例中,还可以在分词之前,将标题信息和标签信息中的停用词、特殊符号、换行符等多余文本剔除。

其中,基于词组主题分布确定待推送内容的内容主题的方法具有多种,例如,将词组主题分布中概率最大的主题确定该词组主题,然后,统计文本中所有词组所属的主题,将含词组数量最多的主题确定为内容主题。

例如,文本包含5个词组,其中,词组a的主题分布为[(体育:0.5),(美食:0.2),(旅行:0.3)],词组b的主题分布为[(体育:0),(美食:0.8),(旅行:0.2)],词组c的主题分布为[(体育:0.7),(美食:0),(旅行:0.3)],词组d的主题分布为[(体育:0.1),(美食:0.1),(旅行:0.8)],词组e的主题分布为[(体育:0.4),(美食:0.3),(旅行:0.43)]。

因此,根据最大概率可知,词组a所属的主题为体育,词组b所属的主题为美食,词组c所属的主题为体育,词组d所属的主题为旅行,词组e所属的主题为体育,因此,该文本中体育主题的词组一共有3个,旅行主题的词组一共有1个,美食的词组一共有1个。

根据数量可知,体育主题的词组在文本中出现的次数最多,因此,该文本的内容主题为体育。

其中,可以通过lda模型来实现步骤“(2)确定词组的词组主题分布”和步骤“(3)基于词组主题分布确定待推送内容的内容主题”。

其中,词组主题分布是指每种词组在每种主题中的概率分布。

同一个词,在不同的主题背景下,词出现的概率是不同的;而同一个主题,在不同的文本中,主题出现的概率是不同的;例如,词组“篮球”出现在体育主题的文本中的概率更高。

lda模型可以通过文本中每种主题所对应词组在文本中出现的次数来确定该文本的主题;例如,在一篇100个词的文本中含有60个关于体育主题的词组、30个关于食品主题的词组和10个关于服饰主题的词组,则可以将该文本的主题确定为体育主题。

在训练好的lda模型中,可以根据下述公式来确定词组主题分布:

p(词组|文本)=p(词组|主题)p(主题|文本)

其中,训练lda涉及到的公式有:二项分布、多项分布、beta分布、狄利克雷分布(dirichletdistribution)、尔科夫链蒙特卡洛(markovchainmontecarlo,mcmc)算法、吉布斯采样(gibssampling)、期望最大化(expectation-maximum,em)算法等。

在lda模型中,一篇文档的生成方式如下:

从狄利克雷分布α中取样生成文档d的主题分布θd;

从主题的多项式分布θd中取样生成文档d第w个词的主题zw,d;

从狄利克雷分布β中取样生成主题zw,d对应的词语分布φw,d;

从词语的多项式分布φw,d中采样最终生成词语wd,w。

其中,随机变量p具有k种取值,分别取值为x1、x2…xk时,其多项分布的概率函数为:

给定大于0的参数α和β,取值范围为[0,1]的随机变量x的概率密度函数为:

其中,beta分布b(α,β)的公式如下:

其中,gamma函数γ(x)的公式如下:

狄利克雷分布的密度函数与beta分布类似:

其中:

限于篇幅,本说明书中仅会介绍上述部分公式,在此不对公式进行推导。

以下将介绍lda模型的核心公式:

首先,定义主题集合z,z可以看作一个主题序列<z1,z2,…,zk>;定义文本集合d中包括多个文本d,每个文本d看作一个词组序列<w1,w2,...,wn>,d中涉及的所有不同的词组可组成一个大集合voc。

假设voc中共包含m个词组,lda模型以文本集合d作为输入,从而在lda模型中训练出θd和φz,其中:

θd<pz1,...,pzk>为d对应不同主题的概率,pzi表示d对应z中第i个主题z的概率。其中,pzi=nzi/n,其中nzi表示d中对应第i个主题的词的数目,n是d中所有词的总数。

对每个z中的主题z,生成不同词组的概率φz<pw1,...,pwm>,pwi表示z生成voc中第i个词组的概率。其中,pwi=mwi/m,其中mwi表示对应到主题z的voc中第i个词组的数目,m表示所有对应到主题z的词组总数。

lda的核心公式如下:

p(w|d)=p(w|z)*p(z|d)

即,可以通过当前的θd和φz来给出文本d中出现词组w的概率。其中p(z|d)可利用θd计算得到,p(w|z)可利用φz计算得到。

在一些实施例中,在步骤“(2)确定词组的词组主题分布”时,需要先对词组进行向量转换,将词组文本转换为计算机可识别的向量形式。

比如,在一些实施例中,可以采用词袋(bagofwords,bow)模型或词向量(wordembedding)模型将文字转换为向量。

例如,在一些实施例中,可以采用词袋模型进行向量转换,故步骤“(2)确定词组的词组主题分布”可以包括如下步骤:

采用预设词典,确定词组对应的词组向量;

基于词组向量进行主题分析,得到词组的词组主题分布。

其中,词袋模型可看作一个预设的词典,每当文本出现了该词典中的词组,则对该词组计数,该词组出现了n次,则在该位置计数为n。

例如,对于是两个短句:

johnlikestowatchmovies.marylikesmoviestoo.

johnalsolikestowatchfootballgames.

第一个短句的向量为[1,2,1,1,2,0,0,0,1,1];第二个短句的向量为[1,1,1,1,0,1,1,1,0,0]。

在一些实施例中,步骤“(3)基于词组主题分布确定待推送内容的内容主题”可以包括如下步骤:

确定标题信息和标签信息中每一种词组的词组数量;

基于词组的词组数量确定词组在标题信息和标签信息中的词组占比;

基于词组占比和词组主题分布,确定待推送内容的内容主题。

例如,标题信息和标签信息由100个词组构成,其中分为20种不同的词组,词组a共计12个,则可确定词组a在标题信息和标签信息中的词组占比为12%。

待推送内容可以包括待推送视频,为例得到更准确的主题,在一些实施例中,还可以通过计算机视觉(computervision)技术来实现识别图像所属的主题,因此步骤102还可以包括如下步骤:

(1)对待推送视频进行视频抽帧处理,得到至少一帧视频图像;

(2)基于视频图像进行图像识别,确定视频图像的图像主题分布;

(3)基于描述信息和图像主题分布对待推送内容进行主题分析,得到待推送内容的内容主题。

在一些实施例汇总,可以采用图像分类模型,如lenet、alexnet、vgg(visualgeometrygroupnetwork),等等。

在此将以vgg16为例,介绍如何在vgg16中确定视频图像的图像主题分布:

vgg16中包含5个卷积层组,以及3层全连接层;每个卷积层组之后都跟有一层最大池化层,第一个卷积层组含有2个级联的卷积层,第二个卷积层组含有2个级联的卷积层,第三个卷积层组含有4个级联的卷积层,第四个卷积层组含有4个级联的卷积层,第五个卷积层组含有4个级联的卷积层。

将视频图像输入到vgg16中进行一系列的卷积、池化,最终在全连接层得到视频图像的图像主题分布。

当得到图像主题分布后,可以根据上述lda基于描述信息确定内容主题的方法,确定描述信息的主题分布。

由此,除了可以通过nlp的方式得到描述信息的主题分布(即内容主题分布),还可以通过cv的方式得到视频图像的主题分布(即内容主题分布),同时识别文本和图像,根据内容主题分布和内容主题分布可以更准确地得出待推送内容的内容主题。

因此,在一些实施例中,步骤“(3)基于描述信息和图像主题分布对待推送内容进行主题分析,得到待推送内容的内容主题”可以包括如下步骤:

对待推送内容的标题信息和标签信息进行分词处理,得到多个词组;

确定词组的词组主题分布;

基于词组主题分布确定待推送内容的内容主题分布;

采用预设权重,对图像主题分布和内容主题分布进行加权处理,得到加权后的图像主题分布和加权后的内容主题分布;

对加权后的图像主题分布和加权后的内容主题分布进行融合处理,得到融合主题分布;

根据融合主题分布确定待推送内容的内容主题。

其中,步骤“对待推送内容的标题信息和标签信息进行分词处理,得到多个词组;确定词组的词组主题分布;基于词组主题分布确定待推送内容的内容主题分布”与上述lda模型确定待推送内容的内容主题分布的方式相同,在此不做赘述。

其中,可以采用技术人员为图像主题分布和内容主题分别设置的预设权重,来对图像主题分布和内容主题分布进行加权处理,并对加权后的图像主题分布和加权后的内容主题分布进行融合处理,得到融合主题分布。

其中,融合处理可以是分布相乘,也可以是分布相加,等等。

例如,设图像主题分布的预设权重为0.4,内容主题分布的预设权重0.6,得到的图像主题分布为[(体育:0.2),(美食:0.8),(旅行:0)],得到的内容主题分布为[(体育:0.3),(美食:0.6),(旅行:0.1)]。

则加权后的图像主题分布为[(体育:0.08),(美食:0.32),(旅行:0)],加权后的内容主题分布为[(体育:0.18),(美食:0.36),(旅行:0.06)],因此,融合主题分布为分布相加时,得到的融合主题分布为[(体育:0.26),(美食:0.68),(旅行:0.06)]。

其中,得到融合主题分布后,可以将概率最大的主题确定为内容主题。

例如,根据融合主题分布为[(体育:0.26),(美食:0.68),(旅行:0.06)],可以将内容主题确定为美食。

103、根据描述信息和内容主题,确定待推送内容的内容特征。

其中,步骤103是通过将描述信息和步骤102得到的内容主题进行一系列的特征提取、特征融合等处理,来得到信息准确、丰富的内容特征,以便在步骤104中根据该内容特征来准确地确定时效类型。

因此,在一些实施例中,步骤103可以包括如下步骤:

(1)基于描述信息进行词嵌入处理,得到描述信息对应的描述特征;

(2)基于内容主题进行词嵌入处理,得到内容主题对应的主题特征;

(3)对描述特征和主题特征进行特征拼接,得到内容特征。

其中,词嵌入是指将文字转换为向量的方法,在步骤102部分曾介绍了词袋(bagofwords,bow)模型和词向量(wordembedding)模型均可将文字转换为向量,此外,还可以采用独热码(one-hot)、word2vec算法、skip-gram算法等来实现词嵌入。

在本实施例中,描述特征、主题特征、内容特征均可以以向量的形式表现。

在此,可以采用词袋模型进行向量转化,不作赘述。

其中,特征拼接(concate)的方法具有多种,例如,可以将两个向量首尾相连,得到新的拼接向量,该拼接向量即为内容特征。

在一些实施例中,待推送内容的描述信息可以包括标题信息和标签信息,描述特征可以包括标题特征和标签特征,步骤“(1)基于描述信息进行词嵌入处理,得到描述信息对应的描述特征”可以包括如下步骤:

基于标题信息进行词嵌入处理,得到标题信息对应的标题特征;

基于标签信息进行词嵌入处理,得到标签信息对应的标签特征。

参考上述词嵌入的方式,在此不作赘述。

在一些实施例中,步骤“(3)对描述特征和主题特征进行特征拼接,得到内容特征”可以包括如下步骤:

对标题特征、标签特征和主题特征进行特征拼接,得到内容特征。

参考上述特征拼接的方式,在此不作赘述。

104、基于内容特征对待推送内容进行时效分析,得到待推送内容的时效类型。

在步骤103中得到了富含描述信息和内容主题的信息的内容特征,在步骤104中,可以根据该内容特征,同时参考描述信息和内容主题进行时效分析,得到待推送内容的时效类型。

其中,时效分析是指分析出待推送内容的时效性。在此采用时效类型来量化该待推送内容的时效性。

例如,待推送内容为经典电影,经典电影的时效性往往较长,在此可以将这类待推送内容的时效类型为长效类型;例如,待推送内容为民生新闻,民生新闻的时效性往往较短,在此可以将这类待推送内容的时效类型为短效类型。

时效类型可以由技术人员设为多个挡位,例如,时效类型可以包括短效类型、中效类型和长效类型;再例如,时效类型可以包括a类、b类、c类、d类、e类、f类,等等,其中,a类时效性最短,b类、c类等等时效依次递增。

时效分析的方法具有多种,例如,可以采用时效分类模型进行时效分析。

其中,时效分类模型是一种文本分类模型,如文本卷积神经网络(textconvolutionalneuralnetworks,text-cnn)、fasttext、双向长短时序记忆网络(bidirectionallongshort-termmemorynetworks,bi-lstm)、区域卷积神经网络(regionconvolutionalneuralnetworks,rcnn)、bert(bidirectionalencoderrepresentationsfromtransformers),等等。

比如,在一些实施例中,可以采用text-cnn进行时效分析。

例如,参考图2a所示的text-cnn网络结构,包括5*2大小的卷积核、5*3大小的卷积核,等等,在一些实施例中,步骤104可以包括如下步骤:

(1)采用n个不同大小的卷积核,对内容特征进行卷积处理,得到n个不同大小的卷积特征;

(2)对n个不同大小的卷积特征进行最大池化处理,得到池化后卷积特征;

(3)基于池化后卷积特征进行全连接处理,得到待推送内容的时效类型分布;

(4)基于时效类型分布,确定待推送内容的时效类型。

text-cnn可以利用其中的多个不同大小的卷积核来提取内容特征中的关键信息,从而能够更好地捕捉其局部相关性。

具体地,参考图2b,在一些实施例中,每个卷积核可以包括一对大小相同的子卷积核,每个卷积特征可以包括一对大小相同的子卷积特征,步骤“(1)采用n个不同大小的卷积核,对内容特征进行卷积处理,得到n个不同大小的卷积特征”可以包括如下步骤:

采用n对不同大小的子卷积核,对内容特征进行卷积处理,得到n对不同大小的子卷积特征。

例如,参考图2b,卷积层包括了三对大小分别为5*2、5*3、5*4的子卷积核。在此也可以将卷积层看作三个大小分别为5*2、5*3、5*4的卷积核,每个卷积核有两个输出通道(channel)。

在一些实施例中,步骤“(2)对n个不同大小的卷积特征进行最大池化处理,得到池化后卷积特征”可以包括如下步骤:

对子卷积特征进行最大池化处理,得到子卷积特征对应的池化后子卷积特征;

将池化后子卷积特征进行特征拼接,得到池化后卷积特征。

参考图2b,在最大池化层(maxpooling)可以将这些不同长度的子卷积特征转换同长的子卷积特征,即池化后子卷积特征。

然后,将每一对子卷积核的池化后子卷积特征都拼接为一个向量,得到池化后卷积特征。

在执行步骤“(3)基于池化后卷积特征进行全连接处理,得到待推送内容的时效类型分布”时,在全连接层可以根据池化后卷积特征输出时效类型分布。

基于时效类型分布,确定待推送内容的时效类型的方式具有多种,例如,将时效类型分布中最大的概率对应的类型确定为时效类型。

105、根据时效类型确定待推送内容的推送时长。

根据时效类型确定待推送内容的推送时长的方式可以由技术人员制定,例如,在一些实施例中,步骤105可以包括如下步骤:

当时效类型为短效类型时,确定待推送内容的推送时长为第一预设时长;

当时效类型为中效类型时,确定待推送内容的推送时长为第二预设时长;

当时效类型为长效类型时,确定待推送内容的推送时长为第三预设时长。

其中,第一预设时长可以制定为36小时,第二预设时长可以指定为一周,第三预设时长可以制定为2年,等等。

106、基于推送时长向用户推送待推送内容。

在本实施例中,可以在在推送时长内向用户推送待推送内容,在推送时长外停止向用户推送待推送内容。

例如,当待推送内容的推送时长为一周时,则在一周内持续向用户推送待推送内容,超过一周则停止向用户推送待推送内容。

在一些实施例中,步骤106可以包括如下步骤:

向用户推送待推送内容,并记录推送时刻;

确定当前时刻,以及根据当前时刻和推送时刻确定已推送时长;

当已推送时长小于推送时长,则继续向用户推送待推送内容;

当已推送时长不小于推送时长,则停止向用户推送待推送内容。

例如,参考图2c,当第一次向用户推送新闻视频a时,记录第一次推送的时刻t1,然后继续向用户推送新闻视频a;每向用户推送一次新闻视频a,则记录此次推送的当前时刻t2,根据第一次推送的时刻t1和此次推送的当前时刻t2确定已推送时长t2-t1,当t2-t1小于新闻视频a的推送时长t时,继续向用户推送待推送内容,直至已推送时长t2-t1不小于推送时长t。

例如,参考图2d,当第一次向用户推送经典电影b时,记录第一次推送的时刻t1,然后继续向用户推送经典电影b;每向用户推送一次经典电影b,则记录此次推送的当前时刻t2,根据第一次推送的时刻t1和此次推送的当前时刻t2确定已推送时长t2-t1,当t2-t1不小于经典电影b的推送时长t时,则停止向用户推送待推送内容。

本发明实施例提供的内容推送方案可以应用在各种内容推送场景中。比如,以视频推送为例,参考图2e,本方案可以对视频数据库中所有的视频进行时效类型分析,如下:

首先,获取视频数据库中视频的标题、标签;

然后,对每一个视频,根据其标题和标签对其进行lda主题分析,从而得到其主题;

然后,对每一个视频,对其主题、标题、标签分别进行词嵌入,得到主题向量、标题向量、标签向量,并对这些向量进行向量拼接,得到拼接向量(即,内容特征);

对每一个视频,再将其拼接向量输入到text-cnn中进行时效分类,从而得到该视频的时效类型,并根据其时效类型确定其推送时长;

最后,根据其推送时长来在将该视频推送给用户。

本方案通过lda模型来基于视频的描述信息(包括标题和标签)来对视频的主题进行挖掘,然后作为一个新增信息的来补充视频的内容特征,从而达到特征增强的效果,因此可以有效提高时效分类的准确度。

特别是对于短文本的描述信息,例如,只具有标题文本和标签文本的视频,本方案可以通过优化内容特征,来解决短文本分类中因文本短导致的内容特征所含信息少的问题,提升时效分类模型的泛化能力。

具体地,采用本方案的视频应用可以在投放视频时,将时效长的视频(比如,经典电影)长期推送给用户,从而提升视频应用的日活(日活跃用户数量,dailyactiveuser)等指标;而时效短的视频(比如,新闻视频)则可以仅在推送时长内继续推送给用户,在推送时长外则停止继续推送给用户,从而提高用户体验,提高用户对视频应用的评价。

由上可知,本发明实施例可以获取待推送内容的描述信息;基于所述描述信息对所述待推送内容进行主题分析,得到所述待推送内容的内容主题;根据所述描述信息和所述内容主题,确定所述待推送内容的内容特征;基于所述内容特征对所述待推送内容进行时效分析,得到所述待推送内容的时效类型;根据所述时效类型确定所述待推送内容的推送时长;基于所述推送时长向用户推送所述待推送内容。由此,本方案可以提升推送时间的准确度。

为了更好地实施以上方法,本发明实施例还提供一种内容推送装置,该内容推送装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。

比如,在本实施例中,将以内容推送装置具体集成在服务器中为例,对本发明实施例的方法进行详细说明。

例如,如图3a所示,该内容推送装置可以包括获取单元301、主题单元302、特征单元303、类型单元304、时长单元305以及推送单元306,如下:

(一)获取单元301:

获取单元301可以用于获取待推送内容的描述信息。

(二)主题单元302:

主题单元302可以用于基于描述信息对待推送内容进行主题分析,得到待推送内容的内容主题。

在一些实施例中,待推送内容的描述信息可以包括标题信息和标签信息,参考图3b所示,主题单元302可以包括分词子单元3021、词组主题分布子单元3022以及内容主题子单元3023,如下:

(1)分词子单元3021:

分词子单元3021可以用于对待推送内容的标题信息和标签信息进行分词处理,得到多个词组。

(2)词组主题分布子单元3022:

词组主题分布子单元3022可以用于确定词组的词组主题分布。

在一些实施例中,词组主题分布子单元3022可以用于:

采用预设词典,确定词组对应的词组向量;

基于词组向量进行主题分析,得到词组的词组主题分布。

(3)内容主题子单元3023:

内容主题子单元3023可以用于基于词组主题分布确定待推送内容的内容主题。

在一些实施例中,内容主题子单元3023可以用于:

确定标题信息和标签信息中每一种词组的词组数量;

基于词组的词组数量确定词组在标题信息和标签信息中的词组占比;

基于词组占比和词组主题分布,确定待推送内容的内容主题。

在一些实施例中,待推送内容可以包括待推送视频主题单元302还可以包括抽帧子单元、图像识别子单元以及分析子单元,如下:

(4)抽帧子单元:

抽帧子单元可以用于对待推送视频进行视频抽帧处理,得到至少一帧视频图像。

(5)图像识别子单元:

图像识别子单元可以用于基于视频图像进行图像识别,确定视频图像的图像主题分布。

(6)分析子单元:

分析子单元可以用于基于所述描述信息和所述图像主题分布对所述待推送内容进行主题分析,得到所述待推送内容的内容主题。

在一些实施例中,分析子单元,可以用于:

对所述待推送内容的标题信息和标签信息进行分词处理,得到多个词组;

确定所述词组的词组主题分布;

基于所述词组主题分布确定所述待推送内容的内容主题分布;

采用预设权重,对所述图像主题分布和所述内容主题分布进行加权处理,得到加权后的图像主题分布和加权后的内容主题分布;

对所述加权后的图像主题分布和所述加权后的内容主题分布进行融合处理,得到融合主题分布;

根据所述融合主题分布确定所述待推送内容的内容主题。

(三)特征单元303:

特征单元303可以用于根据描述信息和内容主题,确定待推送内容的内容特征。

在一些实施例中,参考图3c,特征单元303可以包括描述特征子单元3031、主题特征子单元3032以及拼接子单元3033,如下:

(1)描述特征子单元3031:

描述特征子单元3031可以用于基于描述信息进行词嵌入处理,得到描述信息对应的描述特征。

(2)主题特征子单元3032:

主题特征子单元3032可以用于基于内容主题进行词嵌入处理,得到内容主题对应的主题特征。

(3)拼接子单元3033:

拼接子单元3033可以用于对描述特征和主题特征进行特征拼接,得到内容特征。

在一些实施例中,待推送内容的描述信息可以包括标题信息和标签信息,描述特征可以包括标题特征和标签特征,描述特征子单元3031可以用于:

基于标题信息进行词嵌入处理,得到标题信息对应的标题特征;

基于标签信息进行词嵌入处理,得到标签信息对应的标签特征;

在一些实施例中,拼接子单元3033可以用于:

对标题特征、标签特征和主题特征进行特征拼接,得到内容特征。

(四)类型单元304:

类型单元304可以用于基于内容特征对待推送内容进行时效分析,得到待推送内容的时效类型。

在一些实施例中,参考图3d,类型单元304可以包括卷积子单元3041、池化子单元3042、全连接子单元3043以及类型子单元3044,如下:

(1)卷积子单元3041:

卷积子单元3041可以用于采用n个不同大小的卷积核,对内容特征进行卷积处理,得到n个不同大小的卷积特征。

在一些实施例中,每个卷积核可以包括一对大小相同的子卷积核,每个卷积特征可以包括一对大小相同的子卷积特征,卷积子单元3041可以用于:

采用n对不同大小的子卷积核,对内容特征进行卷积处理,得到n对不同大小的子卷积特征。

(2)池化子单元3042:

池化子单元3042可以用于对n个不同大小的卷积特征进行最大池化处理,得到池化后卷积特征。

在一些实施例中,池化子单元3042可以用于:

对子卷积特征进行最大池化处理,得到子卷积特征对应的池化后子卷积特征;

将池化后子卷积特征进行特征拼接,得到池化后卷积特征。

(3)全连接子单元3043:

全连接子单元3043可以用于基于池化后卷积特征进行全连接处理,得到待推送内容的时效类型分布。

(4)类型子单元3044:

类型子单元3044可以用于基于时效类型分布,确定待推送内容的时效类型。

(五)时长单元305:

时长单元305可以用于根据时效类型确定待推送内容的推送时长。

在一些实施例中,时长单元305可以用于:

当时效类型为短效类型时,确定待推送内容的推送时长为第一预设时长;

当时效类型为中效类型时,确定待推送内容的推送时长为第二预设时长;

当时效类型为长效类型时,确定待推送内容的推送时长为第三预设时长。

(六)推送单元306:

推送单元306可以用于基于推送时长向用户推送待推送内容。

在一些实施例中,推送单元306可以用于:

向用户推送待推送内容,并记录推送时刻;

确定当前时刻,以及根据当前时刻和推送时刻确定已推送时长;

当已推送时长小于推送时长,则继续向用户推送待推送内容;

当已推送时长不小于推送时长,则停止向用户推送待推送内容。

具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。

由上可知,本实施例的内容推送装置由获取单元获取待推送内容的描述信息;由主题单元基于所述描述信息对所述待推送内容进行主题分析,得到所述待推送内容的内容主题;由特征单元根据所述描述信息和所述内容主题,确定所述待推送内容的内容特征;由类型单元基于所述内容特征对所述待推送内容进行时效分析,得到所述待推送内容的时效类型;由时长单元根据所述时效类型确定所述待推送内容的推送时长;由推送单元基于所述推送时长向用户推送所述待推送内容。

由此,本方案可以提升推送时间的准确度。

本发明实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。

在一些实施例中,该内容推送装置还可以集成在多个电子设备中,比如,内容推送装置可以集成在多个服务器中,由多个服务器来实现本发明的内容推送方法。

在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,电子设备可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

获取待推送内容的描述信息;

基于所述描述信息对所述待推送内容进行主题分析,得到所述待推送内容的内容主题;

根据所述描述信息和所述内容主题,确定所述待推送内容的内容特征;

基于所述内容特征对所述待推送内容进行时效分析,得到所述待推送内容的时效类型;

根据所述时效类型确定所述待推送内容的推送时长;

基于所述推送时长向用户推送所述待推送内容。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

由上可知,本方案可以提升推送时间的准确度。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种内容推送方法中的步骤。例如,该指令可以执行如下步骤:

获取待推送内容的描述信息;

基于所述描述信息对所述待推送内容进行主题分析,得到所述待推送内容的内容主题;

根据所述描述信息和所述内容主题,确定所述待推送内容的内容特征;

基于所述内容特征对所述待推送内容进行时效分析,得到所述待推送内容的时效类型;

根据所述时效类型确定所述待推送内容的推送时长;

基于所述推送时长向用户推送所述待推送内容。

其中,该存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中提供的内容推送方面、时效类型计算方面、推送时长计算方面或者视频推送方面的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种内容推送方法中的步骤,因此,可以实现本发明实施例所提供的任一种内容推送方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本发明实施例所提供的一种内容推送方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1