基于人工智能的内容热度预测方法、装置和计算机设备与流程

文档序号:21281255发布日期:2020-06-27 00:21阅读:644来源:国知局
基于人工智能的内容热度预测方法、装置和计算机设备与流程

本申请涉及计算机技术领域,特别是涉及一种基于人工智能的内容热度预测方法、装置、计算机可读存储介质和计算机设备,以及一种模型训练方法、装置、计算机可读存储介质和计算机设备。



背景技术:

随着计算机技术的发展,人们可以通过互联网平台获取到各种各样的内容资源,内容如图文在互联网平台的热度反映了其受到用户关注的程度。随着自媒体时代到来,内容生产门槛的降低,从众多内容中定位潜在的热门内容进行推送和分发,可以有效提高热门内容的传播效率。

目前,对潜在热门内容的定位,多是根据各种互联网平台的内容榜单、排行榜数据进行统计预测。然而,各互联网平台的用户群体对内容的兴趣差异较大,基于内容榜单、排行榜数据对内容进行热度统计预测的预测准确性有限。



技术实现要素:

基于此,有必要针对内容热度预测准确度较低的技术问题,提供一种基于人工智能的内容热度预测方法、装置、计算机可读存储介质和计算机设备。

一种基于人工智能的内容热度预测方法,包括:

确定待预测热度的内容;

根据所述内容的互动量进行互动量特征分析,得到所述内容在分发过程中的互动量特征;

对所述内容对应的内容数据进行内容特征分析,得到所述内容的内容特征;

根据所述内容关联的内容生产方的生产方数据进行生产方特征分析,得到所述内容的生产方特征;

结合所述互动量特征、所述内容特征和所述生产方特征进行内容热度预测,得到所述内容的热度预测结果。

一种基于人工智能的内容热度预测装置,所述装置包括:

预测内容确定模块,用于确定待预测热度的内容;

互动量分析模块,用于根据所述内容的互动量进行互动量特征分析,得到所述内容在分发过程中的互动量特征;

内容数据分析模块,用于对所述内容对应的内容数据进行内容特征分析,得到所述内容的内容特征;

生产方数据分析模块,用于根据所述内容关联的内容生产方的生产方数据进行生产方特征分析,得到所述内容的生产方特征;

热度预测处理模块,用于结合所述互动量特征、所述内容特征和所述生产方特征进行内容热度预测,得到所述内容的热度预测结果。

一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上所述内容热度预测方法的步骤。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述内容热度预测方法的步骤。

上述基于人工智能的内容热度预测方法、装置、计算机可读存储介质和计算机设备,根据待预测热度的内容的互动量进行互动量特征分析得到互动量特征,对该内容对应的内容数据进行内容特征分析得到内容特征,根据该内容关联的内容生产方的生产方数据进行生产方特征分析得到生产方特征,并结合互动量特征、内容特征和生产方特征进行内容热度预测,得到内容的热度预测结果。对内容的热度预测综合了内容的互动量特征、内容特征和生产方特征等多维特征,提高了内容热度预测的准确度。

一种模型训练方法,包括:

获取待训练内容,所述待训练内容携带热度标签;

通过待训练的内容热度预测模型对所述待训练内容的互动量进行互动量特征分析,得到所述待训练内容在分发过程中的互动量训练特征;

通过所述内容热度预测模型对所述待训练内容对应的内容数据进行内容特征分析,得到所述待训练内容的内容训练特征;

通过所述内容热度预测模型对所述待训练内容关联的内容生产方的生产方数据进行生产方特征分析,得到所述待训练内容的生产方训练特征;

通过所述内容热度预测模型结合所述互动量训练特征、所述内容训练特征和所述生产方训练特征进行内容热度预测,得到所述待训练内容的热度预测训练结果;

根据所述热度预测训练结果和所述热度标签调整所述内容热度预测模型的参数后继续进行训练,直至训练结束得到训练完成的内容热度预测模型。

一种模型训练装置,所述装置包括:

训练内容获取模块,用于获取模型训练内容,所述模型训练内容携带热度标签;

互动量训练模块,用于通过待训练的内容热度预测模型对所述模型训练内容的互动量进行互动量特征分析,得到所述模型训练内容在分发过程中的互动量训练特征;

内容数据训练模块,通过所述内容热度预测模型对所述模型训练内容对应的内容数据进行内容特征分析,得到所述模型训练内容的内容训练特征;

生产方数据训练模块,通过所述内容热度预测模型对所述模型训练内容关联的内容生产方的生产方数据进行生产方特征分析,得到所述模型训练内容的生产方训练特征;

热度预测训练模块,用于通过所述内容热度预测模型结合所述互动量训练特征、所述内容训练特征和所述生产方训练特征进行内容热度预测,得到所述模型训练内容的热度预测训练结果;

模型更新模块,用于根据所述热度预测训练结果和所述热度标签调整所述内容热度预测模型的参数后继续进行训练,直至训练结束得到训练完成的内容热度预测模型。

一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上所述模型训练方法的步骤。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述模型训练方法的步骤。

上述模型训练方法、装置、计算机可读存储介质和计算机设备,通过待训练的内容热度预测模型对待训练内容的互动量进行互动量特征分析得到互动量训练特征,对待训练内容对应的内容数据进行内容特征分析得到内容训练特征,根据该待训练内容关联的内容生产方的生产方数据进行生产方特征分析得到生产方训练特征,结合互动量训练特征、内容训练特征和生产方训练特征进行内容热度预测,得到热度预测训练结果,并根据热度标签调整内容热度预测模型的参数后继续进行训练,直至训练结束得到训练完成的内容热度预测模型。训练得到的内容热度预测模型在对输入的内容进行热度预测时综合了内容的互动量特征、内容特征和生产方特征等多维特征,提高了内容热度预测的准确度。

附图说明

图1为一个实施例中基于人工智能的内容热度预测方法的应用环境图;

图2为一个实施例中基于人工智能的内容热度预测方法的流程示意图;

图3为一个实施例中内容进行推荐分发示意框图;

图4为一个实施例中互动量特征分析的流程示意图;

图5为一个实施例中分层注意力网络的网络结构示意图;

图6为一个实施例中模型训练方法的流程示意图;

图7为一个实施例中基于人工智能的内容热度预测装置的结构框图;

图8为一个实施例中模型训练装置的结构框图;

图9为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(computervision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(speechtechnology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术,自定驾驶技术有着广泛的应用前景,

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

本申请实施例提供的方案涉及基于人工智能的内容热度预测等技术,具体通过如下实施例进行说明:

图1为一个实施例中基于人工智能的内容热度预测方法的应用环境图。(例子:参照图1,该内容热度预测方法应用于内容推送系统。该内容推送系统包括终端110和服务器120。终端110和服务器120通过网络连接。服务器120根据待预测热度的内容的互动量进行互动量特征分析得到互动量特征,对该内容对应的内容数据进行内容特征分析得到内容特征,根据该内容关联的内容生产方的生产方数据进行生产方特征分析得到生产方特征,并结合互动量特征、内容特征和生产方特征进行内容热度预测,得到内容的热度预测结果,基于热度预测结果确定该内容为热门内容时推送该内容至终端110。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。)

在另一个实施例中,通过图1中的服务器120进行模型训练,具体通过待训练的内容热度预测模型对待训练内容的互动量进行互动量特征分析得到互动量训练特征,对待训练内容对应的内容数据进行内容特征分析得到内容训练特征,根据该待训练内容关联的内容生产方的生产方数据进行生产方特征分析得到生产方训练特征,结合互动量训练特征、内容训练特征和生产方训练特征进行内容热度预测,得到热度预测训练结果,并根据热度标签调整内容热度预测模型的参数后继续进行训练,直至训练结束得到训练完成的内容热度预测模型。内容热度预测模型可以对输入的内容进行热度预测,得到热度预测结果。

如图2所示,在一个实施例中,提供了一种基于人工智能的内容热度预测方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该内容热度预测方法具体包括如下步骤:

s202,确定待预测热度的内容。

其中,内容可以为互联网平台中发布、分布的资源,内容具有多种形式,如文本、图片、音频和视频等多种模态,随着社交网络的广泛应用,互联网中充斥着丰富的图文资源。社交网络源自网络社交,网络社交的起点是电子邮件。互联网本质上就是计算机之间的联网,早期的e-mail解决了远程的邮件传输的问题,至今它也是互联网上最普及的应用,同时它也是网络社交的起点。bbs(bulletinboardsystem,网络论坛)则更进了一步,把“群发”和“转发”常态化,理论上实现了向所有人发布信息并讨论话题的功能(疆界是bbs的访问者数量),bbs成为早期的互联网内容自发产生的平台。

bbs把网络社交推进了一步,从单纯的点对点交流的成本降低,推进到了点对面交流成本的降低。即时通信(im,instantmessenger)和博客(blog)更像是前面两个社交工具的升级版本,前者提高了即时效果(传输速度)和同时交流能力(并行处理);后者则开始体现社会学和心理学的理论——信息发布节点开始体现越来越强的个体意识,因为在时间维度上的分散信息开始可以被聚合,进而成为信息发布节点的“形象”和“性格”。比如从rss(reallysimplesyndication,简易信息聚合)、flickr到最近的youtube、digg、mini-feed、twitter、fetion、video-mail等都解决或改进了单一功能,是丰富网络社交的工具。随着网络社交的悄悄演进,一个人在网络上的形象更加趋于完整,这时候社交网络出现了。社交网络涵盖以人类社交为核心的所有网络服务形式,互联网是一个能够相互交流,相互沟通,相互参与的互动平台,互联网的发展早已超越了当初arpanet(阿帕网)的军事和技术目的,社交网络使得互联网从研究部门、学校、政府、商业应用平台扩展成一个人类社交的工具。网络社交更是把其范围拓展到移动手机平台领域,借助手机的普遍性和无线网络的应用,利用各种交友/即时通讯/邮件收发器等软件,使手机成为新的社交网络的载体。社交网络,也就是网络+社交的意思,通过网络这一载体把人们连接起来,从而形成具有某一特点的团体。

在自媒体时代,各种不同的声音来自四面八方,“主流媒体”的声音逐渐变弱,人们不再接受被一个“统一的声音”告知对或错,每一个人都在从独立获得的资讯中,对事物做出判断。自媒体有别于由专业媒体机构主导的信息传播,它是由普通大众主导的信息传播活动,由传统的“点到面”的传播,转化为“点到点”的一种对等的传播概念。同时,它也是指为个体提供信息生产、积累、共享、传播内容兼具私密性和公开性的信息传播方式。自媒体的内容构成也很特别,没有既定的核心,想到什么就写什么,只要觉得有价值的东西就分享出来,有时还会分享一些出格的观点,不需要考虑太多看官的感受,所以看一些优秀的自媒体图文内容就像看野史一样十分独特有趣,他们给看官们留下的印象是自媒体的个性,而且他们在字数方面控制得很好,一般都会控制在1000字左右,让看官可以在10分钟内流畅阅读完,非常适合在移动时代的快速阅读和消费。这些内容通常以feeds流形式展示出来供用户快速刷新,feeds即消息来源,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源等webfeed、newsfeed、syndicatedfeed)是一种资料格式,网站透过它将最新资讯传播给用户,通常以时间轴方式排列,timeline是feed最原始最直觉也最基本的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将feed汇流于一处称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般亦称为rss阅读器、feed阅读器、新闻阅读器等。如社交网站facebook首页的newsfeed可以看做一个新型聚合器,订阅源的是你的好友或follow的公众人物,内容是他们公开发布的动态。当好友数量较多且活跃时,就可以收到不断更新的内容,这是最常见的feed形式,微博、知乎等互联网平台也类似。时间是feed所遵循的终极维度,因为内容的更新是不断向服务器发出请求的结果。timeline是feed最原始最直觉也最基本的展示形式,如果说有更好的,那也是在timeline的基础上做设计。又如在微信和qq等社交软件上,各种不同的自媒体号主创作各自图文和内容,用户可以订阅这些图文的内容,然后当图文的内容有更新的时候,通过b2c(business-to-consumer,商对客电子商务模式)下行的消息方式将对应的咨询内容推送给用户展现在feeds当作,当然用户也可以主动刷新feeds获取最新的咨询信息。信息流中间的图文成为现在用户消费信息和资讯的一种主流模式。

本实施例中的内容即为互联网平台中由生产方生产、分发的图文资源,如自媒体中分发的线上图文。在互联网快速发展的时代,随着内容生产的门槛降低,在线分发图文的流行程度反映了它受到了多少人关注和流行指数或者说是热度,通过对内容进行热度预测,以尽早定位潜在的“热门爆款”优质图文内容,过滤冷门低质量的图文,对推荐分发和频道细分,主动推送等场景都具有重要意义,同时对于运营也能够极大提升效率。如何通过观察信息流内容用户行为的变化趋势,预测内容的热度,难点在于内容发布之后,很难从一开始就了解内容热度的整体趋势;另一方面,内容的内容质量特征是相对稳定的,优质内容在写法用词风格上都具有一定的共性,同时优质内容的创作者也具有一定的共性,好的作者更大概率能够创作出更好的内容,当用户消费行为特征较少时对于整体预测更加可靠。通常对于优质内容的定义是短时间内很多人同时点击并且消费阅读,而这种图文一般出现在(置顶公告,体育赛事,热点新闻事件中)。实际信息流业务当中公告和体育赛事结果一般通过置顶可以解决部分,但是热点新闻事件是前期不可预知的,所以需要在实时业务场景中去预测和监控。目前对于内容热度预测主要是通过编辑人工运营的经验加上数据统计的方法监控互联网上同类近似内容的榜单,比如百度风云榜单、微博热搜相结合的方法实现的。但是各个内容分发平台用户群体和对内容的爱好和兴趣也会不一样,这样得到的热门内容对不同的平台不适用,也没有考虑平台自身的特点,所以实际应用的效果不好,而且由于人工的介入,时间滞后,效率也不高,可能错过很多优质的内容。

如图3所示,在一个互联网平台中对内容进行推荐分发的具体应用中,内容生产端生产内容,具体的,内容生产端可以为pgc(professionalgeneratedcontent,专业生产内容,用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化,也称为ppc,professionally-producedcontent),其是mcn(multi-channelnetwork,多频道网络,将pgc内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现)或者pugc(professionalusergeneratedcontent,专业用户生产内容)的内容生产者,通过移动端或者后端接口api(applicationprogramminginterface,应用程序接口)系统,提供图文内容,这些都是分发内容的主要内容来源,内容生产端与内容接口服务器通讯,将内容上传发布至内容接口服务器,具体先获取上传服务器接口地址,然后再上传图文内容。

内容接口服务器和内容生产端直接通讯,从前端提交的内容,通常是内容的标题,发布者,摘要,封面图,发布时间,把文件存入图文内容存储服务,同时,内容接口服务器将图文内容的属性信息,比如文件大小,封面图链接,标题,发布时间,作者等信息写入内容数据库,并将上传的文件提交给调度中心服务器,进行后续的内容处理和流转。

调度中心服务器负责内容流转的整个调度过程,通过内容接口服务器接收入库的内容,然后从内容数据库中获取内容的关联信息;调度中心服务器还调度审核系统控制调度的顺序和优先级;对于图文内容,调度中心服务器先和图文召回检索服务通讯,然后和判重服务通讯,过滤掉不必要的重复相似内容,若没有达到重复过滤的内容,输出内容相似度和相似关系链,供推荐系统打散使用;此外,调度中心服务器通过审核系统,如人工审核系统的内容启用通过内容出口分发服务,通常是推荐引擎或者搜索引擎或者运营直接的展示页面提供给终端的内容消费者;调度中心服务器还将内容发送至内容排重服务器进行内容排重;调度中心服务器还将内容的关联信息更新至内容数据库。由于同时发布的内容很多,通过内容排重服务器可以实现海量内容去重,避免重复的图文内容启用。

内容数据库是内容的核心数据库,所有生产者发布内容的关联信息都保存在这个业务数据库当中,重点是图文内容本身的关联信息频文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,是否原创或者首发还包括人工审核过程中对内容的分类(包括一,二,三级别分类和标签信息,比如一篇讲解华为手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是华为,mate30);审核过程当中会读取内容数据库当中的信息,同时审核的结果和状态也会回传进入内容数据库;调度中心服务器对内容处理主要包括机器处理和人工审核处理,这里机器处理核心就是调用排重服务,排重的结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理。

审核系统需要读取内容数据库中内容本身的原始信息,通常是一个业务复杂的基于web数据库开发的系统,通过人工来对图文内容是否涉及色情,赌博,政治敏感的特性进行一轮初步过滤。

在需要分布内容启动内容分发时,从内容数据库中获取待分发的内容至推荐分发系统,并依次由推荐分发系统、内容接口服务器将内容分发至内容消费端(ugc,usergeneratecontent),内容消费端作为消费者也和内容接口服务器通讯,获取访问图文的索引信息,然后和图文内容存储服务器通讯,获取对应的图文内容,内容消费端还同时将上传和浏览过程当中用户阅读的行为数据、加载时间、点击、滑动、分享、收藏、转发等上报给服务器,内容消费端通常通过feeds流方式浏览图文数据,在feeds当中如果爆款优质内容,可以通过运营直接置顶,也可以通过主动push(推送)方式来加推到更多用户。其中,对于该内容是否需要推荐分发,则可以对该内容热度预测,热度预测结果表明该内容为潜在的热门内容,则启动内容分发,将内容生产端生产的内容分发至内容消费端。

s204,根据内容的互动量进行互动量特征分析,得到内容在分发过程中的互动量特征。

其中,内容的互动量为内容在分发过程中,针对内容的互动行为的统计数量,例如阅读者对自媒体发布的文章的互动行为的统计量。互动量可以通过统计上报接口服务接受内容消费端在图文内容分发过程当中各种用户行为数据和互动的上报,此外,也可以通过统计上报接口服务为用户行为分析服务提供必要的数据支持,来为后续短期和长期趋势统计分析数据及按照时间构成的序列。互动行为具体可以包括但不限于包括“阅读”、“转发”、“收藏”、“点赞”和“评论”等。在具体应用中,可以对各种互动行为进行类别划分,如消费行为和非消费行为,不同类别的互动行为可以设置不同权重,以对各种互动行为的统计数量进行加权求和,得到内容的互动量。根据内容的互动量进行互动量特征分析,如对内容的互动量进行拟合,得到内容在分发过程中的互动量特征。互动量特征反映了内容在分发过程中,随时间的互动量变化趋势。在具体实现时,可以对内容的互动量的长期变化趋势和短期波动趋势分别进行拟合,以在确定内容的长期变化趋势同时通过短期波动趋势进行波动调整,提高内容在分发过程中的互动量特征的准确性,从而提高热度预测的准确度。

s206,对内容对应的内容数据进行内容特征分析,得到内容的内容特征。

其中,内容数据为待预测热度的内容对应的内容关联数据,可以基于内容的标识查询或爬取获得,内容数据具体可以包括内容正文数据、内容标题数据、内容属性数据等。其中,内容正文数据为内容具体的信息,如内容为文章时,内容正文数据可以为该文章的正文部分;内容标题数据可以为内容的标题,如文章的标题;内容属性数据可以为内容关联的属性信息,如内容所属的类别、发布时间、长度、图片数量等。一般地,内容是否为潜在热门内容,与内容本身质量相关,内容本身越优质,则其成为热门内容的可能性越大。通过对内容对应的内容数据进行内容特征分析,如基于内容的内容数据进行特征映射等处理,得到内容的内容特征。内容特征反映了内容本身与热度的相关程度,根据该内容特征可以有效对内容的热度进行预测。在具体实现时,考虑到内容数据固有层次结构(即单词形成句子和句子形成文档),可以通过分层注意力网络对内容数据进行内容特征分析,得到内容的内容特征。其中,分层注意力网络(hierarchicalattentionnetworksfordocumentclassification,han)可以采用两层编码和注意力机制将内容数据依次编码为单词级和句子级的注意力向量,字级和句级编码器都是bi-gru,从而得到可以反映内容数据层次结构的内容特征。

s208,根据内容关联的内容生产方的生产方数据进行生产方特征分析,得到内容的生产方特征。

其中,内容生产方为待预测热度的内容的产生来源,具体可以为内容的创造者,例如文章的作者;生产方数据为内容生产方的特征信息,如内容生产方的账号级别、点击率、粉丝活跃数目等。本实施例中,考虑到内容生产方对内容热度的影响,如好的作者更大概率能够创作出更好的内容,对内容关联的内容生产方的生产方数据进行生产方特征分析,得到内容的生产方特征,生产方特征表征了内容生产方对内容热度的影响,结合内容的生产方特征对内容进行热度预测,能够把优质内容生产方的创作能力沉淀结合进行热度预测,可以进一步提高热度预测的准确度。

s210,结合互动量特征、内容特征和生产方特征进行内容热度预测,得到内容的热度预测结果。

得到内容的互动量特征、内容特征和生产方特征后,结合三者进行内容热度预测,得到内容的热度预测结果。热度预测结果可以包括热度预测类别,如分3档,过1万次互动的为热门,少于100次的为冷门和其余正常。根据内容的热度预测结果可以进一步确实是否要对该内容进行推送,例如,当预测到某一内容为潜在的热门内容时,将该内容进行推送,将其推送至各内容消费端,以确保内容可以有效进行传播。本实施例中,结合互动量特征、内容特征和生产方特征进行内容热度预测,融合了内容分发过程当中随时间的时序发酵过程和内容质量特征和内容生产方特征三种特征,既能捕捉分发内容的热度随发布时间推移的变化趋势,又可以利用内容的内容质量特征和内容生产方特征解决行为冷启动的难题,并避免繁琐的特征工程,能够在内容发布的早中后时期预测内容整体热度。基于内容的热度预测结果可以实现对内容质量的评价,可以用于推荐排序通过feeds流输出;对于大规模的内容推送,能够减少人工筛选爆款优质内容的成本,提高运营效率;同时为内容创作者提供创作方向的指导和帮助,能够在对应的内容平台上生成更多优质的热门内容,从而让内容生态体系能够更加完善和健康。

在具体实现时,可以基于机器学习(machinelearning,ml)实现本实施例所述的内容热度预测方法。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。具体地,如基于深度学习算法组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,从而构建网络模型使得该网络模型可以对输入的内容进行热度预测,得到内容的热度预测结果。

上述内容热度预测方法,根据待预测热度的内容的互动量进行互动量特征分析得到互动量特征,对该内容对应的内容数据进行内容特征分析得到内容特征,根据该内容关联的内容生产方的生产方数据进行生产方特征分析得到生产方特征,并结合互动量特征、内容特征和生产方特征进行内容热度预测,得到内容的热度预测结果。对内容的热度预测综合了内容的互动量特征、内容特征和生产方特征等多维特征,提高了内容热度预测的准确度。

在一个实施例中,如图4所示,互动量特征分析的处理,即根据内容的互动量进行互动量特征分析,得到内容在分发过程中的互动量特征包括:

s402,确定内容的互动量和互动量关联的互动时间属性。

其中,内容的互动量可以从互联网平台服务器中获取,也可以从互联网平台爬取获得。一般地,在互联网平台中,内容的互动量会给予显示,例如对于发布的网文,该网文的阅读量、回复量、点赞数、转发数、收藏数等会在网文所在页面中显示。互动量关联的互动时间属性可以为互动行为对应产生的时间,其反映了互动量随时间的变化情况。例如,内容发布后2分钟后产生第一次互动行为,则该内容的互动量增1,该互动行为的操作时间即为该互动量关联的互动时间属性。互动时间属性可以根据针对该内容的互动行为对应产生时间记录得到。

s404,根据互动量和互动量关联的互动时间属性得到单位时间互动量,并根据单位时间互动量获得互动量序列。

对得到的内容的互动量和互动量关联的互动时间属性进行统计,可以得到该内容的单位时间互动量,根据该单位时间互动量可以获得互动量序列。单位时间互动量表征内容在单位时间,如15分钟或30分钟内的互动量。例如,可以确定分发的内容每5分钟的粒度“阅读”,“转发”,“收藏”,“点赞”和“评论”等互动行为的单位时间互动量,并根据各单位时间互动量构建互动量序列,如可以要求互动量序列长度不小于12(60/5,至少1个小时数据),记为v={v1,v2,...,vt}。

s406,基于互动量序列进行互动量特征分析,得到内容在分发过程中的互动量特征。

获得互动量序列后,对该互动量序列进行互动量特征分析,如利用互动量序列对内容互动量的变化趋势进行拟合,得到内容在分发过程中的互动量特征。可以对内容的互动量的长期变化趋势和短期波动趋势分别进行拟合,以在确定内容的长期变化趋势同时通过短期波动趋势进行波动调整,以确保对内容的互动量进行准确拟合。

在一个实施例中,基于互动量序列进行互动量特征分析,得到内容在分发过程中的互动量特征包括:基于互动量序列进行互动量全局特征分析,得到内容的在分发过程中的互动量全局特征;从互动量序列中截取得到互动量截取序列;基于不同的卷积参数对互动量截取序列进行互动量局部特征分析,得到内容的在分发过程中的互动量局部特征;互动量特征包括互动量全局特征和互动量局部特征。

本实施例中,分别对内容的互动量的长期变化趋势和短期波动趋势进行特征分析,以确保对内容的互动量进行准确特征提取。具体地,在基于互动量序列进行互动量特征分析时,基于互动量序列进行互动量全局特征分析,得到内容的在分发过程中的互动量全局特征,互动量全局特征反映了内容的互动量在分发过程中随时间长期变化的趋势,具体应用时可以通过lstm(longshort-termmemory,长短期记忆)网络对内容互动量的长期变化趋势进行建模拟合。其中,长短期记忆网络是一种时间循环神经网络,是为了解决一般的rnn(recurrentneuralnetwork,循环神经网络)存在的长期依赖问题而专门设计出来的,首次发表于1997年。循环神经网络是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursiveneuralnetwork)。由于独特的设计结构,lstm适合于处理和预测时间序列中间隔和延迟非常长的重要事件。通过lstm网络对互动量序列进行互动量全局特征分析,以拟合内容的互动量增长曲线,lstm对时间建模的优越性在于记忆单元包含历史信息,擅于捕获长序列依赖关系,因此不需要对历史趋势的函数形式做出具体的假设。具体地,可以将每个时隙的互动量序列v馈送到lstm网络中,得到内容在分发过程中的互动量全局特征,如可以为内容的互动量随时间变化的互动量曲线。

另一方面,对内容互动量的短期波动趋势进行拟合,以确定互动量在短时间内的波动情况。具体地,从互动量序列中截取得到互动量截取序列,互动量截取序列的截取长度可以根据短期波动拟合的需求进行设置。得到互动量截取序列后,基于不同的卷积参数对互动量截取序列进行互动量局部特征分析,得到内容的在分发过程中的互动量局部特征,互动量局部特征表征了内容的互动量在某一时间段内短期波动情况。考虑到实际情况中,各种因素使得内容的互动量曲线呈现出上升和下降阶段,看起来像“山脉”和“山谷”,它们是平移不变的局部结构,而且,影响因素的随机性导致在不同的时间范围内持续,这意味着“山脉”具有不同的宽度。基于此,可以通过cnn(convolutionalneuralnetworks,卷积神经网络)捕获这样的短期波动结构,如可以通过1d-cnn(1d是1天也就是24小时)网络捕获互动量的短期波动变化,具体可以采用不同大小的多个卷积核来捕获不同的波动范围,得到内容的在分发过程中的互动量局部特征。其中,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(feedforwardneuralnetworks),是深度学习(deeplearning)的代表算法之一,具有表征学习(representationlearning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。

具体实现时,由于cnn通常需要固定大小的输入,假设输入窗口宽度为k,则每个卷积层的输入可以为t时刻前长度为k的互动量截取序列{vt-k+1,vt-k+2,...,vt},应用相同的填充操作并获得长度为k的输出序列{ct-k+1,ct-k+2,...,ct},捕获最近历史的波动变化,最后,采用注意力机制(attentionmechanism)通过时间维度合并得到内容的在分发过程中的互动量局部特征{ct-k+1,ct-k+2,...,ct}。其中,注意力机制源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。

本实施例中,互动量特征包括互动量全局特征和互动量局部特征,互动量全局特征反映内容的互动量的长期变化趋势,是互动量的整体特征表示;而互动量局部特征反映互动量在某一时间段内短期波动变化,是互动量的局部特征表示,互动量特征可以同时反映互动量的全局特征和局部特征。

在一个实施例中,对内容对应的内容数据进行内容特征分析,得到内容的内容特征包括:从内容数据中确定内容属性数据和内容正文数据;对内容属性数据进行网络嵌入处理,得到内容的内容属性特征;对内容正文数据进行正文特征映射,得到内容的内容正文特征;内容特征包括内容属性特征和内容正文特征。

本实施例中,对于内容数据中的内容属性数据进行网络嵌入处理,得到内容的内容属性特征,对于内容数据中的内容正文数据进行正文特征映射,得到内容的内容正文特征,内容特征包括内容属性特征和内容正文特征。

具体地,对内容对应的内容数据进行内容特征分析时,从内容数据中确定内容属性数据和内容正文数据。其中,内容属性数据可以包括但不限于包括类别(比如社会,军事,体育,游戏等等),发布时间,文本长度,图片数量,和发布账号的粉丝数量数值/类别特征等内容关联的属性信息;内容正文数据可以为内容具体的信息,如文章的正文内容。一方面,对内容属性数据进行网络嵌入处理,具体可以通过嵌入(embedding)网络对内容属性数据进行网络嵌入处理,得到内容的内容属性特征。其中,嵌入网络旨在学习网络中节点的低维度潜在表示,所学习到的特征表示可以用作基于图的各种任务的特征,例如分类,聚类,链路预测和可视化,其中心思想就是找到一种映射函数,该函数将网络中的每个节点转换为低维度的潜在表示,即将内容属性数据表示成对应的内容属性特征,内容属性特征反映了内容所关联的属性信息与内容热度的相关程度。

另一方面,对内容正文数据进行正文特征映射,具体可以采用分层注意力网络对内容正文数据进行正文特征映射。分层注意力网络采用两层编码和注意力机制将文档依次编码为单词级和句子级的注意力向量,字级和句级编码器都是bi-gru,适用于对固有层次结构(即单词形成句子和句子形成文档)的内容正文数据进行特征映射。其中,分层注意力网络是一种用于文档分类的神经网络,该模型有两个鲜明的特征:它具有层次结构(单词构成句子,句子形成文档),反映了文档的层次结构,通过首先构建句子的表示然后将它们聚合成文档表示来构造文档表示;它在单词和句子级别应用了两个级别的注意机制,使其能够在构建文档表示时区别地参与越来越重要的内容。分层注意力网络由几个部分组成:一个字序列编码器、一个字级关注层、一个句子编码器和一个句子层注意层。

分层注意力网络的网络结构如图5所示,网络可以被看作为两部分,第一部分为词“注意”部分(wordencoder和wordattention),另一部分为句“注意”部分(sentenceencoder和sentenceattention)。整个网络通过将一个句子分割为几部分(例如可以用“,”将一句话分为几个小句子),对于每部分,都使用双向rnn结合“注意力”机制将小句子映射为一个向量,然后对于映射得到的一组序列向量,我们再通过一层双向rnn结合“注意力”机制实现对文本的分类。通过分层注意力网络对内容正文数据进行正文特征映射,可以结合到内容正文数据的层次结构,准确对内容正文数据进行正文特征映射,得到内容的内容正文特征,从而确保内容热度预测结果的准确性。

在一个实施例中,对内容正文数据进行正文特征映射,得到内容的内容正文特征包括:对内容正文数据进行字级的注意力特征映射,得到字级正文特征;对内容正文数据进行句级的注意力特征映射,得到句级正文特征;内容正文特征包括字级正文特征和句级正文特征。

本实施例中,通过分层注意力网络对内容正文数据进行正文特征映射,具体对内容正文数据分别进行字级的注意力特征映射和句级的注意力特征映射,得到字级正文特征和句级正文特征,内容正文特征包括字级正文特征和句级正文特征。

具体地,在对内容正文数据进行正文特征映射时,对内容正文数据进行字级的注意力特征映射,得到字级正文特征,字级正文特征反映了内容正文数据单词级别的特征。另一方面,对内容正文数据进行句级的注意力特征映射,得到句级正文特征,句级正文特征反映了内容正文数据句子级别的特征。内容的内容正文特征包括字级正文特征和句级正文特征,使得内容正文特征可以有效体现出内容正文数据的层次结构特征,从而确保内容热度预测结果的准确性。

在具体应用时,通过分层注意力网络对内容正文数据进行正文特征映射时,对于字编码器(wordencoder),若给定一个带有单词wit,t∈[0,t]的句子,其中i表示第i个句子,t表示第t个词,t为句子中单词总数量,首先通过嵌入矩阵we,根据式xij=we·wij将单词嵌入到向量中,将单词转换成向量表示。使用双向gru(gatedrecurrentunit,门控循环单元,为rnn的一个变种,使用门机制来记录序列当前的状态),通过总结来自两个方向的信息来获得单词的注释,并因此将上下文信息结合到注释中。具体如下式(1)-(3),为利用双向gru实现的整个编码流程。

xit=wewit,t∈[1,t](1)

其中,为前向隐藏状态,为后向隐藏状态。通过连接前向隐藏状态和后向隐藏状态得到给定单词wit的注释hit。

对于单词注意机制(wordattention),并非所有单词对句子含义的表示都有同等作用。因此,引入注意机制来提取对句子含义重要的词,并汇总那些信息词的表示以形成句子向量。单词注意机制的处理如下式(4)-(6),

uit=tanh(wwhit+bw)(4)

其中,tanh为非线性激活函数,ww为学习权重矩阵,bw为偏移向量,ww和bw均为非线性激活函数的标准参数,uit为单词注释hit的隐藏表示,uw为单词级别上下文向量,αit为重要性权重,si为句子向量。

也就是说,首先通过对单层输入单词注释hit以获取hit的隐藏表示uit,然后测量uit与单词级别上下文向量uw的相似性,作为该单词的重要性表示,并通过softmax函数进行归一化,得到重要性权重αit。之后,将句子向量si表示为基于权重的单词注释的加权和。上下文向量uw可以被视为固定查询“传递信息的词是什么”的高级表示,前者在memorynetwork(记忆网络)中有广泛使用,uw在训练过程中随机初始化并共同学习。

对于句子编码器(sentenceencoder),给定句子矢量si,可以以类似的方式获得文档向量,具体使用双向gru来编码句子,如下式(7)-(8),

具体的,连接得到句子si的注释。

对于句子注意机制(sentenceattention),为了奖励能够作为正确分类文档的线索的句子,再次使用注意机制并引入句子级别的上下文向量,并使用向量来衡量句子的重要性。具体如下式(9)-(11),

ui=tanh(wshi+bs)(9)

其中,tanh为非线性激活函数,ws为学习权重矩阵,bs为偏移向量,ws和bs均为非线性激活函数的标准参数,ui为句子注释hi的隐藏表示,us为句子级别上下文向量,αi为重要性权重,v是文档向量,它总结了文档中句子的所有信息。类似地,句子级上下文向量可以在训练过程中随机初始化并共同学习。

在一个实施例中,内容热度预测方法还包括:从内容数据中确定内容标题数据;对内容标题数据进行字级的注意力特征映射,得到内容标题特征;根据内容标题特征对内容正文特征进行更新,并将更新后的内容正文特征作为内容正文特征。

本实施例中,考虑到内容标题作为内容的高级描述,可以展现内容的主体印象,所以对内容数据中的内容标题数据进行特征映射,得到内容标题特征,将内容标题特征作为内容正文特征的补充。

具体地,内容热度预测方法还包括从内容数据中确定内容标题数据,内容标题数据为内容的标题,其高度总结了内容。由于标题通常是短语或句子,将标题编码为仅具有字级编码器和注意力的向量,具体对内容标题数据进行字级的注意力特征映射,得到内容标题特征,内容标题特征反映了内容标题数据的特征。根据内容标题特征对内容正文特征进行更新,并将更新后的内容正文特征作为内容正文特征,具体可以将内容正文特征和内容正文特征进行连接,得到更新后的内容正文特征作为最终的内容正文特征,从而将内容的内容标题数据作为内容正文特征的补充,进一步确保内容正文特征的准确性。

在一个实施例中,根据内容关联的内容生产方的生产方数据进行生产方特征分析,得到内容的生产方特征包括:确定内容关联的内容生产方;获取内容生产方对应的生产方数据;对生产方数据进行网络嵌入处理,得到内容的生产方特征。

本实施例中,对内容关联的内容生产方的生产方数据进行网络嵌入处理,得到内容的生产方特征。具体地,进行生产方特征分析时,确定内容关联的内容生产方,如可以根据内容的创作者标识确定对应关联的内容生产方。确定内容生产方后,获取内容生产方对应的生产方数据,具体可以基于该内容生产方的标识信息,如根据内容生产方的账号名称获得内容生产方对应的生产方数据。生产方数据可以包括但不限于包括账号的类别,账号等级(权威,优质,潜力,其他通常是4个等级),账号注册时间,账号粉丝级别(个,十,百,千,万,十万,百万,千万,亿)、账号的用户点击率、账号的用户点赞率、账号用户的评论率、账号用户的转发率、账号历史内容启用率、账号粉丝活跃数、账号外部新榜榜单排名数目等。内容生产方的账号表现具有一定时间累积效应,可以将账号过去30天内发布内容的表现沉淀到账号上。对生产方数据进行网络嵌入处理,具体可以采用embedding网络对生产方数据进行网络嵌入处理得到内容的生产方特征。生产方特征表征了内容生产方对内容热度的影响,结合内容的生产方特征对内容进行热度预测,可以进一步提高热度预测的准确度。

在一个实施例中,结合互动量特征、内容特征和生产方特征进行内容热度预测,得到内容的热度预测结果包括:确定互动量特征、内容特征和生产方特征分别对应的注意力权重;按照注意力权重融合互动量特征、内容特征和生产方特征,得到内容融合特征;根据内容融合特征进行热度预测,得到内容的热度预测结果。

本实施例中,基于注意力机制将互动量特征、内容特征和生产方特征进行加权融合,并根据加权融合得到的内容融合特征进行热度预测,得到内容的热度预测结果。具体地,在行内容热度预测时,确定互动量特征、内容特征和生产方特征分别对应的注意力权重,注意力权重是互动量特征、内容特征和生产方特征分别与时间的函数,用于控制互动量特征、内容特征和生产方特征随时间变化过程中对热度影响的程度,一般地,内容在发布的最初阶段,互动量和互动时间跨度较少,难以进行有效地互动量分析,此时内容的预测热度主要取决于内容特征和生产方特征;随着时间的推移,内容的互动时间跨度增加,内容的互动量特征在热度预测中起主要作用。通过设置注意力权重,可以自动适应不同模块的输出,具有良好的处理分发过程动态演化的灵活性。具体实现时,注意力权重可以通过一个两层的神经网络进行计算。得到注意力权重后,按照该注意力权重融合互动量特征、内容特征和生产方特征,得到内容融合特征,具体可以基于注意力权重进行对互动量特征、内容特征和生产方特征进行加权求和,从而融合了互动量特征、内容特征和生产方特征,得到内容融合特征。最后根据内容融合特征进行热度预测,得到内容的热度预测结果,如可以基于神经网络结构对内容融合特征热度预测,得到热度概率分布,并根据该热度概率分布确定内容的热度预测类别,热度预测结果可以包括该热度预测类别。

在具体应用时,基于注意力机制确定互动量特征、内容特征和生产方特征分别对应的注意力权重,注意力机制是逐元素组合。通过一个两层的神经网络计算注意力权重,注意力权重确定公式如式(12)-(13),

am=vttanh(∑wihi+wtxt+b)(12)

αm=softmax(am)(13)

其中,αm为注意力权重,wi和wt为模型的权重向量矩阵;时间表示变量xt是指给定时隙t的期性属性,由时隙间隔和发布时间组成,周期性属性是一个独热编码特征,时间间隔是数值型特征;b是偏移向量,tanh为非线性激活函数,wi、wt和b均是网络模型需要学习的内容,为非线性激活函数的标准参数。

通过注意力权重动态地将互动量特征、内容特征和生产方特征融合,并在全连接层和softmax输出层之后获得爆款受欢迎程度预测的概率分布,然后将最大概率对应的热度预测类别作为最终的热度预测结果。具体处理如下式(14)-(16),

其中,为互动量特征、内容特征和生产方特征馈入全连接层以进行特征组合,得到的各元素的对齐向量,为内容融合特征,pt为热度概率分布,为热度预测结果。

在一个实施例中,假设hrt、hct、hh、he和ha分别代表互动量全局特征、互动量局部特征、内容正文特征、内容属性特征和生产方特征,则式(14)-(16)中i取值为{r,c,h,e,a}。

在一个实施例中,如图6所示,提供了一种模型训练方法,包括:

s602,获取待训练内容,待训练内容携带热度标签;

s604,通过待训练的内容热度预测模型对待训练内容的互动量进行互动量特征分析,得到待训练内容在分发过程中的互动量训练特征;

s606,通过内容热度预测模型对待训练内容对应的内容数据进行内容特征分析,得到待训练内容的内容训练特征;

s608,通过内容热度预测模型对待训练内容关联的内容生产方的生产方数据进行生产方特征分析,得到待训练内容的生产方训练特征;

s610,通过内容热度预测模型结合互动量训练特征、内容训练特征和生产方训练特征进行内容热度预测,得到待训练内容的热度预测训练结果;

s612,根据热度预测训练结果和热度标签调整内容热度预测模型的参数后继续进行训练,直至训练结束得到训练完成的内容热度预测模型。

其中,待训练内容可以为历史以分发的内容,可以将该待训练内容发布后1周互动量作为总体热度的近似值,通常信息流资讯内容有效期是3天,部分时效不强内容会进行延期操作,根据互动量得到待训练内容的热度标签。例如,热度标签可以包括3档,发布后1周互动量超过1万次阅读的为热门,少于100次的为冷门和其余正常。通过待训练的内容热度预测模型对待训练内容的互动量进行互动量特征分析得到互动量训练特征,对待训练内容对应的内容数据进行内容特征分析得到内容训练特征,根据该待训练内容关联的内容生产方的生产方数据进行生产方特征分析得到生产方训练特征,结合互动量训练特征、内容训练特征和生产方训练特征进行内容热度预测,得到热度预测训练结果,并根据热度标签调整内容热度预测模型的参数后继续进行训练,直至训练结束得到训练完成的内容热度预测模型。在训练的过程中,选取预测得分最高的类别作为热度(热门,冷门,正常)的预测结果,可以采用adam优化算法进行模型参数优化。adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。训练得到的内容热度预测模型在对输入的内容进行热度预测时综合了内容的互动量特征、内容特征和生产方特征等多维特征,提高了内容热度预测的准确度。

上述模型训练方法,通过待训练的内容热度预测模型对待训练内容的互动量进行互动量特征分析得到互动量训练特征,对待训练内容对应的内容数据进行内容特征分析得到内容训练特征,根据该待训练内容关联的内容生产方的生产方数据进行生产方特征分析得到生产方训练特征,结合互动量训练特征、内容训练特征和生产方训练特征进行内容热度预测,得到热度预测训练结果,并根据热度标签调整内容热度预测模型的参数后继续进行训练,直至训练结束得到训练完成的内容热度预测模型。训练得到的内容热度预测模型在对输入的内容进行热度预测时综合了内容的互动量特征、内容特征和生产方特征等多维特征,提高了内容热度预测的准确度。

图2为一个实施例中基于人工智能的内容热度预测方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图7所示,在一个实施例中,提供了一种基于人工智能的内容热度预测装置700,包括:

预测内容确定模块702,用于确定待预测热度的内容;

互动量分析模块704,用于根据内容的互动量进行互动量特征分析,得到内容在分发过程中的互动量特征;

内容数据分析模块706,用于对内容对应的内容数据进行内容特征分析,得到内容的内容特征;

生产方数据分析模块708,用于根据内容关联的内容生产方的生产方数据进行生产方特征分析,得到内容的生产方特征;

热度预测处理模块710,用于结合互动量特征、内容特征和生产方特征进行内容热度预测,得到内容的热度预测结果。

在一个实施例中,互动量分析模块704包括互动量信息确定模块、互动量序列模块和互动量特征分析模块;其中:互动量信息确定模块,用于确定内容的互动量和互动量关联的互动时间属性;互动量序列模块,用于根据互动量和互动量关联的互动时间属性得到单位时间互动量,并根据单位时间互动量获得互动量序列;互动量特征分析模块,用于基于互动量序列进行互动量特征分析,得到内容在分发过程中的互动量特征。

在一个实施例中,互动量特征分析模块包括全局分析模块、序列截取模块和局部分析模块;其中:全局分析模块,用于基于互动量序列进行互动量全局特征分析,得到内容的在分发过程中的互动量全局特征;序列截取模块,用于从互动量序列中截取得到互动量截取序列;局部分析模块,用于基于不同的卷积参数对互动量截取序列进行互动量局部特征分析,得到内容的在分发过程中的互动量局部特征;互动量特征包括互动量全局特征和互动量局部特征。

在一个实施例中,内容数据分析模块706包括内容数据确定模块、属性数据处理模块和正文数据处理模块;其中:内容数据确定模块,用于从内容数据中确定内容属性数据和内容正文数据;属性数据处理模块,用于对内容属性数据进行网络嵌入处理,得到内容的内容属性特征;正文数据处理模块,用于对内容正文数据进行正文特征映射,得到内容的内容正文特征;内容特征包括内容属性特征和内容正文特征。

在一个实施例中,正文数据处理模块包括字级映射模块和句级映射模块;其中:字级映射模块,用于对内容正文数据进行字级的注意力特征映射,得到字级正文特征;句级映射模块,用于对内容正文数据进行句级的注意力特征映射,得到句级正文特征;内容正文特征包括字级正文特征和句级正文特征。

在一个实施例中,还包括标题数据确定模块、标题数据处理模块和正文特征更新模块;其中:标题数据确定模块,用于从内容数据中确定内容标题数据;标题数据处理模块,用于对内容标题数据进行字级的注意力特征映射,得到内容标题特征;正文特征更新模块,用于根据内容标题特征对内容正文特征进行更新,并将更新后的内容正文特征作为内容正文特征。

在一个实施例中,生产方数据分析模块708包括生产方确定模块、生产方数据获取模块和生产方数据处理模块;其中:生产方确定模块,用于确定内容关联的内容生产方;生产方数据获取模块,用于获取内容生产方对应的生产方数据;生产方数据处理模块,用于对生产方数据进行网络嵌入处理,得到内容的生产方特征。

在一个实施例中,热度预测处理模块710包括权重确定模块、特征融合模块和热度预测模块;其中:权重确定模块,用于确定互动量特征、内容特征和生产方特征分别对应的注意力权重;特征融合模块,用于按照注意力权重融合互动量特征、内容特征和生产方特征,得到内容融合特征;热度预测模块,用于根据内容融合特征进行热度预测,得到内容的热度预测结果。

如图8所示,在一个实施例中,提供了一种模型训练装置800,包括:

训练内容获取模块802,用于获取模型训练内容,模型训练内容携带热度标签;

互动量训练模块804,用于通过待训练的内容热度预测模型对模型训练内容的互动量进行互动量特征分析,得到模型训练内容在分发过程中的互动量训练特征;

内容数据训练模块806,用于通过内容热度预测模型对模型训练内容对应的内容数据进行内容特征分析,得到模型训练内容的内容训练特征;

生产方数据训练模块808,用于通过内容热度预测模型对模型训练内容关联的内容生产方的生产方数据进行生产方特征分析,得到模型训练内容的生产方训练特征;

热度预测训练模块810,用于通过内容热度预测模型结合互动量训练特征、内容训练特征和生产方训练特征进行内容热度预测,得到模型训练内容的热度预测训练结果;

模型更新模块812,用于根据热度预测训练结果和热度标签调整内容热度预测模型的参数后继续进行训练,直至训练结束得到训练完成的内容热度预测模型。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的或服务器120。如图9所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述基于人工智能的内容热度预测方法或模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述基于人工智能的内容热度预测方法或模型训练方法。计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,本申请提供的基于人工智能的内容热度预测装置700可以实现为一种计算机程序的形式,计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于人工智能的内容热度预测装置的各个程序模块,比如,图7所示的预测内容确定模块702、互动量分析模块704、内容数据分析模块706、生产方数据分析模块708和热度预测处理模块710。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的内容热度预测方法中的步骤。

例如,图9所示的计算机设备可以通过如图7所示的基于人工智能的内容热度预测装置中的预测内容确定模块702执行确定待预测热度的内容。计算机设备可通过互动量分析模块704执行根据内容的互动量进行互动量特征分析,得到内容在分发过程中的互动量特征。计算机设备可通过内容数据分析模块706执行对内容对应的内容数据进行内容特征分析,得到内容的内容特征。计算机设备可通过生产方数据分析模块708执行根据内容关联的内容生产方的生产方数据进行生产方特征分析,得到内容的生产方特征。计算机设备可通过热度预测处理模块710执行结合互动量特征、内容特征和生产方特征进行内容热度预测,得到内容的热度预测结果。

在一个实施例中,本申请提供的模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该模型训练装置的各个程序模块,比如,图8所示的训练内容获取模块802、互动量训练模块804、内容数据训练模块806、生产方数据训练模块808、热度预测训练模块810和模型更新模块812。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的模型训练方法中的步骤。

例如,图9所示的计算机设备可以通过如图8所示的模型训练装置中的训练内容获取模块802执行获取模型训练内容,模型训练内容携带热度标签。计算机设备可通过互动量训练模块804执行通过待训练的内容热度预测模型对模型训练内容的互动量进行互动量特征分析,得到模型训练内容在分发过程中的互动量训练特征。计算机设备可通过内容数据训练模块806执行通过内容热度预测模型对模型训练内容对应的内容数据进行内容特征分析,得到模型训练内容的内容训练特征。计算机设备可通过生产方数据训练模块808执行通过内容热度预测模型对模型训练内容关联的内容生产方的生产方数据进行生产方特征分析,得到模型训练内容的生产方训练特征。计算机设备可通过热度预测训练模块810执行通过内容热度预测模型结合互动量训练特征、内容训练特征和生产方训练特征进行内容热度预测,得到模型训练内容的热度预测训练结果。计算机设备可通过模型更新模块812,执行根据热度预测训练结果和热度标签调整内容热度预测模型的参数后继续进行训练,直至训练结束得到训练完成的内容热度预测模型。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于人工智能的内容热度预测方法的步骤。此处基于人工智能的内容热度预测方法的步骤可以是上述各个实施例的内容热度预测方法中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于人工智能的内容热度预测方法的步骤。此处基于人工智能的内容热度预测方法的步骤可以是上述各个实施例的内容热度预测方法中的步骤。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述模型训练方法的步骤。此处模型训练方法的步骤可以是上述各个实施例的模型训练方法中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述模型训练方法的步骤。此处模型训练方法的步骤可以是上述各个实施例的模型训练方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1