基于大数据的科技信息个性化定制推送系统的制作方法

文档序号:11627760阅读:2105来源:国知局

本发明属于互联网技术中个性化定制推送技术领域,具体涉及一种基于大数据的科技信息个性化定制推送系统。



背景技术:

“定制”一词就起源于萨维尔街,意思是为个别客户量身剪裁;随着网络技术的高度发展,地球村成为现实;工业化大生产带来的负面影响日益明显,商品极大丰富,供大于求现象普遍严重,行业竞争压力巨大,寻求差异化竞争被迫成为企业生存发展的主旨;但正是基于这一点,从而让定制经济开始步入主殿堂;并作为历史上最具人性化的经济,成为备受人们推崇的新经济模式;随着网络的日益发展,基于网络的多媒体传输已经越来越普及,而且人们对多媒体通信内容的要求日益提高,人们不再满足于单一、被动的传统媒体娱乐方式,而需要更加个性化、互动化的多媒体通信方式;特别是随着移动网络通信技术的进一步发展和移动多媒体业务的普及,移动多媒体已经越来越显示其未来广泛和越趋成熟的用户认知以及接受度。

互联网经历了门户网站和搜索引擎的时代,迎来了社交网络的时代;我们面临新的挑战,信息碎片化,时间碎片化,用户体验的个性化需求,终端由pc转向手持智能终端等。信息推荐引擎试图通过以人为中心的社交网络数据分析,深度挖掘定位用户的喜好,关注用户的兴趣特点,最终将合适的信息推送到指定用户。本系统将用户作为一个研究对象,通过用户的历史的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,致力于探索用户所感兴趣的信息的主题,最终通过主题分析来得到用户的兴趣爱好来推送相应的信息。

传统的信息推荐算法主要是依托于协同过滤算法,主要是利用item-based和used-based两种过滤方式来处理信息,这种方式主要思想是利用文本之间的相似性来突出用户之间的相似性,但是在信息推荐上并不能得到非常理想的推荐效果,主要原因主要有以下,第一,基于协同过滤的信息推荐算法主要是突出了文本的相似性,而这种相似性并不能完全代表用户的相似性;第二,基于协同过滤的信息推荐算法,并没有将用户作为一个研究对象,因此数据挖掘深度比较浅,并不能挖掘出用户的兴趣爱好。而本系统将用户作为一个研究对象,通过用户的历史的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,利用lda算法来分析新闻的主题分布,利用关联规则算法来分析用户的主题分布,利用推送api进行信息推送,最终通过主题分析来得到用户的兴趣爱好来推送相应的信息。



技术实现要素:

为解决上述技术问题,本发明提供了一种基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、lda算法模块、关联规则算法模块和推送api进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,形成信息基础库,根据文本及特征进行分析,再进行文本及特征进行处理,利用lda算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送api进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息。

优选地,所述形成信息基础库,其数据来源于用户自身浏览信息,由于用户浏览的信息过多,因此需要过滤一些信息,形成最终的基础库;所述文本特征进行分析包括文本分析和语义分析;文本分析,是通过分词来完成,分词主要的目的是完成语义分析;语义分析主要有以下几种方式:①基于字符串匹配的分词方法,此方法按照不同的扫描方式,逐个查找词库进行分词;②全切分方法,它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果;③由字构词的分词方法,可以理解为字的分类问题。

优选地,所述的文本及特征处理,所述的分词可以形成一定规模的信息基础,但是由于分词中有大量的分词是没有价值的,因此我们需要相应的技术手段或者是算法来得到我们需要的科技信息文本中的关键词。

优选地,所述的lda算法,即隐含狄利克雷分布,英文为latentdirichletallocation,简称lda,该算法的核心的思想是,可以用生成模型来看文档和主题这两件事;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。

所述的关联规则的发现,第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程;而常用的关联规则算法有fp-growth算法和apriori算法;这两种算法都能很好完成关联规则的发现;在关联规则算法中主要有两种概念要值得注意,一个是置信度,一个是支持度;只有一个关联规则的置信度和支持度同时满足最小阀值的时候才能认可科技信息之间的关联规则。

优选地,所述用户为android和ios用户。

所述的推送api进行信息推送,推送服务层组件中的ios推送服务统一将推送信息送入apns,由apns负责后续推送工作,android则通过后台守护进程,和推送服务建立联系后获取推送科技信息内容。

本发明具有以下有益效果:

本发明基于大数据的科技信息个性化定制推送系统,通过用户的历史的浏览记录,获取用户相应的科技信息主题,并根据对应的科技信息主题计算出用户对应的需求科技信息,最后利用推送api给对应的用户发送相应的科技信息,满足用户的个性化需求,提高用户体验。

附图说明

图1是本发明系统结构示意图。

具体实施方式

下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述。

基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、lda算法模块、关联规则算法模块和推送api进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,形成信息基础库,根据文本及特征进行分析,再进行文本及特征进行处理,利用lda算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送api进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息。

优选地,所述形成信息基础库,其数据来源于用户自身浏览信息,由于用户浏览的信息过多,因此需要过滤一些信息,形成最终的基础库;所述文本特征进行分析包括文本分析和语义分析;文本分析,是通过分词来完成,分词主要的目的来完成语义分析;语义分析主要有以下几种方式:①基于字符串匹配的分词方法,此方法按照不同的扫描方式,逐个查找词库进行分词;②全切分方法,它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果;③由字构词的分词方法,可以理解为字的分类问题。

优选地,所述的文本及特征处理,所述的分词可以形成一定规模的信息基础,但是由于分词中有大量分词是没有价值的,因此我们需要相应的技术手段或者是算法来得到我们需要的科技信息文本中的关键词。

而找到我们文本中的特征词,主要我们用到的算法是最常用的文本挖掘方法tf-idf;tf-idf(termfrequency–inversedocumentfrequency)是一种信息挖掘以及信息搜索领域的常用加权技术,tf-idf的主要思想是:如果某个词或短语在一篇文章中出现的频率tf高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;tf词频(termfrequency),idf反文档频率(inversedocumentfrequency);tf表示词条在文档d中出现的频率。

idf的表达式为:

tf-idf的表达式为:

优选地,所述的lda算法,其核心的思想是用生成模型来看文档和主题这两件事;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。

那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为,概率表达式为:

优选地,所述的关联规则的发现,第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程度;而常用的关联规则算法有fp-growth算法和apriori算法;这两种算法都能很好完成关联规则的发现;在关联规则算法中主要有两种概念要值得注意,一个是置信度,一个支持度;只有一个关联规则的置信度和支持度同时满足最小阀值的时候才能认可事件之间的关联规则。

优选地,所述用户为android和ios用户。

所述的推送api进行信息推送,推送服务层组件中的ios推送服务统一将推送信息送入apns,由apns负责后续推送工作,android则通过后台守护进程,和推送服务建立联系后获取推送内容。

最终,通过用户的历史的浏览记录,获取用户相应的科技信息主题,并根据对应的科技信息主题计算出用户对应的需求科技信息,最后利用推送api给对应的用户发送相应的科技信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1