一种基于标签的热点推荐方法及系统与流程

文档序号:11155128阅读:442来源:国知局
一种基于标签的热点推荐方法及系统与制造工艺

本发明涉及互联网技术领域,特别涉及一种基于标签的热点推荐方法及系统。



背景技术:

随着互联网技术的发展,交互变的越来越重要。在线的交互,已经成为日益重要的沟通模式。为了满足广大用户信息交互的需要,各种交互软件或者沟通软件应运而生。

微信是腾讯公司推出的一个为智能终端提供即时通讯服务的免费应用程序,微信支持跨通信运营商、跨操作系统平台通过网络快速发送免费(需消耗少量网络流量)语音短信、视频、图片和文字,同时,也可以使用通过共享流媒体内容的资料和基于位置的社交插件等服务插件。微信提供公众平台、朋友圈、消息推送等功能,用户可以通过“摇一摇”、“搜索号码”、“附近的人”、扫二维码方式添加好友和关注公众平台,同时微信将内容分享给好友以及将用户看到的精彩内容分享到微信朋友圈。

微信公众账号是开发者或商家在微信公众平台上申请的应用账号,该帐号与QQ账号互通,通过公众账号,商家可在微信平台上实现和特定群体的文字、图片、语音、视频的全方位沟通、互动。形成了一种主流的线上线下微信互动营销方式。正如线上线下微信互动营销的代表微部落,率先提出标准的行业通用模板和深定制的微信平台开发理念相结合。形成了线上线下微信互动营销的开放应用平台。

用户可以通过自身设备与公众账号进行互动。通过手机向公众账号发送消息,一般需要如下步骤:

首先用你的手机微信关注自己的微信公众账号。然后登陆自己的微信公众平台点击公众账号助手。在公众账号助手设置的第二步选择输入你要绑定的微信号码。然后点击发送微信验证码。你的手机微信会收到一条信息,然后将数字输入到验证码输入框完成验证就完成了绑定了。然后进入通讯录,搜索公众账号助手。然后找到公众账号助手这个联系人这个号码是腾讯官方的账号mphelper(腾讯公众平台的助手账号需要通过它进行消息群发)。关注该账号就可以通过向它发送群发消息了。点击进入聊天界面,然后向其发送消息,然后看你的公众账号的关注用户是否会接受到这条消息。

应用系统支撑平台(Application SupportingPlatform)是一个信息的集成环境,是将分散、异构的应用和信息资源进行聚合,通过统一的访问入口,实现结构化数据资源、非结构化文档和互联网资源、各种应用系统跨数据库、跨系统平台的无缝接入和集成,提供一个支持信息访问、传递、以及协作的集成化环境,实现个性化业务应用的高效开发、集成、部署与管理;并根据每个用户的特点、喜好和角色的不同,为特定用户提供量身定做的访问关键业务信息的安全通道和个性化应用界面,使师生员工可以浏览到相互关联的数据,进行相关的事务处理。

现有技术中,通常用户在进入微信公众号页面后,在提供的页面获取相关的应用内容。对于用户常用的应用程序或者用户感兴趣的应用程序,通常系统会有推荐和排序。但是,现有的结果推荐并不十分智能,推荐结果往往与用户的实际需求相差甚远。因而,亟需要一种新的应用推荐方案,以向用户提供更为准确的热点信息推荐,提高用户体验度。



技术实现要素:

本发明提供一种基于标签的热点推荐方法及系统,用以解决现有技术中用户感兴趣的应用推荐内容不准确的问题。

本发明提供一种基于标签的热点推荐方法,包括:

为每个应用内容设置若干标签;

记录用户访问所述应用内容的标签;

统计用户在设定时间内访问应用内容标签的标签热点,并将标签热点排序;

将符合标签热点的应用内容推送给用户浏览。

所述方法还包括:

所述为每个应用内容设置的若干标签能够反映所述应用内容的属性;

根据所述属性将所述应用内容分类。

所述方法还包括:

根据所述用户访问所述应用内容的标签,采用聚类分析,将所述应用内容分为若干小组。

所述方法还包括:

每个所述小组对应若干应用内容;同一所述应用内容能够属于若干个所述小组。

所述方法还包括:

将所述推荐的应用内容以图文列表形式展示给所述用户;

所述用户通过所述图文列表的链接浏览具体展示信息。

所述方法还包括:

根据所述用户访问的应用内容的标签出现的频度设定所述标签热点;

根据所述标签热点获取具备对应标签的应用内容,推荐给用户。

一种基于标签的热点推荐系统,包括:

标签设定单元,用于为每个应用内容设置若干标签;

标签记录单元,用于记录用户访问所述应用内容的标签;

访问统计单元,用于统计用户在设定时间内访问应用内容标签的标签热点,并将标签热点排序;

应用推荐单元,用于将符合标签热点的应用内容推送给用户浏览。

所述应用推荐单元,还包括:

分类子单元,用于根据所述推荐应用内容的标签,将所述应用内容分类;

推荐子单元,用于根据所述分类,将所述应用内容推荐给相应的用户。

所述访问统计单元,还包括:

聚类子单元,用于根据所述标签,采用聚类分析获取应用内容的标签热点;

分组子单元,用于根据所述应用内容的标签热点,将所述应用内容分为若干小组。

所述应用推荐单元,还包括:

图文展示子单元,用于将所述应用内容以图文列表形式展示给所述用户;

链接子单元,用于设置所述图文列表的链接,所述用户通过所述图文列表的链接浏览具体展示信息。

本发明实施例中,通过为每个应用内容设置若干标签;记录用户访问所述应用内容的标签;统计用户在设定时间内访问应用内容标签的标签热点,并将标签热点排序;将符合标签热点的应用内容推送给用户浏览。本发明实施例的方案,能够根据用户对应用内容的浏览习惯,为用户推荐相关的热点应用内容,准确获取用户的浏览需求从而准确的推荐应用内容推荐信息,极大的提高了用户体验度。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例1提供的一种基于标签的热点推荐方法原理流程图;

图2为本发明实施例2提供的一种基于标签的热点推荐系统结构示意图;

图3为本发明实施例2提供的应用推荐单元24结构示意图;

图4为本发明实施例2提供的访问统计单元23结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

如图1所示,为本发明实施例1提供的一种基于标签的热点推荐方法原理流程图,其中,

步骤11,为每个应用内容设置若干标签。

应用内容,即为应用程序的具体内容,可以包括应用程序的显示内容或者应用程序本身。为应用内容设置标签,实际上就是为应用内容给出与其属性相关的几个关键词,这些关键词可以从某一方面描述该应用内容的关键属性,这些关键词即为标签。这些标签可以从一方面反映该应用内容的属性。

例如,如果应用是一款足球体验类的游戏,则标签可以设置为:体育、足球、游戏等,这些标签可以反映该应用的一部分属性,通过这些标签可以了解到该应用的基本属性。

为每个应用内容设置的若干标签能够反映所述应用内容的属性;

根据所述属性将所述应用内容分类。

实际上,在设置了标签之后,由于不同的应用内容可能存在相同的标签,因而,可以给应用内容分类,以方便后续的操作。分类的依据,就是标签。具有相同标签的应用内容可以分为一类,一个应用内容可以属于多个分类。

步骤12,记录用户访问所述应用内容的标签。

用户登录系统,目的在于获取相关的应用内容。例如,应用支撑平台上展示有多个应用内容,用户登录平台后,可以随意浏览获取应用内容。此时,系统需要记录用户访问应用内容的标签。也就是记录用户的行为,然后根据用户的行为来分析可能的兴趣点。

本实施例中,采用的方法是记录用户访问应用内容的标签。当然,这里不是针对一个用户进行的,可以是针对大量用户的记录和统计。

如果基于用户行为的日志数据进行文本提取的话,就要用到文本特征提取。文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。

文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个 处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。

目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。

特征选取的方式有4种:(I)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。

实际上,在提取用户行为特征的过程中,需要对用户信息以及行为信息全面分析,并设定合理的提取特征数量和具体内容,以更全面的反应用户实际的行为特征,从而为后续的分类处理奠定基础。

步骤13,统计用户在设定时间内访问应用内容标签的标签热点,并将标签热点排序。

实际上,用户在设定时间内对应用内容的访问行为,就是统计用户的行为习惯。这里的设定时间是为了统计需要,并不是一定需要设定时间长度。本实施例中,通过对用户访问应用内容对应的标签的记录和统计,可以获取实际用户访问应用内容对应标签出现的频度,频度越高,说明该标签热度越好,因而可以认为该标签的热度较高,该标签对应的应用内容可以作为热点。这一类的标签,即为标签热点。

通常来说,根据所述用户访问所述应用内容的标签,采用聚类分析,将所述应用内容分为若干小组。每个所述小组对应若干应用内容;同一所述应用内容能够属于若干个所述小组。

根据所述用户访问的应用内容的标签出现的频度设定所述标签热点;

根据所述标签热点获取具备对应标签的应用内容,推荐给用户。

聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等。

聚类分析计算方法主要有如下几种:

1、划分方法(partitioning methods)

给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注 意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;

大部分划分方法是基于距离的。给定要构建的分区数k,划分方法首先创建一个初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类,而不是搜索整个数据空间。当存在很多属性并且数据稀疏时,这是有用的。为了达到全局最优,基于划分的聚类可能需要穷举所有可能的划分,计算量极大。实际上,大多数应用都采用了流行的启发式方法,如k-均值和k-中心算法,渐近的提高聚类质量,逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的方法。

2、层次方法(hierarchical methods)

这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。

层次聚类方法可以是基于距离的或基于密度或连通性的。层次聚类方法的一些扩展也考虑了子空间聚类。层次方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤销。这个严格规定是有用的,因为不用担心不同选择的组合数目,它将产生较小的计算开销。然而这种技术不能更正错误的决定。 已经提出了一些提高层次聚类质量的方法。

3、基于密度的方法(density-based methods)

基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。

4、基于网格的方法(grid-based methods)

这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。

很多空间数据挖掘问题,使用网格通常都是一种有效的方法。因此,基于网格的方法可以和其他聚类方法集成。

5、基于模型的方法(model-based methods)

基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。

当然聚类方法还有:传递闭包法,布尔矩阵法,直接聚类法,相关性分析聚类,基于统计的聚类方法等。

现有的聚类已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的情况。因为传统聚类方法在高维数据集中进行聚类时,主要遇到两个问题。一个是高维数据集中存在大量无关的属性使得在所有维中存 在簇的可能性几乎为零;另一个是高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。

高维聚类分析已成为聚类分析的一个重要研究方向。同时高维数据聚类也是聚类技术的难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。但是,受“维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。高维数据聚类分析是聚类分析中一个非常活跃的领域,同时它也是一个具有挑战性的工作。高维数据聚类分析在市场分析、信息安全、金融、娱乐、反恐等方面都有很广泛的应用。

本实施例中,对于聚类方法没有具体的限定,只要可以将标签根据必要的条件分类,并根据分类的结果对应用内容进行分组即可。

步骤14,将符合标签热点的应用内容推送给用户浏览。

完成标签的分组后,就需要将标签对应的应用内容推荐给用户浏览。显然,不是所有标签对应的应用均推荐给用户,而是选择标签热点对应的应用内容推荐给用户。这里,标签热点的排序可以通过标签出现的频度来进行,当然也可以增加其他的排序权重。

本实施例中,将所述推荐的应用内容以图文列表形式展示给所述用户;

所述用户通过所述图文列表的链接浏览具体展示信息。

通常,所述用户通过关注相应的微信公众号,并在所述微信公众号提供的页面浏览相应应用内容;所述微信公众号获取用户的浏览习惯,并在微信公众号页面为用户推荐所述应用内容。

实际上,本实施例的方案并不仅限于对用户浏览应用内容的分析,推而广之,本实施例可以理解为推荐引擎,主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。挖掘用户的喜好和需求,主动向用户推荐其感兴趣 或者需要的对象。不是被动查找,而是主动推送;不是独立媒体,而是媒体网络;不是检索机制,而是主动学习。

本实施例利用基于内容、基于用户行为、基于社交关系网络等多种方法,为用户推荐其喜欢的商品或内容。

基于内容的推荐是分析用户正在浏览的内容的"基因",选择与当前内容有相似"基因"的对象推荐给用户。同时也分析用户过去浏览过的内容的"基因",从而获取其偏好,然后将与用户偏好的对象推荐给用户。例如,用户在浏览一款包的时候,为其推荐其他外形相似的包。

基于用户行为的推荐则是利用群体智慧算法,分析用户的群体行为,综合分析用户与用户之间的相似度、用户对小众商品的个性化需求,从而同时提高推荐的精准性、多样性与新颖性。

基于社交关系网络的推荐是通过分析用户所在的社交关系网络,找到其最能够影响到的用户,或者最能够影响到该用户的用户,再综合每位用户的个性化偏好进行推荐。

本实施例中,通过为每个应用内容设置若干标签;记录用户访问所述应用内容的标签;统计用户在设定时间内访问应用内容标签的标签热点,并将标签热点排序;将符合标签热点的应用内容推送给用户浏览。本发明实施例的方案,能够根据用户对应用内容的浏览习惯,为用户推荐相关的热点应用内容,准确获取用户的浏览需求从而准确的推荐应用内容推荐信息,极大的提高了用户体验度。

如图2所示,为本发明实施例2提供的一种基于标签的热点推荐系统结构示意图,其中,

标签设定单元21,用于为每个应用内容设置若干标签;

标签记录单元22,用于记录用户访问所述应用内容的标签;

访问统计单元23,用于统计用户在设定时间内访问应用内容标签的标签热 点,并将标签热点排序;

应用推荐单元24,用于将符合标签热点的应用内容推送给用户浏览。

进一步的,如图3所示,所述应用推荐单元24,还包括:

分类子单元241,用于根据所述推荐应用内容的标签,将所述应用内容分类;

推荐子单元242,用于根据所述分类,将所述应用内容推荐给相应的用户。

图文展示子单元243,用于将所述应用内容以图文列表形式展示给所述用户;

链接子单元244,用于设置所述图文列表的链接,所述用户通过所述图文列表的链接浏览具体展示信息。

进一步的,如图4所示,所述访问统计单元23,还包括:

聚类子单元231,用于根据所述标签,采用聚类分析获取应用内容的标签热点;

分组子单元232,用于根据所述应用内容的标签热点,将所述应用内容分为若干小组。

综上所述,本发明实施例中,通过为每个应用内容设置若干标签;记录用户访问所述应用内容的标签;统计用户在设定时间内访问应用内容标签的标签热点,并将标签热点排序;将符合标签热点的应用内容推送给用户浏览。本发明实施例的方案,能够根据用户对应用内容的浏览习惯,为用户推荐相关的热点应用内容,准确获取用户的浏览需求从而准确的推荐应用内容推荐信息,极大的提高了用户体验度。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和 光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1