一种为用户生成标签的方法和装置的制作方法

文档序号:6363458阅读:139来源:国知局
专利名称:一种为用户生成标签的方法和装置的制作方法
技术领域
本发明涉及网络技术,特别涉及一种为用户生成标签的方法和装置。
背景技术
现有技术中,可根据从文章中提取出的关键词来为文章生成标签(Tag),从而使得阅读者能够方便快捷地了解到文章的内容等。相应地,也希望能够为用户生成标签,以便方便快捷地获取到用户的个性化信息,从而更好地为其提供服务,如根据用户的标签为其推送可能感兴趣的信息等。但现有技术中还没有一种能够为用户生成标签的方式。

发明内容
有鉴于此,本发明提供一种为用户生成标签的方法和装置,从而能够方便快捷地获取到用户的个性化信息。为达到上述目的,本发明的技术方案是这样实现的:一种为用户生成标签的方法,包括:针对任一用户X,实时获取其登录网络后的操作行为信息,并在当每获取到一条操作行为信息后,则进行一次以下处理:提取该操作行为信息中的关键词,并进行保存;从所保存的所有关键词中选出符合要求的关键词,作为用户X的标签。一种为用户生成标签的装置,包括:获取模块,用于针对任一用户X,实时获取其登录网络后的操作行为信息,并将获取到的各条操作行为信息发送给处理模块;所述处理模块,用于在每接收到一条操作行为信息后,则进行一次以下处理:提取该操作行为信息中的关键词,并进行保存;从所保存的所有关键词中选出符合要求的关键词,作为用户X的标签。可见,采用本发明所述方案,通过为用户生成标签,能够方便快捷地获取到用户的个性化信息,从而能够更好地为用户提供服务;而且,本发明所述方案实现起来简单方便,便于普及和推广。


图1为本发明为用户生成标签的方法实施例的流程图。图2为用户X订阅某一信息的示意图。图3为用户X分享某一信息的示意图。图4为本发明为用户生成标签的装置实施例的组成结构示意图。
具体实施方式
针对现有技术中存在的问题,本发明中提出一种为用户生成标签的方案。为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。图1为本发明为用户生成标签的方法实施例的流程图。如图1所示,包括以下步骤:步骤11:针对任一用户X,实时获取其登录网络后的操作行为信息。为表述方便,用用户X来代表任一用户,针对任一用户,均可按照本发明所述方式进行处理。用户X登录网络后,会进行各种操作行为,如点击订阅了某一信息、分享了某一信息,或关注了某一信息等,在实际应用中,可实时获取用户X的操作行为信息。图2为用户X订阅某一信息的示意图;图3为用户X分享某一信息的示意图。如图2 3所示,用户X可通过点击“订阅本栏目”和“分享给好友”按钮来订阅和分享相应的信息。步骤12:当每获取到一条操作行为信息后,则进行一次以下处理:提取该操作行为信息中的关键词,并进行保存;从所保存的所有关键词中选出符合要求的关键词,作为用户X的标签。本发明中,每获取到一条操作行为信息,则生成一次标签,并利用新生成的标签来对之前所生成的标签进行更新。具体来说,本步骤中,针对获取到的每条操作行为信息,可分别进行如下处理:I)提取该操作行为信息中的关键词,并进行保存。具体的可米用词频(TF,Term Frequency) *逆向文件词频(IDF, Inverse DocumentFrequency)的关键词提取方式。 其中,TF是指在一份给定的文件中,某一个给定的词语在该文件中出现的次数,并可根据文件长度进行归一化;IDF用于衡量一个词语的普遍重要性,某一给定词语的IDF可由总文件数除以包含该词语的文件数的商再取对数得到;具体到本实施例中,一条信息即可看成是一个文件,提取TF*IDF分值较高的词语作为关键词。为此,需要保存获取到的每条操作行为信息,同样,需要保存提取出的每条操作行为信息的关键词。在实际应用中,也可以采用其它关键词提取方式,比如,基于N元文法(N-Gram)信息统计的关键词提取方式等。2)从所保存的所有关键词中选出符合要求的关键词,作为用户X的标签。具体来说,可分别确定所保存的各关键词的权重,并按照权重由大到小的顺序进行排序,将排序后处于前N位的关键词作为用户X的标签,N为大于I的正整数。如前所述,针对所保存的每条操作行为信息,均会对应保存其关键词,那么,可针对所保存的每个关键词,分别确定其权重,并按照权重由大到小的顺序进行排序,然后将排序后处于前N位的关键词作为用户X的标签。N的具体取值可根据实际需要而定,比如可为3。如何确定各关键词的权重同样可根据实际需要而定,比如:对应的操作行为信息的获取时间与当前时间之间间隔的时长越长,对应的权重越小;举例说明:假设对应的操作行为信息的获取时间与当前时间之间间隔的时长在5天以内,则其权重为10,如果在5 10天之内,则为9,依次类推;在此基础上,还可进一步结合其它因素,比如一个关键词对应两个操作行为信息(从这两个操作行为信息中均提取出了该关键词,在排序时,会将相同的关键词作为一个关键词进行处理),其中一个操作行为信息对应的权重为10,另一个为9,那么该关键词最终的权重即可确定为19 ;当然,还可结合其它因素来确定各关键词的权重,不再一一赘述。或者,也可以采用其它标签生成方式,比如:在分别确定出所保存的各关键词的权重之后,将权重大于预定阈值的关键词作为用户X的标签,所述阈值的具体取值可根据实际需要而定。用户X的标签中除了包括所选出的关键词外,还可进一步包括以下信息之一或任意组合:所选出的每个关键词分别对应的分类信息、生成标签的时间(一定程度上可以反映用户X的活跃程度等)、所选出的每个关键词分别对应的归一化权重值。其中,可采用标准分归一化方式得到各关键词的归一化权重值,具体实现为现有技术,可参照高考标准分的实现。另外,可预先设定一个分类训练集合,其中包括各种分类信息,如电子商务数码产品类、冬季棉衣类、春秋季单衣类等。相应地,针对所选出的每个关键词Y,可分别进行以下处理:分别计算关键词Y与预先设定的分类训练集合中的每个分类信息的相似度,将取值最大的计算结果对应的分类信息作为关键词Y对应的分类信息。可通过词形相似度确定方式、基于本体的相似度确定方式,或基于语料库的相似度确定方式等来确定每个关键词与每个分类信息之间的相似度,具体实现同样为现有技术。举例说明:假设一关键词为“诺基亚”,经过计算发现其与“电子商务数码产品类”这一分类信息的相似度最大,那么则将“电子商务数码产品类”这一分类信息作为“诺基亚”这一关键词对应的分类信息。得到用户X的标签之后,可提供针对用户X的标签的实时查询服务,并可根据用户X的标签来为用户X提供相应的服务,如为用户X推送可能感兴趣的信息等。举例说明:假设用户X的标签中包括“诺基亚”这一关键词,那么当其登录一购物网站后,可为其推送与“诺基亚”相关的产品信息,另外,由于“诺基亚”对应的分类信息为电子商务数码产品类,因此,可同时向其推送其它电子商务数码产品的相关信息。另外,还可预先建立不同词语之间的关联关系,这样,当用户X的标签中包含某一关键词时,可在向用户X推送与该关键词相关的信息的同时,将与该关键词相关联的词语的相关信息也推送给用户X。由于用户X的标签是实时更新的,因此能够及时把握用户X的需求,从而为其推送当前最感兴趣的信息。在实际应用中,可能会出现以下情况:用户X在之前的某一段时间段内经常关注某一关键词,如诺基亚的相关信息,那么,就会获取到多条相关的操作行为信息,这样,在对关键词进行排序时,虽然“诺基亚”这一关键词在最近获取到的操作行为信息中没有出现,但在之前的操作行为信息中经常出现,这样,该关键词最终的权重也可能会较大,从而排序后处于前N位,相应地,后续就会为用户X推送与诺基亚相关的信息,但实际上用户X已经并不需要这类信息了,从而导致推送结果不准确。为克服上述问题,可在每经过预定时长后,则将所保存的获取时间与当前时间之间间隔的时长大于预定时长的操作行为信息删除,并针对剩余的操作行为信息重新进行关键词提取、保存和选择,将选出的符合要求的关键词作为用户X的标签。所述预定时长的具体取值可根据实际需要而定,比如可为I个月。当为用户X推送了与其标签相关的信息后,可根据用户X对所推送的信息的感兴趣程度,更新用户X的标签。如,根据标签中的一个关键词为用户X推送了一个信息之后,用户X并没有点击阅读该信息,那么则可将该信息对应的关键词的归一化权重值减小,甚至直接删除该关键词,反之,如果用户X点击阅读了该信息,则可将该信息对应的关键词的归一化权重值增大,并优先根据归一化权重值较大的关键词进行信息推送。至此,即完成了关于本发明方法实施例的介绍。基于上述介绍,图4为本发明为用户生成标签的装置实施例的组成结构示意图。如图4所示,包括:获取模块,用于针对任一用户X,实时获取其登录网络后的操作行为信息,并将获取到的各条操作行为信息发送给处理模块;处理模块,用于在每接收到一条操作行为信息后,则进行一次以下处理:提取该操作行为信息中的关键词,并进行保存;从所保存的所有关键词中选出符合要求的关键词,作为用户X的标签。其中,处理模块中可具体包括:第一处理单元,用于提取出接收到的操作行为信息中的关键词,并进行保存;第二处理单元,用于分别确定所保存的各关键词的权重,并按照权重由大到小的顺序进行排序,将排序后处于前N位的关键词作为用户X的标签,N为大于I的正整数;或者,分别确定所保存的各关键词的权重,将权重大于预定阈值的关键词作为用户X的标签。第二处理单元可进一步用于,针对所选出的每个关键词Y,分别进行以下处理:分别计算关键词Y与预先设定的分类训练集合中的每个分类信息的相似度,将取值最大的计算结果对应的分类信息作为关键词Y对应的分类信息;将所选出的每个关键词以及分别对应的分类信息作为用户X的标签。上述标签中可进一步包括以下信息之一或全部:生成标签的时间、所选出的每个关键词分别对应的归一化权重值。另外,第一处理单元可进一步用于,保存接收到的每条操作行为信息;相应地,第二处理单元可进一步用于,在每经过预定时长后,则将所保存的获取时间与当前时间之间间隔的时长大于预定时长的操作行为信息删除,并针对剩余的操作行为信息重新进行关键词提取、保存和选择,将选出的符合要求的关键词作为用户X的标签。第二处理单元还可进一步用于,为用户X推送与其标签相关的信息,并根据用户X对所推送的信息的感兴趣程度,更新用户X的标签。图4所示装置实施例的具体工作流程请参照图1所示方法实施例中的相应说明,此处不再赘述。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种为用户生成标签的方法,其特征在于,包括: 针对任一用户X,实时获取其登录网络后的操作行为信息,并在当每获取到一条操作行为信息后,则进行一次以下处理: 提取该操作行为信息中的关键词,并进行保存; 从所保存的所有关键词中选出符合要求的关键词,作为用户X的标签。
2.根据权利要求1所述的方法,其特征在于,所述从所保存的所有关键词中选出符合要求的关键词包括: 分别确定所保存的各关键词的权重,并按照权重由大到小的顺序进行排序,将排序后处于前N位的关键词作为用户X的标签,N为大于I的正整数; 或者,分别确定所保存的各关键词的权重,将权重大于预定阈值的关键词作为用户X的标签。
3.根据权利要求1所述的方法,其特征在于,所述选出符合要求的关键词之后,进一步包括: 针对所选出的每个关键词Y,分别进行以下处理: 分别计算关键词Y与预先设定的分类训练集合中的每个分类信息的相似度,将取值最大的计算结果对应的分类信息作为关键词Y对应的分类信息; 将所选出的每个关键词以及分别对应的分类信息作为用户X的标签。
4.根据权利要求2所述的方法,其特征在于,所述标签中进一步包括以下信息之一或全部:生成标签的时间、所选出的每个关键词分别对应的归一化权重值。
5.根据权利要求1所述的方法,其特征在于,该方法进一步包括: 当每获取到一条操作行为信息后,则保存该操作行为信息; 并且,在每经过预定时长后,则将所保存的获取时间与当前时间之间间隔的时长大于预定时长的操作行为信息删除,并针对剩余的操作行为信息重新进行关键词提取、保存和选择,将选出的符合要求的关键词作为用户X的标签。
6.根据权利要求1、3或5所述的方法,其特征在于,该方法进一步包括:为用户X推送与其标签相关的信息,并根据用户X对所推送的信息的感兴趣程度,更新用户X的标签。
7.一种为用户生成 标签的装置,其特征在于,包括: 获取模块,用于针对任一用户X,实时获取其登录网络后的操作行为信息,并将获取到的各条操作行为信息发送给处理模块; 所述处理模块,用于在每接收到一条操作行为信息后,则进行一次以下处理:提取该操作行为信息中的关键词,并进行保存;从所保存的所有关键词中选出符合要求的关键词,作为用户X的标签。
8.根据权利要求7所述的装置,其特征在于,所述处理模块中包括: 第一处理单元,用于提取出接收到的操作行为信息中的关键词,并进行保存; 第二处理单元,用于分别确定所保存的各关键词的权重,并按照权重由大到小的顺序进行排序,将排序后处于前N位的关键词作为用户X的标签,N为大于I的正整数;或者,分别确定所保存的各关键词的权重,将权重大于预定阈值的关键词作为用户X的标签。
9.根据权利要求8所述的装置,其特征在于,所述第二处理单元进一步用于,针对所选出的每个关键词Y,分别进行以下处理:分别计算关键词Y与预先设定的分类训练集合中的每个分类信息的相似度,将取值最大的计算结果对应的分类信息作为关键词Y对应的分类信息;将所选出的每个关键词以及分别对应的分类信息作为用户X的标签。
10.根据权利要求8所述的装置,其特征在于,所述标签中进一步包括以下信息之一或全部:生成标签的时间、所选出的每个关键词分别对应的归一化权重值。
11.根据权利要求8所述的装置,其特征在于, 所述第一处理单元进一步用于,保存接收到的每条操作行为信息; 所述第二处理单元进一步用于,在每经过预定时长后,则将所保存的获取时间与当前时间之间间隔的时长大于预定时长的操作行为信息删除,并针对剩余的操作行为信息重新进行关键词提取、保存和选择,将选出的符合要求的关键词作为用户X的标签。
12.根据权利要求8所述的装置,其特征在于,所述第二处理单元进一步用于,为用户X推送与其标签相关的 信息,并根据用户X对所推送的信息的感兴趣程度,更新用户X的标签。
全文摘要
本发明公开了一种为用户生成标签的方法和装置针对任一用户X,实时获取其登录网络后的操作行为信息,并在当每获取到一条操作行为信息后,则进行一次以下处理提取该操作行为信息中的关键词,并进行保存;从所保存的所有关键词中选出符合要求的关键词,作为用户X的标签。应用本发明所述方案,能够方便快捷地获取到用户的个性化信息。
文档编号G06F17/30GK103218355SQ20121001574
公开日2013年7月24日 申请日期2012年1月18日 优先权日2012年1月18日
发明者席晓鸣 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1