根据相关网页和当前行为确定用户当前兴趣的方法和系统的制作方法

文档序号:6402855阅读:169来源:国知局
专利名称:根据相关网页和当前行为确定用户当前兴趣的方法和系统的制作方法
技术领域
本发明涉及一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法和系统,用于针对用户兴趣偏好推送数据业务领域。
背景技术
数据业务推送在2011年开始了全面的绽放,行业内涌现出众多机构,数据业务推送也从第一阶段的网站组合(媒体选择很重要,根据媒体的受众特点进行组合和选择),到第二阶段上下文定向(内容优化很重要,根据内容吸引受众的类型进行组合),再到现在第三个阶段以人群定向技术为核心的人群定向推送方式转变,更着重于对人群的识别。此外,基于位置的数据业务推送在另外一个维度上发展和成熟。本发明的目的在于根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣,实现数据业务的定向推送,提高数据业务推送的可信度,提高用户喜好度。

发明内容
本发明提供一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,包括步骤:对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣;对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣;根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,得到用户当前兴趣。其中,获得用户当前行为特征的步骤包括:统计短信行为;统计通信行为;统计上网行为;通过PCA方法对用户行为特征进行删减;确定用户当前行为特征。另外,获取用 户当前内容兴趣的步骤包括:获取相应关键词及其索引;计算用户对关键词的关注度;根据关注度阈值,获取用户的兴趣偏好。优选的,获取相应关键词的步骤包括:①对全文进行分词处理,即中文词间象英文一样用空格分开;②过滤掉停用词;③提取文本标题,将标题词集存入向量Vh ;④提取文本第一段、第二段、末段,将内容词集存入向量V。;⑤如果Ivh n V」〈p,则判断文本标题为“抽象型”标题,其中,P为一个给定阈值,根据实验确定为3 ;⑥,如果x e {疑问词库},文本标题也判断为“抽象型”标题;⑦如果标题无(5)或(6)中特征,则判断其为“具体型”标题;对于“抽象型”的标题,采用TFIDF方法在全文中查找权值高于一定阈值的词作为候选词,然后通过候选词所在的位置判断该词是否为关键字,所在句子的权值越高,成为关键字的可能性越大,对与“具体型”标题,将标题分词后,得到的名词和动词就为该文本的关键字,计算句子权重时,赋予标题词列表中的词更大的权重比例因子,通过以上方法,能够获得每个句子的权重,能够计算出每个句子的权值,而且更新了关键词列表的权重,每个文章对应的关键词链表按权重排序即为该文的关键词。此外,计算用户对关键词的关注度的步骤包括:将相同类属A下所有主题向量中的关键词加入到此类属下的关键词列表K中;将相同类属下关键词添加过程中出现的重复关键词归一,重复关键词触发了候选相似主题的聚集,并将该词所属的所有网页归并到一起组成一个候选相似主题组;对于每个重复关键词所在的候选相似主题组,比较该词在这组主题向量中的原始权值,找出权值最大者所在的主题向量作为这一组主题向量的核心主题代表(并将之加入到K中);计算核心主题与所在候选相似主题组中每个主题向量的相似度,设定一个阈值,所有超出域值者加入到主题组Ki中形成相似主题组Ki组,也即形成了一个话题Ki ;以前面所找出的核心主题作为话题Ki的代表,将话题Ki中所有主题向量所在主题的频度叠加将为调整后的核心主题热度,将调整后的核心主题加入到候选热点主题列表中;根据前面所述的热度计量方法计算出K中每一个主题的关注度。另外,得到用户当前兴趣的步骤包括:针对同一个训练集,训练不同的分类器,SP决策树弱分类器,然后把这些决策树弱分类器集合起来,构成一个更强的最终分类器,形成用户兴趣的最终分类,采用AdaBoost算法对用户行为分类器和用户内容兴趣分类器的结果进行迭代调整,获得不同决策树弱分类器的权重,进而获得用户当前兴趣。本发明还提供一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的系统,包括行为信息分析子模块、内容信息分析子模块和集成学习子模块,行为信息分析子模块对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣;内容信息分析子模块对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣;集成学习子模块根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,得到用户当前兴趣。


图1是一种移动终端通过无线网关浏览页面的系统结构图;图2是一种在移动服务器上通过无线网关实时获取移动终端用户兴趣偏好的方法;图3是本发明时间窗口调节和网页数据分类统计模块的操作流程图;图4是本发明网页分类/内容信息处理子模块的操作流程图;图5a是本发明构建网页文本分类器的方法;图5b是本发明网页文本分类器的使用方法;图6是本发明用户内容兴趣提取子模块操作流程图;图7是本发明的用户兴趣偏好的示例性树状结构;图8为数据业务推送模块操作流程
图9是本发明位置分析模块操作流程图;图10是本发明位置信息关联流程图。
具体实施例方式以下参照附图1 10进一步说明本发明的根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法和系统以及其适用的数据推送业务实施例。图1是移动终端通过如WAP网关的无线网关浏览页面的系统结构图。本发明提供一种基于无线网络的数据业务推送系统,其通过无线网关获得用户使用如手机的移动终端的日志信息后,对当前一段时间范围内用户使用手机行为进行过滤处理,获得用户行为特征,使用户对内容的兴趣和行为习惯结合形成用户的兴趣偏好,并与移动终端的位置信息实时关联起来,向移动终端进行信息推送,所述系统由图1中虚线框所标记的部分示出,包括时间窗口调节和网页数据分类统计模块、用户兴趣提取模块、数据业务推送模块和位置分析模块,其中:时间窗口调节和网页数据分类统计模块从无线网关接收浏览页面的URL,对当前一段时间范围内用户浏览网页进行过滤处理,获得用户感兴趣的相关网页和用户行为特征;用户兴趣提取模块包括行为信息分析子模块、内容信息分析子模块和集成学习子模块,行为信息分析子模块根据用户行为特征,对时间序列进行统计和筛选、降维,形成用户行为兴趣,输出为用户当前行为兴趣,内容信息分析子模块根据用户感兴趣的相关网页的URL地址,对网页内容进行文本处理,提取网页主题,并根据所述的网页主题和网页其他属性信息,形成用户内容兴趣,输出为用户当前 内容兴趣,集成学习子模块根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,输出为用户当前兴趣;位置分析模块通过GMLC网关获得用户当前的浏览位置信息;数据业务推送模块根据用户兴趣提取模块输出的当前用户兴趣,利用规则关联策略,判断是否可以进行本地化信息推送服务;对不符合本地化服务特点的当前用户兴趣,服务推送模块将其与对应的预推送信息进行匹配,根据匹配结果选取匹配度最高的推送信息;对符合本地化服务特点的当前用户兴趣,根据来自位置分析模块的用户当前的浏览位置信息,获得位置关联信息,再利用匹配策略,将用户当前兴趣与位置关联信息进行匹配,并根据匹配结果选择匹配度最高的位置关联信息作为推送信息,向移动终端进行推送。其中所述无线网关包括WAP GW、增强GGSN、独立综合网关等设备,在后面的说明中,以常见的WAP GW为例介绍整个发明的内容。其中浏览页面由网络中的sp/cp服务器提供,移动终端通过无线网关访问这些页面。本发明提供一种基于无线网络的数据业务推送方法,如图2所示,其通过无线网关获得用户使用如手机的移动终端的日志信息后,对当前一段时间范围内用户使用手机行为进行过滤处理,获得用户行为特征,使用户对内容的兴趣和行为习惯结合形成用户的兴趣偏好,并与移动终端的位置信息实时关联起来,向移动终端进行信息推送,包括:从无线网关接收浏览页面的URL,对当前一段时间范围内用户浏览网页进行过滤处理,获得用户感兴趣的相关网页和用户行为特征;根据用户行为特征,对时间序列进行统计和筛选、降维,形成用户行为兴趣,作为用户当前行为兴趣,根据用户感兴趣的相关网页的URL地址,对网页内容进行文本处理,提取网页主题,并根据所述的网页主题和网页其他属性信息,形成用户内容兴趣,作为用户当前内容兴趣,根据上述用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,作为用户当前兴趣;通过GMLC网关获得用户当前的浏览位置信息;根据当前用户兴趣,利用规则关联策略,判断是否可以进行本地化信息推送服务;对不符合本地化服务特点的当前用户兴趣,将其与对应的预推送信息进行匹配,根据匹配结果选取匹配度最高的推送信息;对符合本地化服务特点的当前用户兴趣,根据用户当前的浏览位置信息,获得位置关联信息,再利用匹配策略,将用户当前兴趣与位置关联信息进行匹配,并根据匹配结果选择匹配度最高的位置关联信息作为推送信息,向移动终端进行推送。时间窗口调节和网页数据分类统计模块包括时间窗口调节子模块和网页数据分类统计子模块,网页数据分类统计子模块包括行为信息统计子模块和网页分类子模块。图3是时间窗口调节和网页数据分类统计模块的操作流程图。时间窗口调节子模块执行时间窗口调节方法,根据用户的上网速度和习惯,确定和调节时间窗口,反映用户当前时间段的集中兴趣。为了获得用户感兴趣的相关网页和用户行为特征,所述系统需要对当前一段时间范围内用户浏览网页进行过滤处理,现有技术中需要统计处理的时间范围区间通常是固定值,如对用户在一个较长时间段内的兴趣偏好做处理,如一天、一月甚至一年,这样的处理虽然在分析用户兴趣方面比较全面和准确,但是分析的网页内容庞大,实时性较差,或以单个上网行为或者单个浏览网页为触发条件,上一次网或浏览一个网页做一次推荐,这样虽然是实时推荐,但是系统会·返回太多的推荐内容,增加了无线通信网络的负担,也降低了用户体验的趣味。基于现有技术的上述问题,本发明采用了一中时间窗口的调节方法,能够兼顾用户长期兴趣偏好和短时兴趣偏好,在两者间进行调节和控制,通过调节时间窗口来控制获取网页的数量,调节时间窗口的大小达到实时的效果,更为及时和准确。所述时间窗口的调节方法可由时间窗口调节子模块执行。该方法的目的是以用户当前上网时间为开始,以一个符合用户上网速度和习惯的时间范围为基准,分析在该时间范围内用户通过上网反映出来的兴趣类别。所述时间窗口的调节方法根据用户不同的上网速度和习惯,设定时间窗口的初始设定时间值,之后时间窗口的设定时间随着用户的上网习惯而进行自动调节,步骤为:统计用户历史上网密度= 其中,T为一段历史时间,M为用户在T时间段内上网行为数量;
a初始设定时间值为i = 其中,α为一经验值,用来调节时间窗口大小,设定的时间范围保证用户有一定的上网量和上网时间,设置的时间范围较短,使得用户兴趣比较集中,且用户的位移范围不大;一定时间周期后,再次计算用户在一个新的时间段内的上网密设定时间值为:
权利要求
1.一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:包括步骤: 对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣; 对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣; 根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,得到用户当前兴趣。
2.如权利要求1所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:获得用户当前行为特征的步骤包括:统计短信行为;统计通信行为;统计上网行为;通过PCA方法对用户行为特征进行删减;确定用户当前行为特征。
3.如权利要求1或2所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:获取用户当前内容兴趣的步骤包括: 获取相应关键词及其索引; 计算用户对关键词 的关注度; 根据关注度阈值,获取用户的兴趣偏好。
4.如权利要求3所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:获取相应关键词的步骤包括: ①对全文进行分词处理,即中文词间象英文一样用空格分开; ②过滤掉停用词; ③提取文本标题,将标题词集存入向量Vh; ④提取文本第一段、第二段、末段,将内容词集存入向量V。; ⑤如果Ivhη V。I〈P,则判断文本标题为“抽象型”标题,其中,P为一个给定阈值,根据实验确定为3 ; ⑥Vxe Fk,如果X e {疑问词库},文本标题也判断为“抽象型”标题; ⑦如果标题无(5)或(6)中特征,则判断其为“具体型”标题; 对于“抽象型”的标题,采用TFIDF方法在全文中查找权值高于一定阈值的词作为候选词,然后通过候选词所在的位置判断该词是否为关键字,所在句子的权值越高,成为关键字的可能性越大, 对与“具体型”标题,将标题分词后,得到的名词和动词就为该文本的关键字,计算句子权重时,赋予标题词列表中的词更大的权重比例因子, 通过以上方法,能够获得每个句子的权重,能够计算出每个句子的权值,而且更新了关键词列表的权重,每个文章对应的关键词链表按权重排序即为该文的关键词。
5.如权利要求3所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:计算用户对关键词的关注度的步骤包括: 将相同类属A下所有主题向量中的关键词加入到此类属下的关键词列表K中; 将相同类属下关键词添加过程中出现的重复关键词归一,重复关键词触发了候选相似主题的聚集,并将该词所属的所有网页归并到一起组成一个候选相似主题组;对于每个重复关键词所在的候选相似主题组,比较该词在这组主题向量中的原始权值,找出权值最大者所在的主题向量作为这一组主题向量的核心主题代表(并将之加入到K中); 计算核心主题与所在候选相似主题组中每个主题向量的相似度,设定一个阈值,所有超出域值者加入到主题组Ki中形成相似主题组Ki组,也即形成了一个话题Ki ; 以前面所找出的核心主题作为话题Ki的代表,将话题Ki中所有主题向量所在主题的频度叠加将为调整后的核心主题热度,将调整后的核心主题加入到候选热点主题列表中; 根据前面所述的热度计量方法计算出K中每一个主题的关注度。
6.如权利要求1、2、4和5之一所述的一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,其特征在于:得到用户当前兴趣的步骤包括:针对同一个训练集,训练不同的分类器,即决策树弱分类器,然后把这些决策树弱分类器集合起来,构成一个更强的最终分类器,形成用户兴趣的最终分类,采用AdaBoost算法对用户行为分类器和用户内容兴趣分类器的结果进行迭代调整,获得不同决策树弱分类器的权重,进而获得用户当前兴趣。
7.一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的系统,其特征在于:包括行为信息分析子模块、内容信息分析子模块和集成学习子模块, 行为信息分析子模块对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣; 内容信息分析子模块对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣; 集成学习子模块根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,形成用户兴趣,得到用户当前兴趣。
全文摘要
一种根据用户感兴趣的相关网页和用户当前行为特征确定用户当前兴趣的方法,包括步骤对用户当前的行为特征进行基于决策树算法分类,获得用户当前行为兴趣;对用户当前的兴趣类别的网页进行文本分析,获得网页文本属性信息,根据网页文本属性信息,获取用户当前内容兴趣;根据用户当前行为兴趣和当前内容兴趣,使用集成学习技术,得到用户当前兴趣,实现数据业务的定向推送,提高数据业务推送的可信度,提高用户喜好度。
文档编号G06F17/30GK103235823SQ201310162870
公开日2013年8月7日 申请日期2013年5月6日 优先权日2013年5月6日
发明者刘臻, 吕琳媛, 肖思源, 刘润然, 佘莉 申请人:上海河广信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1