基于多主题追踪的个性化网络新闻推送方法

文档序号：6579082阅读：610来源：国知局

专利名称：基于多主题追踪的个性化网络新闻推送方法
技术领域：
本发明涉及一种新闻的网络推送方法，特别是一种基于多主题追踪的个性化新闻
网络推送方法。
背景技术：
随着信息传播技术的迅猛发展，尤其是因特网的不断发展和日益普及，人类社会所面对的信息量正在以惊人的速度增长，人们对于能够方便地获取自己感兴趣的新闻信息的需求越来越迫切。于是，各种各样的新闻推荐系统层出不穷。新闻推荐系统是近年来互联网上发展起来的一种新兴软件系统，它能够将最新的新闻资讯以主动展现的方式推送给用户。而且，系统给出的推荐是实时更新的，即随着时间推移，给出的推荐新闻会自动改变成当前最新的信息。此类的新闻推荐系统在即时通讯软件、网络博客和论坛中有广泛的应用。然而，对于某一个用户而言，他感兴趣的新闻报道只占少数。当用户在为频繁收到无用新闻信息而苦恼，而又不希望错过自己感兴趣的话题时，如何在庞大的新闻信息量中找到感兴趣的新闻，便成为用户迫切需要解决的问题。因此，用户对于新闻推荐系统推荐的准确度有了越来越高的要求。这也是用户个性化的新闻推荐系统产生的一个原因。
目前，针对用户个性化的新闻推荐系统层出不穷，但因为用户所感兴趣的新闻报道不可能是单一的类别或主题，而往往是分布广泛、涉及多个主题。因此，若将表示用户特性的信息都包含在同一个用户模型中的方法，则导致用户模型过于概化，无法很好地体现用户的特征，系统的推荐效果差。而若采用多个用户模型，又无法很好的解决模型集合的维护管理问题，降低采用多个用户模型的推荐效果。

发明内容
为克服现有技术采用一个用户模型导致无法体现用户特征，采用多个用户模型又导致数据维护管理困难的缺点，本发明提供了一种能涵盖用户的多种兴趣特征，消除采用多个用户模型带来的数据维护困难，推荐效果好的基于多主题追踪的个性化新闻网络推送方法。
基于多主题追踪的个性化网络新闻推送方法，包括以下步骤 1、获取用户浏览过的新闻网页，提取各新闻网页的标题和正文；采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类，以每个新闻类作为一个子兴趣模型，所述的子兴趣模型为由模型中所有新闻报道的关键词信息组成的向量
.J,，.J/;i,其中3,为子兴趣模型？中所有的新闻报道的的第i个关键词的权重
信息；若第i个关键词在多篇新闻报道中出现过，则^为第i个关键词在各篇新闻报道中的权重信息之和；所述的新闻报道为由该新闻报道的关键词信息组成的向量3^;,^，.J,，.J(寸应的关键词与其所属的子兴趣模型；中的关键词一致；若新闻报道^中具有第i个关键词，则工为此关键词的权重信息；若新闻报道3中不具有第i个关键词，则^,为0 ;
所有的子兴趣模型构成用户的多主题兴趣模型； 2、根据用户是否阅读由子兴趣模型；推荐的新闻报道^ ，对用户的多主题兴趣模型进行动态更新； 3、设定所述的子兴趣模型的个数的阈值M，判断子兴趣模型的个数是否超过所述的阈值M，若子兴趣模型的个数超过所述的阈值，则寻找偏离用户兴趣最远的子兴趣模型，将其删除；寻找最偏离用户兴趣的子兴趣模型包括以下步骤 3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的用户兴趣的精确性的精确度参数，precision(p)，精确度参数值越大，则精确性越高，其中
戸圃0)= C ， really (p)为用户实际浏览的由子兴趣模型—推荐的新闻的数量，total (p)为子兴趣模型；总共推荐的新闻的数量； 3.2)根据经验设定一个表示用户对新闻的兴趣随时间衰退的因子a ，引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度的衰减函数e—a "，其中t表示从当前到该子兴趣模型上一次被点击的时间间隔； 3. 3)结合所述的精确度参数和衰减函数获得子兴趣模型与用户兴趣的相关度K，K = precision (p) e—a ' 、 K值越小，说明该子兴趣模型与用户兴趣偏离越远；将所有的子兴趣模型根据所述的相关度从大到小排序，保留前M个子兴趣模型。 4、计算待推送的新闻与所有子兴趣模型之间的相似度W，找出最高相似度Wmax ;所
述的相似度W用新闻报道3与子兴趣模型？之间的夹角来表征，所述的夹角越小，相似度越
高； 5、计算新闻报道3的排序值score(d)，所述的排序值score (d)=Wmax precision (p) e—a 、将排序值从大到小进行排序，将排序后的新闻列表推送给用户。
进一步，所述的步骤(1)中所述的关键词的权重信息为该关键词的的TF-IDF值，
所述的TF为第i个关键词在新闻报道^中的词频，其计算公式为:巧；=y、，其
中dj(i)为在新闻报道《中，关键词i的个数，total (words)为新闻报道《中的单词个数；所述的IDF为第i个关键词的逆向文件频率，其计算公式为TT^ T ,欣a/(Woc應e她)、
IDF = Iog(__^——^^)，其中total (documents)为子兴趣模型—中的新闻报道总数，
一——一一(O p
documents (i)为含有关键词i的新闻报道的数目；则第i个关键词在新闻报道《中的TF-IDF值为ai, j = TFi, j ID&。进一步，所述的步骤(2)中，若用户阅读了由子兴趣模型；推荐的新闻报道，则认
为推动有效；若用户未阅读由子兴趣模型,推荐的新闻报道，则认为推送无效；所述的动态更新包括以下步骤 (2. 1)判断用户是否阅读由子兴趣模型；推荐的新闻报道；
(2. 2)若用户阅读了由子兴趣模型；推荐的新闻报道，则推送有效，子兴趣模型？的更新方程为;=;+3 ; (2. 3)若用户未阅读由子兴趣模型；推荐的新闻报道，则推送无效，子兴趣模型？
的更新方程为；= -"3，其中，Y为根据经验设定、代表3对；的影响度的一个数值。
进一步，所述的步骤(4)中，相似度的计算方法为 W = cos(3, ) = = Z"争《一，其中&为第i个关键词在第j篇
新闻报道^中的TF-IDF值，dik为第i个关键词在第k个子兴趣模型？中的TF-IDF值。本发明的技术构思是采用多个子兴趣模型构成用户多主题兴趣模型，能够涵盖
用户的多种兴趣特征。根据持续的用户反馈，不断的更新用户子兴趣模型，保留用户最感兴
趣的几个子兴趣模型，将偏离用户兴趣子兴趣模型删除，在不影响用户的个性化需求的同
时，减轻了系统后续维护的负担消除了多个子兴趣模型的维护问题对推荐效果造成的负面
影响，提高个性化推荐的准确率。本发明采用表示关键词权重的TF-IDF值来表示新闻报道矢量，从而实现利用数学方法对新闻报道之间的相互关系进行量化计算。采用新闻报道和子兴趣模型两向量之间的夹角余弦值来表征它们之间的相似度，可以消除相似向量在幅度变化上的影响，更加精确。本发明具有能够涵盖用户的多种兴趣特征，推荐准确率高，系统后续维护负担较轻的优点。

图1为本发明的流程图图2为寻找最偏离用户兴趣的子兴趣模型的流程图
具体实施例方式
参照附图，进一步说明本发明基于多主题追踪的个性化网络新闻推送方法，包括以下步骤 1、获取用户浏览过的新闻网页，提取各新闻网页的标题和正文；采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类，以每个新闻类作为一个子兴趣模型，所
述的子兴趣模型为由模型中所有新闻报道的关键词信息组成的向量；[工，丄,..；,，..；,;i，
其中工为子兴趣模型; 中所有的新闻报道的的第i个关键词的权重信息；若第i个关键词在
多篇新闻报道中出现过，则^为第i个关键词在各篇新闻报道中的权重信息之和；所述的新闻报道为由该新闻报道的关键词信息组成的向量
=[1 ^2,..;,,..;/;1^对应的关键词与其所属的子兴趣模型；中的关键词一致；若新闻
报道；中具有第i个关键词，则^为此关键词的权重信息；若新闻报道^中不具有第i个关键词，则3,为o; 所有的子兴趣模型构成用户的多主题兴趣模型； 2、根据用户是否阅读由子兴趣模型3推荐的新闻报道3 ，对用户的多主题兴趣模型进行动态更新； 3、设定所述的子兴趣模型的个数的阈值M，判断子兴趣模型的个数是否超过所述的阈值M，若子兴趣模型的个数超过所述的阈值，则寻找偏离用户兴趣最远的子兴趣模型，将其删除；寻找最偏离用户兴趣的子兴趣模型包括以下步骤 3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的用户兴趣的精确性的精确度参数precision(p)，精确度参数值越大，则精确性越高，其中<formula>formula see original document page 7</formula>为用户实际浏览的由子兴趣模型4推荐的新闻的数
量，total (p)为子兴趣模型；总共推荐的新闻的数量； 3.2)根据经验设定一个表示用户对新闻的兴趣随时问衰退的因子a ，引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度的衰减函数e—a "，其中t表示从当前到该子兴趣模型上一次被点击的时间间隔； 3. 3)结合所述的精确度参数和衰减函数获得子兴趣模型与用户兴趣的相关度K，K = precision (p) e—a ' 、 K值越小，说明该子兴趣模型与用户兴趣偏离越远；将所有的子兴趣模型根据所述的相关度从大到小排序，保留前M个子兴趣模型。 4、计算待推送的新闻与所有子兴趣模型之间的相似度W，找出最高相似度Wmax ;所
述的相似度w用新闻报道3与子兴趣模型; 之间的夹角来表征，所述的夹角越小，相似度越
高；相似度的计算方法为<formula>formula see original document page 7</formula>，其中ai,.为第i个关键词在第j篇
新闻报道3中的TF-IDF值，dik为第i个关键词在第k个子兴趣模型; 中的TF-IDF值。
5、计算新闻报道3的排序值score (d)，所述的排序值<formula>formula see original document page 7</formula>将排序值从大到小进行排序，将排序后的新闻列表推送给用户。
所述的步骤(1)中所述的关键词的权重信息为该关键词的的TF-IDF值，所述的TF
为第i个关键词在新闻报道J中的词频，其计算公式为:<formula>formula see original document page 7</formula>其中dj(i)为
在新闻报道《中，关键词i的个数，total (words)为新闻报道《中的单词个数；所述的IDF为第i个关键词的逆向文件频率，其计算公式为<formula>formula see original document page 7</formula>其中total (documents)为子兴趣模型—中的新闻报道总数，
documents (i)为含有关键词i的新闻报道的数目；则第i个关键词在新闻报道《中的TF-IDF值为」=」 ID&。
所述的步骤(2)中，若用户阅读了由子兴趣模型；推荐的新闻报道，则认为推动有
效；若用户未阅读由子兴趣模型；推荐的新闻报道，则认为推送无效；所述的动态更新包括以下步骤 (2. 1)判断用户是否阅读由子兴趣模型；推荐的新闻报道； (2.2)若用户阅读了由子兴趣模型5推荐的新闻报道，则推送有效，子兴趣模型；的更新方程为;= +3; (2. 3)若用户未阅读由子兴趣模型；推荐的新闻报道，则推送无效，子兴趣模型；
的更新方程为；^3，.其中，Y为根据经验设定、代表^对？的影响度的一个数值。
本发明的技术构思是采用由多个子兴趣模型构成的用户多主题兴趣模型来表示用户兴趣，能够涵盖用户的多种兴趣特征。设定子兴趣模型的个数阈值，只保留用户最感兴趣的几个兴趣模型，在不影响用户的个性化需求的同时，减轻了系统后续维护的负担。
根据持续的用户反馈，不断的更新用户子兴趣模型，引入子兴趣模型对用户兴趣表征的精确度和对新闻随时间衰退的衰减函数，消除了多个子兴趣模型的维护问题对推荐效果造成的负面影响，提高个性化推荐的准确率。采用新闻报道和子兴趣模型两向量之间的夹角余弦值来表征它们之间的相似度，可以消除相似向量在幅度变化上的影响，更加精确。本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
8
权利要求
基于多主题追踪的个性化网络新闻推送方法，包括以下步骤1)、获取用户浏览过的新闻网页，提取各新闻网页的标题和正文；采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类，以每个新闻类作为一个子兴趣模型，所述的子兴趣模型为由模型中所有新闻报道的关键词信息组成的向量其中为子兴趣模型中所有的新闻报道的的第i个关键词的权重信息，若第i个关键词在多篇新闻报道中出现过，则为第i个关键词在各篇新闻报道中的权重信息之和；所述的新闻报道为由该新闻报道的关键词信息组成的向量对应的关键词与其所属的子兴趣模型中的关键词一致；若新闻报道中具有第i个关键词，则为此关键词的权重信息，若新闻报道中不具有第i个关键词，则为0；所有的子兴趣模型构成用户的多主题兴趣模型；2)、根据用户是否阅读由子兴趣模型推荐的新闻报道对用户的多主题兴趣模型进行动态更新；3)、设定所述的子兴趣模型的个数的阈值M，判断子兴趣模型的个数是否超过所述的阈值M，若子兴趣模型的个数超过所述的阈值，则寻找偏离用户兴趣最远的子兴趣模型，将其删除；寻找最偏离用户兴趣的子兴趣模型包括以下步骤(3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的用户兴趣的精确性的精确度参数precision(p)，精确度参数值越大，则精确性越高，其中really(p)为用户实际浏览的由子兴趣模型推荐的新闻的数量，total(p)为子兴趣模型总共推荐的新闻的数量；(3.2)根据经验设定一个表示用户对新闻的兴趣随时间衰退的因子α，引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度的衰减函数e-α·t，其中t表示从当前到该子兴趣模型上一次被点击的时间间隔；(3.3)结合所述的精确度参数和衰减函数获得子兴趣模型与用户兴趣的相关度K，K＝precision(p)·e-α·t，K值越小，说明该子兴趣模型与用户兴趣偏离越远；将所有的子兴趣模型根据所述的相关度从大到小排序，保留前M个子兴趣模型。4)、计算待推送的新闻与所有子兴趣模型之间的相似度W，找出最高相似度Wmax；所述的相似度W用新闻报道与子兴趣模型之间的夹角来表征，所述的夹角越小，相似度越高；5)、计算新闻报道的排序值score(d)，所述的排序值score(d)＝Wmax·precision(p)·e-αt，将排序值从大到小进行排序，将排序后的新闻列表推送给用户。
2. 如权利要求1所述的基于多主题追踪的个性化网络新闻推送方法，其特征在于所述的步骤(1)中所述的关键词的权重信息为该关键词的的TF-IDF值，所述的TF为第i个关键词在新闻报道^由的词频，其计算公式为H^ =, , j、，其中dj(i)为在新闻报道辽中，关键词i的个数，total (words)为新闻报道卫中的单词个数；所述的IDF为第i个关键词的逆向文件频率，其计算公式为<formula>formula see original document page 3</formula>其中total (documents)为新闻报道总数，documents (i)为含有关键词i的新闻报道的数目；则第i个关键词在新闻报道《中的TF-IDF值为<formula>formula see original document page 3</formula>
3. 如权利要求2所述的基于多主题追踪的个性化网络新闻推送方法，其特征在于所述的步骤(2)中，若用户阅读了由子兴趣模型; 推荐的新闻报道，则认为推送有效；若用户未阅读由子兴趣模型；推荐的新闻报道，则认为推送无效；所述的动态更新包括以下步骤 (2. 1)判断用户是否阅读由子兴趣模型；推荐的新闻报道；(2. 2)若用户阅读了由子兴趣模型；推荐的新闻报道，则推送有效，子兴趣模型；的更新方程为<formula>formula see original document page 3</formula>(2. 3)若用户未阅读由子兴趣模型；推荐的新闻报道，则推送无效，子兴趣模型；的更新方程为；=;_"3，其中，y为根据经验设定、代表J(寸；的影响度的一个数值。
4. 如权利要求3所述的基于多主题追踪的个性化网络新闻推送方法，其特征在于所述的步骤(4)中，相似度的计算方法为<formula>formula see original document page 3</formula>，其中aij为第i个关键词在第j篇新闻报道^中的TF-IDF值，dik为第i个关键词在第k个子兴趣模型；中的TF-IDF值。
全文摘要
基于多主题追踪的个性化网络新闻推送方法，包括以下步骤获取用户浏览过的新闻网页，划分成多个用户子兴趣模型；根据用户是否阅读由子兴趣模型推荐的新闻报道对用户的多主题兴趣模型进行动态更新；判断子兴趣模型的个数是否超过预设阈值，若是，则寻找偏离用户兴趣最远的子兴趣模型，将其删除；寻找待推送的新闻与所有子兴趣模型之间的最高相似度；计算新闻报道的排序值将排序值从大到小进行排序，将排序后的新闻列表推送给用户。本发明具有能够涵盖用户的多种兴趣特征，推荐准确率高，系统后续维护负担较轻的优点。
文档编号G06F17/30GK101694659SQ200910153589
公开日2010年4月14日申请日期2009年10月20日优先权日2009年10月20日
发明者何占盈, 卜佳俊, 毛菥, 陈伟, 陈纯申请人:浙江大学;

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈纯;何占盈;陈伟;卜佳俊;毛菥
技术所有人：浙江大学
我是此专利的发明人

上一篇：动态防伪及产品质量跟踪在线认证系统及认证方法
上一篇：基于新闻去重的网页爬虫的构建方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。