一种基于用户行为的个性化新闻推荐方法及装置与流程

文档序号:16390532发布日期:2018-12-22 11:27阅读:235来源:国知局
一种基于用户行为的个性化新闻推荐方法及装置与流程

本发明涉及智能推荐技术领域,尤其涉及一种基于用户行为的个性化新闻推荐方法及装置。

背景技术

近年来,智能推荐逐渐成为信息搜索的研究热点,而其中新闻推荐属于智能推荐重要的一个分支,现有技术中新闻推荐普遍采用基于协同过滤或者基于内容的推荐,这些方法并不能完美的契合用户需求,没有考虑用户自身偏好所带来的需求,只是将获取的新闻通过不同的属性将新闻进行量化,基于该方式获取的新闻存在对新闻理解的偏差,其次,还存在一些新闻推荐方法通过提取用户的行为日志进行推荐,该方法仅仅以用户的喜好为基础进行推荐,但是没有考虑新闻本身的内在属性和联系,反馈回来的新闻主要依赖于用户本身进行判断。导致新闻推荐均是同样类型的内容,严重降低用户体验,不能满足客户要求。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的目的之一在于提出一种基于用户行为的个性化新闻推荐方法,该方法首先分析了新闻与用户之间的关系,根据得到新闻信息矩阵计算新闻-用户相关值;再通过不同的相关值进行相似度比较,将相关新闻进行推荐。该方法通过将新闻属性和用户喜好进行量化,比以往单一的基于新闻属性进行推荐的方法更加灵活,同时也比单一通过用户的喜好建立的方法更加全面,保证推荐文章质量和多样化。

本发明的第二目的在于提出一种基于用户行为的个性化新闻推荐装置。

为达上述目的,本发明第一方面实施例提出了一种个性化新闻推荐方法,包括:

步骤1:基于用户行为日志中提取用户特定时间段内阅读的新闻信息;

步骤2:从所述特定时间段内阅读的新闻信息中获取新闻信息属性,基于所述新闻信息属性构建新闻信息矩阵;

步骤3:根据所述新闻信息矩阵计算新闻-用户相关值;

步骤4:依据步骤2-3计算不同用户的新闻-用户相关值;

步骤5:根据不同用户的新闻-用户相关值的相似性为用户进行新闻推荐。

作为本发明第一方面实施例提供的一种可能的实现方式,从所述特定时间段内阅读的新闻信息中获取新闻信息属性包括:所述新闻信息属性为新闻关键词、阅读时间、新闻类别、新闻发布权威性。

进一步,其中所述基于所述新闻信息属性构建新闻信息矩阵进一步包括:将获取的新闻信息属性量化为{v1,v2,v3,v4},v1表示新闻关键词,v2表示阅读时间,v3表示新闻类别,v4表示新闻发布权威性,且其中n表示所提取的新闻数量。则构建的新闻信息矩阵:

进一步,采用tf-idf算法计算新闻关键词量化值,其中其中ri表示所提取新闻的关键词,r表示提取关键词个数。

进一步,文章阅读时间量化值为其中ti表示文章阅读日期距离当前日期的时间间隔。

进一步包括,新闻类别量化值为将新闻与所属类别进行关联,其中关联强度为:原所属类别=0.6;相关类别=0.36;不相关类别=0.03.当有的新闻同时出现在两到三种类别时,将相关关联强度进行累加。

进一步包括,依据权威性将新闻与新闻发布网站相关联,其中,权威网站=1,一般权威网站=0.6,非权威网站=0.1.

进一步包括,其中所述根据所述新闻信息矩阵计算新闻-用户相关值进一步包括:ci=nci,其中ci表示不同于新闻xi的其他所有新闻对用户的相关值,所述其中α表示用户偏好系数,β表示新闻属性系数,w表示新闻属性权值。

进一步包括,提取阅读过新闻xi的多个用户阅读的其他新闻的新闻-用户相关值,并根据新闻-用户相关值的相似性为用户进行新闻推荐,所述新闻-用户相关值的相似性为:

其中wi表示新闻xi的属性权值,wj表示新闻xj的属性权值。

本发明目的之二,采用如下技术步骤进行实现:

第一获取模块,基于用户行为日志中提取用户特定时间段内阅读的新闻信息;

第二获取模块,从所述特定时间段内阅读的新闻信息中获取新闻信息属性,基于所述新闻信息属性构建新闻信息矩阵;

构建模块,根据所述新闻信息矩阵计算新闻-用户相关值;

第三获取模块,根据第二获取模块和构建模块循环输出不同用户的新闻-用户相关值;推荐模块,根据不同用户的新闻-用户相关值的相似性为用户进行新闻推荐。

相比现有技术,本发明的有益效果在于:将新闻属性和用户喜好同时进行量化,比以往的单一属性信息构建方法更加方便和灵活;建立新闻信息矩阵,并根据新闻信息矩阵获得新闻-用户相关值,获取用户与新闻的相关性;根据新闻-用户相关值的相似度为用户推荐最匹配相关新闻,避免了人为干预,减少了人工成本,保证了推荐的新闻质量和多样化,解决了现有的新闻推荐的方法,存在推荐的新闻比较单一、不利于用户知识面的扩展、人工成本高、新闻质量不稳定以及不匹配等问题。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明实施例提供的一种个性化新闻推荐方法的流程示意图;

图2为本发明实施例提供的一种个性化新闻推荐装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的个性化新闻推荐方法及其装置

图1为本发明实施例提供的一种基于用户个性化新闻推荐方法的流程示意图。

图2为本发明实施例提供的一种基于用户个性化新闻推荐装置的结构示意图。

如图1所示,该新闻推荐方法包括以下步骤:

步骤101,基于用户行为日志中提取用户特定时间段内阅读的新闻信息;

本实施例中可以从用户的行为日志中提取特定时间段内用户阅读的新闻以及浏览的网页内容,由于新闻本身时效性比较强,用户的新闻关注度容易发生变化,因此只对用户在特定时间段内的新闻关注度进行分析,其中特定时间段可以为3-5天。

进一步建立用户和新闻的关系,其中u表示目标用户,x表示用户u读取的新闻集合,x=(x1,x2,...xn),其中xi表示用户u读取的新闻,n表示用户获取的新闻个数。

步骤102,从所述特定时间段内阅读的新闻信息中获取新闻信息属性,基于所述新闻信息属性构建新闻信息矩阵。

本实施例中可以提取新闻关键词、阅读时间、新闻类别、新闻发布权威性作为新闻的信息属性,并对该参数进行赋值实现新闻信息量化。通过提取该信息属性构建维向量,这个四维向量可以看做新闻对用户的相关度体现,其分类标准是基于“统计数据类型”划分的,经过量化后新闻信息属性表征为{v1,v2,v3,v4},其中,v1表示新闻关键词,v2表示阅读时间,v3表示新闻类别,v4表示新闻发布权威性。

具体的新闻关键词v1是用户获取新闻的重要信息,也是所有新闻推荐中最重要的属性,其中新闻关键词越详细,推荐的结果越准确,本文中将新闻关键词分为主要关键词,次要关键词和非关键词,并规定至少存在一个关键词。所述关键词可以从新闻标题、摘要、作者姓名以及首段和结尾段中提取。

进一步,采用tf-idf的方法对关键词进行量化,其中ri表示所提取新闻的关键词,r表示提取关键词个数,关键词的权重表示为这样关键词的权重介于0-1之间,本发明中限定新闻只有一个主要关键词,即可以在更大单位内寻找值得推荐的新闻。

参数v2表示阅读时间,在对新闻进行推荐时,时间是一个不可忽略的因素,这是因为新闻所反应的信息内容具备时效性,新闻的公开时间反应了新闻自身的存在性,新闻获取的时间反应了用户对新闻信息的需求。此外,由于新闻属于时效性非常强的信息,还需要考虑新闻的时间跨度,因此其时间间隔做到以天为单位或者更短,从而满足新闻的推荐需求。

本发明中对时间量化为其中ti表示文章阅读日期距离当前日期的时间间隔。新闻阅读时间距离当前时间的间隔越长,表示新闻推荐力度越小,用户对该新闻的兴趣度越低。

v3表示新闻类别,通常来说,在用关键词对新闻进行搜索时,所获取的信息内容可能不止出现在一个类别中,例如搜索“苹果”,可能出现的是科技类新闻,也有可能出现农业类相关新闻,因此通常来说需要对新闻类别进行划分,一般情况下,新闻都具有明确的区分,在本发明中按照“拇指法则”进行量化,将两个变量之间的联系称为关联强度,其中关联强度为:原所属类别=0.6;相关类别=0.36;不相关类别=0.03.当有的新闻同时出现在两到三种类别时,将相关关联强度进行累加。

v4表示新闻发布权威性,一般来说,新闻的权威判断标准在于公开的网页权威性,可以将政府发布来源信息的网站作为权威网站,例如人民网,新华社,各地方政府的官网等,将上市互联网公司发布来源信息的网站作为一般权威网站,其他来源网站作为非权威网站。进一步直接通过权重赋值实现对权威网站的量化,其中,权威网站=1,一般权威网站=0.6,非权威网站=0.1。

通过实现新闻信息中获取新闻信息属性,基于所述新闻信息属性构建新闻信息矩阵,获取的新闻信息属性量化为{v1,v2,v3,v4},且其中n表示所提取的新闻数量。则构建的新闻信息矩阵:

步骤103,根据所述新闻信息矩阵计算新闻-用户相关值。

具体为,根据价值函数计算新闻-用户相关值,其中α表示用户偏好系数,β表示新闻属性系数,ci表示不同于新闻xi的其他所有新闻对用户的相关值,通常推荐算法中v表示新闻自身的价值,v的值越大表示文本越重要,推荐价值越高,然而本发明中所体现的却是v的值越大,新闻-用户相关值反而越小,这是因为首先ci反映的只是一个参数,该参数体现了新闻xi的重要程度,并不能对其他文章的相关值进行反应,同时得到ci的目的是将其与其他的新闻-用户相关值进行比较得到相似度,即ci的获取只是其中的一个计算步骤,其次,对于不同的新闻ci以及的取值是不同的,因此不同新闻之间的ci相互之间也不能够以常规值的方式进行比较。根据柯布道格拉斯函数,一般α取值0.2-0.4,β取值0.8-0.6。

进一步w表示新闻属性权值,其中{v1,v2,v3,v4}的权重值记为{w1,w2,w3,w4},则将这四类属性的影响程度记为{v1*w1,v2*w2,v3*w3,v4*w4},一般在新闻推荐中,关键词的影响要比其他的因素影响作用更大,因此假设权值为一个定量,并将关键词之外的其他三类参数对推荐方法的影响程度进行统一规划,即

w1>max{w2,w3,w4},且w2=w3=w4,进一步w1+w2=1,这样的假设可以彰显出关键词在对新闻推荐中的重要性,从而实现更加准确的新闻推荐。

假设所有新闻对于用户都具有相同的价值,则均衡情况下ci=nci,这样就得到全部新闻的新闻-用户相关值。

步骤104,依据步骤102-103计算不同用户的新闻-用户相关值。

用户u希望获取与xi相似的新闻,则需要获取一系列的新闻-用户相关值,假设用户u和用户v都阅读过新闻xi,同时u希望获得更多与新闻xi相似的新闻,因此可以考虑在v的阅读过的新闻中挑选出与xi相匹配的新闻,因此依据步骤102-103计算不同用户的新闻-用户相关值。

步骤105,根据不同用户的新闻-用户相关值的相似性为用户进行新闻推荐。

假设获取用户u特定时间段阅读的新闻15篇,并通过步骤102-103获取用户u的新闻-用户相关值,采用同样的方法计算获取用户v特定时间段内阅读的新闻20篇,其中用户v阅读的20篇新闻中包括用户u阅读的新闻xi,并遍历计算全部新闻-用户相关值,接下来将用户v的20篇新闻的新闻-用户相关值与用户u的新闻xi的相关值进行相似度比较,通过计算相似度可以获取一系列与xi相关联的新闻,将得到的结果依据相似度值进行排列,并将相似度值较大的新闻向用户u进行推荐。其中,相似度计算公式为:其中wi表示新闻xi的属性权值,wj表示新闻xj的属性权值。

本发明实施例的基于用户个性化新闻推荐的方法,将新闻属性和用户喜好同时进行量化,比以往的单一属性信息构建方法更加方便和灵活;建立新闻信息矩阵,并根据新闻信息矩阵获得新闻-用户相关值,获取用户与新闻的相关性;根据新闻-用户相关值的相似度为用户推荐最匹配相关新闻,避免了人为干预,减少了人工成本,保证了推荐的新闻质量和多样化,解决了现有的新闻推荐的方法,存在推荐的新闻比较单一、不利于用户知识面的扩展、人工成本高、新闻质量不稳定以及不匹配等问题。

为了实现上述实施例,本发明还提出一种基于用户行为的个性化新闻推荐装置。

如图2所示,该个性化新闻推荐装置包括:第一获取模块,基于用户行为日志中提取用户特定时间段内阅读的新闻信息;

第二获取模块,从所述特定时间段内阅读的新闻信息中获取新闻信息属性,基于所述新闻信息属性构建新闻信息矩阵;

构建模块,根据所述新闻信息矩阵计算新闻-用户相关值;

第三获取模块,根据第二获取模块和构建模块循环输出不同用户的新闻-用户相关值;推荐模块,根据不同用户的新闻-用户相关值的相似性为用户进行新闻推荐。

其中,第一获取模块可以从用户的行为日志中提取特定时间段内用户阅读的新闻以及浏览的网页内容,由于新闻本身时效性比较强,用户的新闻关注度容易发生变化,因此只对用户在特定时间段内的新闻关注度进行分析,其中特定时间段可以为3-5天。

进一步建立用户和新闻的关系,其中u表示目标用户,x表示用户u读取的新闻集合,x=(x1,x2,...xn),其中xi表示用户u读取的新闻,n表示用户获取的新闻个数。

第二获取模块从所述特定时间段内阅读的新闻信息中获取新闻信息属性,基于所述新闻信息属性构建新闻信息矩阵。

本实施例中可以提取新闻关键词、阅读时间、新闻类别、新闻发布权威性作为新闻的信息属性,并对该参数进行赋值实现新闻信息量化。通过提取该信息属性构建维向量,这个四维向量可以看做新闻对用户的相关度体现,其分类标准是基于“统计数据类型”划分的,经过量化后新闻信息属性表征为{v1,v2,v3,v4},其中,v1表示新闻关键词,v2表示阅读时间,v3表示新闻类别,v4表示新闻发布权威性。

具体的新闻关键词v1是用户获取新闻的重要信息,也是所有新闻推荐中最重要的属性,其中新闻关键词越详细,推荐的结果越准确,本文中将新闻关键词分为主要关键词,次要关键词和非关键词,并规定至少存在一个关键词。所述关键词可以从新闻标题、摘要、作者姓名以及首段和结尾段中提取。

进一步,采用tf-idf的方法对关键词进行量化,其中ri表示所提取新闻的关键词,r表示提取关键词个数,关键词的权重表示为这样关键词的权重介于0-1之间,本发明中限定新闻只有一个主要关键词,即可以在更大单位内寻找值得推荐的新闻。

参数v2表示阅读时间,在对新闻进行推荐时,时间是一个不可忽略的因素,这是因为新闻所反应的信息内容具备时效性,新闻的公开时间反应了新闻自身的存在性,新闻获取的时间反应了用户对新闻信息的需求。此外,由于新闻属于时效性非常强的信息,还需要考虑新闻的时间跨度,因此其时间间隔做到以天为单位或者更短,从而满足新闻的推荐需求。

本实施例中对时间量化为其中ti表示文章阅读日期距离当前日期的时间间隔。新闻阅读时间距离当前时间的间隔越长,表示新闻推荐力度越小,用户对该新闻的兴趣度越低。

v3表示新闻类别,通常来说,在用关键词对新闻进行搜索时,所获取的信息内容可能不止出现在一个类别中,例如搜索“苹果”,可能出现的是科技类新闻,也有可能出现农业类相关新闻,因此通常来说需要对新闻类别进行划分,一般情况下,新闻度具有明确的区分,在本发明中按照“拇指法则”进行量化,将两个变量之间的联系称为关联强度,其中关联强度为:原所属类别=0.6;相关类别=0.36;不相关类别=0.03.当有的新闻同时出现在两到三种类别时,将相关关联强度进行累加。

v4表示新闻发布权威性,一般来说,新闻的权威判断标准在于公开的网页权威性,可以将政府发布来源信息的网站作为权威网站,例如人民网,新华社,各地方政府的官网等,将上市互联网公司发布来源信息的网站作为一般权威网站,其他来源网站作为非权威网站。进一步直接通过权重赋值实现对权威网站的量化,其中,权威网站=1,一般权威网站=0.6,非权威网站=0.1。

通过实现新闻信息中获取新闻信息属性,基于所述新闻信息属性构建新闻信息矩阵,获取的新闻信息属性量化为{v1,v2,v3,v4},且其中n表示所提取的新闻数量。则构建的新闻信息矩阵:

构建模块根据价值函数计算新闻-用户相关值,其中α表示用户偏好系数,β表示新闻属性系数,ci表示不同于新闻xi的其他所有新闻对用户的相关值,通常推荐算法中v表示新闻自身的价值,v的值越大表示文本越重要,推荐价值越高,然而本发明中所体现的却是v的值越大,新闻-用户相关值反而越小,这是因为首先ci反映的只是一个参数,该参数体现了新闻xi的重要程度,并不能对其他文章的相关值进行反应,同时得到ci的目的是将其与其他的新闻-用户相关值进行比较得到相似度,即ci的获取只是其中的一个计算步骤,其次,对于不同的新闻ci以及的取值是不同的,因此不同新闻之间的ci相互之间也不能够以常规值的方式进行比较。根据柯布道格拉斯函数,一般α取值0.2-0.4,β取值0.8-0.6。

进一步w表示新闻属性权值,其中{v1,v2,v3,v4}的权重值记为{w1,w2,w3,w4},则将这四类属性的影响程度记为{v1*w1,v2*w2,v3*w3,v4*w4},一般在新闻推荐中,关键词的影响要比其他的因素影响作用更大,因此假设权值为一个定量,并将关键词之外的其他三类参数对推荐方法的影响程度进行统一规划,即

w1>max{w2,w3,w4},且w2=w3=w4,进一步w1+w2=1,这样的假设可以彰显出关键词在对新闻推荐中的重要性,从而实现更加准确的新闻推荐。

假设所有新闻对于用户都具有相同的价值,则均衡情况下ci=nci,这样就得到全部新闻的新闻-用户相关值。

第三获取模块,根据第二获取模块和构建模块循环输出不同用户的新闻-用户相关值;

用户u希望获取与xi相似的新闻,则需要获取一系列的新闻-用户相关值,假设用户u和用户v都阅读过新闻xi,同时u希望获得更多与新闻xi相似的新闻,因此可以考虑在v的阅读过的新闻中挑选出与xi相匹配的新闻,因此依据步骤102-103计算不同用户的新闻-用户相关值。

推荐模块,根据不同用户的新闻-用户相关值的相似性为用户进行新闻推荐。假设获取用户u特定时间段阅读的新闻15篇,并通过步骤102-103获取用户u的新闻-用户相关值,采用同样的方法计算获取用户v特定时间段内阅读的新闻20篇,其中用户v阅读的20篇新闻中包括用户u阅读的新闻xi,并遍历计算全部新闻-用户相关值,接下来将用户v的20篇新闻的新闻-用户相关值与用户u的新闻xi的相关值进行相似度比较,通过计算相似度可以获取一系列与xi相关联的新闻,将得到的结果依据相似度值进行排列,并将相似度值较大的新闻向用户u进行推荐。其中,相似度计算公式为:其中wi表示新闻xi的属性权值,wj表示新闻xj的属性权值。

本发明实施例的基于用户个性化新闻推荐的装置,将新闻属性和用户喜好同时进行量化,比以往的单一属性信息构建方法更加方便和灵活;建立新闻信息矩阵,并根据新闻信息矩阵获得新闻-用户相关值,获取用户与新闻的相关性;根据新闻-用户相关值的相似度为用户推荐最匹配相关新闻,避免了人为干预,减少了人工成本,保证了推荐的新闻质量和多样化,解决了现有的新闻推荐的方法,存在推荐的新闻比较单一、不利于用户知识面的扩展、人工成本高、新闻质量不稳定以及不匹配等问题。

上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1