一种基于深度学习的用户文献阅读兴趣分析方法与流程

文档序号:14940894发布日期:2018-07-13 20:44阅读:190来源:国知局

本发明属于数据分析领域,特别涉及一种基于深度学习的用户文献阅读兴趣分析方法。



背景技术:

目前,随着互联网上文献资料的日益增多,越来越多的用户感觉获取大量真正对自己有帮助的文献资料是一件非常困难的事情。相比较于电子商务领域,用户个人兴趣分析已经运用到大多数的电子商务网站中,如淘宝网、亚马逊、youtube等都在自己的推荐服务中嵌入了用户偏好分析模块并取得了很好的业绩。

但是,在文献检索领域,都采用一种基于信息匹配的信息检索方式,根据用户每次输入的检索关键词,将数据库中与其最匹配的文献推送给用户。这种文献检索方式产生的推荐文献内容单一,不能满足用户潜在的阅读偏好,同时用户会拥有较低的惊喜度。因此需要找到一种简单、高效的用户阅读兴趣分析方法。

2009年到2017年,发明人给出了web文本处理与推送的的办法(李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐.计算机科学与探索.2014.vol.8(6):751-759;suquncao,quanyinzhu,zhiweihou.customersegmentationbasedonanovelhierarchicalclusteringalgorithm.2009,p:1-5(ei:20100412657161);quanyinzhu,sunquncao.anovelclassifier-independentfeatureselectionalgorithmforimbalanceddatasets.2009,p:77-82(ei:20095012543848);suquncao,zhiweiyangwang,quanyinzhu.kernelizedfuzzyfishercriterionbasedclusteringalgorithm.dcabes2010,p:87-91(ei:20104413349424);quanyinzhu,yunyangyan,jinding,jinqian.thecasestudyforpriceextractingofmobilephonesellonline.2011,p:282-285(ei:20113714318072);quanyinzhu,suquncao,peizhou,yunyangyan,hongzhou.integratedpriceforecastbasedondichotomybackfillinganddisturbancefactoralgorithm.internationalreviewoncomputersandsoftware,2011,vol.6(6):1089-1093.(ei:20121814977597);suquncao,gelanyang,quanyinzhu,haiheizhai.anovelfeatureextractionmethodformechanicalpartrecognition.appliedmechanicsandmaterials,2011,p:116-121(ei:20113814354316);peizhou,quanyinzhu.multi-factormatchingmethodforbasicinformationofscienceandtechnologyexpertsbasedonwebmining.2012,p:718-720(ei:20123915469307);jianpingdeng,fengwencao,quanyinzhu,yuzhang.thewebdataextractingandapplicationforshoponlinebasedoncommoditiesclassified.communicationsincomputerandinformationscience,vol.234(4):120-128(ei:20113814340383);huizong,quanyinzhu,mingsun,yahongzhang.thecasestudyforhumanresourcemanagementresearchbasedonwebminingandsemanticanalysis.appliedmechanicsandmaterials,vol.488,2014p:1336-1339(ei:20140517249044));expertachievementsmodelforscientificandtechnologicalbasedonassociationmining.dcabes2015,272-275(ei:20162902607720);anidentificationmethodofnewsscientificintelligencebasedontf-idf.dcabes2015,501-504(ei:20162902607645)。

深度学习:

深度学习的概念由hinton等人于2006年提出。基于深度置信网络(dbn)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。同样,深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。

余弦相似度:

余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。在计算之前,需要先将文献进行向量化,之后求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。

词向量模型:

词向量模型是自然语言处理领域的一个概念,它旨在将一个词语拓展到n维的向量空间中,它是一种基于深度学习的计算模型,得到词语的词向量后,通过余弦相似度计算词语与词语之间在语义上的相似度。常用的词向量计算工具是google提出的word2vec。

信息检索:

信息检索是指按一定的方式组织信息,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是信息查寻。信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来,脱机批量情报检索系统、联机实时情报检索系统。

自上世纪90年代开始,互联网上的数据量进入了爆炸式增长阶段。据2014年美国易安信(emc)公司发布的一份数字宇宙(digitaluniverse)报告得知,至2020年,全球的互联网上的数据总量将达到约44zb,海量的数据造成的“信息过载”问题让信息检索人员耗费大量时间和精力用于在寻找对自己有价值的信息上。个性化推荐服务系统是解决“信息过载”问题的有效途径。其中的科技文献个性化服务技术关键是精确抓取用户使用系统的使用行为,分析用户阅读兴趣,根据其中用户浏览记录的或标记的项目进行抽取,为每一个用户建立文献偏好模型用于预测可能喜欢的文献,同时能够让偏好模型具有自适应性,研究科技文献的个性化服务技术能够提高科研人员检索文献的效率,更好的让科研任务取得突破性的进展,为了一个有着研究和实用意义的问题。

在现有的信息获取和推送方法中,往往都只解决了上述几个问题中的部分问题。

如中国专利文献号cn103559262a,授权日2016-10-05,公开了一种基于社区的作者及其学术论文的推荐系统和推荐方法,该系统先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文。尽管基于论文的引用网络来进行兴趣分析,但是相比从用户历史检索关键词出发,由于论文引用存在局限性并且不能从语义上分析用户阅读兴趣,导致推荐准确率较低。

如中国专利文献号cn101408897a,授权日2011-03-30,公开了一种基于协作过滤的个性化查询扩展方法,属于个性化服务领域,其特征是利用用户群组对搜索结果的种种行为作为对词与词之间关系分析的依据,而不是依据文档中词语的相关性。根据同一个用户聚类内所有用户提交过的查询词以及用户对web搜索引擎给出的结果的隐式反馈信息而进行查询扩展。该算法不需要用户人为地填写或修改个人兴趣,而是基于用户以往对搜索结果的种种动作,保证了用户兴趣的持久更新。该方法只能在一定程度上对用户兴趣进行持续更新,但是没有通过深度学习的方式从语义层面上拓展用户阅读兴趣,不能满足精准分析用户阅读兴趣的需求。

如中国专利文献号cn102622445a,授权日2014-05-07,公开了一种基于用户兴趣感知的网页推送方法及系统。通过对用户在网页内执行的各种操作如是否保存标签、是否拷贝、是否曾经访问对用户兴趣进行评判等行为进行记录,并赋予不同的权值来综合分析用户阅读兴趣,这种方法由于采用只是采用了传统基于统计学习的方法来为分析用户兴趣,不能再语义层面上分析,不能满足精准分析用户阅读兴趣的需求。

综上所述,研究发明一种基于深度学习能够在语义层面上分析用户的浏览日志,精确掌握用户的阅读兴趣对于解决信息过载问题是十分重要的。



技术实现要素:

发明目的:针对现有技术中存在的问题,本发明提供一种基于深度学习的用户文献阅读兴趣分析方法,包括如下步骤:

步骤一:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重;

步骤二:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集;

步骤三:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语;

步骤四:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合。

进一步的,所述步骤一中计算文献权重的具体步骤如下:

步骤1.1:定义用户历史浏览文档集,文档关键词集;

步骤1.2:收集用户历史浏览文档集并获取文档集中每篇文档的关键词;

步骤1.3:收集用户的历史记录信息,将其浏览每篇文献的时间长度进行最小-最大归一化处理,并将归一化处理后的值作为每篇文献的权重值。

进一步的,所述步骤二中对文献进行过滤最终得到待分析文档集的具体步骤如下:

步骤2.1:定义每篇文献开始阅读时刻距离目前的时间距离集,待分析文档集;

步骤2.2:从用户的历史记录信息中计算用户最后一次阅读每篇文献结束距离当前时刻的时长,对于时间长度低于所设定阈值的文献进行剔除,获得待分析文档集。

进一步的,所述步骤三中使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语的具体步骤如下:

步骤3.1:定义文档标题预处理集,文档临时关键词集,文档词语权值集,用户临时阅读偏好集;

步骤3.2:对待分析文档集中文档的关键词进行分词、取除停用词等预处理工作,将得到的词语集合存入文档标题预处理集;

步骤3.3:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词;

步骤3.4:利用词向量计算每篇文档的标题预处理集中的每个词语与文档的临时关键词集中的词语相似度,将标题预处理集中每个词语与文档的临时关键词集中的词语计算出的最大相似度作为得分,同时,将每个词语的得分与所在文献的权重相乘,将结果作为每个词语的权值,最后得到标题预处理集中每个词语的权值集;

步骤3.5:对标题预处理集中每个词语的权值集中得分低于所设阈值的词语进行剔除,得到用户临时阅读偏好集合pr,若偏好集合pr中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值。

进一步的,所述步骤四中得出用户阅读兴趣集合的具体步骤如下:

步骤4.1:定义用户临时阅读偏好集合fpr;

步骤4.2:保留pr中权值排名前50%的词语;

步骤4.3:将kw中的词语加入到pr中,得到用户临时阅读偏好集合fpr。

优选的,所述步骤2.2中时长阈值设置为10天;步骤3.5中有效词语阈值设置为0.581。

优选的,所述步骤一中计算文献权重的具体步骤如下:

步骤11:收集用户历史浏览文献集d={d1,d2,...,dg},其中,g为全局变量且为整数,表示文档集d中的文档总数;

步骤12:获取文档集d={d1,d2,...,dg}中所有文档的关键词并存入关键词集合kw={数据挖掘,信息检索,个性化,个性化推荐,粗糙集,文本分类,svm,个性化系统,推荐系统,信息抽取,信息增益},其中,p为kw中关键词总数;

步骤13:收集用户的文献浏览行为记录,将用户对每篇文档的浏览时间进行归一化处理,所采用的归一化方法为最大-最小标准化,其公式为:norvalue=(value-mina)/(maxa-mina),其中,mina与maxa分别是用户阅读所有文献时长中的最小值与最大值,value是浏览某篇文献时长的一个原始值,norvalue为value归一化后得到的值,得到的每篇文档归一化后的值作为每篇文档关键词权重we={r1,r2,...,rg}。

优选的,所述步骤二中对文献进行过滤最终得到待分析文档集的具体步骤如下:

步骤21:定义用户最后一次阅读每篇文献的结束时刻集合lrt={lt1,lt2,...,ltg},定义nt为相同时区下的标准网络时刻,分别计算nt与lrt集合中每个时刻的时间距离,得到用户最后一次阅读每篇文献结束距离当前时刻的时长集合wet={t1,t2,...,tg};

步骤22:定义局部变量k,k赋初值为1,用于遍历wet,tp为时长阈值;

步骤23:如果k<=g,则执行步骤24,否则执行步骤27;

步骤24:如果tk<tp则执行步骤25,否则执行步骤26;

步骤25:将文献dk加入到待分析文档集rf中;

步骤26:k=k+1,执行步骤23;

步骤27:得到待分析文献集rf={d1,d2,...,dy},其中,y为全局变量且为整数,表示文档集rf中的文档总数。

优选的,所述步骤三中使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语的具体步骤如下:

步骤31:对文档集rf中的每篇文档的标题文字进行分词处理并且去除停用词,获得由每篇文档标题得到的词语集合kc={c1,c2,...,cy},其中,cy={w1,w2,...,ws},并且,设s为全局变量且为整数,表示每篇文档的标题经过分词处理与去除停用词后得到的词语总数;

步骤32:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词,得到每篇文档的临时关键词集tkw={q1,q2,...,qy},其中,qy={wu1,wu2,...,wux},x为每篇文档的临时关键词总数;

步骤33:定义局部变量h,h赋初值为1,用于遍历kc;

步骤34:如果h<=y,则执行步骤35,否则执行步骤37;

步骤35:利用词向量计算ch中词语与qh中每个词语的相似度,将ch每个词语计算得到的最大相似度作为得分,将该得分与rh相乘作为每个词语的权值,其中,ch∈kc,qh∈tkw,rh∈we;

步骤36:h=h+1,执行步骤34;

步骤37:得到tkw中所有词语的权值skc={sk1,sk2,...,sky},其中,sky={wk1,wk2,...,wks};

步骤38:定义局部变量a,b,a与b均赋初值为1,用于遍历skc,有效词语阈值pva;

步骤39:如果a<=y,则执行步骤310,否则执行步骤315;

步骤310:如果b<=s,则执行步骤312,否则执行步骤311;

步骤311:a=a+1,执行步骤39;

步骤312:如果wkb>pva,则执行步骤314,否则执行步骤313;

步骤313:b=b+1,执行步骤310;

步骤314:将词语wkb加入到用户临时阅读偏好集合pr中,其中,wkb∈ska;

步骤315:得到用户临时阅读偏好集合pr。

优选的,所述步骤四中得出用户阅读兴趣集合的具体步骤如下:

步骤41:若偏好集合pr中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值;

步骤42:保留pr中权值排名前50%的词语;

步骤43:将kw中的词语加入到pr中,得到用户临时阅读偏好集合fpr={数据挖掘,文献检索,深度学习,libsvm,文本分类,svm,个性化系统,推荐系统,大数据分析,自动摘要,信息抽取,信息增益,感知机,前馈,信息检索,个性化,个性化推荐,神经网络,词向量模型,粗糙集}。

与现有技术相比,本发明的优点在于:

本发明创造性地将用户兴趣分析功能运用在文献推荐领域,用于替代传统的基于匹配的信息检索方式,其中创造性地提出了一种基于深度学习的用户文献阅读兴趣分析方法,首先收集用户的历史浏览信息,根据历史浏览记录对文献进行加权,对于权值过低的文献进行剔除,接着,使用基于深度学习的词向量模型对已有用户偏好模型进行拓展,将得分排名前50%的词语加入到用户偏好模型中。该方法能够挖掘用户文献阅读兴趣,提高文献推荐准确率,具有很高的实用价值。

附图说明

图1为本发明的总体流程图;

图2为实施例中用户阅读文献预处理流程图;

图3为实施例中文献过滤流程图;

图4为实施例中用户阅读偏好分析流程图;

图5为实施例中确定用户阅读偏好流程图。

具体实施方式

下面结合附图和具体实施方式,进一步阐明本发明。

如图1-5所示,本发明包括如下步骤:

步骤1:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重,具体的如图2所示:

步骤1.1:收集用户历史浏览文献集d={d1,d2,...,dg},其中,g为全局变量且为整数,表示文档集d中的文档总数;

步骤1.2:获取文档集d={d1,d2,...,dg}中所有文档的关键词并存入关键词集合kw={数据挖掘,信息检索,个性化,个性化推荐,粗糙集,文本分类,svm,个性化系统,推荐系统,信息抽取,信息增益},其中,p为kw中关键词总数;

步骤1.3:收集用户的文献浏览行为记录,将用户对每篇文档的浏览时间进行归一化处理,所采用的归一化方法为最大-最小标准化,其公式为:norvalue=(value-mina)/(maxa-mina),其中,mina与maxa分别是用户阅读所有文献时长中的最小值与最大值,value是浏览某篇文献时长的一个原始值,norvalue为value归一化后得到的值,得到的每篇文档归一化后的值作为每篇文档关键词权重we={r1,r2,...,rg}。

步骤2:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集,具体如图3所示:

步骤2.1:定义用户最后一次阅读每篇文献的结束时刻集合lrt={lt1,lt2,...,ltg},定义nt为

相同时区下的标准网络时刻,分别计算nt与lrt集合中每个时刻的时间距离,得到用户最后一次阅读每篇文献结束距离当前时刻的时长集合wet={t1,t2,...,tg};

步骤2.2:定义局部变量k,k赋初值为1,用于遍历wet,tp为时长阈值;

步骤2.3:如果k<=g,则执行步骤2.4,否则执行步骤2.7;

步骤2.4:如果tk<tp则执行步骤2.5,否则执行步骤2.6;

步骤2.5:将文献dk加入到待分析文档集rf中;

步骤2.6:k=k+1,执行步骤2.3;

步骤2.7:得到待分析文献集rf={d1,d2,...,dy},其中,y为全局变量且为整数,表示文档集rf中的文档总数。

步骤3:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语,具体如图4所示:

步骤3.1:对文档集rf中的每篇文档的标题文字进行分词处理并且去除停用词,获得由每篇文档标题得到的词语集合kc={c1,c2,...,cy},其中,cy={w1,w2,...,ws},并且,设s为全局变量且为整数,表示每篇文档的标题经过分词处理与去除停用词后得到的词语总数;

步骤3.2:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词,得到每篇文档的临时关键词集tkw={q1,q2,...,qy},其中,qy={wu1,wu2,...,wux},x为每篇文档的临时关键词总数;

步骤3.3:定义局部变量h,h赋初值为1,用于遍历kc;

步骤3.4:如果h<=y,则执行步骤3.5,否则执行步骤3.7;

步骤3.5:利用词向量计算ch中词语与qh中每个词语的相似度,将ch每个词语计算得到的最大相似度作为得分,将该得分与rh相乘作为每个词语的权值,其中,ch∈kc,qh∈tkw,rh∈we;

步骤3.6:h=h+1,执行步骤3.4;

步骤3.7:得到tkw中所有词语的权值skc={sk1,sk2,...,sky},其中,sky={wk1,wk2,...,wks};

步骤3.8:定义局部变量a,b,a与b均赋初值为1,用于遍历skc,有效词语阈值pva;

步骤3.9:如果a<=y,则执行步骤3.10,否则执行步骤3.15;

步骤3.10:如果b<=s,则执行步骤3.12,否则执行步骤3.11;

步骤3.11:a=a+1,执行步骤3.9;

步骤3.12:如果wkb>pva,则执行步骤3.14,否则执行步骤3.13;

步骤3.13:b=b+1,执行步骤3.10;

步骤3.14:将词语wkb加入到用户临时阅读偏好集合pr中,其中,wkb∈ska;

步骤3.15:得到用户临时阅读偏好集合pr。

步骤4:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合,具体的如图5所示:

步骤4.1:若偏好集合pr中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值;

步骤4.2:保留pr中权值排名前50%的词语;

步骤4.3:将kw中的词语加入到pr中,得到用户临时阅读偏好集合fpr={数据挖掘,文献检索,深度学习,libsvm,文本分类,svm,个性化系统,推荐系统,大数据分析,自动摘要,信息抽取,信息增益,感知机,前馈,信息检索,个性化,个性化推荐,神经网络,词向量模型,粗糙集}。

为了更好的说明本方法的有效性,随机选取系统数据库中10位用户进行文献推荐测试,用户对推荐的文献满意度达92%,提高了文献推送的准确率,提高了信息检索的效率。

本发明可与计算机系统结合,从而更高效率完成文献推荐。

本发明创造性的提出了一种基于深度学习的用户文献阅读兴趣分析方法,进一步挖掘用户阅读兴趣,解决数据稀疏性问题,提高了文献推荐的准确率。

本发明提出的基于深度学习的用户文献阅读兴趣分析方法不但适用文献推荐,也可以适用于博客推荐、网站推荐等应用领域。

以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1