一种文章推荐方法及电子设备

文档序号:29086441发布日期:2022-03-02 01:31阅读:59来源:国知局
一种文章推荐方法及电子设备

1.本发明涉及人工智能(artificial intelligence,ai)技术领域,具体涉及一种文章推荐方法及电子设备。


背景技术:

2.进入21世纪后,随着信息技术和移动互联网的迅速发展与大数据时代的到来,人们受困于“信息过载”问题,面对搜索引擎、大量的新生移动资讯应用程序(application,app)及新闻资讯网站等,导致想高效获取所需的信息变得异常艰难,也正是如此,推荐系统应运而生。因此,如何使用户高效的获取到其所需的信息是目前亟需解决的技术问题。


技术实现要素:

3.本发明的目的是提供一种文章推荐方法、装置、电子设备及计算机存储介质,能够高效的向用户推荐文章,由此使得用户可以高效的获取到其所需的信息,提升了用户体验。
4.为实现上述目的,第一方面,本发明提供了一种文章推荐方法,所述方法包括:
5.获取第一文章集合,所述第一文章集合中包括n篇待推荐的文章,n为大于或等于1的正整数;
6.获取第二文章集合,所述第二文章集合中包括m篇用户已点击过的文章,m为大于或等于1的正整数;
7.分别确定所述第一文章集合中每篇文章对应的第一词向量和第二词向量,所述第一词向量为文章的标题中关键词对应的词向量,所述第二词向量为文章中至少包含正文的内容中关键字对应的词向量;
8.确定所述第二文章集合对应的第三词向量和第四词向量,所述第三词向量为所述第二文章集合中所有的文章所包含的标题中关键词对应的词向量,所述第四词向量为所述第二文章集合中所有的文章中至少包含正文的内容中关键字对应的词向量;
9.根据所述第三词向量和第四词向量,以及所述第一文章集合中每篇文章对应的第一词向量和第二词向量,得到所述第一文章集合中每篇文章的推荐值;
10.根据n个所述推荐值,确定文章推荐列表,所述文章推荐列表中包括所述n篇待推荐的文章至少一篇文章;
11.向用户推荐所述文章推荐列表中的至少一篇文章。
12.在一种可能的实现方式中,所述根据所述第三词向量和第四词向量,以及所述第一文章集合中每篇文章对应的第一词向量和第二词向量,得到所述第一文章集合中每篇文章的推荐值,具体包括:
13.针对所述第一文章集合中的任一文章,根据所述第三词向量和所述任一文章对应的第一词向量,得到第一相似度值,所述第一相似度值用于表征所述任一文章中的标题与所述第二文章集合中所包含的文章中的标题之间的相似度;
14.根据所述第四词向量和所述任一文章对应的第二词向量,得到第二相似度值,所
述第二相似度值用于表征所述任一文章中至少包含正文的内容与所述第二文章集合中所有的文章中至少包含正文的内容之间的相似度;
15.根据所述第一相似度值和所述第二相似度值,得到所述任一文章对应的推荐值。
16.在一种可能的实现方式中,所述根据所述第一相似度值和所述第二相似度值,得到所述任一文章对应的推荐值,具体包括:
17.根据预先设定的文章中标题对应的权重值和文章中至少包含正文的内容对应的权重值,对所述第一相似度值和所述第二相似度值进行加权处理,得到所述任一文章对应的推荐值。
18.在一种可能的实现方式中,所述根据n个所述推荐值,确定文章推荐列表,具体包括:
19.根据n个所述推荐值的大小,从n个所述推荐值中选取i个推荐值,以及将所述i个推荐值对应的文章作为所述文章推荐列表中文章,其中,i为大于或等于1的正整数,所述i个推荐值中的任一推荐值均大于n个所述推荐值中剩余的推荐值。
20.在一种可能的实现方式中,所述方法还包括:
21.当获取到新的待推荐文章时,确定所述新的待推荐文章对应的第一词向量和第二词向量;
22.根据所述第三词向量和第四词向量,以及所述新的待推荐文章对应的第一词向量和第二词向量,得到所述新的待推荐文章的推荐值;
23.根据所述新的待推荐文章的推荐值,确定是否更新所述文章推荐列表。
24.在一种可能的实现方式中,所述根据所述新的待推荐文章的推荐值,确定是否更新所述文章推荐列表,具体包括:
25.判断所述新的待推荐文章的推荐值是否大于所述文章推荐列表中所包含的文章对应的推荐值中的最小的一个推荐值;
26.若大于,则将更新所述文章推荐列表,否则,则保持所述文章推荐列表不变。
27.在一种可能的实现方式中,所述更新所述文章推荐列表,具体包括:
28.将所述文章推荐列表中所包含的文章对应的推荐值中的最小的一个推荐值对应的文章从所述文章推荐列表中剔除,并将所述新的待推荐文章加入到所述文章推荐列表。
29.在一种可能的实现方式中,m=1,且所述第二文章集合中文章为所述用户正在浏览的文章,或者,所述第二文章集合中文章为所述用户前次点击的文章;
30.其中,当所述第二文章集合中文章为所述用户前次点击的文章时,所述用户已关闭前一时刻其正在浏览的文章,且未点击新的文章。
31.第二方面,本发明提供了一种电子设备,包括:
32.至少一个存储器,用于存储程序;
33.至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如第一方面所提供的方法。
34.第三方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如第一方面所提供的方法。
35.第四方面,本发明提供了一种计算机程序产品,当所述计算机程序产品在电子设
备上运行时,使得所述电子设备执行如第一方面所提供的方法。
36.相较于现有技术,本发明实施例中提供的文章推荐方法,通过由待推荐的文章中每篇文章的标题的关键词和正文的关键词对应的词向量,以及用户已点击的文章中标题的关键词和正文的关键词对应的词向量,可以得到待推荐的文章中每篇文章的推荐值,进而可以确定出文章推荐列表,并向用户推荐文章,由此使得用户可以高效的获取到其所需的信息。
附图说明
37.图1为本发明实施例提供的一种文章推荐方法的步骤示意图;
38.图2是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
39.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
40.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。
41.此外,需要理解的是,使用“第一”、“第二”、“第三”等词语来限定零部件,仅仅是为了便于对上述零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
42.示例性的,图1是本发明实施例提供的一种文章推荐方法的步骤示意图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图1所示,该方法包括:
43.s101、获取第一文章集合,第一文章集合中包括n篇待推荐的文章,n为大于或等于1的正整数。
44.具体地,在用户正在使用应用程序或浏览网站时,可以但不限于通过网络爬虫的技术自动在网络中获取n篇待推荐的文章,这n篇待推荐文章就构成了第一文章集合。示例性的,待推荐文章的类型可以包括新闻类、娱乐类、体育类、养生类、生活类、学习类等文章中的一种或多种。
45.s102、获取第二文章集合,第二文章集合中包括m篇用户已点击过的文章,m为大于或等于1的正整数。
46.具体地,在用户正在使用应用或浏览网站时,当用户点击文章后,可以从网络上获取到该文章的信息,并存储该文章,这样就获取到了m篇用户已点击过的文章,m为大于或等于1的正整数,其中,这m篇用户已点击过的文章就构成了第二文章集合。
47.作为一种可能的实现方式,m可以等于1,此时,第二文章集合中文章可以为用户正在浏览的文章,或者,第二文章集合中文章为用户前次点击的文章;其中,当第二文章集合中文章为用户前次点击的文章时,用户已关闭前一时刻其正在浏览的文章,且未点击新的
文章。这样,可以根据用户正在浏览或者前次浏览的文章对用户进行推荐,使得推荐后的文章更加符合用户需求,提升了文章推荐的准确度。
48.s103、分别确定第一文章集合中每篇文章对应的第一词向量和第二词向量,第一词向量为文章的标题中关键词对应的词向量,第二词向量为文章中至少包含正文的内容中关键字对应的词向量。
49.具体地,在获取到第一文章集合后,可以分别确定第一文章集合中每篇文章对应的第一词向量和第二词向量,第一词向量为文章的标题中关键词对应的词向量,第二词向量为文章中至少包含正文的内容中关键字对应的词向量。
50.示例性的,针对第一文章集合中的任一文章,可以但不限于先利用jieba分词工具分别对该任一文章的标题和至少包含有正文的内容进行分词,过滤停用词、形容词、介词等词项。然后,再利用keybert技术抽取该任一文章中的标题的关键词的关键词词组和该任一文章中至少包含正文的内容的关键词的关键词词组。最后,再分别通过word2vec模型对关键词词组和关键字短语词组进行处理,得到该任一文章的第一词向量和第二词向量。其中,关键词词组是指关键词的词组,该词组也可以称之为短语,其可以指两个或多个词构成的组合。
51.s104、确定第二文章集合对应的第三词向量和第四词向量,第三词向量为第二文章集合中所有的文章所包含的标题中关键词对应的词向量,第四词向量为第二文章集合中所有的文章中至少包含正文的内容中关键字对应的词向量。
52.具体地,在获取到第二文章集合后,可以将该第二文章集合中的所有文章作为一篇文章,这样,先利用jieba分词工具对这些文章所组成的一篇文章中的标题和至少包含有正文的内容进行分词,过滤停用词、形容词、介词等词项。然后,再利用keybert技术抽取这些文章所组成的一篇文章中的标题的关键词的关键词词组和这些文章所组成的一篇文章中至少包含正文的内容的关键词的关键词词组。最后,再分别通过word2vec模型对关键词词组和关键字短语词组进行处理,得到该第二文章集合对应的的第三词向量和第四词向量。其中,第三词向量为第二文章集合中所有的文章所包含的标题中关键词对应的词向量,第四词向量为第二文章集合中所有的文章中至少包含正文的内容中关键字对应的词向量。
53.s105、根据第三词向量和第四词向量,以及第一文章集合中每篇文章对应的第一词向量和第二词向量,得到第一文章集合中每篇文章的推荐值。
54.具体地,在获取到第一文章集合中每篇文章对应的第一词向量和第二词向量,以及第二文章集合对应的第三词向量和第四词向量后,可以根据第一文章集合中每篇文章对应的第一词向量和第二词向量,以及第二文章集合对应的第三词向量和第四词向量,确定出第一文章集合中每篇文章的推荐值。
55.作为一种可能的实现方式,针对第一文章集合中的任一文章,可以根据第二文章集合对应的第三词向量和该任一文章对应的第一词向量,得到第一相似度值,其中,第一相似度值用于表征任一文章中的标题与第二文章集合中所包含的文章中的标题之间的相似度。其中,可以但不限于通过余弦相似度计算方法,得到第一相似度值。
56.以及,根据第二文章集合对应的第四词向量和该任一文章对应的第二词向量,得到第二相似度值,其中,第二相似度值用于表征任一文章中至少包含正文的内容与第二文章集合中所有的文章中至少包含正文的内容之间的相似度。其中,可以但不限于通过余弦
相似度计算方法,得到第二相似度值。
57.然后,根据第一相似度值和第二相似度值,即可以得到该任一文章对应的推荐值。其中,可以但不限于根据预先设定的文章中标题对应的权重值和文章中至少包含正文的内容对应的权重值,对第一相似度值和第二相似度值进行加权处理,得到该任一文章对应的推荐值。
58.s106、根据n个推荐值,确定文章推荐列表,以及向用户推荐文章推荐列表中的至少一篇文章,其中,文章推荐列表中包括n篇待推荐的文章中的至少一篇文章。
59.具体地,得到第一文章集合中每篇文章对应的推荐之后,可以根据这n个推荐值,确定出文章推荐列表,其中,文章推荐列表中包括n篇待推荐的文章中的至少一篇文章。示例性的,可以根据n个推荐值的大小,从n个推荐值中选取i个推荐值,以及将i个推荐值对应的文章作为文章推荐列表中文章,其中,i为大于或等于1的正整数,i个推荐值中的任一推荐值均大于n个推荐值中剩余的推荐值,i为预先设定的值。示例性的,当推荐值分别为:10、8、7、5、3、2时,若预先设定的i的取值为3,则可以将推荐值10、8和7对应的文章加入至文章推荐列表,这样就得到了文章推荐列表。
60.在得到文章推荐列表后,即可以向用户推荐文章推荐列表中的至少一篇文章。
61.由此,本发明实施例中提供的文章推荐方法,通过由待推荐的文章中每篇文章的标题的关键词和正文的关键词对应的词向量,以及用户已点击的文章中标题的关键词和正文的关键词对应的词向量,可以得到待推荐的文章中每篇文章的推荐值,进而可以确定出文章推荐列表,并向用户推荐文章,由此使得用户可以高效的获取到其所需的信息。
62.在一些实施例中,当获取到新的待推荐文章时,可以基于上文确定文章中标题对应的词向量和至少包含正文的内容对应的词向量的方法,确定出该新的待推荐文章对应的第一词向量和第二词向量。以及,基于上文确定待推荐文章对应的推荐值的方法,根据第二文章集合对应的第三词向量和第二文章集合对应的第四词向量,以及新的待推荐文章对应的第一词向量和第二词向量,得到新的待推荐文章的推荐值。最后,可以根据该新的待推荐文章的推荐值,确定是否更新文章推荐列表。
63.具体地,可以判断该新的待推荐文章的推荐值是否大于文章推荐列表中所包含的文章对应的推荐值中的最小的一个推荐值。其中,若大于,则更新文章推荐列表,否则,则保持文章推荐列表不变。在更新文章推荐列表时,可以将文章推荐列表中所包含的文章对应的推荐值中的最小的一个推荐值对应的文章从文章推荐列表中剔除,并将新的待推荐文章加入到文章推荐列表。例如,原有的文章推荐列表中的文章对应的推荐值分别为:10、8和6,若新的待推荐文章的推荐值为9,该推荐值大于原有的文章推荐列表中的文章对应的最小的推荐值6,所以,这时候可以更新该原有的文章推荐列表。在更新该原有的文章推荐列表时,可以将推荐值6对应的文章从列表中剔除,并将推荐值为9对应的新的待推荐文章加入到原有的文章推荐列表中,这样就得到了新的文章推荐列表。由此,实现了实时动态更新文章推荐列表,使得可以最大程度确保可以向用户推荐最新的文章,提升文章推荐效率和用户体验。
64.可以理解的是,本技术的任意实施例中的各个步骤的执行顺序在不矛盾的前提下,可根据实际情况进行调整,调整后的技术方案也在本技术的范围之内。此外,本技术的任意实施例中的各个步骤也可以选择性执行,此处不做限定。另外,本技术的任意实施例的
任意特征的全部或部分在不矛盾的前提下,可以自由地、任何地组合,组合后的技术方案也在本技术的保护范围之内。
65.图2是本发明公开的一个实施例的电子设备的结构示意图。如图2所示,为了实现上述实施例,本发明实施例还提供了一种电子设备,该电子设备200包括存储器201、处理器202;
66.其中,处理器202通过读取存储器201中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现上述实施例中的文章推荐方法。
67.为了实现上述实施例,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例中的文章推荐方法。
68.为了实现上述实施例,本发明提供了一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如第一方面所提供的方法。
69.可以理解的是,本发明的实施例中的处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
70.本发明的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,ram)、闪存、只读存储器(read-only memory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)、寄存器、硬盘、移动硬盘、cd-rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。
71.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
72.可以理解的是,在本发明的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本发明的实施例的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1