数据推荐方法、装置和系统与流程

文档序号:25685208发布日期:2021-06-30 00:00阅读:86来源:国知局
数据推荐方法、装置和系统与流程

1.本申请属于推荐引擎技术领域,具体涉及一种数据推荐方法、装置和系统。


背景技术:

2.推荐系统最先应用于电子商务领域,是电子商务快速发展的助推器,优秀的推荐系统不仅可以降低交易成本,提升用户的购物体验,更能够推动电子商务生态的良性发展。随着系统成熟,越来越多的企业也将推荐系统用于企业内部。企业应用推荐引擎希望能降低员工查找信息的成本,能够将企业内新闻、邮件、文档库等不同数据源的信息推荐给需要的员工。
3.但是,企业面对内部信息推荐时目前的成熟解决方案很稀缺。发明人发现现有技术当前至少存在以下问题:企业内部信息的数据源众多,并且数据源的结构各异,例如推荐引擎需要推荐的数据可能同时有新闻、邮件、文档或者收文信息,难以做到统一处理并统一推荐。


技术实现要素:

4.本申请实施例的目的是提供一种数据推荐方法、装置和系统,能够解决目前企业内部信息的数据源众多,并且数据源的结构各异,难以做到统一处理并统一推荐的技术问题。
5.为了解决上述技术问题,本申请是这样实现的:
6.第一方面,本申请实施例提供了一种数据推荐方法,应用于数据推荐系统,所述方法包括:
7.通过爬虫技术以及正文识别技术获取目标网址中的网页信息,并将所述网页信息存储到爬虫数据库中;
8.定时获取目标数据,所述目标数据包括所述爬虫数据库中存储的网页信息和企业内业务系统中存储的结构化数据与文件数据;
9.提取所述目标数据的关键词信息,并将所述关键词信息作为数据标签;
10.将所述目标数据统一调整为预设结构数据,预设的结构为“主键、标题、正文、发布时间、来源、数据标签和访问地址”;
11.清除所述预设结构数据中不合格的数据;
12.根据所述预设结构数据以及用户点击记录表,通过推荐算法向目标用户推荐数据;
13.以http协议的方式向其他系统提供推荐的数据。
14.进一步地,所述通过爬虫技术以及正文识别技术获取目标网址中的网页信息,具体为:
15.通过爬虫技术多进程多线程地采集目标网址中的网页信息;
16.对所述网页信息进行分块;
17.计算每个块的文本密度和符号密度;
18.根据所述文本密度和所述符号密度计算块的密度;
19.选取密度最高的块作为目标块,将所述目标块的文本作为所述目标网址的正文。
20.进一步地,所述提取所述目标数据的关键词信息,并将所述关键词信息作为数据标签,具体包括:
21.对所述目标数据进行词语切分;
22.通过tf

idf算法提取评分最高的预设数量的关键词,将所述关键词作为数据标签。
23.进一步地,所述不合格的数据包括:标题不合格的数据、含有敏感词汇的数据和含有列表页面的数据。
24.进一步地,通过推荐算法向目标用户推荐数据,具体为:
25.计算多个用户之间浏览历史记录的相似度,在第一用户与第二用户之间的浏览历史记录的相似度高于第一预设相似度的情况下,将所述第一用户与所述第二用户建立关联关系;
26.将所述第二用户已浏览且所述第一用户未浏览的数据推荐给所述第一用户。
27.进一步地,通过推荐算法向目标用户推荐数据,具体为:
28.在所述目标用户的已浏览的第一内容与未浏览的第二内容的相似度高于第二预设相似度的情况下,将所述第二内容推荐给所述目标用户。
29.进一步地,所述方法还包括:
30.从全体用户的浏览历史记录表中查找出阅读量最高的数据;
31.在已推荐的数据量未达到预设数量的情况下,将所述阅读量最高的数据作为补充内容推荐给目标用户。
32.进一步地,在所述根据所述预设结构数据以及用户点击记录表,通过推荐算法向目标用户推荐数据之后,还包括:
33.在系统数据库中存储每个目标用户的关键词列表;
34.通过tf

idf算法提取新增的第三内容的关键词列表;
35.根据所述每个目标用户的关键词列表与所述第三内容的关键词列表计算拟合度;
36.在所述拟合度高于预设拟合度的情况下,将所述第三内容推荐给相应的目标用户。
37.第二方面,本申请实施例提供了一种数据推荐装置,应用于数据推荐系统,所述装置包括:
38.爬虫模块,用于通过爬虫技术以及正文识别技术获取目标网址中的网页信息,并将所述网页信息存储到爬虫数据库中;
39.获取模块,用于定时获取目标数据,所述目标数据包括所述爬虫数据库中存储的网页信息和企业内业务系统中存储的结构化数据与文件数据;
40.第一提取模块,用于提取所述目标数据的关键词信息,并将所述关键词信息作为数据标签;
41.调整模块,用于将所述目标数据统一调整为预设结构数据,预设的结构为“主键、标题、正文、发布时间、来源、数据标签和访问地址”;
42.清除模块,用于清除所述预设结构数据中不合格的数据;
43.推荐模块,用于根据所述预设结构数据以及用户点击记录表,通过推荐算法向目标用户推荐数据;
44.接口模块,用于以http协议的方式向其他系统提供推荐的数据。
45.进一步地,所述爬虫模块,具体包括:
46.爬虫子模块,用于通过爬虫技术多进程多线程地采集目标网址中的网页信息;
47.分块子模块,用于对所述网页信息进行分块;
48.第一计算子模块,用于计算每个块的文本密度和符号密度;
49.第二计算子模块,用于根据所述文本密度和所述符号密度计算块的密度;
50.选取子模块,用于选取密度最高的块作为目标块,将所述目标块的文本作为所述目标网址的正文。
51.进一步地,所述第一提取模块,具体包括:
52.切分子模块,用于对所述目标数据进行词语切分;
53.提取子模块,用于通过tf

idf算法提取评分最高的预设数量的关键词,将所述关键词作为数据标签。
54.进一步地,所述不合格的数据包括:标题不合格的数据、含有敏感词汇的数据和含有列表页面的数据。
55.进一步地,推荐模块,具体包括:
56.第三计算子模块,计算多个用户之间浏览历史记录的相似度,在第一用户与第二用户之间的浏览历史记录的相似度高于第一预设相似度的情况下,将所述第一用户与所述第二用户建立关联关系;
57.推荐子模块,用于将所述第二用户已浏览且所述第一用户未浏览的数据推荐给所述第一用户。
58.进一步地,推荐模块,具体用于在所述目标用户的已浏览的第一内容与未浏览的第二内容的相似度高于第二预设相似度的情况下,将所述第二内容推荐给所述目标用户。
59.进一步地,所述装置还包括:
60.查找模块,用于从全体用户的浏览历史记录表中查找出阅读量最高的数据;
61.补充推荐模块,用于在已推荐的数据量未达到预设数量的情况下,将所述阅读量最高的数据作为补充内容推荐给目标用户。
62.进一步地,所述装置还包括:
63.存储模块,用于在系统数据库中存储每个目标用户的关键词列表;
64.第二提取模块,用于通过tf

idf算法提取新增的第三内容的关键词列表;
65.计算模块,用于根据所述每个目标用户的关键词列表与所述第三内容的关键词列表计算拟合度;
66.拟合推荐模块,用于在所述拟合度高于预设拟合度的情况下,将所述第三内容推荐给相应的目标用户。
67.第三方面,本申请实施例提供了一种数据推荐系统,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的数据推荐方法的步骤。
68.在本申请实施例中,将爬虫获得的网页数据以及企业内部的各种类型的文件数据统一处理为预设的结构,之后对预设结构数据进行整合处理并推荐提高了企业内部数据推荐的效率与准确性,可以有效降低企业员工查找数据的时间成本。
附图说明
69.图1是本申请实施例提供的一种数据推荐方法的流程示意图;
70.图2是本申请实施例提供的一种推荐算法示意图;
71.图3是本申请实施例提供的另一种推荐算法示意图;
72.图4是本申请实施例提供的一种数据推荐装置的结构示意图。
73.本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
74.为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
75.本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
76.下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据推荐方法进行详细地说明。
77.实施例一
78.参照图1,示出了本申请实施例提供的一种数据推荐方法的流程示意图,应用于数据推荐系统。
79.数据推荐方法包括:
80.s101:通过爬虫技术以及正文识别技术获取目标网址中的网页信息,并将所述网页信息存储到爬虫数据库中。
81.需要说明的是,目标网址可以是企业内员工访问的网址,与可以是关于企业的新闻网站数据。
82.具体地,可以预先配制100多个相关网站的入口地址。
83.可选地,通过爬虫技术以及正文识别技术获取的网页信息的存储结构为“主键、标题、发布时间、正文、网址、抓取时间”。
84.可选地,s101具体可以通过s1011至s1015来实现。
85.s1011:通过爬虫技术多进程多线程地采集目标网址中的网页信息。
86.s1012:对所述网页信息进行分块。
87.s1013:计算每个块的文本密度和符号密度。
88.具体地,文本密度和符号密度可由以下公式进行计算:
[0089][0090][0091]
s1014:根据所述文本密度和所述符号密度计算块的密度。
[0092]
具体地,块的密度可以通过以下公式进行计算:
[0093]
块的密度=log(本密度标准差)
×
文本密度
×
log
10
(标点符号数量+2)
×
符号密度
[0094]
s1015:选取密度最高的块作为目标块,将所述目标块的文本作为所述目标网址的正文。
[0095]
s102:定时获取目标数据,所述目标数据包括所述爬虫数据库中存储的网页信息和企业内业务系统中存储的结构化数据与文件数据。
[0096]
具体地,数据推荐系统的数据库采用jdbc协议,能够从mysql、oracle等主流关系型数据库采集数据,并且可以根据更新标识,实现定时同步数据。
[0097]
可选地,对企业内业务系统中共享文件、ftp、hdfs等进行定时的地采集与更新。
[0098]
可选地,企业内业务系统中的文件信息存储结构为“主键、文件名、附件、上传时间、更新时间、权限”。
[0099]
s103:提取所述目标数据的关键词信息,并将所述关键词信息作为数据标签。
[0100]
具体地,提取关键词信息可以针对只针对标题和正文进行。
[0101]
具体地,步骤s103可以通过步骤s1031和s1032来实现。
[0102]
s1031:对所述目标数据进行词语切分。
[0103]
s1032:通过tf

idf算法提取评分最高的预设数量的关键词,将所述关键词作为数据标签。
[0104]
其中,预设数量可以是10条,本领域技术人员可以根据实际需要地预设数量进行修改。
[0105]
需要说明书的是,提取的标签可以作为后续的推荐算法计算数据相似度时的因子,同时也可以作为用户的标签。
[0106]
s104:将所述目标数据统一调整为预设结构数据,预设的结构为“主键、标题、正文、发布时间、来源、数据标签和访问地址”。
[0107]
举例说明,网页信息的存储结构为“主键、标题、发布时间、正文、网址、抓取时间”,企业内业务系统中的文件信息存储结构为“主键、文件名、附件、上传时间、更新时间、权限”,在经过s104之后,将统一调整为“主键、标题、正文、发布时间、来源、数据标签和访问地址”的结构,便于处理与推荐。
[0108]
s105:清除所述预设结构数据中不合格的数据。
[0109]
其中,所述不合格的数据包括:标题不合格的数据、含有敏感词汇的数据和含有列表页面的数据。
[0110]
s106:根据所述预设结构数据以及用户点击记录表,通过推荐算法向目标用户推荐数据。
[0111]
s107:以http协议的方式向其他系统提供推荐的数据。
[0112]
其中,推荐的数据可以存储在redis中,其他接收推荐数据的系统可以是门户系统。
[0113]
可选地,通过以下三种方式完成对于数据的推荐:
[0114]
方式一
[0115]
参照图2,示出了本申请实施例提供的一种推荐算法示意图。
[0116]
s1061a:计算多个用户之间浏览历史记录的相似度,在第一用户与第二用户之间的浏览历史记录的相似度高于第一预设相似度的情况下,将所述第一用户与所述第二用户建立关联关系。
[0117]
具体地,可以计算出所有用户之间的相似度,并针对每一个用户,可以存储有一个相似度用户列表,并且按照倒序显示与该用户最相似的k个用户,将目标用户与和其相似的k个用户之间建立关联关系。
[0118]
其中,k的具体数值本领域技术人员可以根据实际情况选取。
[0119]
s1061b:将所述第二用户已浏览且所述第一用户未浏览的数据推荐给所述第一用户。
[0120]
参见图2,以新闻数据为例,用户1浏览过news1,new2,用户2浏览过news3,new4,用户3浏览过news1,new2,news4,显然,用户1与用户3的兴趣更具有相似性。此时可以把用户3看过,但用户1尚未看过的新闻(news4)推荐给用户1。
[0121]
通过与目标用户拥有相似兴趣的其他用户的浏览内容来为目标用户推荐数据,可以提高数据推荐的准确性。
[0122]
方式二
[0123]
参照图3,示出了本申请实施例提供的另一种推荐算法示意图。
[0124]
s1062:在所述目标用户的已浏览的第一内容与未浏览的第二内容的相似度高于第二预设相似度的情况下,将所述第二内容推荐给所述目标用户。
[0125]
参见图3,用户小明虽然只看过news1和news2,但是通过对比发现,news1和news3有80%的内容上的相似度,而news2和news4有90%的内容上的相似度,于是,有理由将news3和news4也都推荐给小明。
[0126]
将与用户已浏览内容相似的其他内容推荐给目标用户,可以提高数据推荐的准确性。
[0127]
方式三
[0128]
在以上两种方式难以使用,或者向目标用户推荐的数据量过少的情况下,可以使用以下方法进行数据推荐。
[0129]
s1063a:从全体用户的浏览历史记录表中查找出阅读量最高的数据。
[0130]
s1063b:在已推荐的数据量未达到预设数量的情况下,将所述阅读量最高的数据作为补充内容推荐给目标用户。
[0131]
将阅读量最高的热点内容作为补充内容推送给目标用户,可以满足在特殊情况下推送内容的完整性。
[0132]
可选地,数据推荐方法还可以包括:
[0133]
s108:在系统数据库中存储每个目标用户的关键词列表。
[0134]
s109:通过tf

idf算法提取新增的第三内容的关键词列表。
[0135]
s110:根据所述每个目标用户的关键词列表与所述第三内容的关键词列表计算拟合度。
[0136]
s111:在所述拟合度高于预设拟合度的情况下,将所述第三内容推荐给相应的目标用户。
[0137]
具体地,某用户的为关键词列表{keyword1:value1,keyword2:value2
……
},以及某条数据的关键词列表{nkeyword1:nvalue1,nkeyword2:nvalue2
……
},只需要再做两个map的键匹配与值的运算即可。若有相同的键,则值相乘,多个相同键的值乘积累加。若无相同的键,值记为0。对于所有增来的数据计算该拟合度,将拟合度最高的n个数据推送给目标用户,可以不断的提高推荐效果,提升用户满意度。
[0138]
在本申请实施例中,将爬虫获得的网页数据以及企业内部的各种类型的文件数据统一处理为预设的结构,之后对预设结构数据进行整合处理并推荐提高了企业内部数据推荐的效率与准确性,可以有效降低企业员工查找数据的时间成本。
[0139]
实施例二
[0140]
参照图4,示出了本申请实施例提供的一种数据推荐装置的结构示意图,数据推荐装置40应用于数据推荐系统。数据推荐装置40包括:
[0141]
爬虫模块401,用于通过爬虫技术以及正文识别技术获取目标网址中的网页信息,并将所述网页信息存储到爬虫数据库中;
[0142]
获取模块402,用于定时获取目标数据,所述目标数据包括所述爬虫数据库中存储的网页信息和企业内业务系统中存储的结构化数据与文件数据;
[0143]
第一提取模块403,用于提取所述目标数据的关键词信息,并将所述关键词信息作为数据标签;
[0144]
调整模块404,用于将所述目标数据统一调整为预设结构数据,预设的结构为“主键、标题、正文、发布时间、来源、数据标签和访问地址”;
[0145]
清除模块405,用于清除所述预设结构数据中不合格的数据;
[0146]
推荐模块406,用于根据所述预设结构数据以及用户点击记录表,通过推荐算法向目标用户推荐数据;
[0147]
接口模块407,用于以http协议的方式向其他系统提供推荐的数据。
[0148]
进一步地,所述爬虫模块401,具体包括:
[0149]
爬虫子模块4011,用于通过爬虫技术多进程多线程地采集目标网址中的网页信息;
[0150]
分块子模块4012,用于对所述网页信息进行分块;
[0151]
第一计算子模块4013,用于计算每个块的文本密度和符号密度;
[0152]
第二计算子模块4014,用于根据所述文本密度和所述符号密度计算块的密度;
[0153]
选取子模块4015,用于选取密度最高的块作为目标块,将所述目标块的文本作为所述目标网址的正文。
[0154]
进一步地,所述第一提取模块403,具体包括:
[0155]
切分子模块4031,用于对所述目标数据进行词语切分;
[0156]
提取子模块4032,用于通过tf

idf算法提取评分最高的预设数量的关键词,将所述关键词作为数据标签。
[0157]
进一步地,所述不合格的数据包括:标题不合格的数据、含有敏感词汇的数据和含有列表页面的数据。
[0158]
进一步地,推荐模块406,具体包括:
[0159]
第三计算子模块4061,计算多个用户之间浏览历史记录的相似度,在第一用户与第二用户之间的浏览历史记录的相似度高于第一预设相似度的情况下,将所述第一用户与所述第二用户建立关联关系;
[0160]
推荐子模块4062,用于将所述第二用户已浏览且所述第一用户未浏览的数据推荐给所述第一用户。
[0161]
进一步地,推荐模块406,具体用于在所述目标用户的已浏览的第一内容与未浏览的第二内容的相似度高于第二预设相似度的情况下,将所述第二内容推荐给所述目标用户。
[0162]
进一步地,所述数据推荐装置40还包括:
[0163]
查找模块408,用于从全体用户的浏览历史记录表中查找出阅读量最高的数据;
[0164]
补充推荐模块409,用于在已推荐的数据量未达到预设数量的情况下,将所述阅读量最高的数据作为补充内容推荐给目标用户。
[0165]
进一步地,所述数据推荐装置40还包括:
[0166]
存储模块410,用于在系统数据库中存储每个目标用户的关键词列表;
[0167]
第二提取模块411,用于通过tf

idf算法提取新增的第三内容的关键词列表;
[0168]
计算模块412,用于根据所述每个目标用户的关键词列表与所述第三内容的关键词列表计算拟合度;
[0169]
拟合推荐模块413,用于在所述拟合度高于预设拟合度的情况下,将所述第三内容推荐给相应的目标用户。
[0170]
本申请实施例提供的数据推荐装置40能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
[0171]
在本申请实施例中,将爬虫获得的网页数据以及企业内部的各种类型的文件数据统一处理为预设的结构,之后对预设结构数据进行整合处理并推荐提高了企业内部数据推荐的效率与准确性,可以有效降低企业员工查找数据的时间成本。
[0172]
本申请实施例中的虚拟装置可以是装置,也可以是终端中的部件、集成电路、或芯片。
[0173]
实施例三
[0174]
本申请实施例提供了一种数据推荐系统,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如实施例一所述的数据推荐方法的步骤。且能达到相同的技术效果,为避免重复,这里不再赘述。
[0175]
在本申请实施例中,将爬虫获得的网页数据以及企业内部的各种类型的文件数据统一处理为预设的结构,之后对预设结构数据进行整合处理并推荐提高了企业内部数据推荐的效率与准确性,可以有效降低企业员工查找数据的时间成本。
[0176]
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同
替换、改进等,均应包含在本发明的权利要求范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1