用于在线资讯的处理方法、装置及存储介质与流程

文档序号:33037789发布日期:2023-01-24 20:30阅读:32来源:国知局
用于在线资讯的处理方法、装置及存储介质与流程

1.本发明涉及互联网技术领域,尤其涉及一种用于在线资讯的处理方法、装置及存储介质。


背景技术:

2.在目前的门户网站多种多样,在tob业务中,数据提供方需要向企业、专业机构提供很多资讯,这些资讯需要实时。因此就需要从全网获取主题资讯,每分钟获取的文章数量可能成千上万。
3.并且由于资讯较多,企业、专业机构的业务人员,以及企业家个人,一般也不会查看排名靠后的资讯。
4.但是在每次用户请求读取资讯时,都对所有主题资讯都进行计算和排序,由于不同来源的资讯的数据标准和参数都不相同,分析算法复杂,需要花费较多时间和并且占用大量的硬件资源。


技术实现要素:

5.本发明的实施例提供一种用于在线资讯的处理方法、装置及存储介质,能够提高在线资讯的排序效率,从而减轻后台服务器运算压力。
6.为达到上述目的,本发明的实施例采用如下技术方案:
7.第一方面,本发明的实施例提供的方法,包括:
8.根据所设定的主题,从目标数据源获取资讯;确定所获取的资讯中的指标参数的类型,并对来自不同目标数据源的资讯进行维度补齐换算;按照维度补齐换算后的指标参数,对来自不同目标数据源的资讯进行排序,并按照排序结果向客户端推送资讯。
9.第二方面,本发明的实施例提供的装置,包括:
10.提取模块,用于根据所设定的主题,从目标数据源获取资讯;
11.处理模块,用于确定所获取的资讯中的指标参数的类型,并对来自不同目标数据源的资讯进行维度补齐换算;
12.排序模块,用于按照维度补齐换算后的指标参数,对来自不同目标数据源的资讯进行排序;
13.发送模块,用于按照排序结果向客户端推送资讯。
14.第三方面,本发明的实施例提供的存储介质,存储有计算机程序或指令,当所述计算机程序或指令被运行时,实现第一方面的实施例提供的方法所述的方法。
15.本发明实施例提供的用于在线资讯的处理方法、装置及存储介质,根据所设定的主题,从目标数据源获取资讯;确定所获取的资讯中的指标参数的类型,并对来自不同目标数据源的资讯进行维度补齐换算;按照维度补齐换算后的指标参数,对来自不同目标数据源的资讯进行排序,并按照排序结果向客户端推送资讯。相对于现有技术中,若每次若全部都进行排序,则会浪费较多资源,给后台服务器造成压力。本发明实施例中,通过快速补充
缺失的指标参数类型,并对前30篇进行排序。从而可以统一来自不同来源的各个资讯,并进行排序,从而可以简化资讯的排序算法,提高在线资讯的排序效率,减轻后台服务器运算压力,从而加快排序速度。
附图说明
16.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
17.图1为本发明实施例提供的方法流程示意图;
18.图2为本发明实施例提供的装置结构示意图。
具体实施方式
19.为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
20.本发明实施例提供一种用于在线资讯的处理方法,如图1所示,包括:
21.s1、根据所设定的主题,从目标数据源获取资讯。
22.s2、确定所获取的资讯中的指标参数的类型,并对来自不同目标数据源的资讯进行维度补齐换算。
23.其中,可以预先进行试验调查,从而确定网站上的一篇文章吸引力用到的维度。所述指标参数的类型还包括:点赞量、转发量、评论量和打赏量。本实施例中,通过维度补齐换算,将不同来源的资讯的指标参数进行统一。首先确定各个目标数据源所具有的全部指标参数的类型,并判断各个目标数据源的资讯所缺失的指标参数的类型。并对各个目标数据源所缺失的指标参数进行补全,使得来自不同目标数据源的资讯具有相同的指标参数。例如:文章分别来自:东方财富网、创业邦、雷锋网,3个网站。其中,东方财富网的文章没有阅读量,只有收藏量。创业邦、雷锋网的文章,既有阅读量又有收藏量,需要对东方财富网的文
章进行维度补齐换算,使之也具有阅读量。
24.s3、按照维度补齐换算后的指标参数,对来自不同目标数据源的资讯进行排序,并按照排序结果向客户端推送资讯。
25.本实施例中,步骤s1中,包括:从主题字段中提取关键词。从作为目标数据源的网站,提取符合所述关键词的文章。实际应用中,服务器设备可以根据主题定义从目标数据源获取资讯。
26.本实施例中,步骤s2中,包括:从各个目标数据源的网站中,确定指标参数的类型,其中,指标参数的类型至少包括:收藏量和阅读量。
27.进一步的,所述对来自不同目标数据源的资讯进行维度补齐换算,包括:
28.提取第一网站至第m网站的文章。确定第m指标参数与目标指标参数的比例系数。根据所确定的比例系数,分别获取各个网站的文章相对于所述目标指标参数所缺失指标参数。其中,m为大于1的正整数。所述第m网站的文章的指标参数作为第m指标参数,1≤m≤m,所述第m指标参数的类型包括目标指标参数的类型中的一部分,至少有一个网站的文章的指标参数的类型最多且作为所述目标指标参数。比如:所提取的网站中,存在一个网站的指标参数是齐全的。从a网站爬取到50篇相关文章,包括了各篇文章的阅读量和收藏量,然后计算出50篇文章的平均阅读量和平均收藏量,并计算的比例系数α=平均阅读量/平均收藏量。b网站爬取到了40篇文章,但是b网站只有收藏量,没有阅读量。那么补齐b网站文章的阅读量的方法是α
×
阅读量(b网站上获取的各篇文章),以此来进行补齐。
29.举例来说,先用创业邦和雷锋网的文章,计算出,阅读量与收藏量的比例系数(比例系数=阅读量平均值/收藏量平均值);再将东方财富网的每篇文章的收藏量,都乘以上一步得到的“阅读量与收藏量的比例系数”,即可换算出,每篇文章对应的阅读量。
30.其中,可以建立一个机器学习回归模型,先爬取各个网站合集10000个文章样本。以阅读量为标签,以点赞量、收藏量、评论量,为特征。建立“线性回归模型”,:上述1000个文章送入模型,进行训练,得到训练好的,具有对阅读量,有预测能力的模型。将缺失阅读量的文章(这些数据有:阅读量,点赞量,评论量,其中的一种或者几种),送入到前一步训练好的模型中,通过模型预测得到,该文章的“阅读量”。
31.本实施例中,步骤s3中,包括:获取各个指标参数的权重。按照维度补齐换算后的指标参数和各个指标参数的权重,对来自不同目标数据源的资讯进行排序。具体的,可以从对排序的结果中,提取第1至第n篇资讯并向客户端推送,其中,n为大于1的正整数。
32.在实际应用中,n为一个预设的值,可以依据具体的应用场景,以及具体的业务负载情况设定。
33.在优选方案中,可以提取前30篇资讯并向客户端推送,即1≤n≤30。例如:可以先通过文字识别找到标题具有吸引力的文章,这是文章排在前面的大前提(先取阅读量前60)。再在这60篇文章中,找到内容内容具有吸引力靠前的文章(再取收藏量前30)。最终,筛选出来的30篇文章,按照阅读量进行排序。
34.本实施例中,还提供一种用于在线资讯的处理装置,如图2所示的,包括:
35.提取模块,用于根据所设定的主题,从目标数据源获取资讯。
36.处理模块,用于确定所获取的资讯中的指标参数的类型,并对来自不同目标数据源的资讯进行维度补齐换算。
37.排序模块,用于按照维度补齐换算后的指标参数,对来自不同目标数据源的资讯进行排序。
38.发送模块,用于按照排序结果向客户端推送资讯。
39.本实施例中,所述提取模块,用于从主题字段中提取关键词。从作为目标数据源的网站,提取符合所述关键词的文章。所述指标参数的类型还包括:收藏量、阅读量、点赞量、转发量、评论量和打赏量。
40.所述处理模块,具体用于从各个目标数据源的网站中,确定指标参数的类型。之后提取第一网站至第m网站的文章,其中,m为大于1的正整数。确定第m指标参数与目标指标参数的比例系数,其中,所述第m网站的文章的指标参数作为第m指标参数,1≤m≤m,所述第m指标参数的类型包括目标指标参数的类型中的一部分,至少有一个网站的文章的指标参数的类型最多且作为所述目标指标参数。之后根据所确定的比例系数,分别获取各个网站的文章相对于所述目标指标参数所缺失指标参数
41.本实施例中,还提供一种存储介质,存储有计算机程序或指令,当所述计算机程序或指令被运行时,实现本实施例中所述的方法。
42.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1