基于大数据和人工智能的信息采集方法及数字内容服务平台与流程

文档序号:24235234发布日期:2021-03-12 13:06阅读:来源:国知局

技术特征:

1.一种基于大数据和人工智能的信息采集方法,其特征在于,应用于数字内容服务平台,所述数字内容服务平台与多个数字内容订阅设备通信连接,所述方法包括:

获取基于信息推送策略的当前信息推送来源获得的业务功能区采集进程;

获取所述业务功能区采集进程的关键采集节点运行分布中的多个关键运行采集节点的采集大数据标签信息;每个关键运行采集节点用于表示所述业务功能区采集进程在采集准备过程中需要被采集的一个或者多个采集页面对象,且所述每个关键运行采集节点所表示的采集页面对象的采集特征项需要采集激活;任一关键运行采集节点的采集大数据标签信息用于反映所述任一关键运行采集节点和其它关键运行采集节点之间的采集类型关系;

根据各关键运行采集节点的采集大数据标签信息,将至少两个关键运行采集节点业务分层为目标业务分层采集计划,所述目标业务分层采集计划用于指示对被业务分层的关键运行采集节点所表示的采集页面对象的采集特征项进行采集配置;

采用所述目标业务分层采集计划更新所述关键采集节点运行分布,并将更新后的关键采集节点运行分布发送至软件采集计划的采集配置进程,所述更新后的关键采集节点运行分布用于指示所述软件采集计划的采集配置进程按照所述目标业务分层采集计划的指示,在所述业务功能区采集进程的采集准备过程中对所述被业务分层的关键运行采集节点所表示的采集页面对象的采集特征项进行采集配置,并输出采集配置结果。

2.根据权利要求1所述的基于大数据和人工智能的信息采集方法,其特征在于,所述多个关键运行采集节点对应一个目标信息采集链,所述目标信息采集链是基于各关键运行采集节点在所述关键采集节点运行分布中的采集链分布关系,采用多条采集迁移链条连接所述各关键运行采集节点得到的;

所述采集链分布关系用于指示:一个关键运行采集节点沿着所述关键采集节点运行分布中的至少一条采集运行链条配合其它关键运行采集节点的采集关系;

任一关键运行采集节点的采集计划数据标签信息包括以下至少一项:所述任一关键运行采集节点的采集计划分区序列和所述任一关键运行采集节点的逆采集计划分区序列;

所述任一关键运行采集节点的采集计划分区序列中的采集计划分区为:从所述目标信息采集链中的最先关键运行采集节点至所述任一关键运行采集节点的所有正向采集方式均覆盖的关键运行采集节点;

其中,所述任一关键运行采集节点的采集计划分区序列中相隔所述任一关键运行采集节点最先的采集计划分区,为所述任一关键运行采集节点的最先采集计划分区;

所述任一关键运行采集节点的逆采集计划分区序列中的逆采集计划分区为:从所述目标信息采集链对应的逆采集关系中的最先关键运行采集节点至所述任一关键运行采集节点的所有逆向采集方式均覆盖的关键运行采集节点;

其中,所述任一关键运行采集节点的逆采集计划分区序列中相隔所述任一关键运行采集节点最先的逆采集计划分区,为所述任一关键运行采集节点的最先逆采集计划分区;

所述逆采集关系是指对所述目标信息采集链中的各条采集迁移链条进行逆处理所得到的采集关系;

所述根据各关键运行采集节点的采集大数据标签信息,将至少两个关键运行采集节点业务分层为目标业务分层采集计划,包括:

根据各关键运行采集节点的采集大数据标签信息,构建由所述多个关键运行采集节点构成的采集计划数据标签网络;

基于所述采集计划数据标签网络,提取业务分层分布信息;

所述业务分层分布信息包括:多层业务分层所需的采集计划序列,每个采集计划序列中至少存在一个采集计划为所述关键运行采集节点;

按照所述业务分层分布信息对所述多个关键运行采集节点进行至少一层业务分层迭代处理,得到目标业务分层采集计划。

3.根据权利要求2所述的基于大数据和人工智能的信息采集方法,其特征在于,所述根据各关键运行采集节点的采集大数据标签信息,构建由所述多个关键运行采集节点构成的采集计划数据标签网络,包括:

将所述目标信息采集链中的最先关键运行采集节点作为采集计划数据标签网络的参照采集计划,并确定所述多个关键运行采集节点中除所述目标信息采集链中的最先关键运行采集节点以外的剩余关键运行采集节点;

从每个剩余关键运行采集节点的采集大数据标签信息中的采集计划分区序列中,获取所述每个剩余关键运行采集节点的最先采集计划分区;

根据所述每个剩余关键运行采集节点的最先采集计划分区,确定各关键运行采集节点之间的最先采集类型关系;

按照所述最先采集类型关系将所述各剩余关键运行采集节点添加至所述参照采集计划下,以得到采集计划数据标签网络。

4.根据权利要求2所述的基于大数据和人工智能的信息采集方法,其特征在于,所述采集计划数据标签网络中除参照采集计划以外的每个关键运行采集节点的父采集计划为:所述每个关键运行采集节点的最先采集计划分区;所述多个关键运行采集节点中存在w个采集计划数据标签组合,一个采集计划数据标签组合关联至少一层业务分层所需的采集计划序列;其中,w为正整数;

所述基于所述采集计划数据标签网络,提取业务分层分布信息,包括:

按照标签优先级的针对性处理顺序,从所述采集计划数据标签网络中未被针对性处理的关键运行采集节点中选取第一关键运行采集节点;

根据除所述目标信息采集链中的最后关键运行采集节点以外的各关键运行采集节点的逆采集计划分区序列,检测是否存在第二关键运行采集节点和所述第一关键运行采集节点构成第w个采集计划数据标签组合,w∈[1,w];

所述第二关键运行采集节点满足如下条件:所述第二关键运行采集节点为所述第一关键运行采集节点的最先采集计划分区,且所述第一关键运行采集节点为所述第二关键运行采集节点的最先逆采集计划分区;

若存在,则根据所述第二关键运行采集节点从所述多个关键运行采集节点中,选取至少一个关键运行采集节点添加至与所述第w个采集计划数据标签组合关联的目标业务分层所需的采集计划序列中,并继续针对性处理所述采集计划数据标签网络;若不存在,则重新选取第一关键运行采集节点,直至所述采集计划数据标签网络中的各关键运行采集节点均被针对性处理。

5.根据权利要求4所述的基于大数据和人工智能的信息采集方法,其特征在于,所述若存在,则根据所述第二关键运行采集节点从所述多个关键运行采集节点中,选取至少一个关键运行采集节点添加至与所述第w个采集计划数据标签组合关联的目标业务分层所需的采集计划序列中,包括:

若存在,则从所述采集计划数据标签网络中获取所述第二关键运行采集节点的扩展采集计划序列;

若所述扩展采集计划序列中只包括所述第一关键运行采集节点以及所述第一关键运行采集节点的扩展采集计划,则选取所述第一关键运行采集节点和所述第二关键运行采集节点,添加至与所述第w个采集计划数据标签组合关联的目标业务分层所需的采集计划序列中;

若所述扩展采集计划序列中包括除所述第一关键运行采集节点以及所述第一关键运行采集节点的扩展采集计划以外的其它扩展采集计划,则选取所述其它扩展采集计划添加至所述目标业务分层所需的采集计划序列中。

6.根据权利要求5所述的基于大数据和人工智能的信息采集方法,其特征在于,所述选取所述第一关键运行采集节点和所述第二关键运行采集节点,添加至与所述第w个采集计划数据标签组合关联的目标业务分层所需的采集计划序列中,包括:

检测前w-1个采集计划数据标签组合关联的历史层业务分层所需的采集计划序列中,是否存在第一历史采集计划序列包括所述第一关键运行采集节点;

若存在所述第一历史采集计划序列,则将所述第一历史采集计划序列对应的业务分层采集计划和所述第二关键运行采集节点,添加至与所述第w个采集计划数据标签组合关联的目标业务分层所需的采集计划序列中;

若不存在所述第一历史采集计划序列,则将所述第一关键运行采集节点和所述第二关键运行采集节点添加至所述目标业务分层所需的采集计划序列中。

7.根据权利要求5所述的基于大数据和人工智能的信息采集方法,其特征在于,所述选取所述其它扩展采集计划添加至所述目标业务分层所需的采集计划序列中,包括:

检测前w-1个采集计划数据标签组合关联的历史层业务分层所需的采集计划序列中,是否存在第二历史采集计划序列包括所述其它扩展采集计划所对应的业务分层采集计划;

若存在所述第二历史采集计划序列,则将所述第二历史采集计划序列对应的业务分层采集计划、所述第一关键运行采集节点以及所述第二关键运行采集节点,添加至所述目标业务分层所需的采集计划序列中;

若不存在所述第二历史采集计划序列,则将所述其它扩展采集计划添加至所述目标业务分层所需的采集计划序列中,并将由所述其它扩展采集计划业务分层的业务分层采集计划、所述第一关键运行采集节点以及所述第二关键运行采集节点,添加至与所述第w个采集计划数据标签组合关联的位于所述目标业务分层之下的下一标签业务分层所需的采集计划序列中。

8.根据权利要求1-7中任意一项所述的基于大数据和人工智能的信息采集方法,其特征在于,所述采用所述目标业务分层采集计划更新所述关键采集节点运行分布,包括:

在所述关键采集节点运行分布中增加所述目标业务分层采集计划,并采用采集迁移链条连接所述目标业务分层采集计划和所述被业务分层的关键运行采集节点;

在所述关键采集节点运行分布中为未被业务分层的关键运行采集节点增加一个匹配的采集计划,以及在所述关键采集节点运行分布中为所述目标业务分层采集计划增加一个匹配的采集计划。

9.根据权利要求1-8中任意一项所述的基于大数据和人工智能的信息采集方法,其特征在于,所述获取基于信息推送策略的当前信息推送来源获得的业务功能区采集进程的步骤,包括:

获取所述数字内容订阅设备的信息推送运行容器,通过信息推送服务对所述信息推送运行容器进行信息推送策略解析,得到所述信息推送运行容器中信息推送来源的信息推送策略信息,其中,所述信息推送运行容器为基于用户反馈画像进行生成的各个信息推送来源所绑定的信息推送策略构成的云计算容器;

基于所述信息推送来源的信息推送策略信息进行业务功能区分析,得到所述信息推送来源的目标业务功能区;

基于采集时空序控制脚本对所述信息推送运行容器进行采集时空序控制记录信息解析,得到所述信息推送来源的采集时空序控制记录信息;

将所述信息推送运行容器中信息推送来源的目标业务功能区与所述信息推送来源的采集时空序控制记录信息进行业务功能区更新,得到所述信息推送来源的业务功能区更新信息,并基于所述信息推送来源的业务功能区更新信息对所述信息推送策略进行信息采集分区定位,得到所述信息推送来源的当前信息采集策略;

根据所述信息推送来源的当前信息采集策略进行脚本注入获得对应的业务功能区采集进程;

所述获取所述业务功能区采集进程的关键采集节点运行分布中的多个关键运行采集节点的采集大数据标签信息的步骤,包括:

提取所述业务功能区采集进程中的每个关键采集节点,以根据所述每个关键采集节点的业务关系构建关键采集节点运行分布,并根据每个所述关键运行采集节点和其它关键运行采集节点之间的采集类型关系获得所述每个关键采集节点的采集大数据标签信息,其中,每个所述关键运行采集节点和其它关键运行采集节点之间的采集类型关系为所述业务功能区采集进程中的进程配置信息中获得。

10.一种数字内容服务平台,其特征在于,所述数字内容服务平台包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相连,所述网络接口用于与至少一个数字内容订阅设备通信连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行权利要求1-9中任意一项的基于大数据和人工智能的信息采集方法。


技术总结
本申请实施例提供一种基于大数据和人工智能的信息采集方法及数字内容服务平台,通过将至少两个关键运行采集节点业务分层为目标业务分层采集计划,以用于指示对被业务分层的关键运行采集节点所表示的采集页面对象的采集特征项进行采集配置。然后,可采用目标业务分层采集计划更新关键采集节点运行分布,并将更新后的关键采集节点运行分布发送至软件采集计划的采集配置进程,使得软件采集计划的采集配置进程在配置业务功能区采集进程的过程中可按照目标业务分层采集计划的指示对被业务分层的关键运行采集节点所表示的采集页面对象的采集特征项进行采集配置,从而减少采集配置的重调用次数,以节省采集数据的归纳时间并提高采集计划的执行效率。

技术研发人员:夏红梅
受保护的技术使用者:夏红梅
技术研发日:2020.12.17
技术公布日:2021.03.12
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1