基于人工智能的互联网大数据处理方法及智能云服务平台与流程

文档序号:22324525发布日期:2020-09-25 17:52阅读:107来源:国知局
基于人工智能的互联网大数据处理方法及智能云服务平台与流程

本公开涉及大数据及人工智能技术领域,具体而言,涉及一种基于人工智能的互联网大数据处理方法及智能云服务平台。



背景技术:

随着移动互联网技术的快速发展,各种互联网访问行为增加,通过大数据采集可以为后续的用户画像分析提供数据支持。然而,传统的画像标签生成过程中,标签生成速度和生成准确性均有待改进。



技术实现要素:

为了至少克服现有技术中的上述不足,本公开的目的在于提供一种基于人工智能的互联网大数据处理方法及智能云服务平台,通过预先配置的数据采集脚本对移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,然后从特征样本集合中提取出对应的画像特征向量,该画像特征向量可作为共享画像特征向量,并在共享画像特征向量的基础上分别提取第一特征样本中的画像数据区域和第二特征样本中与画像数据区域对应的关键数据区域,由此进行画像标签生成,能够显著地提高标签生成速度和生成准确性。

第一方面,本公开提供一种基于人工智能的互联网大数据处理方法,应用于智能云服务平台,所述智能云服务平台与多个移动互联网终端通信连接,所述方法包括:

通过预先配置的数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,所述特征样本集合包括第一特征样本和第二特征样本,所述第二特征样本为所述第一特征样本存在互联网业务关联的特征样本;

根据预先配置的人工智能模型依次对所述特征样本集合中的各特征样本进行画像特征解析,得到对应的画像特征向量,并基于所述第一特征样本对应的画像特征向量,确定所述第一特征样本中的画像数据区域,根据与所述画像数据区域对应的目标画像数据区域,从所述第一特征样本对应的画像特征向量中提取出目标特征向量,并从所述第二特征样本对应的画像特征向量中提取出第一候选特征向量,所述第一候选特征向量对应的数据区域覆盖于所述目标特征向量对应的数据区域;

从所述第一候选特征向量中查找与所述目标特征向量匹配的特征向量节点,并根据查找到的所述特征向量节点确定所述第二特征样本中与所述画像数据区域对应的关键数据区域;

根据所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域生成所述移动互联网终端的画像标签信息。

在第一方面的一种可能的实现方式中,所述根据所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域生成所述移动互联网终端的画像标签信息的步骤,包括:

获取由所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域之间的共同数据区域所构成的目标数据区域;

根据所述目标数据区域中数据索引目标之间的索引制约关系建立索引制约位图,并确定每个数据索引目标在所述索引制约位图中的索引节点;

根据每个数据索引目标的索引节点确定每个数据索引目标所在索引业务,将每个数据索引目标所在索引业务所组成的集合确定为汇总索引聚合业务,并对所述汇总索引聚合业务中任意两个数据索引目标的索引节点进行比较,基于比较结果得到任意两个数据索引目标所在索引业务的相互主导关系;

基于任意两个数据索引目标所在索引业务的相互主导关系,将所述汇总索引聚合业务划分为至少一个索引聚合业务序列,每个索引聚合业务序列具有不同的聚合数量级别;

当所述目标数据区域中加入热点数据索引目标时,确定所述热点数据索引目标在所述索引制约位图中的目标索引节点,并将所述目标索引节点与所述至少一个索引聚合业务序列中的数据索引目标的索引节点进行比较,基于比较结果确定所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列;

将所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列中所包括的业务标签,作为所述移动互联网终端的画像标签信息。

在第一方面的一种可能的实现方式中,所述根据所述目标数据区域中数据索引目标之间的索引制约关系建立索引制约位图的步骤,包括:

获取所述目标数据区域中数据索引目标所形成的索引序列;

根据每个数据索引目标在所述索引序列中的出现次数确定每个数据索引目标所在索引业务的聚合数量级别;

对不同出现节点上的数据索引目标所在索引业务按照聚合数量级别进行降序排序;

在第一预设出现节点上,将排序最后的数据索引目标所在索引业务到排序最前的数据索引目标所在索引业务的趋向确定为所述索引制约位图的第一维度轴向的第一趋向;

将与所述第一维度轴向的第一趋向存在正向交叉的趋向确定为所述索引制约位图的第二维度轴向,所述第二维度轴向的第一趋向为第二预设出现节点上排序最后的数据索引目标所在索引业务到排序最前的数据索引目标所在索引业务的趋向。

在第一方面的一种可能的实现方式中,所述对所述汇总索引聚合业务中任意两个数据索引目标的索引节点进行比较,基于比较结果得到任意两个数据索引目标所在索引业务的相互主导关系的步骤,包括:

比较所述汇总索引聚合业务中任意两个数据索引目标的索引节点对应的数据量大小,当数据量大小满足第一条件或第二条件,则任意两个数据索引目标中的其中一个数据索引目标所在索引业务能够主导另一个数据索引目标所在索引业务;

其中,所述第一条件为所述其中一个数据索引目标的第一趋向数据量大小数值大于所述另一个数据索引目标的第一趋向数据量大小数值且所述其中一个数据索引目标的第二趋向数据量大小数值大于或等于所述另一个数据索引目标的第二趋向数据量大小数值,所述第二条件为所述其中一个数据索引目标的第一趋向数据量大小数值等于所述另一个数据索引目标的第一趋向数据量大小数值且所述其中一个数据索引目标的第二趋向数据量大小数值大于所述另一个数据索引目标的第二趋向数据量大小数值。

在第一方面的一种可能的实现方式中,所述基于任意两个数据索引目标所在索引业务的相互主导关系,将所述汇总索引聚合业务划分为至少一个索引聚合业务序列,每个索引聚合业务序列具有不同的聚合数量级别的步骤,包括:

将所述汇总索引聚合业务作为第一聚合业务,并根据所述第一聚合业务中任意两个数据索引目标所在索引业务的相互主导关系,从所述第一聚合业务中确定出不被其它任意一个索引聚合业务主导的至少一个第一选定索引聚合业务;

将所述至少一个第一选定索引聚合业务所组成的集合确定为第一级索引聚合业务序列;

当第a聚合业务中除第a级索引聚合业务序列之外的其它索引聚合业务的范围大于或等于第一阈值时,将所述第a聚合业务中除所述第a级索引聚合业务序列之外的其它索引聚合业务确定为第a+1聚合业务;

根据所述第a+1聚合业务中任意两个数据索引目标所在索引业务的相互主导关系,从所述第a+1聚合业务中确定出不被其它任意一个区域主导的至少一个第a+1选定索引聚合业务,将所述至少一个第a+1选定索引聚合业务所组成的集合确定为第a+1级索引聚合业务序列;

其中,a=1,2,……,n,n为正整数,当a=n时,所述第a聚合业务中除所述第a级索引聚合业务序列之外的其它索引聚合业务的范围等于所述第一阈值,所述聚合数量级别对应的数值与所述聚合数量级别成反比关系。

在第一方面的一种可能的实现方式中,所述将所述目标索引节点与所述至少一个索引聚合业务序列中的数据索引目标的索引节点进行比较,基于比较结果确定所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列的步骤,包括:

比较所述目标索引节点对应的数值与第一数据索引目标的索引节点对应的数据量大小;

当数据量大小满足第三条件或第四条件,则对每个索引聚合业务序列的聚合数量级别进行降级处理,并将所述热点数据索引目标所在索引业务确定为目标第一级索引聚合业务序列,所述目标第一级索引聚合业务序列为所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列;

其中,所述第一数据索引目标为第一级索引聚合业务序列中的数据索引目标,所述第三条件为所述目标索引节点的第二趋向数据量大小数值大于或等于所述第一数据索引目标的第二趋向数据量大小数值且所述目标索引节点的第一趋向数据量大小数值大于所述第一数据索引目标的第一趋向数据量大小数值,所述第四条件为所述目标索引节点的第二趋向数据量大小数值大于所述第一数据索引目标的第二趋向数据量大小数值且所述目标索引节点的第一趋向数据量大小数值等于所述第一数据索引目标的第一趋向数据量大小数值;

比较所述目标索引节点对应的数值与第二数据索引目标的索引节点对应的数据量大小;

当数据量大小满足第五条件或第六条件,则将所述热点数据索引目标所在索引业务确定为第n+2级索引聚合业务序列,并将第n+2级索引聚合业务序列确定为所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列;

其中,所述第二数据索引目标为第n+1级索引聚合业务序列中的数据索引目标,所述第五条件为所述目标索引节点的第二趋向数据量大小数值小于或等于所述第二数据索引目标的第二趋向数据量大小数值且所述目标索引节点的第一趋向数据量大小数值小于所述第二数据索引目标的第一趋向数据量大小数值,所述第六条件为所述目标索引节点的第二趋向数据量大小数值小于所述第二数据索引目标的第二趋向数据量大小数值且所述目标索引节点的第一趋向数据量大小数值等于所述第二数据索引目标的第一趋向数据量大小数值;

比较所述目标索引节点对应的数值与第三数据索引目标的索引节点对应的数据量大小;

当数据量大小满足第七条件或第八条件,则对每个第三数据索引目标所在的各个索引聚合业务序列的聚合数量级别对应的数值进行升序排序,将排序最前的数值对应的索引聚合业务序列确定为所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列;

其中,所述第三数据索引目标所在的索引聚合业务序列的聚合数量级别位于第一级索引聚合业务序列的聚合数量级别与第n+1级索引聚合业务序列的聚合数量级别之间,所述第七条件为所述目标索引节点的第二趋向数据量大小数值大于或等于所述第三数据索引目标的第二趋向数据量大小数值且所述目标索引节点的第一趋向数据量大小数值小于所述第三数据索引目标的第一趋向数据量大小数值,所述第八条件为所述目标索引节点的第二趋向数据量大小数值大于所述第三数据索引目标的第二趋向数据量大小数值且所述目标索引节点的第一趋向数据量大小数值等于所述第三数据索引目标的第一趋向数据量大小数值。

在第一方面的一种可能的实现方式中,在所述将所述目标索引节点与所述至少一个索引聚合业务序列中的数据索引目标的索引节点进行比较,基于比较结果确定所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列之前,所述方法还包括:

判断所述汇总索引聚合业务中是否存在第一趋向数据量大小数值相同或第二趋向数据量大小数值相同的至少一个数据索引目标;

若存在第一趋向数据量大小数值相同或第二趋向数据量大小数值相同的至少一个数据索引目标,则将第一趋向数据量大小数值相同或第二趋向数据量大小数值相同的至少一个数据索引目标作为候选数据索引目标;

对所述候选数据索引目标执行第一策略或第二策略,得到调整后的索引节点,所述第一策略为使候选数据索引目标的第一趋向数据量大小数值或第二趋向数据量大小数值增加与所述候选数据索引目标对应的预设数值,所述第二策略为使候选数据索引目标的第一趋向数据量大小数值或第二趋向数据量大小数值减去与所述候选数据索引目标对应的预设数值;

相应地,所述将所述目标索引节点与所述至少一个索引聚合业务序列中的数据索引目标的索引节点进行比较,基于比较结果确定所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列,包括:

将所述目标索引节点与调整后的索引节点进行比较,基于比较结果确定所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列。

在第一方面的一种可能的实现方式中,所述通过预先配置的数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作的步骤,包括:

在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息;

根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息;

通过大数据采集控件将所述数据采集识别节点信息关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据所述数据采集识别节点信息对所述数据采集脚本进行配置后,执行大数据采集;

在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,其中,在进行数据采集识别操作的过程中,通过所述数据上传路径持续根据获得的数据采集识别节点信息对所述数据采集脚本进行更新配置。

在第一方面的一种可能的实现方式中,所述根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息的步骤,包括:

根据与所述互联网功能业务信息相对应的主题域信息确定所述互联网功能业务信息中每个业务重要优先级大于设定优先级的目标互联网功能业务,以及以所述目标互联网功能业务为业务基础区域的第一识别对象和第二识别对象,所述第一识别对象的模拟数据采集进程与所述第二识别对象的模拟数据采集进程不重合,并且相互之间存在逻辑关联;

确定所述第一识别对象中符合第一目标要求的主题域字段对象,根据所述符合第一目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定所述第一识别对象对应的第一滑动组件信息;其中,所述符合第一目标要求的主题域字段对象为源数据表字段信息匹配于所述关联的预设字段验证信息的主题域字段对象;

确定所述第二识别对象中符合第二目标要求的主题域字段对象,根据所述符合第二目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定所述第二识别对象对应的第二滑动组件信息;其中,所述符合第二目标要求的主题域字段对象为源数据表字段信息匹配于所述关联的预设字段验证信息的主题域字段对象;

根据所述第一识别对象对应的第一滑动组件信息,得到所述主题域字段对象在每个第一模拟数据采集进程的回调采集模拟参数,并根据所述第二识别对象中的第二滑动组件信息,得到所述主题域字段对象在每个第二模拟数据采集进程的回调采集模拟参数;

根据所述每个第一模拟数据采集进程和每个第二模拟数据采集进程的回调采集模拟参数,分别对所述主题域字段对象在每个模拟数据采集进程进行模拟采集索引,得到每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息;

根据所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息得到对应的模拟采集索引信息;

根据所述模拟采集索引信息,生成对应的数据采集识别节点信息。

第二方面,本公开实施例还提供一种基于人工智能的互联网大数据处理装置,应用于智能云服务平台,所述智能云服务平台与多个移动互联网终端通信连接,所述装置包括:

获取模块,用于通过预先配置的数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,所述特征样本集合包括第一特征样本和第二特征样本,所述第二特征样本为所述第一特征样本存在互联网业务关联的特征样本;

解析模块,用于根据预先配置的人工智能模型依次对所述特征样本集合中的各特征样本进行画像特征解析,得到对应的画像特征向量,并基于所述第一特征样本对应的画像特征向量,确定所述第一特征样本中的画像数据区域,根据与所述画像数据区域对应的目标画像数据区域,从所述第一特征样本对应的画像特征向量中提取出目标特征向量,并从所述第二特征样本对应的画像特征向量中提取出第一候选特征向量,所述第一候选特征向量对应的数据区域覆盖于所述目标特征向量对应的数据区域;

确定模块,用于从所述第一候选特征向量中查找与所述目标特征向量匹配的特征向量节点,并根据查找到的所述特征向量节点确定所述第二特征样本中与所述画像数据区域对应的关键数据区域;

生成模块,用于根据所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域生成所述移动互联网终端的画像标签信息。

第三方面,本公开实施例还提供一种基于人工智能的互联网大数据处理系统,所述基于人工智能的互联网大数据处理系统包括智能云服务平台以及与所述智能云服务平台通信连接的多个移动互联网终端;

所述智能云服务平台,用于通过预先配置的数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,所述特征样本集合包括第一特征样本和第二特征样本,所述第二特征样本为所述第一特征样本存在互联网业务关联的特征样本;

所述智能云服务平台,用于根据预先配置的人工智能模型依次对所述特征样本集合中的各特征样本进行画像特征解析,得到对应的画像特征向量,并基于所述第一特征样本对应的画像特征向量,确定所述第一特征样本中的画像数据区域,根据与所述画像数据区域对应的目标画像数据区域,从所述第一特征样本对应的画像特征向量中提取出目标特征向量,并从所述第二特征样本对应的画像特征向量中提取出第一候选特征向量,所述第一候选特征向量对应的数据区域覆盖于所述目标特征向量对应的数据区域;

所述智能云服务平台,用于从所述第一候选特征向量中查找与所述目标特征向量匹配的特征向量节点,并根据查找到的所述特征向量节点确定所述第二特征样本中与所述画像数据区域对应的关键数据区域;

所述智能云服务平台,用于根据所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域生成所述移动互联网终端的画像标签信息。

第四方面,本公开实施例还提供一种智能云服务平台,所述智能云服务平台包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相连,所述网络接口用于与至少一个移动互联网终端通信连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行第一方面或者第一方面中任意一个可能的设计中的基于人工智能的互联网大数据处理方法。

第五方面,本公开实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得计算机执行上述第一方面或者第一方面中任意一个可能的设计中的基于人工智能的互联网大数据处理方法。

基于上述任意一个方面,本公开通过预先配置的数据采集脚本对移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,然后从特征样本集合中提取出对应的画像特征向量,该画像特征向量可作为共享画像特征向量,并在共享画像特征向量的基础上分别提取第一特征样本中的画像数据区域和第二特征样本中与画像数据区域对应的关键数据区域,由此进行画像标签生成,能够显著地提高标签生成速度和生成准确性。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。

图1为本公开实施例提供的基于人工智能的互联网大数据处理系统的应用场景示意图;

图2为本公开实施例提供的基于人工智能的互联网大数据处理方法的流程示意图;

图3为本公开实施例提供的基于人工智能的互联网大数据处理装置的功能模块示意图;

图4为本公开实施例提供的用于实现上述的基于人工智能的互联网大数据处理方法的智能云服务平台的结构示意框图。

具体实施方式

下面结合说明书附图对本公开进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。

图1是本公开一种实施例提供的基于人工智能的互联网大数据处理系统10的交互示意图。基于人工智能的互联网大数据处理系统10可以包括智能云服务平台100以及与所述智能云服务平台100通信连接的移动互联网终端200。图1所示的基于人工智能的互联网大数据处理系统10仅为一种可行的示例,在其它可行的实施例中,该基于人工智能的互联网大数据处理系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

本实施例中,移动互联网终端200可以包括移动设备、平板计算机、膝上型计算机等或其任意组合。在一些实施例中,移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,或其任意组合。在一些实施例中,智能家居设备可以包括智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机等,或其任意组合。在一些实施例中,可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等,或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理、游戏设备等,或其任意组合。在一些实施例中,虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实贴片、增强现实头盔、增强现实玻璃、或增强现实贴片等,或其任意组合。例如,虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。

本实施例中,基于人工智能的互联网大数据处理系统10中的智能云服务平台100和移动互联网终端200可以通过配合执行以下方法实施例所描述的基于人工智能的互联网大数据处理方法,具体智能云服务平台100和移动互联网终端200的执行步骤部分可以参照以下方法实施例的详细描述。

为了解决前述背景技术中的技术问题,图2为本公开实施例提供的基于人工智能的互联网大数据处理方法的流程示意图,本实施例提供的基于人工智能的互联网大数据处理方法可以由图1中所示的智能云服务平台100执行,下面对该基于人工智能的互联网大数据处理方法进行详细介绍。

步骤s110,通过预先配置的数据采集脚本对移动互联网终端200进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合。

步骤s120,根据预先配置的人工智能模型依次对特征样本集合中的各特征样本进行画像特征解析,得到对应的画像特征向量,并基于第一特征样本对应的画像特征向量,确定第一特征样本中的画像数据区域,根据与画像数据区域对应的目标画像数据区域,从第一特征样本对应的画像特征向量中提取出目标特征向量,并从第二特征样本对应的画像特征向量中提取出第一候选特征向量,第一候选特征向量对应的数据区域覆盖于目标特征向量对应的数据区域。

步骤s130,从第一候选特征向量中查找与目标特征向量匹配的特征向量节点,并根据查找到的特征向量节点确定第二特征样本中与画像数据区域对应的关键数据区域。

步骤s140,根据第一特征样本中的画像数据区域和第二特征样本中与画像数据区域对应的关键数据区域生成移动互联网终端200的画像标签信息。

本实施例中,特征样本集合包括第一特征样本和第二特征样本,第二特征样本为第一特征样本存在互联网业务关联的特征样本。其中,存在互联网业务关联是指互联网业务之间存在访问关系,例如从互联网业务a可以跳转到互联网业务b。

本实施例中,该预先配置的人工智能模型可以通过预先收集特征训练样本以及每个特征训练样本对应的画像特征向量(例如在不同画像维度下的特征数值)进行训练获得,具体训练方式为现有技术,在此不作赘述。

本实施例中,基于第一特征样本对应的画像特征向量,确定第一特征样本中的画像数据区域,根据与画像数据区域对应的目标画像数据区域,从第一特征样本对应的画像特征向量中提取出目标特征向量,并从第二特征样本对应的画像特征向量中提取出第一候选特征向量,具体可以是:将第一特征样本对应的画像特征向量从第一特征样本中进行匹配,将各个匹配节点所在的单位区域的集合作为第一特征样本中的画像数据区域。与画像数据区域对应的目标画像数据区域可以是指与画像数据区域存在业务关联的目标画像数据区域。在此基础上,可以从第一特征样本对应的画像特征向量中提取出与上述目标画像数据区域相对应的目标特征向量,并从第二特征样本对应的画像特征向量中提取出与上述目标画像数据区域相对应的第一候选特征向量。

本实施例中,从第一候选特征向量中查找与目标特征向量匹配的特征向量节点,并根据查找到的特征向量节点确定第二特征样本中与画像数据区域对应的关键数据区域具体可以是:从第一候选特征向量中查找与目标特征向量中的各个特征向量数值匹配的特征向量节点,然后从第二特征样本中获取匹配查找到的特征向量节点的数据区域作为与画像数据区域对应的关键数据区域。

基于上述设计,本实施例通过预先配置的数据采集脚本对移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,然后从特征样本集合中提取出对应的画像特征向量,该画像特征向量可作为共享画像特征向量,并在共享画像特征向量的基础上分别提取第一特征样本中的画像数据区域和第二特征样本中与画像数据区域对应的关键数据区域,由此进行画像标签生成,能够显著地提高标签生成速度和生成准确性。

在一种可能的实现方式中,针对步骤s140,在进行标签生成过程中,为了进一步考虑到不同数据区域之间的索引制约关系,从而提高标签生成的准确性,具体可以通过子步骤示例性实现,详细描述如下。

子步骤s141,获取由第一特征样本中的画像数据区域和第二特征样本中与画像数据区域对应的关键数据区域之间的共同数据区域所构成的目标数据区域。

子步骤s142,根据目标数据区域中数据索引目标之间的索引制约关系建立索引制约位图,并确定每个数据索引目标在索引制约位图中的索引节点。

子步骤s143,根据每个数据索引目标的索引节点确定每个数据索引目标所在索引业务,将每个数据索引目标所在索引业务所组成的集合确定为汇总索引聚合业务,并对汇总索引聚合业务中任意两个数据索引目标的索引节点进行比较,基于比较结果得到任意两个数据索引目标所在索引业务的相互主导关系。

子步骤s144,基于任意两个数据索引目标所在索引业务的相互主导关系,将汇总索引聚合业务划分为至少一个索引聚合业务序列,每个索引聚合业务序列具有不同的聚合数量级别。

子步骤s145,当目标数据区域中加入热点数据索引目标时,确定热点数据索引目标在索引制约位图中的目标索引节点,并将目标索引节点与至少一个索引聚合业务序列中的数据索引目标的索引节点进行比较,基于比较结果确定热点数据索引目标所在索引业务对应的目标索引聚合业务序列。

子步骤s146,将热点数据索引目标所在索引业务对应的目标索引聚合业务序列中所包括的业务标签,作为移动互联网终端200的画像标签信息。

在一种可能的实现方式中,对于子步骤s142而言,具体可以通过以下实施方式实现。

(1)获取目标数据区域中数据索引目标所形成的索引序列。

(2)根据每个数据索引目标在索引序列中的出现次数确定每个数据索引目标所在索引业务的聚合数量级别。

(3)对不同出现节点上的数据索引目标所在索引业务按照聚合数量级别进行降序排序。

(4)在第一预设出现节点上,将排序最后的数据索引目标所在索引业务到排序最前的数据索引目标所在索引业务的趋向确定为索引制约位图的第一维度轴向的第一趋向。

(5)将与第一维度轴向的第一趋向存在正向交叉的趋向确定为索引制约位图的第二维度轴向,第二维度轴向的第一趋向为第二预设出现节点上排序最后的数据索引目标所在索引业务到排序最前的数据索引目标所在索引业务的趋向。

在一种可能的实现方式中,对于子步骤s143而言,可以比较汇总索引聚合业务中任意两个数据索引目标的索引节点对应的数据量大小,当数据量大小满足第一条件或第二条件,则任意两个数据索引目标中的其中一个数据索引目标所在索引业务能够主导另一个数据索引目标所在索引业务。

其中,示例性地,第一条件为其中一个数据索引目标的第一趋向数据量大小数值大于另一个数据索引目标的第一趋向数据量大小数值且其中一个数据索引目标的第二趋向数据量大小数值大于或等于另一个数据索引目标的第二趋向数据量大小数值,第二条件为其中一个数据索引目标的第一趋向数据量大小数值等于另一个数据索引目标的第一趋向数据量大小数值且其中一个数据索引目标的第二趋向数据量大小数值大于另一个数据索引目标的第二趋向数据量大小数值。

在一种可能的实现方式中,对于子步骤s144而言,具体可以通过以下实施方式实现。

(1)将汇总索引聚合业务作为第一聚合业务,并根据第一聚合业务中任意两个数据索引目标所在索引业务的相互主导关系,从第一聚合业务中确定出不被其它任意一个索引聚合业务主导的至少一个第一选定索引聚合业务。

(2)将至少一个第一选定索引聚合业务所组成的集合确定为第一级索引聚合业务序列。

(3)当第a聚合业务中除第a级索引聚合业务序列之外的其它索引聚合业务的范围大于或等于第一阈值时,将第a聚合业务中除第a级索引聚合业务序列之外的其它索引聚合业务确定为第a+1聚合业务。

(4)根据第a+1聚合业务中任意两个数据索引目标所在索引业务的相互主导关系,从第a+1聚合业务中确定出不被其它任意一个区域主导的至少一个第a+1选定索引聚合业务,将至少一个第a+1选定索引聚合业务所组成的集合确定为第a+1级索引聚合业务序列。

其中,a=1,2,……,n,n为正整数,当a=n时,第a聚合业务中除第a级索引聚合业务序列之外的其它索引聚合业务的范围等于第一阈值,聚合数量级别对应的数值与聚合数量级别成反比关系。

在一种可能的实现方式中,对于子步骤s145而言,具体可以通过以下实施方式实现。

(1)比较目标索引节点对应的数值与第一数据索引目标的索引节点对应的数据量大小。

(2)当数据量大小满足第三条件或第四条件,则对每个索引聚合业务序列的聚合数量级别进行降级处理,并将热点数据索引目标所在索引业务确定为目标第一级索引聚合业务序列,目标第一级索引聚合业务序列为热点数据索引目标所在索引业务对应的目标索引聚合业务序列。

其中,第一数据索引目标为第一级索引聚合业务序列中的数据索引目标,第三条件为目标索引节点的第二趋向数据量大小数值大于或等于第一数据索引目标的第二趋向数据量大小数值且目标索引节点的第一趋向数据量大小数值大于第一数据索引目标的第一趋向数据量大小数值,第四条件为目标索引节点的第二趋向数据量大小数值大于第一数据索引目标的第二趋向数据量大小数值且目标索引节点的第一趋向数据量大小数值等于第一数据索引目标的第一趋向数据量大小数值。

(3)比较目标索引节点对应的数值与第二数据索引目标的索引节点对应的数据量大小。

(4)当数据量大小满足第五条件或第六条件,则将热点数据索引目标所在索引业务确定为第n+2级索引聚合业务序列,并将第n+2级索引聚合业务序列确定为热点数据索引目标所在索引业务对应的目标索引聚合业务序列。

其中,第二数据索引目标为第n+1级索引聚合业务序列中的数据索引目标,第五条件为目标索引节点的第二趋向数据量大小数值小于或等于第二数据索引目标的第二趋向数据量大小数值且目标索引节点的第一趋向数据量大小数值小于第二数据索引目标的第一趋向数据量大小数值,第六条件为目标索引节点的第二趋向数据量大小数值小于第二数据索引目标的第二趋向数据量大小数值且目标索引节点的第一趋向数据量大小数值等于第二数据索引目标的第一趋向数据量大小数值。

(5)比较目标索引节点对应的数值与第三数据索引目标的索引节点对应的数据量大小。

(6)当数据量大小满足第七条件或第八条件,则对每个第三数据索引目标所在的各个索引聚合业务序列的聚合数量级别对应的数值进行升序排序,将排序最前的数值对应的索引聚合业务序列确定为热点数据索引目标所在索引业务对应的目标索引聚合业务序列。

其中,第三数据索引目标所在的索引聚合业务序列的聚合数量级别位于第一级索引聚合业务序列的聚合数量级别与第n+1级索引聚合业务序列的聚合数量级别之间,第七条件为目标索引节点的第二趋向数据量大小数值大于或等于第三数据索引目标的第二趋向数据量大小数值且目标索引节点的第一趋向数据量大小数值小于第三数据索引目标的第一趋向数据量大小数值,第八条件为目标索引节点的第二趋向数据量大小数值大于第三数据索引目标的第二趋向数据量大小数值且目标索引节点的第一趋向数据量大小数值等于第三数据索引目标的第一趋向数据量大小数值。

在一种可能的实现方式中,在子步骤s145之前,还可以判断汇总索引聚合业务中是否存在第一趋向数据量大小数值相同或第二趋向数据量大小数值相同的至少一个数据索引目标。若存在第一趋向数据量大小数值相同或第二趋向数据量大小数值相同的至少一个数据索引目标,则将第一趋向数据量大小数值相同或第二趋向数据量大小数值相同的至少一个数据索引目标作为候选数据索引目标。然后,对候选数据索引目标执行第一策略或第二策略,得到调整后的索引节点。

其中,值得说明的是,第一策略为使候选数据索引目标的第一趋向数据量大小数值或第二趋向数据量大小数值增加与候选数据索引目标对应的预设数值,第二策略为使候选数据索引目标的第一趋向数据量大小数值或第二趋向数据量大小数值减去与候选数据索引目标对应的预设数值。

相应地,在子步骤s145中,可以将目标索引节点与调整后的索引节点进行比较,基于比较结果确定热点数据索引目标所在索引业务对应的目标索引聚合业务序列。

在上述描述的基础上,在一种可能的实现方式中,针对步骤s110而言,为了提高大数据采集过程中的采集针对性和准确性,从一定程度上避免在大数据采集过程中可能会由于数据采集识别节点的噪声问题导致的采集数据的噪声引入,步骤s110具体可以通过子步骤示例性实现,详细描述如下。

子步骤s111,在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与页面用户行为信息相匹配的互联网功能业务信息。

子步骤s112,根据互联网功能业务信息以及与互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息。

子步骤s113,通过大数据采集控件将数据采集识别节点信息关联到页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据数据采集识别节点信息对数据采集脚本进行配置后,执行大数据采集。

子步骤s114,在大数据采集过程中通过数据采集脚本对移动互联网终端200进行对应的数据采集识别操作。

本实施例中,扩展页面对象可以是指当前页面访问过程中与当前页面相关的可访问页面。

本实施例中,互联网功能业务信息可以是指基于扩展页面对象的页面用户行为信息可能会产生关联的互联网功能业务,互联网功能业务可以是指互联网访问的功能类型。相对应地,主题域信息可以是指基于以上确定的互联网功能业务所对应的页面访问过程中的主题数据信息。数据采集识别节点信息可以是指在访问采集过程中用于产生数据采集的配置信息。

本实施例中,页面用户行为信息可以是但不限于用户配置行为、用户点击行为、用户浏览行为等信息,在此不作详细限定。

本实施例中,在进行数据采集识别操作的过程中,可以通过数据上传路径持续根据获得的数据采集识别节点信息对数据采集脚本进行更新配置。

基于上述步骤,本实施例在获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与页面用户行为信息相匹配的互联网功能业务信息,并根据互联网功能业务信息以及与互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息,然后根据数据采集识别节点信息对数据采集脚本进行配置后,再执行大数据采集,从而可以在大数据采集过程中通过数据采集脚本对移动互联网终端200进行对应的数据采集识别操作,进而提高大数据采集过程中的采集针对性和准确性,从一定程度上避免在大数据采集过程中可能会由于数据采集识别节点的噪声问题导致的采集数据的噪声引入。

在一种可能的实现方式中,针对步骤s111,具体可以通过子步骤示例性实现,详细描述如下。

子步骤s1111,从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息。

例如,页面用户行为信息可以包括参考互联网功能业务、业务采集板块数量、用户行为权限区间以及用户行为扩展权限区间。在其它可能的实施方式中,页面用户行为信息还可以包括扩展页面对象的行为属性信息,例如行为操作类型、行为对象所属业务类型、行为产生时间等。参考互联网功能业务可以是指根据历史情况确定的预设的互联网功能业务,业务采集板块数量可以是指该扩展页面对象历史上被各种渠道(例如聊天工具、电商工具等)公开的板块数量,用户行为权限区间可以是指该扩展页面对象关联的用户行为业务,用户行为扩展权限区间可以是指该扩展页面对象的外部关联的用户行为业务。

子步骤s1112,确定页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值。

子步骤s1113,以业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值构建互联网功能业务矩阵,根据页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值,在互联网功能业务矩阵中确定页面用户行为信息对应的每个第一互联网功能业务。

子步骤s1114,根据每个参考互联网功能业务的业务特征向量,在互联网功能业务矩阵中确定每个参考互联网功能业务的业务特征区间。

子步骤s1115,根据每个参考互联网功能业务对应的业务特征区间,和预设的业务特征区间与初始业务访问频繁参数的对应关系,确定每个参考互联网功能业务的初始业务访问频繁参数。

子步骤s1116,针对每个参考互联网功能业务中包括的每个第一互联网功能业务,根据该第一互联网功能业务所属的参考互联网功能业务的初始业务访问频繁参数,确定该第一互联网功能业务的目标业务访问频繁参数。

子步骤s1117,根据每个第一互联网功能业务对应的预设业务采集板块数量、预设业务节点区间值和目标业务访问频繁参数,确定每个第一互联网功能业务所对应的目标业务节点区间值、目标业务采集板块数量值和目标用户行为扩展权限区间值。

子步骤s1118,根据每个第一互联网功能业务所对应的目标业务采集板块数量值、目标业务节点区间值和目标用户行为扩展权限区间值分别与页面用户行为信息中的业务采集板块数量、用户行为权限区间以及用户行为扩展权限区间之间的多级来源匹配信息以及多级来源匹配信息与预设多级来源匹配信息之间的关系,确定与页面用户行为信息相匹配的互联网功能业务信息。

在一种可能的实现方式中,针对步骤s112,具体可以通过子步骤示例性实现,详细描述如下。

子步骤s1121,根据与互联网功能业务信息相对应的主题域信息确定互联网功能业务信息中每个业务重要优先级大于设定优先级的目标互联网功能业务,以及以目标互联网功能业务为业务基础区域的第一识别对象和第二识别对象,第一识别对象的模拟数据采集进程与第二识别对象的模拟数据采集进程不重合,并且相互之间存在逻辑关联。

子步骤s1122,确定第一识别对象中符合第一目标要求的主题域字段对象,根据符合第一目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定第一识别对象对应的第一滑动组件信息。

例如,符合第一目标要求的主题域字段对象可以为源数据表字段信息匹配于关联的预设字段验证信息的主题域字段对象。

子步骤s1123,确定第二识别对象中符合第二目标要求的主题域字段对象,根据符合第二目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定第二识别对象对应的第二滑动组件信息。

例如,符合第二目标要求的主题域字段对象可以为源数据表字段信息匹配于关联的预设字段验证信息的主题域字段对象。

子步骤s1124,根据第一识别对象对应的第一滑动组件信息,得到主题域字段对象在每个第一模拟数据采集进程的回调采集模拟参数,并根据第二识别对象中的第二滑动组件信息,得到主题域字段对象在每个第二模拟数据采集进程的回调采集模拟参数。

子步骤s1125,根据每个第一模拟数据采集进程和每个第二模拟数据采集进程的回调采集模拟参数,分别对主题域字段对象在每个模拟数据采集进程进行模拟采集索引,得到每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息。

子步骤s1126,根据每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息得到对应的模拟采集索引信息。

子步骤s1127,根据模拟采集索引信息,生成对应的数据采集识别节点信息。

在一种可能的实现方式中,针对步骤s113,具体可以通过子步骤示例性实现,详细描述如下。

子步骤s1131,通过大数据采集控件将数据采集识别节点信息中的每个数据采集识别单元关联到页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中对应的数据采集控制指令中。

子步骤s1132,将每个数据采集识别单元的数据采集识别配置信息对数据采集脚本中对应的数据采集控制指令的传输控制模板进行配置后,执行大数据采集。

由此,在一种可能的实现方式中,针对步骤s114,具体可以在大数据采集过程中,通过数据采集脚本中的每个数据采集控制指令对移动互联网终端200进行对应的数据采集识别操作。

图3为本公开实施例提供的基于人工智能的互联网大数据处理装置300的功能模块示意图,本实施例可以根据上述智能云服务平台100执行的方法实施例对该基于人工智能的互联网大数据处理装置300进行功能模块的划分,也即该基于人工智能的互联网大数据处理装置300所对应的以下各个功能模块可以用于执行上述智能云服务平台100执行的各个方法实施例。其中,该基于人工智能的互联网大数据处理装置300可以包括获取模块310、解析模块320、确定模块330以及生成模块340,下面分别对该基于人工智能的互联网大数据处理装置300的各个功能模块的功能进行详细阐述。

获取模块310,用于通过预先配置的数据采集脚本对移动互联网终端200进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,特征样本集合包括第一特征样本和第二特征样本,第二特征样本为第一特征样本存在互联网业务关联的特征样本。其中,获取模块310可以用于执行上述的步骤s110,关于获取模块310的详细实现方式可以参照上述针对步骤s110的详细描述即可。

解析模块320,用于根据预先配置的人工智能模型依次对特征样本集合中的各特征样本进行画像特征解析,得到对应的画像特征向量,并基于第一特征样本对应的画像特征向量,确定第一特征样本中的画像数据区域,根据与画像数据区域对应的目标画像数据区域,从第一特征样本对应的画像特征向量中提取出目标特征向量,并从第二特征样本对应的画像特征向量中提取出第一候选特征向量,第一候选特征向量对应的数据区域覆盖于目标特征向量对应的数据区域。其中,解析模块320可以用于执行上述的步骤s120,关于解析模块320的详细实现方式可以参照上述针对步骤s120的详细描述即可。

确定模块330,用于从第一候选特征向量中查找与目标特征向量匹配的特征向量节点,并根据查找到的特征向量节点确定第二特征样本中与画像数据区域对应的关键数据区域。其中,确定模块330可以用于执行上述的步骤s130,关于确定模块330的详细实现方式可以参照上述针对步骤s130的详细描述即可。

生成模块340,用于根据第一特征样本中的画像数据区域和第二特征样本中与画像数据区域对应的关键数据区域生成移动互联网终端200的画像标签信息。其中,生成模块340可以用于执行上述的步骤s140,关于生成模块340的详细实现方式可以参照上述针对步骤s140的详细描述即可。

需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块310可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上获取模块310的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(applicationspecificintegratedcircuit,asic),或,一个或多个微处理器(digitalsignalprocessor,dsp),或,一个或者多个现场可编程门阵列(fieldprograaaablegatearray,fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessingunit,cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(systea-on-a-chip,soc)的形式实现。

图4示出了本公开实施例提供的用于实现上述的控制设备的智能云服务平台100的硬件结构示意图,如图4所示,智能云服务平台100可包括处理器110、机器可读存储介质120、总线130以及收发器140。

在具体实现过程中,至少一个处理器110执行所述机器可读存储介质120存储的计算机执行指令(例如图3中所示的基于人工智能的互联网大数据处理装置300包括的获取模块310、解析模块320、确定模块330以及生成模块340),使得处理器110可以执行如上方法实施例的基于人工智能的互联网大数据处理方法,其中,处理器110、机器可读存储介质120以及收发器140通过总线130连接,处理器110可以用于控制收发器140的收发动作,从而可以与前述的移动互联网终端200进行数据收发。

处理器110的具体实现过程可参见上述智能云服务平台100执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

在上述的图4所示的实施例中,应理解,处理器可以是中央处理单元(英文:centralprocessingunit,cpu),还可以是其它通用处理器、数字信号处理器(英文:digitalsignalprocessor,dsp)、专用集成电路(英文:applicationspecificintegratedcircuit,asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

机器可读存储介质120可能包含高速raa存储器,也可能还包括非易失性存储nva,例如至少一个磁盘存储器。

总线130可以是工业标准体系结构(industrystandardarchitecture,isa)总线、外部设备互连(peripheralcoaponentinterconnect,pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,eisa)总线等。总线130可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

此外,本公开实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上基于人工智能的互联网大数据处理方法。

上述的可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sraa),电可擦除可编程只读存储器(eeproa),可擦除可编程只读存储器(eproa),可编程只读存储器(proa),只读存储器(roa),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1