基于神经与符号的多模态大数据机器自动学习系统

文档序号：26673578发布日期：2021-09-17 23:27阅读：290来源：国知局

1.本发明属于人工智能、机器学习与认知计算领域，具体涉及一种基于神经与符号的多模态大数据机器自动学习系统。

背景技术：

2.大数据已经成为全球工业生产、流通、分配、消费活动以及经济运行等领域资源配置和优化的核心要素。探索认知大数据的方法为人工智能领域重要研究方向，归根结底大数据记录了现实世界复杂系统独立运行机理，以及复杂系统与环境之间的依赖、竞争、关联等运动轨迹。这些知识对科学及时准确掌握国民经济发展、优化产业结构、推进社会科学治理等，具有十分重要研究价值。然而传统机器学习方法需要依靠大量专业数据分析科学家收集数据。
3.然而数据分析科学家收集的数据原生于复杂系统，衍生出非线性、涌现、自发秩序、适应性以及反馈回路等特性，使得现有人工智能还原论（如统计机器学习、贝叶斯网络、神经网络等）难以有效解释大数据隐含系统普适性规律。因此，从大数据中获得系统运行普适性规律成为人工智能认知学研究重要方向，具体来说：既从感知观测角度学习到复杂系统运行多模态数据分布规律，又需要从系统运行机理认知角度，从新增数据流中推演出系统运行潜在风险或者发展趋势，即：大数据认知建模分析，成为人工智能3.0领域发展前沿主题之一。
4.现有大数据驱动系统建模分析主要聚焦在三个方面：1. 基于无监督生成学习的大数据建模分析，该方法聚焦从复杂系统中及时获取系统数据特征属性，通过学习系统运行数据之间时间空间关联，形象刻画出特定时间区域的系统运行机理；2. 基于时空结构度量的数据空间吸引规则认知，采用时空结构度量在特定场景属性运动基本规律，进行宏观和微观相结合超几何描述和行为趋势预测，这些简洁、富有洞察力，借助常识等先验知识，揭示系统机理动力演化基本规律；3.基于自动机器学习型的模型自动构建方法，通过不断对系统产生数据流进行采样，从高质量训练样本空间，通过多次迭代搜索出适应特定业务场景模型，从而实现系统自动建模。然而上述三类方法仍然基于系统还原论，借助机器学习工具从大数据中还原系统机理，这种思路既无法把整个系统运行机理简单理解为个体的加总，也无法从整体的行为有效推断出系统运行机理模型确定性质，同时增加模型训练计算复杂度。基于此，本发明提出了一种基于神经与符号的多模态大数据机器自动学习系统。

技术实现要素：

5.为了解决现有技术中的上述问题，即为了解决现有的机器学习方法无法自动碎片化动态演化数据中获取高保真机理模型的问题，本发明第一方面，提出了一种基于神经与符号的多模态大数据机器自动学习系统，该系统包括：特征工程自动构建模块、机理模型自动构建模块、超参数寻优优化模块、模型数据处理模块；所述特征工程自动构建模块包括数据获取单元、事理超图网络自动构建单元、网
络结构自动更新单元；所述数据获取单元，配置为获取碎片化、多模态、动态演化的大数据，作为输入数据；所述输入数据包括多个领域不同模态的文本、图像、音频、视频数据；所述事理超图网络自动构建单元，配置为通过自编码神经网络提取所述输入数据中所包含不同领域的事理的概念符号，构建事理概念符号空间；基于所述事理概念符号空间，通过多模态特征自动共形表示方法，自动聚合出不同模态的超边并进行共形计算，生成事理超图网络；所述网络结构自动更新单元，配置为从新的输入数据中提取事理的概念符号，获取新增的超图顶点；通过超边多模态动态演化计算，对新增的超图顶点与所述事理超图网络所覆盖的节点进行增减对齐卷积计算，进而实现事理超图网络的自动更新；所述机理模型自动构建模块包括领域任务定义单元、模型博弈设计搜索单元，搜索网格加速优化单元；所述领域任务定义单元，配置为针对设定领域的输入数据集，结合神经+符号特征工程的先验，划分出该领域的事理的概念符号及超参数分布情况，并预先构建模型结构及超参数搜索空间；所述超参数包括：学习率、神经元网络层数、网络结构、卷积核选择、迭代次数、隐含层层数、神经元规模、滑动窗口和流行共性指数、激活函数、聚类个数和话题个数；所述模型博弈设计搜索单元，配置为在预先构建的模型结构及超参数搜索空间中，通过博弈树搜索策略，从事理超图网络的节点中蒸馏出一系列模型结构候选模型，包括神经网络预测算法和一组超参数，并对一系列候选模型结构及超参数集进行迭代高保真评估，自动搜索出最适合当前输入数据集的最佳机理模型；所述机理模型包括描述、预测、预警的神经网络模型；所述搜索网格加速优化单元，配置为通过基于强化学习的神经网络结构预测技术，获得模型结构对应的学习曲线；根据学习曲线预测出的模型结构分布和超参数过程权值，拟合出从训练样本集训练出模型和从测试样本集自动生成模型误差最小方差均值权值，并在各模型结构中全局共享该权值；所述训练样本集为基于事理超图网络中事理的概念符号构建样本集；所述测试样本集为所述设定领域的输入数据集；所述超参数寻优优化模块包括超参数空间构建单元、超参数自适应选择策略单元、自适应寻优推理单元和超参数自动迁移单元；所述超参数空间构建单元，配置为基于现有自动机器学习算法的超参数数据，将所述现有自动机器学习算法的超参数数据划分为不同自动机器学习算法超参数种群，进而构建超参数空间；所述超参数自适应选择策略单元，配置为以更新后的事理超图网络中所包含的各领域的事理的概念符号为学习目标任务，结合各领域的先验知识、预定义的超参数自适应选择策略函数，从所述超参数空间筛选出满足所述学习目标任务的多类型候选超参数集合；所述自适应寻优推理单元，配置为基于所述候选超参数集合，通过自适应寻优推理算法，根据学习目标任务，采用并行和序列相结合的方法迭代探索候选算法最优结构及学习速率、正则化和网络结构深度的超参数组合，每次探索一次超参数组合生成超参数最
优曲线，自动比对多次生成的超参数最优曲线的变异，增加干扰信息直至变异超过阈值，终止自适应寻优，获得最优超参数组合；所述自动迁移单元，配置为将新增学习目标任务与已有的学习目标任务进行同类匹配，将类型相似度高于预设阈值的已有的学习目标任务对应的超参数组合迁移到新增学习目标任务的超参数空间，为新增学习目标任务配置最优超参数；所述模型数据处理模块，配置为结合机理模型自动构建模块筛选的最佳机理模型、超参数寻优优化模块获取的最优超参数组合，对各设定领域的输入数据进行处理；所述处理包括描述、预警、预测。
6.在一些优选的实施方式中，“基于所述事理概念符号空间，通过多模态特征自动共形表示方法，自动聚合出不同模态的超边并进行共形计算，生成事理超图网络”，其方法为：a10，对所述事理概念符号空间，采用多模态特征选择计算求解，提取所述输入数据中事理的概念符号的有限节点集合；a20，以事理的概念符号的有限节点集合作为超图的顶点集合，通过超图表示学习计算求解，生成超边集合，并为每个超边赋予权重和时间戳，生成多个模态超图的拉普拉斯矩阵，即得到多个模态的超边结构群；a30，对多个模态超图的拉普拉斯矩阵，进行不同模态的超图间高阶相关共形熵求解计算，生成事理超图网络。
7.在一些优选的实施方式中，“采用多模态特征选择计算求解，提取所述输入数据中事理的概念符号的有限节点集合”，其方法为：其中，，表示事理概念符号空间，表示第i个事理概念符号的特征d维张量，m表示输入数据中模态的数量，n表示本次输入总共有n个样本序列，表示输入数据对应的先验向量，表示第i个模态的张量系数矩阵，将当前已获得的所有多模态张量系数向量存放在；对多模态特征选择计算的目标函数进行范数正则化泛化计算，获得多模态转秩，形成m个模态特征向量的有限节点集合，即输入数据中事理的概念符号的有限节点集合。
8.在一些优选的实施方式中，“通过超图表示学习计算求解，生成超边集合，并为每个超边赋予权重和时间戳，生成多个模态超图的拉普拉斯矩阵”，其方法为：在有限节点集合中，采用k
ꢀ‑ꢀ
means聚类算法，任
意选择一个特征顶点作为中心节点，不断计算中心节点与其他节点的欧式距离，最后把中心节点与距它邻接的m
‑
1其他顶点连接起来，构造出n条超边，每个超边赋予权重和时间戳，并定义超图关联矩阵：其中，表示节点到中心节点的距离，表示当前对应的各顶点间的欧式距离；基于超图的顶点度对角矩阵，生成超图的拉普拉斯半角矩阵，其中，为超图的顶点度矩阵，为超图的超边的度矩阵，h为超图的关联矩阵，w为超图超边权重的系统矩阵。
9.在一些优选的实施方式中，“对多个模态超图的拉普拉斯矩阵，进行不同模态的超图间高阶相关共形熵求解计算，生成事理超图网络”，其方法为：求解第一共形熵和第二共形熵；所述第一共形熵为m种模态的超图共形熵；所述第二共形熵为m=2时共形熵；如果第一共形熵大于第二共形熵，则将不同模态的超图合并为一个主题；如果第一共形熵小于第二共形熵，则该超图独立成一个主题；不断多次迭代计算，生成事理超图网络；所述共形熵的计算方法为：，其中，表示m种模态的超图间高阶相关共形熵函数，为曲面模态联合分布熵，用于表示超图之间各超边的共形概率，表示第个模态特征的超图，表示个模态特征矩阵的联合概率分布。
10.在一些优选的实施方式中，“通过超边多模态动态演化计算，对新增的超图顶点与所述事理超图网络所覆盖的节点进行增减对齐卷积计算，进而实现事理超图网络的自动更新”，其方法为：对所述新增的输入数据流，如果通过a10获得新增的孤立节点，计算孤立节点与事理超图网络自动构建单元获取的事理超图网络所覆盖的节点的互补熵，并将孤立节点合并到与其互补熵小于设定阈值的节点对应的超边；如果从新增的数据流训练样本获得新增顶点和一条新超边，则对新增的超图顶点跟已有超图顶点，按照步骤a20进行超图节点卷积计算，完成进行超图顶点的增减处理；对新增超边与已有超边，按照步骤a30进行超图超边卷积计算，对事理超图网络进行更新。
11.在一些优选的实施方式中，所述超参数自适应选择策略函数为：其中，用来度量具有候选超参数的算法在超参数空间和学习目标任务数据集中的损失，a表示超参数空间中的算法。
12.在一些优选的实施方式中，所述自适应寻优推理算法目标函数y为：其中，表示超参数选择策略函数的组合最优曲线函数，表示按照超参数选择策略从候选超参数集合中筛选自适应寻优训练函数，所述自适应寻优训练函数结合实时获取的数据样本，自动为每个算法设置最优超参数，所述数据样本来源于学习目标任务，c表示第i个历史数据样本的超参数组合数目。
13.在一些优选的实施方式中，所述自动迁移单元中自动迁移学习时的目标函数为：其中，为新增学习目标任务域超参数变量，表示超参数空间中算法对应的目标预测函数，表示超参数的组合最优曲线函数，表示迁移权重，表示具有最优超参数选择策略的超参数集合，表示源算法集合数量，表示循环迭代计数器，表示迭代了次的源算法；所述源算法为已有的学习目标任务对应的超参数的算法。
14.本发明的有益效果：本发明通过大数据机器自动学习方法，不断迭代保真度评价推理，自动获得高保真机理模型，提高了复杂系统行为认知预测的精度。
15.本发明模拟大脑的神经+符号认知学习行为，将超图表示模型和自动博弈交互学
习相结合，从海量的碎片化多模态的动态数据中，在有限时间和计算复杂条件下，自动设计出满足特定任务规划的行业机理模型，通过不断迭代模型保真度评价推理，对系统机理模型逻辑关系进行预测分析，提升复杂系统行为认知精度，从而解决了现有机器学习方法难以从动态演化数据中获取高保真机理模型问题，建立真正具有可解释和鲁棒性的大数据机器学习系统。
附图说明
16.通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本技术的其他特征、目的和优点将会变得更明显。
17.图1是本发明一种实施例的基于神经与符号的多模态大数据机器自动学习系统的整体架构的示例图；图2是本发明一种实施例的基于神经与符号的多模态大数据机器自动学习系统的特征工程自动构建模块的架构示例图；图3是本发明一种实施例的基于神经与符号的多模态大数据机器自动学习系统的机理模型自动构建模块的架构示例图；图4是本发明一种实施例的基于神经与符号的多模态大数据机器自动学习系统的超参数寻优优化模块的架构示例图。
具体实施方式
18.为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
20.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
21.本发明的基于神经与符号的多模态大数据机器自动学习系统，该系统包括：特征工程自动构建模块、机理模型自动构建模块、超参数寻优优化模块、模型数据处理模块；所述特征工程自动构建模块包括数据获取单元、事理超图网络自动构建单元、网络结构自动更新单元、模型数据处理模块；所述数据获取单元，配置为获取碎片化、多模态、动态演化的大数据，作为输入数据；所述输入数据包括多个领域不同模态的文本、图像、音频、视频数据；所述事理超图网络自动构建单元，配置为通过自编码神经网络提取所述输入数据中所包含不同领域的事理的概念符号，构建事理概念符号空间；基于所述事理概念符号空间，通过多模态特征自动共形表示方法，自动聚合出不同模态的超边并进行共形计算，生成事理超图网络；所述网络结构自动更新单元，配置为从新的输入数据中提取事理的概念符号，获
取新增的超图顶点；通过超边多模态动态演化计算，对新增的超图顶点与所述事理超图网络所覆盖的节点进行增减对齐卷积计算，进而实现事理超图网络的自动更新；所述机理模型自动构建模块包括领域任务定义单元、模型博弈设计搜索单元，搜索网格加速优化单元；所述领域任务定义单元，配置为针对设定领域的输入数据集，结合神经+符号特征工程的先验，划分出该领域的事理的概念符号及超参数分布情况，并预先构建模型结构及超参数搜索空间；所述超参数包括：学习率、神经元网络层数、网络结构、卷积核选择、迭代次数、隐含层层数、神经元规模、滑动窗口和流行共性指数、激活函数、聚类个数和话题个数；所述模型博弈设计搜索单元，配置为在预先构建的模型结构及超参数搜索空间中，通过博弈树搜索策略，从事理超图网络的节点中蒸馏出一系列模型结构候选模型，包括神经网络预测算法和一组超参数，并对一系列候选模型结构及超参数集进行迭代高保真评估，自动搜索出最适合当前输入数据集的最佳机理模型；所述机理模型包括描述、预测、预警的神经网络模型；所述搜索网格加速优化单元，配置为通过基于强化学习的神经网络结构预测技术，获得模型结构对应的学习曲线，根据学习曲线预测出的模型结构分布和超参数过程权值共享，拟合出从训练样本集训练出模型和从测试样本集自动生成模型误差最小方差均值权值，并在各模型结构全局共享该权值；所述训练样本集为基于事理超图网络中事理的概念符号构建样本集；所述测试样本集为所述设定领域的输入数据集；所述超参数寻优优化模块包括超参数空间构建单元、超参数自适应选择策略单元、自适应寻优推理单元和超参数自动迁移单元；所述超参数空间构建单元，配置为基于现有自动机器学习算法的超参数数据，将所述现有自动机器学习算法的超参数数据划分为不同自动机器学习算法超参数种群，进而构建超参数空间；所述超参数自适应选择策略单元，配置为以更新后的事理超图网络中所包含的各领域的事理的概念符号为学习目标任务，结合各领域的先验知识、预定义的超参数自适应选择策略函数，从所述超参数空间筛选出满足所述学习目标任务的多类型候选超参数集合；所述自适应寻优推理单元，配置为基于所述候选超参数集合，通过自适应寻优推理算法，根据学习目标任务，采用并行和序列相结合的方法迭代探索候选算法最优结构及学习速率、正则化和网络结构深度的超参数组合，每次探索一次超参数组合生成超参数最优曲线，自动比对多次生成的超参数最优曲线的变异，增加干扰信息直至变异超过阈值，终止自适应寻优，获得最优超参数组合；所述自动迁移单元，配置为将新增学习目标任务与已有的学习目标任务进行同类匹配，将类型相似度高于预设阈值的已有的学习目标任务对应的超参数组合迁移到新增学习目标任务的超参数空间，为新增学习目标任务配置最优超参数。
22.所述模型数据处理模块，配置为结合机理模型自动构建模块筛选的最佳机理模型、超参数寻优优化模块获取的最优超参数组合，对各设定领域的输入数据集进行处理；所述处理包括描述、预警、预测。
23.为了更清晰地对本发明基于神经与符号的多模态大数据机器自动学习系统进行说明，下面结合附图对本发明系统一种实施例中各模块进行展开详述。
24.本发明一种实施例的基于神经与符号的多模态大数据机器自动学习系统，如图1所示，该系统分为特征工程自动构建模块100、机理模型自动构建模块200、超参数寻优优化模块300、模型数据处理模块400；1、特征工程自动构建模块特征工程自动构建模块包括数据获取单元101、事理超图网络自动构建单元102、网络结构自动更新单元103，如图2所示；主要用于从海量的碎片化、多模态、动态演化的大数据流中，自动归纳表示系统事理符号空间，通过超图神经网络实时刻画系统事理概念符号之间逻辑关联、时间顺序和发展关系，从而实现符号学习推理优势和神经网络数据感知优势深度融合，即：神经+符号事理超图网络。通过不断获取新的观测样本数据，将观测样本映射到事理超图网络中，进而进行归纳、演绎和统计分析, 发现样本在事理超图网络不同区域内的规律, 从而达到算法要实现的任务目标，自我更新事理符号及关联结构，自动构建一种具有自进化能力的神经+符号特征的事理超图网络。具体如下：所述数据获取单元101，配置为获取碎片化、多模态、动态演化的大数据，作为输入数据；所述输入数据包括多个领域不同模态的文本、图像、音频、视频数据；在本实施例中，获取海量的碎片化、多模态、动态演化的大数据，包括多个领域（或行业）不同模态的文本、图像、音频、视频数据，即多模态数据，作为输入数据；所述多模态数据中包括数值、模型结构参数、超参数等。
25.所述事理超图网络自动构建单元102，配置为通过自编码神经网络提取所述输入数据中所包含不同领域的事理的概念符号，构建事理概念符号空间；基于所述事理概念符号空间，通过多模态特征自动共形表示方法，自动聚合出不同模态的超边并进行共形计算，生成事理超图网络；在本实施例中，通过自编码神经网络从获取的多模态数据中，自动感知到各领域的实体符号，即实体，例如设备、物料、工序和流程法则等，并从实体中抽取成千上万的不同领域的事理概念符号，即事件特征，构建事理概念符号空间，即事件特征的张量域。
26.基于抽取的事件特征，通过预设的多模态特征自动共形表示方法，聚合出不同模态超边结构群并进行共形计算，生成事理超图网络。
27.a10，对所述事理概念符号空间，采用多模态特征选择计算求解，提取所述输入数据中事理的概念符号的有限节点集合；多模态特征选择计算对应的目标函数为：其中，，表示事理概念符号空间，表示第i个事理概念符号的特征d维张量，m表示输入数据中模态的数量，n表示本次输入总共有n个样本序列，表示输入数据对应的先验向量，表示第i个模态的张量系数矩阵，将
当前已获得的所有多模态张量系数向量存放在；对多模态特征选择计算的目标函数进行范数正则化泛化计算，获得多模态转秩，形成m个模态特征向量的有限节点集合，即输入数据中事理的概念符号的有限节点集合。
28.a20，以事理的概念符号的有限节点集合作为超图的顶点集合，通过超图表示学习计算求解，生成超边集合，并为每个超边赋予权重和时间戳，生成多个模态超图的拉普拉斯矩阵，即得到多个模态的超边结构群；在有限节点集合中，采用k
ꢀ‑ꢀ
means聚类算法，任意选择一个特征顶点作为中心节点，不断计算中心节点与其他节点的欧式距离，最后把中心节点与距它邻接的m
‑
1其他顶点连接起来，构造出n条超边，每个超边赋予权重和时间戳，并定义超图关联矩阵：其中，表示节点到中心节点的距离，表示当前对应的各顶点间的欧式距离；基于超图的顶点度对角矩阵，生成超图的拉普拉斯半角矩阵，其中，为超图的顶点度矩阵，为超图的超边的度矩阵，h为超图的关联矩阵，w为超图超边权重的系统矩阵。
29.采用傅里叶变换方法，对超图拉普拉斯半角矩阵进行特征张量进行增减动态分解，可得超图的卷积表达式，其中，表示超图拉普拉斯半角矩阵特征分解转秩，表示超图卷积核函数，为哈达玛乘积，为m个模态的多模态数据，从而完成构建一个多模态动态超图卷积网络，即初始的事理超图网络。
30.a30，对多个模态超图的拉普拉斯矩阵，进行不同模态的超图间高阶相关共形熵求解计算，生成事理超图网络。
31.所述共形熵的计算方法为：
，其中，表示m种模态的超图间高阶相关共形熵函数，为曲面模态联合分布熵，用于表示超图之间各超边的共形概率，表示第个模态特征的超图，表示个模态特征矩阵的联合概率分布。
[0032]“对多个模态超图的拉普拉斯矩阵，进行不同模态的超图间高阶相关共形熵求解计算，生成事理超图网络”具体如下：求解第一共形熵和第二共形熵；所述第一共形熵为m种模态的超图共形熵；所述第二共形熵为m=2时共形熵；如果第一共形熵大于第二共形熵，则将不同模态的超图合并为一个主题；如果第一共形熵小于第二共形熵，则该超图独立成一个主题；不断多次迭代计算，更新事理超图网络。
[0033]
所述网络结构自动更新单元103，配置为从新的输入数据中提取事理的概念符号，获取新增的超图顶点；通过超边多模态动态演化计算，对新增的超图顶点与所述事理超图网络所覆盖的节点进行增减对齐卷积计算，进而实现事理超图网络的自动更新；在本实施例中，通过自我归纳博弈（self
ꢀ‑
inductive play）算法从新增的多模态数据中获得新超节点，卷积聚合出事理概念符号作为超图网络的主题顶点，通过超图神经卷积方法，输出事理节点符号间多元逻辑关系，生成超图网络的超边，表示群体特征之间依赖、从属和关联等逻辑关系，具体过程如下：对所述新增的输入数据流，如果通过a10获得新增的孤立节点，计算孤立节点与事理超图网络自动构建单元获取的事理超图网络所覆盖的节点的互补熵，并将孤立节点合并到与其互补熵小于设定阈值的节点对应的超边；如果从新增的数据流训练样本获得新增顶点和一条新超边，则对新增的超图顶点跟已有超图顶点，按照步骤a20进行超图节点卷积计算，完成进行超图顶点的增减处理；对新增超边与已有超边，按照步骤a30进行超图超边卷积计算，对事理超图网络进行更新。
[0034]
将源源不断新增数据作为测试样本，对新增超图网络的超点和超边进行迭代图卷积，无需人的经验和常识干预，挖掘新的特征在动态超图网络更新位置，自动构建一种具有自进化能力的动态超图卷积网络，即神经+符号特征的事理超图网络。
[0035]
本发明中超图构建模块支持多模态异构数据源深度感知与自动合成，单模表示投影到多模空间，自动完成各种模态数据符号化编码，解决数据源地质冗余问题，通过计算共
性超几何关联建模方式，将实现成千上万的不同领域事理概念符号合作关联模式，实时刻画各种模态事理之间互动动力学扩展关系，还揭示了在不同规模的群体中存在的枢纽节点和相互作用的共存，如何影响合作的演化。建立三维可视化超图归纳表示网络，从而消除海量数据特征的冗余和相关性，从根本上解决海量训练数据特征的求同存异表示问题。
[0036]
2、机理模型自动构建模块所述机理模型自动构建模块包括领域任务定义单元201、模型博弈设计搜索单元202，搜索网格加速优化单元203，如图3所示；主要用于多模态交互式学习算法自动从超大规模候选模型空间和特定数据集进行零和/非零和、完全信息/非完全信息等交互式博弈分析比对，然后选择满足特定系统机理认知的模型搜索策略，并对训练后的模型做保真度评估，从而快速准确搜索出适合于该数据集的高保真度机理模型。具体如下：所述领域任务定义单元201，配置为针对设定领域的输入数据集，结合神经+符号特征工程的先验，划分出该领域的事理的概念符号及超参数分布情况，并预先构建模型结构及超参数搜索空间；所述超参数包括：学习率、神经元网络层数、网络结构、卷积核选择、迭代次数、隐含层层数、神经元规模、滑动窗口和流行共性指数、激活函数、聚类个数和话题个数；在本实施例中，针对不同领域的输入数据集，即多模态数据，结合神经+符号特征工程的先验，即特征工程自动构建模块构建的事理超图网络，划分出设定领域的输入数据集在事理网络超图中对应的模型结构参数节点（即事理的概念符号）以及超参数分布情况，并进一步构建模型结构及超参数搜索空间。
[0037]
所述模型博弈设计搜索单元202，配置为在预先构建的模型结构及超参数搜索空间中，通过博弈树搜索策略，从事理超图网络的节点中蒸馏出一系列模型结构候选模型，包括神经网络预测算法和一组超参数，并对一系列候选模型结构及超参数集进行迭代高保真评估，自动搜索出最适合当前输入数据集的最佳机理模型；所述机理模型包括描述、预测、预警的神经网络模型；在本实施例中，在预先构建的模型结构及超参数搜索空间中，通过支持零和/非零和、完全信息/非完全信息等模型超参数自动搜索策略，即博弈树搜索算法，从事理超图网络的节点中蒸馏出一系列模型结构候选模型，所述模型结构候选模型包括神经网络预测算法和一组超参数。
[0038]
蒸馏后，不断裁剪、组合和分解出各种候选模型子网结构，选定模型预测搜索算法，跟人脑一样从数据中预测出高保真系统机理模型，再结合源源不断数据流，不断修正评估算子、交叉算子，并根据适应度迭代评价预测结果、迭代进化、直到模型适应度满足现有测试数据集就可以结束，从而获得结构和参数最优的模型。即对一系列候选模型结构及超参数集进行迭代高保真评估，自动搜索出最适合当前输入数据集的最佳机理模型；所述机理模型包括描述、预测、预警的神经网络模型。即将保真度评价值最高的机理模型作为最适合当前输入数据集的机理模型。
[0039]
所述搜索网格加速优化单元203，配置为所述搜索网格加速优化单元，配置为通过基于强化学习的神经网络结构预测技术，获得模型结构对应的学习曲线；根据学习曲线预测出的模型结构分布和超参数过程权值，拟合出从训练样本集训练出模型和从测试样本集自动生成模型误差最小方差均值权值，并在各模型结构中全局共享该权值；所述训练样本
集为基于事理超图网络中事理的概念符号构建样本集；所述测试样本集为所述设定领域的输入数据集。
[0040]
搜索网格加速优化负责优化网络结构设计器自动按照全局和局部协同策略，不断迭代搜索从巨大搜索空间预测模型结构和参数过程权值共享，网络结构边共享等方式，缩短搜索空间规模和搜索时间复杂度。
[0041]
在本实施例中，通过基于强化学习的神经网络结构预测技术，获得模型结构对应的学习曲线；根据学习曲线预测出的模型结构分布和超参数过程权值，拟合出从训练样本集训练出模型和从测试样本集自动生成模型误差最小方差均值权值，并在各模型结构全局共享该权值。
[0042]
其中，当新增的输入数据集和历史输入数据集的相似度高于设定阈值，则将历史输入数据集对应的模型结构分布和超参数过程权值共享给新增的输入数据集。
[0043]
本发明从神经+符号特征工程的事理超图网络，一方面按照特定任务训练样本，从事理超图网络的超图网络结构中蒸馏出一系列预测神经元网络结构候选模型，包括神经网络预测算法和一组超参数。另一方面，对一系列候选模型结构及参数集进行迭代高保真评价，获得训练样本和测试样本误差最小方差均值，从而主动搜索出最适合当前数据集的最佳描述、诊断、预测和预警等行为认知的神经网络模型。
[0044]
并通过采用自动化“交互
‑
试错”博弈交互式学习机制，对三维可视化超图归纳表示网络的超节点内部和超边的裁剪、分解、重组等各种自动化操作，在有限时间生成多类型任务认知模型，完全不依赖领域专家经验，自动迭代评估搜出满足当前数据集的高保真模型结构和参数，大大缩短了模型搜索空间，克服当前基于自动机器学习nas机制的大数据环境自动建模问计算复杂度高问题，加速了模型结构搜索成功率。
[0045]
另外，本发明数据驱动的复杂系统机理自动学习方法，引入灾熵突变因果推断技术，实现了对复杂系统的非线性、涌现、平衡阶跃、适应性和反馈回路的特殊性质的失稳、周期性震荡以及突变的因果要素实时主动侦听，借助案例库、专家库与预案库，实现系统运行过程中重大故障事前主动预警。具体如下：微分残差学习模块，配置为基于搜索出的最佳机理模型，通过模拟生物进化的复制微分方程，通过模拟生物进化的复制微分方程，完成计算运行过程种群调整产生的收益，在种群适应度中通过微分残差学习函数，自动捕获系统运行过程中系统失稳和周期性震荡的因果要素；并在整个系统动力学控制法则适应度中通过微分残差学习函数，获得系统连续失稳哈密顿方程；在本实施例中，具体过程如下：（1）基于所述最佳机理模型，以表示n种不同个体行为集合，即节点，以表示群体两两之间行为因果博弈关系，即超边；（2）基于所述最佳机理模型，通过模拟生物进化的复制微分方程，计算运行过程种群调整产生的第一博弈收益，基于所述第一博弈收益在种群适应度中通过微分残差学习函数，自动捕获系统运行过程中系统失稳和周期性震荡的因果要素，获
得系统连续失稳哈密顿方程；表示行为和之间的因果相对效用；所述模拟生物进化的复制微分方程为：，其中，表示个体行为适应度，表示平均度，表示个体行为，表示进化复制后的个体行为；若个体行为适应度大于平均度，表示个体行为群体数量快速增长；若个体行为适应度小于平均度，表示个体行为群体数量快速减少；若个体行为适应度等于平均度，表示个体行为群体数量不变；并在整个系统动力学控制法则适应度中通过微分残差学习函数，获得系统连续失稳哈密顿方程；突变因果模型构建模块，配置为基于所述系统运行过程中诱发系统失稳、和周期性震荡以及突变的因果要素，通过模拟生物进化突变微分方程，完成计算运行过程种群调整产生的收益，在整个系统动力学控制法则适应度中通过微分残差学习函数，完成动力系统不同层神经元参数化隐含单元连续涨落动态微观结构训练获得系统连续突变哈密顿方程；构建系统内部所有参数及属性的完全同质对称行为网络，完全异质对称行为网络和非对称行为网络等突变因果模型。
[0046]
在本实施例中，（1）基于所述系统失稳和周期性震荡的因果要素，通过模拟生物进化突变微分方程，计算种群调整产生的第二博弈收益，基于所述第二博弈收益在种群适应度中通过微分残差学习函数，完成动力系统不同层神经元参数化隐含单元连续涨落动态微观结构训练；所述生物进化突变微分方程为：，（2）基于训练好的动力系统，获得动力系统连续突变哈密顿方程，进而获得系统内部所有参数及属性在完全同质对称行为网络，完全异质对称行为网络和非对称行为网络等突变因果模型。
[0047]
关于突变因果模型构建模块的构建模型等内容，可参见文献：“田磊, 董希旺, 赵启伦, 李清东, 吕金虎, 任章. 异构集群系统分布式自适应输出时变编队跟踪控制. 自动化学报, 2020”.以及“郑志明, 吕金虎, 韦卫，糖紹婷. 精准智能理论:面向复杂动态对象的人工智能. 《中国科学》杂志, 2021”。
[0048]
预测获取模块，配置为基于所述完全同质对称行为网络，完全异质对称行为网络和非对称行为网络等突变因果模型，对时序长程关联超图模型的每个节点
‑
邻居对的格兰杰因果权重，进行哈密顿方程求解计算，构造出哈密顿函数，进行因果随机梯度的干预和反事实计算，使得历史时序与未来时序的预测因果权重误差最大，获得复杂系统行为预测结
果。
[0049]
在本实施例中，通过本发明的数据驱动的复杂系统机理自动学习方法构建的风险主动预警，能够在输入数据后自动分析出复杂系统可能出现的故障风险和故障位置，提高复杂系统的可靠性。并且提高了预测的准确性。
[0050]
3、超参数寻优优化模块所述超参数寻优优化模块包括超参数初始空间构建单元301、超参数自适应选择策略单元302、自适应寻优推理单元303和超参数自动迁移单元304，如图4所示；主要用于在有限时间约束条件下，进行自动化完成超参数配置，并对这些超参数进行各种自动搜索，组合、拟合、评估和经验迁移等优化推理，减少了预定义的损失函数，精准获得多目标实体机理演化状态，产生各种高价值语义符号，提高给定独立数据的预测或者分类精度。
[0051]
所述超参数初始空间构建单元301，配置为基于现有自动机器学习算法的超参数数据，将所述现有自动机器学习算法的超参数数据划分为不同自动机器学习算法超参数种群，进而构建超参数初始空间；在本实施例中，超参数空间作为多种类型机器学习模型算法（即上述描述的神经网络模型）超参数配置空间，主要用于定义被参数实例化的各种认知模型算法，每种机器学习算法的实数变量、整数变量、二值变量和学习管道pipeline等，方便优化器遍历全部超参数问题定义和描述，相关性配置。
[0052]
将所述超参数分类，生成多种自动机器学习算法的超参数种群，计算超参数种群中的超参数欧式相似度，将欧式相似度大于或等于预设共享边阈值的超参数间设置共享边，将欧式相似度小于预设共享边阈值的超参数生成不同种群算法节点相关超参数分布子图，构建超参数空间。
[0053]
所述超参数自适应选择策略单元302，配置为以更新后的事理超图网络中所包含的各领域的事理的概念符号为学习目标任务，结合各领域的先验知识、预定义的超参数自适应选择策略函数，从所述超参数空间筛选出满足所述学习目标任务的多类型候选超参数集合；在本实施例中，所述超参数自适应选择策略函数为：其中，用来度量具有候选超参数的算法在超参数空间和学习目标任务数据集中的损失，a表示超参数空间中的算法。
[0054]
可选取的策略优选算法的包括：基于强化学习的学习式超参数优化、基于进化算法的搜索式超参数优化和基于贝叶斯优化的概率式超参数优化等，通过单个或者组合的超参搜索策略，自动训练评估具有参数的算法在实验验证数据集和已有超参空
间之间损失。
[0055]
所述自适应寻优推理单元303，配置为基于所述候选超参数集合，通过自适应寻优推理算法，根据学习目标任务，采用并行和序列相结合的方法迭代探索候选算法最优结构及学习速率、正则化和网络结构深度的超参数组合，每次探索一次超参数组合生成超参数最优曲线，自动比对多次生成的超参数最优曲线的变异，增加干扰信息直至变异超过阈值，终止自适应寻优，获得最优超参数组合；在本实施例中，所述自适应寻优推理算法目标函数y为：其中，表示超参数选择策略函数的组合最优曲线函数，表示按照超参数选择策略从候选超参数集合中筛选自适应寻优训练函数，所述自适应寻优训练函数结合实时获取的数据样本，自动为每个算法设置最优超参数，所述数据样本来源于学习目标任务，c表示第i个历史数据样本的超参数组合数目。
[0056]
所述自动迁移单元304，配置为将新增学习目标任务与已有的学习目标任务进行同类匹配，将类型相似度高于预设阈值的已有的学习目标任务对应的超参数组合迁移到新增学习目标任务的超参数空间，为新增学习目标任务配置最优超参数。
[0057]
在本实施例中，自动迁移学习时的目标函数为：其中，为新增学习目标任务域超参数变量，表示超参数空间中算法对应的目标预测函数，表示超参数的组合最优曲线函数，表示迁移权重，表示具有最优超参数选择策略的超参数集合，表示源算法集合数量，表示循环迭代计数器，表示迭代了次的源算法；所述源算法为已有的学习目标任务对应的超参数的算法。
[0058]
本发明在有限时间约束条件下，进行自动化设置的超参数，并对这些超参数进行各种搜索，组合、拟合、评估和经验迁移等优化，减少了预定义的损失函数，提升认知神经元网络算法在动态数据流性能，进而提高了给定独立数据的预测或者分类精度。
[0059]
另外，本发明按照问题感知
‑
组合优化
‑
自我评估等自动化流水线超参闭环优化机制，综合学习式超参数优化、概率式超参优化和搜索式超参优化等方法，解决当前超参优化的非线性、非凸、组合优化和混合优化等超参数遍历空间无穷大、难以收敛和信息增益小等难题。
[0060]
4、模型数据处理模块所述模型数据处理模块，配置为结合机理模型自动构建模块筛选的最佳机理模型、超参数寻优优化模块获取的最优超参数组合，对各设定领域的输入数据集进行处理；所
述处理包括描述、预警、预测。
[0061]
需要说明的是，上述实施例提供的基于神经与符号的多模态大数据机器自动学习系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。
[0062]
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
[0063]
至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王军平;苑瑞文;林建鑫;唐永强
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。