本公开涉及建模领域,尤其涉及一种基于人工智能的自动化建模方法及装置。
背景技术:
在典型的机器学习应用程序中,从业者必须执行算法选择和超参数优化,以最大化机器学习模型的预测性能。但由于相关步骤超出了非专家的能力,导致机器学习建模的门槛高,不利于机器学习建模的推广与普及。
技术实现要素:
为了解决上述技术问题中的至少一个,本公开提供了一种基于人工智能的自动化建模方法及装置,降低机器学习建模的门槛。
本公开的第一方面,一种基于人工智能的自动化建模方法,包括:
生成模型训练方案选择页面,模型训练方案选择页面中每个可选择的模型训练方案关联适用于该模型训练方案的算法模型;
获取用户从模型训练方案选择页面中选择的目标模型训练方案;
获取训练样本;
根据训练样本训练目标模型训练方案所关联的算法模型,以生成用户所需的目标模型。
可选的,方法包括:
根据模型所需识别的内容,确定模型类别及适用于该模型类别的算法模型;
根据模型类别,生成该模型类别的模型训练方案,并将该模型类别的模型训练方案与适用于该模型类别的算法模型关联。
可选的,模型训练方案选择页面中的模型训练方案包括以下模型训练方案中的一种或两种以上:自然语言处理模型训练方案、视觉模型训练方案、翻译模型训练方案、数值分析模型训练方案和多媒体模型训练方案。
可选的,获取训练样本包括:
获取特征数据集;
将所述特征数据集中未打标签的特征数据打上标签;
以所有打有标签的特征数据作为训练样本。
可选的,方法包括:
展示训练样本中的特征数据及其标签;
获取特征数据的标签修改数据;
根据标签修改数据修改所述标签修改数据所对应的特征数据的标签。
本公开的第二方面,一种基于人工智能的自动化建模装置,包括:
页面生成模块,用于生成模型训练方案选择页面,模型训练方案选择页面中每个可选择的模型训练方案关联适用于该模型训练方案的算法模型;
方案获取模块,用于获取用户从模型训练方案选择页面中选择的目标模型训练方案;
样本获取模块,用于获取训练样本;
模型生成模块,用于根据训练样本训练目标模型训练方案所关联的算法模型,以生成用户所需的目标模型。
可选的,装置还包括:
模型类别确定模块,用于根据模型所需识别的内容,确定模型类别及适用于该模型类别的算法模型;
关联模块,用于根据模型类别,生成该模型类别的模型训练方案,并将该模型类别的模型训练方案与适用于该模型类别的算法模型关联。
可选的,模型训练方案选择页面中的模型训练方案包括以下模型训练方案中的一种或两种以上:自然语言处理模型训练方案、视觉模型训练方案、翻译模型训练方案、数值分析模型训练方案和多媒体模型训练方案。
可选的,获取训练样本,包括:
获取特征数据集;
将所述特征数据集中未打标签的特征数据打上标签;
以所有打有标签的特征数据作为训练样本。
可选的,装置还包括:
标签修改模块,用于展示训练样本中的特征数据及其标签,获取特征数据的标签修改数据,根据标签修改数据修改所述标签修改数据所对应的特征数据的标签。
有益效果:可以根据用户选择的模型训练方案和导入的训练样本,自动匹配并计算相应的算法模型,生成用户所需的目标模型,使得无机器学习相关专业知识的用户也可以建模,降低了建模门槛。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是本申请一个实施方式中的一种基于人工智能的自动化建模方法的流程图;
图2是本申请一个实施方式中的一种基于人工智能的自动化建模装置的框图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。
执行主体可以根据具体案例进行调整,如服务器、电子设备、计算机等。
参见图1,一种基于人工智能的自动化建模方法,包括:
步骤101,生成模型训练方案选择页面,模型训练方案选择页面中每个可选择的模型训练方案关联适用于该模型训练方案的算法模型;
步骤102,获取用户从模型训练方案选择页面中选择的目标模型训练方案;
步骤103,获取训练样本;
步骤104,根据训练样本训练目标模型训练方案所关联的算法模型,以生成用户所需的目标模型。
以上述方法在计算机中执行为例,在用户需要建模时,只需从模型训练方案选择页面中选择所需的模型训练方案,以及导入相应的训练样本,计算机可以根据用户选择的模型训练方案和导入的训练样本,自动匹配并计算相应的算法模型,生成用户所需的目标模型,使得无机器学习相关专业知识的用户也可以建模,降低了使用者的建模门槛。
可以知道的,在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。而本申请中,模型训练方案所关联适用于该模型训练方案的算法模型的同时也预设相应算法模型的超参数,以便于使无机器学习相关专业知识的用户建模。
在一个可选实施方式中,基于人工智能的自动化建模方法,还包括:
根据模型所需识别的内容,确定模型类别及适用于该模型类别的算法模型;
根据模型类别,生成该模型类别的模型训练方案,并将该模型类别的模型训练方案与适用于该模型类别的算法模型关联。
本实施方式中的技术方案,确定不同的模型类别及其适用于该模型类别的算法模型;使得不同类别的模型训练方案均关联有适用的算法模型,减少模型训练方案数量,便于用户选择目标模型训练方案数量。
其中,可以模型类别可以包括以下模型方案中的一种或两种以上:自然语言处理模型、视觉模型、翻译模型、数值分析模型和多媒体模型,模型训练方案可以包括以下模型训练方案中的一种或两种以上:自然语言处理模型训练方案、视觉模型训练方案、翻译模型训练方案、数值分析模型训练方案和多媒体模型训练方案。
自然语言处理模型,旨在将文本自动分类或者按照已有标签进行分类或者对文章内容进行深度分析并输出文章的主题多级分类以及对应的置信度等。
视觉模型,旨在识别和理解图像中的内容,包括图像分类、目标检测、ocr识别等;
翻译模型,旨在运用人类语言,模拟人类对自然语言的理解,并返回用户所期望的结果,如把英文翻译成中文;
数值分析模型,旨在针对数值化数据进行分析,包括预测分析、个性化推荐。
多媒体模型,旨在根据媒体材料,运用预测功能,判断用户行为;包括根据音频或视频进行用户行为分析和预测。
上述模型相关内容,可以在自然语言处理模型训练方案中展示,以便于用户理解。
在一个可选实施方式中,获取训练样本包括:
获取特征数据集;
将所述特征数据集中未打标签的特征数据打上标签;
以所有打有标签的特征数据作为训练样。
具体的,可以展示特征数据集中未打标签的特征数据,以供用户在未打标签的特征数据打标签。
在导入的特征数据集中包含未打标签的特征数据,计算机可以展示未打标签的特征数据,以供用户输入的特征数据的标签,生成打有标签的特征数据;确保训练样本可以用于训练模型。
特征数据集可以来源于多个数据源,包括关系型数据源、分布式文件数据源、分布式hive数据源、分布式hbase数据源、非关系型数据源等。
特征数据可以是文本、图片标注和多媒体等。
用户可以对展示的未打标签的特征数据进行标注以形成标签,例如,用户可以通过图片分类、圈出目标物理、文本分类等方式进行标注以形成标签。
在一个可选实施方式中,方法包括:
展示训练样本中的特征数据及其标签;
获取特征数据的标签修改数据;
根据标签修改数据修改所标签修改数据所对应的特征数据的标签。
在用户查看展示的特征数据及其标签,判断是否存在错误的或不适宜的标签,并在有错误或不适宜的标签时,修改标签,以使生成的目标模型更准确。
在一个可选实施方式中,根据训练样本训练目标模型训练方案所关联的算法模型时,展示该次训练的详细信息,包括超参配置、训练进度、训练日志和评估信息等。
在一个可选实施方式中,训练得到目标模型后,可以将其部署到服务器上,以供用户在线使用,并展示模型识别的详情。
在一个可选实施方式中,方法包括获取用户输入的一个样本数据,获取该样本数据中的特征数据和标签,根据特征数据和标签判断用户选择的模型训练方案。其中,判断特征数据是数值、视频、音频、图像;若为视频或音频,则判断用户选择的模型训练方案为多媒体模型训练方案,若为数值,则判断用户选择的模型训练方案为数值分析模型训练方案,若为图像,则判断用户选择的模型训练方案为视觉模型训练方案;若为文字,则判断标签为文字还是分类,若标签为文字,则判断用户选择的模型训练方案为翻译模型训练方案,若标签为分类,则判断用户选择的模型训练方案为自然语言处理模型训练方案。
参见图2,一种基于人工智能的自动化建模装置,包括:
页面生成模块201,用于生成模型训练方案选择页面,模型训练方案选择页面中每个可选择的模型训练方案关联适用于该模型训练方案的算法模型;
方案获取模块202,用于获取用户从模型训练方案选择页面中选择的目标模型训练方案;
样本获取模块203,用于获取训练样本;
模型生成模块204,用于根据训练样本训练目标模型训练方案所关联的算法模型,以生成用户所需的目标模型。
在一个可选实施方式中,装置还包括:
模型类别确定模块,用于根据模型所需识别的内容,确定模型类别及适用于该模型类别的算法模型;
关联模块,用于根据模型类别,生成该模型类别的模型训练方案,并将该模型类别的模型训练方案与适用于该模型类别的算法模型关联。
在一个可选实施方式中,模型训练方案选择页面中的模型训练方案包括以下模型训练方案中的一种或两种以上:自然语言处理模型训练方案、视觉模型训练方案、翻译模型训练方案、数值分析模型训练方案和多媒体模型训练方案。
在一个可选实施方式中,获取训练样本,包括:
获取特征数据集;
将所述特征数据集中未打标签的特征数据打上标签;
以所有打有标签的特征数据作为训练样本。
在一个可选实施方式中,装置还包括:
标签修改模块,用于展示训练样本中的特征数据及其标签,获取特征数据的标签修改数据,根据标签修改数据修改所标签修改数据所对应的特征数据的标签。
基于人工智能的自动化建模装置的原理和效果可以参考基于人工智能的自动化建模方法的原理和效果,此处不再重复描述。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。