机器学习系统的数据接入方法、装置、系统和存储介质与流程

文档序号:25421250发布日期:2021-06-11 21:32阅读:104来源:国知局
机器学习系统的数据接入方法、装置、系统和存储介质与流程

本公开实施例涉及机器学习技术领域,具体涉及一种机器学习系统的数据接入方法、装置、系统和存储介质。



背景技术:

机器学习系统是自动化构建机器学习模型、自动化应用机器学习模型(以提供模型预估服务)、自动化更新机器学习模型的一种全流程机器学习系统。用户无需机器学习专业技能,即可使用机器学习系统实现人工智能(ai)技术在实际场景的落地。

机器学习系统通常需要接入多种数据流以便实现上述自动化全流程,其中,多种数据流例如包括:请求数据流、反馈数据流、曝光数据流、业务数据流。机器学习系统的请求数据流、反馈数据流、曝光数据流对外暴露的是http(hypertexttransferprotocol,超文本传输协议)接口,在实际应用场景中,客户返回的反馈数据流、曝光数据流可能存放在某个队列中,需要通过消费队列中的数据实现将数据实时接入机器学习系统。而机器学习系统的业务数据流对外暴露的是kafka(分布式发布订阅消息系统)接口,在实际应用场景中,业务数据可能存放在hdfs(hadoopdistributedfilesystem,分布式文件系统)、本地磁盘等多种存储介质中,需要通过从存储介质中拉取数据实现将数据批量接入机器学习系统。另外,客户侧的数据格式(包括字段名称、字段格式等)可能与机器学习系统的数据格式不符,因此在外部数据(例如客户侧的数据,也即机器学习系统内部生成的数据非外部数据)接入机器学习系统之前,需要进行数据格式转换,以使外部数据的数据格式与机器学习系统的数据格式相符。

为此,亟需提供一种机器学习系统的数据接入方案,以便将外部数据接入机器学习系统。



技术实现要素:

为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种机器学习系统的数据接入方法、装置、系统和存储介质。

第一方面,本公开实施例提供一种机器学习系统的数据接入方法,所述机器学习系统预先设置不同应用场景下的输入数据流的第一格式,所述方法包括:

获取指定的应用场景信息和指定的数据源信息;

获取指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式;

基于所述指定的应用场景信息、所述指定的数据源信息和所述指定的数据转换脚本信息,配置数据接入任务;

执行所述数据接入任务,以使所述数据接入任务将指定的数据源的数据接入所述机器学习系统。

在一些实施例中,所述获取指定的应用场景信息包括:

接收用于获取应用场景的请求;

获取所述机器学习系统预先设置的一个或多个应用场景信息;

响应所述请求而反馈所述一个或多个应用场景信息;

接收从所述一个或多个应用场景信息中指定的应用场景信息。

在一些实施例中,所述获取指定的应用场景信息之前,所述方法还包括:

提供用户界面;

相应地,所述接收用于获取应用场景的请求包括:接收用户在所述用户界面发起的所述请求;

所述反馈所述一个或多个应用场景信息后,所述方法还包括:在所述用户界面上加载所述一个或多个应用场景信息;

所述接收从所述一个或多个应用场景信息中指定的应用场景信息包括:接收用户在所述用户界面上指定的应用场景信息。

在一些实施例中,所述获取指定的应用场景信息之前,所述方法还包括:

提供用户界面;

所述获取指定的应用场景信息包括:

获取所述机器学习系统预先设置的一个或多个应用场景信息;

在所述用户界面上加载所述一个或多个应用场景信息;

接收用户在所述用户界面上指定的应用场景信息。

在一些实施例中,所述指定的数据源信息包括:数据源类型和数据源地址;

所述获取指定的数据转换脚本信息包括:

基于所述数据源类型,获取指定的应用场景下的输入数据流的第一格式;

基于所述数据源地址,确定指定的数据源的第二格式;

基于所述第一格式和所述第二格式,获取指定的数据转换脚本信息。

在一些实施例中,所述方法还包括:

预先配置一个或多个数据转换脚本,每个所述数据转换脚本与一个数据源和一个应用场景相匹配,用于将匹配的数据源的第二格式转换为匹配的应用场景下的输入数据流的第一格式;

所述获取指定的数据转换脚本信息包括:

获取从预先配置的一个或多个数据转换脚本信息中指定的数据转换脚本信息。

在一些实施例中,所述获取指定的数据转换脚本信息之前,所述方法还包括:

提供用户界面;

所述获取指定的数据转换脚本信息包括:

在所述用户界面上加载一个或多个数据转换脚本信息;

接收用户在所述用户界面上指定的数据转换脚本信息。

在一些实施例中,所述方法还包括:

基于所述指定的数据源信息,配置任务执行时间策略;

所述执行所述数据接入任务包括:

基于所述任务执行时间策略调度所述数据接入任务。

在一些实施例中,所述数据接入任务将指定的数据源的数据接入所述机器学习系统包括:

所述数据接入任务基于所述指定的应用场景信息,查询指定的应用场景下的输入数据流的服务地址;

所述数据接入任务基于所述指定的数据源信息,查询指定的数据源的类型和地址;

所述数据接入任务基于所述指定的数据转换脚本信息,查询指定的数据转换脚本;

所述数据接入任务基于所述服务地址、所述指定的数据源的类型和地址、所述指定的数据转换脚本,将指定的数据源的数据接入所述机器学习系统。

在一些实施例中,所述数据接入任务基于所述服务地址、所述指定的数据源的类型和地址、所述指定的数据转换脚本,将指定的数据源的数据接入所述机器学习系统包括:

所述数据接入任务从指定的数据源的地址获取数据,并基于所述指定的数据转换脚本,将所述获取数据的第二格式转换为与指定的数据源的类型相匹配的输入数据流的第一格式;

所述数据接入任务基于所述服务地址,将所述指定的数据转换脚本输出的数据接入所述机器学习系统。

第二方面,本公开实施例还提供一种机器学习系统的数据接入装置,所述机器学习系统预先设置不同应用场景下的输入数据流的第一格式,所述装置包括:

第一获取单元,用于获取指定的应用场景信息和指定的数据源信息;

第二获取单元,用于获取指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式;

配置单元,用于基于所述指定的应用场景信息、所述指定的数据源信息和所述指定的数据转换脚本信息,配置数据接入任务;

执行单元,用于执行所述数据接入任务,以使所述数据接入任务将指定的数据源的数据接入所述机器学习系统。

在一些实施例中,所述第一获取单元获取指定的应用场景信息包括:

接收用于获取应用场景的请求;

获取所述机器学习系统预先设置的一个或多个应用场景信息;

响应所述请求而反馈所述一个或多个应用场景信息;

接收从所述一个或多个应用场景信息中指定的应用场景信息。

在一些实施例中,所述第一获取单元获取指定的应用场景信息之前,还提供用户界面;

相应地,所述第一获取单元接收用于获取应用场景的请求包括:接收用户在所述用户界面发起的所述请求;

所述第一获取单元反馈所述一个或多个应用场景信息后,还在所述用户界面上加载所述一个或多个应用场景信息;

所述第一获取单元接收从所述一个或多个应用场景信息中指定的应用场景信息包括:接收用户在所述用户界面上指定的应用场景信息。

在一些实施例中,所述第一获取单元获取指定的应用场景信息之前,还提供用户界面;

所述第一获取单元获取指定的应用场景信息包括:

获取所述机器学习系统预先设置的一个或多个应用场景信息;

在所述用户界面上加载所述一个或多个应用场景信息;

接收用户在所述用户界面上指定的应用场景信息。

在一些实施例中,所述指定的数据源信息包括:数据源类型和数据源地址;

所述第二获取单元获取指定的数据转换脚本信息包括:

基于所述数据源类型,获取指定的应用场景下的输入数据流的第一格式;

基于所述数据源地址,确定指定的数据源的第二格式;

基于所述第一格式和所述第二格式,获取指定的数据转换脚本信息。

在一些实施例中,所述装置还包括:

预配置单元,用于预先配置一个或多个数据转换脚本,每个所述数据转换脚本与一个数据源和一个应用场景相匹配,用于将匹配的数据源的第二格式转换为匹配的应用场景下的输入数据流的第一格式;

所述第二获取单元获取指定的数据转换脚本信息包括:

获取从预先配置的一个或多个数据转换脚本信息中指定的数据转换脚本信息。

在一些实施例中,所述第二获取单元获取指定的数据转换脚本信息之前,还提供用户界面;

所述第二获取单元获取指定的数据转换脚本信息包括:

在所述用户界面上加载一个或多个数据转换脚本信息;

接收用户在所述用户界面上指定的数据转换脚本信息。

在一些实施例中,所述配置单元还用于基于所述指定的数据源信息,配置任务执行时间策略;

所述执行单元执行所述数据接入任务包括:

基于所述任务执行时间策略调度所述数据接入任务。

在一些实施例中,所述数据接入任务将指定的数据源的数据接入所述机器学习系统包括:

所述数据接入任务基于所述指定的应用场景信息,查询指定的应用场景下的输入数据流的服务地址;

所述数据接入任务基于所述指定的数据源信息,查询指定的数据源的类型和地址;

所述数据接入任务基于所述指定的数据转换脚本信息,查询指定的数据转换脚本;

所述数据接入任务基于所述服务地址、所述指定的数据源的类型和地址、所述指定的数据转换脚本,将指定的数据源的数据接入所述机器学习系统。

在一些实施例中,所述数据接入任务基于所述服务地址、所述指定的数据源的类型和地址、所述指定的数据转换脚本,将指定的数据源的数据接入所述机器学习系统包括:

所述数据接入任务从指定的数据源的地址获取数据,并基于所述指定的数据转换脚本,将所述获取数据的第二格式转换为与指定的数据源的类型相匹配的输入数据流的第一格式;

所述数据接入任务基于所述服务地址,将所述指定的数据转换脚本输出的数据接入所述机器学习系统。

第三方面,本公开实施例还提出一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如第一方面任一实施例所述机器学习系统的数据接入方法的步骤。

第四方面,本公开实施例还提出一种非暂态计算机可读存储介质,用于存储程序或指令,当所述程序或指令被至少一个计算装置运行时,使至少一个计算装置执行如第一方面任一实施例所述机器学习系统的数据接入方法的步骤。

可见,本公开的至少一个实施例中,通过获取指定的应用场景信息和指定的数据源信息,并获取指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式;进而基于指定的应用场景信息、指定的数据源信息和指定的数据转换脚本信息,配置数据接入任务;从而执行数据接入任务,以使数据接入任务将指定的数据源的数据接入机器学习系统。可见,针对不同的应用场景信息,可获取不同的数据转换脚本信息,以满足指定的数据源的数据格式转换为指定的应用场景下的数据格式。另外,针对不同的应用场景信息、不同的数据源信息和不同的数据转换脚本信息,可配置不同的数据接入任务,数据接入任务可被执行以满足外部数据接入机器学习系统时数据格式的转换需求,避免数据格式不符导致接入失败的问题。另外,针对不同的数据源信息,可配置不同的数据接入任务,以满足不同的外部数据流的实时接入或批量接入。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种将数据接入机器学习系统的示例性场景图;

图2是本公开实施例提供的一种数据接入装置的示例性框图;

图3是本公开实施例提供的一种机器学习系统的数据接入方法的示例性流程图;

图4是本公开实施例提供的另一种机器学习系统的数据接入方法的示例性流程图;

图5是本公开实施例提供的一种包括至少一个计算装置和至少一个存储指令的存储装置的系统的示例性框图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

机器学习系统针对不同的业务场景,可解决不同的业务问题,不论是那种业务问题,均需要将多种数据流接入机器学习系统,机器学习系统才能够利用这些数据流解决相应的业务问题。在一些实施例中,机器学习系统可以为hypercycleml(超循环机器学习系统),也可以为其他的机器学习系统。多种数据流例如包括:请求数据流、反馈数据流、曝光数据流、业务数据流。

例如,业务场景为信用卡电话营销场景,机器学习系统需要解决的业务问题为如何在打同样数量电话的情况下获得更多的信用卡订单。业务问题可转换成找到更有可能会办信用卡的客户,给这些客户打电话。定义业务问题就是找到x和y,x即一次电话营销行为,y即打完电话后客户是否办了信用卡。

在此业务场景下,请求数据是指发送给机器学习系统的信息,例如召回了一万个客户作为候选集,结合其他信息想要通过机器学习系统来帮忙判断每个客户实际可能会办理信用卡的概率,这一万条数据就是请求数据;经由机器学习系统中的模型进行预估后,实际进行电话营销时不会一万个客户都打电话,业务方只会选择更有可能会办理信用卡的客户去进行电话营销,可能只选中了100条,这100条就是曝光数据;最后,打完电话后客户实际有没有办理信用卡则是反馈数据。除了请求数据、曝光数据和反馈数据外,场景中可能还包含业务数据,业务数据是其他可能有助于提升预估效果的信息,例如客户的基本信息、客户的交易流水记录、客户的征信记录等bo(businessobject,业务对象)数据。其中,业务数据可能没有,也可能有多个。

又例如,业务场景为智能推荐场景、智能搜索场景、智能推送场景等,对于智能推荐场景,客户用手机打开一个短视频应用程序,客户登录账号后,账号信息就属于业务数据的一部分;客户点击刷新按钮或者执行刷新操作(例如向上滑动操作)即产生了一次请求;机器学习系统响应刷新操作会推荐多个短视频(例如推荐10个短视频),但是短视频应用程序不会将这10个短视频全部显示,而是显示部分短视频(例如显示了5个短视频),显示的这5个短视频即曝光数据;若客户点击了这5个短视频中的2个短视频,那么被点击的2个短视频会被打上标签,即反馈数据。

图1为本公开实施例提供的一种将数据接入机器学习系统的示例性场景图。在图1中,外部数据有多种数据源,例如数据源10包括了反馈数据流101、曝光数据流102和业务数据流103。在一些实施例中,不同的数据源具有不同的数据源信息,数据源信息包括但不限于数据源类型和数据源地址。在一些实施例中,数据源类型有三种,分别是反馈数据、曝光数据和业务数据。例如,反馈数据流101这种数据源,其数据源类型可描述为反馈数据;曝光数据流102这种数据源,其数据源类型可描述为曝光数据;业务数据流103这种数据源,其数据源类型可描述为业务数据。在一些实施例中,数据源地址为能够获取数据源中数据的地址,例如,数据源地址可以为网络地址(例如ip地址或url地址等),也可以为存储地址,还可以为端口地址。

在图1中,数据接入装置11用于将数据源10的数据接入机器学习系统12。在一些实施例中,数据接入装置11需要将数据源10的数据格式转换为机器学习系统12的数据格式后,再将经过数据格式转换后的数据接入机器学习系统12,以避免数据源10的数据格式与机器学习系统12的数据格式不符导致接入失败的问题。在一些实施例中,数据接入装置11需要针对不同的数据源和机器学习系统不同的应用场景(应用场景可包括但不限于业务场景),适应性地采用不同的数据格式转换策略,实现不同应用场景下的数据格式转换。在一些实施例中,数据接入装置11可获取用于数据接入的辅助信息,以便基于获取的用于数据接入的辅助信息,配置数据接入任务,数据接入任务可以被数据接入装置11自动执行,以实现将外部数据接入机器学习系统12。其中,用于数据接入的辅助信息可包括但不限于:客户指定的应用场景信息、指定的数据源信息和指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的数据格式转换为指定的应用场景下的输入数据流的数据格式,其中,应用场景下的输入数据流可以为反馈数据流、曝光数据流和业务数据流中的一种或多种。

在一些实施例中,数据接入装置11可实现为数据接入装置前端和数据接入装置后端,其中,数据接入装置前端至少用于获取用于数据接入的辅助信息,例如,客户通过数据接入装置前端来指定应用场景信息、指定数据源信息和指定数据转换脚本信息。而数据接入装置后端则可基于数据接入装置前端获取的用于数据接入的辅助信息,配置数据接入任务,进而执行数据接入任务,以使数据接入任务将指定的数据源的数据接入机器学习系统12。

在图1中,机器学习系统12是自动化构建机器学习模型、自动化应用机器学习模型(以提供模型预估服务)、自动化更新机器学习模型的一种全流程机器学习系统。在一些实施例中,机器学习系统12预先设置不同应用场景下的输入数据流的数据格式,其中,输入数据流为反馈数据流、曝光数据流和业务数据流中的一种或多种;应用场景可包括但不限于业务场景。

图2为本公开实施例提供的一种数据接入装置的示例性框图。在一些实施例中,图2所示的数据接入装置20可以实现为图1中的数据接入装置11或者数据接入装置11的一部分。如图2所示,数据接入装置20可划分为多个单元,例如包括但不限于:第一获取单元21、第二获取单元22、配置单元23和执行单元24。

第一获取单元21,可用于获取指定的应用场景信息。其中,应用场景信息可由客户指定。在一些实施例中,第一获取单元21获取指定的应用场景信息的第一方式为:接收用于获取应用场景的请求,该请求可由客户主动发起;进而,第一获取单元21获取机器学习系统预先设置的一个或多个应用场景信息,例如可获取机器学习系统预先设置的应用场景信息列表,列表中包括一个或多个应用场景信息;且第一获取单元21在获取应用场景信息后,响应所述请求而反馈获取的一个或多个应用场景信息;从而,第一获取单元21接收客户从一个或多个应用场景信息中指定的应用场景信息。

基于上述的获取指定的应用场景信息的第一方式,在一些实施例中,第一获取单元21获取指定的应用场景信息之前,还提供用户界面,这样,便于客户在用户界面发起用于获取应用场景的请求,进而第一获取单元21可接收客户在用户界面发起的所述请求;并且,第一获取单元21反馈一个或多个应用场景信息后,还可在用户界面上加载一个或多个应用场景信息,以便客户通过用户界面指定应用场景信息;进而,第一获取单元21可接收客户在用户界面上指定的应用场景信息。

在一些实施例中,第一获取单元21获取指定的应用场景信息的第二方式为:第一获取单元21获取指定的应用场景信息之前,还提供用户界面;进而,第一获取单元21获取机器学习系统预先设置的一个或多个应用场景信息;从而在用户界面上加载一个或多个应用场景信息,这样,客户无需发起用于获取应用场景的请求,可直接通过用户界面指定应用场景信息;第一获取单元21在用户界面上加载一个或多个应用场景信息后,即可等待客户的指定操作,接收用户在用户界面上指定的应用场景信息。

在一些实施例中,第一获取单元21,可用于获取指定的数据源信息。其中,数据源信息可由客户指定。在一些实施例中,数据源信息包括但不限于:数据源类型和数据源地址。其中,数据源类型有三种,分别是反馈数据、曝光数据和业务数据。数据源地址为能够获取数据源中数据的地址,例如,数据源地址可以为网络地址(例如ip地址或url地址等),也可以为存储地址,还可以为端口地址。

第二获取单元22,用于获取指定的数据转换脚本信息,数据转换脚本信息可由客户指定,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式。在一些实施例中,第二获取单元22获取指定的数据转换脚本信息的第一方式为:第二获取单元22基于数据源类型,获取指定的应用场景下的输入数据流的第一格式,例如,数据源类型为反馈数据,由于机器学习系统预先设置不同应用场景下的输入数据流(包括反馈数据流)的第一格式,因此,可获取指定的应用场景下的反馈数据流的第一格式;并且,第二获取单元22可基于数据源地址,确定指定的数据源的第二格式;进而,第二获取单元22基于第一格式和第二格式,获取指定的数据转换脚本信息。

在一些实施例中,图2所示的数据接入装置20还可包括图2中未示出的预配置单元。该预配置单元用于预先配置一个或多个数据转换脚本,每个数据转换脚本与一个数据源和一个应用场景相匹配,用于将匹配的数据源的第二格式转换为匹配的应用场景下的输入数据流的第一格式。在一些实施例中,数据转换脚本为groovy脚本,也可以为其他脚本。相应地,第二获取单元22获取指定的数据转换脚本信息的第二方式为:获取从预先配置的一个或多个数据转换脚本信息中指定的数据转换脚本信息。

基于上述的获取指定的数据转换脚本信息的第二方式,在一些实施例中,第二获取单元22获取指定的数据转换脚本信息之前,还提供用户界面,需要说明的是,文中多次提及提供用户界面,实际实现时提供一个用户界面即可。相应地,第二获取单元22可在用户界面上加载一个或多个数据转换脚本信息;进而,可接收客户在用户界面上指定的数据转换脚本信息。

配置单元23,用于基于指定的应用场景信息、指定的数据源信息和指定的数据转换脚本信息,配置数据接入任务。在一些实施例中,配置单元23还可基于指定的数据源信息,配置任务执行时间策略,例如,任务执行时间策略为定时触发,对于业务数据这种数据源,可定时触发任务执行:1天执行一次或者1周执行一次,实现数据批量接入;而对于反馈数据或曝光数据这两种数据源,可配置一次性提取数据,实现数据实时接入。在一些实施例中,配置单元23可基于数据源地址,配置任务执行时间策略,例如,数据源地址为hdfs路径,则配置定时触发任务执行为1天执行一次或者1周执行一次,实现数据批量接入;数据源地址为kafka接口,则配置定时触发任务执行为一次性提取数据,实现数据实时接入。在一些实施例中,配置单元23可将数据接入任务和任务执行时间策略保存至定时任务框架quartz的调度任务表中。定时任务框架quartz为现有成熟技术,在此不再赘述。

执行单元24,用于执行数据接入任务,以使数据接入任务将指定的数据源的数据接入机器学习系统。在一些实施例中,执行单元24可依据定时任务框架quartz,基于任务执行时间策略定时调度数据接入任务,以定时执行数据接入任务。

在一些实施例中,数据接入任务将指定的数据源的数据接入机器学习系统具体为:数据接入任务基于指定的应用场景信息,查询指定的应用场景下的输入数据流的服务地址(也即背景技术中提及的机器学习系统对外暴露的接口);进而,数据接入任务基于指定的数据源信息,查询指定的数据源的类型和地址;并且,数据接入任务基于指定的数据转换脚本信息,查询指定的数据转换脚本;从而,数据接入任务基于服务地址、指定的数据源的类型和地址、指定的数据转换脚本,将指定的数据源的数据接入机器学习系统。

在一些实施例中,数据接入任务基于服务地址、指定的数据源的类型和地址、指定的数据转换脚本,将指定的数据源的数据接入机器学习系统具体为:数据接入任务从指定的数据源的地址获取数据,并基于指定的数据转换脚本,将获取数据的第二格式转换为与指定的数据源的类型相匹配的输入数据流的第一格式;进而,数据接入任务基于服务地址,将指定的数据转换脚本输出的数据接入机器学习系统。

可见,针对不同的应用场景信息,可获取不同的数据转换脚本信息,以满足指定的数据源的数据格式转换为指定的应用场景下的数据格式。另外,针对不同的应用场景信息、不同的数据源信息和不同的数据转换脚本信息,可配置不同的数据接入任务,数据接入任务可被执行以满足外部数据接入机器学习系统时数据格式的转换需求,避免数据格式不符导致接入失败的问题。另外,针对不同的数据源信息,可配置不同的数据接入任务,以满足不同的外部数据流的实时接入或批量接入。

在一些实施例中,数据接入装置20中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如第一获取单元21、第二获取单元22、配置单元23和执行单元24中的至少两个单元可以实现为一个单元;第一获取单元21、第二获取单元22、配置单元23或执行单元24也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图3是本公开实施例提供的一种机器学习系统的数据接入方法的示例性流程图。本实施例中,数据接入装置可实现为数据接入装置前端和数据接入装置后端,数据接入方法的流程如下:

客户可通过数据接入装置前端配置一个或多个数据转换脚本,数据转换脚本可以为groovy脚本,也可以为其他脚本。

数据接入装置后端将客户配置的一个或多个数据转换脚本保存到数据库中,其中,保存的方式为持久化保存。数据库在保存成功后,可向数据接入装置后端反馈保存成功的信息。数据接入装置后端在接收得到数据库反馈的保存成功信息后,向数据接入装置前端发送配置成功的信息,至此,完成数据转换脚本的配置。

客户可通过数据接入装置前端发起用于获取应用场景的请求。数据接入装置后端在接收到该请求后,从机器学习系统获取应用场景信息,具体地,可以向机器学习系统发送获取应用场景信息的请求,以使机器学习系统返回应用场景信息,例如,返回应用场景信息列表,该列表中包括一个或多个应用场景信息。数据接入装置后端可将获取的应用场景信息反馈给数据接入装置前端。

数据接入装置前端在获取到应用场景信息后,可加载应用场景信息,以便客户指定应用场景信息。另外,客户可通过数据接入装置前端指定数据源信息和指定数据转换脚本信息。

数据接入装置后端在获取客户指定的应用场景信息、指定的数据源信息和指定的数据转换脚本信息后,配置数据接入任务,并保存数据接入任务至数据库。数据库在保存成功后,可向数据接入装置后端反馈保存成功的信息。数据接入装置后端在接收得到数据库反馈的保存成功信息后,向数据接入装置前端发送配置成功的信息,至此,完成数据接入任务的配置。

数据接入装置后端在完成数据接入任务配置后,可执行数据接入任务,以使数据接入任务将指定的数据源的数据接入机器学习系统。

图4是本公开实施例提供的另一种机器学习系统的数据接入方法的示例性流程图,该方法的执行主体为数据接入装置。本实施例中,机器学习系统预先设置不同应用场景下的输入数据流的第一格式。数据接入方法方法包括如下步骤401至404:

401、获取指定的应用场景信息和指定的数据源信息;

402、获取指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式;

403、基于指定的应用场景信息、指定的数据源信息和指定的数据转换脚本信息,配置数据接入任务;

404、执行数据接入任务,以使数据接入任务将指定的数据源的数据接入机器学习系统。

在一些实施例中,获取指定的应用场景信息包括:

接收用于获取应用场景的请求;

获取机器学习系统预先设置的一个或多个应用场景信息;

响应请求而反馈一个或多个应用场景信息;

接收从一个或多个应用场景信息中指定的应用场景信息。

在一些实施例中,获取指定的应用场景信息之前,方法还包括:

提供用户界面;

相应地,接收用于获取应用场景的请求包括:接收用户在用户界面发起的请求;

反馈一个或多个应用场景信息后,方法还包括:在用户界面上加载一个或多个应用场景信息;

接收从一个或多个应用场景信息中指定的应用场景信息包括:接收用户在用户界面上指定的应用场景信息。

在一些实施例中,获取指定的应用场景信息之前,方法还包括:

提供用户界面;

获取指定的应用场景信息包括:

获取机器学习系统预先设置的一个或多个应用场景信息;

在用户界面上加载一个或多个应用场景信息;

接收用户在用户界面上指定的应用场景信息。

在一些实施例中,指定的数据源信息包括:数据源类型和数据源地址;

获取指定的数据转换脚本信息包括:

基于数据源类型,获取指定的应用场景下的输入数据流的第一格式;

基于数据源地址,确定指定的数据源的第二格式;

基于第一格式和第二格式,获取指定的数据转换脚本信息。

在一些实施例中,方法还包括:

预先配置一个或多个数据转换脚本,每个数据转换脚本与一个数据源和一个应用场景相匹配,用于将匹配的数据源的第二格式转换为匹配的应用场景下的输入数据流的第一格式;

获取指定的数据转换脚本信息包括:

获取从预先配置的一个或多个数据转换脚本信息中指定的数据转换脚本信息。

在一些实施例中,获取指定的数据转换脚本信息之前,方法还包括:

提供用户界面;

获取指定的数据转换脚本信息包括:

在用户界面上加载一个或多个数据转换脚本信息;

接收用户在用户界面上指定的数据转换脚本信息。

在一些实施例中,方法还包括:

基于指定的数据源信息,配置任务执行时间策略;

执行数据接入任务包括:

基于任务执行时间策略调度数据接入任务。

在一些实施例中,数据接入任务将指定的数据源的数据接入机器学习系统包括:

数据接入任务基于指定的应用场景信息,查询指定的应用场景下的输入数据流的服务地址;

数据接入任务基于指定的数据源信息,查询指定的数据源的类型和地址;

数据接入任务基于指定的数据转换脚本信息,查询指定的数据转换脚本;

数据接入任务基于服务地址、指定的数据源的类型和地址、指定的数据转换脚本,将指定的数据源的数据接入机器学习系统。

在一些实施例中,数据接入任务基于服务地址、指定的数据源的类型和地址、指定的数据转换脚本,将指定的数据源的数据接入机器学习系统包括:

数据接入任务从指定的数据源的地址获取数据,并基于指定的数据转换脚本,将获取数据的第二格式转换为与指定的数据源的类型相匹配的输入数据流的第一格式;

数据接入任务基于服务地址,将指定的数据转换脚本输出的数据接入机器学习系统。

以上各方法实施例的具体细节可参考各装置实施例,为避免重复,不再赘述。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员能够理解,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。另外,本领域技术人员能够理解,说明书中所描述的实施例均属于可选实施例。

图5是本公开实施例提供的一种包括至少一个计算装置和至少一个存储指令的存储装置的系统的示例性框图。在一些实施例中,该系统可用于大数据处理,至少一个计算装置和至少一个存储装置可以为分布式部署,使该系统为分布式数据处理集群。

如图5所示,系统包括:至少一个计算装置501、至少一个存储指令的存储装置502。可以理解,本实施例中的存储装置502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。

在一些实施方式中,存储装置502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。

其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础任务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用任务。实现本公开实施例提供的机器学习系统的数据接入方法的程序可以包含在应用程序中。

在本公开实施例中,至少一个计算装置501通过调用至少一个存储装置502存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,至少一个计算装置501用于执行本公开实施例提供的机器学习系统的数据接入方法各实施例的步骤。

本公开实施例提供的机器学习系统的数据接入方法可以应用于计算装置501中,或者由计算装置501实现。计算装置501可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过计算装置501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的计算装置501可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的机器学习系统的数据接入方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储装置502,计算装置501读取存储装置502中的信息,结合其硬件完成方法的步骤。

本公开实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,当所述程序或指令被至少一个计算装置运行时,使至少一个计算装置执行如机器学习系统的数据接入方法各实施例的步骤,为避免重复描述,在此不再赘述。其中,计算装置可以为图5所示的计算装置501。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1