Jupyter容器内动态生成Spark端口访问的方法及设备与流程

文档序号:25789282发布日期:2021-07-09 11:14阅读:312来源:国知局
Jupyter容器内动态生成Spark端口访问的方法及设备与流程
jupyter容器内动态生成spark端口访问的方法及设备
技术领域
1.本发明属于通信技术领域,具体涉及一种jupyter容器内动态生成spark端口访问的方法及设备。


背景技术:

2.对于jupyter使用进行k8s容器化后,由于k8s集群内部对外隔离的特性,使得现有技术中无法满足在jupyter容器内部以yarn

client模式运行的spark程序。
3.例如,在现有技术中,jupyter容器内无法满足直接使用yarn

client模式,只能以local或cluster模式运行spark程序,local模式运行无法使用spark集群的分布式计算能力,cluster模式运行只能全部在spark集群上查看,无法满足客户端交互式开发输出的需求。


技术实现要素:

4.本发明提供了一种jupyter容器内动态生成spark端口访问的方法及设备,以解决jupyter容器内无法满足直接使用yarn

client模式的技术问题。
5.本发明提供的技术方案如下:
6.一方面,一种jupyter容器内动态生成spark端口访问的方法,包括:
7.在启动生成jupyter容器pod时,动态生成多个不重复的nodeport端口;
8.基于所述nodeport端口,生成绑定jupyter pod的service,并保持port、targetport、nodeport一致;
9.基于保持一致的port、targetport、nodeport,在jupyter容器内直接使用spark on yarn的yarn

client模式运行spark作业,并获取交互式输出。
10.可选的,所述动态生成多个不重复的nodeport端口,包括:
11.通过yaml文件使用k8s

client生成k8s集群pod;
12.根据端口全局占用记录表,查询还未被使用的可用nodeport,并在所述未被使用的可用nodeport中轮询选择出适用nodeport。
13.可选的,所述基于所述nodeport端口,生成绑定jupyter pod的service,并保持port、targetport、nodeport一致,包括:
14.基于所述nodeport端口,通过yaml生成绑定所述jupyter容器pod的service,并保持port、targetport、nodeport完全一致。
15.可选的,所述基于保持一致的port、targetport、nodeport,在jupyter容器内直接使用spark on yarn的yarn

client模式运行spark作业,并获取交互式输出,包括:
16.k8s集群每个节点上的nodeport端口代理到jupyter容器pod的对应service服务中,以使k8s集群外部客户端直接访问service入口;
17.在jupyter容器内直接使用spark on yarn的yarn

client模式运行spark作业,并获取交互式输出。
18.可选的,所述k8s集群每个节点上的nodeport端口代理到jupyter容器pod的对应service服务中,以使k8s集群外部客户端直接访问service入口,包括:
19.spark的driver运行在k8s的pod上,通过service把targetport映射到port,进一步映射到nodeport,打通外部客户端访问k8s集群内部的入口,以使k8s集群外部客户端直接访问service入口。
20.可选的,所述在jupyter容器内直接使用spark on yarn的yarn

client模式运行spark作业,并获取交互式输出,包括:
21.将jupyter pod作为初始化sparkcontext的client端,与spark集群进行通信交互;
22.通过spark的applicationmaster向yarn的resourcemanager申请获取executor资源,am启动executor后,yarn nodemanager管理的已分配使用的executor反向注册到对应申请的driver端;
23.本地driver就和申请的executor container通信,来进行各个task任务调度;以及,executor将各个task的运行状态汇报给driver端,实现yarn

client模式的交互式开发。
24.又一方面,一种jupyter容器内动态生成spark端口访问的设备,包括:处理器,以及与处理器相连接的存储器;
25.存储器用于存储计算机程序,计算机程序至少用于执行上述任一所述的jupyter容器内动态生成spark端口访问的方法;
26.处理器用于调用并执行存储器中的计算机程序。
27.本发明的有益效果为:
28.本发明实施例提供的jupyter容器内动态生成spark端口访问的方法及设备,在启动生成jupyter容器pod时,动态生成多个不重复的nodeport端口;基于nodeport端口,生成绑定jupyter pod的service,并保持port、targetport、nodeport一致;基于保持一致的port、targetport、nodeport,在jupyter容器内直接使用spark on yarn的yarn

client模式运行spark作业,并获取交互式输出。本发明通过生成jupyter容器时,自动动态生成不重复的service nodeport,并将spark程序的driver.port和blockmanager.port与其绑定,即可实现spark集群访问k8s集群内jupyter容器的driver端,对于原有spark程序只需添加一行配置即可,操作简单,实时生效。
附图说明
29.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
30.图1为本发明实施例提供的一种jupyter容器内动态生成spark端口访问的方法流程示意图;
31.图2为本发明实施例提供的一种jupyter容器内动态生成spark端口访问的方法的原理结构示意图;
32.图3为本发明实施例提供的一种jupyter容器内动态生成spark端口访问的设备结构示意图。
具体实施方式
33.为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
34.jupyter是一种为开发跨多种编程语言的交互式计算的开源软件,开放标准和服务,可应用于全过程计算,开发,文档编写,运行代码和展示结果,常用于python,机器学习开发者的在线开发ide,对jupyter组件进行容器化部署后,能够更轻量级,完全资源隔离的使用。
35.k8s用于自动部署,扩展和管理容器化应用程序的开源系统。pod是k8s中创建和管理的、最小的可部署的计算单元,每个jupyter容器依赖pod生成。service是将一组pods上的应用程序公开为网络服务的抽象方法,每个service可以通过选择器标签绑定到对应标签的pod上,为该pod提供tcp等服务。
36.spark的yarn

client模式:spark on yarn运行模式的其中之一,该模式下,spark driver端会运行在client上,通过spark的applicationmaster仅向yarn的resourcemanager申请获取executor资源,之后本地driver的client负责和请求的所有的executor container通信来进行任务调度,client端不能被关闭,最终结果汇总任务结束后关掉终端,等于kill整个spark应用,该模式适合于交互类型的本地spark作业开发。
37.在现有技术中,jupyter容器内无法满足直接使用yarn

client模式,只能以local或cluster模式运行spark程序,local模式运行无法使用spark集群的分布式计算能力,cluster模式运行只能全部在spark集群上查看,无法满足客户端交互式开发输出的需求。也就是说,现有的spark on yarn的yarn

client模式无法满足在独立k8s集群内部直接运行spark作业的方式,由于k8s集群对外隔离,因此无法在jupyter这种交互式ide上很好的满足spark作业交互式开发的需求。
38.基于此,本发明实施例提供一种jupyter容器内动态生成spark端口访问的方法。
39.图1为本发明实施例提供的一种jupyter容器内动态生成spark端口访问的方法流程示意图;图2为本发明实施例提供的一种jupyter容器内动态生成spark端口访问的方法的原理结构示意图。
40.参阅图1、图2,本发明实施例提供的方法,可以包括以下步骤:
41.s11、在启动生成jupyter容器pod时,动态生成多个不重复的nodeport端口。
42.在一些实施例中,可选的,动态生成多个不重复的nodeport端口,包括:
43.通过yaml文件使用k8s

client生成k8s集群pod;
44.根据端口全局占用记录表,查询还未被使用的可用nodeport,并在未被使用的可用nodeport中轮询选择出适用nodeport。
45.例如,在启动生成jupyter容器pod时,自动动态生成多个不重复的k8s集群nodeport。
46.s12、基于nodeport端口,生成绑定jupyter pod的service,并保持port、targetport、nodeport一致;即集群内部端口与外部访问端口的一致性。
47.在一些实施例中,可选的,包括:基于nodeport端口,通过yaml生成绑定jupyter容器pod的service,并保持port、targetport、nodeport完全一致。
48.例如,根据该nodeport生成绑定该jupyter容器pod的service,并保持port、targetport、nodeport完全一致,即集群内部端口与外部访问端口的一致性。
49.s13、基于保持一致的port、targetport、nodeport,在jupyter容器内直接使用spark on yarn的yarn

client模式运行spark作业,并获取交互式输出。
50.在一些实施例中,可选的,基于保持一致的port、targetport、nodeport,在jupyter容器内直接使用spark on yarn的yarn

client模式运行spark作业,并获取交互式输出,包括:
51.k8s集群每个节点上的nodeport端口代理到jupyter容器pod的对应service服务中,以使k8s集群外部客户端直接访问service入口;
52.在jupyter容器内直接使用spark on yarn的yarn

client模式运行spark作业,并获取交互式输出。
53.在一些实施例中,可选的,包括:spark的driver运行在k8s的pod上,通过service把targetport映射到port,进一步映射到nodeport,打通外部客户端访问k8s集群内部的入口,以使k8s集群外部客户端直接访问service入口。
54.在一些实施例中,可选的,包括:将jupyter pod作为初始化sparkcontext的client端,与spark集群进行通信交互;通过spark的applicationmaster向yarn的resourcemanager申请获取executor资源,am启动executor后,yarn nodemanager管理的已分配使用的executor反向注册到对应申请的driver端;本地driver就和申请的executor container通信,来进行各个task任务调度;以及,executor将各个task的运行状态汇报给driver端,实现yarn

client模式的交互式开发。
55.本发明实施例中,由系统自动生成可绑定的多个k8s集群内唯一的nodeport端口,对用户透明,用户只需在原有yarn

client模式启动的spark程序上添加一行sparkconf配置增加的绑定端口属性,即可在jupyter容器中运行实时生效,并能在日志中看到交互式的spark作业数据输出,简单高效。
56.例如,jupyter容器内以yarn

client模式启动的spark程序,setmaster(“yarn”)后只需配置sparkconf增加以下属性即可(理论上可支持足够多的nodeport):
57.set(“spark.driver.bindaddress”,“0.0.0.0”)
58.set(“spark.driver.host”,“k8s集群主节点ip”)
59.set(“spark.driver.port”,“nodeport1”)
60.set(“spark.blockmanager.port”,“nodeport2”)。
61.可选的,在jupyter容器内初始化sparkcontext时,增加配置sparkconf端口属性,设置为对应选择多个的nodeport,即以yarn

client模式可正常运行spark程序,并获取到交互式输出。
62.本发明实施例提供的jupyter容器内动态生成spark端口访问的方法,由系统自动生成可绑定的多个k8s集群内唯一的nodeport端口,对用户透明,用户只需在原有yarn

client模式启动的spark程序上添加一行sparkconf配置增加的绑定端口属性,即可在jupyter容器中运行实时生效,并能在日志中看到交互式的spark作业数据输出,简单高效。
63.基于一个总的发明构思,本发明实施例还提供一种jupyter容器内动态生成spark端口访问的设备。
64.图3为本发明实施例提供的一种jupyter容器内动态生成spark端口访问的设备结构示意图,请参阅图3,本发明实施例提供的一种jupyter容器内动态生成spark端口访问的设备,包括:处理器31,以及与处理器相连接的存储器32。
65.存储器32用于存储计算机程序,计算机程序至少用于上述任一实施例记载的jupyter容器内动态生成spark端口访问的方法;
66.处理器31用于调用并执行存储器中的计算机程序。
67.基于一个总的发明构思,本发明实施例还提供一种存储介质。
68.一种存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,实现上述的jupyter容器内动态生成spark端口访问的方法中各个步骤。
69.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
70.可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
71.需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
72.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
73.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
74.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
75.此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机
可读取存储介质中。
76.上述提到的存储介质可以是只读存储器,磁盘或光盘等。
77.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
78.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1