数据处理方法、装置、电子设备及计算机可读介质与流程

文档序号:17322182发布日期:2019-04-05 21:35阅读:139来源:国知局
数据处理方法、装置、电子设备及计算机可读介质与流程

本公开涉及云存储技术领域,具体而言,涉及一种数据处理方法、装置、电子设备及计算机可读介质。



背景技术:

云服务是基于互联网的相关服务的增加、使用和交互模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。当前,常见的云服务有公有云和私有云两种。公有云是面向大众提供计算资源的服务,计算资源一般部署在服务商场所内。公有云的优势是成本低,扩展性好;缺点主要集中在数据保密性较差。私有云一般是为了单一客户使用而构建的类似于传统数据中心的数据服务,所以在私有云上数据的安全性和服务质量一般是高于公有云。私有云更侧重于数据的存储服务,并且私有云和公有云之间的数据传输必须通过文件传输、系统调度服务所提供的接口。

通常,出于对敏感信息保密性要求方面的考虑,医疗数据的收集、存储等行为主要集中于部署在院方的私有云一侧;而涉及数据挖掘、机器学习等有对计算资源存在瓶颈要求的操作往往更倾向于部署在公有云一侧,以此来缓解海量数据处理过程中集群内存、主频、带宽等资源限制。正是因为这种数据前期生产与后期加工处理分属不同的异构网络,因此给后期数据处理带来了诸如流量、带宽等一系列数据访问、传输的条件限制。

因此,需要一种新的数据处理方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

有鉴于此,本公开提供一种数据处理方法、装置、电子设备及计算机可读介质,能够解决异构网络之间数据传输受到限制的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的一方面,提出一种数据处理方法,用于私有云,该方法包括:通过私有云获取新增数据;根据所述公有云存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典;将得到的多个版本的词典发送给所述私有云,以便所述私有云根据所述多个版本的词典完成策略生效;启动数据聚合任务,以使所述私有云对策略生效的数据进行聚合。

在本公开的一种示例性实施例中,通过私有云获取新增数据包括:

通过轮询所述私有云的策略提数任务获取所述新增数据。

在本公开的一种示例性实施例中,通过轮询所述私有云的策略提数任务获取所述新增数据包括:

轮询所述策略提数任务的状态,如果所述策略提数任务的状态为成功,则从所述私有云获取所述新增数据。

在本公开的一种示例性实施例中,通过轮询所述私有云的策略提数任务获取所述新增数据之前,还包括:

将配置文件发送给私有云,以使所述私有云启动所述策略提数任务。

在本公开的一种示例性实施例中,获取所述新增数据之后,还包括:

将所述新增数据存储在公有云的集群中。

在本公开的一种示例性实施例中,根据所述公有云存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典包括:

根据所述策略原始词、以及每次查询所述策略提数任务得到的所述增量数据进行机器学习和策略匹配的运算,每完成一次策略生成得到一个版本的词典。

在本公开的一种示例性实施例中,得到所述词典之后还包括:

对所述词典进行kv化,得到的所述词典的格式为key-value;

其中key为所述新增数据,value为新生成的数据。

根据本公开的一方面,提出一种数据处理装置,用于公有云,该装置包括:数据获取模块,用于通过私有云获取新增数据;策略生成模块,用于根据所述公有云存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典;词典发送模块,用于将得到的多个版本的词典发送给所述私有云,以便所述私有云根据所述多个版本的词典完成策略生效;以及聚合启动模块,用于启动数据聚合任务,以使所述私有云对策略生效的数据进行聚合。

根据本公开的一方面,还提出一种数据处理方法,用于私有云,该方法包括:通过响应于公有云发送的配置文件启动策略提数任务;当所述策略提数任务的状态为成功时,所述策略提数任务根据所述配置文件进行字段读取生成联合关键词,并通过比较不同版本的联合关键词内容得到新增数据;将所述新增数据发送给所述公有云,以使所述公有云根据存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典;接收所述公有云发送的多个版本的词典,将所述多个版本的词典汇总得到超级词典;按照所述超级词典使策略生效,对策略生效的数据进行聚合得到聚合数据。

在本公开的一种示例性实施例中,所述策略提数任务根据所述配置文件进行字段读取生成联合关键词,并通过比较不同版本的联合关键词内容得到新增数据包括:

通过读取所述配置文件中的来源字段,从所述私有云的集群中读取与所述来源字段相对应的值;根据所述配置文件中的聚合字段、所述来源字段进行聚合,组合成所述联合关键词;对当前版本与之前版本的所述联合关键词的内容进行比较,计算得到新增数据。

在本公开的一种示例性实施例中,得到所述新增数据之后,还包括:

对所述新增数据的联合关键词进行拆分,将拆分后的数据采用多路输出的方式存储在所述私有云的集群的指定目录下,并在所述指定目录中写入成功标志。

根据本公开的一方面,还提出一种数据处理装置,用于私有云,该装置包括:提数启动模块,用于通过响应于公有云发送的配置文件启动策略提数任务;数据生成模块,用于当所述策略提数任务的状态为成功时,所述策略提数任务根据所述配置文件进行联合关键词的词频统计,并通过比较不同版本的联合关键词内容得到新增数据;数据发送模块,用于将所述新增数据发送给所述公有云,以使所述公有云根据存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典;词典汇总模块,用于接收所述公有云发送的多个版本的词典,将所述多个版本的词典汇总成得到超级词典;以及数据聚合模块,用于按照所述超级词典使策略生效,对策略生效的数据进行聚合得到聚合数据。

根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。

根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。

根据本公开的数据处理方法、装置、电子设备及计算机可读介质,能够解决异构网络之间数据传输受到限制的问题,在公有云完成策略生成,能够与复杂的异构私有云环境隔离,只需要将私有云的增量数据汇总到公有云,可以提升策略迭代速度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种数据处理方法及装置的系统框图。

图2是根据一示例性实施例示出的一种数据处理方法的流程图。

图3是根据一示例性实施例示出的一种数据处理装置的框图。

图4是根据另一示例性实施例示出的一种数据处理方法的示意图。

图5是根据另一示例性实施例示出的一种数据处理装置的框图。

图6是根据一示例性实施例示出的数据处理方法的策略框架整体流程示意图。

图7是根据一示例性实施例示出的配置文件主要字段参考示意图。

图8是根据一示例性实施例示出的策略配置文件的示例。

图9是根据一示例性实施例示出的具体数据示意图。

图10是根据一示例性实施例示出的一种电子设备的框图。

图11是根据一示例性实施例示出一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。

在本公开相关实施例中,私有云和公有云之间的数据传输通过在公有云发起任务通过文件传输、系统调度等服务将对应代码指令发送给私有云,并在私有云上执行相应任务,从而实现对数据的加工处理,最终在私有云上输出一份聚合数据。

这种方式的主要缺点如下:

(1)受限于私有云集群中服务器数量、服务器计算、内存等资源限制,数据处理效率明显低于公有云;

(2)策略迭代速度明显大于数据迭代速度,导致任务运行过程中代码传输所消耗带宽几乎和实际使用的数据量持平,甚至代码传输所消耗带宽还会略超过实际使用的数据量;

(3)私有云任务的离线数据生产过程中,策略执行时间已经成为主要瓶颈;

(4)当私有云上策略代码存在问题时,终止、重启任务困难;

(5)当发现加工产出的数据存在问题时,需要重新进行整体迭代,修复成本高。

为克服相关实施例中存在的上述缺点,本公开示例性实施例中提供一种数据处理方法,图1是根据一示例性实施例示出的一种数据处理方法及装置的系统框图。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所提交的数据处理请求提供支持的后台管理服务器。后台管理服务器可以对接收到的数据处理请求等进行分析等处理,并将处理结果反馈给终端设备。

服务器105可例如获取用户利用终端设备101、102、103传送的待处理数据;服务器105可例如将所述待处理数据进行处理。

服务器105可以是一个实体的服务器,还可例如为多个服务器组成,需要说明的是,本公开实施例所提供的数据处理方法可以由服务器105执行,相应地,数据处理装置可以设置于服务器105中。

图2是根据一示例性实施例示出的一种数据处理方法的流程图。数据处理方法20至少包括步骤s202至s208,该方法主要适用于公有云以及公有云与私有云之间数据的处理以及传输。

如图2所示,在步骤s202中,通过私有云获取新增数据。

如图2所示,在步骤s204中,根据所述公有云存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典。

如图2所示,在步骤s206中,将得到的多个版本的词典发送给所述私有云,以便所述私有云根据所述多个版本的词典完成策略生效。

如图2所示,在步骤s208中,启动数据聚合任务,以使所述私有云对策略生效的数据进行聚合。

以下结合图2所示的流程图对本公开提供的数据处理方法进行详细介绍,具体如下:

在步骤s202中,通过私有云获取新增数据。

在本公开的一种示例性实施例中,公有云集群中存储配置文件以及策略框架代码,但是对于策略生成还需要增量数据,因此公有云需要向私有云轮询获取该增量数据。该步骤中具体可以通过轮询所述私有云的策略提数任务获取所述新增数据,其中策略提数任务时公有云的策略框架任务通过数据传输、系统调度等在私有云上启动的子任务,用于实现数据提取功能。

在本公开的一种示例性实施例中,通过轮询所述私有云的策略提数任务获取所述新增数据时,首先需要通过数据传输接口轮询所述策略提数任务的状态,该策略提数任务的状态有成功或超时两种,如果所述策略提数任务的状态为成功,则从所述私有云获取所述新增数据;如果所述策略提数任务的状态为超时,则任务失败,无法获取到新增数据。

在本公开的一种示例性实施例中,通过轮询所述私有云的策略提数任务获取所述新增数据之前,还包括:

将配置文件发送给私有云,以使所述私有云启动所述策略提数任务。

在本公开的一种示例性实施例中,获取所述新增数据之后,还包括:

将获取到的所述新增数据存储在公有云的集群中,便于在后续流程中策略平台能够直接从公有云的集群中直接获取,避免再次经过网络服务传输数据,增加数据的不确定性,即便在策略升级时,一份新增数据只需要提取一次,可以重复使用,节省流量。

在步骤s204中,根据所述公有云存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典。

在本公开的一种示例性实施例中,根据所述公有云存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典包括:

根据所述策略原始词(即原始数据)、以及每次查询所述策略提数任务得到的所述增量数据进行机器学习和策略匹配的运算,每完成一次策略生成得到一个版本的词典。即根据策略原始词、增量数据进行机器学习、策略匹配等一系列计算操作完成策略生成,实现映射关系词典。

在本公开的一种示例性实施例中,得到所述词典之后还包括:对所述词典进行kv化,得到的所述词典的格式为key-value,其中key为所述新增数据,value为新生成的数据。也就是说词典是归一化过程中,存储原始医疗术语和标准术语之间映射关系的文本,格式就是上述的key-value格式。

在步骤s206中,将得到的多个版本的词典发送给所述私有云,以便所述私有云根据所述多个版本的词典完成策略生效。该步骤中通过私有云将多个版本的词典汇总成一个超级词典,再利用这个超级词典完成策略生效,即根据原始电子病历数据结合超级词典新生成数据,即策略生效的数据。

在步骤s208中,启动数据聚合任务,以使所述私有云对策略生效的数据进行聚合,最终得到一份聚合数据。

根据本公开的用于公有云的数据处理方法,通过在公有云完成策略生成,能够与复杂的异构私有云环境隔离,只需要将私有云的增量数据汇总到公有云,可以提升策略迭代速度。打破现有技术数据处理流程中如果发现字段级问题也需要全流程重新执行任务的繁琐方式,替换成只需针对性修改问题字段的轻量级数据处理,节省策略生效时间。

应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。

图3是根据一示例性实施例示出的一种数据处理装置的框图。数据处理装置30用于公有云,包括:数据获取模块301、策略生成模块302、词典发送模块303和聚合启动模块304。

其中,数据获取模块301用于通过私有云获取新增数据;策略生成模块302用于根据所述公有云存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典;词典发送模块303用于将得到的多个版本的词典发送给所述私有云,以便所述私有云根据所述多个版本的词典完成策略生效;聚合启动模块304用于启动数据聚合任务,以使所述私有云对策略生效的数据进行聚合。

根据本公开的用于公有云的数据处理装置,通过在公有云完成策略生成,能够与复杂的异构私有云环境隔离,只需要将私有云的增量数据汇总到公有云,可以提升策略迭代速度。打破现有技术数据处理流程中如果发现字段级问题也需要全流程重新执行任务的繁琐方式,替换成只需针对性修改问题字段的轻量级数据处理,节省策略生效时间。

图4是根据另一示例性实施例示出的一种数据处理方法的流程图。数据处理方法40至少包括步骤s402至s410,该方法主要适用于私有云以及公有云与私有云之间数据的处理以及传输。

如图4所示,在步骤s402中,通过响应于公有云发送的配置文件启动策略提数任务。

如图4所示,在步骤s404中,当所述策略提数任务的状态为成功时,所述策略提数任务根据所述配置文件进行字段读取生成联合关键词,并通过比较不同版本的联合关键词内容得到新增数据。

如图4所示,在步骤s406中,将所述新增数据发送给所述公有云,以使所述公有云根据存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典。

如图4所示,在步骤s408中,接收所述公有云发送的多个版本的词典,将所述多个版本的词典汇总得到超级词典。

如图4所示,在步骤s410中,按照所述超级词典使策略生效,对策略生效的数据进行聚合得到聚合数据。

以下结合图4所示的流程图对本公开提供的数据处理方法进行详细介绍,具体如下:

在本公开的一种示例性实施例中,步骤s404中需要对所述策略提数任务的状态进行判断,根据所述策略提数任务根据所述配置文件进行字段读取生成联合关键词,并通过比较不同版本的联合关键词内容得到新增数据包括:

通过读取所述配置文件中的来源字段,从所述私有云的集群中读取与所述来源字段相对应的值;根据所述配置文件中的聚合字段、所述来源字段进行聚合,组合成所述联合关键词;对当前版本与之前版本的所述联合关键词的内容进行比较,计算得到新增数据。该步骤中联合关键词中的内容就是指联合关键词中各个字段及其对应的值,通过将不同版本(具体是当前版本与之前版本)联合关键词中的各个字段及其对应的值进行比较,如果通过比较发现不同,则得到新增数据。

在本公开的一种示例性实施例中,步骤s404得到所述新增数据之后,还包括:

对所述新增数据的联合关键词进行拆分,将拆分后的数据采用多路输出的方式存储在所述私有云的集群的指定目录下,并在所述指定目录中写入成功标志,表明提取新增数据成功,该指定目录下的新增数据可用。

在本公开的一种示例性实施例中,步骤s406-步骤s408中私有云将新增数据发送给公有云,并接收公有云通过数据传输服务接口发送的词典,私有云能够将多个版本的词典添加构成一个超级词典。

在本公开的一种示例性实施例中,步骤s410中通过公有云启动,并由数据传输、系统调度等服务分发给私有云数据聚合框架任务,完成数据聚合,以最终得到并输出聚合数据。

本公开的用于私有云的数据处理方法,通过在公有云完成策略生成,能够与复杂的异构私有云环境隔离,只需要将私有云的增量数据汇总到公有云,可以提升策略迭代速度。打破现有技术数据处理流程中如果发现字段级问题也需要全流程重新执行任务的繁琐方式,替换成只需针对性修改问题字段的轻量级数据处理,节省策略生效时间。

应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。

图5是根据一示例性实施例示出的一种数据处理装置的框图。数据处理装置50用于私有云,包括:提数启动模块501、数据生成模块502、数据发送模块503、词典汇总模块504和数据聚合模块505。

提数启动模块501用于通过响应于公有云发送的配置文件启动策略提数任务;数据生成模块502用于当所述策略提数任务的状态为成功时,所述策略提数任务根据所述配置文件进行联合关键词的词频统计,并通过比较不同版本的联合关键词内容得到新增数据;数据发送模块503用于将所述新增数据发送给所述公有云,以使所述公有云根据存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典;词典汇总模块504用于接收所述公有云发送的多个版本的词典,将所述多个版本的词典汇总得到超级词典;数据聚合模块505用于按照所述超级词典使策略生效,对策略生效的数据进行聚合得到聚合数据。

根据本公开的用于公有云的数据处理装置,通过在公有云完成策略生成,能够与复杂的异构私有云环境隔离,只需要将私有云的增量数据汇总到公有云,可以提升策略迭代速度。打破现有技术数据处理流程中如果发现字段级问题也需要全流程重新执行任务的繁琐方式,替换成只需针对性修改问题字段的轻量级数据处理,节省策略生效时间。

上述图2和图4分别从公有云和私有云的角度对数据处理方法进行介绍,以下对数据处理方法的整体流程进行介绍,该数据处理方法中涉及的计算任务如下:

(1)策略框架任务(task_norm_main):在公有云上启动的策略总控任务,主要负责监控任务运行状态、协调公有云、私有云之间的任务交互、数据传输;

(2)策略平台任务(task_norm_platform):在公有云上启动的网络服务,用户通过策略平台任务可以进行登录操作、手动标注策略数据等操作(网络服务可能与框架任务部署在不同的服务器上)。平台任务常驻于服务器内存,对外提供网络服务;

(3)私有云策略提数任务(task_norm_grab):策略框架任务通过数据传输、系统调度等服务在私有云上启动的子任务,实现数据提取等功能;

(4)数据聚合任务(task_pp):在公有云上启动,并由数据传输、系统调度等服务分发给私有云的任务,实现数据聚合;

(5)私有云策略生效任务(task_norm):数据聚合框架任务的子任务,通过代码指令、词典配置对原始电子病历数据实现策略生效。

基于上述任务,图6示出本公开实施例提供的数据处理方法的策略框架整体流程示意图,其中策略平台根据策略配置文件对词典进行刷新,能够有效节省离线策略生效时间,提高策略迭代、优化效率。

如图6所示,框架大体包括公有云和私有云两部分,这里的公有云可以是服务于某个城市或多个城市的医疗系统的公有云,私有云可以是各个医院内部的私有云。

公有云部分启动的策略框架任务将策略框架代码分割成执行代码和配置文件,并分发给私有云,私有云根据执行代码和配置文件进行处理,得到策略原始词(即原始数据)以及原始词delta(即增量数据),并将增量数据经数据传输回公有云,公有云轮询策略平台任务状态,策略平台任务根据原始数据和新增数据进行计算操作生成词典,该词典通过数据传输发送给私有云。另外,在公有云上启动数据聚合任务,将打包策略执行代码分发给数据聚合框架,私有云的策略任务进行数据聚合。

策略平台根据策略配置文件对词典数据进行刷新的方式分为主动刷新和被动刷新两种,其中策略平台被动刷新词典的方式主要侧重于解决需要策略执行过程中原始数据与当前词典无法完全匹配的问题,实现动态刷新策略词典。具体方案如下:

(1)在公有云启动策略框架任务task_norm_main,并在公有云上访问策略平台网络服务。为了实现功能配置化,task_norm_main任务在公有云提前获取“配置文件”,并通过数据传输、系统调度等服务将策略框架代码、配置文件发送给对应私有云,并在私有云上启动相关策略提数任务task_norm_grab。图7示出配置文件主要字段参考示意图,图8示出策略配置文件的示例,主要示出相关的字段名称、字段值以及字段的作用。

(2)策略框架任务task_norm_main通过数据传输服务接口轮询私有云提数任务task_norm_grab的状态,以实现对任务状态、数据就绪情况的实时监控。

(3)私有云上策略提数任务task_norm_grab读取配置文件中标示的来源字段schema_fields,并从私有云的集群上存放的原始电子病历数据中提取对应字段的值等相关信息,图9示出的具体数据示意图,包括策略提数任务提取得到的新增数据以及策略生成的新数据。

(4)私有云策略提数任务task_norm_grab根据配置文件中聚合字段norm_group_key、来源字段schema_fields进行聚合,组合联合关键词,并实现联合关键词的词频统计。

(5)私有云策略提数任务task_norm_grab比较不同版本的联合关键词内容,计算出当前版本与之前所有版本之间新增数据(不同版本的内容存放在相同路径下,以时间戳为目录进行区分,本次任务之前的数据都视为基础版本数据)。

(6)私有云策略提数任务task_norm_grab将计算得到的新增数据的联合关键词进行拆分,实现多路输出存储(多路输出的目录名为配置文件中的norm_group_key字段值),最终在指定目录写入成功标志,表明提取新增数据完成,且可用。

(7)策略框架任务task_norm_main轮询得到私有云上的策略提数任务已经执行完成。

(8)策略框架任务通过数据传输服务接口获取私有云上的原始词delta(即新增数据),并存储在公有云集群中,以便于策略平台直接从公有云集群获取,避免再次经过网络服务传输数据、增加不确定性。

(9)策略框架任务task_norm_main通过策略平台网络服务、通知相关进程新增数据已经就绪。

(10)策略框架任务task_norm_main开始轮询策略平台任务task_norm_platform状态,如果状态是成功,则公有云获取原始数据开始策略生成;如果状态是超时(即轮询等待超时),则任务失败。

(11)策略平台任务task_norm_platform根据新增数据进行一系列计算操作(如:机器学习、策略匹配等)获取到策略生效数据,并实现映射关系词典。

(12)策略平台任务完成策略生效,在指定路径写入成功标志,以使私有云得知公有云策略生成已经完成。

(13)策略框架任务task_norm_main获取策略平台完成的词典,并通过数据传输服务接口发送给私有云。

(14)私有云策略提数任务轮询指定目录成功标志就位,将新增数据存放私有云集群指定位置,并写入成功标志,至此私有云策略提数任务task_norm_grab执行完成,可用,如果成功标志美誉就位,则说明策略提数任务失败,不可用。

(15)策略框架任务task_norm_main轮询私有云策略提数任务task_norm_grab执行完成,启动数据聚合任务。

(16)数据聚合任务在私有云上将各版本词典汇总成一个超级词典,并将启动私有云策略执行任务保证策略生效,即根据原始数据结合超级词典获取的到新生成的数据,并最终根据新生成的数据完成数据聚合。

而策略平台主动刷新词典的方式,主要保证策略能够快速生效并下发给各私有云,提高策略生效时间。具体方案如下:

(1)策略平台任务更新策略版本(可能是策略执行代码或者配置文件发生了变更)。

(2)策略平台读取公有云集群中之前存储的策略原始词,执行策略实现映射关系词典kv化,即将词典转化为key-value格式,其中key是原始数据,value是新生成的数据。

(3)策略平台通过数据传输服务接口将词典发送给各个私有云,并存储在私有云集群的指定位置,以供后续数据聚合任务使用。

基于上述策略平台主动刷新词典时,原始数据不变,但是算法更新了,会导致新生成的数据发生改变。对应这种情况,因为公有云已经存储有原始数据,所以可以根据已存储的原始数据和新的算法生成新的数据,并主动传输给私有云。被动刷新词典时,原始数据发生了改变,但是算法不变,私有云向公有云传输改变的原始数据(实际只传输变化的部分,即新增数据),结合原来的算法生成新的数据。

综上所述,根据图2、图4和图6所示的步骤流程,本公开提供的数据处理方法能够将策略生成与复杂的异构私有云环境隔离,使得策略开发者可以聚焦于策略产出的结果数据,提升策略迭代速度,由于中间层数据中携带指定目录的路径,能够实现轻量级问题修复,无需对全量数据进行修复。该方法将各个私有云的新增数据汇聚到公有云平台上,便于在公有云进行全量的数据统计、分析,缩短策略迭代时间,提高策略迭代、优化的效率,彻底解决策略执行过程中的资源瓶颈问题。另外,由于同一份新增数据一次提取后存储在私有云中,当策略升级时可以重复使用,因此可以节省流量。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由cpu执行的计算机程序。在该计算机程序被cpu执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。

此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

图10是根据一示例性实施例示出的一种电子设备的框图。

下面参照图10来描述根据本公开的这种实施方式的电子设备200。图10显示的电子设备200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图2,图4中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(rom)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

图11示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

参考图11所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:通过私有云获取新增数据;根据所述公有云存储的策略原始词、所述新增数据进行运算,且每完成一次策略生成得到一个版本的词典;将得到的多个版本的词典发送给所述私有云,以便所述私有云根据所述多个版本的词典完成策略生效;启动数据聚合任务,以使所述私有云对策略生效的数据进行聚合。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本公开可实施的范畴。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1