一种实时发现线下场所业务故障的方法和系统与流程

文档序号:12133818
一种实时发现线下场所业务故障的方法和系统与流程

本发明涉及实时监控技术领域,具体涉及KTV及酒吧等娱乐影音行业中业务故障的实时监控方法和系统。



背景技术:

KTV,影院和酒吧这些线下场所往往会有很多的服务器节点,拿KTV场所举例子:会存在视频服务器,中转服务器,数据库服务器以及各个包房的机顶盒。要在这么多的服务器节点中定位故障就成了一个特别繁琐的事情。

现有技术对于该问题主要有两种解决方案,一是为每个场所配备运维人员,专职管理该场所的服务器,出故障时运维人员通过逐个排查各个服务器节点的操作日志;这个方案仅适合场所不大节点不多的环境,但作为KTV、酒吧这种娱乐影音场所,节点较多,定位故障节点困难,运维人员逐步排查故障耗时耗力,会给正在营业的场所带来较大损失。

另一种方案是把所有的服务器都放到云端,由云端专业的运维人员对服务器节点统一进行管理;这个方案在实际实施的时候会有一定的局限性,并不是所有服务器都适合放在云端,例如KTV的中转服务器和数据库服务器等关键服务器,由于KTV场所个性化需求多样,并不适合将服务器放在云端托管。



技术实现要素:

本发明解决的技术问题在解决于提供一种实时发现KTV、酒吧等娱乐影音行业内业务设备故障的实时监控系统和方法,实现了一种既不需要将线下场所的服务器放到云端又能实时对线下场所的故障进行实时监控,减少因故障排查等时间带来的损失,并且减少了KTV、酒吧等行业的系统运维人员的工作时间。

基于本发明目的而提供的实时发现线下场所业务故障的方法,包括以下步骤:

线下场所业务节点设备上安装agent程序,监控线下场所的特定日志文件;

Agent程序将文件更新数据上报至云端;

云端的消息队列收集agent程序上报的数据;

内存数据库将日志文件推送至ES集群,推送的日志文件会在ES集群被格式化;

ES将格式化后的日志文件推送至云端的监控后台,运维人员可在监控后台对信息进行检索,从而对线下场所的节点设备动态进行实时监控。

所述业务节点设备包括视频服务器、数据库服务器、中转服务器、机顶盒设备、吧台机和ERP设备;

所述特定日志文件是指线下场所包括服务器的所有业务节点设备的指定日志文件;

所述文件更新数据包括视频服务器、数据库服务器、中转服务器和机顶盒、吧台机和ERP设备等线下影音娱乐场所的指定日志文件;

所述指定日志文件是通过修改agent程序上的配置文件来选择监控日志文件的类别;

所述配置文件的格式可由客户自行选择约定,约定后的配置文件会个性化定制线下场所需要关注的设备日志;

所述日志文件信息主要包括控制中心地址,用户账户信息,操作员操作日志,数据库数据,与外部服务交互日志等服务器运行数据和操作系统自身产生的日志文件。

云端包括消息队列,ES集群和监控后台;

所述消息队列组件为redis内存数据库所提供;

所述消息队列还可以为mysql、rabbitMq等数据库提供;

所述redis内存数据库可以快速响应agent的数据上报;

所述redis内存数据库由于以内存为存储介质,并发吞吐量高,操作单一,仅仅是存和取两个操作,不涉及复杂的运算处理,可防止上报并发量过大时阻塞日志上报。

所述ES集群是ElasticSearch数据库集群;

所述ES集群提供将收集的线下设备日志进行集中化管理;

所述ES集群是一个Jave开发的搜索服务器,用于对日志的集中化管理和方便运维人员的检索;

所述ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎;

所述ES集群由于其将推送至云端的服务器或其他设备的日志进行格式化处理,服务器格式化处理的结果将日志文件进行转化,转化的结果包括两类,线下场所通用信息和业务相关信息。

所述线下场所通用信息包括时间戳、场所标示ID、设备标示和服务标示。

所述格式化后的服务器日志文件由于包括场所和设备标示信息,更便于运维人员的检索和故障快速定位;

所述格式化后的日志文件推送至监控后台端;

所述推送至监控后台的信息还可根据需要进行参数指标的表格化汇总成为参数报表,该报表数据数据会进行动态刷新。

在其中一个实施例,所述云端服务器接收到Agent推送的日志数据并由ES集群格式化后,监控后台端可以对数据进行检索,方便实时监控线下场所的日志数据;

所述的日志数据不仅可以监控线下设备的故障信息,也可以收集线下场所的非故障类日志信息。

在其中一个实施例中,所述ES集群收集的日志数据信息包括线下场所的非故障类日志信息为线下场所的业务数据信息;

所述业务数据信息包括日常流水和包房预订等信息日志,该部分信息可以实时记录线下场所的营业信息和顾客分类信息;

所述非故障类信息可以作为线下场所的业务数据分析类来源。

所述监控后台的参数报表可加入短信和邮件告警通知功能,真正达到动态实时监控线下设备故障的目的。

在其中一个实施例中,所述后台端接受所述故障信息步骤之前,还包括以下步骤:

所述监控后台端增加告警模块,在告警模块中设置并开启故障提醒功能;

所述监控后台端接受到所述故障信息之后,还包括以下步骤:

进行故障提醒。

在其中一个实施例中,所述判断是否为故障信息,包括以下步骤:

监测到的设备运行数据,判断是否超出设定阈值,若是则为故障信息,若否则非故障信息。

在其中一个实施例中,所述的线下场所的机顶盒设备故障判断步骤,包括如下步骤:

监测到的机顶盒设备从视频服务器拉取资源数据的时间日志在agent的配置文件中进行选定;

机顶盒的agent程序将拉取时间作为一条日志进行上报;

在ES集群中对上报日志进行格式化处理,格式化的数据形成数据报表格式;

运维人员在云端对拉取时间的设定故障阈值,5分钟内出现3次从某一视频服务器拉取的时间超过5秒,即认定为故障信息。

为实现本发明的目的还提供了一种线下场所的实时故障监控系统,包括监控端,云端服务器和监控后台端。

所述监控端,用于实时监控线下设备日志信息,并上报至云端服务器;

所述监控端由agent程序和通讯模块组成。

所述云端服务器由消息队列模块和ES集群模块组成;

所述消息队列用于收集线下数据并推送至ES集群,ES集群对线下数据进行格式化处理并集中管理数据,便于检索。

所述监控后台端用于接收数据和分析数据,并做出故障报警;

所述监控后台端包括数据接收模块、数据分析模块;

所述数据接收模块用于接收ES集群格式化后的日志信息;

所述数据分析模块用于将接收数据并形成数据报表格式,方便运维人员分析故障;

所述数据分析模块可以设立故障阈值用于自动故障告警。

在一个实施例中,所述的故障报警可以设定发送短信或邮件进行故障报警;

在监控后台端增加告警模块,进行告警设置;

所述监控后台端可以是手机、平板或电脑。

所述云端监测可同时并联多个线下场所,减少运维成本;

所述同时并联的多个线下场所,在云端由其场所标示ID的唯一编码进行分类处理。

本发明的有益效果:本发明线下场所的设备故障云端报警方法和系统,能够方便的通过将服务器及其他业务设备日志推送至云端的方式,对线下设备进行监测,对线下设备的故障快速定位,避免因线下设备故障而导致的经济损失,同时云端可以同时监测多个线下场所,减少了运维成本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是一示例性实施例示出的一种实时发现线下设备故障的流程图;

图2是一示例性实施例示出的一种实时发现线下设备故障装置的框图;

图3是一示例性实施例示出的另一种实时发现线下设备故障装置的框图。

通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述,这些附图并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种实时发现线下设备故障的流程图,该方法应用于设备中。如图1所示,所述方法可以包括以下步骤:

S100,线下场所业务节点设备上安装agent程序,监控线下场所的特定日志文件;

所述Agent程序安装在线下场所的视频服务器、数据库服务器、中转服务器、机顶盒设备、吧台机和ERP设备;

所述Agent程序的配置文件设置为收集某一特定日志信息,并指定具体的日志路径;

所述某一特定日志信息为用户指定故障信息日志;

较佳的,作为一种实施例,所述用户指定收集日志为“在线预订包房业务”日志信息;

所述的日志路径为用户指定,一般放在D盘的Log目录下;

所述收集“在线预订包房业务”数据,配置文件指定收集日志数据包括当前包房信息的时间,用户锁房的时间,用户下单的操作时间三个指标的日志数据文件。

S200,云端的消息队列收集agent程序上报的数据。

S300,内存数据库将当前包房信息的时间,用户锁房的时间,用户下单的操作时间三个日志文件推送至ES集群,推送的日志文件会在ES集群被格式化。

S400,ES集群将推送至云端“在线预订包房业务”的日志进行格式化处理,服务器格式化处理的结果将日志文件进行转化,转化的结果将显示用户ID,包房信息时间,用户下单时间信息。

所述的日志信息包括用户ID、设备ID和时间信息;

所述用户ID为一个4位数的数字编码,为线下场所的唯一身份编码,用于云端识别用户信息;

结合上述信息,提出一个线下场所的编码为1003,此编码对应一个唯一的线下场所;

所述设备信息为设备中文拼音首字母+四位数的数字编码、数字编码是特定设备的唯一编码,用于云端识别1003号线下场所的某一特定设备信息;

结合上述信息,提出1003号线下场所的机顶盒日志信息,包括当前包房信息的时间,用户锁房的时间,用户下单的操作时间三个时间单位,其中用户锁房的时间是指用户在线预订房间后房间被该用户锁定的时间;

所述时间日志文件精确到秒,格式为:年-月-日-小时-分-秒;

所述时间格式用户可自定义;

结合上述信息,进行故障阈值的设定,当用户锁房时间和用户下单操作时间的差值大于等于60秒,即认定为故障信息。

S500故障信息在监控后台端进行提示,运维人员可以通过用户ID和设备ID迅速定位故障所在线下场所的位置,进行快速故障排除处理。

较佳的,作为一种实施例,所述监控后台端可以对线下场所的数据进行实时检索,以便实时掌握线下场所设备运行情况。

较佳地,作为一种实施例,可以在监控后台端增加告警模块,所述故障告警包括以下步骤:

在监控后台端设置并开启故障提醒功能;

告警模块根据设置进行短信或邮件提醒。

较佳的,作为一种实施例,所述线下娱乐场所的主要故障包括:

数据格式错误、系统资源不足、宕机故障、接口访问频率过高;

以及是否存在通讯故障,是否存在设备响应时间过长,是否存在视频数据无法拉取等其中一种或者一种以上的故障信息组合。

具体的,作为一种实施例,所述数据格式错误的故障判断步骤如下:

监测到的会员编号信息推送至云端服务器,云端的ES集群将会员日志格式化后与原有格式不匹配;

所述不匹配来源为会员编号为32位,日志信息中会员编号为64位,则判断为故障类信息,监控后台端对该数据格式故障告警。

具体的,作为一种实施例,所述系统资源不足的故障判断步骤如下:

系统资源不足类故障包括线下各个设备的cpu,内存,磁盘存储类数据;

所述cpu资源不足,服务器和机顶盒等设备的cpu占用率日志数据超出70%,则判断为故障类信息,监控后台端对cpu系统资源不足故障告警;

所述内存资源不足,服务器和机顶盒等设备的内存占用率日志数据超出70%,则判断为故障类信息,监控后台端对内存系统资源不足故障告警;

所述磁盘存储资源不足,服务器设备的磁盘空间占用率数据超出80%,则判断为故障类信息,监控后台端对磁盘存储资源不足故障告警。

具体的,作为一种实施例,所述宕机故障的判断步骤如下:

所述宕机故障,服务器和机顶盒等设备在重启后发出的系统异常退出的日志文件,则判断为故障类信息,监控后台端对宕机故障告警;

更进一步的宕机故障判断,服务器和机顶盒等设备在24小时及以上内未收到系统资源日志文件,则判断为故障类信息,监控后台端对宕机故障告警。

具体的,作为一种实施例,所述接口访问频率过高故障判断步骤如下:

所述接口访问频率过高故障,服务器端口在1分钟内收到5次及以上访问日志,则判断为故障类信息,监控后台端对接口访问频率过高进行故障告警。

本发明的实时发现线下场所业务故障的方法,可方便用户实时监控业务设备的运行情况,无需值守在线下场所,即可及时获悉线下设备的故障报警。也可根据告警信息及时对设备进行维护检修,及时调整线下设备的运行模式;同时避免由于线下设备故障而导致的不能正常营业造成的损失。

同时本发明的实时监控线下设备的方法,还可以收集多个线下营业场所的业务数据,方便管理人员及时调整业务方案,提高营业收入。

本发明一种实时发现线下场所业务故障的方法,包括监控端1,云端服务器2和监控后台端3;监控端包括agent模块4和通讯模块5;云端服务器包括消息队列模块6和ES集群模块7;监控后台端包括数据接收模块8和数据分析模块9。如图2所示。

所述监控端,用于实时监控并发送线下设备日志数据至所述云端服务器;

所述云端服务器,用于接收线下日志数据,格式化日志数据,并将格式化日志数据发送至监控后台端;

所述监控后台端,用于接收格式化后的日志数据并对日志数据进行故障分析,形成数据动态表,若判断为故障信息;则对故障信息在分析数据动态表进行显示;

较佳地,作为一种实施例,所述监控后台端还包括告警模块10,如图3所;

所述数据分析模块将故障信息发送至所述告警模块,告警模块根据用户设定告警模式,对用户发送告警信息;

所述用户设定的告警模式可以为短信或邮件。

较佳的,作为一种实施例,所述监控端包括agent模块和通讯模块,通讯模块依赖TCP/IP协议栈进行传输,我们这里可以采用基于TCP/IP协议栈中位于应用层的http协议或者ftp协议推送日志。

本发明所述的线下场所的实时故障报警系统的工作流程,如图1所示。

较佳地,作为一种实施例,所述监控后台端包括一个用户端,用户端可以为手机或平板电脑;

用户的智能手机或平板电脑可以安装监控线下设备的App软件,当手机或平板电脑连接了3G/4G/Wi-Fi等无线网络后,该软件便可通过互联网连接云端的监控后台端,获取用户设定的推送信息;

所述推送信息可以是故障告警信息和业务数据信息。

较佳地,作为一种实施例,所述监控后台端与所述用户端之间通过3G网络、4G网络、Wi-Fi网络进行互联网络通信连接。

较佳地,作为一种实施例,所述告警模块对用户端发送故障报警信息;

所述故障报警信息包括故障定位信息、故障描述、客服联系方式等,以及提示是否需要授权人员进行操作。

云端服务器对收到的日志数据进行格式化处理,将日志数据中包含的设备状态数据推送到监控后台端进行数据分析及故障报警处理;同时,云端服务器对应的将推送数据与用户ID信息对应存储起来,运维人员可在云端进行日志检索处理,对线下场所的设备情况和业务数据进行实时监控。

云端的监控后台端打开数据提醒服务,向用户端发送报警数据信息;

较佳地,作为一种实施例,用户端的报警信息的获取和提醒的具体实施方式如下:

1. 用户在手机或平板电脑上安装App软件;

2. 用户运行并登陆App软件;

3. 用户第一次运行App软件时,在云端的监控后台端设置与用户端的APP账号绑定;

4. 根据上述第二点,当线下场所设备发生故障是,云端的监控后台端将故障信息通知给App软件。

5. App软件获取到云端发送的故障信息时,则在以下位置显示报警信息:

(1)系统通知栏显示有报警信息;

(2)App软件导航栏,显示故障报警数量;

(3)App软件的线下场所ID选项卡上显示故障报警红色图标;

(4)App软件的线下场所ID的选项卡下级列表中显示报警设备ID;

(5)App软件报警设备ID下级列表中显示故障类别信息;

(6)点击上述第5点的故障类别信息后,跳转至故障信息页面,显示详细故障内容。

较佳地,作为一种实施例,故障的排除的具体实施方式如下:

1.运维人员通过用户端的App软件上点击故障名称后显示出简要的排除故障的方法;

2.如果故障的排除需要厂家工程师操作,则在App上显示客服的联系方式。

本发明的有益效果:本发明线下场所的设备故障云端报警方法和系统,能够方便的通过将服务器及其他业务设备日志推送至云端的方式,对线下设备进行监测,对线下设备的故障快速定位,避免因线下设备故障而导致的经济损失,同时云端可以同时监测多个线下场所,减少了运维成本。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1