国内数据中心运维管理现状

 

当前国内系统运维的现状

 

为了解决日常运维过程中“高速公路修好了但车仍然跑不快”的问题,国内信息中心在过去很多年里面也陆陆续续地上线了很多运维管理系统,包括流程管理和设备/性能管理等。一套行之有效的对于关键业务系统性能的预防,监控,排错和优化的解决方案成为提高IT运维部门的效率的关键。另外,当今关键业务系统当机或者出现性能问题造成的影响以及由此造成带来的成本也非常巨大,所以,就像IDG创始人指出的,没有针对业务系统进行监控的工具对于一些大型的数据中心运维部门来讲就有点盲目开车,早晚要酿成大问题。

 

国内外系统维护模式的不同

 

国外在系统运维过程中除了使用系统厂商提供的管理软件之外,还会使用很多中立第三方的工具,例如:业务系统性能监控工具(如Bluestripe蓝带)、协议分析工具(如Sniffer,Netscout)等。

 

国内则较多依靠厂商技术支持,一般大型机构在购买设备的时候会同时购买厂商的24x7的现场支持服务,所以当业务系统出现问题并且怀疑根源在系统设备(网络设备、服务器、存储系统)的时候往往直接需求厂商服务。但是有些问题比较复杂,一时很难判断问题的根源究竟出自哪个环节,这将大大增加故障恢复的时间。

 

最令运维部门头疼的业务系统运维问题

 

今天的应用系统已经成为一个复杂的、多种技术混合应用的综合体,并且运行在新的应用平台上,如面向服务构架(SOA)、公有/私有云以及虚拟化。在这样复杂的应用环境中,日复一日的应用系统管理是一件痛苦的工作,因为传统的系统管理工具已经不满足当前应用系统管理者需要了。

 

解决当前复杂应用系统问题既是挑战,也是非常耗费时间的工作,有时候花费很长的时间都不能确定问题出自哪个环节,导致应用系统支持团队不得不中途放弃。

 

那么系统日常运维过程中哪些问题最让人头疼呢?

  • 业务应用响应缓慢

这个是很多公司碰到的比较多的问题,涉及的环节非常多,包括从用户客户端,中间的网络系统,服务器,SAN交换机和存储系统,以及中间件、数据库等,其中任何一个环节出现问题都可能导致系统响应缓慢。所以,现在快速定位故障点显得越来越难。

  • 业务系统无规律的中断、不稳定

 

最让人头疼得就是这类问题,这类问题的出现往往没有规律,但是对于无法明确根据的故障很可能无法让维护人员的心理感觉踏实,因为它不知道在什么时候还会出现,还会导致多大的问题。