传统运维工具

目前大部分信息中心普遍使用的运维管理工具主要涉及到下面几个方面(客户端监控和管理不在信息中心运维讨论范围内):

  • SNMP -  Simple Network Management Protocol(网络和主机、存储管理)

    SNMP管理产品的典型代表为各个设备厂商提供的网络管理系统,也包括第三方公司的网络管理系统,或者IBM, HP, Oracle提供的网管平台大都采用SNMP进行管理。SNMP方案为典型网络管理方案,可以在一套软件里面管理所有的主机、网络设备、存储系统、防火墙、路由器或者任何支持SNMP的设备,可以自动或者通过人工干预绘制网络连接拓扑图,连接网络设备间的线的粗细、虚实、颜色可以表示网络利用率的大小、连接/中断、阻塞或者畅通。

     Telnet/SSH方式为某些公司的方案监控主机使用,可以通过其连接到系统内部的进程取得操作系统生成的各种LOG纪录进行分析。有的也可以通过类似方式连接到数据库管理软件取得其产生监控数据。

  • NPM – Network Performance Management (网络监控)

    NPM产品的典型代表为NetScout,可以从网络链路上取得数据,进行以太网报文分析,也可以得出两个服务器之间TCP请求和响应的时间,有些NPM厂商通过一些深度报文分析也可以看到业务层面的一些信息(非加密流量)。

  • APM – Application Performance Management  (应用监控)

    APM产品的典型代表为BMC,CA/WILY,新兴厂商如AppDynamics,BlueStripe(2015年6月被微软收购)等。其监控方案都需要在主机里面安装插件(Agent),可以监控Web, Middleware, Database等应用,也可以实现业务交易(transaction)从入口主机到数据库的全路径关联。

    例如,假设一个银行查询操作花费了2.5秒钟,APM产品可以帮助用户追踪到性能问题的根源在数据库(例如花费了2.4秒钟),但是却无法进一步确认该问题与数据库底层访问存储系统的性能是否存在关系,主要原因在于它无法在“封闭”的存储系统里面安装Agent插件。这是所有APM解决方案的一个固有缺陷无法解决。

 

综上,通过部署NPM以及APM监控方案可以帮助运维部门定位到某个导致性能问题的具体的点,但是无法确认这个点的性能问题是否由于存储访问的问题导致。