小批量定制机房监控系统厂家

方案产品我们

技术知识
医疗IT运行监控系统设计
1、机房监控

医院信息系统机房是服务器、网络及其附属设备运行的环境和场所,在国家标准GB50174-2008 《电子信息系统机房设计规范》中,对其建设和运行指标有详细的约定,其中应进行监控的重点是配电系统和环境温湿度。

0.1

(1)配电系统
配电系统包括市电供应、不间断电源和发电机三部分。
对市电供应应监控电能质量,主要指标包括开关状态、电流、电压、有功功率、功率因数、谐波含量。
不间断电源就是常说的UPS(UninterruptiblePower System),其主要监控指标为:监控输入和输出功率、电压、频率、电流、功率因数、负荷率;电池输入电压、电流、容量;同步/不同步状态、不间断电源系统/旁路供电状态、市电故障、不间断电源系统故障;监控蓄电池的电压、阻抗和故障。
对发电机系统应监控:油箱(罐)油位、柴油机转速、输出功率、频率、电压、功率因数。此外,机房的PUE( P o w e r Us a g e Effectiveness)值是评价机房能耗的一个重要指标,它表示机房总设备能耗与IT设备能耗的比值。在监控系统中,我们可以通过采集到的电压电流数据,计算出实时的PUE值。
(2)环境温湿度
环境温湿度指标是机房环境中最重要的指标,业内有“温度每升高10度,设备使用寿命减半”的说法,因此维持机房温湿度恒定是对机房环境的基本要求。对空调系统应监控开关、制冷、加热、加湿、除湿的运行状态;相对温度、相对湿度、传感器故障、压缩机压力、加湿器水位、风量设置阀值,超出报警。在空调、水管、窗户等易产生水源泄露的部位,应安装漏水感应装置,并监控其状态。对机房环境,应监控房间各区域以及机柜内部的温度、湿度数据以及变化趋势。监控探头应放置在被监控设备的入风口位置,如:对于下送风上回风,设置冷热通道的机房,应监控其冷通道顶部的温度。
2、主机系统监控

绝大多数的主机系统监控是基于SNMP协议(Simple NetworkManagement Protocol/简单网络管理协议)的。SNMP是应用最为广泛的TCP/IP 协议,采用了Server/ Client的模式,通过管理端与SNMP代理间的交互工作完成对设备的管理;而 MIB(Management Information Base 管理信息库)包是解读SNMP消息内容的字典,MIB包以文本形式保存树状的代码信息,每个分支代表一种类型的统计信息或状态信息。通过SNMP代理可以响应管理端关于MIB信息的各种查询,如:get,getnext,set等。被管设备还可以通过发送TRAP包的形式主动向管理端发送紧急报警信息,从而实现对设备的监控。

迈世信息

(1)存储系统
对于存储系统,除了通用的基于SNMP协议的监控,还可以通过SMI-S协议( StorageManagement Initiative Specification,主动存储管理规范)获取更多的设备信息。SMI-S协议是SNIA (StorageNetworking Industry Association,美国存储网络工业协会)提出的存储管理的接口标准,它使存储管理可以真正实现与厂商无关,从而降低管理成本,提高管理效率。当前主流的存储设备厂商,如:IBM、博科、EMC、NetAPP、浪潮、 HP等都支持该协议。基于SMI-S协议,监控软件可以自动获取HBA 主机、FC交换机、FC数据存储设备以及光纤通道状态,并生成存储拓扑,以图形化的方式实现对存储设备资源的统一管理。
(2)服务器
对硬件故障的监控可以采用基于IPMI (Intelligent Platform Management Interface,智能平台管理接口)的数据采集方式。IPMI是管理基于 Intel结构的企业系统中所使用的外围设备采用的一种工业标准,该标准由英特尔、惠普、NEC、美国戴尔电脑和SuperMicro等公司制定,用户可以利用IPMI监视服务器的物理健康特征,如温度、电压、风扇工作状态、电源状态等。如用户可以通过IBM X系列服务器的控制网口连接主板的集成管理模块,收集服务器硬件物理状态。对于服务器性能监控最主要的3个指标是CPU利用率、内存利用率和文件系统使用率。系统管理员应经常对以上指标的历史数据进行分析,如有利用率过高的情况,应结合应用场景分析,及时处理。
(3)虚拟化监控
VMware虚拟化解决方案是当前最常用的虚拟化技术,其自带的vCenter管理工具可以很方便的监控和管理vSphere运行环境。不少监控软件也包括类似vCenter的虚拟化管理模块,甚至可以通过 API接口对不同品牌的虚拟化管理平台进行整合,接收从虚拟化设备发出SNMP TRAP信息,生成自己的监控界面,方便系统管理员进行管理。 
(4)服务与日志监控
监控软件还应支持对操作系统进程的监控,判断其所使用的资源比例和健康状况,还应对基础应用服务的核心端口、HTTP、FTP、POP3、SMTP、 DNS、NTP等服务可用性和响应时间的监控。日志监控是指对windows日志、syslog日志或其他文本类型的日志监控管理,对接收到的日志信息进行存储、分析并报警。对日志的监控主要通过关键字检索或事件ID识别来实现,日志报警应支持逻辑判断,设置不同的级别,对不需产生报警的事件进行例外排除。
3、数据库监控
保证数据可靠安全是保证信息系统高可用性的最终目的。
进行数据库的调优和管理数据备份是 DBA的主要职责。对数据库的监控主要关注可用状态、性能和空间容量三个方面。可用状态是指被监控的数据库是否能正常访问,特定进程或服务是否状态正常;性能指标包括连接数是否过大、读缓存命中率是否过低、写缓存命中率是否过低、死锁数量是否过大、回滚数是否过高等;空间容量是指监测表空间和数据文件的大小、状态和使用率、数据库碎片比率等。以Oralce数据库为例,我们在实际工作中监控了以下指标:
(1)Session数
(2)后台进程状态(SMON、PMON、DBWn、LGWR、CKPT等)
(3)PGA状况(内存争用比、PGA使用率、 PGA命中率)
(4)SGA状况(Buffercache命中率、库缓存命中率、数据字典命中率、共享池命中率、回滚段争用比)
(5)表空间利用率、日志使用情况
另外,检查数据备份是否成功是系统管理员的日常工作,常用的备份软件有IBM的TSM、 Symantec的Veritas Netbackup等,监控系统应可集成其状态和报警。
4、网络监控
网络相当于医院信息系统的神经中枢,各种网络设备分布于各楼层配线间中,最难于管理。采用人工巡检时,只能观察到某个时点的设备通断状况和有无报警信息,无法实时全面的了解整个网络的运行情况。
采用IT运行监控系统,可以从以下几个方面着手,对网络运行状况进行全面的监控:通过网络拓扑图,网络管理员可以直观的查看网络逻辑拓扑图和网络物理拓扑图,及时发现网络的逻辑和物理问题。拓扑图通过使用不同的图标来表示不同网络对象,用不同的颜色来表示不同的设备运行状况。
网络故障通常会影响到一片而不是一个信息节点,网络拓扑图上数据和信息有助于管理员快速的确定故障影响范围,从而进一步判断故障产生的原因。在实时显示网络运行状况信息的同时,运行监控系统可以将这些运行数据(如:设备CPU、内存利用率;设备各端口出入流量、平均包长及丢包、错包率等)记录下来,用于以后的数据分析。
通过历史曲线比对,TOP N数据分析等手段,可以了解设备的利用情况以及网络性能的瓶颈。IP地址管理工具可以自动发现网络上在用的设备的IP地址,帮助网络工程师发现网络上有哪些IP 地址可用。通过与基准表中IP地址范围和子网设置信息的对比,判定IP地址的在线、未登记或非法接入状态,并以不同的图标进行展示,支持IP地址登记管理,查看在线IP地址的登记状态,根据条件批量的变更IP地址的登记状态。
IP地址管理工具还可以自动发现IP地址和MAC地址的对应关系,建立MAC地址IP地址的绑定关系,并根据设置的策略进行阻断或报警。此外,有的监控软件还可以实现自动巡检功能,定期自动采集设备运行参数,形成巡检报告;还有的监控软件可以对网络设备的配置信息自动备份、批量更新配置信息;在无线网络管理方面,有的监控软件可以图形化的展示建筑物中的AP节点和信号强度,扫描用户数量、位置等,也是一个值得探索的方向。
5、业务拓扑视图
对IT基础设施的监控是为了保障业务软件的运行,监控系统应提供所见即所得的业务和资源建模能力,从业务角度出发,将组成业务系统的IT资源按照其关联关系、权重等组成业务逻辑模型进行监控,建立从业务视角出发的监控视图。当业务应用出现故障时,能清晰展现所影响的服务及部门;每个业务服务对应一张业务拓扑视图,能从客户端、业务软件、IT基础设施不同层面展现关联关系,当 IT资源产生异常时,能够高亮显示报警及故障的传递关系。
配备有中间件和数据库服务器两组主机,数据库主机上又运行着数据库监控,中间件主机做了Windows集群,上面还有相应的Weblogic的进程。以上信息都可以以OA系统为索引,展示在同一业务拓扑视图中。推而广之,对于业务本身的一些指标,如当日挂号数、已就诊人数、处方数、检查检验申请等也可纳入业务拓扑图,并对数据在不同业务系统中的流向进行配置和标识,这样的从业务负载到IT基础设施保障情况的一体化视图,就可以清晰地反映出整个医院信息系统的运营状况。
6、报警管理
在信息部门的办公区应设置监控大屏,播放IT运行监控系统的运维门户视图,集中显示信息系统整体运行状况,包括:IT资产统计、报警列表、机房环境监控图、服务器位置及拓扑、全院网络拓扑、数据库状态、应用系统定期作业执行情况等。

对于故障报警,应包括但不限于声光电、短信、邮件、手机App等多种方式。如:当IT运行监控系统收到 SNMP TRAP报警信息或检测到超过了预先设定的阀值时,会通过短信模块向管理员手机发送短信报警,同时监控大厅的报警灯闪烁并蜂鸣报警,运维门户的拓扑图上标示出故障位置。故障等级设为三档,正常、提醒和警告。系统通过拨测自检,确保自身运转正常;当发现异常数据但不影响系统正常使用时生成提示信息,当判断故障需要紧急处理时显示为警告。此外还需注意避免报警风暴的产生,如:同样内容的报警30分钟只有显示一次,同类型的报警整合成一条等。

本文转载自其他网站

返回
列表
上一条最基础的机房监控方案
下一条 如何降低机房功耗