导语
如何提升供电系统的可用性是数据中心机房的重中之重,以确保能够获得清洁、持续的电力资源对于其机房供电系统而言是必不可少的,数据中心机房的健康运营需要依靠持续的清洁电力供应,然而,从电源系统设计的哪怕一丝一毫的缺陷到整个电网发生的故障,都可能导致即使是最现代和先进的机房陷入瘫痪,如何建立和维护一个高度可用的数据中心机房供电系统?下面我们一起来了解几种解决方法。
1、首先审查电力系统
机房管理人员都认为,自己对于其电力系统的交付能力是清楚知道的,然而,事实上,真正能够做到这一点的数据中心管理人员是少之又少,这是因为大多数企业并没有定期对他们的电力基础设施进行审计,只有通过审核电力系统,企业组织用来支持该系统的操作流程,才能够建立数据中心的最大负载参数。
当需要把重要的新的IT工作负载投入生产,但却因为电力不足而无法做到时,仅仅靠依托产品规格和承包商的承诺会让企业暴露在容量能力不足的困难风险之下。
解决方案:定期彻底的审核您数据中心的电源系统。
2、采用标准化设施的工作流程
越来越多地机房利用标准化的最佳实践框架,如信息技术基础设施库来帮助他们提高他们的工作流程系统化,不幸的是,一些企业的基础设施部门采用了严格、统一的维护流程,如那些由ITIL定义的流程,而不是依靠特设的程序和基础设施管理人员们所积累的专业知识。因此导致了数据中心电源和冷却系统的维护标准往往较低,或与IT系统不太一致,进而导致了停机时间的增加。
解决方案:虽然基础设施流程框架作为ITIL尚有待开发,但基础设施部门可以而且应该采取相应的措施,以制定他们自己的标准化、文档化的流程。按照一致的,可重复的方式进行必要的活动,可以显着降低功率和冷却故障的可能性,同时提高基础设施技术人员的工作效率。
3、更换过时的旧设备
当你发现机房电力异常可能会影响到敏感电子设备的运行,并包括组件中断,可能会对整个企业的业务产生重大影响,数据中心机房一般利用不间断电源设备来防止电源异常。这样的系统能够清洁“脏”的电力系统,并在供电中断期间提供应急电源。
然而,直到最近,相对于其功耗而言,可用性最高的双转换UPS 系统往往是效率最低的,反之亦然。因此,那些希望能够尽量压低运营成本的企业组织可能已经部署实施了节能的UPS产品,这类产品交付低于平均水平的可用性;而那些更关注正常运行时间的企业组织则部署实施了高可用性的UPS系统,同时也浪费了电力资源。
解决方案:今天,已充分市场充分验证的成熟的UPS技术使得企业组织能够在一款单一的设备中同时享受到高可用性和高效率。对于那些使用较旧的不间断电源技术的企业组织而言,他们应考虑升级到这种新一代的设备,以便能够提高应用程序的可用性,并同时降低总拥有成本。
4、着眼于长期价值,而不是短期成本
数据中心机房在建设或改造翻新时,短期的投入成本和企业长远的价值二者之间的优先级别总是冲突的。企业的高级管理人员们通常都要督促负责数据中心建设的人员务必要尽可能的压低成本,缩短完工时间。其结果是,在数据中心的建设项目中所涉及到的供应链参与者、工程师、承包商和项目经理们往往都是基于谁的报价最低、并承诺最快的设备交付,而做出设备的选择决定,但如果这一价格水平的设备其实并不符合原数据中心建筑设计定义的操作规范的话,随着时间的推移,其最终将以降低运营效率和正常运行时间的形式来让企业组织付出昂贵的代价。
解决方案:当对一处数据中心的建设或改造翻新项目进行审查和决策时,企业的关键执行人员务必应该仔细审查采购决策,确保一线的项目管理人员和承包商并没有以牺牲企业的长期利益为代价,来换取短期的成本压缩。他们也应该清楚明确地传达严格遵守数据中心原始设计操作规范的重要性,即使这意味着在施工过程中的花费会更多一点。
5、实现企业范围内的监控和主动诊断
与流行的看法相反,很少有系统故障没有提前发出过警告,除非是在发生了灾害的情况下。仅仅只是系统所发出的警告太常被忽视,因为在本质上其是监控系统的自然反应,假设一款UPS在某个深夜发生了故障,进而造成了您企业组织数据中心运行中断。那么很可能的情况则是,UPS已经在故障发生前的几天或几小时已经提前发出过相关的暗示或警号信号。例如,也许UPS或其电池已开始过热或出现性能下降。然而,如果数据中心的基础设施管理人员没有监测到这些性能指标,他们可能也不知道即将发生的故障,直到其最终发生。
解决方案:最新的企业管理产品可以帮助企业监控和主动管理涉及到关键任务的设备,包括电力设备,环境和生命/安全系统。但是如若没有经过事先的细致咨询就匆忙上马,那么,即使是最好的软件也没有什么太大的帮助。因此,尽管数据中心选择部署电力系统监测和诊断软件是一个重要的开始,但其基础设施部门也必须确保他们有严格的工作流程提前为即将安装的软件进行咨询,并迅速响应危险的迹象。
6、维护一个基础设施变更管理数据库
对于其所进行的所有维护程序都保持一份全面和准确的文档记录,对于确保机房的安全是至关重要的,此外,一旦发生事故,维修记录可以为在第一时间找出造成潜在的灾难性的系统故障的根本原因提供重要的线索,在紧急情况下,对于确保对于重要数据的及时访问是至关重要的时候特别有价值。然而仅仅只有很少一部分的企业基础设施部门维护了一套CMDB。其结果是,关于其数据中心的不间断电源系统(UPS)或关于当前哪些服务器或其它相关负载正在被处理等等诸如此类的唯一记录都只存在于管理人员的头脑里。而一旦这位管理人员离职或退休,这些宝贵的纪录便随之离开了,这无疑会使得数据中心被暴露在不必要的停机风险之下,同时电源/冷却设备受干扰后也将需要更长的恢复时间。
解决方案:企业数据中心的基础设施部门应建立并严格维护他们自己的CMDB。ITIL的指导方针为这一举措提供了一个有用的起点,企业组织也可以利用各种专门的CMDB软件应用程序。
7、采用适合企业需求的电力系统拓扑结构
电力系统的拓扑结构对采购成本、运营费用、可靠性和平均维修时间有着重要的影响。对于一处既定的数据中心,您所设计的冗余越多,那么在其建造和运行过程中您企业所花费的成本也就会越多,但其也能够更快地从中断中恢复,国际正常运行时间协会(The Uptime Institute)是一家专为企业数据中心的业主和运营商服务的独立的研究机构。该机构为数据中心的关键任务设施定义了四项电源系统拓扑结构来说明这一原理:
较之Tier III或Tier IV拓扑,一个Tier I或Tier II的拓扑相对便宜,但同时也提供了较少的可靠性和正常运行时间。
解决方案:当涉及到选择一款电力系统的拓扑结构时,并没有唯一正确的答案。企业组织应将他们的特殊业务情况和需求与其电力系统的拓扑结构相匹配,假设多个备份站点是可用的,那么用户如果偶尔会遇到几秒钟的延迟的话,他们不太可能会过多抱怨。然而,如若是在华尔街,哪怕仅仅几秒钟的延迟所可能导致的损失则也是以数百万美元计算的。因此,一处托管了金融交易应用程序的数据中心,选择采用一个Tier IV拓扑结构将是明智的。
8、服务器是不能够断电的,机房是如何保证电力不中断的?
简单的来说,要保证电力不中断采取的有效办法是多路电力系统并联,一条中断,另一条则立即启动,实际上因为服务器对电力的持续性要求很高,所以不管是哪一个机房在应对这个问题的时候都是很谨慎的。比如成都的西信中心,其IDC机房大楼采用4路独立不同变电站市电输入,并配备24台2000KW柴油发电机和3台3000KW燃气轮发电机,总输出达5.9万KW。断电后持续1小时以上的UPS系统,电力可用性达到99.99%;年计划维护断电时间累计不超过30分钟,保证每个机柜从不同配电柜引电接入实现双路供电。
像今年夏天这种情况,中国超过1/3的地区都处在持续高温天气之下,电力的需求大量提升,市电随时都有可能中断。或者是遇到了洪灾、地震之类的自然灾害,如果机房的电力系统全部来自市电,仍然会存在电力中断的风险。所以一家好的IDC机房会配备自己的发电设备,以应对不时之需。
运维一处大型的、散热量大且复杂的数据中心的可用性比以往任何时候都更为困难,也更具重要的战略性意义。特别是考虑到当前的全球经济一体化,可持续发展的压力和普遍的人口老龄化所导致的劳动力减少的大背景之下。企业组织已经利用了各种技术和流程,以确保关键任务的IT 系统能够获得清洁,可靠的电力资源供应。
如果您想了解更多关于一体化机柜的信息,或者您有任何疑问,请致电:400-030-5510。迈世为您提供24小时在线客户服务,我们将竭诚为您服务! 同时,迈世是中国 机房监控 解决方案供应商与服务商,可以为您提供更多的解决方案。
@本文转载于网络