1. 现场准备与安全确认
准备工具清单:热像仪、温湿度数据记录仪、风速计、电压表、红外测温枪、手持风向探针、便携式燃油分析仪、个人防护装备(PPE)。到达现场后:1) 与机房管理员对接,确认进入许可与作业窗口;2) 切断非必需区域的门禁告知;3) 标记将要检查的机架与配电间;4) 制定停电/切换的应急联络人和回滚方案。
2. 冷却系统总体查看(宏观检查)
步骤:1) 记录室外环境温湿度与机房设计参数;2) 检查所有CRAC/CRAH机组运行状态(运行/待命);3) 确认冷却水泵、冷却塔(若有)和冷冻水循环的流量与阀门位置;4) 查看冷凝水排放、过滤器状态、有无异常振动噪音或泄漏。
3. 温度与气流测量细则
操作:1) 在每排机架前后高、中、低位置各放置温湿度记录仪,记录至少24小时数据;2) 使用风速计测量每个机架门前的风速,比较冷热通道差异;3) 用红外热像仪扫描机架背板与配电柜,定位热点;4) 若使用机架级探针(PDUs/环境探针),校准并比对数据。
4. 热通道/冷通道封堵与优化检查
步骤:1) 检查地板空穴分配,确认开孔只在冷通道;2) 检查机架侧板、顶部封堵与线缆管理,记录需要封堵处并逐项整改;3) 如有热/冷通道隔离(软帘或硬隔离),验证密封性和回风路径;4) 提供临时改善建议(门封条、挡板、空穴封堵板)并记录实施优先级。
5. 冷却备份与自动化控制测试
步骤:1) 验证机组控制器与BMS(楼宇管理系统)连通性,查看报警历史;2) 在非高峰期,按冗余方案逐台停机测试(例如N+1模式下停掉一台CRAC),记录温度响应与恢复时间;3) 检查冷冻水侧阀门自动切换与泵速控制;4) 若发现自动化失灵,记录错误码并建议固件/配置更新。
6. 电力总览:供电入口与单线图确认
操作:1) 获取总电力单线图和设备清单,确认A/B路进线、变压器、主配电室(MMS/PDU)布局;2) 物理核对进线标签与单线图一致性;3) 检查接地系统与等电位轨迹,使用接地电阻表测量关键点;4) 标注潜在单点故障。
7. UPS与电池检查步骤
操作:1) 核对UPS型号、容量与冗余等级(如N、N+1、2N);2) 检查电池柜的温度、端电压、内阻并保存数据;3) 进行一次短时放电测试(在允许窗口内),记录UPS切换时间与负载承载能力;4) 检查旁路路径、切换逻辑和维护旁路开关的标签与操作记录。
8. 发电机与燃料供应验证
步骤:1) 查看发电机最近的负载测试记录和维护日志;2) 实地启动并并联测试(如允许),观察自动切换装置(ATS)动作和并联同步参数;3) 检查燃油存量、油质(如有燃油分析仪)及供应合同的最短补给时间;4) 检查冷却系统、排气、消音、排水是否合规。
9. 自动切换与同步测试流程
步骤:1) 在备机运行窗口内,模拟市电中断并观察ATS动作,记录转移时间与电压频率波动;2) 检查并联发电机同步时的频率、相位差是否在可接受范围;3) 测试发电机回切到市电的自动恢复流程;4) 若存在并网并联控制器,确保其事件日志可导出并保存。
10. 配电与负载分布核验
操作:1) 使用钳形电流表测量PDU各路实际电流,和容量标签比对,标注超载或不均衡回路;2) 检查关键负载(核心交换机、存储、关键服务器)的双电源接线与A/B路供电是否独立;3) 更新负载图表并提出负载平衡或迁移建议。
11. 文档、维护计划与改进清单
步骤:1) 汇总上述检测数据和照片,生成现场检查报告;2) 列出短期(24-72小时)、中期(1-3月)、长期(3月以上)整改项并标注优先级;3) 建议建立定期(季度/半年)冷却与电力切换演练计划;4) 推荐更新SOP、应急联系人和设备固件。
12. 用户反馈汇总与主要结论
步骤:1) 汇总来自运维、工程和客户的反馈,归类为冷却、供电、告警和沟通四类;2) 常见反馈包括冷通道温差、UPS警报误报、发电机启动延迟与燃油补给不及时;3) 根据反馈优先解决高风险项(单点故障、发电机/UPS可靠性);4) 建议建立用户通报机制与SLA调整建议。
13. 问:进行冷却系统冗余测试时,如何避免造成业务中断?
答:首先在非峰值维护窗口执行,提前与客户沟通并获得书面同意;其次对要停机的机组先降低负载或迁移关键虚拟机;逐台停机并实时监测机房温度、服务器状况和告警;准备立即回滚的步骤与负责人,并确保UPS与发电机处于可用状态。
14. 问:如何判断当前电力冗余是否达标(N+1/2N等)?
答:核对单线图与实际设备,验证每个关键负载有无独立A/B供电路径并有冗余UPS容量。通过模拟切换测试(断开一条供电或停掉一台UPS)观察系统能否持续供电并在规定时间内保持正常运行,若出现超时或降载即不达标。
15. 问:常见的冷却与电力问题有哪些优先整改项?
答:优先项包括修复或隔离单点故障(单一路进线、单台UPS)、解决发电机启动/燃油问题、封堵冷热通道导致的气流短路、均衡PDU负载以及修复BMS/监控报警误差。这些直接决定机房可用性与故障恢复时间。
来源:美国洛杉矶sk机房冷却与电力冗余实地评估与用户反馈汇总