浪潮信息存储可靠性设计:基于冷热切换技术,将备电系统使用寿命提升50%
2022年9月1日 | by tgcode
数据已经成为继土地、劳动力、资本和技术之后的第五大生产要素,是当代经济社会发展的基础资源。存储作为数据载体设备发挥着重要作用,既要满足当前全球数据量高速增长需求,又要保证数据存储安全可靠、读写高效精准,从而为数据中心提供“稳定的数据存力”。
如何提升数据存储的可靠性,避免意外场景下的数据丢失,已成为存储硬件平台发展的重大挑战。浪潮存储从源头出发,创造性地提出了冷热备电智能切换方案,改进存储系统对 BBU 单元智能管理方案,tgcode践行绿色低碳理念,加固备电质量,增强了数据存储的可靠性。
存储备电——数据存储安全的保障
当前业界存储系统通常采用电源 PSU(Power Supply Unit)“1+1”冗余供电,在供电之外还配置备用电池 BBU(Battery Back-Up Unit),当机房市电掉电,存储系统实时监测 PSU 供电异常,无缝切换到备用电池 BBU 供电。BBU 提供持续的供电能力,确保存储系统控制器写缓存中数据,完整而安全的写入非易失性介质,如 HDD、SSD 等,避免数据丢失。
为保证数据存储的业务连续性,机房市电意外掉电、市电恢复后能快速恢复存储系统的业务,浪潮存储对备电设计标准有严格要求。比如,浪潮存储在三年产品生命周期内,备用电池 BBU 一次充满电,可满足两次掉电数据备份要求;又如,满足存储系统高可靠性要求时,创新地采用了备用电池 BBU 冷热供电切换策略,提高备电的能效和电池的使用寿命,降低 BBU 电池报废的数量,降低对环境的污染。
高端存储性能提升,存储备电挑战升级
随着数据量爆发式增长、存储业务复杂程度提升,存储硬件平台正朝着高密度与高性能方向发展,传统供备电策略难以支撑存储系统的稳定性要求。高端存储平台从系统架构到部件性能的升级都伴随着系统整体功率提升,正常运行时存储阵列单控制器功率超 1700W,掉电时刻控制器快速降低功耗,单控制器功耗仍超过 800W;因此单个 BBU 的电芯节数达到 12 节(四串三并),才能满足异常掉电时的备电功耗需求。存储系统实时获取 BBU 充放电次数与健康状态,BBU 单元检测自身状态,如果发现异常可快速定位及修复,延长 BBU 电芯的使用寿命,保证 BBU 供电能力满足产品的需求。因为存储系统控制器功耗不断增大,备用电池 BBU 的电芯节数不断增加,电芯电压不平衡或损坏无法正常识别等质量隐患逐渐突显出来;如果没有支持诊断的 BMS(Battery Management System)日志,BBU 充电异常、BBU 校验学习(评估 BBU 备电能力是否满足一次备电需求)异常、BBU 供电链路侦测异常等问题则无法准确定位,影tgcode响 BBU 的故障定位效率及使用寿命;如果备电单元故障未及时发现,异常掉电而 BBU 不能正常供电,严重时会出现存储系统丢数据的隐患。
浪潮存储:智能备电管理技术
浪潮存储从系统控制端与备电单元端双管齐下,提出了智能备电管理技术,将存储系统备电单元有效电量提升 30%、使用寿命延长 50%。智能备电管理技术包含 BBU 单元软硬一体自诊断方案、存储系统对 BBU 的智能管理方案、冷热备电智能切换方案三部分。通过 BBU 单元的监测电路与自诊断算法,实现了 BBU 状态监测与告警管理;通过存储系统软件对 BBU 单元的管理,提升 BBU 单元故障定位效率和备电系统稳定性;通过 BBU 单元冷备与热备智能切换,BBU 单元电池损耗降低 30%,提高了电池的使用寿命,降低了电池报废数量和环境的污染。
BBU 单元软硬一体自诊断设计方案
浪潮存储通过自诊断算法为 BBU 单元提供精准高效的状态监测与异常处理,存储研发团队在设计前详细梳理 BMS 软硬件接口寄存器、BBU 电芯解耦控制参量、状态保护触发阈值等,用于监测状态的分析诊断。硬件设计 BBU 供电路径侦测电路,实时监测 BBU 供电路径,跨连接器和板卡不同位置的电压、电流、功率值,作为自诊断分析依据;软件设计 BBU 单元自诊断算法,BBU 单元优先查询电芯物料信息与当前状态进行初诊断,初诊断无误后开始对存储控制信号、充电信号等进行实时记录,同时分析对外充放电、对内校验学习等各种状态下的参数变化情况。如果状态参数异常,则分析异常原因并进行简单的自适应调参,同时收集异常日志发送给存储系统。通过流程化的自诊断,可以在存储系统业务上线前检出已知的大部分问题,降低存储系统业务上线后 BBU 单元异常的概率。
突破存储系统对BBU 单元智能管理方案
存储系统对 BBU 单元的管理至关重要,是备电流程顺利进行的核心。存储系统基于 BBU 单元自诊断的状态信息,从以下五方面进行智能备电状态监测处理:
其一,定期对 BBU 供电链路侦测,模拟存储系统供电切换流程,提前识别链路隐患。
其二,定期评估 BBU 单元储备的电量,判定是否满足系统一次备电需求,同时累计消除 BMS 采样误差。
其三,存储系统实时读取 BBU 单元电压与电流、电芯电压及温度、充放电 MOS 管温度,接近 BMS 内置阈值时报警处理。
其四,充电过程自动监测存储设备功率,检测 BBU 电量是否满足一次备电需求,实时校准充电状态,同时累计充放电次数。
最后,存储系统对 BBU 单元 BMS 状态寄存器状态值实时监控,出现异常后进入备份供电异常处理模式。
上述智能备电状态诊断方案,将潜在异常的识别率提升了 1 倍;问题诊断完成后,存储系统对日志进行智能分析,准确定位出问题源头,例如 BBU 电芯异常、BBU 控制模块异常、存储系统控制电路异常、系统散热异常等。
创造性的给出了一种冷热备电智能切换方案
浪潮存储系统对供电链路定期侦测、BBU 备电能力定期评估,提前识别供电隐患,并基于此进行供电状态智能分析,设计了 BBU 单元冷备、热备智能切换方案。在1+1 冗余,双 PSU 都正常状态下采用冷备以降低备电损耗,存储系统通过对输出电压电流、PWM 驱动波形、温度采样值等参数的智能分析,提前对 PSU 的工作状态进行预测,在单 PSU 出现异常后,切换为热备模式,以保证市电异常时存储系统无缝切换为 BBU 供电。浪潮存储打破了传统热备电技术对 BBU 寿命损耗的弊端,智能tgcode供电方案中热备份供电时间占比不超过 10%,BBU 单体待机功耗由原来的热备 3W.h, 减小至 0.3W.h,一年内充电次数也由 450 次减少至 50 次左右,BBU 使用寿命由不到一年延长至三年以上,使得废弃 BBU 对环境污染程度大幅度降低,贯彻了绿色设计理念。
浪潮存储秉承“云存智用运筹新数据”的新存储理念,深耕存储平台底层硬件的创新研发,从源头做起全方位加固存储产品备电质量,充分发挥硬件平台的数据备份处理优势,贯彻落实绿色节能设计理念,打造具备极致可靠性的高端存储产品,保障企业海量数据存得高效、存得可靠,护航数字经济发展。
文章来源于互联网:浪潮信息存储可靠性设计:基于冷热切换技术,将备电系统使用寿命提升50%
相关推荐: 构建东数西算一体化存力体系,如何做好存储底座建设?
随着数字经济成为全球经济高质量发展的引擎,企业数据量正在指数级增长,预计到 2025 年全球数据规模将突破 175ZB。在“东数西算”工程中常见的存储业务包括生产数据、灾备数据和存档数据,其特点是容量巨大、长期保存,既要存得下,又要存得好。 海量数…