业内新闻

举例RAID5工作原理介绍图：从一个诡异的读盘故障说起

“张工，我们服务器三块硬盘，昨天坏了一块，按理说RAID5应该还能撑，但今天整个逻辑盘都认不出来了，连控制器都报错。” 这是上周一位客户打来的求助电话。说实话，听到“三块盘RAID5”我心里就咯噔一下——很多用户以为RAID5是“不死金身”，其实只要坏一块盘，剩下的盘如果再有坏道或者读取超时，整个阵列就可能瞬间崩塌。

www.fixhdd.cn

今天我们就拿一个最典型的举例RAID5工作原理介绍图来拆解，顺便说说数据恢复中那些容易忽略的坑。我会边画图边讲，思维可能有点跳跃，毕竟实际排查时思路也是碎片化的。技王数据恢复

1. 先画一个最基础的RAID5结构：四块盘的例子

为了讲清楚，我们假设有四块硬盘：Disk0、Disk1、Disk2、Disk3。RAID5会把数据切成固定大小的条带，比如64KB一块，然后按顺序写入，每个条带组里会有一个奇偶校验块（Parity）。这个校验块不是固定在某一块盘上，而是分布在所有盘上——这就是“分布式奇偶校验”。 www.fixhdd.cn

一个简单的“图”在脑子里：

条带组1： [ Data A ] [ Data B ] [ Data C ] [ Parity A⊕B⊕C ]   ← 校验在Disk3条带组2： [ Data D ] [ Data E ] [ Parity D⊕E⊕F ] [ Data F ]   ← 校验在Disk2条带组3： [ Data G ] [ Parity G⊕H⊕I ] [ Data H ] [ Data I ]   ← 校验在Disk1条带组4： [ Parity J⊕K⊕L ] [ Data J ] [ Data K ] [ Data L ]   ← 校验在Disk0
 www.fixhdd.cn

注意看：每个条带组里的校验块位置都不一样，这就是“旋转奇偶校验”。这样做的好处是避免某一块盘成为读写瓶颈。技王数据恢复

当一块盘损坏时，比如Disk2坏了，系统读数据E（原来在Disk2）怎么办？它会读取同一条带组里其他三块盘的数据：D、F、以及那个校验块（Parity D⊕E⊕F），然后做异或运算：D ⊕ F ⊕ Parity = E。完美恢复出来。这就是RAID5能承受单盘故障的原理。

www.fixhdd.cn

资深工程师补一刀： 这个异或恢复只对完整条带有效。如果坏盘上有部分条带因为之前降级读写导致数据不一致，或者有其他坏道干扰，恢复过程就可能出错。我们经常遇到“降级阵列”突然崩溃，就是因为在重建时遇到了不可读扇区。

www.fixhdd.cn

2. 回到开头那个案例：三块硬盘RAID5，坏一块后为什么直接挂了？

客户用的是3块2TB硬盘组的RAID5。理论上，三盘RAID5的校验块分布稍微有点特殊——因为盘数少，每个条带组只有2个数据块+1个校验块。我们来做举例RAID5工作原理介绍图的具体分析：技王数据恢复

条带组1： Disk0: Data1, Disk1: Data2, Disk2: Parity(Data1⊕Data2)
条带组2： Disk0: Data3, Disk1: Parity(Data3⊕Data4), Disk2: Data4
条带组3： Disk0: Parity(Data5⊕Data6), Disk1: Data5, Disk2: Data6

当Disk2发生物理坏道，控制器尝试读取该盘的所有条带，发现有一块区域读超时，于是标记该盘为“故障”。阵列进入降级模式，所有对原Disk2数据的请求都需要通过其他两块盘异或计算。

但问题来了：在读取Disk0和Disk1做异或的过程中，如果Disk0刚好也有一个弱扇区（还没完全坏，但读出来数据有ECC错误），控制器没办法校验正确性，直接返回错误。更坏的情况是：Disk1上某个校验块也刚好有介质错误——三块盘坏了一块，另一块半死不活，整个RAID5直接变为“失效”状态，逻辑驱动器消失。

技王数据恢复 曾经处理过一个类似的案例：客户自己胡乱重建，导致条带错位，数据彻底乱套。我们用底层镜像+虚拟重组，才把数据库拉回来。遇到RAID5故障，第一件事就是断电，别再做任何写操作。

3. RAID5的“图”要怎么看？——工程师的直觉判断

我常跟徒弟说：你脑子里要有每个扇区的位置。比如一个128KB条带大小，64KB的校验块，你得知道第1000个逻辑块对应到哪块盘的哪个LBA。但这太抽象，实际恢复时，我们会用工具（例如WinHex、R-Studio）去读取每块盘的块镜像，然后手动分析条带排列。

下面是一个举例RAID5工作原理介绍图的简化步骤：

确定条带大小： 通常是64KB、128KB、256KB等。可以从第一个分区起始位置判断。
确定校验旋转方向： 左异步、右异步、左同步、右同步…… 最常见的家用NAS（比如群晖、威联通）喜欢用“左异步”，而企业级有的用“右同步”。
确认盘序： 哪块盘是Disk0，哪块是Disk1？很多人以为SATA接口顺序就是盘序，实际上控制器可能已经做过了映射。
测试恢复： 用镜像文件模拟组RAID，看能不能找到文件系统（NTFS或ext4）的超级块。

这里说个经验：很多时候RAID5卡死了，不是因为数据全毁，而是因为控制器固件本身把条带参数搞乱了。 这时候如果直接找原卡重建，十有八九失败。我们曾经接过一个IBM ServeRAID的案子，客户自己用原厂工具重建了三次，结果分区都变RAW。我们用底层分析，发现条带大小被错误识别为256KB，实际上应该是64KB——因为控制器固件升级后默认参数变了。这就是典型的“软故障”。