MDADM Raid Drive перестраивает каждую перезагрузку

Поэтому я много писал о сборке RAID с MDADM и Ubuntu (извините за это). Я просто не понимаю, что происходит с моей настройкой.

У меня есть настройка RAID-5, и я точно следовал этому руководству: http://zackreed.me/articles/38-software-raid-5-in-debian-with-mdadm

Anwyay, я сталкиваюсь с этой постоянной проблемой. Я отключаю RAID иногда, когда он мне не нужен, и когда я снова включаю его, я застреваю на фиолетовом экране. Я могу выйти из этого экрана, просто набрав в exit, и он скажет мне, что мой рейд ухудшен, спрашивая, хочу ли я загрузить его или нет. После этого его нормальный экран входа в систему. Затем, это то, что я вижу через SSH: (печатая это)

mdadm-D /dev/md127

Затем мне возвращается, что один из дисков "удален"

Тогда я:

mdadm --manage /dev/md127 --add /dev/sd** (** standing for the drive)

Это то, что я всегда получаю

mdadm: /dev/sd** reports being an active member for /dev/md127, but a --re-add fails.
mdadm: not performing --add as that would convert /dev/sdb1 in to a spare.
mdadm: To make this a spare, use "mdadm --zero-superblock /dev/sd**" first.

Итак, я буду следовать этим инструкциям, а затем еще раз повторно добавить диск, и тогда RAID будет перестроен нормально.

Я разочарован тем, что это происходит так часто, и я понятия не имею, почему. Может кто-нибудь мне помочь? Иногда это работает нормально, а иногда нет. Все, что я делаю, это выключаю или включаю. Любая помощь очень ценится, я не понимаю, почему мой RAID не работает нормально или что я делаю неправильно.

raid mdadm vpoola88
источник

Что вы подразумеваете под «выключением»?

StarNamer

Я имею в виду выключение компьютера

vpoola88

После того, как вы перезагрузили компьютер и обнаружили, что вам необходимо перестроить массив, вам следует проверить /var/log/syslogили, возможно, /var/log/syslog.1посмотреть, какие сообщения были до последнего выключения / перезапуска. Вы должны иметь возможность просто сделать, sudo less /var/log/syslogа затем искать 6 нулей ( /000000). Это позволит найти сообщения при запуске, и вы можете просто вернуться назад (PgUp) для сообщений о завершении работы.

StarNamer

Поиск 000000- это просто быстрый способ найти сообщения о запуске /var/log/syslog. Если вы посмотрите на строки, предшествующие запуску, вы увидите сообщения о последнем завершении работы, где вы можете найти сообщения об ошибках на дисках.

StarNamer

В зависимости от типа привода вы можете посмотреть информацию SMART с помощью sudo smartctl -i /dev/sdb(может понадобиться sudo apt-get install smartmontools). smartctl -H /dev/sdbсообщит об общем состоянии диска; smartctl -a /dev/sdbсообщит об ошибках (плюс выше 2). Если smartctl не сообщает о накопителе (например, USB), вам нужно использовать что-то другое (или посмотреть журнал загрузки /var/log/syslog).

StarNamer

Ответы:

У меня просто была похожая проблема, когда я перезагружал свой домашний файловый сервер и искал похожую ошибку.

При использовании «smartctl --all / dev / sda» (например) полезно проверить значение Reallocated_Sector_Ct, если оно не равно нулю и начинает резко расти, это означает, что ваш диск может выйти из строя, и пришло время сделать резервную копию.

вот значения из моей пары дисков (не забудьте прокрутить вправо, чтобы увидеть значения полей)

SDA:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   162   161   021    Pre-fail  Always       -       6875
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       50
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   065   065   000    Old_age   Always       -       25675
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       48
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       9
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       50
194 Temperature_Celsius     0x0022   105   099   000    Old_age   Always       -       45
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       5
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

и SDB:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   164   164   021    Pre-fail  Always       -       6775
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       38
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   066   066   000    Old_age   Always       -       25548
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       36
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       38
194 Temperature_Celsius     0x0022   110   099   000    Old_age   Always       -       40
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

хорошая новость в том, что я получаю необработанное значение 0 для перераспределенных подсчетов секторов.

надеюсь это поможет

Пол М
источник

итак, случилось снова, и это тот же драйв. У меня есть запасной диск, который я хочу обменять, чтобы увидеть, продолжает ли эта проблема существовать. Как я могу узнать, какой диск конкретно / SDB?

vpoola88

Привет всем, мне было интересно, могу ли я отключить все мои диски и подключить их в другом порядке, если это испортит мой массив? Или это не имеет значения?

vpoola88

mdraid определит, где находятся устройства, если вы поместите их на другую шину sata. Если вы не используете mdraid, убедитесь, что ваш fstab ссылается на диски по метке или uuid, а не по имени основного устройства, т.е. не используйте, например, / dev / sda1.

Пол М