Как проверить CentOS 6 Server VM Host после сбоя питания?

9

Сегодня днем ​​кто-то в нашем офисе решил отключить наш сервер от штурма, потому что он на улице бушевал. Они не закрыли его, они просто вытащили вилку из розетки во время работы.

Сервер имеет 4 диска SATA в конфигурации программного RAID 10 и LVM, работающий поверх RAID. Сервер работает под управлением CentOS 6.2 Minimal и является хостом виртуальной машины, использующим KVM. В то время, когда он был отключен, на компьютере работало много гостевых машин. У каждого гостя есть один или несколько разделов LVM, которые он использует непосредственно в качестве жестких дисков. Гостевые разделы: EXT3, EXT4 и NTFS. Хост ОС находится в разделе EXT4.

Позже, когда власть вернулась, этот человек включил ее обратно, и она запустилась. Поскольку они подключили его, не подключая монитор в первую очередь, нет возможности увидеть, что появилось на экране. Я попытался подключить монитор сейчас, но он не будет работать, если монитор не подключен при загрузке. Я оставил все как есть, пока не получу несколько советов, поскольку не хочу ничего портить (дальше).

Я могу войти в хост через SSH. Я еще не перезагружал его, если в журнале есть что-то, что может быть полезно.

Что мне нужно сделать, это проверить все диски и разделы на целостность данных, если это вообще возможно. Я думаю, что RAID 10 использует какой-то кэш на основе памяти, и я беспокоюсь о том, что диски будут несовместимы, или файлы будут повреждены, если в реплике были записаны вещи, которые еще не были записаны.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

Меня также беспокоит, что он называет мои массивы «почти копиями». Это нормально?

Какие проверки дисков следует выполнить, чтобы убедиться, что с дисками и данными все в порядке? Есть ли другие вещи, которые я должен проверить?

ОБНОВИТЬ

Вывод mdadm --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3
Ник
источник

Ответы:

3

RAID в порядке, все UUUU означает, что все диски в массиве работают. Я бы даже не беспокоился об этом сейчас.

Что касается виртуальных машин, если вы хотите запустить на них fscks, остановите виртуальные машины и запустите

fsck.ext3 (ext4, etc) /path/to/lvm (обычно такой как / dev / vg-name / lv-name)

Если вы используете KVM, вы сможете использовать virshвсе, что вам нужно для виртуальных машин. Вот ссылка на справочную страницу virsh http://linux.die.net/man/1/virsh

Если вы действительно хотите запускать проверку дисков на ваших raid-массивах, вам придется перезагрузиться в однопользовательском режиме или загрузиться с живого компакт-диска, чтобы вы могли fsck на отдельные устройства / dev / mdX. Поскольку основной файловой системой является EXT4, я бы не стал беспокоиться, он намного лучше, чем EXT3 с перебоями в питании.

jemmille
источник
+1, попробую завтра.
Ник
1

Попробуйте mdadm --detail / dev / md0 (то же самое для md1 и md2).

Тогда попробуйте совет, приведенный здесь: http://linas.org/linux/raid.html

ода
источник
Я опубликовал вывод mdadm --detail /dev/md0выше. Я прочитал руководство, которое вы связали, но в нем не упоминаются файловые системы EXT4, или что конкретно я могу сделать для проверки целостности?
Ник
Тип файловой системы не должен иметь значения с точки зрения целостности RAID. Если у вас есть период обслуживания, вы можете размонтировать уязвимые файловые системы и fsckих. Если вы хотите проверить сами устройства RAID, вы можете сделать что-то вроде echo "check" > /sys/block/md0/md/sync_action. Или повторить «ремонт», чтобы выполнить какой-то ремонт mdadm.
cjc
Я попробую это завтра и доложу.
Ник