Как я могу определить, происходит ли сбой диска на ESXi / что означают эти ошибки?

10

У меня есть сервер под управлением VMware ESXi v4.1.0 348481. Он имеет аппаратный RAID10 и резервный диск SATA. У меня работает виртуальная машина, в которой есть основной загрузочный vmdk в хранилище данных RAID10, и 600 ГБ vmdk в хранилище данных резервного диска SATA. Виртуальная машина работает под управлением Debian Linux с ядром FreeBSD и использует ZFS для резервного диска.

РЕДАКТИРОВАТЬ: диск не подключен непосредственно к виртуальной машине . Он используется в качестве хранилища данных VMware, а виртуальная машина имеет vmdk в хранилище данных диска SATA. Хранилище данных не заполнено (заполнено только на 65%)

Я вошел на сервер с использованием SSH и обнаружил, что резервное копирование прошлой ночью зависло zfs listили zpool listоба зависли. Поэтому я открыл виртуальную консоль в ESXi, и мне было грустно видеть:

Этот скриншот меня расстраивает

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Я попытался перезагрузить виртуальную машину, и я получил сообщение о том, что система отключается для перезагрузки, а затем зависло. (^ C появляется, но не убивает shutdown). Я не могу прерывания или или процессы - Ничего не происходит , когда я пытаюсь.kill -9zpool list zfs listrsync

  1. Это указывает на сбой резервного диска SATA? Или это может быть просто ошибкой ESXi?
  2. Как в клиенте vSphere я могу определить, не работает ли диск? Я не видел никаких показаний, все под Hardware Health Status выглядит хорошо, и я ничего не видел в конфигурации хранилища.
  3. Как мне действовать отсюда? Должен ли я просто перезагрузить виртуальную машину?

ОБНОВЛЕНИЕ: я просто сильно перезагрузил ВМ. После того, как он вернулся в оперативный режим, резервная копия zpool была в сети:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Я сильно склоняюсь к замене диска ...

мистифицировать
источник

Ответы:

5

Эти ошибки действительно указывают на то, что один из дисков SATA обнаружил достаточно плохих блоков, чтобы исчерпать пространство перераспределения блоков. Этот диск плох, и должен быть заменен. Я не уверен, где в клиенте vSphere эта информация отображается, но записи журнала довольно ясны.

Если ваше оборудование позволяет, горячая замена должна быть выполнимой. В противном случае вам придется закрыть все, чтобы выполнить замену. Если эта виртуальная машина не отключилась через 30 минут, пришло время просто завершить ее. Это рискованно, но если это действительно повешено, то не так много для этого.

sysadmin1138
источник
Спасибо @ sysadmin1138. Итак, даже если эти ошибки отображаются внутри виртуальной машины, это явно указывает на настоящую аппаратную проблему? То есть это не просто какая-то особенность VMware?
Джош
@Josh Если вы прямо представили диск SATA на виртуальной машине, вы наверняка это увидите. Для файлового хранилища я менее уверен; возможно, в вашем хранилище данных не осталось места.
sysadmin1138
Я должен был уточнить это. Это файловое хранилище. В хранилище данных достаточно места: это диск емкостью 1 ТБ, а объем VMDK составляет 600 ГБ, на диске больше ничего нет. В любом случае, это явно что-то не так, поэтому, если кто-то еще не даст мне четкого объяснения того, что это может быть, я заменю диск.
Джош