Как отслеживать состояние жесткого диска за RAID-контроллером Dell PERC H710 с CentOS 6?

26

У меня есть сервер Dell, работающий CentOS 6с использованием PERC H710карты Raid Controller с настройкой Raid 5, и я хочу отслеживать сбой жесткого диска / рабочее состояние за Raid Controller.

Тогда я смогу использовать bash-скрипт для мониторинга состояния жесткого диска и отправки оповещений по электронной почте, если что-то пойдет не так.

LSI MegaRAID SASИнструмент командной (О LSI MegaRAID SAS Linux Tools) для CentOS / Red Hat / Linux не поддерживает PERC H710 и smartctlне поддерживает его либо.

Исходя из веб-сайта Dell, CentOSIS не поддерживается для этого сервера ( NX3200 PowerVault), и я не смог загрузить программу linux для мониторинга жесткого диска.

[root@server ~]# lspci | grep RAID
03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)


[root@server ~]# smartctl -a /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               DELL
Product:              PERC H710
Revision:             3.13
User Capacity:        299,439,751,168 bytes [299 GB]
Logical block size:   512 bytes
Logical Unit id:      ....
Serial number:        ....
Device type:          disk
Local Time is:        Tue Apr 15 16:38:30 2014 SGT
Device does not support SMART

Error Counter logging not supported
Device does not support Self Test logging

Кто-нибудь знает, как отслеживать состояние жесткого диска после аппаратного рейда на Dell PERC H710 с CentOS 6?

Xianlin
источник

Ответы:

26

SMART - не последнее слово в мониторинге дисков или хранилищ! Это компонент, но современные RAID-контроллеры используют его вместе с другими методами для определения работоспособности дисков и массивов.

Я предполагаю, что это контроллер PERC на сервере Dell PowerEdge.

Обычный дружественный к Linux подход к мониторингу состояния оборудования Dell заключается в установке агентов Dell OMSA для Linux через Yum - http://linux.dell.com/wiki/index.php/Repository/OMSA#Yum_setup

yum install srvadmin-allустановит полный набор агентов. После установки вы можете использовать omreportкоманду для получения информации о вашем массиве.

Примеры:

$ omreport storage vdisk

$ omreport storage pdisk controller=0

$ omreport storage vdisk controller=0 vdisk=1
ewwhite
источник
7
это установит дополнительные компоненты, такие как веб-сервер / ssl, на мои машины с Linux, но, похоже, у меня нет другого выбора! Я ненавижу добавлять ненужные пакеты на мой сервер.
Сяньлинь
2
Остерегайтесь потенциальной утечки памяти из одной из этих программ OMSA. Это происходило со мной медленно в течение 3-4 недель, а затем бум, больше нет памяти для Linux.
bksunday
1
Да, утечка в dsm_sa_snmpd (поэтому я запускаю killall -9 dsm_sa_snmpd, решено).
MarkNN
5
Контроллеры PERC 7xx и 8xx - это просто контроллеры LSI Megaraid, и инструмент LSI MegaCLI будет отлично работать, если вы не хотите заражать свою систему библиотеками dell и любыми другими службами и / или модулями ядра, которые они отбрасывают в эти дни. Существует множество шпаргалок MegaCLI, сценариев мониторинга nagios и советов по настройке производительности для двоичного файла LSI. Это только мое личное предпочтение и мнение, конечно. Я минималист.
Аарон
@Xianlin, это не совсем так. Да, это установит много мусора, но посмотрите мой ответ. Я не хотел добавлять ненужные пакеты, поэтому я определил только те, которые мне нужны для хранения.
Майк С
25

Вы можете увидеть SMART-статус дисков с помощью команды smartctl и ее -dаргумента. Например, чтобы увидеть первый диск в массиве:

# smartctl -a /dev/sda -d sat+megaraid,00
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.6.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST91000640NS
Serial Number:    ........
LU WWN Device Id: . ...... .........
Firmware Version: AA08
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P     showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jul 10 11:21:52 2014 WEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
...
...
#

Это на Scientific Linux 6 (другая ОС на основе RHEL6) с smartmontools-5.43-1.el6.x86_64.

Джонатан Барбер
источник
-d megaraid,0было достаточно в smartctl 6.6командной строке. В этой DEVICESCANстроке /etc/smartd.confнужно-d removable
Стюарт Кардалл
9

Принятый ответ рекомендует дерзость, которая есть yum install srvadmin-all. Blecch. Вот как сделать его немного менее очевидным (но все же отличным; вы можете значительно уменьшить нагрузку на платформу HP. Но я отвлекся ...) Под этим я подразумеваю только те компоненты, которые необходимы для управления хранилищем на вашей машине. ,

Кстати, прямой ответ на вопрос пользователя заключается в пункте «Показывать физические диски на виртуальном диске 0» в списке ниже.

wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi > bootstrap.cgi
bash bootstrap.cgi
yum install srvadmin-base
yum install srvadmin-storageservices

Добавьте к корню .bashrc:

export PATH=$PATH:/opt/dell/srvadmin/bin

Наслаждаться:

Команды RAID

  • Показать все физические диски на контроллере 0

    $ omreport storage pdisk controller=0
    
  • Показать все логические диски на контроллере 0

    $ omreport storage vdisk controller=0
    
  • Показать все физические диски на виртуальном диске 0

    $ omreport storage pdisk controller=0 vdisk=0
    
  • Переконфигурируйте виртуальный диск как raid1 из raid0 ( COOL !!!! )

    $ sudo omconfig storage vdisk action=reconfigure controller=0 vdisk=1 raid=r1 pdisk=0:0:2,0:0:3
    
  • Создайте виртуальный диск на новом диске:

    $ sudo omconfig storage controller controller=0 action=clearforeignconfig
    $ sudo omconfig storage controller controller=0 action=createvdisk raid=r0 size=max pdisk=0:0:2
    

Больше информации

Кстати, поскольку это не что иное, как карта LSI MegaCLI под маркой Dell, ответ Хана Соло может оказаться еще лучше! Я все еще должен попробовать это, однако.

Сладость

Вот пример вывода omreport, переданного через grep для восхитительного набора данных:

$ omreport storage pdisk controller=0 vdisk=0 | grep -v ": Not "
List of Physical Disks belonging to root

Controller PERC H700 Integrated (Embedded)
ID                              : 0:0:0
Status                          : Ok
Name                            : Physical Disk 0:0:0
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFDT
Part Number                     : CN0X162K7262213800JTA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E44C5

ID                              : 0:0:1
Status                          : Ok
Name                            : Physical Disk 0:0:1
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFEY
Part Number                     : CN0X162K7262213800FPA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E3C1D
Майк С
источник
@slm Что касается вашего редактирования - действительно ли оно работает без рута? Сейчас у меня нет omreport / omconfig передо мной, но я не уверен, что какой-либо пользователь может просто создать виртуальный диск. '$' В командной строке подразумевает обычного пользователя, а не пользователя root.
Майк С
Да, я только что сделал это на днях, когда имел дело с Dell 730, и все cmds, кроме тех двух, которые «создают», не нуждались в root, я исправлю.
SLM
6

Я также изо всех сил пытался заставить его работать в CentOS, и я нашел рабочий пакет здесь http://mirror.ndchost.com/software/lsi/

называется " MegaCli-8.07.10-1.noarch.rpm "

Ссылка на команду http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS

Я надеюсь, что это помогает.

Хан Соло
источник
1
Я бы абсолютно согласился, используйте / opt / megacli / MegaCli64 -PDList -aALL | прошивка grep -i и она сообщит вам, если физические диски в порядке. (Команда с erikimh.com/megacli-cheatsheet - посмотрите, если я использовал не тот). В основном, raid care выполняет большую работу по мониторингу дисков, поэтому просто следите за его мнением о рабочих состояниях дисков.
Немного Linux Nerd
3
smartctl -d megaraid,00 -a /dev/sda
Got MegaRAID inquiry.. FUJITSU MBE2147RC       D906
Device: FUJITSU  MBE2147RC        Version: D906
Serial number: xxxx
Device type: disk
Transport protocol: SAS
Local Time is:
user311347
источник
8
Пожалуйста, подумайте о том, как написать хороший ответ? в нашем справочном центре, а затем пересмотрите ответ. Ваша команда технически может быть решением, которое также уже упоминалось в других, гораздо более старых ответах, и некоторые объяснения приветствуются. Заранее спасибо.
HBruijn
1
Другой ответ использовал «sat + megaraid», который у меня не работал. (Правильно, я плохо знал команду smartctl и не знал, как изменить команду, чтобы она работала.) Этот ответ привел меня на правильный путь, и он работает для меня.
Юнвэй Ву
1

Команда perccliтакже может показать вам много информации о диске, если вы спросите ее:

# /opt/MegaRAID/perccli/perccli64 /c0/e32/s0 show all
Controller = 0
Status = Success
Description = Show Drive Information Succeeded.


Drive /c0/e32/s0 :
================

-------------------------------------------------------------------------
EID:Slt DID State DG       Size Intf Med SED PI SeSz Model            Sp
-------------------------------------------------------------------------
32:0      0 UGood -  278.875 GB SAS  HDD N   N  512B ST3300657SS      U
-------------------------------------------------------------------------

EID-Enclosure Device ID|Slt-Slot No.|DID-Device ID|DG-DriveGroup
DHS-Dedicated Hot Spare|UGood-Unconfigured Good|GHS-Global Hotspare
UBad-Unconfigured Bad|Onln-Online|Offln-Offline|Intf-Interface
Med-Media Type|SED-Self Encryptive Drive|PI-Protection Info
SeSz-Sector Size|Sp-Spun|U-Up|D-Down/PowerSave|T-Transition|F-Foreign
UGUnsp-Unsupported|UGShld-UnConfigured shielded|HSPShld-Hotspare shielded
CFShld-Configured shielded|Cpybck-CopyBack|CBShld-Copyback Shielded


Drive /c0/e32/s0 - Detailed Information :
=======================================

Drive /c0/e32/s0 State :
======================
Shield Counter = 0
Media Error Count = 0
Other Error Count = 0
Drive Temperature =  40C (104.00 F)
Predictive Failure Count = 1
S.M.A.R.T alert flagged by drive = Yes

Это нужно повторить для каждого слота корпуса, или, по крайней мере, я не нашел способа распечатать все сразу с помощью одной perccliкоманды.

Это также легко установить по сравнению с другими, более всеобъемлющими опциями:

# curl -C - -O 'https://downloads.dell.com/FOLDER04470715M/1/perccli_7.1-007.0127_linux.tar.gz'
# tar xzvf ../perccli_7.1-007.0127_linux.tar.gz
# cd Linux/
# yum localinstall perccli-007.0127.0000.0000-1.noarch.rpm
# cd /opt/MegaRAID/perccli/

perccliэто НЕ полный набор мониторинга как Delll OMSA, но это звучит как многие люди не хотят что - то всеобъемлющее и вместо этого нужен приличный, простого инструмента.

Стив Бондс
источник
-1

Привет, у меня есть аналогичная карта Dell PERC / LSI, и мне нужно было проверить состояние RAID. У LSI есть утилита под названием sas2ircu, которая мне показалась весьма полезной, также есть версия для Windows и Linux.

mike_coreit
источник