Diagnose und Austausch einer defekten Festplatte (Dedicated Server Linux mit Hardware-Raid)
Bitte verwenden sie die "Drucken" Funktion am Seitenende, um ein PDF zu erstellen.
In diesem Artikel erfahren Sie, wie Sie eine defekte Festplatte identifizieren und den Server für den Austausch des defekten Datenträgers vorbereiten.
Hinweis
Dieser Artikel setzt grundlegende Kenntnisse der Serveradministration mit Linux voraus. Wenn Sie bezüglich des Austauschs einer defekten Festplatte Fragen haben oder Unterstützung benötigten, kontaktieren Sie bitte den IONOS Kundenservice.
Damit die größtmögliche Ausfallsicherheit gewährleistet werden kann, ist es erforderlich, dass Sie das Hardware-RAID Ihres Dedicated Servers überwachen. Wenn Sie feststellen, dass eine Festplatte defekt ist, oder Sie eine Benachrichtigungs-E-Mail über eine defekte Festplatte erhalten, müssen Sie den Kundenservice kontaktieren, um den Festplattenaustausch zu veranlassen. Hierfür ist es zunächst erforderlich, dass Sie die defekte Festplatte identifizieren und den Server für den Austausch des defekten Datenträgers vorbereiten.
Achtung!
RAID-Systeme ermöglichen eine größere Ausfallsicherheit und/oder eine höhere Geschwindigkeit. Sie sind jedoch kein Ersatz für regelmäßige Backups. Um Datenverlust zu vermeiden, empfehlen wir Ihnen, regelmäßig ein Backup zu erstellen. Stellen Sie ferner sicher, dass Sie vor der Ausführung der folgenden Schritte ein Backup erstellen, um die Sicherheit Ihrer Daten zu gewährleisten.
Weitere Informationen zur Erstellung von Backups finden Sie hier:
Daten auf Backup-Server sichern (Linux)
Hardware-RAID-Controller: Allgemeine Informationen
Ein Hardware-RAID-Controller ist ein physikalischer Controller, der als Hardware-Bauteil in den Server eingebaut ist. Dieser Controller besitzt für die Berechnung der RAID-Operationen einen eigenen Prozessor. Dieser Prozessor organisiert und verwaltet den Speicherplatz. Somit wird die CPU des Servers nicht durch RAID-Berechnungen belastet. Bei Hardware-RAID-Controllern ist die RAID-Funktionalität vom Betriebssystem unabhängig. Sie werden über spezielle Kommandozeilenprogramme (Command Line Interface, kurz CLI) verwaltet, die je nach herstellendem Unternehmen und Modell unterschiedlich sein können.
Diagnose von Festplattenfehlern
Um Festplattenfehler zu erkennen, empfehlen wir Ihnen, das Programm smartctl zu verwenden.
Smartctl ist ein Kommandozeilenprogramm, um Datenträger mittels SMART (Self-Monitoring, Analysis and Reporting Technology) zu überwachen. Mit diesem Programm können Sie prüfen, ob eine Festplatte defekt ist. Es ist ein Bestandteil der Smartmontools. Die Smartmontools sind als Pakete für viele Linux Distribuitionen verfügbar.
Hinweis
In manchen Fällen kann es vorkommen, dass ein Festplattendefekt nicht mittels der Smartwerte erkannt werden kann. Daher empfehlen wir Ihnen, zusätzlich die Log-Datei /var/log/messages zu analysieren.
Smartctl installieren
Um Smartctl zu installieren, geben Sie den folgenden Befehl ein:
CentOS:
yum install smartmontools
Ubuntu:
sudo apt-get install smartmontools
Hardware-Controller-Typ ermitteln
Um zu prüfen, welcher Hardware-Controller in Ihrem Server eingebaut ist, können Sie das Programm lshw verwenden. Dieses Programm erstellt detaillierte Informationen zu Hardwarekomponenten.
Um das Programm zu installieren, geben sie den folgenden Befehl ein:
CentOS:
yum install lshw
Ubuntu:
sudo apt-get install lshw
Hardwareinformationen aufrufen
Um eine Kurzfassung der Hardwareinformationen anzuzeigen, geben Sie den folgenden Befehl ein:
lshw –short
Um die Hardwareinformationen als Textdatei auszugeben, geben Sie den folgenden Befehl ein:
lshw > lshw_ausgabe.txt
Im folgenden Beispiel ist im Server ein PERC H330 Hardware-Controller eingebaut:
root@829F6DF:~# lshw -short
H/W path Device Class Description
==========================================================
system PowerEdge R230 (SKU=NotProvided;ModelName=PowerEdge R230)
/0 bus 0DWX9P
/0/0 memory 64KiB BIOS
/0/400 processor Intel(R) Xeon(R) CPU E3-1270 v6 @ 3.80GHz
/0/400/700 memory 256KiB L1 cache
/0/400/701 memory 1MiB L2 cache
/0/400/702 memory 8MiB L3 cache
/0/1000 memory 32GiB System Memory
/0/1000/0 memory 16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/1 memory 16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/2 memory [empty]
/0/1000/3 memory [empty]
/0/100 bridge Intel Corporation
/0/100/1 bridge Skylake PCIe Controller (x16)
/0/100/1/0 scsi0 storage MegaRAID SAS-3 3008 [Fury]
/0/100/1/0/2.0.0 /dev/sda disk 799GB PERC H330 Adp
/0/100/1/0/2.0.0/1 /dev/sda1 volume 2047KiB BIOS Boot partition
/0/100/1/0/2.0.0/2 /dev/sda2 volume 27GiB EXT3 volume
/0/100/1/0/2.0.0/3 /dev/sda3 volume 9536MiB Linux swap volume
/0/100/1/0/2.0.0/4 /dev/sda4 volume 707GiB LVM Physical Volume
/0/100/1.1 bridge Skylake PCIe Controller (x8)
/0/100/14 bus Sunrise Point-H USB 3.0 xHCI Controller
/0/100/14/0 usb1 bus xHCI Host Controller
/0/100/14/0/3 bus Gadget USB HUB
/0/100/14/1 usb2 bus xHCI Host Controller
/0/100/14.2 generic Sunrise Point-H Thermal subsystem
/0/100/16 communication Sunrise Point-H CSME HECI #1
/0/100/16.1 communication Sunrise Point-H CSME HECI #2
/0/100/17 storage Sunrise Point-H SATA controller [AHCI mode]
/0/100/1d bridge Sunrise Point-H PCI Express Root Port #9
/0/100/1d/0 eth0 network NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d/0.1 eth1 network NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d.2 bridge Sunrise Point-H PCI Express Root Port #11
/0/100/1d.2/0 bridge SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0 bridge SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0/0 bridge SH7758 PCIe-PCI Bridge [PPB]
/0/100/1d.2/0/0/0/0 display G200eR2
/0/100/1f bridge Sunrise Point-H LPC Controller
/0/100/1f.2 memory Memory controller
/0/100/1f.4 bus Sunrise Point-H SMBus
Informationen zur Festplatte aufrufen
Um mit Smartctl Informationen zur Festplatte aufzurufen, müssen Sie den entsprechenden Befehl stets in Kombination mit einer Option und einem Zielgerät angeben. Das Zielgerät ist abhängig vom herstellendem Unternehmen des Controllers.
Mit den unten aufgeführten Befehlen rufen Sie die für die Diagnose erforderlichen Informationen über die Festplatte auf:
Herstellendes Unternehmen | Festplatte | Befehl |
---|---|---|
ARECA | 1 | smartctl -iHAl error /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl -iHAl error /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl -iHAl error /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl -iHAl error /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl -iHAl error /dev/sg2 -d sat |
Adaptec | 2 | smartctl -iHAl error /dev/sg3 -d sat |
Adaptec | (3) | smartctl -iHAl error /dev/sg4 -d sat |
Adaptec | (4) | smartctl -iHAl error /dev/sg5 -d sat |
Dell | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Weitere Befehle für unterstützte Hardware-Controller finden Sie auf der folgenden Seite:
https://www.smartmontools.org/wiki/Supported_RAID-Controllers
Beispiel:
[root@localhost ~]# smartctl -iHAl error /dev/sg1 -d areca,1
smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
Interpretation der Parameter
Analysieren Sie die detaillierten Informationen, die Sie aufgerufen haben. Im ersten Abschnitt sind Informationen aufgeführt, mit denen Sie die Festplatte identifizieren können. In diesem Abschnitt werden z. B. das Gerätemodell, die Seriennummer und die Größe der geprüften Festplatte angezeigt.
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Im zweiten Abschnitt wird der aktuelle Zustand der Festplatte von Smartctl beurteilt. Wenn nicht der Wert PASSED, sondern z. B. der Wert Failed oder UNKNOWN angezeigt wird, sollten Sie schnellst möglich einen Austausch der betreffenden Festplatte veranlassen.
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Im dritten Abschnitt sind die ermittelten SMART-WERTE detailliert aufgeführt. Neben jedem aktuellen, prozentualen Wert (VALUE), sind der schlechteste, jemals gemessene Wert (WORST) und der jeweilige Grenzwert (THRESH) aufgeführt. Wenn der aktuelle, prozentuale Wert (VALUE) oder der schlechteste, jemals gemessene Wert (WORST) den Grenzwert (THRESH) überschreiten, wird in der Spalte WHEN_FAILED eine SMART-Warnung angezeigt (z. B. FAILING_NOW).
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
Folgende Parameter können auf einen drohenden Festplattenausfall hinweisen, bevor eine SMART-Warnung angezeigt wird:
Reallocated_Sector_Ct: Gibt die Anzahl der Sektoren an, die aufgrund von Lesefehlern neu zugeteilt wurden. Wenn ein Sektor nicht mehr korrekt gelesen, beschrieben oder geprüft werden kann, wird diesem automatisch ein Ersatzsektor zugewiesen. Der fehlerhafte Sektor wird permanent als nicht lesbar markiert. Dies ist ein deutliches Warnzeichen für beginnende Oberflächenprobleme. Wenn dieser Wert ungleich null ist, steht oftmals ein Festplattenausfall bevor. Dieser Wert ist der wichtigste Indikator für einen Festplattenaustausch.
Current_Pending_Sector_Ct: Gibt die Anzahl der instabilen Sektoren an, die auf ein Remapping warten. Wenn ein Sektor nicht korrekt gelesen und beschrieben werden kann, erhält er zunächst den Status Current Pending Sector. Der Sektor wird in diesem Zustand nicht neu zugeteilt, da die auf dem Sektor liegenden Daten unbekannt sind. Erst nach mehreren erfolglosen Lese- bzw. Schreibversuchen wird ein Ersatzsektor zugewiesen und der fehlerhafte Sektor wird permanent als nicht lesbar markiert. Der Wert Current_Pending_Sector_Ct ist ein wichtiger Indikator für einen Festplattenaustausch. Wenn dieser Wert ungleich null ist, steht oftmals ein Festplattenausfall bevor.
Offline_Uncorrectable: Gibt die Anzahl der nicht korrigierbaren Fehler beim Schreib- und Lesezugriff auf Sektoren an.
Der letzte Abschnitt befasst sich mit dem festplatteninternen Log. Hier werden Fehler festgehalten wenn die Arbeitsaufträge des Servers von der Festplatte nicht ordnungsgemäß abgearbeitet wurden. Wenn in diesem Abschnitt eine mindestens zweistellige Fehlerzahl angezeigt wird, sollten Sie schnellst möglich einen Austausch der Festplatte veranlassen.
SMART Error Log Version: 1
No Errors Logged
Log-Dateien aufrufen
Informationen bezüglich des Aufrufs der Log-Dateien entnehmen Sie bitte der Dokumentation des jeweiligen herstellenden Unternehmens.
Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software
3ware
http://www.3ware.com/support/userdocs.asp
Adaptec
http://download.adaptec.com/pdfs/user_guides/microsemi_raid_controller_iug_6_2017.pdf
Dell
https://www.dell.com/support/home/de/de/debsdt1/product-support/product/poweredge-rc-h330/manuals
Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation
Festplattentausch vorbereiten
Detaillierte Informationen für den Festplattenaustausch aufrufen
Damit ein Austausch der defekten Festplatte veranlasst werden kann, werden folgende Informationen benötigt:
Bezeichnung der Festplatte im RAID
Seriennummer
Modell
Log-Datei (Optional)
SMART-Log erstellen
Mit den unten aufgeführten Befehlen erzeugen Sie einen vollständigen SMART-Log:
Herstellendes Unternehmen | Festplatte | Befehl |
---|---|---|
ARECA | 1 | smartctl –x /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl –x /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl –x /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl –x /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl –x /dev/sg2 -d sat |
Adaptec | 2 | smartctl –x /dev/sg3 -d sat |
Adaptec | (3) | smartctl –x /dev/sg4 -d sat |
Adaptec | (4) | smartctl –x /dev/sg5 -d sat |
Dell | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Hinweise
Wenn das SMART-Log wie oben beschrieben erstellt wurde, reicht dieses als Information aus. Anschließend können Sie den Austausch der defekten Festplatte veranlassen. Kontaktieren Sie hierzu bitte den IONOS Kundenservice.
Wenn Sie die Seriennummer der defekten Festplatte nicht mittels smartctl aufrufen können, können Sie dem Kundenservice alternativ die Seriennummer der funktionierenden Festplatte(n) nennen.
Wenn Sie die für den Austausch erforderlichen Informationen nicht ermitteln können und einen Austausch der Festplatte wünschen, muss die Hardware vor dem Austausch geprüft werden. Während dieser Prüfung ist der Server in der Regel temporär nicht erreichbar. Wenn im Rahmen dieser Prüfung ein Defekt der Festplatte festgestellt wird, wird diese ausgetauscht.
Festplattenaustausch veranlassen
Anschließend können Sie den Austausch der defekten Festplatte veranlassen. Kontaktieren Sie hierzu bitte den IONOS Kundenservice.
Erforderliche Schritte nach dem Austausch der Festplatte
Nach dem Austausch der defekten Festplatte startet der Rebuild des RAID-Systems in der Regel automatisch. Bitte prüfen Sie, ob der Rebuild des RAID-Systems gestartet und erfolgreich durchgeführt wird.