Diagnose und Austausch einer defekten Festplatte (Dedicated Server Linux mit Software-RAID)
Bitte verwenden sie die "Drucken" Funktion am Seitenende, um ein PDF zu erstellen.
In diesem Artikel erfahren Sie, wie Sie bei einem Dedicated Server Linux mit Software-RAID eine defekte Festplatte identifizieren und den Server für den Austausch des defekten Datenträgers vorbereiten.
Hinweis
Dieser Artikel setzt grundlegende Kenntnisse der Serveradministration mit Linux voraus. Wenn Sie bezüglich des Austauschs einer defekten Festplatte Fragen haben oder Unterstützung benötigten, kontaktieren Sie bitte den IONOS Kundenservice.
Damit die größtmögliche Ausfallsicherheit gewährleistet werden kann, ist es erforderlich, dass Sie das Software-RAID Ihres Dedicated Servers überwachen. Wenn Sie feststellen, dass eine Festplatte defekt ist, oder Sie eine Benachrichtigungs-E-Mail über eine defekte Festplatte erhalten, müssen Sie den Kundenservice kontaktieren, um den Festplattenaustausch zu veranlassen. Hierfür ist es erforderlich, dass Sie die defekte Festplatte identifizieren und den Server für den Austausch des defekten Datenträgers vorbereiten.
Achtung
RAID-Systeme ermöglichen eine größere Ausfallsicherheit und/oder eine höhere Geschwindigkeit. Sie sind jedoch kein Ersatz für regelmäßige Backups. Um Datenverlust zu vermeiden, empfehlen wir Ihnen, regelmäßig ein Backup zu erstellen. Stellen Sie ferner sicher, dass Sie vor der Ausführung der unten aufgeführten Schritte ein Backup erstellen, um die Sicherheit Ihrer Daten zu gewährleisten. Weitere Informationen zur Erstellung von Backups finden Sie hier:
Daten auf Backup-Server sichern (Linux)
Status des Software-RAIDs prüfen
Um den Status des Software-RAIDs zu prüfen, geben Sie in der Shell den folgenden Befehl ein:
[root@host ~]: cat /proc/mdstat
Wenn beide Festplatten vorhanden und korrekt eingebunden sind, wird die folgende Meldung angezeigt:
[root@localhost ~]# cat /proc/mdstat
Personalities : [raid1]
read_ahead 1024 sectors
md2 : active raid1 sda3[1] sdb3[0]
262016 blocks [2/2] [UU]
md1 : active raid1 sda2[1] sdb2[0]
119684160 blocks [2/2] [UU]
md0 : active raid1 sda1[1] sdb1[0]
102208 blocks [2/2] [UU]
unused devices: <none>
Das oben aufgeführte Beispiel zeigt drei Multiple Devices bzw. logische Laufwerke (md0, md1, md2). Für jedes dieser logischen Laufwerke wird angegeben, aus welchen Partitionen sie sich zusammensetzen und auf welchen Laufwerken sich diese Partitionen befinden.
Beispiel: Das logische Laufwerk md0 setzt sich aus den Partitionen sda1 und sdb 1 zusammen.
In der Zeile, die unterhalb des jeweiligen logischen Laufwerks aufgeführt ist, wird am Zeilenende in der eckigen Klammer der Zustand der einzelnen Partitionen angezeigt. Ein U bedeutet, dass die jeweilige Festplatte in das RAID eingebunden ist (up) ist.
Im folgenden Beispiel ist bei allen logischen Laufwerken nur eine Partition eingebunden, die sich auf der Festplatte sda befindet. Die jeweilige Partition, die sich auf der zweiten Festplatte sdb befindet, ist nicht eingebunden. Dies können Sie auch anhand des Eintrags [U_] erkennen. Die nicht eingebundenen Partitionen der Festplatte sdb weisen darauf hin, dass bei dieser Festplatte ein Fehler oder ein Defekt vorliegt.
[root@localhost ~]# cat /proc/mdstat
Personalities : [raid1]
read_ahead 1024 sectors
md0 : active raid1 sda1[1]
102208 blocks [2/1] [_U]
md1 : active raid1 sda2[1]
119684160 blocks [2/1] [_U]
md2 : active raid1 sda3[1]
262016 blocks [2/1] [_U]
unused devices: <none>
Im folgenden Beispiel ist eine defekte Festplatte noch im RAID eingebunden:
[root@localhost ~]# cat /proc/mdstat
Personalities : [raid1]
md3 : active raid1 sda3[0] sdb3[2](F)
439553856 blocks super 1.0 [2/1] [U_]
bitmap: 1/4 pages [4KB], 65536KB chunk
md1 : active raid1 sdb1[2](F) sda1[0]
19529600 blocks super 1.0 [2/1] [U_]
unused devices: <none>
Der Eintrag (F) zeigt in diesem Beispiel, dass die Partition als faulty markiert ist.
Fehlerdiagnose und Ermittlung der notwendigen Daten für den Festplattenaustausch
Um Festplattenfehler zu erkennen, empfehlen wir Ihnen, wie folgt vorzugehen:
Installieren Sie das Programm Smartctl. Smartctl ist ein Kommandozeilenprogramm, um Datenträger mittels SMART (Self-Monitoring, Analysis and Reporting Technology) zu überwachen. Mit diesem Programm können Sie prüfen, ob eine Festplatte defekt ist. Es ist ein Bestandteil der Smartmontools. Die Smartmontools sind als Pakete für viele Linux Distributionen verfügbar.
Hinweis
In manchen Fällen kann es vorkommen, dass ein Festplattendefekt nicht mittels der Smartwerte erkannt werden kann. Daher empfehlen wir Ihnen, zusätzlich die Log-Datei /var/log/messages zu analysieren.
Smartctl installieren
Um Smartctl zu installieren, geben Sie den folgenden Befehl ein:
CentOS
yum install smartmontools
Ubuntu
sudo apt-get install smartmontools
Informationen zur Festplatte aufrufen
Um eine Liste der Festplatten aufzurufen, geben Sie den folgenden Befehl ein:
smartctl --scan
Beispiel:
[root@8E8885C ~]# smartctl --scan
/dev/sda -d scsi # /dev/sda, SCSI device
/dev/sdb -d scsi # /dev/sdb, SCSI device
Um detaillierte Informationen für die Fehlerdiagnose aufzurufen, geben Sie den folgenden Befehl ein:
smartctl -iHAl error [NAMEDERFESTPLATTE]
Hinweis
Bitte beachten Sie, dass die Schnittstellen der Geräte im folgenden Format angegeben werden müssen:
SCSI / SATA Geräte:
smartctl - iHAl error /dev/sd[a-z]
Beispiel:
[root@localhost ~] # smartctl -iHAl error /dev/sda
Nach der Eingabe des Befehls werden z. B. die folgenden Informationen angezeigt:
[root@8E8885C ~]# smartctl -iHAl error /dev/sda
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-3.10.0-862.14.4.el7.x86_64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6N0K2RW66
LU WWN Device Id: 5 0014ee 004722db0
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Fri May 3 07:45:14 2019 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always 0
3 Spin_Up_Time 0x0027 183 183 021 Pre-fail Always 3833
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always 9
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always 0
9 Power_On_Hours 0x0032 097 097 000 Old_age Always 2560
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always 9
16 Unknown_Attribute 0x0022 000 200 000 Old_age Always 26802171994
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always 4
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always 67
194 Temperature_Celsius 0x0022 116 111 000 Old_age Always 31
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline 0
SMART Error Log Version: 1
No Errors Logged
Interpretation der Parameter und Fehlerdiagnose
Analysieren Sie die detaillierten Informationen, die Sie mittels des Befehls
smartctl -iHAl error [NAMEDERFESTPLATTE] aufgerufen haben. Im ersten Abschnitt sind Informationen aufgeführt, mit denen Sie die Festplatte identifizieren können:
=== START OF INFORMATION SECTION ===
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6N0K2RW66
LU WWN Device Id: 5 0014ee 004722db0
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Fri May 3 07:45:14 2019 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
In diesem Abschnitt werden unter anderem das Gerätemodell und die Seriennummer der geprüften Festplatte angezeigt.
Im zweiten Abschnitt wird der aktuelle Zustand der Festplatte von Smartctl beurteilt. Wenn nicht der Wert „PASSED“, sondern z. B. der Wert „Failed“ oder „UNKNOWN“ angezeigt wird, sollten Sie schnellst möglich einen Austausch der betreffenden Festplatte veranlassen.
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Im dritten Abschnitt sind die ermittelten SMART-WERTE detailliert aufgeführt. Neben jedem aktuellen, prozentualen Wert (VALUE), sind der schlechteste, jemals gemessene Wert (WORST)und der jeweilige Grenzwert (THRESH) aufgeführt. Wenn der aktuelle, prozentuale Wert (VALUE) oder der schlechteste, jemals gemessene Wert (WORST) den Grenzwert (THRESH) überschreiten, wird in der Spalte WHEN_FAILED eine SMART-Warnung angezeigt (z. B. FAILING_NOW).
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always 0
3 Spin_Up_Time 0x0027 183 183 021 Pre-fail Always 3833
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always 9
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always 0
9 Power_On_Hours 0x0032 097 097 000 Old_age Always 2560
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always 9
16 Unknown_Attribute 0x0022 000 200 000 Old_age Always 26802171994
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always 4
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always 67
194 Temperature_Celsius 0x0022 116 111 000 Old_age Always 31
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline 0
Folgende Parameter können auf einen drohenden Festplattenausfall hinweisen, bevor eine SMART-Warnung angezeigt wird:
Reallocated_Sector_Ct: Gibt die Anzahl der Sektoren an, die aufgrund von Lesefehlern neu zugeteilt wurden. Wenn ein Sektor nicht mehr korrekt gelesen, beschrieben oder geprüft werden kann, wird diesem automatisch ein Ersatzsektor zugewiesen. Der fehlerhafte Sektor wird permanent als nicht lesbar markiert. Dies ist ein deutliches Warnzeichen für beginnende Oberflächenprobleme. Wenn dieser Wert ungleich null ist, steht oftmals ein Festplattenausfall bevor. Dieser Wert ist der wichtigste Indikator für einen Festplattenaustausch.
Current_Pending_Sector_Ct: Gibt die Anzahl der instabilen Sektoren an, die auf ein Remapping warten. Wenn ein Sektor nicht korrekt gelesen und beschrieben werden kann, erhält er zunächst den Status Current Pending Sector. Der Sektor wird in diesem Zustand nicht neu zugeteilt, da die auf dem Sektor liegenden Daten unbekannt sind. Erst nach mehreren erfolglosen Lese- bzw. Schreibversuchen wird ein Ersatzsektor zugewiesen und der fehlerhafte Sektor wird permanent als nicht lesbar markiert. Der Wert Current_Pending_Sector_Ct ist ein wichtiger Indikator für einen Festplattenaustausch. Wenn dieser Wert ungleich null ist, steht oftmals ein Festplattenausfall bevor.
Offline_Uncorrectable: Gibt die Anzahl der nicht korrigierbaren Fehler beim Schreib- und Lesezugriff auf Sektoren an.
Der letzte Abschnitt befasst sich mit dem festplatteninternen Log. Hier werden Fehler festgehalten wenn die Arbeitsaufträge des Servers von der Festplatte nicht ordnungsgemäß abgearbeitet wurden. Wenn in diesem Abschnitt eine mindestens zweistellige Fehlerzahl angezeigt wird, sollten Sie schnellst möglich einen Austausch der Festplatte veranlassen.
SMART Error Log Version: 1
No Errors Logged
Detaillierte Informationen für den Festplattenaustausch aufrufen
Damit ein Austausch der defekten Festplatte veranlasst werden kann, werden folgende Informationen benötigt:
Bezeichnung der Festplatte im RAID (z. B. sda)
Seriennummer
Modell
Log-Datei (Optional)
SMART-Log erstellen
Um einen vollständigen SMART-Log zu erstellen, geben Sie den folgenden Befehl ein:
smartctl –x [NAMEDERFESTPLATTE]
Beispiel:
[root@localhost ~]# smartctl -x /dev/sda
Wenn die Festplatte nicht mehr mittels Smartctl angesprochen werden kann, können Sie die erforderlichen Informationen mit dem Programm hdparm aufrufen. So installieren Sie hdparm:
CentOS
yum -y install hdparm
Ubuntu/Debian
sudo apt-get update
sudo apt-get install hdparm
Geben Sie anschließend den folgenden Befehl ein, um die für den Festplattenaustausch erforderlichen Informationen aufzurufen:
hdparm -i /dev/sda
Hinweise
Wenn das SMART-Log wie oben beschrieben erstellt wurde, reicht dieses als Information aus. Anschließend können Sie den Austausch der defekten Festplatte veranlassen. Kontaktieren Sie hierzu bitte den Kundenservice.
Wenn Sie die Seriennummer der defekten Festplatte nicht mittels Smartctl aufrufen können, können Sie dem Kundenservice alternativ die Seriennummer der funktionierenden Festplatte(n) nennen.
Server für den Austausch der Festplatte vorbereiten
Im folgenden Beispiel wird angenommen, dass die zweite Festplatte (sdb) ausgetauscht werden soll. Im Rahmen der Statusprüfung wird z. B. der folgende Status des Software-RAIDs angezeigt:
[root@host ~]# cat /proc/mdstat
Personalities : [raid1]
md3 : active raid1 sda3[0] sdb3[2]
439553856 blocks super 1.0 [2/1] [UU]
md1 : active raid1 sdb1[2] sda1[0]
19529600 blocks super 1.0 [2/1] [UU]
unused devices: <none>
Die zweite Festplatte (sdb) ist bei diesem Beispiel noch im RAID eingebunden und ist somit noch in Betrieb.
Raid Device manuell als "faulty" markieren, um es aus dem RAID zu entfernen
Um die defekte Festplatte als “faulty” zu markieren, damit sie aus dem RAID entfernt werden kann, geben Sie den folgenden Befehl ein:
[root@host ~]# mdadm PFAD_DES_RAID_ARRAYS -f PFAD_DER_FESTPLATTE
In den unten aufgeführten Beispielen werden die Festplatten sdb3 bzw. sdb1 als faulty markiert:
[root@host ~]# mdadm /dev/md3 -f /dev/sdb3
mdadm: set /dev/sdb3 faulty in /dev/md3
[root@host ~]# mdadm /dev/md1 -f /dev/sdb1
mdadm: set /dev/sdb1 faulty in /dev/md1
Nach der Eingabe des Befehls hat das RAID den folgenden Status:
[root@host ~]# cat /proc/mdstat
Personalities : [raid1]
md3 : active raid1 sda3[0] sdb3[2](F)
439553856 blocks super 1.0 [2/1] [U_]
md1 : active raid1 sdb1[2](F) sda1[0]
19529600 blocks super 1.0 [2/1] [U_]
unused devices: <none>
Partition/ aus dem Multiple Device entfernen
Um eine Partition aus dem Multiple Device zu entfernen, geben Sie den folgenden Befehl ein:
[root@host ~]# mdadm -r /PFAD_DES_RAID_ARRAYS /PFAD_DER_FESTPLATTE
In den unten aufgeführten Beispielen werden die Festplatten sdb3 bzw. sdb1 aus dem Multiple Device md3 bzw. md1 entfernt:
[root@host ~]# mdadm –r /dev/md3 /dev/sdb3
mdadm: hot removed /dev/sdb3 from /dev/md3
[root@host ~]# mdadm -r /dev/md1 /dev/sdb1
mdadm: hot removed /dev/sdb1 from /dev/md1
Prüfen Sie anschließend den Status des RAIDs. In diesem Beispiel hat das RAID, das für den Festplattenaustausch vorbereitet wurde, den folgenden Endzustand:
[root@host ~]# cat /proc/mdstat
Personalities : [raid1]
md3 : active raid1 sda3[0]
439553856 blocks super 1.0 [2/1] [U_]
md1 : active raid1 sda1[0]
19529600 blocks super 1.0 [2/1] [U_]
unused devices: <none>
Überprüfung der verwendeten Swap-Partitionen
Prüfen Sie, welche Swap-Partitionen vom Betriebssystem verwendet werden. Geben Sie hierzu den folgenden Befehl ein:
[root@host ~]# cat /proc/swaps
Filename Type Size Used Priority
/dev/sda2 partition 9765884 0 -1
/dev/sdb2 partition 9765884 0 -2
Alternativ können Sie durch die Eingabe folgenden Befehls prüfen, welche Swap-Partitionen in fstab definiert sind:
[root@host ~]# grep swap /etc/fstab
/dev/sda2 none swap sw
/dev/sdb2 none swap sw
Swap-Partition auf dem defekten Device deaktivieren
Deaktivieren Sie die Swap-Partition auf der defekten Festplatte, damit diese getauscht werden kann. Geben Sie hierzu den folgenden Befehl ein:
[root@host ~]# swapoff PFAD_DER_FESTPLATTE
Beispiel:
[root@host ~]# swapoff /dev/sdb2
Hinweis
Wenn die Swap-Partition auf der defekten Festplatte nicht deaktiviert wird und ein Austausch der Festplatte erfolgt, erhält die Swap-Partition in /proc/swaps den Status deleted.
Festplattenaustausch veranlassen
Nun kann der Austausch der defekten Festplatte veranlasst werden. Kontaktieren Sie hierzu bitte den IONOS Kundenservice.
Erforderliche Schritte nach dem Austausch der Festplatte
Nach dem Austausch der defekten Festplatte ist es erforderlich, dass Sie das Software-RAID wiederaufbauen. Weitere Informationen zum Wiederaufbau eines Software-RAIDs finden Sie hier:
Inhalt
- Status des Software-RAIDs prüfen
- Fehlerdiagnose und Ermittlung der notwendigen Daten für den Festplattenaustausch
- Interpretation der Parameter und Fehlerdiagnose
- Detaillierte Informationen für den Festplattenaustausch aufrufen
- SMART-Log erstellen
- Server für den Austausch der Festplatte vorbereiten
- Festplattenaustausch veranlassen
- Erforderliche Schritte nach dem Austausch der Festplatte
- Nach oben