Poster une réponse 
 
Note de cette discussion :
  • Moyenne : 0 (0 vote(s))
  • 1
  • 2
  • 3
  • 4
  • 5
Grappe RAID 5 Down
17-08-2019, 14:05:06 (Ce message a été modifié le : 17-08-2019 14:06:34 par Scavendoa2.)
Message : #1
Grappe RAID 5 Down
Hello les forumeurs,

je rencontre un soucis sur ma grappe, mais je suis pas suffisamment calé pour savoir ce qu'il se passe et la remonter tout seul. Je pense que ce n'est pas grand chose, mais vu que j'ai pas les connaissances ... J'ai envoyé un mail au support et j'ai eu en réponse la création d'un ticket, on verra ce que ça donne.

Voici un extrait du contenu du mail :

"
Ce matin, j'ai pu mettre un fichier en téléchargement depuis l'interface web puis le déplacer via le partage samba. Mais subitement, le NAS n'était plus accessible ni via samba ni par l'interface web, et n'était même plus "ping-able".
Je l'ai donc éteint "brutalement" (appui long sur le bouton power), puis rallumé.

Suite à cela, le NAS est de nouveau accessible en SSH et via l'interface web, mais la grappe RAID5 est KO. Lors du reboot du serveur, je n'ai reçu au mail indiquant qu'il y avait un problème sur un des disques comme cela le fait quand un disque déconne où est "mort", donc je pense qu'ils sont encore OK. Lorsque je cherche à remonter la grappe via l'interface, je reçois un message d'erreur (une modification est en cours sur les disques données utilisateurs) et j'ai l'impression qu'il ne se passe pas grand chose.

voici le résultat de quelques commandes :

admin@VHS:/$ cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md3 : inactive sde3[6] sdh3[8] sdi3[9] sdc3[7] sdg3[4] sdb3[3] sdf3[2]
27311456144 blocks super 1.0

md0 : active raid1 sdb2[1] sdh2[6] sdi2[7] sdf2[5] sdg2[4] sde2[3] sdc2[2]
4883776 blocks super 1.0 [7/7] [UUUUUUU]

unused devices: <none>

root@VHS:/# mdadm --detail /dev/md3
/dev/md3:
Version : 1.0
Creation Time : Thu Dec 14 09:16:53 2017
Raid Level : raid5
Used Dev Size : -1
Raid Devices : 8
Total Devices : 7
Persistence : Superblock is persistent

Update Time : Sat Aug 17 11:30:38 2019
State : active, degraded, Not Started
Active Devices : 7
Working Devices : 7
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 512K

Name : VHS:3 (local to host VHS)
UUID : 55016f96:404db075:207b18d7:073d4851
Events : 35688

Number Major Minor RaidDevice State
0 0 0 0 removed
6 8 67 1 active sync /dev/sde3
2 8 83 2 active sync /dev/sdf3
3 8 19 3 active sync /dev/sdb3
4 8 99 4 active sync /dev/sdg3
7 8 35 5 active sync /dev/sdc3
9 8 131 6 active sync /dev/sdi3
8 8 115 7 active sync /dev/sdh3


admin@VHS:/$ cat /proc/sys/dev/raid/speed_limit_max
200000

==> je pense que cette valeur mériterait d'être augmentée, non ?


Bref, je n'ai plus accès à mes données, et j'ai pas vraiment de connaissance linux / mdadm suffisamment solides pour être autonome et remettre ça d'aplomb. J'aurai bien besoin d'un coup demain, et un petit mode-op ou walkthrough, afin de pouvoir me débrouiller tout seul pour les prochaines fois, serait pas de refus !

"


A vous les barbus !


Pièce(s) jointe(s) Image(s)
   

VHS-8 LS - Firmware: 6.1.4
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
17-08-2019, 19:27:06
Message : #2
RE: Grappe RAID 5 Down
Bonsoir M'Sieur,

Pareil, pas compétent Undecided
J'en connais au moins deux ici qu'on eu des soucis et ont fait des manip: ici - peut-être le plus proche de ton cas - et - un truc bien tordu avec d'autres pépins en cascade.

Bizarre ou bien je suis bigleux: tu as 8 disques, la grappe n'en compte que 7 avec 1 "removed": l'est où le sda Huh

Et le raid système md0 ça semble pas le perturber...
Pour ma curiosité, peux-tu donner ce que te retourne:
Code :
mdadm --detail /dev/md0

@+, bon courage

VHS-4 VX "sesame"
* Intel® Core i7 4770s @ 3.9 GHz | 16 Go DDR3
* 4x4To WD40EFRX - RAID 5 | OS VHT v 6.1.4
[Image: wiki:favicon-32.png]Le wiki
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
17-08-2019, 20:51:50 (Ce message a été modifié le : 19-08-2019 10:22:49 par Scavendoa2.)
Message : #3
RE: Grappe RAID 5 Down
(17-08-2019 19:27:06)Cram28 a écrit :  Bonsoir M'Sieur,

Pareil, pas compétent Undecided
J'en connais au moins deux ici qu'on eu des soucis et ont fait des manip: ici - peut-être le plus proche de ton cas - et - un truc bien tordu avec d'autres pépins en cascade.

Bizarre ou bien je suis bigleux: tu as 8 disques, la grappe n'en compte que 7 avec 1 "removed": l'est où le sda Huh

Et le raid système md0 ça semble pas le perturber...

Merci pour les liens, je vais regarder ça.
Oui, normalement, j'ai 8 disques, mais effectivement, à priori la grappe en compte que 7. Je sais pas trop ce qu'il se passe.

Ce que j'ai vu par contre, c'est que au premier reboot, dans l'interface, tous les disques étaient au vert sauf le 1 qui était en gris. J'ai coché sa case et j'ai apply. Il s'est pas passé grand chose, du coup j'ai refresh l'interface, et cette fois ci c'était le 7 et le 8 qui était en gris et le 1 en vert. Va comprendre ...

(17-08-2019 19:27:06)Cram28 a écrit :  Pour ma curiosité, peux-tu donner ce que te retourne:
Code :
mdadm --detail /dev/md0

@+, bon courage

Voila voila :

root@VHS:/# mdadm --detail /dev/md0
/dev/md0:
Version : 1.0
Creation Time : Thu Jan 25 15:03:39 2018
Raid Level : raid1
Array Size : 4883776 (4.66 GiB 5.00 GB)
Used Dev Size : 4883776 (4.66 GiB 5.00 GB)
Raid Devices : 7
Total Devices : 7
Persistence : Superblock is persistent

Update Time : Sat Aug 17 20:40:14 2019
State : active
Active Devices : 7
Working Devices : 7
Failed Devices : 0
Spare Devices : 0

Name : VHS:0 (local to host VHS)
UUID : 06551948:49f75fd8:79f601ae:4c99c4dc
Events : 456

Number Major Minor RaidDevice State
1 8 18 0 active sync /dev/sdb2
2 8 34 1 active sync /dev/sdc2
3 8 66 2 active sync /dev/sde2
4 8 98 3 active sync /dev/sdg2
5 8 82 4 active sync /dev/sdf2
7 8 130 5 active sync /dev/sdi2
6 8 114 6 active sync /dev/sdh2


Ce NAS m'a fait trop de frayeurs, si j'avais pas eu le support qui m'a dépanné à chaque fois, j'aurai perdu mes données au moins 4/5 fois depuis que j'ai acheté le NAS (en 2014 ...), ce qui fait approximativement une fois par an. Pour quelque-chose qui est sensé être stable, ça fait beaucoup ...

Et vu les infos qu'on glane ça et là sur la santé de la boite et leur niveau de communication depuis plusieurs années, je vais changer de crèmerie d'ici quelques semaines pour un truc qui a un peu plus pignon sur rue. J'hésitais entre plusieurs modèles mais je pense que je vais partir sur un QNAP TS-673 avec 4*10To

Si d'autres barbus passent dans le coin et se sentent les épaules pour m'aider, je prends toujours Smile

VHS-8 LS - Firmware: 6.1.4
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
18-08-2019, 11:59:21
Message : #4
RE: Grappe RAID 5 Down
Hello,

Pour peut-être essayer de faire avancer le schmilblick...
- que retourne la commande :
Code :
lsblk

- que donnent les états SMART, en particulier sur le premier disque qui a "disparu" de la grappe:
Code :
sudo smartctl -s on -a /dev/sda

(un barbu qui viendrait aurait plus d'infos... Wink)

VHS-4 VX "sesame"
* Intel® Core i7 4770s @ 3.9 GHz | 16 Go DDR3
* 4x4To WD40EFRX - RAID 5 | OS VHT v 6.1.4
[Image: wiki:favicon-32.png]Le wiki
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
18-08-2019, 19:34:40 (Ce message a été modifié le : 19-08-2019 10:21:40 par Scavendoa2.)
Message : #5
RE: Grappe RAID 5 Down
root@VHS:/# lsblk
Code :
NAME    MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sda       8:0    0   3.7T  0 disk  
├─sda1    8:1    0 486.4M  0 part  
├─sda2    8:2    0   4.7G  0 part  
└─sda3    8:3    0   3.6T  0 part  
sdb       8:16   0   3.7T  0 disk  
├─sdb1    8:17   0 486.4M  0 part  [SWAP]
├─sdb2    8:18   0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sdb3    8:19   0   3.6T  0 part  
sdc       8:32   0   3.7T  0 disk  
├─sdc1    8:33   0 486.4M  0 part  [SWAP]
├─sdc2    8:34   0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sdc3    8:35   0   3.6T  0 part  
sdd       8:48   1   3.8G  0 disk  
└─sdd1    8:49   1   3.8G  0 part  /root/key
sde       8:64   0   3.7T  0 disk  
├─sde1    8:65   0 486.4M  0 part  [SWAP]
├─sde2    8:66   0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sde3    8:67   0   3.6T  0 part  
sdf       8:80   0   3.7T  0 disk  
├─sdf1    8:81   0 486.4M  0 part  [SWAP]
├─sdf2    8:82   0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sdf3    8:83   0   3.6T  0 part  
sdg       8:96   0   3.7T  0 disk  
├─sdg1    8:97   0 486.4M  0 part  [SWAP]
├─sdg2    8:98   0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sdg3    8:99   0   3.6T  0 part  
sdh       8:112  0   3.7T  0 disk  
├─sdh1    8:113  0 486.4M  0 part  [SWAP]
├─sdh2    8:114  0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sdh3    8:115  0   3.6T  0 part  
sdi       8:128  0   3.7T  0 disk  
├─sdi1    8:129  0 486.4M  0 part  [SWAP]
├─sdi2    8:130  0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sdi3    8:131  0   3.6T  0 part

root@VHS:/# smartctl -s on -a /dev/sda
Code :
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.16.0-31-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD40EFRX-68N32N0
Serial Number:    WD-WCC7K0FU1T2L
LU WWN Device Id: 5 0014ee 20e9618ba
Firmware Version: 82.00A82
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 (unknown minor revision code: 0x006d)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Aug 18 19:33:20 2019 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:         (44520) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 472) minutes.
Conveyance self-test routine
recommended polling time:      (   5) minutes.
SCT capabilities:            (0x303d)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   161   160   021    Pre-fail  Always       -       6908
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       18
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   076   076   000    Old_age   Always       -       17832
10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       18
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       43
194 Temperature_Celsius     0x0022   120   111   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

voila pour les deux commandes

VHS-8 LS - Firmware: 6.1.4
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
18-08-2019, 21:27:17
Message : #6
RE: Grappe RAID 5 Down
Bonsoir,

Merci pour les infos.
J'meuh permets quelques commentaires, avec, à titre de comparaison, le résultat chez moi (RAID 5 aussi, mais 4x4To) :
Code :
admin@sesame:~$ lsblk
NAME    MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sda       8:0    0   3.7T  0 disk  
├─sda1    8:1    0 485.4M  0 part  [SWAP]
├─sda2    8:2    0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sda3    8:3    0   3.6T  0 part  
  └─md3   9:3    0  10.9T  0 raid5 /mnt/data
sdb       8:16   0   3.7T  0 disk  
├─sdb1    8:17   0 485.4M  0 part  [SWAP]
├─sdb2    8:18   0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sdb3    8:19   0   3.6T  0 part  
  └─md3   9:3    0  10.9T  0 raid5 /mnt/data
sdc       8:32   0   3.7T  0 disk  
├─sdc1    8:33   0 486.4M  0 part  [SWAP]
├─sdc2    8:34   0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sdc3    8:35   0   3.6T  0 part  
  └─md3   9:3    0  10.9T  0 raid5 /mnt/data
sdd       8:48   0   3.7T  0 disk  
├─sdd1    8:49   0 486.4M  0 part  [SWAP]
├─sdd2    8:50   0   4.7G  0 part  
│ └─md0   9:0    0   4.7G  0 raid1 /
└─sdd3    8:51   0   3.6T  0 part  
  └─md3   9:3    0  10.9T  0 raid5 /mnt/data
sde       8:64   1   7.3G  0 disk  
└─sde1    8:65   1   7.3G  0 part  
admin@sesame:~$

Sur nos NAS, les partitions sur tous les disques sont construites selon:
  • sdx1 => Swap
  • sdx2 => RAID 1 "md0" réservé au système, monté sur "/" à la racine
  • sdx3 => RAID 5 "md3" réservé au données, monté sur "/mnt/data"
Je note que n'apparaît pas chez toi:
- sur auncun disque le raid "md3" monté sur "/mnt/data" => Ca pourrait expliquer ?
- sur sda, en plus n'apparaît pas le système "md0" ?
- ta clé usb système est référencée sur sdd 3.8G (sde et 7.3G chez moi): j'imagine que c'est "historique" et que tu as commencé ton raid sur cette machine avec 3 disques, les suivants ayant pris les lettres disponibles à suivre.

L'état SMART part contre, je ne sais pas interpréter, même un peu remis en forme:
Code :
ID#     ATTRIBUTE_NAME          FLAG    VALUE  WORST THRESH    TYPE       UPDATED WHEN_FAILED  RAW_VALUE
1    Raw_Read_Error_Rate     0x002f  200    200   051          Pre-fail    Always   -          0
3    Spin_Up_Time            0x0027  161    160   021          Pre-fail    Always   -          6908
4    Start_Stop_Count        0x0032  100    100   000          Old_age     Always   -          18
5    Reallocated_Sector_Ct   0x0033  200    200   140          Pre-fail    Always   -          0
7    Seek_Error_Rate         0x002e  200    200   000          Old_age     Always   -          0
9    Power_On_Hours          0x0032  076    076   000          Old_age     Always   -          17832
10   Spin_Retry_Count        0x0032  100    253   000          Old_age     Always   -          0
11   Calibration_Retry_Count 0x0032  100    253   000          Old_age     Always   -          0
12   Power_Cycle_Count       0x0032  100    100   000          Old_age     Always   -          18
192  Power-Off_Retract_Count 0x0032  200    200   000          Old_age     Always   -          6
193  Load_Cycle_Count        0x0032  200    200   000          Old_age     Always   -          43
194  Temperature_Celsius     0x0022  120    111   000          Old_age     Always   -          30
196  Reallocated_Event_Count 0x0032  200    200   000          Old_age     Always   -          0
197  Current_Pending_Sector  0x0032  200    200   000          Old_age     Always   -          0
198  Offline_Uncorrectable   0x0030  100    253   000          Old_age     Offline  -          0
199  UDMA_CRC_Error_Count    0x0032  200    200   000          Old_age     Always   -          0
200  Multi_Zone_Error_Rate   0x0008  100    253   000          Old_age     Offline  -          0

Tu as peut-être des infos plus riches via le portail dans "Surveillance du serveur / picto disques / onglet SMART", y compris pour les autres disques.
(enfin, il pourrait y avoir des couleurs, mais faut savoir en faire quelque chose...)

Bon, pour alimenter des recherches...
@+

VHS-4 VX "sesame"
* Intel® Core i7 4770s @ 3.9 GHz | 16 Go DDR3
* 4x4To WD40EFRX - RAID 5 | OS VHT v 6.1.4
[Image: wiki:favicon-32.png]Le wiki
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
19-08-2019, 10:36:19 (Ce message a été modifié le : 19-08-2019 10:43:15 par Scavendoa2.)
Message : #7
RE: Grappe RAID 5 Down
Le soucis, c'est que j'ai pas accès à grand chose dans l'interface oueb. Elle est en mode dégradée (c'est pas la première fois que ça arrive). Du coup, j'ai pas accès au module qui donne les infos smart de chaque disque.
Ci-joint un screenshot de ce à quoi j'ai accès (à peu près rien)

J'ai pris un mail ce matin du NAS m'indiquant que ma grappe était arrêtée, donc je pense que le support doit être en train d'intervenir, et que c'est pour ça que tous les disques sont passés en rouge (si c'est le cas, ils sont hyper réactifs dis donc !)

Effectivement, je crois que j'ai démarré avec 3 disques à l'origine. Ensuite concernant le reste, comme je t'ai dit, le support est intervenu 4 à 5 fois, dont une fois avec un retour chez eux car la carte controller qui s'occupait d'ajouter des slots SATA en plus était morte et passait son temps à jeter mes disques (qui étaient bons) hors de la grappe (on a mis du temps à le comprendre). Donc je sais pas trop ce qu'ils ont bidouillé au niveau des disques, l'essentiel pour moi était que ça marche(ait)

La dernière fois que j'ai regardé le SMART de chaque disque, dans l'ensemble ça allait, certains commençaient à avoir quelques heures de vols, mais en dehors de ça RAS.

Un de ces 4, va vraiment falloir que je me documente sur les partitions et la gestion des disques en ligne de commande sur linux ...

Merci en tout cas, je vous (te) tiens au courant des avancements s'il y en a !

Edit : je viens de prendre un long mail de compte rendu, c'est cool ! je le poste dans le prochain message
Bonjour,

Nous nous sommes connecté à votre serveur pour effectuer un diagnostic.

Puisque vous voulez des détails voici au fil de l'eau ce que nous avons fait et notre cheminement:

Vous avez 8 disques de 4To (commande lsscsi)

la commande cat/proc/mdstat vous indique que la grappe RAID est inactive et qu'il manque un disque (le disque sda)

la commande mdadm --examine /dev/sda3 indique que la dernière synchro du disque avec la grappe RAID est le 17 Aout à 11h26mn46s la même commande sur les autres disques indique que la dernière fois que la grappe RAID était fonctionnelle était le 17 Aout à 11H30mn38s

La commande /opt/vht/bin/storage/hddDevToChassisNum.sh /dev/sda vous indique qu'il s'agit du disque à l'emplacement 1.

Normalement une grappe RAID 5 fonctionne avec un disque de moins. Ici ce n'est pas le cas. cela signifie que la grappe est dégradée et "sale" ou qu'il y a un autre disque en erreur.
la commande mdadm --run /dev/md3 doit vous retourner la raison

Malheureusement dans votre cas la commande mdadm --run renvoie input/output error ce qui signifie que l'un des 7 disques à peut être des erreurs.

Vous devez alors exécuter la commande smartctl -a /dev/sdx sur chaque disque pour voir le tabelau SMART des disques.

Ici il n'y a pas d'erreur sur les disques sauf que les disques b et c ne renvoient pas le tableau smart ce qui n'est pas bon.

la commadne mdadm --examine sur les disques sdb3 et sdc3 indique qu'il n'y a pas de superblock cela ressemble à deux disques qui ont de sérieux problèmes.

La commande cat /proc/mdstat vous indique que ces disques dont une partition se trouve également en RAID 1 dans le RAID système sont déclaré failed (F) ce qui confirme un problème avec ces deux disques.

Une rapide vérification avec la commande dd if=/dev/sdb3 of=/dev/null bs=4096 count=1000 indique que le disque 2 est ilisible. idem pour le disque 3.

Ici il est temps de dire Houston we have a problem...

Pour résumer: vous avez une grappe RAID 5 dont un disque est éjecté à 11h26 puis 4 minutes plus tard deux autres disques ne répondent plus.

C'est potentiellement dramatique mais trop étrange.

Que c'est-il passé à 11H30 pour que deux disques tombent en panne en même temps ?

Il convient de déterminer si le problème provient des disques ou du serveur.

Première étape on a rebooté le serveur afin de voir si la situation est toujours la même après reboot.

Au redémarrage les deux disques sont toujours détectés par le serveur; c'est une bonne chose.
Encore mieux, les deux disques répondent à la commande smartctl -a /dev/sdb et c respectivement

ce qui nous permet de voir que le disque 2 à 11 erreurs en ligne 1 et 24 pour le disque 3. Pas d'autres erreurs.

On verifie dans le même tableau la température des disques -> 31°c -> normal.

On revérifie que les disque sont lisibles: Le disque 3 est lisible mais très lent (lecture à moins de 1Mo/s le disque 2 semble normal (113Mo/s)


A ce stade on peut supposer qu'à 11H26 il s'est passé un problème entre le disque 1 et le serveur. Le plus probabale est une défaillance du disque 1 qui a entrâiné un plantage du contrôleur sata car le disque 2 et 3 qui est sur le même controleur ne répondait plus non plus. Le disque 1 à pu planter le contrôleur qui a à son tours planté le disque 2 et 3 ou toute autre combinaisons liant ces quatre éléments.

Dans tous les cas il semble que nous ayons 7 disques fonctionel (les disques 2 et 3 ou 1 et 2) dont 1 qui est très légèrement désynchronisé. On peut tenter de forcer le démarrage de la grappe RAID avec ces 7 disques. Donc on arrête la grappe RAID md3 incative avec mdadm --stop /dev/md3 et on la relance avec mdadm --assemble --force --run /dev/md3 /dev/sd[abdefgh]3

Et là impossible d'accéder aux disques 1 (sda)

En plus les disques 2 et 3 sont maintenant lents et finissent par ne plus répondre.

Soit le disque 1 (soit le 2 ou le 3) fait planter le serveur soit le contrôleur SATA du serveur à un soucis.

Pour continuer, pourriez-vous retirer physiquement le disque 1 du serveur afin de savoir si l'on retrouve un fonctionnement normal sur les disques 2 et 3?

Ve-hotech Support Team

François Dupuis
Ve-hotech

Ve-hotech
La Cité de l'objet connecté
7 rue du Bon Puits
49480 Saint-Sylvain-d'Anjou
e-mail: support@ve-hotech.com Web: fr.ve-hotech.com


Pièce(s) jointe(s) Image(s)
   

VHS-8 LS - Firmware: 6.1.4
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
19-08-2019, 12:39:05
Message : #8
RE: Grappe RAID 5 Down
Un p'tit rapide pour dire "Génial !!!!"

Des explications dont je rêve depuis ... que je suis tout petit (si,si Smile)

Heu pardon... mon côté "vautour" qui ressort, à profiter de la misère des autres ...Blush

Pis d'abord, tout le monde va apprendre hein, avec des échanges de cette qualité et ce niveau de détail avec le Support.
Si t'en a d'autres, tu nous les pousses ?Angel

@suivre, avec beaucoup d'attention !
Merci.

VHS-4 VX "sesame"
* Intel® Core i7 4770s @ 3.9 GHz | 16 Go DDR3
* 4x4To WD40EFRX - RAID 5 | OS VHT v 6.1.4
[Image: wiki:favicon-32.png]Le wiki
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
19-08-2019, 14:04:51
Message : #9
RE: Grappe RAID 5 Down
Hello,

oui, franchement c'est super pro de leur part.

C'est à n'y rien comprendre. Ils ont un niveau de "com" proche du néant, on ne sait pas trop où en est la boite. Et pourtant ils ont des (un ?) expert qui font(fait) un taf en or.

Si on manquait pas autant d'info, j'aurai envie de continuer avec eux plutôt que de songer à m'orienter vers la concurrence. Mais leur boutique en ligne est tellement à l'abandon, ça fait peur ....

je vous tiens au jus des prochains échanges !

VHS-8 LS - Firmware: 6.1.4
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
20-08-2019, 14:59:45 (Ce message a été modifié le : 20-08-2019 15:44:48 par Scavendoa2.)
Message : #10
RE: Grappe RAID 5 Down
Par le support
Equipe support a écrit :Bonjour,

Nous avons relancé la grappe RAID et le serveur avec les disques 2 à 8 et cela semble fonctionner normalement. Nous n'avons plus d'erreur sur le contrôleur de disque. Il semble donc que le problème provienne du disque mais le seul moyen d'en être complètement certai serait de placer le disque 2 par exemple en position 1 (effectuez le déplacement serveur éteint) et voir si des erreurs se produisent. Ou de remplacer le disque 1 par un neuf et le synchroniser avec les autres et voir si des erreurs se produisent. vouspouvez également essayer de faire un formatage bas niveau du disque 1 sur un autre PC et voir s'il se produit des erreurs.

J'ai regarder l'historique du serveur et effectivement le contrôleur SATA additionnel avait été changé. Ce contrôleur s'occupe des disques en positions 5 à 8. Les positions 1 à 4 étant gérés directement par la carte mère. Je n'ai pas encore observé d'erreurs ou de problème sur les disques en positon 5 à 8 donc je ne pense pas qu'il puisse y avoir un lien. Enfin, des problèmes sur le contrôleur sata de la carte mère n'ont encore jamais été rencontré donc le plus probabale reste un soucis sur le disque. De même il est peu probable que cela soit un problème de contact dans le fond de panier ou de câble. Généralement ce type de défaut ne produit pas ce type d'erreur.

Voila voila. J'avais un disque de secours neuf au cas ou, donc je viens de l'intégrer à la grappe, qui vient de débuter sa re-synchro tranquillement (normalement)
Le disque est de mars 2017 à peine ...
Bon, bah les réjouissances ont été de courte durée, la synchro s'est viandée ...

Je dois être maudit.

VHS-8 LS - Firmware: 6.1.4
Trouver tous les messages de cet utilisateur
Citer ce message dans une réponse
Poster une réponse 


Aller à :




Contact | Ve-hotech | Retourner en haut | Retourner au contenu | Version bas-débit (Archivé) | Syndication RSS