Pannes de disques durs et données SMART
La société Backblaze - qui propose une offre de backups en ligne - a publié un nouveau billet de blog concernant la fiabilité des disques durs. Pour rappel, régulièrement la société rapporte les taux de pannes relevés en fonction des modèles.
La société utilise près de 70000 disques durs dans des conditions assez extrêmes côté densité (voir la photo au dessus !) et un type de charge très particulier. Malgré tout les statistiques proposées, du fait du volume de disques considéré, peuvent être informatives.
Cette fois ci la société s'est intéressé à la relation entre les erreurs SMART (Self Monitoring, Analysis and Reporting Technology) et les pannes . Pour rappel, SMART est un système de monitoring inclus dans les disques durs (et aussi les SSD) qui rapporte de nombreux paramètres sur l'état de fonctionnement des disques. On retrouve des données des plus anodines comme le nombre de démarrages ou d'heures de fonctionnement, et d'autres plus critiques comme le nombre d'erreurs de lecture qui n'ont pu être corrigées.
La société a identifié 5 attributs SMART qui signalent le plus souvent une panne imminente (nous indiquons entre parenthèse la valeur hexadécimale) :
- 5 (5): Nombre de secteurs réalloués
- 187 (BB) : Erreurs incorrigibles signalées
- 188 (BC) : Nombre de demandes de délais d'attente
- 197 (C5) : Nombre de secteurs en attente
- 198 (C6) : Nombre d'erreurs incorrigibles hors ligne
Notez que tous les constructeurs ne rapportent pas forcément l'intégralité de ces valeurs, vous pouvez les consulter sous Windows via un utilitaire comme CrystalDiskInfo .
Prises individuellement, la valeur de prédiction de ces données est bonne bien que limitée. Si par contre on les prend dans leur ensemble, on obtient deux statistiques plus intéressantes :
Sur leur parc entier de disques en fonctionnement, 4.2% rapportent au moins une erreur SMART sur l'une des 5 valeurs considérées.
Sur les disques étant tombé en panne, 76.7% ont indiqué une erreur SMART sur au moins l'une des 5 valeurs avant de tomber en panne.
Dans le détail, c'est l'erreur 188 qui est la plus commune dans les disques encore fonctionnels (présente dans 4.8% des cas) et à elle seule, elle ne permet pas de prévoir un danger imminent.
Plus intéressant encore, Backblaze a regardé le nombre d'erreurs constaté avant une panne :
On note que 22.9% des disques tombent en panne avec une seule erreur, une grosse majorité (57.86%) ayant au minimum deux erreurs rapportées.
Si en pratique les erreurs SMART ne sont pas parfaites (23.3% de disques tombent en panne sans erreur préalable, l'occasion de rappeler l'importance de toujours effectuer une sauvegarde de ses données importantes !), ces cinq indicateurs donnent une assez bonne idée d'un éventuel problème à surveiller.
Et l'on notera que si une erreur (particulièrement la 188) n'est pas forcément disqualifiante, la conjonction de deux erreurs est plutôt un mauvais signe !
Contenus relatifs
- [+] 27/03: Seagate MACH.2, un disque dur à 480...
- [+] 28/02: Du mouvement du côté des 2.5'' 2 To
- [+] 19/12: Seagate Multi Actuator, un "RAID 0 ...
- [+] 19/12: Toshiba MN06ACA10T, 10 To sans héli...
- [+] 19/12: 14 To et 9 plateaux pour les Toshib...
- [+] 25/10: Seagate vise 40 To en 2023 avec l'H...
- [+] 12/10: WD fait appel au MAMR pour viser 40...
- [+] 04/10: HGST atteint 14 To grâce au SMR et ...
- [+] 23/05: Les WD Red et Red Pro passent à 10 ...
- [+] 04/05: Seagate prévoit l'HAMR pour fin 201...