Check disk health

,

:uk:/:us:

After two recent disk failures, is there a way to monitor the status of the disks? Something like https://www.simplified.guide/linux/disk-health-check that we would run in cron? Do you have any best practices or feedback on the subject?


:fr:

Bonjour,

Suite à deux pannes de disques récentes, existe-il un moyen de surveiller l’état des disques? Quelque chose comme https://www.simplified.guide/linux/disk-health-check qu’on lancerait en cron ? Avez vous des bonnes pratiques ou des retours d’expérience sur le sujet?

1 Like

Normalement, s’il y a un souci tu reçois un mail sur l’adresse principale de l’admin yunohost.

Sinon tu peux utiliser ces commandes :

sudo smartctl -t short /dev/sda

sudo smartctl -H /dev/sda

sudo smartctl -a /dev/sda

À part ça, je n’ai pas trouvé une interface graphique (peut être netdata, mais il y a tellement de données qui sont recueillies

  1. If your data is really critical, you should have an daily offisite backup or use a RAID1. Maybe using borg or restic.

  2. Monitoring Hard Drive Health on Linux with smartmontools – Random Bits
    using smartd to automatically run tests on your drives – Dan Langille's Other Diary
    Smartmon tools (smartctl and smartd) can sometimes help you be notified before any really bad failure occurs.

Je reçois les mails de la fonction de diagnostics mais elle ne vérifie pas la santé du disque. Je me suis retrouvé avec plein de fichiers illisibles. Ce qui m’a alerté c’est le plantage systématique lors de la sauvegarde nocturne.

C’est pour ça que j’envisage d’utiliser une commande en cron comme celles que tu cites, pour recevoir l’état de la commande smartctl par mail par exemple.

The data is not that critical. Anyway when the server is down and you don’t have a spare disk, it’s not fun. If I can have an alert before there are too many disk errors I can anticipate and buy/prepare a new disk.

1 Like

J’ai reçu ce mail à l’adresse root@domain quelques jours avant le désastre


Vérifies que l’alias root@ existe dans le profil de l’admin

Oui l’alias existe. Je reçois d’autres messages dessus dont les jobs cron et les diagnostiques. Ce message est exactement celui que j’aurais aimé recevoir. Ou alors mon disque ne supportait pas smartctl ? Je vais creuser cet aspect là.

@jarod5001 Est-ce que tu as activé les tests toi même ou bien c’était fourni avec Yunohost? Parce que sur Raspbian Smartmontools n’est pas installé par défaut.
apt-get install smartmontools

Après installation je dois ajouter -d sat pour qu’il reconnaisse mon disque USB mais c’est bon. Maintenant il faut que je lise plus en détail cette documentation pour tout configurer.

1 Like

Sincèrement je ne me rappelle plus.
J’ai découvert yunohost il y a quelques mois et c’était mes premiers pas dans le monde Linux. J’ai donc essayé un tas de trucs. J’ai fait beaucoup de recherches et j’ai beaucoup lu sur Linux et je ne suis que débutant.
J’avais installé netdata et phpsysinfo. Il est possible que l’un des deux l’avait installé. En fait, dans la documentation de netdata, il y a une page qui parle de hdd smart mais je n’ai pas trouvé dans l’appli installé. Je me suis dit que j’avais peut-être mal fait quelques choses.

Yunohost ne gère pas encore les tests smartmontools, c’est sur la roadmap par contre.

NB: les données smart et test smart ne sont pas fiables à 100% (il me semble qu’au moins 30% des pannes ne sont pas détectées, faut faire une recherche pour retrouver les sources de cette info) Donc la vrai solution, c’est de sauvegarder.

Concernant le raid, il faut savoir qu’un raid peut recopier les erreurs d’un disque défectueux…

Mais on est d’accord qu’un raid1, avec des ssd de lot/marque distinct, fiabilise en général les choses si on monitore la santé des disques. (oui parce que sinon, il y a de forte chance que la panne du premier disque ne soit pas détectée que lors de la panne du second)

1 Like

@ljf Oui j’ai des sauvegardes quotidiennes. Mais s’il y a moyen d’être prévenu avant la panne totale c’est mieux pour anticiper, s’organiser, acheter un nouveau disque etc.

Et puis sur l’une des pannes, les erreurs disque avaient lieu sur des fichiers système (erreurs i/o pas explicites dans les logs) et j’ai passé énormément de temps à comprendre l’origine du problème, à suivre des fausses pistes etc.

J’imagine c’est toujours compliqué ces choses là…