Fin incident /tmpdir - Reprise production Mardi 13 Janvier 2026

Soumis par Nicolas renon le

Bonjour à toutes et à tous,

La maintenance due à l'incident matériel sur l'espace /tmpdir est terminée.
Vous pouvez lancer vos calculs sur le Supercalculateur Olympe.

L'espace /tmpdir est revenu à son état nominal en terme de volumétrie et de performance en écriture et lecture.
L'espace de stockage sous-jacent rentre dans sa huitième année d'usage. 
Il reste résilient à un certain nombre de pannes matérielles, mais l'incident de la semaine dernière (triple panne d'un même groupe disque),même
s'il reste extrêmement rare,  n'en demeure pas moins plus probable qu'au début de sa vie technologique.

En conséquence, nous avons une réflexion en cours avec notre partenaire EVIDEN sur les solutions techniques que nous pourrions mettre en place pour atténuer les effets des dernières pannes matérielles. Une des pistes consiste à réduire l'espace utile de 15%.   

Nous préconisons de ne pas laisser vos données plus de 30 jours sur cet espace et de copier régulièrement les données sur l'espace 'store'. 

Pour rappel, nous sommes en cours d'installation du nouveau Supercalculateur Kairos et son système de stockage associé, qui remplacera celui désuet d'Olympe.
La bascule de Olympe vers Kairos est prévue en milieu d'année. 
Nous pensons que cette bascule permettra de revenir à espace /tmpdir beaucoup plus sûr pour les données.

Nous vous tiendrons informés de l'avancement de cette installation.

Merci pour votre patience et votre compréhension.

 

Suite à l'incident matériel sur le /tmpdir nous prévoyons un arrêt de la production sur le Supercalculateur Olympe du Lundi 12 Janvier à 09h00 jusqu'au Mardi 13 Janvier 09h00.
Les jobs en cours seront arrêtés. Les frontales, l'espace NFS (HOME) ainsi que le STORE resteront accessibles.
Cet arrêt de production permettra de remettre les performances et la volumétrie utile du /tmpdir à ses valeurs nominales.

Pour rappel :
    - une triple panne matérielle (disques rotatifs) sur un même groupe de disque (10 disques).
    - le groupe de disque étant résiliant à la perte de deux disques, les données présentent sur ce groupe de disques sont perdues.

Nous sommes toujours en cours de collecte des fichiers impactés par cette panne. 
Une liste de ces fichiers sera mise à disposition à la racine de chacun des dossier HOME utilisateurs.
À l'heure actuelle la borne maximum estimée du nombre de fichiers impactés est de 8%.
Ces fichiers seront malheureusement perdus.

Une triple panne sur un groupe disque est extrêmement rare, mais elle devient plus probable avec des matériels dont la date de mise en production est 2018. 
Pour rappel nous préconisons l'usage de l'espace 'STORE' pour sécuriser vos données : https://www.calmip.univ-toulouse.fr/espace-utilisateurs/doc-technique-olympe/lespace-disque

Nous vous remercions pour votre compréhension et nous sommes désolés pour les inconvénients ou difficultés que ces pertes de données vont provoquer dans vos travaux.
Nous prévoyons la mise en production du nouveau supercalculateur Kairos, ainsi que de son système de stockage associé, pour le milieu de l’année 2026.

Historique Mercredi 7 Janvier 2025

L'accès à l'espace /tmpdir est très perturbé.

  • L'incident en cours est lié à une triple panne disque (sur 1 groupe de disques particulier) d'une des baies composant l'espace de fichier temporaire "/tmpdir".
  • Au maximum, 8% des fichiers de l'espace de fichier temporaire"tmpdir" sont impactés par la panne de ce groupe de disques. 

L'espace /tmpdir est maintenant redevenu fonctionnel.

Nous travaillons à la constitution de la liste des fichiers réellement impactés.

La commande 'ls' sur  fichier impacté donnera l'un des messages suivants :

ls: cannot access /tmpdir/user/test_freq.c: Cannot send after transport endpoint shutdown

ls: impossible d'accéder à /tmpdir/user/test_freq.c: Ne peut transmettre suite à la fermeture du noeud final de transport

La commande 'ls' sur un dossier donnera des '???' à la place des attributs des fichiers impactés :

ls -l /tmpdir/user/

....

-??????????    ? ?     ?                 ?              ? test_freq.c

Nous vous tiendrons informés des suites de cet incident matériel.

Merci de votre compréhension.