Posted by: FusionForge Admin
Date: 2016-08-26 11:31
Summary: [ADULLACT] incident forge - explications techniques
Project: Ergonomie Forge

Content:


Jeudi 25/08/2016 à 8H30, la machine principale de la forge est tombée.
Le système de réplication (mode bloc) s'est mis en défaut à cause d'une
panne sur le raid matériel. L'ensemble des disques de la machines
posaient problème au reboot, et il a été impossible de la relancer.

Au même moment, la machine "miroir" nous signalait un disque dur
défectueux et le RAID5 était en cours de reconstitution sur les autres
disques. Après reconstitution, toutes les partitions des données
sensibles de la forge étaient accessibles et opérationnelles. Il est
apparut quelques erreurs sur une partition système (/var) que nos
équipes ont pu corriger manuellement.

Dès cet instant, une synchronisation globale a été réalisée sur une 3eme
machine. C'est cette synchronisation qui a pris le plus de temps (~15H
de copies de fichiers via le réseau). Une fois ces copies réalisées,
nous avons pu redémarrer la forge ce vendredi 26/08 à 9H45.

Cette 3eme machine sera opérationnelle sous peu et deviendra la machine
principale.

Pour information: cette 3ème machine avait été acquise il y a peu justement pour remplacer la machine principale. La migration était prévue pour la 1ere semaine de septembre!

Remarque: après ces +25H d'arrêt, un certain nombre de processus
externes se connectant automatiquement sur la forge sont repartis, ainsi
que +26000(!) emails à destinations de la forge qui sont en cours de
traitement. Tout cela ralentit considérablement la forge qui devrait
être plus réactive dès la fin de matinée.
Monitor Forum | Start New Thread Start New Thread
Topic Topic Starter Replies Last Post
Bienvenue sur -adullact--incident-forge---explications-techniquesFusionForge Admin02016-08-26 11:31
FEDER Powered By FusionForge Collaborative Development Environment Charte d'utilisation / Nous contacter / Mentions légales Haut de page