Quand le courant lâche sur « 2 Minutes to Midnight » - Christophe Rochefolle Randrianandrasana

Lundi soir, à Paris La Défense Arena, j’ai assisté à ce que nous appellerions, dans le monde de l’IT, un incident majeur de production.
Plus de 30 000 personnes, une canicule écrasante, Iron Maiden en plein « 2 Minutes to Midnight »… et d’un coup, le noir. Le son se coupe, les écrans s’éteignent, la salle bascule dans une parenthèse d’une heure qu’aucun organisateur n’a envie de vivre.

Vu des gradins, c’est un moment suspendu entre la blague et l’angoisse. Vu avec des yeux de DSI / SRE, c’est autre chose : un P0 en conditions réelles, sur une infrastructure critique, au plus mauvais moment.
Ce billet est une tentative de post‑mortem façon IT sur un concert de heavy metal, raconté depuis la salle.

Le décor : canicule, salle pleine et show filmé

Le contexte avait déjà tout d’un tableau de risques avant même la première note.
On est en plein épisode de canicule : chaleur extrême, bâtiments qui tirent à fond sur la clim, réseaux électriques sollicités partout. La plus grande salle indoor d’Europe est remplie pour un show massivement énergivore : son monumental, lumière, écrans, effets scéniques, et en prime une captation prévue pour un live.

Autre élément intéressant : le message diffusé avant le concert, incitant notamment la fosse à profiter du moment “100% live” sans sortir son téléphone. Artistiquement, l’intention est belle. Opérationnellement, c’est presque ironique : on coupe symboliquement un canal d’observation et de communication en temps réel.
En résumé, au kickoff du show, on a déjà :

une infrastruture sous forte pression thermique et électrique,
un service critique au centre (le concert),
un public massivement dépendant de la salle pour voir, entendre… et comprendre ce qui se passe.

C’est un système d’information géant, avec des humains dedans.

Le blackout : bascule instantanée en P0

Le basculement arrive comme un cut de montage.
Iron Maiden est en plein « 2 Minutes to Midnight ». La machine tourne, le son est propre, la salle chante. Et d’un coup, tout s’arrête. Silence, obscurité, écrans morts.

Dans la fraction de seconde qui suit, je regarde autour de moi et je repère un détail : certaines lumières restent allumées. Pas les jeux de scène, pas les spots, non. Les lumières de secours. Ce halo blanc et vert, fonctionnel, un peu froid, qui n’a rien de spectaculaire mais qui, tout à coup, dit tout.
À ce moment‑là, je suis presque certain qu’on vient de basculer sur un circuit de sécurité, probablement alimenté par un groupe ou une alimentation séparée. Ce n’est pas un “effet de mise en scène qui a raté”, ni une prise qu’on rebranche en deux minutes. C’est une perte de la source principale.

Traduit en langage IT :

coupure de l’alimentation principale,
arrêt immédiat de tous les services critiques (son, lumière, écrans, captation),
maintien minimal grâce à l’“éclairage de secours”, l’équivalent de ton mode dégradé hard.

En l’espace de quelques secondes, on est passé d’un système en pleine performance à un P0 total.

Le premier message : la tentation de se défausser

Les premières minutes sont celles où le narratif se construit. Dans une salle, comme dans un SI, ce narratif compte presque autant que la technique.
Le premier message qui remonte du staff évoque une “coupure de courant dans tout le quartier”. Sous‑entendu : ce n’est pas nous, c’est dehors, c’est général.

Sur le coup, ça sonne comme une tentative de se dédouaner. Comme si, plutôt que de dire “on ne sait pas encore, on enquête”, on préférait orienter la responsabilité vers l’extérieur. Le problème, c’est que la suite montrera que ce n’était pas le cas, et ce message ne sera jamais vraiment corrigé.

En termes de gestion de crise, c’est un anti‑pattern classique :

tu remplis le vide de communication avec une explication approximative,
tu la présentes comme un fait,
et quand la réalité te contredit, tu as déjà perdu une partie de la confiance.

À partir de là, toute communication ultérieure est reçue avec un léger filtre de suspicion : “la première fois, ils ont enjolivé l’histoire”.

La courbe émotionnelle : de l’espoir au “c’est mort”, puis au reboot

Dans la salle, la scène est presque didactique.
On commence par rire, à moitié : “Ils ont fait sauter les plombs”, “c’est trop metal pour le réseau”, “quel effet spécial !”. Puis le temps s’étire. Les minutes passent, sans reprise ni explication claire.

En moi, deux processus se déroulent en parallèle :

le spectateur qui espère que ça va repartir,
le professionnel qui mesure le temps qui s’allonge, et qui sait ce que ça veut dire sur la nature de la panne.

Au bout d’une trentaine, quarantaine de minutes, je bascule intérieurement : « là, c’est mort, ça ne repartira pas ». C’est exactement ce qui se produit lors d’un incident long côté utilisateurs : on passe de l’attente active à la résignation. On commence à intégrer la perte.

Et puis, progressivement, des signaux faibles apparaissent.
On voit des spots s’allumer, des lumières secondaires reprendre. On sent que quelque chose se réorganise techniquement. L’œil habitué lit ça comme un “reboot par couches” : on remonte les briques une à une, on teste, on stabilise. L’espoir revient, doucement.

C’est un monitoring à vue : chaque lumière rallumée est l’équivalent d’un service qui repasse au vert sur un dashboard.

La “reprise imminente” qui prend 30 minutes

À un moment, un message annonce une “reprise imminente”. L’excitation remonte.
Sauf que cette “imminence” dure encore une bonne demi‑heure. Et là, mes deux casquettes entrent en collision :

en tant que spectateur, ça semble interminable,
en tant que professionnel, ça paraît logique : il faut tester le son, les lumières, les écrans, vérifier que tout tient, que redémarrer ne va pas tout refaire sauter.

Le vrai problème, ce n’est pas le temps nécessaire, c’est la promesse d’“imminence”. En incident management, on l’a appris : promettre trop tôt est un piège.
J’aurais préféré une formulation plus honnête, du type :

“Nous avons une solution technique pour relancer le concert. Nous devons maintenant effectuer des tests. Nous reviendrons vers vous dans 20 à 30 minutes avec une confirmation et un horaire de reprise.”

C’est moins sexy, mais on évite de générer une impatience artificielle. La technique a ses rythmes, et le langage doit les respecter.

La chaleur : l’inertie thermique comme dette invisible

Quand le show finit par reprendre, un autre élément saute aux yeux – ou plutôt à la peau : la chaleur.
La clim semble absente, ou en tout cas largement insuffisante. Deux scénarios me viennent à l’esprit :

soit la clim a été relancée mais l’inertie thermique de la salle fait que, sur la durée restante, son effet est imperceptible,
soit elle n’a pas été remise en route, par contrainte technique ou par choix (ne pas recharger trop l’installation en phase de redémarrage).

Dans les deux cas, c’est un rappel très concret qu’un système ne revient jamais instantanément à l’état “normal” juste parce qu’on le déclare “up” : il y a des inerties, des dettes physiques, des délais incompressibles.
La salle est de nouveau fonctionnelle, mais en mode dégradé. Et cette dégradation, on la ressent dans chaque respiration.

Bruce, le couvre-feu et l’absence de “Fear of the Dark”

Quand Bruce Dickinson reprend la parole, le ton est sans filtre.
On le sent un peu remonté. Il évoque son amour pour Bercy, qu’il préfère, ne comprend pas – ou fait semblant de ne pas comprendre – le principe d’un couvre-feu si strict. Il nous parle avec le langage fleuri qui fait partie du personnage, sans surjouer la diplomatie.

Surtout, il pose clairement le cadre : il y a un couvre-feu, et on ne pourra pas dépasser 23h30. Traduction : le set devra être raccourci, certaines chansons ne seront pas jouées, point final.
Il n’y aura pas de rappel. Pas de “Fear of the Dark”. Ce qui, soyons honnête, aurait été d’une ironie parfaite après avoir passé de longues minutes dans le noir complet.

Et pourtant, malgré ce final tronqué, malgré l’absence de ce moment cathartique attendu, je rentre chez moi avec un sentiment paradoxal :

une vraie frustration sur ce qui a manqué,
mais aussi une joie sincère d’avoir enfin vu Iron Maiden en live,
et une forme d’empathie profonde pour celles et ceux qui, dans les coulisses, vont devoir se coltiner le vrai post‑mortem.

Lire cette soirée comme un post‑mortem d’incident

Si je mets la soirée dans un gabarit d’incident IT, ça donne quelque chose comme :

Type d’incident : panne d’infrastructure électrique interne, entraînant indisponibilité totale du service principal (le concert) pendant environ une heure.
Impact :
- interruption brutale en plein set,
- expérience spectateur dégradée (incertitude, chaleur, set écourté, pas de rappel),
- retentissement médiatique fort, la salle associée à “la panne d’Iron Maiden en pleine canicule”.
Contexte aggravant :
- épisode de chaleur extrême,
- show à très forte consommation énergétique,
- communication initiale maladroite (histoire de “coupure de quartier”).
Résolution :
- restauration progressive de l’alimentation,
- tests matériels nécessaires,
- reprise du service en mode contraint (couvre-feu, set raccourci).

La technique, seule, ne suffit jamais à raconter l’histoire. C’est l’enchaînement technique + communication + perception qui fait l’ampleur de l’incident.

Ce que les salles peuvent apprendre des équipes SRE

En sortant de là, je n’ai pas envie de hurler au scandale. J’ai plutôt une liste mentale de “lessons learned” qui ressemblent furieusement à ce qu’on applique déjà dans les SI.

Par exemple :

Tester vraiment la résilience
Ne pas se contenter de schémas et de promesses de redondance. Tester des bascules réelles sur les circuits de secours, des scénarios de coupure contrôlée, y compris à jauge significative.
Intégrer la canicule comme un risque majeur, pas comme une météo
Traiter la chaleur comme un facteur technique de panne à part entière. L’infrastructure électrique et climatique a des marges qui se réduisent avec la température. Ça doit être modélisé.
Industrialiser la communication de crise
Bannir les explications hâtives pour “se dédouaner”. Préparer des messages simples, honnêtes, répétés à intervalles réguliers. Mieux vaut dire “on ne sait pas encore, on investigue” que raconter une histoire fausse qui vieillira mal.
Publier un vrai post‑mortem
Même vulgarisé. Expliquer ce qui s’est passé, ce qui a été trouvé, ce qui va changer. C’est le genre de démarche qui transforme un bad buzz ponctuel en démonstration de sérieux.

Ce que les DSI peuvent apprendre d’Iron Maiden

L’inverse est tout aussi vrai : les DSI peuvent apprendre de la façon dont un groupe comme Iron Maiden gère la reprise.
Quand le concert redémarre, Bruce ne fait pas semblant. Il ne promet pas ce qu’il sait qu’il ne pourra pas livrer. Il explique la contrainte du couvre-feu, il annonce implicitement un service partiel, il assume la frustration à venir.

Combien de fois, en IT, annonçons‑nous “tout est revenu à la normale” alors que certaines fonctionnalités restent HS, que la dette technique vient de grimper d’un cran, que les équipes sont rincées ?
Il y a dans cette honnêteté un peu brute un modèle de communication qu’on sous‑estime : dire ce qui est possible, dire ce qui ne le sera pas, et tenir parole.

Sortir de la salle avec deux casquettes

En quittant la salle, je porte deux casquettes.
Celle du fan, d’abord, heureux d’avoir enfin vu Iron Maiden en live, malgré un set amputé, malgré l’absence de “Fear of the Dark”.
Et celle du professionnel, en pensant à ceux qui, dès le lendemain, devront compiler les logs, analyser les séquences, répondre aux exploitants, aux assurances, aux autorités, tout en préparant les remédiations pour la prochaine fois.

Ce soir‑là, j’ai eu la confirmation d’une intuition :

une aréna pleine, c’est un système complexe comme un autre ;
une panne en plein concert ressemble furieusement à un incident majeur sur un SI critique ;
et, au bout du bout, ce qui fait la différence, ce n’est pas que la technique tienne toujours, mais la façon dont on se prépare, dont on réagit… et dont on raconte ce qui s’est passé.

La lumière est revenue, le show a continué, différemment.
Reste à espérer que, quelque part, un vrai post‑mortem est en cours, pas pour trouver un coupable, mais pour que la prochaine fois que le courant saute, la salle et ses équipes soient encore plus prêtes – et le public, un peu mieux accompagné.

Quand le courant lâche sur « 2 Minutes to Midnight »

Le décor : canicule, salle pleine et show filmé

Le blackout : bascule instantanée en P0

Le premier message : la tentation de se défausser

La courbe émotionnelle : de l’espoir au “c’est mort”, puis au reboot

La “reprise imminente” qui prend 30 minutes

La chaleur : l’inertie thermique comme dette invisible

Bruce, le couvre-feu et l’absence de “Fear of the Dark”

Lire cette soirée comme un post‑mortem d’incident

Ce que les salles peuvent apprendre des équipes SRE

Ce que les DSI peuvent apprendre d’Iron Maiden

Sortir de la salle avec deux casquettes

Articles similaires

Laisser un commentaire Annuler la réponse

Le décor : canicule, salle pleine et show filmé

Le blackout : bascule instantanée en P0

Le premier message : la tentation de se défausser

La courbe émotionnelle : de l’espoir au “c’est mort”, puis au reboot

La “reprise imminente” qui prend 30 minutes

La chaleur : l’inertie thermique comme dette invisible

Bruce, le couvre-feu et l’absence de “Fear of the Dark”

Lire cette soirée comme un post‑mortem d’incident

Ce que les salles peuvent apprendre des équipes SRE

Ce que les DSI peuvent apprendre d’Iron Maiden

Sortir de la salle avec deux casquettes

Partager :

Articles similaires

Laisser un commentaire Annuler la réponse