Une Panne Mondiale : L’Impact d’une Mise à Jour Défectueuse
Dans la nuit de vendredi, peu avant 1h00, un administrateur système d’une entreprise de services funéraires sur la côte ouest s’est réveillé en sursaut, remarquant que son écran d’ordinateur brillait. En consultant son téléphone professionnel, il a découvert une avalanche de messages de ses collègues, signalant un problème de réseau. L’ensemble de leur infrastructure était hors service, menaçant de perturber les funérailles et les inhumations.
Il est rapidement apparu que cette interruption massive était due à une panne chez CrowdStrike. La société de sécurité a provoqué un chaos mondial en diffusant un logiciel défectueux pour sa plateforme de surveillance Falcon, affectant des compagnies aériennes, des hôpitaux et d’autres entreprises, qu’elles soient grandes ou petites.
Une Réaction Urgente
L’administrateur, qui a souhaité garder l’anonymat en raison de son statut, s’est immédiatement mis au travail. Il a passé près de 20 heures à parcourir les différents lieux de l’entreprise, réinitialisant manuellement des dizaines d’ordinateurs pour résoudre le problème. La situation était critique, explique-t-il, car il était impératif que les ordinateurs soient opérationnels pour éviter des perturbations dans la planification des services funéraires et la communication avec les hôpitaux.
« Face à une panne aussi étendue que celle causée par CrowdStrike, il était essentiel de s’assurer que notre entreprise puisse fonctionner afin d’accompagner les familles dans ces moments difficiles », déclare l’administrateur. « Les gens sont en deuil. »
Des Conséquences Mondiales
La mise à jour défectueuse de CrowdStrike a rendu environ 8,5 millions d’ordinateurs Windows inopérants à travers le monde, les plongeant dans le redouté écran bleu de la mort (BSOD). « La confiance que nous avions bâtie au fil des ans a été anéantie en quelques heures, et c’était un coup dur », a écrit Shawn Henry, responsable de la sécurité chez CrowdStrike, sur LinkedIn. « Mais cela ne se compare pas à la douleur que nous avons infligée à nos clients et partenaires. Nous avons déçu ceux que nous nous étions engagés à protéger. »
Un Défi Inédit pour les Professionnels de l’IT
Les pannes de plateformes cloud et d’autres problèmes logiciels, y compris les cyberattaques malveillantes, ont déjà causé des interruptions majeures dans le secteur informatique. Cependant, l’incident de la semaine dernière était particulièrement remarquable pour deux raisons. Premièrement, il était le résultat d’une erreur dans un logiciel censé protéger les réseaux, et non de les nuire. Deuxièmement, la résolution du problème nécessitait un accès physique à chaque machine affectée ; il fallait redémarrer manuellement chaque ordinateur en mode sans échec de Windows et appliquer la solution.
Le secteur informatique est souvent perçu comme ingrat, mais la débâcle de CrowdStrike a constitué un test sans précédent. Certains professionnels de l’IT ont dû coordonner des employés à distance ou dans plusieurs sites à l’étranger, les guidant à travers des réinitialisations manuelles. Un administrateur système junior basé en Indonésie pour une marque de mode a dû surmonter des barrières linguistiques pour y parvenir. « C’était intimidant », confie-t-il.
Des Défis Accrus dans le Secteur de la Santé
Un administrateur système d’une organisation de santé dans le Maryland a été réveillé peu avant 1h00 EDT. Les écrans des sites physiques de l’organisation étaient devenus bleus et non réactifs. Leur équipe a passé plusieurs heures à remettre les serveurs en ligne, puis a dû se lancer dans la réparation manuelle de plus de 5 000 autres appareils au sein de l’entreprise. La panne a bloqué les appels vers l’hôpital et perturbé le système de distribution des médicaments, obligeant le personnel à tout noter à la main et à se rendre à la pharmacie à pied.
La situation a été compliquée par des pénuries de personnel. Selon l’administrateur, le personnel technique du système de santé a été réduit ces dernières années, ce qui a contraint les employés restants à travailler 12 à 14 heures par jour. « Nous tenons tous à la communauté que nous servons, mais il est vraiment difficile de le faire sans suffisamment de personnel », explique l’administrateur du Maryland.
Des Répercussions Élargies
Un responsable de la sécurité de l’information d’un grand système de santé dans le Midwest américain a souligné que dans le secteur de la santé, il n’est pas rare que les budgets soient si serrés que les organisations doivent choisir entre embaucher du personnel clinique ou du soutien informatique.
Pour compliquer encore les choses, de nombreux ordinateurs affectés étaient protégés par la fonctionnalité de sécurité BitLocker de Windows. « Si vous utilisez BitLocker, sautez d’un pont », a plaisanté un compte bien connu d’analyse de logiciels malveillants sur X. Dans cet état défectueux, les utilisateurs ne pouvaient pas entrer les clés BitLocker nécessaires pour déverrouiller les appareils et appliquer la solution sans recourir à des solutions de contournement complexes. Microsoft a publié un outil de récupération le samedi pour résoudre le problème.
Le CISO du Midwest a déclaré que même si son organisation n’était pas cliente de CrowdStrike, son équipe a dû traiter manuellement des problèmes sur environ 120 ordinateurs utilisant le logiciel affecté. Cependant, les plus grandes perturbations provenaient de partenaires et d’autres tiers directement touchés par les pannes.
Un Retour à la Normalité, mais des Questions Persistantes
« L’éligibilité Medicaid était en panne, l’éligibilité de la Sécurité sociale était en panne. Les villes avec lesquelles nous travaillons étaient également touchées. J’ai parlé à des personnes d’autres systèmes de santé, et cela a pris tout le monde par surprise, au point que tout le monde était mobilisé. Des personnes non techniques couraient avec des clés USB pour effectuer les réparations dans certains des plus grands hôpitaux américains », raconte-t-il.
CrowdStrike a annoncé lundi qu’un « nombre significatif » des 8,5 millions d’appareils touchés « sont de nouveau en ligne et opérationnels ». Les professionnels de l’IT rapportent que, après plusieurs jours éprouvants, la majorité des systèmes de leurs organisations ont été restaurés. Cependant, il faudra du temps pour atteindre chaque machine, partout. Cette situation soulève des questions plus profondes sur la conception des logiciels de surveillance et les interconnexions des systèmes numériques d’aujourd’hui.
« Tout cela peut être causé par un seul fournisseur d’infrastructure comme CrowdStrike », souligne le CISO du secteur de la santé. « Ce qui s’est passé, c’est que les entreprises mettent l’accent sur la mise en production sans former le personnel sur les procédures à suivre en cas de panne. »
Il conclut en disant que le système de santé pour lequel il travaille est revenu à la normale, mais que tous ses partenaires ne le sont pas. « Si j’étais client de CrowdStrike, la première chose qui m’inquiéterait serait de savoir si cette entreprise va continuer à exister dans sa forme actuelle après cela. »