Cloudflare explique enfin la cause de sapanne mondiale du 18 novembre

Le 18 novembre, Internet a connu l’un de ses plus gros ralentissements de l’année : une panne massive chez Cloudflare, un acteur central du web mondial. Cette défaillance a rendu de nombreux services inaccessibles pendant plusieurs heures, touchant des plateformes majeures comme ChatGPT, Google, Instagram, Doctissimo, X (Twitter) et des milliers d’autres sites. Contrairement aux premières inquiétudes, il ne s’agissait pas d’une cyberattaque, ni d’un DDoS. L’origine du problème est bien plus technique… et interne.

Une mauvaise configuration à l’origine du chaos

Selon Matthew Prince, CEO de Cloudflare, une modification incorrecte des autorisations
dans l’un de leurs systèmes de base de données a déclenché une réaction en chaîne.

Cette mauvaise configuration a provoqué :

  • La création d’un fichier de fonctionnalités anormalement volumineux destiné au service Bot Management
  • Le fichier était deux fois plus gros que la limite prévue
  • Tous les serveurs Cloudflare ont tenté de charger ce fichier…
  • … ce qui a fait planter un composant logiciel essentiel dans leur réseau global

    Résultat : les requêtes des internautes ne pouvaient plus être traitées, rendant massivement les sites indisponibles.

Un retour progressif… puis de nouvelles coupures

Cloudflare a expliqué un phénomène étrange observé chez les utilisateurs : Certains sites redevenaient brièvement accessibles, avant de retomber.

Pourquoi ?
Parce que le fichier problématique était régénéré toutes les 5 minutes par un cluster ClickHouse en pleine mise à jour progressive. Selon l’état du cluster au moment de la génération, le fichier pouvait être valide… ou corrompu.

Un véritable jeu de hasard technologique.

Comment Cloudflare a finalement résolu la panne

Vers 15h30, Cloudflare a réussi à stabiliser la situation en :

  1. Arrêtant la propagation du fichier défectueux
  2. Rétablissant une version saine du fichier dans la file de distribution
  3. Redémarrant le proxy principal utilisé à l’échelle mondiale

Les services touchés incluaient :

  • le CDN Cloudflare
  • les protections de sécurité
  • Email Security
  • Access
  • Workers KV
  • Turnstile
  • Le tableau de bord utilisateur

Un rappel fort : une erreur interne peut impacter tout
Internet

Cet incident souligne à quel point Cloudflare est un maillon clé de l’infrastructure mondiale du web. Une simple erreur d’autorisation dans une base de données peut provoquer un effet domino à l’échelle planétaire.

0 commentaires pour cet article

Soyez le premier à commenter cet article !

Votre adresse email ne sera pas publiée.

0 commentaire