Coinbase analyse la panne de mai : une défaillance en cascade d'AWS révèle des risques architecturaux
Coinbase a publié un rapport rétrospectif sur l'interruption de service à grande échelle survenue le 7 mai 2026.
La panne a duré environ 8 heures, avec un rétablissement complet en 12 heures. Durant cette période, les transactions, dépôts, retraits et la plupart des services essentiels étaient indisponibles ou fortement dégradés. Coinbase a déclaré que la panne était due à la défaillance simultanée de plusieurs unités de refroidissement dans un centre de données situé dans une zone de disponibilité (use1-az4) de la région AWS us-east-1, déclenchant des arrêts de protection thermique des baies, ce qui a entraîné la mise hors ligne d'instances EC2 et de volumes EBS, affectant de multiples services internet.
Pendant le processus de rétablissement, le moteur d'appariement des transactions de Coinbase a perdu son quorum en raison de l'architecture en cluster déployée dans un seul centre de données AWS, perdant ainsi la plupart de ses nœuds. Des ajustements de code urgents et la reconstruction d'un nouveau groupe de nœuds ont été nécessaires pour rétablir le fonctionnement, permettant une reprise progressive des transactions sur le marché.
De plus, le service Kafka géré par AWS (MSK) a subi des défaillances du plan de contrôle, empêchant la réélection automatique des leaders de partition, ce qui a davantage bloqué les systèmes de cotation, de frais ainsi que certains systèmes de règlement et de flux de données, amplifiant l'impact global.
Après une migration manuelle des partitions en collaboration avec l'équipe d'ingénierie d'AWS, le système est progressivement revenu à la normale. Coinbase a déclaré que cet incident a révélé des lacunes dans ses capacités de basculement automatique entre zones de disponibilité et dans la reprise après sinistre pour les middlewares gérés. L'entreprise va mettre à niveau son architecture de sauvegarde à chaud inter-régionale, renforcer les exercices de simulation de panne réguliers et migrer le système Kafka d'un déploiement sur deux zones de disponibilité vers trois, tout en travaillant avec AWS pour faire avancer les correctifs et les améliorations liés à la cause profonde.



