Previous incidents
Forte chaleur en DC01
Updated May 24, 2026 at 5:25pm UTC
Nous avons cordonné et drainé les noeuds du DC01 à 19h15, possible perturbations sur cette plage, nous allons redémarrer l'onduleur.
1 previous update
Kernel panic sur un noeud en DC04
Resolved May 21, 2026 at 4:45pm UTC
Nouvelle occurence de l'incident du vendredi 15. Un noeud kube qui ne répond plus en DC04, kernel panic.
La root cause est le plus probablement côté matériel. Nous avons marqué le noeud comme non schedulable.
Les services qui tournaient dessus ont été relocalisés.
Début de l'incident 18h31 -> kernel panic du noeud c4-2
Fin de l'incident 18h40 -> tous les pods ont été relocalisés et le noeud cordonned + drained
On laisse le noeud hors du cluster le temps d'investiguer l'instabilité matér...
Métriques (metrics) is down
Resolved May 17, 2026 at 11:55am UTC
Métriques (metrics) recovered.
1 previous update
Noeud en DC04 ne répond plus
Resolved May 15, 2026 at 2:10pm UTC
Nous avons un noeud qui ne répond plus en DC04, tout les pods ont été relocalisés sur les autres noeuds automatiquement en quelques minutes.
Gestionnaire de mot de passe managé (vault) is down
Resolved May 13, 2026 at 5:53pm UTC
Gestionnaire de mot de passe managé (vault) recovered.
1 previous update
Problème de renouvellement de certificat TLS durant 20 minutes
Resolved May 11, 2026 at 7:13pm UTC
Le certificat partagé a expiré, nous avons mis en place des ingress avec cert-issuer sur tous les endpoints pour que ça ne pose plus de problème à l'avenir.
Les challenges TLS sont tous passés.
Métriques (metrics) is down
Resolved May 11, 2026 at 7:04pm UTC
Métriques (metrics) recovered.
1 previous update
Stockage d'objets (S3) is down
Resolved May 9, 2026 at 6:40pm UTC
Stockage d'objets (S3) recovered.
1 previous update
Stockage d'objets (S3) is down
Resolved May 8, 2026 at 2:06am UTC
Stockage d'objets (S3) recovered.
1 previous update
Stockage d'objets (S3) is down
Resolved May 5, 2026 at 4:13pm UTC
Stockage d'objets (S3) recovered.
1 previous update
Métriques (metrics) is down
Resolved May 4, 2026 at 1:08pm UTC
Métriques (metrics) recovered.
1 previous update
Incident cluster kube en DC02
Resolved Apr 23, 2026 at 8:28am UTC
DC02 de nouveau UP, La fibre principale a coupé en DC02 entre 4h55 et 5h, tous les tunnels IPsec sont tombés et quand il sont remonté les routes se se sont pas propagées sur la gateway principale, j'ai coupé puis réactivé les tunnels, les routes sont bien revenues
1 previous update
console.france-nuage.fr, Métriques (metrics), and 1 other service are down
Resolved Apr 21, 2026 at 11:55pm UTC
console.france-nuage.fr recovered.
21 previous updates
Interruption connexion fibre principale en DC01
Resolved Apr 21, 2026 at 2:29am UTC
Interruption de la connexion fibre principale en DC01 pendant 30 secondes. Plusieurs applications kube tournant sur les noeuds de ce DC ont été relocalisées ailleurs.
Métriques (metrics) and Journaux (logs) are down
Resolved Apr 20, 2026 at 4:10am UTC
Métriques (metrics) recovered.
3 previous updates
Surcharge réseau 10 minutes DC02
Resolved Apr 20, 2026 at 4:00am UTC
Nous avons eu une cascade de surcharge sur l'UDM pro en DC02 suite au gonflage due système de journalisation. Il a chargé la RAM au point de la saturer jusqu'au SWAP, dès le début du SWAPPING le CPU est monté à 80%+ à cause des iowait et ça a commencé à impacter les fluxs réseau (plage 6h à 6h09), l'udm à ensuite kill le process ulogd et le réseau s'est restabilisé vers 6h10.
console.france-nuage.fr is down
Resolved Apr 19, 2026 at 3:08pm UTC
console.france-nuage.fr recovered.
1 previous update
Migration Grafana postgres vers CNPG
Resolved Apr 14, 2026 at 8:00am UTC
Afin de migrer les bases postgres bitnami standalone sur storageclass ceph-rbd vers du cnpg répliqué avec storageclass local, des coupures de quelques minutes sont à prévoir sur les instances de Grafana ce matin et début d'après midi.
Passage de l'uplink de 1gb/s à 10gb/s en DC02 et DC03
Resolved Apr 10, 2026 at 1:45pm UTC
Notre routage sous jacent qui est passé de 1gb/s à 10gb/s sur les Proxmoxs à 15h, ça n'aurait pas du causer d'interruption mais il y a eu une plage de 5-10 minutes vers 15h45 de bascule réseau dans la couche virtualisation des VMs. Certaines ont été impactées d'autres non.
console.france-nuage.fr, Métriques (metrics), and 1 other service are down
Resolved Apr 9, 2026 at 7:30pm UTC
console.france-nuage.fr recovered.
39 previous updates
Incident général en DC03
Resolved Apr 8, 2026 at 7:40am UTC
Les sauvegardes étaient un peu plus lentes cette nuit générant de la pression IO sur certaines VMs. Nous avons eu à en redémarrer de force une seule pour le moment. N'hésitez pas à nous remonter tout problème d'accès à vos VM en DC03.
3 previous updates
Métriques (metrics) and Serveurs de sauvegarde managé (backup) are down
Resolved Apr 4, 2026 at 2:28pm UTC
Métriques (metrics) recovered.
7 previous updates
Gestionnaire de mot de passe managé (vault) is down
Resolved Apr 3, 2026 at 2:20pm UTC
Gestionnaire de mot de passe managé (vault) recovered.
1 previous update
Métriques (metrics) and Journaux (logs) are down
Resolved Apr 1, 2026 at 1:38am UTC
Métriques (metrics) recovered.
4 previous updates