Previous incidents

June 2026
No incidents reported
May 2026
May 22, 2026
1 incident

Forte chaleur en DC01

Degraded

Updated May 24, 2026 at 5:25pm UTC

Nous avons cordonné et drainé les noeuds du DC01 à 19h15, possible perturbations sur cette plage, nous allons redémarrer l'onduleur.

1 previous update

May 21, 2026
1 incident

Kernel panic sur un noeud en DC04

Resolved May 21, 2026 at 4:45pm UTC

Nouvelle occurence de l'incident du vendredi 15. Un noeud kube qui ne répond plus en DC04, kernel panic.

La root cause est le plus probablement côté matériel. Nous avons marqué le noeud comme non schedulable.

Les services qui tournaient dessus ont été relocalisés.

Début de l'incident 18h31 -> kernel panic du noeud c4-2
Fin de l'incident 18h40 -> tous les pods ont été relocalisés et le noeud cordonned + drained 

On laisse le noeud hors du cluster le temps d'investiguer l'instabilité matér...

May 17, 2026
1 incident

Métriques (metrics) is down

Downtime

Resolved May 17, 2026 at 11:55am UTC

Métriques (metrics) recovered.

1 previous update

May 15, 2026
1 incident

Noeud en DC04 ne répond plus

Resolved May 15, 2026 at 2:10pm UTC

Nous avons un noeud qui ne répond plus en DC04, tout les pods ont été relocalisés sur les autres noeuds automatiquement en quelques minutes.

May 13, 2026
1 incident

Gestionnaire de mot de passe managé (vault) is down

Downtime

Resolved May 13, 2026 at 5:53pm UTC

Gestionnaire de mot de passe managé (vault) recovered.

1 previous update

May 11, 2026
2 incidents

Problème de renouvellement de certificat TLS durant 20 minutes

Resolved May 11, 2026 at 7:13pm UTC

Le certificat partagé a expiré, nous avons mis en place des ingress avec cert-issuer sur tous les endpoints pour que ça ne pose plus de problème à l'avenir.
Les challenges TLS sont tous passés.

Métriques (metrics) is down

Downtime

Resolved May 11, 2026 at 7:04pm UTC

Métriques (metrics) recovered.

1 previous update

May 09, 2026
1 incident

Stockage d'objets (S3) is down

Downtime

Resolved May 9, 2026 at 6:40pm UTC

Stockage d'objets (S3) recovered.

1 previous update

May 08, 2026
1 incident

Stockage d'objets (S3) is down

Downtime

Resolved May 8, 2026 at 2:06am UTC

Stockage d'objets (S3) recovered.

1 previous update

May 05, 2026
1 incident

Stockage d'objets (S3) is down

Downtime

Resolved May 5, 2026 at 4:13pm UTC

Stockage d'objets (S3) recovered.

1 previous update

May 04, 2026
1 incident

Métriques (metrics) is down

Downtime

Resolved May 4, 2026 at 1:08pm UTC

Métriques (metrics) recovered.

1 previous update

April 2026
Apr 23, 2026
1 incident

Incident cluster kube en DC02

Downtime

Resolved Apr 23, 2026 at 8:28am UTC

DC02 de nouveau UP, La fibre principale a coupé en DC02 entre 4h55 et 5h, tous les tunnels IPsec sont tombés et quand il sont remonté les routes se se sont pas propagées sur la gateway principale, j'ai coupé puis réactivé les tunnels, les routes sont bien revenues

1 previous update

Apr 21, 2026
2 incidents

console.france-nuage.fr, Métriques (metrics), and 1 other service are down

Downtime

Resolved Apr 21, 2026 at 11:55pm UTC

console.france-nuage.fr recovered.

21 previous updates

Interruption connexion fibre principale en DC01

Resolved Apr 21, 2026 at 2:29am UTC

Interruption de la connexion fibre principale en DC01 pendant 30 secondes. Plusieurs applications kube tournant sur les noeuds de ce DC ont été relocalisées ailleurs.

Apr 20, 2026
2 incidents

Métriques (metrics) and Journaux (logs) are down

Downtime

Resolved Apr 20, 2026 at 4:10am UTC

Métriques (metrics) recovered.

3 previous updates

Surcharge réseau 10 minutes DC02

Resolved Apr 20, 2026 at 4:00am UTC

Nous avons eu une cascade de surcharge sur l'UDM pro en DC02 suite au gonflage due système de journalisation. Il a chargé la RAM au point de la saturer jusqu'au SWAP, dès le début du SWAPPING le CPU est monté à 80%+ à cause des iowait et ça a commencé à impacter les fluxs réseau (plage 6h à 6h09), l'udm à ensuite kill le process ulogd et le réseau s'est restabilisé vers 6h10.

Apr 19, 2026
1 incident

console.france-nuage.fr is down

Downtime

Resolved Apr 19, 2026 at 3:08pm UTC

console.france-nuage.fr recovered.

1 previous update

Apr 14, 2026
1 incident

Migration Grafana postgres vers CNPG

Resolved Apr 14, 2026 at 8:00am UTC

Afin de migrer les bases postgres bitnami standalone sur storageclass ceph-rbd vers du cnpg répliqué avec storageclass local, des coupures de quelques minutes sont à prévoir sur les instances de Grafana ce matin et début d'après midi.

Apr 10, 2026
1 incident

Passage de l'uplink de 1gb/s à 10gb/s en DC02 et DC03

Resolved Apr 10, 2026 at 1:45pm UTC

Notre routage sous jacent qui est passé de 1gb/s à 10gb/s sur les Proxmoxs à 15h, ça n'aurait pas du causer d'interruption mais il y a eu une plage de 5-10 minutes vers 15h45 de bascule réseau dans la couche virtualisation des VMs. Certaines ont été impactées d'autres non.

Apr 09, 2026
1 incident

console.france-nuage.fr, Métriques (metrics), and 1 other service are down

Downtime

Resolved Apr 9, 2026 at 7:30pm UTC

console.france-nuage.fr recovered.

39 previous updates

Apr 07, 2026
1 incident

Incident général en DC03

Downtime

Resolved Apr 8, 2026 at 7:40am UTC

Les sauvegardes étaient un peu plus lentes cette nuit générant de la pression IO sur certaines VMs. Nous avons eu à en redémarrer de force une seule pour le moment. N'hésitez pas à nous remonter tout problème d'accès à vos VM en DC03.

3 previous updates

Apr 04, 2026
1 incident

Métriques (metrics) and Serveurs de sauvegarde managé (backup) are down

Downtime

Resolved Apr 4, 2026 at 2:28pm UTC

Métriques (metrics) recovered.

7 previous updates

Apr 03, 2026
1 incident

Gestionnaire de mot de passe managé (vault) is down

Downtime

Resolved Apr 3, 2026 at 2:20pm UTC

Gestionnaire de mot de passe managé (vault) recovered.

1 previous update

Apr 01, 2026
1 incident

Métriques (metrics) and Journaux (logs) are down

Downtime

Resolved Apr 1, 2026 at 1:38am UTC

Métriques (metrics) recovered.

4 previous updates