Back to overview

Interruption des métriques Mimir - 14/01 15h → 15/01

Jan 15 at 03:29pm CET
Affected services
Métriques (metrics)

Resolved
Jan 15 at 03:29pm CET

Suite à l'incident survenu hier (14/01) vers 15h, les instances Mimir ont été redémarrées. Cependant, un gap de ~24h existe dans les métriques collectées.
Impact :

Absence de données de monitoring entre le 14/01 ~15h et le 15/01 ~15h
Les dashboards Grafana afficheront un "trou" sur cette période

Cause :
Les ingesters étaient indisponibles pendant l'interruption du backend. Les agents ont bufferisé les métriques mais une partie a été perdue (dépassement du buffer ou métriques trop anciennes rejetées).
État actuel :
L'ingestion a repris normalement. Les métriques sont de nouveau collectées depuis [heure de reprise].
Prochaines étapes :
Une migration vers Kubernetes est en cours pour Mimir, Loki et Tempo. Cette nouvelle architecture distribuée apportera une meilleure résilience et permettra d'éviter ce type d'incident à l'avenir (haute disponibilité, failover automatique entre datacenters).

Tu veux préciser un ETA pour la migration ou rester vague ?Claude is AI and can make mistakes. Please double-check responses.