« On manque de visibilité sur nos systèmes. » C’est le point de départ de toute démarche d’observabilité. Prometheus et Grafana forment le duo de référence pour y répondre. Voici par où commencer sans se noyer.
Comprendre la séparation des rôles
Première clarté à acquérir : Prometheus collecte et stocke les métriques, Grafana les visualise. Prometheus interroge périodiquement vos services (le scraping), stocke les séries temporelles et gère l’alerting. Grafana se branche dessus pour construire des tableaux de bord.
Commencer par les bonnes métriques
L’erreur du débutant : tout mesurer. Commencez par les métriques qui comptent vraiment, souvent résumées par la méthode RED (Rate, Errors, Duration) pour les services, ou USE (Utilization, Saturation, Errors) pour les ressources.
Quelques métriques pertinentes valent mieux que mille tableaux que personne ne regarde.
Apprivoiser PromQL
PromQL est le langage de requête de Prometheus. Intimidant au premier abord, il devient vite naturel. Maîtriser les bases (sélection, agrégation, taux avec rate()) suffit pour 90% des besoins. C’est l’investissement le plus rentable.
Construire des tableaux de bord utiles
Un bon dashboard Grafana raconte une histoire : vue d’ensemble en haut, détails en dessous. Évitez les murs de graphiques. Un tableau de bord doit répondre à une question : « est-ce que ça va ? » et, si non, « où est le problème ? ».
Mettre en place l’alerting
L’observabilité sans alerte est passive. Configurez des alertes sur des symptômes (latence élevée, taux d’erreur) plutôt que sur des causes. Et surtout, évitez la fatigue d’alerte : une alerte qui se déclenche tout le temps est une alerte qu’on ignore.
La progression recommandée
Installez Prometheus, scrapez un premier service, écrivez vos premières requêtes PromQL, construisez un dashboard simple, puis ajoutez l’alerting. Étape par étape.
Notre formation Prometheus & Grafana suit exactement cette progression, sur deux jours d’ateliers pratiques.