Observabilité

Observability & SRE : comment éviter les incidents et gagner en sérénité

22.01.2026

•

min

Il y a quelques années, quand un incident arrivait en prod, c’était toujours un peu la même scène.

Un Slack qui s’emballe.
Un commercial qui dit “le client X ne peut plus rien faire”.
Un CTO qui demande “c’est quoi l’impact ?”
Et une équipe tech qui répond… “on regarde”.

Traduction : on ne sait pas encore.
Ni quoi.
Ni pourquoi.
Ni depuis quand.

Et surtout : on subit.

Depuis, j’ai accompagné pas mal d’équipes sur des produits à fort trafic, à fort enjeu business, parfois très exposés (B2C, B2B critique, SaaS cœur de métier). Et s’il y a bien un sujet qui change radicalement la vie des équipes et la relation avec le business c’est l’Observability, couplée à une vraie approche SRE.

Pas pour faire “comme les GAFAM”.
Mais pour arrêter de vivre chaque incident comme une crise existentielle.

‍

Le mythe : “on a du monitoring, donc on est bons”

‍

Quand j’arrive chez un client et que je pose la question :

“Comment vous détectez un incident aujourd’hui ?”

La réponse est souvent :

“On a des alertes”
“On a des dashboards”
“On reçoit un mail quand ça tombe”

En réalité :

les alertes sont trop nombreuses → plus personne ne les regarde
les dashboards sont beaux → mais pas actionnables
l’incident est souvent détecté… par le client

Ce n’est pas de l’observabilité.
C’est du monitoring passif.

‍

Observability : voir ce qui se passe sans savoir à l’avance ce qui va casser

‍

La différence clé, je la résume comme ça :

Monitoring : je surveille ce que je connais
Observability : je peux comprendre ce que je ne connais pas encore

Concrètement, l’observabilité repose sur 3 piliers (les fameux three pillars) :

Logs : ce que le système raconte
Metrics : ce que le système mesure
Traces : comment une requête traverse le système

Mais attention :
empiler des logs, des métriques et des traces sans intention, ça ne sert à rien.

La vraie question n’est pas “qu’est-ce qu’on peut mesurer ?”
Mais plutôt :

“Qu’est-ce qui nous empêche de dormir la nuit ?”

‍

SRE : arrêter de promettre le 100 % et devenir fiable

‍

Autre malentendu fréquent :
“SRE = zéro incident”.

Non.
SRE = accepter que les incidents arrivent, mais décider :

quand,
combien,
et à quel coût.

C’est là qu’entrent en jeu trois notions clés :

‍

1. SLI – Service Level Indicator

Ce qu’on mesure réellement (ex : taux de requêtes réussies)

‍

2. SLO – Service Level Objective

Le niveau acceptable (ex : 99,9 % sur 30 jours)

‍

3. Error Budget

La marge d’erreur autorisée avant d’arrêter d’ajouter des features

Et ça change tout.

Parce qu’à partir de là :

le business comprend qu’on choisit le niveau de risque
la tech peut dire non avec des chiffres
les priorités deviennent factuelles, pas émotionnelles

Vécu terrain : le jour où on a arrêté de courir partout

‍

Sur un produit e-commerce à fort CA, on avait :

des incidents réguliers
une équipe épuisée
des post-mortems inutiles (“ça venait de la base”, fin du débat)

On a pris une décision simple (mais pas facile) :
1 sprint entier dédié uniquement à l’observabilité

Au programme :

définir les parcours critiques business
poser des SLI compréhensibles par tous
instrumenter proprement les services
réduire drastiquement le nombre d’alertes (mais les rendre actionnables)

Résultat après quelques semaines :

les incidents n’avaient pas disparu
mais ils étaient détectés plus tôt
et surtout : on savait quoi regarder en premier

Le stress a baissé.
Les échanges avec le business se sont apaisés.
Et les incidents sont devenus… gérables.

‍

Ce qui marche (et ce qui ne marche pas)

‍

Ce qui ne marche pas

Tout mesurer “au cas où”
Avoir 50 alertes pour un même symptôme
Laisser l’observabilité uniquement aux ops
Ne jamais revoir ses SLO

Ce qui marche

Partir des parcours utilisateurs critiques
Définir peu d’indicateurs, mais les bons
Lier les métriques techniques à l’impact business
Faire vivre les post-mortems (sans chercher de coupable)

Gagner en sérénité, ce n’est pas magique (mais c’est possible)

‍

Observability & SRE, ce n’est pas :

un outil magique
une stack hors de prix
une transformation instantanée

C’est :

une discipline
un changement de posture
un contrat de confiance entre la tech et le business

Et quand c’est bien fait, on passe :

de “ça a cassé”
à “on a vu que ça allait casser, on a agi”

Et ça, franchement, ça change la vie.

‍

Partager cet article

ÉCRIT PAR

Benjamin Tierny

Directeur général · Cofondateur

Benjamin est cofondateur de Dernier Cri. Ingénieur de formation, il accompagne depuis 2015 startups et entreprises sur la stratégie, la conception et le développement de leurs produits digitaux, avec aujourd'hui un focus sur l'IA appliquée aux métiers.

Site Reliabilty Engineering

Stratégie produit

IA appliquée

LinkedIn Voir ses articles →