Observability Manager (H/F)
Description du poste
📌 Contexte & Enjeux
Dans un contexte de transformation technologique à grande échelle, nous recherchons un(e) Observability Manager afin de piloter et structurer la stratégie d’observabilité globale des plateformes IT, infrastructures cloud et applications critiques du groupe.
Rattaché(e) au DevOps Manager, vous jouerez un rôle central dans l’amélioration de la visibilité opérationnelle des systèmes, la réduction du MTTR, l’optimisation des performances applicatives et le renforcement de la résilience des environnements techniques.
Vous interviendrez sur un périmètre transverse couvrant les infrastructures on-premise, les environnements cloud (AWS/GCP), les plateformes conteneurisées, les APIs, les systèmes événementiels, les middlewares et les applications métiers critiques.
🎯 Missions principales
🔎 Définition de la stratégie Observability
- Définir et piloter la stratégie globale d’observabilité couvrant :
- logs,
- métriques,
- traces,
- événements,
- dashboards,
- KPIs métiers,
- synthetic monitoring.
- Standardiser les pratiques et usages des outils d’observabilité au sein des équipes techniques.
- Définir les standards d’instrumentation et de télémétrie pour les architectures cloud-native et microservices.
- Accompagner les projets de modernisation vers des environnements hautement observables.
- Garantir la disponibilité, la performance et la scalabilité des plateformes de monitoring et de logging.
- Piloter les configurations, upgrades, intégrations et stratégies de capacity planning.
- Superviser les connecteurs applicatifs, APIs, bases de données, composants réseau et services cloud.
- Assurer la qualité des données collectées, les politiques de rétention et l’efficacité de l’indexation.
- Déployer et faire respecter les standards d’instrumentation sur :
- applications,
- conteneurs Kubernetes,
- workloads serverless,
- bases de données,
- infrastructures,
- composants réseau.
- Collaborer avec les équipes DevOps, SRE et Software Engineering pour intégrer les mécanismes de tracing et telemetry.
- Participer à la mise en place des SLO, error budgets et stratégies d’alerting.
- Mettre en œuvre des mécanismes de détection proactive des anomalies.
- Améliorer les capacités de Root Cause Analysis (RCA), dependency mapping et topology analysis.
- Réduire les temps de résolution des incidents (MTTR).
- Fournir des dashboards temps réel pour accompagner la gestion des incidents majeurs.
- Définir des politiques d’alerting intelligentes :
- réduction du bruit,
- corrélation,
- classification des alertes.
- Développer des automatisations intégrées aux pipelines DevOps et opérations.
- Exploiter les capacités AI/ML des plateformes d’observabilité pour l’analyse prédictive et la stabilité des systèmes.🤝 Collaboration & Accompagnement transverse
- Collaborer avec les équipes :
- IT Operations,
- DevOps,
- SRE,
- Architecture,
- Cybersécurité,
- QA,
- Data.
- Accompagner les équipes techniques dans l’adoption des bonnes pratiques d’observabilité.
- Produire la documentation technique et animer des sessions de formation.
- Être le point de contact principal sur les sujets observabilité lors des programmes de transformation.
- Stratégie d’observabilité globale.
- Standards d’instrumentation et de monitoring.
- Dashboards techniques et KPIs métiers.
- Plans d’amélioration de la fiabilité et de la performance.
- Documentation et référentiels observabilité.
- Reporting de performance et de stabilité.
- Mise en œuvre des SLO / alerting / monitoring intelligent.
🔹 Observability & Monitoring
- Dynatrace
- Splunk
- Zabbix
- Datadog
- Prometheus / Grafana
- ELK Stack
- CloudWatch / GCP Monitoring
🔹 Cloud & Architecture
- AWS
- GCP
- Kubernetes (EKS / GKE)
- Microservices
- APIs
- Kafka / Event-Driven Architecture
- Environnements cloud-native
🔹 Automatisation & Scripting
- Python
- Bash
- PowerShell
- Terraform
- CI/CD & GitOps
🔹 Bases techniques complémentaires
- Monitoring de bases Oracle, PostgreSQL, SQL Server
- Réseaux (VPN, SD-WAN, Load Balancers)
- VMware & infrastructures hybrides
- Observabilité applicative & distributed tracing
- 8 à 12 ans d’expérience en IT Operations, DevOps, SRE ou Performance Engineering.
- Expérience confirmée dans la gestion de plateformes d’observabilité à grande échelle.
- Solide expertise des environnements distribués et cloud-native.
- Expérience significative sur des architectures microservices et événementielles.
Exigences du poste
Stack technique :
À propos de l'entreprise
Publié par
Intéressé par cette offre ?
Cliquez sur "Postuler" pour accéder à l'offre.