Trouver une offreRecruteurs

Senior Site Reliability Engineer (SRE) - Secteur Oil & Gas

Opportunité exclusive

2 à 4 semaines

Hybride

Senior Site Reliability Engineer (SRE) - Secteur Oil & Gas

Ecaris

Senior Site Reliability Engineer (SRE) - Secteur Oil & Gas

Expertises

Site reliability engineeringArchitecte CloudAWS MonitoringAzure MonitoringIncident ManagementDisaster RecoveryChaos EngineeringAIOpsPrometheus GrafanaCloud ResilienceSRE SeniorMulti-cloud AWS AzureProduction ReliabilityCloud Observability

il y a 2 mois

Opportunité exclusive

Partagez cette opportunité

Partagez cette opportunité à quelqu’un de votre réseau :
✓ Offrez-lui un boost de visibilité auprès du client.
✓ Aidez vos contacts à trouver leur prochain job.

Information importante


Type de contrat:

Freelance

Salaire / Taux journalier :

selon profil

Cette offre est à 0% de commission 🎉

Localisation :

Paris, France

Date de démarrage :

2 à 4 semaines

Mode de travail :

Hybride

Publié le :

15 janvier 2026

Le besoin


Description de la Mission

 

Senior Site Reliability Engineer

Secteur Énergie / Gaz

 

15/01/2026

 

Contexte Client

Notre client est une filiale d’un groupe international majeur du secteur de l’énergie, opérant à l’échelle mondiale et s’appuyant sur des plateformes digitales communes pour le développement et l’exploitation de ses produits numériques.

Les solutions IT de cette filiale sont utilisées par de nombreuses entités du groupe afin de concevoir, déployer et opérer des produits digitaux critiques, dans des environnements exigeants en termes de fiabilité, de performance, de sécurité et de disponibilité.

La filiale intervient comme un acteur central du Build, Scale & Run des plateformes digitales du groupe, en étroite collaboration avec les équipes produits et projets réparties à l’international. Elle est colocalisée avec une Digital Factory regroupant des équipes pluridisciplinaires (produit, IT, data, plateforme) travaillant sur des enjeux de transformation digitale à grande échelle.

Au sein de cette organisation, l’équipe Site Reliability Engineering (SRE) est responsable de la fiabilité, de la résilience et de l’observabilité des plateformes de Platform Engineering, et accompagne les équipes applicatives dans l’amélioration continue de la fiabilité de leurs solutions.

Contexte de mission

Dans ce contexte, notre client souhaite renforcer son équipe Site Reliability Engineering (SRE) par le recours à un Senior Site Reliability Engineer.

La mission s’inscrit dans un environnement cloud hybride (AWS et Azure), au cœur de plateformes digitales critiques utilisées par de nombreuses entités du groupe à l’international.

Le consultant interviendra en tant que Senior SRE, avec comme mission principale de définir, implémenter et améliorer les mécanismes d’observabilité, de résilience et de gestion des incidents des applications et plateformes.

Il travaillera en interaction étroite avec :

  • les équipes de Platform Engineering,

  • les équipes applicatives,

  • les équipes projets et produits,

  • et plus largement l’ensemble des acteurs de la filière IT du groupe.

La mission combine des enjeux techniques forts, une dimension transverse marquée et un rôle clé de diffusion des bonnes pratiques SRE à l’échelle du groupe.

Objectif de la Mission

L’objectif principal de la mission est de renforcer la fiabilité, la résilience et l’observabilité des plateformes digitales du client, tout en contribuant à l’amélioration continue des pratiques SRE au sein des équipes.

Les objectifs de la mission sont notamment de :

  • Définir et mettre en œuvre des mécanismes d’observabilité couvrant l’ensemble de la chaîne applicative

  • Améliorer la résilience des plateformes et applications critiques

  • Réduire le MTTR par une meilleure détection, analyse et gestion des incidents

  • Mettre en place et tester des dispositifs de Disaster Recovery

  • Contribuer à la diffusion des bonnes pratiques SRE auprès des équipes projets et produits

  • Explorer et implémenter des solutions AIOps pour améliorer la fiabilité et la gestion des incidents

Périmètre de la Mission – Responsabilités du Consultant – Résultats Attendus

Le consultant interviendra en tant que Senior Site Reliability Engineer, avec une responsabilité opérationnelle et transverse sur la fiabilité, la résilience et l’observabilité des plateformes digitales du client, dans un environnement multi-cloud (AWS & Azure) et multi-équipes.

En tant que SRE expérimenté, il sera attendu du consultant qu’il apporte bien plus qu’une simple expertise technique. Il devra être en capacité de prendre du recul sur les architectures existantes, d’identifier les axes d’amélioration prioritaires et de contribuer activement à la montée en maturité SRE des équipes et des plateformes.

La mission s’inscrit dans une logique d’amélioration continue, où le consultant jouera un rôle de référent fiabilité, en interface étroite avec les équipes de Platform Engineering, les équipes applicatives et les équipes projets. Il contribuera à structurer des pratiques pérennes, mesurables et partagées à l’échelle de l’organisation.

1.        Responsabilités du Consultant

En tant que Senior Site Reliability Engineer expérimenté, le consultant interviendra comme référent fiabilité sur les plateformes digitales du client. Il sera attendu de lui qu’il apporte une expertise technique approfondie, mais également une capacité de structuration, de priorisation et de prise de recul, afin de contribuer durablement à la montée en maturité SRE des équipes et des plateformes.

Ses responsabilités s’articulent autour des piliers suivants :

a.      Observabilité & Monitoring

En tant que SRE expérimenté, le consultant sera responsable de la définition, de la mise en œuvre et de l’évolution des mécanismes d’observabilité, permettant une visibilité complète, exploitable et partagée sur l’état de fonctionnement des applications et des plateformes.

Il devra notamment :

·         Concevoir des stratégies de monitoring et d’alerting couvrant l’ensemble de la chaîne applicative (performance, disponibilité, qualité des données, dépendances techniques).

·         Mettre en place des dashboards clairs et actionnables, facilitant l’analyse des incidents et la prise de décision.

·         S’assurer de la pertinence des alertes afin de limiter le bruit et de favoriser une détection rapide des dysfonctionnements.

b.      Résilience & Continuité de Service

Le consultant aura la responsabilité de renforcer la résilience des plateformes, en s’appuyant sur les capacités natives des environnements cloud et sur des pratiques éprouvées de continuité de service.

À ce titre, il sera attendu qu’il :

·         Conçoive, implémente et teste des mécanismes de sauvegarde et de restauration des données et des applications.

·         Participe à la définition, à l’implémentation et aux tests de plans de reprise d’activité (Disaster Recovery Plans).

·         Déploie et pilote des scénarios de tests de résilience (Chaos Engineering) afin d’identifier les points de fragilité et d’améliorer la robustesse des environnements de production.

c.       Gestion des Incidents & AIOps

En tant que SRE senior, le consultant jouera un rôle clé dans l’optimisation de la gestion des incidents, avec un objectif clair de réduction des temps de détection et de rétablissement.

Il interviendra notamment sur :

·         L’amélioration des processus de détection, de notification, de suivi et d’analyse des incidents.

·         L’exploitation avancée des logs et des métriques pour faciliter les analyses post-incidents et le retour d’expérience.

·         L’introduction et l’expérimentation de solutions AIOps, visant à automatiser la détection des anomalies, à améliorer l’analyse des incidents et à proposer ou déclencher des actions correctives pertinentes.

d.      Diffusion des Bonnes Pratiques SRE

Au-delà de son rôle opérationnel, le consultant aura une responsabilité forte de transmission et d’accompagnement.

Il sera attendu qu’il :

·         Accompagne les équipes de Platform Engineering, les équipes applicatives et les équipes projets dans l’adoption des bonnes pratiques SRE.

·         Joue un rôle de référent et de mentor, en contribuant à la montée en compétences des équipes.

·         Participe à la structuration de standards, guidelines et pratiques partagées à l’échelle de l’organisation.

2.        Résultats Attendus

La mission devra se traduire par des résultats concrets, observables et mesurables, tant sur le plan technique que sur l’organisation et les pratiques.

Les résultats attendus incluent notamment :

  • Une amélioration significative de la fiabilité et de la disponibilité des plateformes et applications critiques.

  • Une réduction mesurable des temps de détection et de résolution des incidents.

  • Une meilleure maîtrise des risques opérationnels, grâce à des mécanismes de résilience éprouvés et testés.

  • Une montée en maturité SRE des équipes, portée par des pratiques plus structurées et partagées.

Les livrables attendus pourront inclure, sans être exhaustifs :

  • Des dashboards d’observabilité (monitoring, alerting, logging) clairs, partagés et maintenables.

  • Des documents de référence SRE (standards, bonnes pratiques, guidelines).

  • Des scénarios de tests de résilience documentés et les retours d’expérience associés.

  • Des plans de reprise d’activité (DRP) définis, testés et améliorés.

  • Des recommandations structurées en matière d’automatisation et d’AIOps.

La performance de la mission sera suivie à l’aide d’indicateurs SRE standards, tels que :

  • le MTTR (Mean Time To Recovery),

  • le MTTD (Mean Time To Detect),

  • le taux de disponibilité et le respect des SLO / SLA,

  • le nombre et la sévérité des incidents en production,

  • la couverture effective du monitoring et de l’alerting,

  • le taux de succès des tests de reprise et de résilience.

L’ensemble de ces livrables constitue un corpus de référence SRE cohérent et structuré, couvrant les dimensions d’observabilité, de résilience, de gestion des incidents et de bonnes pratiques opérationnelles.

Ce corpus servira de socle commun pour le pilotage de la fiabilité des plateformes et applications, la capitalisation des retours d’expérience et l’amélioration continue des pratiques SRE au sein des équipes.

Il constituera également une référence opérationnelle durable, permettant d’inscrire les actions menées dans le temps, de mesurer objectivement les progrès réalisés à l’aide des indicateurs définis (MTTR, MTTD, SLO/SLA, disponibilité, incidents), et d’accompagner l’évolution future des plateformes, des outils et des pratiques de fiabilité.

Profil recherché

Nous recherchons un consultant expérimenté capable d’intervenir comme « référent fiabilité » sur des plateformes digitales critiques, dans un environnement cloud hybride AWS & Azure à forte exigence de disponibilité, de résilience et de performance.

Le consultant devra démontrer une expertise technique approfondie en SRE, combinée à une capacité de prise de recul, de structuration et de diffusion des bonnes pratiques. Il interviendra dans un contexte transverse, en interaction étroite avec les équipes de Platform Engineering, les équipes applicatives et les équipes projets, afin de contribuer durablement à la montée en maturité SRE de l’organisation.

Une expérience confirmée sur des environnements multi-cloud, multi-équipes et internationaux, ainsi qu’une forte capacité à travailler sur des plateformes en production critique, sont indispensables.

Le consultant idéal devrait répondre aux critères suivants :

1.    Formation & Éducation

  • Formation Bac+5 minimum. Parcours académique de type : prépa + école d’ingénieur, université scientifique ou formation équivalente à l’international

  • Une spécialisation en systèmes distribués, cloud computing, ingénierie logicielle, infrastructure ou fiabilité des systèmes serait fortement appréciée

2.    Expérience

  • 7 à 10+ ans d’expérience professionnelle en environnements IT complexes, dont une expérience significative en tant que SRE, ingénieur fiabilité ou ingénieur production senior

  • Expérience confirmée sur des plateformes digitales critiques en environnement cloud (AWS et/ou Azure)

  • Expérience avérée sur des sujets d’observabilité, de résilience, de gestion des incidents et de continuité de service

  • Expérience dans des contextes complexes impliquant :

    • plusieurs équipes techniques et applicatives

    • des environnements internationaux

    • des plateformes à forte exigence de disponibilité et de sécurité

3.    Compétences Techniques & Méthodologiques

  • Solide expertise en Site Reliability Engineering et pratiques associées :

    • SLI / SLO / SLA

    • gestion du MTTR / MTTD

    • gestion du toil et automatisation

  • Maîtrise des mécanismes d’observabilité : monitoring, alerting, logging, tracing

  • Très bonne connaissance des environnements AWS et Azure, notamment :

    • mécanismes natifs de monitoring et logging

    • services de sauvegarde et de restauration

    • principes de résilience et de haute disponibilité

  • Expérience dans la mise en place et le test de Disaster Recovery Plans (DRP)

  • Connaissance et pratique du Chaos Engineering

  • Bonne maîtrise des processus de gestion des incidents et des post-mortems

  • Sensibilité et intérêt pour les approches AIOps et l’automatisation intelligente

4.    Compétences Systèmes & Outils

  • Systèmes : Linux (expert), environnements conteneurisés appréciés

  • Observabilité : Prometheus, Grafana, CloudWatch, Azure Monitor, Application Insights, Log Analytics, KQL, PromQL

  • Logging & tracing : outils cloud natifs et/ou solutions de marché

  • Automatisation & scripting : Python, Bash, PowerShell (selon contexte)

  • CI/CD et pipelines de déploiement : bonne compréhension des enjeux liés à la fiabilité et à la résilience

5.    Qualités Personnelles

  • Forte capacité d’analyse et de prise de recul

  • Rigueur, sens des priorités et orientation résultats

  • Capacité à intervenir sereinement en contexte d’incidents critiques

  • Leadership technique et crédibilité auprès d’interlocuteurs experts

  • Capacité à structurer, formaliser et diffuser des bonnes pratiques

  • Aisance dans des environnements complexes, exigeants et en transformation

6.    Langues

  • Français : courant à natif (C2 requis)

  • Anglais : courant professionnel (C1 minimum requis), capacité à travailler au quotidien, animer des échanges techniques et produire de la documentation en anglais

7.    Certifications (Appréciées)

Aucune certification n’est strictement obligatoire. Cependant, les certifications suivantes seraient appréciées :

  • Certifications cloud AWS et/ou Azure (Associate / Professional)

  • Certifications liées à la fiabilité, au cloud ou à l’exploitation (ex : SRE, DevOps, Cloud Architecture)

  • Certifications en observabilité, sécurité ou automatisation

Modalités de la Mission

  • Démarrage : Dès que possible - idéalement le 9 février 2026

  • Durée : Non précisée (mission long terme présumée)

  • Localisation : Paris centre

  • Télétravail : jusqu’à 2 jours par semaine autorisé

  • Contraintes : Aucune contrainte de déplacement prévue dans le cadre de cette mission

  • TJM : Selon profil

D'autres offres idéales pour vous !

Ces entreprises cherchent également d'excellents profils

Visian

Site Reliability Engineer

680

Freelance

Dans 2 à 4 semaines

Paris, France

Hybride

Top Recruteur

Expertises

DockerAnsibleKubernetesOracleTerraformHelmCI/CDDynatrace

il y a 1 mois

Opportunité exclusive

Caboost

Site Reliability Engineer (SRE)

selon profil

Freelance

Dans 2 à 4 semaines

Lille, France

Hybride

Top Recruteur

Expertises

Site reliability engineeringsre

il y a 1 mois

Opportunité exclusive

Caboost

Site Reliability Engineer

Freelance

Urgent

Lille, France

Hybride

Expertises

Google Cloud PlatformPythonDatadogGitHubLinuxTerraform

il y a 3 jours

Opportunité exclusive

Réseau professionnel conçu pour les talents

© 2026. Tous droits réservés.

Freelancers

Créer un profil

Rejoindre un collectif

Solutions et outils