CONTEXTE
Mission de Data Science au sein d'un grand compte du secteur Transport ferroviaire, basée à Saint-Denis en modalité hybride. Le périmètre technique couvre l'ensemble du cycle de vie de la donnée, de l'ingestion à la modélisation, en s'appuyant sur des environnements cloud (Amazon Web Services, Azure) et des plateformes de traitement distribué (Databricks). La mission s'inscrit dans un contexte de traitement de données à grande échelle nécessitant la maîtrise de technologies de conteneurisation et d'orchestration.
MISSIONS PRINCIPALES
- Concevoir et développer des modèles de Data Science en Python sur des jeux de données structurées et non structurées
- Exploiter et requêter des bases de données SQL et NoSQL pour l'extraction et la préparation des données
- Déployer et opérer des pipelines de données sur les plateformes cloud Amazon Web Services et Azure
- Utiliser Databricks pour le traitement distribué et l'entraînement de modèles à grande échelle
- Conteneuriser les applications et modèles via Docker et orchestrer les déploiements avec Kubernetes
- Mettre en place et maintenir des pipelines CI/CD pour l'industrialisation des modèles
- Versionner les développements et collaborer via Git
- Documenter les travaux, les modèles produits et les résultats d'analyse
COMPETENCES REQUISES
- Python (développement de modèles de Data Science et traitement de données)
- Amazon Web Services (déploiement et exploitation de services cloud)
- Azure (déploiement et exploitation de services cloud)
- Databricks (traitement distribué et entraînement de modèles)
- SQL (requêtes complexes et analyse de données)
- NoSQL (manipulation et interrogation de bases non relationnelles)
- Docker (conteneurisation d'applications et de modèles)
- Kubernetes (orchestration de conteneurs)
- CI/CD (mise en place et maintenance de pipelines d'intégration et déploiement continus)
- Git (versioning et collaboration)
COMPETENCES SOUHAITEES
- Expérience sectorielle dans le transport ou les infrastructures critiques
- Connaissance de frameworks MLOps (MLflow, Kubeflow ou équivalent)
- Maîtrise de bibliothèques de Machine Learning (scikit-learn, TensorFlow, PyTorch)
- Expérience avec des architectures microservices ou event-driven
- Pratique de méthodologies Agile/Scrum
- Anglais technique
PROFIL RECHERCHE
Data Scientist confirmé avec minimum 6 ans d'expérience, maîtrisant l'ensemble de la chaîne de traitement de la donnée, du développement de modèles en Python jusqu'à leur industrialisation via CI/CD, Docker et Kubernetes sur des environnements cloud multi-cloud (Amazon Web Services, Azure, Databricks). Une expérience sur des projets à forte volumétrie de données est attendue, idéalement dans un secteur d'infrastructure ou de transport. Rigueur, autonomie et capacité à travailler en environnement technique exigeant sont indispensables.