Publié il y a 15 jours
Data Engineer (H/F)
Entreprise
Cherry PickPlateforme freelance
Localisation
Paris
Hybride
Type de contrat
Freelance
Niveau
SENIOR
Rémunération
600ۥ Taux journalier
0vues
0clics
Description du poste
🧠 Contexte de mission
Dans le cadre d’un programme de transformation Data à grande échelle, une squad spécialisée dans les services d’ingestion de données doit mettre en place un module générique d’ingestion de fichiers Excel et CSV à destination d’un Data Lake multi-cloud.
L’objectif est de développer une solution transverse capable :
- d’ingérer des fichiers hétérogènes (.xlsx, .xls, .csv),
- de générer automatiquement des Data Contracts,
- d’orchestrer les traitements via des composants IA,
- et d’alimenter des Data Products exploités par plusieurs squads métiers.
La solution s’intègre dans un écosystème existant combinant :
- Azure ADLS Gen2,
- AWS S3,
- Databricks,
- frameworks d’ingestion internes,
- composants IA/LLM,
- gouvernance data.
La mission se situe à l’intersection de la Data Engineering, de la gouvernance des données et de l’IA générative.
🎯 Missions principales et rôle
📥 Développement du connecteur d’ingestion Excel / CSV
-
Développer un connecteur capable d’ingérer des fichiers :
-
.xlsx, -
.xls, -
.csv.
-
-
Assurer le dépôt des données dans la couche RAW du Data Lake :
- Azure ADLS Gen2,
- AWS S3.
-
Gérer :
- les encodages,
- les formats de dates,
- les feuilles multiples,
- les colonnes variables,
- les données hétérogènes.
-
Implémenter les mécanismes :
- Upsert,
- Overwrite,
- versioning des fichiers.
🧾 Génération de Data Contracts & Gouvernance
- Générer automatiquement des Data Contracts via Pydantic.
-
Construire les schémas de validation :
- types,
- structure,
- règles de qualité,
- fréquence d’alimentation.
- Implémenter la validation générique avant stockage RAW.
-
Garantir :
- la traçabilité,
- la qualité,
- la conformité des données.
- Collaborer avec les équipes gouvernance et référentiel data.
🤖 Middleware IA & orchestration
- Développer les services Python constituant la couche middleware.
- Intégrer les traitements dans l’écosystème IA / LLMHub.
- Interfacer les Agents IA avec les mécanismes d’ingestion.
- Benchmarker et réutiliser les frameworks existants afin d’assurer la cohérence d’architecture.
🔄 Cycle produit & collaboration Agile
-
Participer aux phases :
- Discovery,
- Build,
- Run,
- Monitoring.
-
Collaborer avec :
- Product Owner,
- Tech Leads,
- squads Data Products.
- Participer aux revues de code et à la documentation technique.
🎯 Objectifs de la mission
- Industrialiser l’ingestion de fichiers Excel/CSV dans un environnement Data multi-cloud.
- Standardiser la génération de Data Contracts.
- Renforcer la gouvernance et la qualité des données.
- Intégrer les capacités IA dans les workflows d’ingestion.
- Construire un produit transverse réutilisable à l’échelle entreprise.
🛠️ Compétences requises
💻 Compétences techniques
- Python avancé.
- Maîtrise confirmée de Pydantic.
- Développement API et middleware.
- Databricks avancé.
- Azure ADLS Gen2.
- AWS S3 et IAM.
- Parsing avancé de fichiers Excel / CSV.
- Gestion des schémas et validation de données.
- Concepts Data Governance.
- IA générative et orchestration d’agents IA.
☁️ Cloud & sécurité
-
Azure :
- Entra ID,
- Key Vault,
- ADLS Gen2.
-
AWS :
- S3,
- IAM.
- Gestion des accès et sécurisation des pipelines.
🤝 Soft skills
- Forte capacité d’analyse.
- Esprit produit et industrialisation.
- Capacité à évoluer dans des environnements complexes et transverses.
- Collaboration Agile et communication avec plusieurs squads.
- Autonomie et rigueur technique.
👤 Profil recherché
- Data Engineer expérimenté.
- Forte expertise Python orientée parsing et validation de données.
- Expérience significative sur la génération de schémas via Pydantic.
- Bonne compréhension des enjeux de gouvernance data.
- Expérience cloud Azure et AWS.
- Une connaissance de frameworks d’ingestion enterprise ou d’écosystèmes data industriels est fortement appréciée.
Exigences du poste
Stack technique :
PythonPydanticAPIMiddlewareDatabricksAzure ADLSGen2AWS S3IAMParsingExcelCsvSchemasData governanceIA générativeAzureEntra idKey VaultAdls gen2AWSS3Gestion des accèsPipelines
À propos de l'entreprise
Cherry PickPlateforme freelance
Secteur ::Energie
Publié par
Recruteur
Recruteur
Intéressé par cette offre ?
Cliquez sur "Postuler" pour accéder à l'offre.