Publié il y a 15 jours

Data Engineer (H/F)

Entreprise

Cherry PickPlateforme freelance

Localisation

Paris

Hybride

Type de contrat

Freelance

Niveau

SENIOR

Rémunération

600€• Taux journalier

0vues

0clics

Description du poste

🧠 Contexte de mission

Dans le cadre d’un programme de transformation Data à grande échelle, une squad spécialisée dans les services d’ingestion de données doit mettre en place un module générique d’ingestion de fichiers Excel et CSV à destination d’un Data Lake multi-cloud.

L’objectif est de développer une solution transverse capable :

d’ingérer des fichiers hétérogènes (.xlsx, .xls, .csv),
de générer automatiquement des Data Contracts,
d’orchestrer les traitements via des composants IA,
et d’alimenter des Data Products exploités par plusieurs squads métiers.

La solution s’intègre dans un écosystème existant combinant :

Azure ADLS Gen2,
AWS S3,
Databricks,
frameworks d’ingestion internes,
composants IA/LLM,
gouvernance data.

La mission se situe à l’intersection de la Data Engineering, de la gouvernance des données et de l’IA générative.

🎯 Missions principales et rôle

📥 Développement du connecteur d’ingestion Excel / CSV

Développer un connecteur capable d’ingérer des fichiers :
- .xlsx,
- .xls,
- .csv.
Assurer le dépôt des données dans la couche RAW du Data Lake :
- Azure ADLS Gen2,
- AWS S3.
Gérer :
- les encodages,
- les formats de dates,
- les feuilles multiples,
- les colonnes variables,
- les données hétérogènes.
Implémenter les mécanismes :
- Upsert,
- Overwrite,
- versioning des fichiers.

🧾 Génération de Data Contracts & Gouvernance

Générer automatiquement des Data Contracts via Pydantic.
Construire les schémas de validation :
- types,
- structure,
- règles de qualité,
- fréquence d’alimentation.
Implémenter la validation générique avant stockage RAW.
Garantir :
- la traçabilité,
- la qualité,
- la conformité des données.
Collaborer avec les équipes gouvernance et référentiel data.

🤖 Middleware IA & orchestration

Développer les services Python constituant la couche middleware.
Intégrer les traitements dans l’écosystème IA / LLMHub.
Interfacer les Agents IA avec les mécanismes d’ingestion.
Benchmarker et réutiliser les frameworks existants afin d’assurer la cohérence d’architecture.

🔄 Cycle produit & collaboration Agile

Participer aux phases :
- Discovery,
- Build,
- Run,
- Monitoring.
Collaborer avec :
- Product Owner,
- Tech Leads,
- squads Data Products.
Participer aux revues de code et à la documentation technique.

🎯 Objectifs de la mission

Industrialiser l’ingestion de fichiers Excel/CSV dans un environnement Data multi-cloud.
Standardiser la génération de Data Contracts.
Renforcer la gouvernance et la qualité des données.
Intégrer les capacités IA dans les workflows d’ingestion.
Construire un produit transverse réutilisable à l’échelle entreprise.

🛠️ Compétences requises

💻 Compétences techniques

Python avancé.
Maîtrise confirmée de Pydantic.
Développement API et middleware.
Databricks avancé.
Azure ADLS Gen2.
AWS S3 et IAM.
Parsing avancé de fichiers Excel / CSV.
Gestion des schémas et validation de données.
Concepts Data Governance.
IA générative et orchestration d’agents IA.

☁️ Cloud & sécurité

Azure :
- Entra ID,
- Key Vault,
- ADLS Gen2.
AWS :
- S3,
- IAM.
Gestion des accès et sécurisation des pipelines.

🤝 Soft skills

Forte capacité d’analyse.
Esprit produit et industrialisation.
Capacité à évoluer dans des environnements complexes et transverses.
Collaboration Agile et communication avec plusieurs squads.
Autonomie et rigueur technique.

👤 Profil recherché

Data Engineer expérimenté.
Forte expertise Python orientée parsing et validation de données.
Expérience significative sur la génération de schémas via Pydantic.
Bonne compréhension des enjeux de gouvernance data.
Expérience cloud Azure et AWS.
Une connaissance de frameworks d’ingestion enterprise ou d’écosystèmes data industriels est fortement appréciée.

Exigences du poste

Stack technique :

PythonPydanticAPIMiddlewareDatabricksAzure ADLSGen2AWS S3IAMParsingExcelCsvSchemasData governanceIA générativeAzureEntra idKey VaultAdls gen2AWSS3Gestion des accèsPipelines

À propos de l'entreprise

Cherry PickPlateforme freelance

Secteur ::Energie

Voir toutes les offres de Cherry Pick

Publié par

Recruteur

Intéressé par cette offre ?

Cliquez sur "Postuler" pour accéder à l'offre.