Publié il y a 15 jours

Data Engineer (H/F)

Entreprise
Cherry PickPlateforme freelance
Localisation
Paris
Hybride
Type de contrat
Freelance
Niveau
SENIOR
Rémunération
600€Taux journalier
0vues
0clics

Description du poste

🧠 Contexte de mission

Dans le cadre d’un programme de transformation Data à grande échelle, une squad spécialisée dans les services d’ingestion de données doit mettre en place un module générique d’ingestion de fichiers Excel et CSV à destination d’un Data Lake multi-cloud.

L’objectif est de développer une solution transverse capable :

  • d’ingérer des fichiers hétérogènes (.xlsx, .xls, .csv),
  • de générer automatiquement des Data Contracts,
  • d’orchestrer les traitements via des composants IA,
  • et d’alimenter des Data Products exploités par plusieurs squads métiers.

La solution s’intègre dans un écosystème existant combinant :

  • Azure ADLS Gen2,
  • AWS S3,
  • Databricks,
  • frameworks d’ingestion internes,
  • composants IA/LLM,
  • gouvernance data.

La mission se situe à l’intersection de la Data Engineering, de la gouvernance des données et de l’IA générative.

🎯 Missions principales et rôle

📥 Développement du connecteur d’ingestion Excel / CSV

  • Développer un connecteur capable d’ingérer des fichiers :
    • .xlsx,
    • .xls,
    • .csv.
  • Assurer le dépôt des données dans la couche RAW du Data Lake :
    • Azure ADLS Gen2,
    • AWS S3.
  • Gérer :
    • les encodages,
    • les formats de dates,
    • les feuilles multiples,
    • les colonnes variables,
    • les données hétérogènes.
  • Implémenter les mécanismes :
    • Upsert,
    • Overwrite,
    • versioning des fichiers.

🧾 Génération de Data Contracts & Gouvernance

  • Générer automatiquement des Data Contracts via Pydantic.
  • Construire les schémas de validation :
    • types,
    • structure,
    • règles de qualité,
    • fréquence d’alimentation.
  • Implémenter la validation générique avant stockage RAW.
  • Garantir :
    • la traçabilité,
    • la qualité,
    • la conformité des données.
  • Collaborer avec les équipes gouvernance et référentiel data.

🤖 Middleware IA & orchestration

  • Développer les services Python constituant la couche middleware.
  • Intégrer les traitements dans l’écosystème IA / LLMHub.
  • Interfacer les Agents IA avec les mécanismes d’ingestion.
  • Benchmarker et réutiliser les frameworks existants afin d’assurer la cohérence d’architecture.

🔄 Cycle produit & collaboration Agile

  • Participer aux phases :
    • Discovery,
    • Build,
    • Run,
    • Monitoring.
  • Collaborer avec :
    • Product Owner,
    • Tech Leads,
    • squads Data Products.
  • Participer aux revues de code et à la documentation technique.

🎯 Objectifs de la mission

  • Industrialiser l’ingestion de fichiers Excel/CSV dans un environnement Data multi-cloud.
  • Standardiser la génération de Data Contracts.
  • Renforcer la gouvernance et la qualité des données.
  • Intégrer les capacités IA dans les workflows d’ingestion.
  • Construire un produit transverse réutilisable à l’échelle entreprise.

🛠️ Compétences requises

💻 Compétences techniques

  • Python avancé.
  • Maîtrise confirmée de Pydantic.
  • Développement API et middleware.
  • Databricks avancé.
  • Azure ADLS Gen2.
  • AWS S3 et IAM.
  • Parsing avancé de fichiers Excel / CSV.
  • Gestion des schémas et validation de données.
  • Concepts Data Governance.
  • IA générative et orchestration d’agents IA.

☁️ Cloud & sécurité

  • Azure :
    • Entra ID,
    • Key Vault,
    • ADLS Gen2.
  • AWS :
    • S3,
    • IAM.
  • Gestion des accès et sécurisation des pipelines.

🤝 Soft skills

  • Forte capacité d’analyse.
  • Esprit produit et industrialisation.
  • Capacité à évoluer dans des environnements complexes et transverses.
  • Collaboration Agile et communication avec plusieurs squads.
  • Autonomie et rigueur technique.

👤 Profil recherché

  • Data Engineer expérimenté.
  • Forte expertise Python orientée parsing et validation de données.
  • Expérience significative sur la génération de schémas via Pydantic.
  • Bonne compréhension des enjeux de gouvernance data.
  • Expérience cloud Azure et AWS.
  • Une connaissance de frameworks d’ingestion enterprise ou d’écosystèmes data industriels est fortement appréciée.

Exigences du poste

Stack technique :

PythonPydanticAPIMiddlewareDatabricksAzure ADLSGen2AWS S3IAMParsingExcelCsvSchemasData governanceIA générativeAzureEntra idKey VaultAdls gen2AWSS3Gestion des accèsPipelines

À propos de l'entreprise

Cherry PickPlateforme freelance
Secteur ::Energie
Voir toutes les offres de Cherry Pick

Publié par

Recruteur
Recruteur

Intéressé par cette offre ?

Cliquez sur "Postuler" pour accéder à l'offre.