cover image
SOCOTEC

[STAGE] - DATA Engineer F/H

On site

Palaiseau, France

Internship

02-11-2025

Share this job:

Skills

Communication SQL NoSQL Big Data GitLab CI/CD Monitoring git power bi AWS Agile Hadoop Spark Databricks Kafka

Job Specifications

Description Du Poste

Au sein du Data & IA Hub SOCOTEC, vous rejoignez une équipe pluridisciplinaire chargée de concevoir, déployer et maintenir l’architecture Data du groupe à l’échelle internationale.

Vous contribuerez à la modernisation du Lakehouse SOCOTEC, cœur de la plateforme analytique mondiale, et participerez à des projets concrets de valorisation des données, de la conception à la data visualisation.

Vous travaillerez sur troismissions principales :

Développer des pipelines de données de bout en bout (ingestion, transformation, modélisation, exposition) et contribuer à la mise en place de visualisations dans Power BI ou Databricks SQL.
Améliorer en continu le Lakehouse SOCOTEC, notamment sur les volets gouvernance, qualité, et pseudonymisation des données.
Expérimenter des solutions d’IA générative appliquées à la data, comme GenIE de Databricks, pour transformer des requêtes textuelles en insights exploitables.

Le stack technique utilisée :

Amazon Web Services (AWS)
Databricks
Fivetran
Spark pour les pipelines ETL
Gitlab pour versionner les sources
S3
Power BI, l’outil de BI, géré avec les équipes BI

Chez SOCOTEC, les carrières sont construites avec vous vers ce qui vous correspond le mieux : expertise technique, management d’une équipe (lead data), etc.

Vous aurez la possibilité d’interagir à l’international (US, UK, ITA, ESP, NL) et des opportunités de mobilité internationale sont possibles.

Vous ferez preuve d’autonomie, de sagacité et de qualités certaines dans la rédaction et la communication de son code. L’offre peut déboucher sur un CDI à la fin du stage.

Qualifications

Master en Big Data, Informatique, ou Ingénierie logicielle avec une forte spécialisation ou appétence pour la data et les architectures distribuées.
Solide maîtrise des bases de données SQL et NoSQL (modélisation, requêtes optimisées, intégrité et performance).
Bonne compréhension des architectures Big Data et des outils de traitement distribués (Spark, Hadoop, Airflow, Kafka, Delta Lake…).
Expérience avec les environnements de développement collaboratif : Git, GitLab, Jupyter Notebooks, VS Code.
Connaissances appréciées des services cloud AWS (S3, Lambda, EMR, Glue, Redshift).
Familiarité avec les principes d’ETL/ELT, de Data Lakehouse et de DataOps (CI/CD, monitoring, qualité de données).
Intérêt pour les technologies émergentes, notamment l’IA Générative et son intégration dans les plateformes Data.
Esprit d’équipe, rigueur et sens de la collaboration dans un environnement agile.
Curiosité technique et capacité à apprendre rapidement de nouveaux outils et paradigmes.
Autonomie, sens du service et goût pour la résolution de problèmes complexes.
Anglais courant et technique, à l’écrit comme à l’oral.

About the Company

SOCOTEC has built its reputation over 70 years as an independent third party assisting companies in the areas of quality, health and safety, and the environment. Through its inspection and measurement, assistance and consultancy, and training and certification services, SOCOTEC helps to optimize the performance of companies in every sector by managing the risks inherent in their activities. Let's SOCOTEC With consolidated revenue of €1.2bn, operations in 27 countries, 200,000 clients, 12,500 employees and over 250 forms o... Know more