cover image
Dassault Systèmes

STAGE - Ingénieur en intelligence artificielle appliquée à la littérature scientifique en science des matériaux (F/H)

On site

Vélizy-villacoublay, France

Internship

12-11-2025

Share this job:

Skills

Communication Python Big Data Machine Learning PyTorch Scikit-Learn TensorFlow Numpy Pandas Data Science NLP

Job Specifications

Les solutions cloud de BIOVIA permettent la cr�ion, le traitement, l�interpr�tion, le stockage et la gestion des donn� scientifiques afin de soutenir la recherche, le d�loppement et la fabrication dans les domaines des mat�aux et des produits pharmaceutiques. Nos solutions en science des mat�aux et ing�erie, biosciences, et informatique scientifique et de laboratoire sont largement utilis� dans les laboratoires et centres de recherche �ravers le monde.

Nos �ipes R&D �ndent les solutions sur site vers le cloud, faisant de cette opportunit�ne excellente occasion d�aider �ransformer la livraison des logiciels et �outenir la recherche et les laboratoires du futur.

Les objectifs de l��ipe sont ax�sur la qualit�ogicielle et les exigences r�ementaires de l�industrie (par exemple, la conformit�xP), qui reposent de plus en plus sur l�automatisation des tests et les fonctionnalit�d�IA. Cela n�ssite et g�re un volume croissant de donn�, dont nous souhaitons analyser les retours d�exp�ence pour une am�oration continue.

Pour renforcer nos efforts continus d�am�oration de nos op�tions et rester �a pointe de l�innovation en science des donn�, nous recherchons un stagiaire passionn�n Data Science.

Vos missions :

Votre mission sera de travailler sur un projet centr�ur notre processus interne et de nous accompagner dans notre d�rche d�am�oration continue en collaboration entre les sites de V�zy et de Cambridge (Royaume-Uni). Vous aurez l�opportunit�e g�rer et analyser des donn� li� �os tests de service continus et de soutenir notre d�rtement Qualit�n utilisant des techniques et outils avanc�de Data Science.

Vous jouerez un r�cl�u sein de l�organisation en pr�ntant des id� innovantes, en identifiant les tendances �rgentes et en formulant des recommandations concr�s li� aux op�tions de nos �ipes.

Ce stage vous permettra d�acqu�r une exp�ence pratique en manipulation de donn�, analyse statistique et mod�sation pr�ctive, renfor�t ainsi vos comp�nces et connaissances dans le domaine de la science des donn�.

Description :

D�lopper des concepts et prototypes utilisant les mod�s de langage de grande taille (LLM) pour informer et acc�rer les projets en science des mat�aux en acc�nt aux derni�s informations issues de sources publiques et de la litt�ture ouverte, et g�rer des jeux de donn� g�s par les applications BIOVIA (par exemple Scientific Notebook, Materials Management, Scientific Insight, etc.).

D�ils :

Ce stage explorera l�utilisation des LLM pour automatiser l�extraction, la validation et l�analyse statistique des informations issues de la litt�ture scientifique open-source en science des mat�aux. Le projet s�appuiera sur un serveur MCP Python pour orchestrer une cha� automatis�incluant la recherche web, le scraping de donn�, la r�p�tion s�ntique et la synth� sp�fique au domaine :

L�objectif est de transformer les donn� textuelles non structur� � principalement issues d�articles en acc�libre � en connaissances structur� et exploitables. Cela comprend l�identification des param�es exp�mentaux, des r�ltats et des tendances dans divers domaines des mat�aux.

Technologies et capacit�cl�:

Serveur MCP Python : Hub central pour la gestion des appels API, l�ingestion des donn� et les workflows d�analyse.

Recherche Web Automatis�& Validation : Enrichissement en temps r� et recoupement des donn� extraites via une v�fication factuelle bas�sur LLM.

Pipeline scientifique RAG : Retrieval-Augmented Generation adapt� la litt�ture scientifique, permettant Q&A contextuel et synth�.

Int�ation base de donn� : Stockage structur�es insights extraits pour requ�s et analyses en aval.

Moteur d�analyse statistique : G�ration automatis�de statistiques descriptives, corr�tions et visualisations de tendances.

Vos qualifications :

Etudiant.e pr�rant un dipl�de niveau BAC+5, Ecole d'Ing�eurs ou Master Universitaire, avec une sp�alisation en Data Science / Intelligence Artificielle.

Ma�ise de Python et des biblioth�es de data science (Pandas, Numpy, Scikit-learn, TensorFlow, PyTorch).

Connaissances approfondies des techniques de machine learning et de traitement du langage naturel (NLP).

Exp�ence en analyse de donn�, clustering, d�ction d�anomalies et classification.

Int�t pour la recherche et d�loppement dans les domaines de la science des mat�aux et des sciences de la vie.

Bonnes comp�nces en communication pour pr�nter les r�ltats d�analyse.

Capacit� travailler de mani� autonome et ��udre des probl�s complexes.

Veille technologique sur les derni�s tendances en data science et big data.

Bonnes comp�nces en communication et capacit� pr�nter efficacement les donn�.

Aptitude �ravailler dans un environnement international

About the Company

Dassault Systèmes, the 3DEXPERIENCE Company, is a catalyst for human progress. We provide business and people with collaborative virtual environments to imagine sustainable innovations. By creating virtual twin experiences of the real world with our 3DEXPERIENCE platform and applications, our customers can redefine the creation, production and life-cycle-management processes of their offer and thus have a meaningful impact to make the world more sustainable. The beauty of the Experience Economy is that it is a human-centered... Know more