Back to jobs
Yxir
Western Europe

Stage R&D Intelligence Artificielle Multimodale

Puteaux, France
2026-04-01

Role Description

**Contexte** Yxir recrute un(e) stagiaire Data Engineer \& LLM pour un stage de 6 mois afin de construire et fiabiliser les pipelines de traitement de la donnée client en amont de notre plateforme. Nos clients industriels disposent d'historiques qualité riches mais hétérogènes : fichiers Excel mal structurés, exports ERP fragmentés, PDFs de rapports, fiches de non-conformités en texte libre... Avant toute ingestion dans Yxir, cette donnée doit être nettoyée, normalisée, enrichie et mappée vers notre schéma cible. Vous interviendrez sur ce maillon critique de la chaîne de valeur, en concevant des pipelines intelligents qui s'appuient sur des LLMs pour automatiser la structuration et maximiser la qualité de l'input final de l'application. **La mission** Vos travaux s'articuleront autour de plusieurs axes : **1\. Traitement et normalisation de données hétérogènes** * Analyser et comprendre les formats sources des clients (Excel, CSV, PDF, exports SAP, données texte libre) * Concevoir et implémenter des pipelines de nettoyage, normalisation et déduplication * Identifier et traiter les problèmes de qualité : valeurs manquantes, incohérences, formats variables selon les sites ou les opérateurs **2\. Pipelines LLM pour la structuration automatique** * Concevoir des chaînes de traitement LLM (prompt engineering, parsing de sorties) pour extraire et structurer l'information depuis des sources non structurées * Automatiser la classification, l'enrichissement et la mise en forme des données qualité (types de NC, causes, actions correctives...) * Itérer sur les prompts et les stratégies d'extraction pour maximiser la fiabilité des outputs **3\. Mapping et paramétrage du modèle de données** * Comprendre le modèle de données cible de la plateforme Yxir * Construire les règles de correspondance entre les données sources et le schéma d'ingestion * Paramétrer en profondeur le modèle de données directement dans l'application Yxir : configuration des bases, des propriétés, des workflows selon le contexte client * Valider la conformité et l'exploitabilité de la donnée transformée avant et après import **4\. Automatisation \& outillage** * Développer des scripts Python réutilisables et paramétrables pour chaque type de source * Contribuer à la construction d'un framework interne de préparation de la donnée client * Documenter les pipelines et les choix techniques pour faciliter la maintenance et la montée en charge **Compétences développées** * Conception de pipelines data end-to-end sur des données réelles et imparfaites * Prompt engineering et intégration de LLMs dans des workflows de traitement de données * Manipulation avancée de données hétérogènes en Python (pandas, regex, parsing PDF/Excel...) * Compréhension des contraintes et enjeux de la donnée industrielle qualité * Pratique du travail en équipe produit/tech dans un environnement startup Type d'emploi : Stage Durée du contrat : 6 mois Rémunération : 1 100,00€ à 1 500,00€ par mois Lieu du poste : En présentiel

Stage R&D Intelligence Artificielle Multimodale

Yxir

Sign Up →