INTERNSHIP DETAILS

STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois

CompanyThales
LocationPalaiseau
Work ModeOn Site
PostedDecember 14, 2025
Internship Information
Core Responsibilities
The intern will work on solving multi-agent games with incomplete information, focusing on implementing advanced reinforcement learning techniques. The goal is to enhance the performance of the game Zenith by applying state-of-the-art methods and evaluating their effectiveness.
Internship Type
full time
Company Size
62561
Visa Sponsorship
No
Language
French
Working Hours
40 hours
Apply Now →

You'll be redirected to
the company's application page

About The Company
Thales (Euronext Paris: HO) is a global leader in advanced technologies for the Defence, Aerospace, and Cyber & Digital sectors. Its portfolio of innovative products and services addresses several major challenges: sovereignty, security, sustainability and inclusion. The Group invests more than €4 billion per year in Research & Development in key areas, particularly for critical environments, such as Artificial Intelligence, cybersecurity, quantum and cloud technologies. Thales has more than 83,000 employees in 68 countries. In 2024, the Group generated sales of €20.6 billion.
About the Role
Lieu : Palaiseau, France<p style="text-align:inherit"></p><p style="text-align:inherit"></p><h2><b><span>Construisons ensemble un avenir de confiance</span></b></h2><p style="text-align:inherit"></p><p style="text-align:left"><span>Thales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et plus inclusif. Le Groupe investit près de 4 milliards d’euros par an en Recherche & Développement, notamment dans des domaines clés de l’innovation tels que l’IA, la cybersécurité, le quantique, les technologies du cloud et la 6G. Thales compte près de 81 000 collaborateurs dans 68 pays.</span> ​</p><p style="text-align:inherit"></p><p style="text-align:inherit"></p><p style="text-align:inherit"></p><h2><b>Nos engagements, vos avantages</b></h2><ul><li><p style="text-align:left">Notre savoir-faire technologique</p></li><li><p style="text-align:left">Notre attention portée à l’équilibre des collaborateurs</p></li><li><p style="text-align:left">Un environnement inclusif et bienveillant</p></li><li><p style="text-align:left">Un engagement sociétal et environnemental reconnu (Thales Solidarity, indice CAC 40 ESG…)</p></li></ul><p style="text-align:inherit"></p><p style="text-align:inherit"></p><h2><b>Votre quotidien</b></h2>Thales Research&Technology, notre centre de recherche dans les domaines matériels, et CortAIx Labs, notre centre de recherche en IA et digital ont pour mission de proposer des innovations de ruptures, de maintenir et d’accroitre l’avance technologique et d’en assurer la compétitivité pour le groupe.<p style="text-align:inherit"></p><p style="text-align:inherit"></p><p><span>Résoudre des jeux multi-agents à information incomplète (contrairement aux échecs ou au go) est un défi majeur : chaque agent doit raisonner avec de l’incertitude sur l’état réel du jeu et sur les intentions des adversaires. Les approches de type Counterfactual Regret Minimization (CFR) ont montré leur efficacité lorsque la combinatoire reste limitée. Plus récemment, des travaux de pointe de Google Deepmind en 2023 ont démontré qu’un apprentissage par renforcement et des architectures dédiées peuvent atteindre un niveau expert sur des jeux à très grande combinatoire comme Stratego.</span></p><p></p><p><span>Votre objectif sera de reproduire les principes de ces approches de pointe sur le jeu Zenith (multi-agents, information incomplète, complexité intermédiaire). L’enjeu sera de dépasser les limites des méthodes CFR « pures » en s’appuyant sur des techniques d’apprentissage par renforcement et de recherche mieux adaptées à ce cadre.</span></p><p></p><p><span>Dans ce contexte, vous aurez pour missions :</span></p><ul><li><p><span>État de l’art : jeux à information incomplète, CFR/Deep-CFR, self-play, régularisation/équilibres, estimation de croyances (beliefs) et modèles d’adversaires.</span></p></li><li><p><span>Modélisation de Zenith : spécification des règles, états partiellement observables, espaces d’actions, mécanismes de révélation d’information.</span></p></li><li><p><span>Implémentation : environnement d’entraînement, RL basé sur les agents (policy/value), gestion de l’exploration/exploitation sous incertitude.</span></p></li><li><p><span>Évaluation : métriques de performance (win-rate, ELO, exploitabilité), ablations (avec/sans croyances, variations de budget de calcul), robustesse face à des stratégies variées.</span></p></li><li><p><span>Valorisation : analyse de la transposabilité aux cas d’usage Thales (entraînement stratégique/tactique, raisonnement en environnement électromagnétique avec brouillage/anti-brouillage).</span></p></li></ul><p></p><h2><b>Votre profil </b></h2><h2><b>STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois</b></h2><h2></h2><p>Vous avez envie de découvrir le domaine de la recherche ?</p><p>Vous avez pour ambition de réaliser votre stage au sein de Thales ?</p><p></p><p>Etudiant en M2, en Ecole d’ingénieur en IA, Maths appliquées ou informatique, vous avez des connaissances en :</p><ul><li><p>Pratique de Python et d’un framework deep learning (PyTorch)</p></li><li><p>Vous avez une bonne base en RL, théorie des jeux ou optimisation</p></li><li><p>Anglais (niveau B2-C1 attendu)</p></li></ul><p></p><p>Rigueur, autonomie et goût pour l’expérimentation sont des atouts que l'on vous reconnait ?</p><p>Alors ce stage est fait pour vous !</p><p></p><p></p>Tous nos stages sont conventionnés et soumis à une gratification dont le montant est déterminé selon votre niveau d’études.<p style="text-align:inherit"></p><p style="text-align:inherit"></p>Thales, entreprise Handi-Engagée, reconnait tous les talents. La diversité est notre meilleur atout. Postulez et rejoignez nous !
Key Skills
PythonDeep LearningReinforcement LearningGame TheoryOptimizationSelf-PlayModelingImplementationEvaluationPerformance MetricsExplorationExploitationRobustnessTransposabilityAIResearch
Categories
TechnologyScience & ResearchEngineering