Offres de stage
Ces stages sont offerts préférentiellement aux étudiants de l’UFR de linguistique, mais les étudiants inscrits dans d’autres établissement peuvent toutefois postuler.

Stages 2024-2025 / Internships 2024-2025
NR = Non Rémunéré ; GR = Gratification Réglementaire
Laboratoire de Linguistique Formelle, UPC (Anne Abeillé), Licence et Master
Stages au LLF (UPC) Anne Abeillé
Stage 1 : L’accord du participe passé en français: une approche quantitative
Début souhaité en novembre 2024
M1,M2, GR
L’accord du participe passé avec avoir donne toujours des sueurs froides aux écoliers. Des études récentes au LLF ont montré que les modèles de langage de type BERT étaient sensibles aux dépendances à distance gouvernant cet accord, alors que les jugements d’acceptabilité humains ne montrent pas la même sensibilité.Des études quantitatives sur les réseaux sociaux montrent un taux d’accord très faible (Benzitoun & Flesch 2024). Nous voudrions tester, sur ce même corpus, quels facteurs (objet pronom, 3e personne, humain etc) (dé)favorisent l’accord du participe avec avoir. Des expériences controlées (tâche de lecture et de jugement d’acceptabilité) pourront contrôler les mêmes facteurs.
- Encadrement et labo : Anne Abeillé, Marie Flesch, Barbara Hemforth (LLF)
Benzitoun & Flesch 2024:
- Stage 2: Le purisme grammatical au XXIe siècle- Verbal hygiene in 21st century French
M1,M2, GRDébut souhaité janvier 2025Le français a une tradition ancienne de grammaires prescriptives, mais personne n’est d’accord sur ce qui constitue une ‘faute’ de grammaire.Internet a vu un boom sans précédent de purisme grammatical, de la part de spécialistes comme de non spécialistes. Il s’agira de constituer un corpus de messages et de recommendations,équilibré depuis 2000, entre experts et non experts, puristes et antipuristes, à partir de sites comme ceux de l’Académie française (Dire, ne pas dire) et du Figaro mais aussi de Twitter et des réseaux sociaux.
- Encadrement et labo : Anne Abeillé, Heather Burnett (LLF)
Stage 3: L’accord de proximité depuis le 17e siècle: Closest Conjunct agreement since the 17th centuryENGLISH. In French, closest conjunct agreement is quasi compulsory before plural nouns (certaines villes et villages) (Abeillé et al 2018) but feminine agreement after the same nouns (des chants et des danses bretonnes) has dropped sharply, especially for predicate adjectives (Abeillé et al 2022). We want to test singular coordinated nouns, on which 17th century grammarians disagreed, Vaugelas recommending CCA for attributive adjectives. The intern will search and annotate large corpora, such as Frantext. The language can vary depending on the intern’s language the available corpora.
L’accord de proximité est toujours quasi obligatoire devant les noms pluriels (certaines villes et villages) (Abeillé et al 2018) mais l’accord au féminin après ces mêmes noms a chuté (des chants et des danses bretonnes), en particulier pour l’attribut (Abeillé et al 2022). Nous voudrions tester l’accord en cas de coordination de deux noms singuliers de genre différents, pour lesquels les grammairiens du 17e siècle étaient partagés, Vaugelas recommandant l’accord de proximité pour l’épithète. Il s’agira d’exploiter les corpus annotés disponibles, en particulier Frantext. La langue étudiée pourra être fixée selon les compétences de l’étudiant.e, et les corpus disponibles.
- Type, durée, rémunération : L3,M1,M2, GR
- Encadrement et labo : Anne Abeillé (LLF)
Abeillé et al 2018
Abeillé et al 2022
Stage 4. Phrases elliptiques et marques de genre: une approche expérimentale / Ellipsis and gender : an experimental approach
Les phrases sans verbe ont souvent un équivalent verbal comme ‘Paul aime les pommes et ses enfants (aiment) les bananes.’ De nombreuses langues présentent des cas de mismatch, où la forme manquante n’est pas la même que celle de l’antécédent (ici aime/aiment). Le but du stage sera de tester des cas de mismatch de genre (Paul est plus grand que Marie.) et d’omission de la préposition (Paul rêve d’habiter à Paris et Marie Venise.), en montant des expériences de jugement d’acceptabilité. Il est possible de travailler sur une autre langue à genre grammatical.
ENGLISH. Verbless sentences tend to have verbal counterparts as in: Paul aime les pommes et ses enfants (aiment) les bananes.(‘Paul likes apples and his children bananas’). ‘Mismatch’ cases abound in many languages, where the missing form is not the same as the antecedent one (here the verb aime/aiment). The intern will run design and run acceptability judgement experiments on gender mismatch (Paul est plus grand que Marie. ‘Paul is taller.msg than Mary.’) and preposition omission (Paul rêve d’habiter à Paris et Marie Venise. ‘Paul dreams about living in Paris and Marie Venice’). Working on another gender marking language is possible too.
- Type, durée, rémunération : L3,M1,M2, GR
- Encadrement et labo : Anne Abeillé (LLF) & Emma Kious (LLF)
UFR d'Etudes Anglophones, UPC (Emmanuel Ferragne) - Master
Dans le cadre d’un projet pédagogique à l’UFR d’Etudes Anglophones, nous proposons un stage à un étudiant/une étudiante en master d’informatique/linguistique informatique à Université Paris Cité d’octobre à décembre 2024.
Il s’agira d’entraîner des modèles de reconnaissance d’accent (par ex., de les adapter à nos besoins et de décrire dans un document les différentes étapes impliquées dans ces tâches de sorte qu’on puisse les reproduire.
Ce stage donne lieu à une gratification financière.
Le lieu du stage est : bâtiment Olympe de Gouges, 8 place Paul Ricoeur, dans le 13e.
Laboratoire de Linguistique Formelle, UPC (Caterina Donati) - Licence et Master
Laboratoire de Linguistique Formelle, UPC (Anne Abeillé) - Master
Laboratoire de Linguistique Formelle, UPC (Jana Rameh), Licence et Master
Niveau : L1, L2, L3, M1
Compétences requises : connaissances en analyse de corpus (méthodes et outils d’analyse textuelle). Une appétence pour l’écriture inclusive est appréciée.
Rémunération : gratification réglementaire (GR).
Contact et laboratoire : Jana Rameh, LLF (Laboratoire de Linguistique Formelle).
Durée, dates : Début souhaité dès que possible ; durée à déterminer.
Description : nous recherchons une personne autonome et rigoureuse pour participer au recueil et à l’analyse de corpus de publications d’entreprises (scraping + analyse). Elle contribuera à organiser, collecter et analyser les résultats en lien avec l’utilisation de l’écriture inclusive dans les communications professionnelles.
Required skills: Knowledge of corpus analysis (methods and tools for textual analysis). An interest in inclusive writing is a plus.
Compensation: Regulatory stipend (GR).
Contact and laboratory: Jana Rameh, LLF (Laboratoire de Linguistique Formelle).
Duration, dates: start as soon as possible ; duration to be determined.
Description: we are looking for an autonomous and detail-oriented individual to participate in the collection and analysis of corporate publication corpora (scraping + analysis). The role will involve organizing, collecting, and analyzing the data, with a focus on the use of inclusive writing in professional communications.
Laboratoire de Linguistique Formelle, UPC (Anne Abeillé), Master
M1 or M2, paid
French required
Title: Annotation of Human Repair Initiation in Task-oriented Dialogue
Project Description:
Human language complexities often expose flaws such as misunderstandings, misinterpretations, speech impediments, or social norm violations.
Strategies people use in conversations to identify and address these problems, fostering mutual understanding, are called repair (Schegloff, 2007). Schegloff (2007) distinguishes repair types based on who initiates and who provides the solution between the speaker and the addressee.
The overall aim of this research is to create a conversational agent able to handle social repairs from its human interlocutors. To such an aim, it needs to detect when a repair arises and to recognize the type of repairs. To model such a capability, we will rely on annotated data.
This internship aims to annotate a corpus of dyads in term of social repairs.
- Annotating a corpus for multimodal analysis of conversational repair (Other-initiated Self-repair) through audio and video recordings (transcription provided) of human-human interaction.
- Identifying and labelling each part of conversational repair sequences and classifying different types of repair initiation.
- Ensuring annotation consistency by following predefined guidelines and collaborating with the team for clarification and updates.
- Annotations will be based on multimodal cues, including speech, facial expressions, body language, and dialogue context.
- Good attention to detail and ability to follow annotation protocols.
- Basic knowledge of linguistics and conversational analysis will be helpful.
- Experience with data annotation tools (e.g., ELAN, Praat, or similar) is a plus.
- Preferably have a background in linguistics, cognitive science, or computer science with interest in human-human, human-agent interaction.
Applications: send CV and names of referent to and
Laboratoire de Linguistique Formelle, UPC (Patrick Caudal), L3, M1, M2
Laboratoire de Linguistique Formelle, UPC (Ira Noveck), L3, M
- M1 ou M2
- Gratification de stage
- Tuteur : M. Ira Noveck, DR CNRS (, Laboratoire de Linguistique Formelle, Université Paris Cité Durée : 4 mois temps 30H/mois. À commencer en février 2025
- Descriptif : Dans le cadre d’une étude développementale sur les connecteurs discursifs (termes tels que mais et alors), nous recueillons des données auprès d’enfants et adultes au moyen de tablettes (commençons avec les adultes). Le travail consisterait à trouver des écoles et à se rendre dans les classes (ou de chercher les adultes individuellement) pour collecter des données. Si quelqu’un a accès à des écoles situées en dehors de Paris, ce serait avantageux. Niveau de français : Il faut se débrouiller (langue maternelle francaise est avantageuse).
- Contacte:
Laboratoires LLF et HTL (UPC) et LACITO (Guillaume Wisniewski, Aimée Lahaussois et Séverine Guillaume), L3, M1
Offre de Stage : Développement d’un dictionnaire de verbe pour le thulung
(English below)
Stage gratifié.
Description du stage : Nous recherchons un(e) stagiaire pour participer au développement d’un dictionnaire pour le thulung, une langue tibéto-birmane de l’est du Népal. Ce projet se déroulera en deux étapes principales :
1. Extraction et structuration des données : Extraction des informations pertinentes à partir de fichiers ELAN recueillis sur le terrain, en intégrant des liens vers des données audio. Ces données seront stockées dans un format approprié (XML ou autre).
2. Génération automatique d’une page HTML : Cette page similaire à celle accessible ici permettra aux utilisateurs·trices de consulter le dictionnaire et d’effectuer des recherches.
Compétences requises :
● Programmation en Python pour le traitement des données linguistiques.
● Connaissance des formats XML et ELAN (ou motivation pour les apprendre).
● Compétences en développement web (HTML, CSS, XSL) pour la visualisation du dictionnaire.
Durée et Modalités :
● Stage de 1 mois, date de démarrage et organisation à déterminer avec le ou la candidat·e.
Candidature : Envoyez votre CV et une lettre de motivation à et
Internship Offer: Development of a Digital Verb Dictionary for Thulung
Internship Description: We are looking for an intern to contribute to the development of a verb dictionary for Thulung, a Tibeto-Burman language. This project consists of two main phases:
1. Data Extraction and Structuring: Extract relevant information from ELAN files collected in the field, incorporating links to audio data. These data will be stored in an appropriate format (XML or another suitable format).
2. Development of a Web Page: Design a web interface similar to the one that can be seen here allowing users to browse and search the dictionary.
Required Skills:
● Python programming for linguistic data processing.
● Knowledge of XML and ELAN formats (or willingness to learn).
● Web development skills (HTML, CSS, XSL) for dictionary visualization.
Duration and Conditions:
● Internship duration: 1 month, start date to be agreed with the candidate.
● Remote work possible.
Application: Send your CV and a cover letter to et
Stages sans indication de date
Stages au Laboratoire de Linguistique Formelle (UPC)
Stages en sémantique et pragmatique sur des sujets tels que les quantificateurs, les structures distributives et proportionnelles, ou la structure argumentale des verbes. Il s’agira d’études théoriques, bibliographiques et sur corpus.
- Type, durée, rémunération : L3 et M1, NR
- Encadrement et labo : Lucia Tovena (LLF)
Stage au LLF (UPC)
Title: Transition parsing and Q-learning
Duration: at least 3 months
Supervisor: T. Bernard
Expected profile: Very good programming skills, interest in neural-based machine learning, Master 1 or Master 2 in computational linguistics or computer science
Syntactic transition parsers such as shift-reduce parsers and arc-eager parsers are straigthforward to implement and train in the standard (teacher forcing) supervised fashion (see, e.g., Chen and Manning 2014 and Dyer et al. 2015). Standard supervised training, however, aims at maximising the log-likelihood of the annotated (gold) structures of the training data while the quantity that matters most is the expected F1/attachement score (the actual performance of the parser). In addition, while beam-search decoding is the most standard improvement on greedy-decoding, there are reasons to believe that beams based on the probability of the hypotheses are not particularly good at dealing with ambiguity. Indeed, if a parsing hypothesis has two plausible continuations, the probabilities of each of these continuations will suffer from the existence of the other, which means that both might be ejected from the beam (while less plausible parsing hypotheses might stay in the beam).
Thanks to the advance of reinforcement learning in general and Q-learning in particular (see, e.g., Mnih et al. 2013), it has become easier to train a parser so as to optimise a metric such as its expected F1/attachement score. One particularity of reinforcement learning schemes is that the system is not trained on gold trajectories (the trajectories from an initial state to a complete gold parse), but on its own predicted trajectories. A parser trained in such a fashion is thus expected to be more reliable at prediction time. A particularity of Q-learning more specifically is that it is not based on estimating probabilities for actions but values for states (in this case, parsing states) in such a way that maximising the parser’s objective is compatible with two continuations of the same parsing hypothesis both having high value. This is somewhat reminiscent of the structured perception used by Weiss et al. (2015). It thus seems that beams based on state value rather than probability might be better at dealing with ambiguity.
The goal of this research internship is to adapt a traditional transition parser in order to train it with a mix of Q-learning and standard log-likelihood maximisation. The impact of Q-learning training on greedy and beam-seach decoding will be studied.
Depending on the profile of the students, other questions might be approached instead; such as how model calibration impacts the performance of beam-search decoding, and whether A* decoding can be implemented as a viable alternative to beam-search decoding.
Relevant references:
— Chen, Danqi, and Christopher Manning. ‘A Fast and Accurate Dependency Parser Using Neural Networks’. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 740–50. Doha, Qatar: Association for Computational Linguistics, 2014.
— Dyer, Chris, Miguel Ballesteros, Wang Ling, Austin Matthews, and Noah A. Smith. ‘Transition-Based Dependency Parsing with Stack Long Short-Term Memory’. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 334–43, 2015.
— Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. ‘Playing Atari with Deep Reinforcement Learning’, 2013.
— Weiss, David, Chris Alberti, Michael Collins, and Slav Petrov. ‘Structured Training for Neural Network Transition-Based Parsing’. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 323–33. Beijing, China: Association for Computational Linguistics, 2015.
Offres de stages passées / Past offers of internships
