Offres de stage

Ces stages sont offerts préférentiellement aux étudiants de l’UFR de linguistique, mais les étudiants inscrits dans d’autres établissement peuvent toutefois postuler. 

© Université Paris Cité

 

Stages 2024-2025  / Internships 2024-2025

NR = Non Rémunéré ; GR = Gratification Réglementaire

Laboratoire de Linguistique Formelle, UPC (Anne Abeillé), Licence et Master
Stages au LLF (UPC) Anne Abeillé

Stage 1 : L’accord du participe passé en français: une approche quantitative

Début souhaité en novembre 2024

M1,M2, GR

L’accord du participe passé avec avoir donne toujours des sueurs froides aux écoliers. Des études récentes au LLF ont montré que les modèles de langage de type BERT étaient sensibles aux dépendances à distance gouvernant cet accord, alors que les jugements d’acceptabilité humains ne montrent pas la même sensibilité.
Des études quantitatives sur les réseaux sociaux montrent un taux d’accord très faible (Benzitoun & Flesch 2024). Nous voudrions tester, sur ce même corpus, quels facteurs (objet pronom, 3e personne, humain etc) (dé)favorisent l’accord du participe avec avoir.  Des expériences controlées (tâche de lecture et de jugement d’acceptabilité) pourront contrôler les mêmes facteurs. 
  • Encadrement et labo : Anne Abeillé, Marie Flesch, Barbara Hemforth (LLF)

Benzitoun & Flesch 2024: https://www.shs-conferences.org/articles/shsconf/abs/2024/11/shsconf_cmlf2024_14004/shsconf_cmlf2024_14004.html

  • Stage 2: Le purisme grammatical au XXIe siècle- Verbal hygiene in 21st century French
  •  
    M1,M2, GR
    Début souhaité janvier 2025
    Le français a une tradition ancienne de grammaires prescriptives, mais personne n’est d’accord sur ce qui constitue une ‘faute’ de grammaire.
    Internet a vu un boom sans précédent de purisme grammatical, de la part de spécialistes comme de non spécialistes. Il s’agira de constituer un corpus de messages et de recommendations,
     équilibré depuis 2000, entre experts et non experts, puristes et antipuristes, à partir de sites comme ceux de l’Académie française (Dire, ne pas dire) et du Figaro mais aussi de Twitter et des réseaux sociaux.
    • Encadrement et labo : Anne Abeillé, Heather Burnett (LLF)
     
    Stage 3: L’accord de proximité depuis le 17e siècle: Closest Conjunct agreement since the 17th century

    ENGLISH. In French, closest conjunct agreement is quasi compulsory before plural nouns (certaines villes et villages) (Abeillé et al 2018) but feminine agreement after the same nouns (des chants et des danses bretonnes) has dropped sharply, especially for predicate adjectives (Abeillé et al 2022). We want to test singular coordinated nouns, on which 17th century grammarians disagreed, Vaugelas recommending CCA for attributive adjectives. The intern will search and annotate large corpora, such as Frantext. The language can vary depending on the intern’s language the available corpora.

    L’accord de proximité est toujours quasi obligatoire devant les noms pluriels (certaines villes et villages) (Abeillé et al 2018) mais l’accord au féminin après ces mêmes noms a chuté (des chants et des danses bretonnes), en particulier pour l’attribut (Abeillé et al 2022). Nous voudrions tester l’accord en cas de coordination de deux noms singuliers de genre différents, pour lesquels les grammairiens du 17e siècle étaient partagés, Vaugelas recommandant  l’accord de proximité pour l’épithète. Il s’agira d’exploiter les corpus annotés disponibles, en particulier Frantext. La langue étudiée pourra être fixée selon les compétences de l’étudiant.e, et les corpus disponibles.

    • Type, durée, rémunération : L3,M1,M2, GR
    • Encadrement et labo : Anne Abeillé (LLF) 

Abeillé et al 2022 https://journals.openedition.org/discours/12363

 

Stage 4. Phrases elliptiques et marques de genre: une approche expérimentale / Ellipsis and gender : an experimental approach

Les phrases sans verbe ont souvent un équivalent verbal comme ‘Paul aime les pommes et ses enfants (aiment) les bananes.’ De nombreuses langues présentent des cas de mismatch, où la forme manquante n’est pas la même que celle de l’antécédent (ici aime/aiment). Le but du stage sera de tester des cas de mismatch de genre (Paul est plus grand que Marie.) et d’omission de la préposition (Paul rêve d’habiter à Paris et Marie Venise.), en montant des expériences de jugement d’acceptabilité. Il est possible de travailler sur une autre langue à genre grammatical.

ENGLISH. Verbless sentences tend to have verbal counterparts as in: Paul aime les pommes et ses enfants (aiment) les bananes.(‘Paul likes apples and his children bananas’). ‘Mismatch’ cases abound in many languages, where the missing form is not the same as the antecedent one (here the verb aime/aiment). The intern will run design and run acceptability judgement experiments on gender mismatch (Paul est plus grand que Marie. ‘Paul is taller.msg than Mary.’) and preposition omission (Paul rêve d’habiter à Paris et Marie Venise. ‘Paul dreams about living in Paris and Marie Venice’). Working on another gender marking language is possible too.

  • Type, durée, rémunération : L3,M1,M2, GR
  • Encadrement et labo : Anne Abeillé (LLF) & Emma Kious (LLF)
UFR d'Etudes Anglophones, UPC (Emmanuel Ferragne) - Master

Dans le cadre d’un projet pédagogique à l’UFR d’Etudes Anglophones, nous proposons un stage à un étudiant/une étudiante en master d’informatique/linguistique informatique à Université Paris Cité d’octobre à décembre 2024.
Il s’agira d’entraîner des modèles de reconnaissance d’accent (par ex. https://github.com/JuanPZuluaga/accent-recog-slt2022), de les adapter à nos besoins et de décrire dans un document les différentes étapes impliquées dans ces tâches de sorte qu’on puisse les reproduire.
Ce stage donne lieu à une gratification financière.
Le lieu du stage est : bâtiment Olympe de Gouges, 8 place Paul Ricoeur, dans le 13e.
Merci de diffuser cette annonce.
Merci aux personnes intéressées de me contacter : emmanuel.ferragne@u-paris.fr

Laboratoire de Linguistique Formelle, UPC (Caterina Donati) - Licence et Master
Titre: les compétences linguistiques des adolescents
Niveau : L3, M1, M2
  • Compétences requises :  bonne connaissance (passive) de la terminologie propre de la linguistique et des notions sous-jacentes en français
  • Rémunération : NR 
 • Contact et laboratoire :  Caterina Donati, LLF
  • Durée, dates :  Début souhaité le plus tôt possible
  • Description:  La personne recrutée collaborera à une scoping review de la littérature sur les compétences linguistiques des adolescents, dans le cadre d’un projet de recherche européen sur les besoins langagiers des mineurs détenus. Il s’agira donc d’utiliser une plateforme pour les reviews systématiques (rayyan) pour sélectionner les articles pertinents au sein de la littérature francophone, et contribuer à organiser et analyser les résultats. 
 
 
Internship at LLF (Caterina Donati)
 
Title: Adolescents’ language competences
Level: L3, M1, M2
  – Skills required: good (passive) knowledge of terminology specific to linguistics and underlying notions in French
  – Remuneration: NR 
 – Contact and laboratory: Caterina Donati, LLF
  – Duration, dates :  Start as soon as possible
  – Description:  The person recruited will collaborate on a scoping review of the literature on adolescents’ language skills, as part of a European research project on the language needs of juvenile detainees. This will involve using a platform for systematic reviews (rayyan) to select relevant articles from the scientific literature in French, and helping to organise and analyse the results. 
 
 
Stage au LLF (Caterina Donati)
Titre: la langue des chinois d’héritage à Paris
Niveau: L3, M1, M2
Compétences requises: la ou le candidat idéal devrait avoir une bonne compétence du Chinois mandarin et des compétences suffisantes en syntaxe. 
Rémunération: NR
 • Contact et laboratoire :  Caterina Donati, Yimin Zu, Ruoxuan LI, LLF
  • Durée, dates :  Début souhaité novembre 2024
  • Description:  La personne recrutée collaborera à une recherche sur les compétences linguistiques des jeunes parisiens d’héritage chinois, dans le cadre d’un projet de recherche binational avec Hong Kong sur le mandarin comme langue d’héritage. Ses tâches principales seront d’administrer au sujets sélectionnés des questionnaires et des tests de langue. La personne sélectionnée participer ensuite à la discussion et l’analyse des résultats avec les autres membres du groupe de recherche. articles pertinents au sein de la littérature francophone, et contribuer à organiser et analyser les résultats. 
 
 
Internship at LLF (Caterina Donati)
Title: The language of young heritage Chinese speakers in Paris
Level: M1, M2
Skills required: the ideal candidate should have a good command of Mandarin Chinese and sufficient syntax skills. 
Remuneration: NR
 – Contact and laboratory: Caterina Donati, Yimin Zu, Ruoxuan LI, LLF
  – Duration, dates :  ideal beginning November 2024
  – Description:  The person recruited will collaborate in a research on the language skills of young Parisians of Chinese heritage, as part of a binational research project with Hong Kong about Mandarin as a heritage language. Their main tasks will be to administer questionnaires and language tests to selected subjects. The successful candidate will then take part in the discussion and analysis of the results with the other members of the research group.
Laboratoire de Linguistique Formelle, UPC (Anne Abeillé) - Master
Stage 5 Quantification at a distance: an empirical study
The purpose is to find out which factors favor quantification at a distance, with large annotated corpora and controlled experiments.
The language may be French or any other language displaying similar phenomena.
In French quantification at a distance has mainly been studied from a theoretical point of view, but the preferences are unknown.
 
Combien tu as d’enfants? (how many do you have children)
Combien d’enfants tu as (how many children do you have)
 
Combien de fois tu l’as vu (how many times you saw her?)
Combien l’as-tu vu de fois ? (how many you saw her times)
 
We will explore processing, semantic and context factors. Syntactic locality constraints may be at stake too.
M1, GR
Anne Abeillé (LLF)
Laboratoire de Linguistique Formelle, UPC (Jalal Al-Tamimi), Master

Sujet 1

Français

  1. M1 ou M2 (Idéalement M2)
  2. Gratification de stage possible
  3. Tuteur : Jalal Al-Tamimi (al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité en collaboration avec Guillaume Wisniewski
  4. Durée : 5 mois temps plein. À commencer en janvier/février 2025
  5. Descriptif : Dans la continuité du développement du système de l’alignement forcé de l’arabe dialectal (macro Arabic WebMAUS et Arabic WebMINNI ; Al-Tamimi et al., 2022) et à la suite de plusieurs stages durant l’été 2024, nous sommes à la recherche d’un stagiaire pour réaliser plusieurs tâches qui concernent la transcription et l’alignement forcé des textes en arabe d’une façon automatique. Le système actuel : macro Arabic WebMAUS (Al-Tamimi et al., 2022) propose une translittération en effectuant un mappage 1graphème-1phonème dans le cas d’un script arabe vocalisé et/ou un script utilisant un alphabet romain. Afin de translittérer l’arabe non vocalisée et permettre d’effectuer plusieurs tâches de transcriptions et d’alignement forcés automatiques, nous cherchons à continuer le développement d’un convertisseur informé par une transcription automatique speech-to-text, en utilisant plusieurs plateformes comme wav2vec ou Whisper qui viennent enrichir les convertisseurs préexistants avec la vocalisation obtenue à partir du speech-to-text.

Les tâches seront les suivantes : 1) effectuer une transcription automatisée de l’arabe dialectal via wav2vec et Whisper ; 2) modifier les scripts actuels pour améliorer la performance du système ; 3) Utiliser les données disponibles (près de 100 locuteurs) + celles de Mozilla Common Voice spécifiques à l’arabe dialectal ; 4) trouver une approche formelle d’évaluation de la performance du système (comme le word error rate ou le phoneme error rate, etc.) ; 5) obtenir les données temporelles de chaque « phonème » identifié afin de proposer un alignement du signal acoustique avec les transcriptions et 6) continuer le développement d’une application (avec installation locale et/ou sur le web) qui sera partagée avec la communauté de recherche.

D’autres tâches pourraient venir compléter les tâches premières. Par exemple, une possibilité concerne la transcription et l’alignement de données non transcrites de près de 100 locuteurs de plusieurs dialectes en plus de près de 120 locuteurs de l’arabe jordanien. En plus d’une tâche possible de reconnaissance automatique de la parole en arabe avec une approche multi-dialectale.

Tout document résultant de ces tâches (script python, gui, matériel, etc..) sera partagé avec l’équipe de recherche et fera l’objet d’une possible publication future (article et/ou repo sur github, hugginface ou d’autres plateforme).

  1. Compétence : Python, excellente programmation, connaissance de la langue arabe est une préférence mais pas obligatoire, connaissance des approches en reconnaissance automatique de la parole

English

  1. M1 ou M2 (preference for an M2)
  2. Possible « Gratification de stage »
  3. Tutor: Jalal Al-Tamimi (al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité in collaboration with Guillaume Wisniewski
  4. Duration: 5 months full time. To start in January/February 2025
  5. Description: As a follow-up to the development of a forced-alignment system for dialectal Arabic (the macro Arabic WebMAUS and Arabic WebMINNI; Al-Tamimi et al., 2022), and to the various internships that took place during the summer 2024, we are looking for an intern to work on multiple tasks concerning the automatic transliteration (romanisation) and forced alignment of Arabic scripts. The current transliteration system: the macro Arabic WebMAUS (Al-Tamimi et al., 2022) performs a 1Grapheme-1phoneme mapping in the case of a vocalised Arabic script or when using a romanised Arabic text. To allow for transliteration of non-vocalised Arabic text and to allow for multiple tasks including automatic transcription and forced alignment, we are looking to continue the development of a conversion tool informed by an automatic speech-to-text transcription, e.g., wav2vec or Whisper with the aim to enrich current pre-existent converting systems with vocalisation obtained from speech-to-text.

The tasks are as follows: 1) perform an automatic transcription of dialectal Arabic using wav2vec and Whisper; 2) modify and adapt the current scripts to improve the performance of the system; 3) Use pre-existing data from overl 100 participants in addition to new data from Mozilla Common Voice specific to dialectal Arabic; 4) Find and apply a formal assessment approach to evaluate the performance of the system (e.g., the Word-Error-Rate or a Phoneme-Error-Rate, etc.); 5) obtain temporal time-stamps for each “phoneme” to implement a forced-alignment of the acoustic signal with the transcriptions and 6) continue the development of an application (local installation and/or on the web), which will be shared with the research community.

Additional tasks can be required after completing the initial tasks. For instance, there is a possibility for automatically transcribing and aligning non-transcribed data from over 100 Arabic speakers from various regional dialects, in addition to data from around 120 speakers from Jordanian Arabic. F A final possibility concerns a multi-dialectal automatic speech recognition task.

All documents and data emerging from these tasks (python scripts, gui, material, etc.) needs to be shared with the research team and will be used for a possible future publication (article, and/or github repo, huggingface, or any other platform)

Tout document résultant de ces tâches (script python, gui, matériel, etc..) sera partagé avec l’équipe de recherche et fera l’objet d’une possible publication future (article et/ou repo sur github, hugginface ou d’autres platform).

  1. Skills: knowledge of Python, with excellent programming skills, knowledge of the Arabic language is preferred but not compulsory, knowledge of approaches used in automatic speech recognition

Al-Tamimi, J., Schiel, F., Khattab, G., Sokhey, N., Amazouz, D., Dallak, A., & Moussa, H. (2022). A Romanization System and WebMAUS Aligner for Arabic Varieties. Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), © European Language Resources Association (ELRA), Licensed under CC-BY-NC-4.0, 7269–7276. http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.789.pdf

 ______________________________________________________________

Laboratoire de Linguistique Formelle, UPC (Jana Rameh), Licence et Master
Titre : L’écriture inclusive dans un corpus de publications d’entreprises
  • Niveau : L1, L2, L3, M1
  • Compétences requises : connaissances en analyse de corpus (méthodes et outils d’analyse textuelle). Une appétence pour l’écriture inclusive est appréciée.
  • Rémunération : gratification réglementaire (GR).
  • Contact et laboratoire : Jana Rameh, LLF (Laboratoire de Linguistique Formelle).
  • Durée, dates : Début souhaité dès que possible ; durée à déterminer.
  • Description : nous recherchons une personne autonome et rigoureuse pour participer au recueil et à l’analyse de corpus de publications d’entreprises (scraping + analyse). Elle contribuera à organiser, collecter et analyser les résultats en lien avec l’utilisation de l’écriture inclusive dans les communications professionnelles.
Title: Inclusive Writing in a Corporate Publications Corpus
Level: L1, L2, L3, M1
  • Required skills: Knowledge of corpus analysis (methods and tools for textual analysis). An interest in inclusive writing is a plus.
  • Compensation: Regulatory stipend (GR).
  • Contact and laboratory: Jana Rameh, LLF (Laboratoire de Linguistique Formelle).
  • Duration, dates: start as soon as possible ; duration to be determined.
  • Description: we are looking for an autonomous and detail-oriented individual to participate in the collection and analysis of corporate publication corpora (scraping + analysis). The role will involve organizing, collecting, and analyzing the data, with a focus on the use of inclusive writing in professional communications.
Laboratoire de Linguistique Formelle, UPC (Anne Abeillé), Master

M1 or M2, paid 

French required

Title: Annotation of Human Repair Initiation in Task-oriented Dialogue

Project Description:

Human language complexities often expose flaws such as misunderstandings, misinterpretations, speech impediments, or social norm violations.

Strategies people use in conversations to identify and address these problems, fostering mutual understanding, are called repair (Schegloff, 2007). Schegloff (2007) distinguishes repair types based on who initiates and who provides the solution between the speaker and the addressee.

The overall aim of this research is to create a conversational agent able to handle social repairs from its human interlocutors. To such an aim, it needs to detect when a repair arises and to recognize the type of repairs. To model such a capability, we will rely on annotated data.

This internship aims to annotate a corpus of dyads in term of social repairs.

Tasks:

  • Annotating a corpus for multimodal analysis of conversational repair (Other-initiated Self-repair) through audio and video recordings (transcription provided) of human-human interaction.
  • Identifying and labelling each part of conversational repair sequences and classifying different types of repair initiation.
  • Ensuring annotation consistency by following predefined guidelines and collaborating with the team for clarification and updates.
  • Annotations will be based on multimodal cues, including speech, facial expressions, body language, and dialogue context.

Requirements:

  • Good attention to detail and ability to follow annotation protocols.
  • Basic knowledge of linguistics and conversational analysis will be helpful.
  • Experience with data annotation tools (e.g., ELAN, Praat, or similar) is a plus.
  • Preferably have a background in linguistics, cognitive science, or computer science with interest in human-human, human-agent interaction.

Applications: send CV and names of referent to anh.ngo-ha@inria.fr and chloe.clavel@inria.fr

Laboratoire de Linguistique Formelle, UPC (Patrick Caudal), L3, M1, M2
 
Trois types de stages sont offerts :
 
— des stages de niveau L3 non rémunérés, avec peu de compétences nécessaires
— des stages de niveau M1 et M2 rémunérés (via le Labex EFL)
 
Compétences requises :  
 
L3  : connaissances théoriques élémentaires en morphologie, syntaxe, et si possible sémantique (une formation éclair de 2h sera dispensée pour la partie sémantique)
M1 et M2 : autant que possible, avoir suivi le cours « spoken corpora » de P. Caudal
 
Rémunération : NR (=non rémunéré) ou GR (= Gratification Réglementaire)
L3: NR
M1 et M2 : GR
 
Contact et laboratoire : LLF, Patrick Caudal, pcaudal@linguist.univ-paris-diderot.fr
 
Durée, dates :  Entre avril et juin 2025 autant que possible
 
Description:  Il s’agit de contribuer à un projet de typologie quantitative sur la forme et le sens des flexions dans les langues non-pama-nyungan. Il s’agit de valider l’hypothèse selon laquelle il existe un cycle morphologique dans ces langues, menant d’une forme périphrastique basée sur une série verbale (de type mouvement associé ou posture associée), à une flexion polysynthétique.
 
Chaque étudiant.e aura en charge l’extraction de données flexionnelles (exemples avec leur glose et leur traduction) depuis des sources grammaticales dans une langue précise, puis leur annotation selon une grille bien précise, pour la forme comme pour le sens ; les données annotées seront intégrées à une base de donnée dédiée. Les stages de M2 comporteront un composant d’évaluation d’autres annotations pour validation de la base de donnée.
 
Une dizaine de langues au minimum sont à couvrir ; les résultats serviront à développer le pilote d’un outil de comparaison typologique de la flexion. D’autres langues seront documentées et ajoutées à la base de donnée dans les années à venir, et le résultat sera le support empirique pour (i) une reconstruction historique étendue de la flexion dans les langues non-pama-nyungan et (ii) l’application de modèles phylogénétiques computationnels pour affiner notre compréhension globale de l’évolution des langues non-pama-nyungan.

 

Stages sans indication de date 

Stage au Laboratoire LISN CNRS (Orsay).

Ce stage se déroulera dans le cadre du projet « Les vraies voix de l’intelligence artificielle » qui porte sur l’analyse sociologique et linguistique de la parole des micro-travailleurs et travailleuses de l’intelligence artificielle. Des enquêtes sociologiques ont été menées au sujet de la réalité socio-économique et linguistique de cette population de travailleurs émergente et un corpus a été constitué consistant en des questionnaires écrits et des entretiens oraux. Le travail de stage portera sur l’analyse de la variation sonore portée par l’expression orale des sujets participants à l’enquête. Plus précisément, à partir de données alignées son/texte grâce à un outil automatique, il s’agira d’explorer et de proposer une typologie des motifs de variation portant sur des phénomènes spécifiques à l’oral tels que le débit de parole, les patrons de réduction (durée, réalisations vocaliques et consonantiques), le rapport entre parole/fluente et disfluente etc. Ces patrons seront analysé selon des dimensions socio-phonétiques potentielles, comme par exemple hommes/femmes, âge, métiers etc. afin de contribuer aux profiles socio-économiques et d’aboutir à une description interdisciplinaire de la variation de l’oral.

  • Type, durée, rémunération :6 mois; M1 – M2, GR
  • Compétences requises : phonétique, TAL, analyse statistique (R), programmation (connaissances de base en python)
  • Encadrement et labo : Ioana Vasilescu, Yaru Wu, Paola Tubaro – Laboratoire LISN CNRS (Orsay).
Stages au Laboratoire de Linguistique Formelle (UPC)

Stages en sémantique et pragmatique sur des sujets tels que les quantificateurs, les structures distributives et proportionnelles, ou la structure argumentale des verbes. Il s’agira d’études théoriques, bibliographiques et sur corpus.

  • Type, durée, rémunération : L3 et M1, NR
  • Encadrement et labo : Lucia Tovena (LLF)
Stage au LLF (UPC)

Title: Transition parsing and Q-learning
Duration: at least 3 months
Supervisor: T. Bernard
Expected profile: Very good programming skills, interest in neural-based machine learning, Master 1 or Master 2 in computational linguistics or computer science

Syntactic transition parsers such as shift-reduce parsers and arc-eager parsers are straigthforward to implement and train in the standard (teacher forcing) supervised fashion (see, e.g., Chen and Manning 2014 and Dyer et al. 2015). Standard supervised training, however, aims at maximising the log-likelihood of the annotated (gold) structures of the training data while the quantity that matters most is the expected F1/attachement score (the actual performance of the parser). In addition, while beam-search decoding is the most standard improvement on greedy-decoding, there are reasons to believe that beams based on the probability of the hypotheses are not particularly good at dealing with ambiguity. Indeed, if a parsing hypothesis has two plausible continuations, the probabilities of each of these continuations will suffer from the existence of the other, which means that both might be ejected from the beam (while less plausible parsing hypotheses might stay in the beam).
Thanks to the advance of reinforcement learning in general and Q-learning in particular (see, e.g., Mnih et al. 2013), it has become easier to train a parser so as to optimise a metric such as its expected F1/attachement score. One particularity of reinforcement learning schemes is that the system is not trained on gold trajectories (the trajectories from an initial state to a complete gold parse), but on its own predicted trajectories. A parser trained in such a fashion is thus expected to be more reliable at prediction time. A particularity of Q-learning more specifically is that it is not based on estimating probabilities for actions but values for states (in this case, parsing states) in such a way that maximising the parser’s objective is compatible with two continuations of the same parsing hypothesis both having high value. This is somewhat reminiscent of the structured perception used by Weiss et al. (2015). It thus seems that beams based on state value rather than probability might be better at dealing with ambiguity.
The goal of this research internship is to adapt a traditional transition parser in order to train it with a mix of Q-learning and standard log-likelihood maximisation. The impact of Q-learning training on greedy and beam-seach decoding will be studied.

Depending on the profile of the students, other questions might be approached instead; such as how model calibration impacts the performance of beam-search decoding, and whether A* decoding can be implemented as a viable alternative to beam-search decoding.

Relevant references:
— Chen, Danqi, and Christopher Manning. ‘A Fast and Accurate Dependency Parser Using Neural Networks’. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 740–50. Doha, Qatar: Association for Computational Linguistics, 2014. http://www.aclweb.org/anthology/D14-1082.
— Dyer, Chris, Miguel Ballesteros, Wang Ling, Austin Matthews, and Noah A. Smith. ‘Transition-Based Dependency Parsing with Stack Long Short-Term Memory’. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 334–43, 2015. https://doi.org/10.3115/v1/P15-1033.
— Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. ‘Playing Atari with Deep Reinforcement Learning’, 2013. http://arxiv.org/abs/1312.5602.
— Weiss, David, Chris Alberti, Michael Collins, and Slav Petrov. ‘Structured Training for Neural Network Transition-Based Parsing’. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 323–33. Beijing, China: Association for Computational Linguistics, 2015. https://doi.org/10.3115/v1/P15-1032.

 

Offres de stages passées / Past offers of internships  

Stage parcours LI - Dydu

Pour candidater, vous pouvez envoyer votre CV à cbertieaux@dydu.ai

page1image26454176

Chargé(e) de Contenu Numérique (H/F) – Stage de 6 mois

Dydu est le leader en France des plateformes d’IA conversationnelle depuis plus de 14 ans. Grâce à nos solutions, nous aidons nos clients (CAC 40, PME, Collectivités…) à créer, déployer et administrer des bots très rapidement et simplement.

Les cas d’utilisation sont nombreux et variés, du suivi de consommation d’énergie électrique ou gaz à la pose de congés dans un intranet.

Présent à Paris et à Bordeaux, Dydu garde à cœur le bien-être de ses salariés.

Avec actuellement une trentaine de collaborateurs, bienveillance, esprit d’équipe et partage font partie des valeurs de l’entreprise.

Vous êtes à la recherche d’un nouveau défi et souhaitez évoluer dans un environnement innovant et dynamique ?

Dydu recherche des talents impliqués et passionnés pour accompagner sa croissance. Rejoignez-nous !

Les missions

Au sein de l’équipe Opérations, composée des Chefs de Projets et des Customer Success Managers, sous la responsabilité du Directeur des Projets, tu auras les missions suivantes en tant que Chargé(e) de Contenu Numérique:

Rédaction et production de contenus numériques :

  • –  Rédiger des contenus de qualité liés à l’usage d’un chatbot

  • –  Contrôler la qualité de la base de connaissances des chatbots de nos clients

  • –  Identifier des thématiques intéressantes de contenus pour nos clients

  • –  Récupérer les statistiques d’utilisation des chatbots et analyser les données pour

    proposer des améliorations de la base de connaissances

    Gestion de la relation client :

  • –  Gérer la relation client et créer des connaissances en cohérence avec les demandes et les spécificités de la solution Dydu

  • –  Faire remonter les observations/problématiques des clients à l’ensemble de l’équipe opérations

    Profil et qualités recherchés :

  • –  Bonne qualité de rédaction

  • –  Posséder une bonne analyse linguistique

  • –  Capacité d’analyse de données

  • –  Un esprit logique pour comprendre les subtilités des chatbots

  • –  Capacité d’adaptation à un environnement technologique

Tu travailleras dans un environnement motivant, dans lequel tu partageras tes idées et besoins. Nous offrons un cadre de travail dans lequel tu pourras t’épanouir, et déployer tes savoir-faire dans les meilleures conditions :

  • –  Des bureaux en plein cœur de Paris 8

  • –  Un télétravail organisé

  • –  Une carte Swile prise en charge très favorablement pour les déjeuners

    Le processus de recrutement comportera plusieurs entretiens :

    Un premier entretien avec les Ressources Humaines Un entretien avec un membre de l’équipe Opérations

Parcours FLE: Association L'île aux langues
L’ association L’île aux langues est un organisme de formation qui a pour vocation l’apprentissage et l’enseignement de la langue française comme vecteur d’autonomisation et d’inclusion sociale, économique, culturelle et citoyenne des publics de toute origine. 
 
Nous sommes à la recherche d’un service civique ou d’un stagiaire (non rémunéré) pour Favoriser la cohésion et renforcer l’inclusion sociale et l’insertion professionnelle des apprenants.

Activités :

o Participer aux évaluations des futurs apprenants
o Participer à l’évaluation des progrès et contribuer à la capitalisation des informations
o Participer à l’animation des formations et des sorties pédagogiques avec les formateurs o Participer à l’accompagnement et au suivi individuel des stagiaires
o Participer à l’élaboration de supports d’ingénierie pédagogique

Date : À partir de septembre 2023
Horaires : Durée hebdomadaire à discuter selon les envies, besoins Adresse : 19-23 Rue Emile Duployé 75018 Paris
Envoyer CV et LM : contact@lial.fr
Stage non rémunéré.
Renseignements : 09 84 10 60 66 http://www.lial.fr

L’île aux Langues est une association loi 1901 et un organisme de formation qui a pour vocation l’apprentissage et la transmission de la langue française comme vecteur d’autonomisation et d’inclusion sociale, économique, culturelle et citoyenne des publics de toutes origines. L’association répond prioritairement au souhait d’apprentissage du français des personnes dont la langue maternelle n’est pas le français, et en particulier des publics fragilisés socialement, des personnes en recherche d’emploi, des personnes migrantes et des primo-arrivants. Composée de formateurs diplômés de l’enseignement du français langue étrangère, L’île aux Langues vise à démocratiser l’accès à un apprentissage professionnel et de qualité de la langue, tout en favorisant le développement d’un espace de mixité sociale. Située à la confluence du quartier de la Goutte d’Or et de la Chapelle, L’île aux Langues accueille chaque année environ 350 apprenants de toutes origines, avec pour objectifs la transmission langagière et culturelle du français ainsi que la sécurisation socioprofessionnelle des publics.

DeepTypo (Guillaume Wisniewski, LLF, UPC)

– Niveau : M1 ou M2
– Compétence : linguistique informatique
– Rémunération : selon les conditions en vigueur (environs 600 euros par mois)
– Contact : Guillaume  Wisniewski, guillaume.wisniewski@u-paris.fr  
– Durée : de 3 à 6 mois
– Description :

DeepTypo est un projet universitaire qui réunit les linguistes documentaires de deux laboratoires de linguistique (le LLL et le LACITO) et les chercheurs en TAL du LISN et du LLF. Le projet s’inscrit dans le cadre de la documentation linguistique computationnelle et a un double objectif : aider les linguistes dans leur travail de documentation et de revitalisation des langues et comprendre les limites des représentations multilingues pré-entrainées de la parole, telles que wav2vec2, HuBERT ou whisper, en les testant sur des langues avec des caractéristiques linguistiques très variées ou en identifiant le type d’information qu’elles capturent.

Le projet DeepTypo vise notamment à développer des systèmes de reconnaissance de la parole pour des langues rares et en cours de documentation, à concevoir des méthodes d’analyse capables d’extraire automatiquement des connaissances typologiques à partir des représentations vectorielles du signal audio (par exemple, des inventaires de phonèmes, des similarités entre langues, …) ou à identifier automatiquement la langue et la famille de langue d’un enregistrement.

Dans le cadre de ce projet, nous recrutons (au moins) un·e stagiaire (M1 ou M2) pour :
– entrainer des modèles de reconnaissance de la parole pour des langues rares ;
– développer des méthodes d’analyse des erreurs des systèmes de reconnaissance de la parole ;
– développer des méthodes d’alignement forcé afin de mettre en correspondance les transcriptions existantes avec le signal audio ;
– développer des sondes linguistiques pour analyser les propriétés phonétiques et phonologiques capturées par les représentations.

Les sujets sont adaptables en fonction des centres d’intérêt des personnes recrutées et des avancées du projet.

Laboratoire de Linguistique Formelle, UPC (Anne Abeillé)

Stage 1 : L’accord du participe passé en français: une approche expérimentale

Début souhaité en novembre 2023

M1,M2, GR

L’accord du participe passé avec avoir donne toujours des sueurs froides aux écoliers. Des études récentes au LLF ont montré que les modèles de langage de type BERT étaient sensibles aux dépendances à distance gouvernant cet accord. 
Nous voudrions tester, par une tâche de lecture et de jugement d’acceptabilité, l’accord du participe dans le  même type  de phrases (relatives, interrogatives) avec participes à féminin audible (écrit) ou non (mangée). 
Et si après nous avoir battus aux échecs et au go, les ordis nous battaient aussi sur cet accord ?
  • Encadrement et labo : Anne Abeillé, Barbara Hemforth (LLF)

 

Stage 2: Le purisme grammatical au XXIe siècle- Verbal hygiene in 21st century French

M1,M2, GR
Début souhaité janvier 2024
Le français a une tradition ancienne de grammaires prescriptives, mais personne n’est d’accord sur ce qui constitue une ‘faute’ de grammaire.
Internet a vu un boom sans précédent de purisme grammatical, de la part de spécialistes comme de non spécialistes. Il s’agira de constituer un corpus de messages et de recommendations,
 équilibré depuis 2000, entre experts et non experts, puristes et antipuristes, à partir de sites comme ceux de l’Académie française (Dire, ne pas dire) et du Figaro mais aussi de Twitter et des réseaux sociaux.
  • Encadrement et labo : Anne Abeillé, Heather Burnett (LLF)
 
Stage 3: Gender biases en syntax / Les biais de genre en syntaxe

ENGLISH. In many languages, human subjects tend to be more masculine than feminine. The intern will test and refine this kind of gender bias in large syntactically annotated corpora, using additional databases to annotate the semantic roles for instance. The target language may vary according on the student’s linguistic background. A preference would be French, English, Greek or Spanish. The intern will learn advanced inferential statistics

Dans beaucoup de langues, les sujets humains sont plus masculins que féminins. Le but su stage est de tester et préciser ce biais de genre sur de larges corpus annotés pour la syntaxe, en utilisant des bases de données permettant d’annoter les rôles sémantiques par exemple. La langue étudiée pourra être fixée selon les compétences de l’étudiant.e. Une préférence sera donnée au français, à l’anglais, à l’espagnol et au grec..

  • Type, durée, rémunération : L3,M1,M2, GR
  • Encadrement et labo : Anne Abeillé (LLF) and Yanis DaCunha (LLF)

 

Stage 4. L’ellipse du verbe en français: une approche expérimentale / Ellipsis in French : an experimental approach

Les phrases sans verbe ont souvent un équivalent verbal comme ‘Paul aime les pommes et ses enfants (aiment) les bananes.’ De nombreuses langues présentent des cas de mismtach, où la forme manquante n’est pas la même que celle de l’antécédent (ici aime/aiment). Le but du stage sera de tester des cas de mismatch de genre (Paul est plus grand que Marie.) et d’omission de la préposition (Paul rêve d’habiter à Paris et Marie Venise.), en montant des expériences de jugement d’acceptabilité. Il est possible de travailler sur une autre langue à genre grammatical.

ENGLISH. Verbless sentences tend to have verbal counterparts as in: Paul aime les pommes et ses enfants (aiment) les bananes.(‘Paul likes apples and his children bananas’). ‘Mismatch’ cases abound in many languages, where the missing form is not the same as the antecedent one (here the verb aime/aiment). The intern will run design and run acceptability judgement experiments on gender mismatch (Paul est plus grand que Marie. ‘Paul is taller.msg than Mary.’) and preposition omission (Paul rêve d’habiter à Paris et Marie Venise. ‘Paul dreams about living in Paris and Marie Venice’). Working on another gender marking language is possible too.

  • Type, durée, rémunération : L3,M1,M2, GR
  • Encadrement et labo : Anne Abeillé (LLF)
Laboratoire de Linguistique Formelle, UPC (Hiyon Yoo et Ioana Chitoran)

Stage en phonétique L1-L2 (LLF et Clillac-ARP)

Projet ALLSTAR-FRENCH (en collaboration avec Northwestern University)

Corpus L1 – français / L2 – variés

  • Niveau : L3, M1 ou M2
  • Compensation : GR = Gratification Réglementaire
  • Hiyon Yoo (LLF) et Ioana Chitoran (Clillac-ARP) (hi-yon.yoo@u-paris.fr)
  • Dates : à partir de janvier 2024
  • Connaissances : bonne connaissance du français et de l’anglais ; familiarité avec Praat n’est pas nécessaire mais c’est un plus
  • Description :

Enregistrements de données. Le/la stagiaire va contribuer à l’enregistrement et analyse préliminaire de données pour le corpus ALLSTAR-FRENCH, suivant un protocole pré-établi.

Tâches du/de la stagiaire : recruter les participants, finaliser les matériels ; passer l’expérience avec les participants ; pré-traiter les données de production recueillies (transcription automatique et correction de la segmentation).

Le/la stagiaire pourra utiliser des données du corpus pour un projet de recherche individuel.

Phonetics research L1 – L2 (LLF and Clillac-ARP)

ALLSTAR-FRENCH Project (in collaboration with Northwestern University)

L1 French corpus / Different L2

  • Level: L3, M1 or M2
  • Paid internship
  • Hiyon Yoo (LLF) and Ioana Chitoran (Clillac-ARP) (hi-yon.yoo@u-paris.fr)
  • Starting date: January 2024
  • Required skills: the research assistant should have good knowledge of French and English; previous experience working with Praat is a plus, but is not required.
  • Description:

Audio recordings and acoustic analysis. The student research assistant will contribute to the ALLSTAR-FRENCH corpus by doing audio recordings and preliminary analysis of the recorded data, following a pre-established protocol.

Tasks include: recruiting participants, setting up the recordings, handling the equipment, recording, preparing the collected data for analysis (e.g., running the automatic transcription for the recorded language and correcting it as needed).

If interested, the student researcher may use the data for their own individual research project.

Institut français de Mayence (Allemagne)
 

Stage FLE au service des cours Institut français de Mayence

L’institut Français de Mayence est une des antennes de l’Institut français d’Allemagne rattaché à l’Ambassade de France à Berlin. Son rôle principal est de s’engager activement pour la promotion des relations franco-allemandes sur le plan culturel, linguistique et académique ainsi que de diffuser la langue et la culture française.

Vous êtes étudiant(e), dynamique et enthousiasmé(e) par les échanges interculturels ? Vous voulez connaître le fonctionnement d’un Institut français en Allemagne ? Le service des cours de l’Institut français de Mayence recherche un(e) stagiaire longue durée (4 à 6 mois) pour un début de stage entre le 8 janvier et le 26 février 2024.

Missions

Sous la responsabilité du directeur délégué et de la secrétaire générale/directrice des cours, vous participerez activement à la planification, à l’organisation et à la gestion des cours de langues, à travers les activités suivantes :

page1image64313232

  •  Soutien à l’organisation des cours de groupe et des cours individuels (accueil, conseil, inscriptions, etc.)

  •  Enseignement du FLE à divers publics (adultes, adolescents, enfants) et participation à l’élaboration de matériel pédagogique (selon profil et expérience)

  •  Soutien logistique (et pédagogique) aux enseignants et à l’équipe du service des cours

  •  Soutien ponctuel à la médiathèque (accueil, conseil, inscriptions, enregistrements, animation « heure du conte »)

  •  Aide à l’élaboration et à la promotion de l’offre de cours (newsletter, Facebook, Instagram).

Intégré(e) à l’équipe de l’Institut, vous pourrez acquérir une vision complète de l’activité d’un Institut français à l’étranger, en particulier dans le domaine linguistique.

Profil recherché

  • Etudiant(e) FLE, LEA études germaniques, relations internationales etc.

  • Très bonne maîtrise du français et de l’allemand à l’écrit comme à l’oral (niveau B2 minimum exigé)

  • Expérience dans l’enseignement du FLE appréciée

  • Esprit d’initiative et autonomie dans le travail

  • Rigueur et capacité d’organisation

  • Flexibilité et disponibilité

  • Sens du contact

  • Bonne maîtrise du pack Office

Informations générales

  • Date de début de stage flexible : entre le 8 janvier et le 26 février 2024.

  • Convention de stage avec un établissement de l’enseignement supérieur obligatoire (pour les

    étudiants d’université allemande, il devra obligatoirement s’agir d’un « vorgeschriebenes Zwischenprak􏰀kum »)

Merci d’adresser vos candidatures (CV et lettre de motivation) à Mme Jennifer Menke, secrétaire générale et responsable des cours : jennifer.menke@institutfrancais.de

Les candidatures seront traitées par ordre d’arrivée et des entretiens pourront avoir lieu avant la clôture de la période de candidature.

Date de début : 08.01.2024 (flexible)
Durée : 4 à 6 mois
Volume horaire hebdomadaire : 35 heures
Rémunération (ou gratification) : 4,05€/heure
Lieu : Institut francais Mayence – Schillerstraße 11 – 55116 Mayence – Allemagne

Date limite de candidature : 04.12.2023

Courriel : jennifer.menke@institufrancais.de

Neocognition.ai

Education / Psychologie Intelligence Artificielle Langagière

Neocognition.ai, c’est une équipe de chercheurs, ingénieurs et consultants qui associe intelligence artificielle conversationnelle sur-mesure et sciences cognitives & de gestion. Tous acteurs engagés de la construction d’une collaboration entre intelligences humaine et artificielle, où chacune réalise sa valeur ajoutée au service du développement des individus & organisations : la neocognition.

Neocognition recrute un stagiaire de niveau Licence ou Master en sciences du langage, linguistique, sciences cognitives, psychologie, lettres ou littérature afin de réaliser du prompt engineering (éducation et paramétrage cognitif & linguistique d’IA) et participer à l’aventure du développement de nos prochaines IA conversationnelles collaboratives à des fins de coaching, formation, management, psychothérapie, mentorat et de création d’assistants personnels.

Compétences recherchées et missions :

  • Parfaite maîtrise du français : orthographe, syntaxe, grammaire, conjugaison.

  • Maîtrise de la synthèse et de la structuration des informations à l’écrit en français.

  • Analyse, précision et affinement sémantique, conceptuel et linguistique.

  • Culture générale et appétence pour les modèles de langage en intelligence artificielle.

  • Des connaissances de bases du langage python constitueraient un plus.

    Informations pratiques :

  • Début : dès que possible.

  • Modalité : télétravail (toute l’équipe, répartie sur différentes zones géographiques en France et à

    l’international, est en permanence en bureau virtuel collectif sur Discord).

  • Rémunération : gratification prévue par la règlementation en vigueur.

    Profil exclusivement recherché: passion, investissement, compétence, autonomie, adaptabilité, orientation résultat et solution.

    Candidature : CV + LM : contact@neocognition.ai

Stage/internship at ArticuLabo (Inria Paris, Justine Cassell)

Title: The role of Rapport in Interaction: Multi-modal modeling of conversation, and collection of neuroscience data, to better understand how people build social bonds, and to improve performance in conversational agent-mediated interactions.
Type: L3, M1 3-month or M2 6-month Internships
Periode: stages disponibles toute l’année
Laboratoire d’accueil: Inria Paris, 2 rue Simone Iff, 75012 Paris
Thèmes: Multiple internships available including Linguistic Pragmatics, Social Cognitive Neuroscience and Embodied Conversational Agents
Langage: French or English
Rénumeration: GR (= Gratification Réglementaire)

This project exists at the intersection of Cognitive Science and Artificial Intelligence and therefore has dual goals: to better understand the role of rapport (connivence) in human-human interaction and to build better embodied conversational agents (ECAs) that have the ability to engage their users in both social and task talk, where the social talk has been demonstrated to improve task performance. In order to achieve this objective, members of the lab collect and annotate natural conversational data, collect neuroimaging (hyperscanning via fNIRS) data, model human-human conversation, integrate the models into ECAs, and then evaluate their performance. We have internships available for students from Cognitive Science, Psychology, Neuroscience, Linguistics and Computer Science (only some of the positions require programming experience).

Specifically, we currently have a number of open positions for L2 or L3 interns (part-time), M1 interns (3 months) or M2 interns (6 months), as follows: annotate conversational data for linguistic phenomena and analyze the resultant annotations; assist in the collection of video and audio data, assist in the collection of neural / neuroimaging data, from children, in an ongoing study of dyadic collaboration in children; or build machine learning models of conversation.

Applicants should have relevant experience with one or several of the following: linguistics, psychology, cognitive science, cognitive/social neuroscience, functional neuroimaging, research with children. Knowledge of statistics and/or programming languages such as Python are a plus.  Fluent English speakers with a French level of at least B1, and fluent French speakers with an English level of at least B1 are particularly invited to apply

To apply contact: justine.cassell@inria.fr and jade.jenkins@inria.fr

-- 

Stage au Laboratoire de Linguistique Formelle (UPC)
– à destination des L3 et M1
– Non-rémunérés
– Tuteur : Patrick Caudal, Laboratoire LLF
– Durée : 70h / stage
– Dates : dès octobre 2022
– Compétences nécessaires : Maîtrise d’Excel (ou Numbers chez Mac), quelques connaissances en phonétique/phonologie (API), maîtrise de l’anglais.
– Descriptifs : 
 
Les langues aborigènes d’Australie
 
(1) Constitution de corpus numérique à partir de données textuelles : compilation et annotation de textes (exemples de grammaire, narrations…) en Rembarrnga (Langue Gunwinyguan, Australie) pour créer un corpus numérique, qui rejoindra par la suite une base de donnée typologique sur les langues australiennes (Projet AustrILS, LLF). 
Le stage M1 contiendra en plus un élément théorique : annotation plus avancée des formes à l’aide de la grille d’annotation AustrILS.
 
(2)  Constitution de corpus numérique à partir de données textuelles : compilation et annotation de textes (exemples de grammaire, narrations…) en Ndjébbana (Langue Maningrida, Australie) pour créer un corpus numérique, qui rejoindra par la suite une base de donnée typologique sur les langues australiennes (Projet AustrILS, LLF)
Le stage M1 contiendra en plus un élément théorique : annotation plus avancée des formes à l’aide de la grille d’annotation AustrILS.
 
(3) Constitution de corpus numérique à partir de données textuelles : compilation et annotation de textes (exemples de grammaire, narrations…) en Gurr-goni (Langue Maningrida, Australie) pour créer un corpus numérique, qui rejoindra par la suite une base de donnée typologique sur les langues australiennes (Projet AustrILS, LLF)
Le stage M1 contiendra en plus un élément théorique : annotation plus avancée des formes à l’aide de la grille d’annotation AustrILS.
 
( (4) Idem, mais sur le Ngandi (Langue aborigène d’Australie également) )
Stage au Laboratoire de Linguistique Formelle (UPC)

Stage GR à M1 ou M2: interaction avec un robot parlant
Tuteur: J Ginzburg (yonatanginzburg@gmail.com)

Mi oct 2022 — mi janvier 2023 (avec un peu de flexibilité sur les dates).

Descriptif: We need a stagiaire to help run experiments with the robot FurHat. The experiments (with human subjects) involve recording the reactions of subjects to interactions with the robot and also some programming of the scripts for the robot.

Background needed: some experience with programming in a language like python or java; interest in dialogue and/or human-robot interaction.

Nous avons besoin d’un stagiaire pour aider à mener des expériences avec le robot FurHat. Les expériences (avec des sujets humains) consistent à enregistrer les réactions des sujets aux interactions avec le robot et également à programmer des scripts pour le robot.

Prequis : une certaine expérience avec la programmation dans un langage comme python ou java ; intérêt pour le dialogue et/ou l’interaction homme-robot.

Stage au Laboratoire de Linguistique Formelle (LLF), UPC
Stage 1 – English
  • Level: L3, M1 ou M2
  • Compensation: GR = Gratification Réglementaire
  • Tutor: Dorotea Bevivino, LLF (dorotea.bevivino@u-paris.fr)
  • Dates: as soon as possible (année 2022-2023)
  • Requirements: English native speakers; some knowledge of Excel; familiarity with Praat is not required but it is a plus.
  • Description:
Preprocessing of production data. We are looking for an intern to pre-process audio data collected during a production study in English. In an online priming paradigm, participants were asked to repeat specific sentences in English. As natural, participants’ productions partially diverged from the expected productions, and/or background noises compromised the audio quality. The internship task will consist in listening to the recordings and preparing the data for the automatic speech-to-text alignment, necessary to perform acoustic and prosodic analyses (the expected productions have already been automatically transcribed, but they need to be manually checked).Scripts will be provided to facilitate and speed up the tasks, as well as the coding schemes.
 
Stage 2 – Français
  • Niveau : L3, M1 ou M2
  • Compensation: GR = Gratification Réglementaire
  • Tutor: Dorotea Bevivino, LLF (dorotea.bevivino@u-paris.fr)
  • Dates: à partir de décembre (année 2022-2023)
  • Connaissances : français langue maternelle ; bonne connaissance de l’anglais ; familiarité avec Excel ; familiarité avec Praat n’est pas nécessaire mais c’est un plus
  • Description:
Expérience de production en français. On cherche un.e stagiaire pour aider avec une expérience de production en français. Le/la stagiaire aidera à : finaliser les matériels  (preparation des stimuli audios; adaptation de l’anglais du script d’amorçage) ; passer l’expérience avec les participants ; pré-traiter les données de production recueillies (control de la transcription automatique et préparation pour l’alignement text/son).
Scripts et schémas de codage seront fournis pour faciliter et accélérer  les taches.
Stage au Laboratoire INCC et Clillac-Arp (UPC)

Stage 1 : De la bouche aux oreilles : le rôle de la maturation sensorimotrice dans le développement phonologique.

Traditionnellement, le traitement de la parole a été étudié comme un phénomène auditif. Cependant, de nombreuses études ont récemment montré des corrélats perceptifs entre les actions liées à la parole et les sons de la parole. En effet, chez les adultes sains, le réseau neuronal recruté par le traitement de la parole inclut une contribution régulière des aires sensorimotrices. Ceci est en accord avec certains modèles neuroscientifiques proposant des représentations partagées entre action et perception. Dans ce contexte, les recherches sur la perception de la parole et le développement du langage chez le nourrisson cherchent à comprendre le lien entre maturation sensorimotrice et développement phonologique. Ce projet explore l’impact du développement sensorimoteur sur le développement phonologique précoce. La collecte de données auprès de nourrissons de 6 à 8 mois pourra s’effectuer au Babylab de l’INCC. Les nourrissons prendront part à la fois à une étude comportementale (fixation centrale) et de neuroimagerie (fNIRS). Des enregistrements de l’environnement linguistique de l’enfant seront aussi effectués à la maison avec le système LENA.

________________________________________________________

Stage 2: Acquisition des complexes consonantiques

FRANÇAIS. L’agencement des phonèmes dans la langue, ou phonotactique, suit des règles et contraintes particulières. Dans certains contextes, les locuteurs ont tendance à assimiler des phonèmes non-natifs entendus à ceux de leur inventaire phonologique. La perception de la parole n’est donc pas seulement dépendante de contraintes mécaniques biologiques, mais est aussi influencée par des spécificités de la langue de l’environnement : connaissance de la phonologie et des contraintes phonotactiques de celle-ci. Comment se spécialise-t-on dans le traitement des sons/séquences sonores de sa langue et Comment se développe l’acquisition d’éléments phonotactiques typologiquement rares ?

Dans ce projet nous explorons l’influence de la langue de l’environnement sur le poids perceptif accordé à certains indices acoustiques (notamment temporels) au cours du développement. Dans une étude expérimentale cross-linguistique, nous cherchons à mesurer la perception de clusters consonantiques complexes licites et illicites dans deux langues : le français et le géorgien. Nous pourrons manipuler des indices acoustiques temporels afin d’évaluer le rôle de l’acoustique dans le développement phonotactique en fonction de l’âge du locuteur (jeunes adultes vs. enfants de 3-5 ans) et de sa langue. Des tâches comportementales devront être mises en place, ainsi que le traitement et la manipulation de stimuli sonores. L’acquisition de données perceptives auprès d’enfants et d’adultes francophones pourra être également menée au sein du babylab de l’INCC.

ENGLISH. The organization of phonemes in languages, or phonotactics, follows specific rules and constrains. In some contexts, speakers have shown the tendency to assimilate non-native phonemes to the ones in their native repertoire. Thus, speech perception is not only dependant on biological mechanisms but also on the acoustical-phonological characteristics of the environmental language. How do we specialize in the processing of native speech sounds/sound sequences, and how do we acquire phonotactic elements that are typologically rare?

In this project, in collaboration with Ioana Chitoran http://www.clillac-arp.univ-paris-diderot.fr/user/ioana_chitoran, we aim to explore the influence of the native language on the processing of specific acoustic information of speech (temporal information) during development. Using a cross-linguistic experimental design, we would like to assess the perception of consonant clusters. Speech temporal information could be manipulated to assess the role of acoustics in the development of phonotactics as a function of age (adults vs children of 3-5 years) and native language. Stimulus and behavioral perceptual tasks need to be developed. Data acquisition with children and adults will take place at the babylab of the INCC.

 

Stage au Laboratoire de Linguistique Formelle et Clillac-ARP (UPC)

Niveau : M1 ou M2
Rémunération : peut être rémunéré 

Contact et laboratoire : Anouk Dieuleveut / Morgan Moyer (LLF) / Ioana Chitoran (Clillac-ARP)
Durée, dates : année 2022-2023

Compétences : locuteur natif du français; maîtrise de l’anglais non requise mais recommandée
Descriptif : 
En français, une phrase comme “tu peux jouer de la guitare” peut être utilisée pour exprimer trois différents actes de langage : une affirmation (si le but du locuteur est d’informer l’interlocuteur qu’il a le droit de jouer de la guitare), une “réelle” question (on demande à l’interlocuteur s’il sait jouer de la guitare), ou une requête d’effectuer une action (on demande à l’interlocuteur de jouer de la guitare). L’objectif de cette étude est d’étudier le type d’indices utilisés par les locuteurs pour interpréter correctement les phrases comme “tu peux P” en français. Précisément, son but est d’évaluer et de comparer la contribution respective d’indices de type contextuels et prosodiques.
Nous sommes à la recherche d’un stagiaire pour nous aider à réaliser les enregistrements pour une expérience de production, où nous demanderons à des locuteurs natifs du Français de lire à voix haute des phrases telles que “tu peux jouer de la guitare”, dans différents contextes. 
Laboratoire de Linguistique Formelle, UPC (Jalal Al-Tamimi)

Sujet 1

Français

  1. M1 ou M2
  2. Gratification de stage possible
  3. Tuteur : Jalal Al-Tamimi (jalal.al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité en collaboration avec Guillaume Wisniewski
  4. Durée : 6 mois. À commencer immédiatement
  5. Descriptif : Dans la continuité du développement du système de l’alignement forcé de l’arabe dialectal (macro Arabic WebMAUS et Arabic WebMINNI ; Al-Tamimi et al., 2022), nous sommes à la recherche d’un stagiaire pour réaliser une tâche de translittération (romanisation) de l’écriture arabe. Les systèmes de translittération actuels effectuent un mappage 1graphème-1graphème dans le cas d’un script arabe vocalisé. Afin de translittérer l’arabe non vocalisée, nous cherchons à développer un convertisseur informé par une transcription automatique speech-to-text (en utilisant plusieurs plateformes, ex. Transformers, wav2vec, Whisper ou WebMINNI, de la suite d’outils disponible sur WebMAUS) qui enrichie les convertisseurs préexistants avec la vocalisation obtenue à partir du speech-to-text. La première partie du stage sera consacré au développement de l’outil et ensuite l’adapter au niveau système de translittération de l’arabe (ATR ; voir : Al-Tamimi et al., 2022). Ensuite, la seconde partie sera consacrée à effectuer la transcription automatisée des productions de 100 locuteurs et puis la vérification de la transcription automatique des données en arabe afin de s’assurer de la qualité des transcriptions automatisées. La dernière partie concernera l’automatisation des tâches et la continuité du développement de l’outil de conversion afin de permettre à différents chercheurs son utilisation. L’outil de conversion nécessitera le développement d’un pipeline python claire et idéalement avec une interface GUI utilisateur.
  6. Compétence : Python, excellente programmation, connaissance de la langue arabe est une préférence mais pas obligatoire.

English

  1. M1 ou M2
  2. Possible « Gratification de stage »
  3. Tutor: Jalal Al-Tamimi (jalal.al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité in collaboration with Guillaume Wisniewski
  4. Duration: 6 months. To start as soon as possible
  5. Description: As a follow-up to the development of a forced-alignment system for dialectal Arabic (the macro Arabic WebMAUS and Arabic WebMINNI; Al-Tamimi et al., 2022), we are looking for an internship to work on a transliteration (romanisation) task for Arabic script. Current transliteration systems perform a 1Grapheme-1Grapheme mapping in the case of a vocalised Arabic script. To allow for non-vocalised Arabic scripts to be transliterated, we are looking to develop a conversion tool informed by an automatic speech-to-text transcription (using various platforms, e.g., Transformers, wav2vec, Whisper, the WebMINNI tool of the WebMAUS suite of tools), with the aim to enrich current pre-existent converting systems with vocalisation obtained from speech-to-text. The first part of the internship will be used to develop the converter and adapt it to the newly developed transliteration for Arabic (ATR; see: Al-Tamimi et al., 2022). The second part concerns the automatic transcription of data produced by 100 participants followed by the verification of the outputs from the automatic system to allow for an accurate representation of the spoken output. The last part will concern automation of the tasks to allow for other researchers to be able to use it and to continue the development of the conversion tool. A clearly developed python pipeline and ideally a GUI will be required.
  6. Skills: knowledge of Python, with excellent programming skills, knowledge of the Arabic language is preferred but not compulsory

Al-Tamimi, J., Schiel, F., Khattab, G., Sokhey, N., Amazouz, D., Dallak, A., & Moussa, H. (2022). A Romanization System and WebMAUS Aligner for Arabic Varieties. Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), © European Language Resources Association (ELRA), Licensed under CC-BY-NC-4.0, 7269–7276. http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.789.pdf

 ______________________________________________________________

Sujet 2

Français

  1. M1 ou M2
  2. Gratification de stage possible
  3. Tuteur : Jalal Al-Tamimi (jalal.al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité en collaboration avec Guillaume Wisniewski
  4. Durée : 6 mois. A commencer immédiatement
  5. Descriptif : Travaillant en collaboration avec le stagiaire dans le sujet 1, et dans la continuité du développement du système de l’alignement forcé de l’arabe dialectal (macro Arabic WebMAUS et Arabic WebMINNI ; Al-Tamimi et al., 2022), nous sommes à la recherche d’un stagiaire pour réaliser une tâche d’alignement forcé de l’arabe dialectal des données obtenus à partir de la transcription automatique avec le système de translittération de l’arabe dialectal. Cet alignement forcé peut utiliser le nouveau système d’alignement de l’arabe dialectal : Arabic WebMAUS (Al-Tamimi et al., 2022) ou bien les autres outils d’alignement forcée disponibles via les Transformers, wav2vec, etc. Après cette première tâche, le but est d’évaluer la performance du système et en comparant les résultats obtenus entre plateformes. Ensuite, la vérification de l’alignement signal avec texte est nécessaire et celle-ci peut être faites en utilisant la plateforme Praat et TextGrid. Une comparaison de la performance de l’aligneur sera un plus en effectuant une comparaison entre des données déjà segmentées manuellement et celles segmentées automatiquement.
  6. Compétence : Python, Praat, excellente programmation, connaissance de la langue arabe non-obligatoire

English

  1. M1 ou M2
  2. Possible « Gratification de stage »
  3. Tutor: Jalal Al-Tamimi (jalal.al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité in collaboration with Guillaume Wisniewski
  4. Duration: 6 months. To start immediately.
  5. Description: Working together with the internship for topic 1, and in the continuity of the development of the dialectal Arabic forced-alignment system (macro Arabic WebMAUS and Arabic WebMINNI; Al-Tamimi et al., 2022), we are looking for an internship to perform a task of forced-alignment of dialectal Arabic obtained from automatically transcribed data. This alignment can be done using either the newly developed forced-alignment system for Arabic Arabic WebMAUS (Al-Tamimi et al., 2022) or any other platform available via Transformers, wav2vec, etc. Once this first task is performed, the next task will be to evaluate the performance of the system by comparing the performance obtained from multiplatform systems. Next, verification of the alignment of the signal to the text will be required, which can be performed using Praat and TextGrids. A comparison of the performance of the aligner is a plus, which can be done using manually segmented data (already done) and automatically segmented data.
  6. Skills: knowledge of Python, Praat, with excellent programming skills, knowledge of the Arabic language not compulsory

Al-Tamimi, J., Schiel, F., Khattab, G., Sokhey, N., Amazouz, D., Dallak, A., & Moussa, H. (2022). A Romanization System and WebMAUS Aligner for Arabic Varieties. Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), © European Language Resources Association (ELRA), Licensed under CC-BY-NC-4.0, 7269–7276. http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.789.pdf

Stage au Laboratoire de Linguistique Formelle (UPC)
  • Niveau : L3, M1 ou M2
  • Rémunération : GR 
  • Contact et laboratoire : Heather Burnett (LLF) 
  • Durée, dates : année 2022-2023 
  • Descriptif : 

La liaison en français. Revue de la littérature sur la liaison en français européen et québécois. Lecture et synthèse d’articles scientifiques. Éventuellement, constructions de stimulis pour une expérience sur la liaison en français québécois

 

 

Le site espace carrière est une aide à l’insertion professionnelle. Il accompagne les étudiants d’Université Paris Cité dans leur recherche de stages, jobs ou encore de contrat d’alternance.

Retrouvez toutes les informations sur son fonctionnement.

À lire aussi

Ling Fest 2024

Ling Fest 2024

Du 9 au 13 septembre 2024, la Paris Graduate School of Linguistics organise une LingFest, une formation intensive en linguistique pour préparer l'entrée dans les masters de l'Ecole doctorale de linguistique de Paris. Chaque jour de la semaine est dédié dans l'ordre à...

Rentrée 2024

Rentrée 2024

Les réunions de rentrée auront lieu le 6 septembre 2024, et des tests de niveau de linguistique sont organisés le 1er septembre après-midi pour les étudiants externes entrant en M1. Consultez les salles et horaires dans la page de rentrée.Transparents des...

Film sur l’UFRL

Film sur l’UFRL

On peut découvrir certains aspects des enseignements à l'UFR Linguistique à partir d'un film réalisé récemment et disponible ici : https://cloud.parisdescartes.fr/index.php/s/o8dHb8WfnS48PCH © Tous droits réservés À lire...

Mentorat PGSL

Mentorat PGSL

Les étudiants de master sont membres de PGSL qui organise différentes activités, dont une sortie en forêt de Fontainebleau le samedi 23 avril.https://paris-gsl.org/PGSL organise un programme de mentorat qui s'adresse en priorité aux étudiants qui...