Offres de stage
Ces stages sont offerts préférentiellement aux étudiants de l’UFR de linguistique, mais les étudiants inscrits dans d’autres établissement peuvent toutefois postuler.
© Université Paris Cité
Stages 2024-2025 / Internships 2024-2025
NR = Non Rémunéré ; GR = Gratification Réglementaire
Laboratoire de Linguistique Formelle, UPC (Anne Abeillé), Licence et Master
Stages au LLF (UPC) Anne Abeillé
Stage 1 : L’accord du participe passé en français: une approche quantitative
Début souhaité en novembre 2024
M1,M2, GR
L’accord du participe passé avec avoir donne toujours des sueurs froides aux écoliers. Des études récentes au LLF ont montré que les modèles de langage de type BERT étaient sensibles aux dépendances à distance gouvernant cet accord, alors que les jugements d’acceptabilité humains ne montrent pas la même sensibilité.Des études quantitatives sur les réseaux sociaux montrent un taux d’accord très faible (Benzitoun & Flesch 2024). Nous voudrions tester, sur ce même corpus, quels facteurs (objet pronom, 3e personne, humain etc) (dé)favorisent l’accord du participe avec avoir. Des expériences controlées (tâche de lecture et de jugement d’acceptabilité) pourront contrôler les mêmes facteurs.
- Encadrement et labo : Anne Abeillé, Marie Flesch, Barbara Hemforth (LLF)
Benzitoun & Flesch 2024: https://www.shs-conferences.org/articles/shsconf/abs/2024/11/shsconf_cmlf2024_14004/shsconf_cmlf2024_14004.html
- Stage 2: Le purisme grammatical au XXIe siècle- Verbal hygiene in 21st century French
M1,M2, GRDébut souhaité janvier 2025Le français a une tradition ancienne de grammaires prescriptives, mais personne n’est d’accord sur ce qui constitue une ‘faute’ de grammaire.Internet a vu un boom sans précédent de purisme grammatical, de la part de spécialistes comme de non spécialistes. Il s’agira de constituer un corpus de messages et de recommendations,équilibré depuis 2000, entre experts et non experts, puristes et antipuristes, à partir de sites comme ceux de l’Académie française (Dire, ne pas dire) et du Figaro mais aussi de Twitter et des réseaux sociaux.
- Encadrement et labo : Anne Abeillé, Heather Burnett (LLF)
Stage 3: L’accord de proximité depuis le 17e siècle: Closest Conjunct agreement since the 17th centuryENGLISH. In French, closest conjunct agreement is quasi compulsory before plural nouns (certaines villes et villages) (Abeillé et al 2018) but feminine agreement after the same nouns (des chants et des danses bretonnes) has dropped sharply, especially for predicate adjectives (Abeillé et al 2022). We want to test singular coordinated nouns, on which 17th century grammarians disagreed, Vaugelas recommending CCA for attributive adjectives. The intern will search and annotate large corpora, such as Frantext. The language can vary depending on the intern’s language the available corpora.
L’accord de proximité est toujours quasi obligatoire devant les noms pluriels (certaines villes et villages) (Abeillé et al 2018) mais l’accord au féminin après ces mêmes noms a chuté (des chants et des danses bretonnes), en particulier pour l’attribut (Abeillé et al 2022). Nous voudrions tester l’accord en cas de coordination de deux noms singuliers de genre différents, pour lesquels les grammairiens du 17e siècle étaient partagés, Vaugelas recommandant l’accord de proximité pour l’épithète. Il s’agira d’exploiter les corpus annotés disponibles, en particulier Frantext. La langue étudiée pourra être fixée selon les compétences de l’étudiant.e, et les corpus disponibles.
- Type, durée, rémunération : L3,M1,M2, GR
- Encadrement et labo : Anne Abeillé (LLF)
Abeillé et al 2018 https://journals.openedition.org/discours/9542
Abeillé et al 2022 https://journals.openedition.org/discours/12363
Stage 4. Phrases elliptiques et marques de genre: une approche expérimentale / Ellipsis and gender : an experimental approach
Les phrases sans verbe ont souvent un équivalent verbal comme ‘Paul aime les pommes et ses enfants (aiment) les bananes.’ De nombreuses langues présentent des cas de mismatch, où la forme manquante n’est pas la même que celle de l’antécédent (ici aime/aiment). Le but du stage sera de tester des cas de mismatch de genre (Paul est plus grand que Marie.) et d’omission de la préposition (Paul rêve d’habiter à Paris et Marie Venise.), en montant des expériences de jugement d’acceptabilité. Il est possible de travailler sur une autre langue à genre grammatical.
ENGLISH. Verbless sentences tend to have verbal counterparts as in: Paul aime les pommes et ses enfants (aiment) les bananes.(‘Paul likes apples and his children bananas’). ‘Mismatch’ cases abound in many languages, where the missing form is not the same as the antecedent one (here the verb aime/aiment). The intern will run design and run acceptability judgement experiments on gender mismatch (Paul est plus grand que Marie. ‘Paul is taller.msg than Mary.’) and preposition omission (Paul rêve d’habiter à Paris et Marie Venise. ‘Paul dreams about living in Paris and Marie Venice’). Working on another gender marking language is possible too.
- Type, durée, rémunération : L3,M1,M2, GR
- Encadrement et labo : Anne Abeillé (LLF) & Emma Kious (LLF)
UFR d'Etudes Anglophones, UPC (Emmanuel Ferragne) - Master
Dans le cadre d’un projet pédagogique à l’UFR d’Etudes Anglophones, nous proposons un stage à un étudiant/une étudiante en master d’informatique/linguistique informatique à Université Paris Cité d’octobre à décembre 2024.
Il s’agira d’entraîner des modèles de reconnaissance d’accent (par ex. https://github.com/JuanPZuluaga/accent-recog-slt2022), de les adapter à nos besoins et de décrire dans un document les différentes étapes impliquées dans ces tâches de sorte qu’on puisse les reproduire.
Ce stage donne lieu à une gratification financière.
Le lieu du stage est : bâtiment Olympe de Gouges, 8 place Paul Ricoeur, dans le 13e.
Merci de diffuser cette annonce.
Merci aux personnes intéressées de me contacter : emmanuel.ferragne@u-paris.fr
Laboratoire de Linguistique Formelle, UPC (Caterina Donati) - Licence et Master
Laboratoire de Linguistique Formelle, UPC (Anne Abeillé) - Master
Laboratoire de Linguistique Formelle, UPC (Jalal Al-Tamimi), Master
Sujet 1
Français
- M1 ou M2 (Idéalement M2)
- Gratification de stage possible
- Tuteur : Jalal Al-Tamimi (al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité en collaboration avec Guillaume Wisniewski
- Durée : 5 mois temps plein. À commencer en janvier/février 2025
- Descriptif : Dans la continuité du développement du système de l’alignement forcé de l’arabe dialectal (macro Arabic WebMAUS et Arabic WebMINNI ; Al-Tamimi et al., 2022) et à la suite de plusieurs stages durant l’été 2024, nous sommes à la recherche d’un stagiaire pour réaliser plusieurs tâches qui concernent la transcription et l’alignement forcé des textes en arabe d’une façon automatique. Le système actuel : macro Arabic WebMAUS (Al-Tamimi et al., 2022) propose une translittération en effectuant un mappage 1graphème-1phonème dans le cas d’un script arabe vocalisé et/ou un script utilisant un alphabet romain. Afin de translittérer l’arabe non vocalisée et permettre d’effectuer plusieurs tâches de transcriptions et d’alignement forcés automatiques, nous cherchons à continuer le développement d’un convertisseur informé par une transcription automatique speech-to-text, en utilisant plusieurs plateformes comme wav2vec ou Whisper qui viennent enrichir les convertisseurs préexistants avec la vocalisation obtenue à partir du speech-to-text.
Les tâches seront les suivantes : 1) effectuer une transcription automatisée de l’arabe dialectal via wav2vec et Whisper ; 2) modifier les scripts actuels pour améliorer la performance du système ; 3) Utiliser les données disponibles (près de 100 locuteurs) + celles de Mozilla Common Voice spécifiques à l’arabe dialectal ; 4) trouver une approche formelle d’évaluation de la performance du système (comme le word error rate ou le phoneme error rate, etc.) ; 5) obtenir les données temporelles de chaque « phonème » identifié afin de proposer un alignement du signal acoustique avec les transcriptions et 6) continuer le développement d’une application (avec installation locale et/ou sur le web) qui sera partagée avec la communauté de recherche.
D’autres tâches pourraient venir compléter les tâches premières. Par exemple, une possibilité concerne la transcription et l’alignement de données non transcrites de près de 100 locuteurs de plusieurs dialectes en plus de près de 120 locuteurs de l’arabe jordanien. En plus d’une tâche possible de reconnaissance automatique de la parole en arabe avec une approche multi-dialectale.
Tout document résultant de ces tâches (script python, gui, matériel, etc..) sera partagé avec l’équipe de recherche et fera l’objet d’une possible publication future (article et/ou repo sur github, hugginface ou d’autres plateforme).
- Compétence : Python, excellente programmation, connaissance de la langue arabe est une préférence mais pas obligatoire, connaissance des approches en reconnaissance automatique de la parole
English
- M1 ou M2 (preference for an M2)
- Possible « Gratification de stage »
- Tutor: Jalal Al-Tamimi (al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité in collaboration with Guillaume Wisniewski
- Duration: 5 months full time. To start in January/February 2025
- Description: As a follow-up to the development of a forced-alignment system for dialectal Arabic (the macro Arabic WebMAUS and Arabic WebMINNI; Al-Tamimi et al., 2022), and to the various internships that took place during the summer 2024, we are looking for an intern to work on multiple tasks concerning the automatic transliteration (romanisation) and forced alignment of Arabic scripts. The current transliteration system: the macro Arabic WebMAUS (Al-Tamimi et al., 2022) performs a 1Grapheme-1phoneme mapping in the case of a vocalised Arabic script or when using a romanised Arabic text. To allow for transliteration of non-vocalised Arabic text and to allow for multiple tasks including automatic transcription and forced alignment, we are looking to continue the development of a conversion tool informed by an automatic speech-to-text transcription, e.g., wav2vec or Whisper with the aim to enrich current pre-existent converting systems with vocalisation obtained from speech-to-text.
The tasks are as follows: 1) perform an automatic transcription of dialectal Arabic using wav2vec and Whisper; 2) modify and adapt the current scripts to improve the performance of the system; 3) Use pre-existing data from overl 100 participants in addition to new data from Mozilla Common Voice specific to dialectal Arabic; 4) Find and apply a formal assessment approach to evaluate the performance of the system (e.g., the Word-Error-Rate or a Phoneme-Error-Rate, etc.); 5) obtain temporal time-stamps for each “phoneme” to implement a forced-alignment of the acoustic signal with the transcriptions and 6) continue the development of an application (local installation and/or on the web), which will be shared with the research community.
Additional tasks can be required after completing the initial tasks. For instance, there is a possibility for automatically transcribing and aligning non-transcribed data from over 100 Arabic speakers from various regional dialects, in addition to data from around 120 speakers from Jordanian Arabic. F A final possibility concerns a multi-dialectal automatic speech recognition task.
All documents and data emerging from these tasks (python scripts, gui, material, etc.) needs to be shared with the research team and will be used for a possible future publication (article, and/or github repo, huggingface, or any other platform)
Tout document résultant de ces tâches (script python, gui, matériel, etc..) sera partagé avec l’équipe de recherche et fera l’objet d’une possible publication future (article et/ou repo sur github, hugginface ou d’autres platform).
- Skills: knowledge of Python, with excellent programming skills, knowledge of the Arabic language is preferred but not compulsory, knowledge of approaches used in automatic speech recognition
Al-Tamimi, J., Schiel, F., Khattab, G., Sokhey, N., Amazouz, D., Dallak, A., & Moussa, H. (2022). A Romanization System and WebMAUS Aligner for Arabic Varieties. Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), © European Language Resources Association (ELRA), Licensed under CC-BY-NC-4.0, 7269–7276. http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.789.pdf
______________________________________________________________
Laboratoire de Linguistique Formelle, UPC (Jana Rameh), Licence et Master
-
Niveau : L1, L2, L3, M1
-
Compétences requises : connaissances en analyse de corpus (méthodes et outils d’analyse textuelle). Une appétence pour l’écriture inclusive est appréciée.
-
Rémunération : gratification réglementaire (GR).
-
Contact et laboratoire : Jana Rameh, LLF (Laboratoire de Linguistique Formelle).
-
Durée, dates : Début souhaité dès que possible ; durée à déterminer.
-
Description : nous recherchons une personne autonome et rigoureuse pour participer au recueil et à l’analyse de corpus de publications d’entreprises (scraping + analyse). Elle contribuera à organiser, collecter et analyser les résultats en lien avec l’utilisation de l’écriture inclusive dans les communications professionnelles.
-
Required skills: Knowledge of corpus analysis (methods and tools for textual analysis). An interest in inclusive writing is a plus.
-
Compensation: Regulatory stipend (GR).
-
Contact and laboratory: Jana Rameh, LLF (Laboratoire de Linguistique Formelle).
-
Duration, dates: start as soon as possible ; duration to be determined.
-
Description: we are looking for an autonomous and detail-oriented individual to participate in the collection and analysis of corporate publication corpora (scraping + analysis). The role will involve organizing, collecting, and analyzing the data, with a focus on the use of inclusive writing in professional communications.
Laboratoire de Linguistique Formelle, UPC (Anne Abeillé), Master
M1 or M2, paid
French required
Title: Annotation of Human Repair Initiation in Task-oriented Dialogue
Project Description:
Human language complexities often expose flaws such as misunderstandings, misinterpretations, speech impediments, or social norm violations.
Strategies people use in conversations to identify and address these problems, fostering mutual understanding, are called repair (Schegloff, 2007). Schegloff (2007) distinguishes repair types based on who initiates and who provides the solution between the speaker and the addressee.
The overall aim of this research is to create a conversational agent able to handle social repairs from its human interlocutors. To such an aim, it needs to detect when a repair arises and to recognize the type of repairs. To model such a capability, we will rely on annotated data.
This internship aims to annotate a corpus of dyads in term of social repairs.
Tasks:
- Annotating a corpus for multimodal analysis of conversational repair (Other-initiated Self-repair) through audio and video recordings (transcription provided) of human-human interaction.
- Identifying and labelling each part of conversational repair sequences and classifying different types of repair initiation.
- Ensuring annotation consistency by following predefined guidelines and collaborating with the team for clarification and updates.
- Annotations will be based on multimodal cues, including speech, facial expressions, body language, and dialogue context.
Requirements:
- Good attention to detail and ability to follow annotation protocols.
- Basic knowledge of linguistics and conversational analysis will be helpful.
- Experience with data annotation tools (e.g., ELAN, Praat, or similar) is a plus.
- Preferably have a background in linguistics, cognitive science, or computer science with interest in human-human, human-agent interaction.
Applications: send CV and names of referent to anh.ngo-ha@inria.fr and chloe.clavel@inria.fr
Laboratoire de Linguistique Formelle, UPC (Patrick Caudal), L3, M1, M2
Stages sans indication de date
Stage au Laboratoire LISN CNRS (Orsay).
Ce stage se déroulera dans le cadre du projet « Les vraies voix de l’intelligence artificielle » qui porte sur l’analyse sociologique et linguistique de la parole des micro-travailleurs et travailleuses de l’intelligence artificielle. Des enquêtes sociologiques ont été menées au sujet de la réalité socio-économique et linguistique de cette population de travailleurs émergente et un corpus a été constitué consistant en des questionnaires écrits et des entretiens oraux. Le travail de stage portera sur l’analyse de la variation sonore portée par l’expression orale des sujets participants à l’enquête. Plus précisément, à partir de données alignées son/texte grâce à un outil automatique, il s’agira d’explorer et de proposer une typologie des motifs de variation portant sur des phénomènes spécifiques à l’oral tels que le débit de parole, les patrons de réduction (durée, réalisations vocaliques et consonantiques), le rapport entre parole/fluente et disfluente etc. Ces patrons seront analysé selon des dimensions socio-phonétiques potentielles, comme par exemple hommes/femmes, âge, métiers etc. afin de contribuer aux profiles socio-économiques et d’aboutir à une description interdisciplinaire de la variation de l’oral.
- Type, durée, rémunération :6 mois; M1 – M2, GR
- Compétences requises : phonétique, TAL, analyse statistique (R), programmation (connaissances de base en python)
- Encadrement et labo : Ioana Vasilescu, Yaru Wu, Paola Tubaro – Laboratoire LISN CNRS (Orsay).
Stages au Laboratoire de Linguistique Formelle (UPC)
Stages en sémantique et pragmatique sur des sujets tels que les quantificateurs, les structures distributives et proportionnelles, ou la structure argumentale des verbes. Il s’agira d’études théoriques, bibliographiques et sur corpus.
- Type, durée, rémunération : L3 et M1, NR
- Encadrement et labo : Lucia Tovena (LLF)
Stage au LLF (UPC)
Title: Transition parsing and Q-learning
Duration: at least 3 months
Supervisor: T. Bernard
Expected profile: Very good programming skills, interest in neural-based machine learning, Master 1 or Master 2 in computational linguistics or computer science
Syntactic transition parsers such as shift-reduce parsers and arc-eager parsers are straigthforward to implement and train in the standard (teacher forcing) supervised fashion (see, e.g., Chen and Manning 2014 and Dyer et al. 2015). Standard supervised training, however, aims at maximising the log-likelihood of the annotated (gold) structures of the training data while the quantity that matters most is the expected F1/attachement score (the actual performance of the parser). In addition, while beam-search decoding is the most standard improvement on greedy-decoding, there are reasons to believe that beams based on the probability of the hypotheses are not particularly good at dealing with ambiguity. Indeed, if a parsing hypothesis has two plausible continuations, the probabilities of each of these continuations will suffer from the existence of the other, which means that both might be ejected from the beam (while less plausible parsing hypotheses might stay in the beam).
Thanks to the advance of reinforcement learning in general and Q-learning in particular (see, e.g., Mnih et al. 2013), it has become easier to train a parser so as to optimise a metric such as its expected F1/attachement score. One particularity of reinforcement learning schemes is that the system is not trained on gold trajectories (the trajectories from an initial state to a complete gold parse), but on its own predicted trajectories. A parser trained in such a fashion is thus expected to be more reliable at prediction time. A particularity of Q-learning more specifically is that it is not based on estimating probabilities for actions but values for states (in this case, parsing states) in such a way that maximising the parser’s objective is compatible with two continuations of the same parsing hypothesis both having high value. This is somewhat reminiscent of the structured perception used by Weiss et al. (2015). It thus seems that beams based on state value rather than probability might be better at dealing with ambiguity.
The goal of this research internship is to adapt a traditional transition parser in order to train it with a mix of Q-learning and standard log-likelihood maximisation. The impact of Q-learning training on greedy and beam-seach decoding will be studied.
Depending on the profile of the students, other questions might be approached instead; such as how model calibration impacts the performance of beam-search decoding, and whether A* decoding can be implemented as a viable alternative to beam-search decoding.
Relevant references:
— Chen, Danqi, and Christopher Manning. ‘A Fast and Accurate Dependency Parser Using Neural Networks’. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 740–50. Doha, Qatar: Association for Computational Linguistics, 2014. http://www.aclweb.org/anthology/D14-1082.
— Dyer, Chris, Miguel Ballesteros, Wang Ling, Austin Matthews, and Noah A. Smith. ‘Transition-Based Dependency Parsing with Stack Long Short-Term Memory’. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 334–43, 2015. https://doi.org/10.3115/v1/P15-1033.
— Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. ‘Playing Atari with Deep Reinforcement Learning’, 2013. http://arxiv.org/abs/1312.5602.
— Weiss, David, Chris Alberti, Michael Collins, and Slav Petrov. ‘Structured Training for Neural Network Transition-Based Parsing’. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 323–33. Beijing, China: Association for Computational Linguistics, 2015. https://doi.org/10.3115/v1/P15-1032.
Offres de stages passées / Past offers of internships
Stage parcours LI - Dydu
Pour candidater, vous pouvez envoyer votre CV à cbertieaux@dydu.ai
Chargé(e) de Contenu Numérique (H/F) – Stage de 6 mois
Dydu est le leader en France des plateformes d’IA conversationnelle depuis plus de 14 ans. Grâce à nos solutions, nous aidons nos clients (CAC 40, PME, Collectivités…) à créer, déployer et administrer des bots très rapidement et simplement.
Les cas d’utilisation sont nombreux et variés, du suivi de consommation d’énergie électrique ou gaz à la pose de congés dans un intranet.
Présent à Paris et à Bordeaux, Dydu garde à cœur le bien-être de ses salariés.
Avec actuellement une trentaine de collaborateurs, bienveillance, esprit d’équipe et partage font partie des valeurs de l’entreprise.
Vous êtes à la recherche d’un nouveau défi et souhaitez évoluer dans un environnement innovant et dynamique ?
Dydu recherche des talents impliqués et passionnés pour accompagner sa croissance. Rejoignez-nous !
Les missions
Au sein de l’équipe Opérations, composée des Chefs de Projets et des Customer Success Managers, sous la responsabilité du Directeur des Projets, tu auras les missions suivantes en tant que Chargé(e) de Contenu Numérique:
Rédaction et production de contenus numériques :
-
– Rédiger des contenus de qualité liés à l’usage d’un chatbot
-
– Contrôler la qualité de la base de connaissances des chatbots de nos clients
-
– Identifier des thématiques intéressantes de contenus pour nos clients
-
– Récupérer les statistiques d’utilisation des chatbots et analyser les données pour
proposer des améliorations de la base de connaissances
Gestion de la relation client :
-
– Gérer la relation client et créer des connaissances en cohérence avec les demandes et les spécificités de la solution Dydu
-
– Faire remonter les observations/problématiques des clients à l’ensemble de l’équipe opérations
Profil et qualités recherchés :
-
– Bonne qualité de rédaction
-
– Posséder une bonne analyse linguistique
-
– Capacité d’analyse de données
-
– Un esprit logique pour comprendre les subtilités des chatbots
-
– Capacité d’adaptation à un environnement technologique
Tu travailleras dans un environnement motivant, dans lequel tu partageras tes idées et besoins. Nous offrons un cadre de travail dans lequel tu pourras t’épanouir, et déployer tes savoir-faire dans les meilleures conditions :
-
– Des bureaux en plein cœur de Paris 8
-
– Un télétravail organisé
-
– Une carte Swile prise en charge très favorablement pour les déjeuners
Le processus de recrutement comportera plusieurs entretiens :
Un premier entretien avec les Ressources Humaines Un entretien avec un membre de l’équipe Opérations
Parcours FLE: Association L'île aux langues
Activités :
o Participer aux évaluations des futurs apprenants
o Participer à l’évaluation des progrès et contribuer à la capitalisation des informations
o Participer à l’animation des formations et des sorties pédagogiques avec les formateurs o Participer à l’accompagnement et au suivi individuel des stagiaires
o Participer à l’élaboration de supports d’ingénierie pédagogique
Date : À partir de septembre 2023
Horaires : Durée hebdomadaire à discuter selon les envies, besoins Adresse : 19-23 Rue Emile Duployé 75018 Paris
Envoyer CV et LM : contact@lial.fr
Stage non rémunéré.
Renseignements : 09 84 10 60 66 http://www.lial.fr
L’île aux Langues est une association loi 1901 et un organisme de formation qui a pour vocation l’apprentissage et la transmission de la langue française comme vecteur d’autonomisation et d’inclusion sociale, économique, culturelle et citoyenne des publics de toutes origines. L’association répond prioritairement au souhait d’apprentissage du français des personnes dont la langue maternelle n’est pas le français, et en particulier des publics fragilisés socialement, des personnes en recherche d’emploi, des personnes migrantes et des primo-arrivants. Composée de formateurs diplômés de l’enseignement du français langue étrangère, L’île aux Langues vise à démocratiser l’accès à un apprentissage professionnel et de qualité de la langue, tout en favorisant le développement d’un espace de mixité sociale. Située à la confluence du quartier de la Goutte d’Or et de la Chapelle, L’île aux Langues accueille chaque année environ 350 apprenants de toutes origines, avec pour objectifs la transmission langagière et culturelle du français ainsi que la sécurisation socioprofessionnelle des publics.
DeepTypo (Guillaume Wisniewski, LLF, UPC)
– Niveau : M1 ou M2
– Compétence : linguistique informatique
– Rémunération : selon les conditions en vigueur (environs 600 euros par mois)
– Contact : Guillaume Wisniewski, guillaume.wisniewski@u-paris.fr
– Durée : de 3 à 6 mois
– Description :
DeepTypo est un projet universitaire qui réunit les linguistes documentaires de deux laboratoires de linguistique (le LLL et le LACITO) et les chercheurs en TAL du LISN et du LLF. Le projet s’inscrit dans le cadre de la documentation linguistique computationnelle et a un double objectif : aider les linguistes dans leur travail de documentation et de revitalisation des langues et comprendre les limites des représentations multilingues pré-entrainées de la parole, telles que wav2vec2, HuBERT ou whisper, en les testant sur des langues avec des caractéristiques linguistiques très variées ou en identifiant le type d’information qu’elles capturent.
Le projet DeepTypo vise notamment à développer des systèmes de reconnaissance de la parole pour des langues rares et en cours de documentation, à concevoir des méthodes d’analyse capables d’extraire automatiquement des connaissances typologiques à partir des représentations vectorielles du signal audio (par exemple, des inventaires de phonèmes, des similarités entre langues, …) ou à identifier automatiquement la langue et la famille de langue d’un enregistrement.
Dans le cadre de ce projet, nous recrutons (au moins) un·e stagiaire (M1 ou M2) pour :
– entrainer des modèles de reconnaissance de la parole pour des langues rares ;
– développer des méthodes d’analyse des erreurs des systèmes de reconnaissance de la parole ;
– développer des méthodes d’alignement forcé afin de mettre en correspondance les transcriptions existantes avec le signal audio ;
– développer des sondes linguistiques pour analyser les propriétés phonétiques et phonologiques capturées par les représentations.
Les sujets sont adaptables en fonction des centres d’intérêt des personnes recrutées et des avancées du projet.
Laboratoire de Linguistique Formelle, UPC (Anne Abeillé)
Stage 1 : L’accord du participe passé en français: une approche expérimentale
Début souhaité en novembre 2023
M1,M2, GR
- Encadrement et labo : Anne Abeillé, Barbara Hemforth (LLF)
Stage 2: Le purisme grammatical au XXIe siècle- Verbal hygiene in 21st century French
- Encadrement et labo : Anne Abeillé, Heather Burnett (LLF)
ENGLISH. In many languages, human subjects tend to be more masculine than feminine. The intern will test and refine this kind of gender bias in large syntactically annotated corpora, using additional databases to annotate the semantic roles for instance. The target language may vary according on the student’s linguistic background. A preference would be French, English, Greek or Spanish. The intern will learn advanced inferential statistics
Dans beaucoup de langues, les sujets humains sont plus masculins que féminins. Le but su stage est de tester et préciser ce biais de genre sur de larges corpus annotés pour la syntaxe, en utilisant des bases de données permettant d’annoter les rôles sémantiques par exemple. La langue étudiée pourra être fixée selon les compétences de l’étudiant.e. Une préférence sera donnée au français, à l’anglais, à l’espagnol et au grec..
- Type, durée, rémunération : L3,M1,M2, GR
- Encadrement et labo : Anne Abeillé (LLF) and Yanis DaCunha (LLF)
Stage 4. L’ellipse du verbe en français: une approche expérimentale / Ellipsis in French : an experimental approach
Les phrases sans verbe ont souvent un équivalent verbal comme ‘Paul aime les pommes et ses enfants (aiment) les bananes.’ De nombreuses langues présentent des cas de mismtach, où la forme manquante n’est pas la même que celle de l’antécédent (ici aime/aiment). Le but du stage sera de tester des cas de mismatch de genre (Paul est plus grand que Marie.) et d’omission de la préposition (Paul rêve d’habiter à Paris et Marie Venise.), en montant des expériences de jugement d’acceptabilité. Il est possible de travailler sur une autre langue à genre grammatical.
ENGLISH. Verbless sentences tend to have verbal counterparts as in: Paul aime les pommes et ses enfants (aiment) les bananes.(‘Paul likes apples and his children bananas’). ‘Mismatch’ cases abound in many languages, where the missing form is not the same as the antecedent one (here the verb aime/aiment). The intern will run design and run acceptability judgement experiments on gender mismatch (Paul est plus grand que Marie. ‘Paul is taller.msg than Mary.’) and preposition omission (Paul rêve d’habiter à Paris et Marie Venise. ‘Paul dreams about living in Paris and Marie Venice’). Working on another gender marking language is possible too.
- Type, durée, rémunération : L3,M1,M2, GR
- Encadrement et labo : Anne Abeillé (LLF)
Laboratoire de Linguistique Formelle, UPC (Hiyon Yoo et Ioana Chitoran)
Stage en phonétique L1-L2 (LLF et Clillac-ARP)
Projet ALLSTAR-FRENCH (en collaboration avec Northwestern University)
Corpus L1 – français / L2 – variés
- Niveau : L3, M1 ou M2
- Compensation : GR = Gratification Réglementaire
- Hiyon Yoo (LLF) et Ioana Chitoran (Clillac-ARP) (hi-yon.yoo@u-paris.fr)
- Dates : à partir de janvier 2024
- Connaissances : bonne connaissance du français et de l’anglais ; familiarité avec Praat n’est pas nécessaire mais c’est un plus
- Description :
Enregistrements de données. Le/la stagiaire va contribuer à l’enregistrement et analyse préliminaire de données pour le corpus ALLSTAR-FRENCH, suivant un protocole pré-établi.
Tâches du/de la stagiaire : recruter les participants, finaliser les matériels ; passer l’expérience avec les participants ; pré-traiter les données de production recueillies (transcription automatique et correction de la segmentation).
Le/la stagiaire pourra utiliser des données du corpus pour un projet de recherche individuel.
Phonetics research L1 – L2 (LLF and Clillac-ARP)
ALLSTAR-FRENCH Project (in collaboration with Northwestern University)
L1 French corpus / Different L2
- Level: L3, M1 or M2
- Paid internship
- Hiyon Yoo (LLF) and Ioana Chitoran (Clillac-ARP) (hi-yon.yoo@u-paris.fr)
- Starting date: January 2024
- Required skills: the research assistant should have good knowledge of French and English; previous experience working with Praat is a plus, but is not required.
- Description:
Audio recordings and acoustic analysis. The student research assistant will contribute to the ALLSTAR-FRENCH corpus by doing audio recordings and preliminary analysis of the recorded data, following a pre-established protocol.
Tasks include: recruiting participants, setting up the recordings, handling the equipment, recording, preparing the collected data for analysis (e.g., running the automatic transcription for the recorded language and correcting it as needed).
If interested, the student researcher may use the data for their own individual research project.
Institut français de Mayence (Allemagne)
Stage FLE au service des cours Institut français de Mayence
L’institut Français de Mayence est une des antennes de l’Institut français d’Allemagne rattaché à l’Ambassade de France à Berlin. Son rôle principal est de s’engager activement pour la promotion des relations franco-allemandes sur le plan culturel, linguistique et académique ainsi que de diffuser la langue et la culture française.
Vous êtes étudiant(e), dynamique et enthousiasmé(e) par les échanges interculturels ? Vous voulez connaître le fonctionnement d’un Institut français en Allemagne ? Le service des cours de l’Institut français de Mayence recherche un(e) stagiaire longue durée (4 à 6 mois) pour un début de stage entre le 8 janvier et le 26 février 2024.
Missions
Sous la responsabilité du directeur délégué et de la secrétaire générale/directrice des cours, vous participerez activement à la planification, à l’organisation et à la gestion des cours de langues, à travers les activités suivantes :
-
Soutien à l’organisation des cours de groupe et des cours individuels (accueil, conseil, inscriptions, etc.)
-
Enseignement du FLE à divers publics (adultes, adolescents, enfants) et participation à l’élaboration de matériel pédagogique (selon profil et expérience)
-
Soutien logistique (et pédagogique) aux enseignants et à l’équipe du service des cours
-
Soutien ponctuel à la médiathèque (accueil, conseil, inscriptions, enregistrements, animation « heure du conte »)
-
Aide à l’élaboration et à la promotion de l’offre de cours (newsletter, Facebook, Instagram).
Intégré(e) à l’équipe de l’Institut, vous pourrez acquérir une vision complète de l’activité d’un Institut français à l’étranger, en particulier dans le domaine linguistique.
Profil recherché
-
Etudiant(e) FLE, LEA études germaniques, relations internationales etc.
-
Très bonne maîtrise du français et de l’allemand à l’écrit comme à l’oral (niveau B2 minimum exigé)
-
Expérience dans l’enseignement du FLE appréciée
-
Esprit d’initiative et autonomie dans le travail
-
Rigueur et capacité d’organisation
-
Flexibilité et disponibilité
-
Sens du contact
-
Bonne maîtrise du pack Office
Informations générales
-
Date de début de stage flexible : entre le 8 janvier et le 26 février 2024.
-
Convention de stage avec un établissement de l’enseignement supérieur obligatoire (pour les
étudiants d’université allemande, il devra obligatoirement s’agir d’un « vorgeschriebenes Zwischenprakkum »)
Merci d’adresser vos candidatures (CV et lettre de motivation) à Mme Jennifer Menke, secrétaire générale et responsable des cours : jennifer.menke@institutfrancais.de
Les candidatures seront traitées par ordre d’arrivée et des entretiens pourront avoir lieu avant la clôture de la période de candidature.
Date de début : 08.01.2024 (flexible)
Durée : 4 à 6 mois
Volume horaire hebdomadaire : 35 heures
Rémunération (ou gratification) : 4,05€/heure
Lieu : Institut francais Mayence – Schillerstraße 11 – 55116 Mayence – Allemagne
Date limite de candidature : 04.12.2023
Courriel : jennifer.menke@institufrancais.de
Neocognition.ai
Education / Psychologie Intelligence Artificielle Langagière
Neocognition.ai, c’est une équipe de chercheurs, ingénieurs et consultants qui associe intelligence artificielle conversationnelle sur-mesure et sciences cognitives & de gestion. Tous acteurs engagés de la construction d’une collaboration entre intelligences humaine et artificielle, où chacune réalise sa valeur ajoutée au service du développement des individus & organisations : la neocognition.
Neocognition recrute un stagiaire de niveau Licence ou Master en sciences du langage, linguistique, sciences cognitives, psychologie, lettres ou littérature afin de réaliser du prompt engineering (éducation et paramétrage cognitif & linguistique d’IA) et participer à l’aventure du développement de nos prochaines IA conversationnelles collaboratives à des fins de coaching, formation, management, psychothérapie, mentorat et de création d’assistants personnels.
Compétences recherchées et missions :
-
Parfaite maîtrise du français : orthographe, syntaxe, grammaire, conjugaison.
-
Maîtrise de la synthèse et de la structuration des informations à l’écrit en français.
-
Analyse, précision et affinement sémantique, conceptuel et linguistique.
-
Culture générale et appétence pour les modèles de langage en intelligence artificielle.
-
Des connaissances de bases du langage python constitueraient un plus.
Informations pratiques :
-
Début : dès que possible.
-
Modalité : télétravail (toute l’équipe, répartie sur différentes zones géographiques en France et à
l’international, est en permanence en bureau virtuel collectif sur Discord).
-
Rémunération : gratification prévue par la règlementation en vigueur.
Profil exclusivement recherché: passion, investissement, compétence, autonomie, adaptabilité, orientation résultat et solution.
Candidature : CV + LM : contact@neocognition.ai
Stage/internship at ArticuLabo (Inria Paris, Justine Cassell)
Title: The role of Rapport in Interaction: Multi-modal modeling of conversation, and collection of neuroscience data, to better understand how people build social bonds, and to improve performance in conversational agent-mediated interactions.
Type: L3, M1 3-month or M2 6-month Internships
Periode: stages disponibles toute l’année
Laboratoire d’accueil: Inria Paris, 2 rue Simone Iff, 75012 Paris
Thèmes: Multiple internships available including Linguistic Pragmatics, Social Cognitive Neuroscience and Embodied Conversational Agents
Langage: French or English
Rénumeration: GR (= Gratification Réglementaire)
This project exists at the intersection of Cognitive Science and Artificial Intelligence and therefore has dual goals: to better understand the role of rapport (connivence) in human-human interaction and to build better embodied conversational agents (ECAs) that have the ability to engage their users in both social and task talk, where the social talk has been demonstrated to improve task performance. In order to achieve this objective, members of the lab collect and annotate natural conversational data, collect neuroimaging (hyperscanning via fNIRS) data, model human-human conversation, integrate the models into ECAs, and then evaluate their performance. We have internships available for students from Cognitive Science, Psychology, Neuroscience, Linguistics and Computer Science (only some of the positions require programming experience).
Specifically, we currently have a number of open positions for L2 or L3 interns (part-time), M1 interns (3 months) or M2 interns (6 months), as follows: annotate conversational data for linguistic phenomena and analyze the resultant annotations; assist in the collection of video and audio data, assist in the collection of neural / neuroimaging data, from children, in an ongoing study of dyadic collaboration in children; or build machine learning models of conversation.
Applicants should have relevant experience with one or several of the following: linguistics, psychology, cognitive science, cognitive/social neuroscience, functional neuroimaging, research with children. Knowledge of statistics and/or programming languages such as Python are a plus. Fluent English speakers with a French level of at least B1, and fluent French speakers with an English level of at least B1 are particularly invited to apply
To apply contact: justine.cassell@inria.fr and jade.jenkins@inria.fr
--
Stage au Laboratoire de Linguistique Formelle (UPC)
Stage au Laboratoire de Linguistique Formelle (UPC)
Stage GR à M1 ou M2: interaction avec un robot parlant
Tuteur: J Ginzburg (yonatanginzburg@gmail.com)
Mi oct 2022 — mi janvier 2023 (avec un peu de flexibilité sur les dates).
Descriptif: We need a stagiaire to help run experiments with the robot FurHat. The experiments (with human subjects) involve recording the reactions of subjects to interactions with the robot and also some programming of the scripts for the robot.
Background needed: some experience with programming in a language like python or java; interest in dialogue and/or human-robot interaction.
Nous avons besoin d’un stagiaire pour aider à mener des expériences avec le robot FurHat. Les expériences (avec des sujets humains) consistent à enregistrer les réactions des sujets aux interactions avec le robot et également à programmer des scripts pour le robot.
Prequis : une certaine expérience avec la programmation dans un langage comme python ou java ; intérêt pour le dialogue et/ou l’interaction homme-robot.
Stage au Laboratoire de Linguistique Formelle (LLF), UPC
- Level: L3, M1 ou M2
- Compensation: GR = Gratification Réglementaire
- Tutor: Dorotea Bevivino, LLF (dorotea.bevivino@u-paris.fr)
- Dates: as soon as possible (année 2022-2023)
- Requirements: English native speakers; some knowledge of Excel; familiarity with Praat is not required but it is a plus.
- Description:
- Niveau : L3, M1 ou M2
- Compensation: GR = Gratification Réglementaire
- Tutor: Dorotea Bevivino, LLF (dorotea.bevivino@u-paris.fr)
- Dates: à partir de décembre (année 2022-2023)
- Connaissances : français langue maternelle ; bonne connaissance de l’anglais ; familiarité avec Excel ; familiarité avec Praat n’est pas nécessaire mais c’est un plus
- Description:
Scripts et schémas de codage seront fournis pour faciliter et accélérer les taches.
Stage au Laboratoire INCC et Clillac-Arp (UPC)
Stage 1 : De la bouche aux oreilles : le rôle de la maturation sensorimotrice dans le développement phonologique.
- Niveau : M1 M2
- Rémunération: peut-être rémunéré
- Encadrement et labo : Irene Lorenzini https://incc-paris.fr/people/irene-lorenzini/ et Laurianne Cabrera https://incc-paris.fr/people/laurianne-cabrera/
- Descriptif:
Traditionnellement, le traitement de la parole a été étudié comme un phénomène auditif. Cependant, de nombreuses études ont récemment montré des corrélats perceptifs entre les actions liées à la parole et les sons de la parole. En effet, chez les adultes sains, le réseau neuronal recruté par le traitement de la parole inclut une contribution régulière des aires sensorimotrices. Ceci est en accord avec certains modèles neuroscientifiques proposant des représentations partagées entre action et perception. Dans ce contexte, les recherches sur la perception de la parole et le développement du langage chez le nourrisson cherchent à comprendre le lien entre maturation sensorimotrice et développement phonologique. Ce projet explore l’impact du développement sensorimoteur sur le développement phonologique précoce. La collecte de données auprès de nourrissons de 6 à 8 mois pourra s’effectuer au Babylab de l’INCC. Les nourrissons prendront part à la fois à une étude comportementale (fixation centrale) et de neuroimagerie (fNIRS). Des enregistrements de l’environnement linguistique de l’enfant seront aussi effectués à la maison avec le système LENA.
________________________________________________________
Stage 2: Acquisition des complexes consonantiques
- Niveau : M1 – M2
- Rémunération: GR
- Encadrement et labo : Laurianne Cabrera https://incc-paris.fr/people/laurianne-cabrera/ Ioana Chitoran http://www.clillac-arp.univ-paris-diderot.fr/user/ioana_chitoran
- Durée : année 2022-2023
- Descriptif:
FRANÇAIS. L’agencement des phonèmes dans la langue, ou phonotactique, suit des règles et contraintes particulières. Dans certains contextes, les locuteurs ont tendance à assimiler des phonèmes non-natifs entendus à ceux de leur inventaire phonologique. La perception de la parole n’est donc pas seulement dépendante de contraintes mécaniques biologiques, mais est aussi influencée par des spécificités de la langue de l’environnement : connaissance de la phonologie et des contraintes phonotactiques de celle-ci. Comment se spécialise-t-on dans le traitement des sons/séquences sonores de sa langue et Comment se développe l’acquisition d’éléments phonotactiques typologiquement rares ?
Dans ce projet nous explorons l’influence de la langue de l’environnement sur le poids perceptif accordé à certains indices acoustiques (notamment temporels) au cours du développement. Dans une étude expérimentale cross-linguistique, nous cherchons à mesurer la perception de clusters consonantiques complexes licites et illicites dans deux langues : le français et le géorgien. Nous pourrons manipuler des indices acoustiques temporels afin d’évaluer le rôle de l’acoustique dans le développement phonotactique en fonction de l’âge du locuteur (jeunes adultes vs. enfants de 3-5 ans) et de sa langue. Des tâches comportementales devront être mises en place, ainsi que le traitement et la manipulation de stimuli sonores. L’acquisition de données perceptives auprès d’enfants et d’adultes francophones pourra être également menée au sein du babylab de l’INCC.
ENGLISH. The organization of phonemes in languages, or phonotactics, follows specific rules and constrains. In some contexts, speakers have shown the tendency to assimilate non-native phonemes to the ones in their native repertoire. Thus, speech perception is not only dependant on biological mechanisms but also on the acoustical-phonological characteristics of the environmental language. How do we specialize in the processing of native speech sounds/sound sequences, and how do we acquire phonotactic elements that are typologically rare?
In this project, in collaboration with Ioana Chitoran http://www.clillac-arp.univ-paris-diderot.fr/user/ioana_chitoran, we aim to explore the influence of the native language on the processing of specific acoustic information of speech (temporal information) during development. Using a cross-linguistic experimental design, we would like to assess the perception of consonant clusters. Speech temporal information could be manipulated to assess the role of acoustics in the development of phonotactics as a function of age (adults vs children of 3-5 years) and native language. Stimulus and behavioral perceptual tasks need to be developed. Data acquisition with children and adults will take place at the babylab of the INCC.
Stage au Laboratoire de Linguistique Formelle et Clillac-ARP (UPC)
Niveau : M1 ou M2
Rémunération : peut être rémunéré
Contact et laboratoire : Anouk Dieuleveut / Morgan Moyer (LLF) / Ioana Chitoran (Clillac-ARP)
Durée, dates : année 2022-2023
En français, une phrase comme “tu peux jouer de la guitare” peut être utilisée pour exprimer trois différents actes de langage : une affirmation (si le but du locuteur est d’informer l’interlocuteur qu’il a le droit de jouer de la guitare), une “réelle” question (on demande à l’interlocuteur s’il sait jouer de la guitare), ou une requête d’effectuer une action (on demande à l’interlocuteur de jouer de la guitare). L’objectif de cette étude est d’étudier le type d’indices utilisés par les locuteurs pour interpréter correctement les phrases comme “tu peux P” en français. Précisément, son but est d’évaluer et de comparer la contribution respective d’indices de type contextuels et prosodiques.
Laboratoire de Linguistique Formelle, UPC (Jalal Al-Tamimi)
Sujet 1
Français
- M1 ou M2
- Gratification de stage possible
- Tuteur : Jalal Al-Tamimi (jalal.al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité en collaboration avec Guillaume Wisniewski
- Durée : 6 mois. À commencer immédiatement
- Descriptif : Dans la continuité du développement du système de l’alignement forcé de l’arabe dialectal (macro Arabic WebMAUS et Arabic WebMINNI ; Al-Tamimi et al., 2022), nous sommes à la recherche d’un stagiaire pour réaliser une tâche de translittération (romanisation) de l’écriture arabe. Les systèmes de translittération actuels effectuent un mappage 1graphème-1graphème dans le cas d’un script arabe vocalisé. Afin de translittérer l’arabe non vocalisée, nous cherchons à développer un convertisseur informé par une transcription automatique speech-to-text (en utilisant plusieurs plateformes, ex. Transformers, wav2vec, Whisper ou WebMINNI, de la suite d’outils disponible sur WebMAUS) qui enrichie les convertisseurs préexistants avec la vocalisation obtenue à partir du speech-to-text. La première partie du stage sera consacré au développement de l’outil et ensuite l’adapter au niveau système de translittération de l’arabe (ATR ; voir : Al-Tamimi et al., 2022). Ensuite, la seconde partie sera consacrée à effectuer la transcription automatisée des productions de 100 locuteurs et puis la vérification de la transcription automatique des données en arabe afin de s’assurer de la qualité des transcriptions automatisées. La dernière partie concernera l’automatisation des tâches et la continuité du développement de l’outil de conversion afin de permettre à différents chercheurs son utilisation. L’outil de conversion nécessitera le développement d’un pipeline python claire et idéalement avec une interface GUI utilisateur.
- Compétence : Python, excellente programmation, connaissance de la langue arabe est une préférence mais pas obligatoire.
English
- M1 ou M2
- Possible « Gratification de stage »
- Tutor: Jalal Al-Tamimi (jalal.al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité in collaboration with Guillaume Wisniewski
- Duration: 6 months. To start as soon as possible
- Description: As a follow-up to the development of a forced-alignment system for dialectal Arabic (the macro Arabic WebMAUS and Arabic WebMINNI; Al-Tamimi et al., 2022), we are looking for an internship to work on a transliteration (romanisation) task for Arabic script. Current transliteration systems perform a 1Grapheme-1Grapheme mapping in the case of a vocalised Arabic script. To allow for non-vocalised Arabic scripts to be transliterated, we are looking to develop a conversion tool informed by an automatic speech-to-text transcription (using various platforms, e.g., Transformers, wav2vec, Whisper, the WebMINNI tool of the WebMAUS suite of tools), with the aim to enrich current pre-existent converting systems with vocalisation obtained from speech-to-text. The first part of the internship will be used to develop the converter and adapt it to the newly developed transliteration for Arabic (ATR; see: Al-Tamimi et al., 2022). The second part concerns the automatic transcription of data produced by 100 participants followed by the verification of the outputs from the automatic system to allow for an accurate representation of the spoken output. The last part will concern automation of the tasks to allow for other researchers to be able to use it and to continue the development of the conversion tool. A clearly developed python pipeline and ideally a GUI will be required.
- Skills: knowledge of Python, with excellent programming skills, knowledge of the Arabic language is preferred but not compulsory
Al-Tamimi, J., Schiel, F., Khattab, G., Sokhey, N., Amazouz, D., Dallak, A., & Moussa, H. (2022). A Romanization System and WebMAUS Aligner for Arabic Varieties. Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), © European Language Resources Association (ELRA), Licensed under CC-BY-NC-4.0, 7269–7276. http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.789.pdf
______________________________________________________________
Sujet 2
Français
- M1 ou M2
- Gratification de stage possible
- Tuteur : Jalal Al-Tamimi (jalal.al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité en collaboration avec Guillaume Wisniewski
- Durée : 6 mois. A commencer immédiatement
- Descriptif : Travaillant en collaboration avec le stagiaire dans le sujet 1, et dans la continuité du développement du système de l’alignement forcé de l’arabe dialectal (macro Arabic WebMAUS et Arabic WebMINNI ; Al-Tamimi et al., 2022), nous sommes à la recherche d’un stagiaire pour réaliser une tâche d’alignement forcé de l’arabe dialectal des données obtenus à partir de la transcription automatique avec le système de translittération de l’arabe dialectal. Cet alignement forcé peut utiliser le nouveau système d’alignement de l’arabe dialectal : Arabic WebMAUS (Al-Tamimi et al., 2022) ou bien les autres outils d’alignement forcée disponibles via les Transformers, wav2vec, etc. Après cette première tâche, le but est d’évaluer la performance du système et en comparant les résultats obtenus entre plateformes. Ensuite, la vérification de l’alignement signal avec texte est nécessaire et celle-ci peut être faites en utilisant la plateforme Praat et TextGrid. Une comparaison de la performance de l’aligneur sera un plus en effectuant une comparaison entre des données déjà segmentées manuellement et celles segmentées automatiquement.
- Compétence : Python, Praat, excellente programmation, connaissance de la langue arabe non-obligatoire
English
- M1 ou M2
- Possible « Gratification de stage »
- Tutor: Jalal Al-Tamimi (jalal.al-tamimi@u-paris.fr), Laboratoire de Linguistique Formelle, Université Paris Cité in collaboration with Guillaume Wisniewski
- Duration: 6 months. To start immediately.
- Description: Working together with the internship for topic 1, and in the continuity of the development of the dialectal Arabic forced-alignment system (macro Arabic WebMAUS and Arabic WebMINNI; Al-Tamimi et al., 2022), we are looking for an internship to perform a task of forced-alignment of dialectal Arabic obtained from automatically transcribed data. This alignment can be done using either the newly developed forced-alignment system for Arabic Arabic WebMAUS (Al-Tamimi et al., 2022) or any other platform available via Transformers, wav2vec, etc. Once this first task is performed, the next task will be to evaluate the performance of the system by comparing the performance obtained from multiplatform systems. Next, verification of the alignment of the signal to the text will be required, which can be performed using Praat and TextGrids. A comparison of the performance of the aligner is a plus, which can be done using manually segmented data (already done) and automatically segmented data.
- Skills: knowledge of Python, Praat, with excellent programming skills, knowledge of the Arabic language not compulsory
Al-Tamimi, J., Schiel, F., Khattab, G., Sokhey, N., Amazouz, D., Dallak, A., & Moussa, H. (2022). A Romanization System and WebMAUS Aligner for Arabic Varieties. Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), © European Language Resources Association (ELRA), Licensed under CC-BY-NC-4.0, 7269–7276. http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.789.pdf
Stage au Laboratoire de Linguistique Formelle (UPC)
- Niveau : L3, M1 ou M2
- Rémunération : GR
- Contact et laboratoire : Heather Burnett (LLF)
- Durée, dates : année 2022-2023
- Descriptif :
La liaison en français. Revue de la littérature sur la liaison en français européen et québécois. Lecture et synthèse d’articles scientifiques. Éventuellement, constructions de stimulis pour une expérience sur la liaison en français québécois
Le site espace carrière est une aide à l’insertion professionnelle. Il accompagne les étudiants d’Université Paris Cité dans leur recherche de stages, jobs ou encore de contrat d’alternance.
Retrouvez toutes les informations sur son fonctionnement.
À lire aussi
Ling Fest 2024
Du 9 au 13 septembre 2024, la Paris Graduate School of Linguistics organise une LingFest, une formation intensive en linguistique pour préparer l'entrée dans les masters de l'Ecole doctorale de linguistique de Paris. Chaque jour de la semaine est dédié dans l'ordre à...
Rentrée 2024
Les réunions de rentrée auront lieu le 6 septembre 2024, et des tests de niveau de linguistique sont organisés le 1er septembre après-midi pour les étudiants externes entrant en M1. Consultez les salles et horaires dans la page de rentrée.Transparents des...
Film sur l’UFRL
On peut découvrir certains aspects des enseignements à l'UFR Linguistique à partir d'un film réalisé récemment et disponible ici : https://cloud.parisdescartes.fr/index.php/s/o8dHb8WfnS48PCH © Tous droits réservés À lire...
Mentorat PGSL
Les étudiants de master sont membres de PGSL qui organise différentes activités, dont une sortie en forêt de Fontainebleau le samedi 23 avril.https://paris-gsl.org/PGSL organise un programme de mentorat qui s'adresse en priorité aux étudiants qui...