Variation de la voix, gestuelle, syntaxe ou encore sémantique… La perception du discours diffère en fonction de multiples paramètres. Mieux comprendre cette multimodalité du langage représente alors un véritable enjeu en linguistique fondamentale mais aussi en amélioration du traitement automatique du langage !

Pour mieux comprendre un discours oral, chacun, appelé ici « récepteur », va le découper en petites unités. Ces coupures, appelées « frontières » sont influencées par plusieurs paramètres que sont les gestes des mains ou la prosodie (variations de rythmes et de mélodie de la voix).
Afin de mesurer la force de perception des frontières et leur impact, Manon Lelandais, maître de conférences au laboratoire CLILLAC-ARP d’Université Paris Cité, et Gabriel Thiberge, chercheur post-doctorant au Laboratoire de Linguistique Formelle (Université Paris Cité, CNRS), ont étudié la façon dont certains paramètres sont utilisés par le récepteur pour découper le discours. Ils se sont particulièrement intéressés à la prosodie et aux gestes manuels dits représentationnels, utilisés pour décrire, de manière concrète ou abstraite, une idée ou un objet.
Un panel de 37 personnes dites « naïves », c’est-à-dire n’ayant pas de connaissances particulières en linguistique, a donc été constitué et interrogé dans le cadre de cette étude expérimentale.
La tâche était simple. Le récepteur devait observer de courts extraits vidéos (7 secondes environ) présentant un seul locuteur dont les mains sont visibles mais dont le visage est flouté pour ne pas influencer la perception des frontières par les mimiques du visage (regard, haussement de sourcil). Dans certains extraits, le contenu sémantique du discours n’était pas disponible, comme si la conversation était entendue depuis une autre pièce. Les récepteurs n’avaient pas accès au sens même de ce qu’ils entendaient et ne pouvaient donc que se focaliser sur les paramètres choisis : gestuelle des mains, rythme et mélodie de la voix. Concernant la gestuelle des mains, les conditions pouvaient varier d’un extrait à l’autre : absence, présence, répétitions ou différences …
Après visionnage, les participants devaient indiquer s’ils avaient perçu ou non une frontière à un endroit précis du discours et préciser si cette perception était plus ou moins importante (la frontière étant définie comme « tout ce qui permet de découper le discours en plusieurs unités »). Ce processus expérimental a ainsi permis de voir comment le récepteur du message perçoit et découpe le discours qu’il entend, en prenant en compte des indices multimodaux, souvent peu étudiés ensemble en linguistique.
Cette étude diffère des autres études faites en linguistique par les stimuli utilisés lors du processus expérimental. En effet, les enregistrements audios diffusés ne sont pas des extraits directement créés en laboratoire mais sont issus de véritables conversations spontanées entre plusieurs paires d’amis. Ces données sont donc plus authentiques mais peuvent en contrepartie comprendre un nombre important de biais potentiels. Même si le panel de participants est de taille réduite, les modèles de tests statistiques utilisés ont permis de généraliser les résultats obtenus et de compenser les biais possibles.
Les résultats de cette étude ont permis de confirmer des données précédemment obtenues comme le poids de certains indices prosodiques, rythme et mélodie, dans la découpe du discours et dans la perception forte des frontières. La structure syntaxique joue également un rôle dans cette perception mais contrairement à ce qui était attendu, la gestuelle des mains, n’est, à elle seule, pas suffisante pour percevoir une frontière, excepté lors de la répétition de deux gestes identiques.
Cette étude expérimentale permet d’explorer les interfaces syntaxe – prosodie et syntaxe – gestualité et ainsi d’amener un jeu de données essentiel en linguistique sur l’articulation possible des différentes manières de structurer notre langage.
Plus concrètement, elle permet aussi des avancées dans la modélisation de la parole et le traitement automatique du langage. Plus les algorithmes seront enrichis de données provenant de conversations spontanées et proposant une approche multimodale du langage, plus ils seront performants pour comprendre la parole et ses subtilités.
À lire aussi

Appel à candidatures : Cotutelle internationale de thèse 2025/2026
L’appel à candidatures pour une inscription en cotutelle internationale de thèse pour l’année académique 2025-2026 est ouvert. Déposez vos candidatures avant le 15 décembre 2025.© William PotterUne cotutelle de thèse est un projet de formation permettant à un étudiant...
lire plus
Young Leaders 2025 : Aurélie Sannier sélectionnée par la French-American Foundation
Félicitations à Aurélie Sannier, médecin et enseignante-chercheuse à l'Université Paris Cité, pour sa sélection au programme Young Leaders 2025 de la French-American Foundation. Cette distinction salue l’excellence de ses travaux et contribue au rayonnement...
lire plus![[Rencontre] Kristel Chanard : décrypter les secrets de la Terre par les mouvements de l’eau](https://u-paris.fr/wp-content/uploads/2025/06/Kristel-portrait1-1080x675.jpg)
[Rencontre] Kristel Chanard : décrypter les secrets de la Terre par les mouvements de l’eau
Kristel Chanard est géophysicienne de l’Institut national de l’information géographique et forestière (IGN) dans l’équipe de géodésie de l’Institut de Physique du Globe de Paris, établissement-composante de l'Université Paris Cité. Ses travaux de recherche se situent...
lire plus![[Rencontre] Angèle Niclas : à l’écoute du monde grâce aux ondes](https://u-paris.fr/wp-content/uploads/2025/06/Angèle-Niclas-21-1080x675.jpg)
[Rencontre] Angèle Niclas : à l’écoute du monde grâce aux ondes
Maîtresse de conférences à l'Université Paris Cité et chercheuse au sein du Laboratoire Mathématiques Appliquées à Paris 5 (MAP5 - Université Paris Cité/CNRS), Angèle Niclas explore la propagation des ondes pour répondre à des enjeux sociétaux, notamment en lien avec...
lire plus