Du signal au geste, du geste au signal : classification automatique et modélisation bayésienne des rhotiques en français et en anglais américain

La soutenance aura lieu le mardi 16 juin 2026 à 14h, à la Maison de la Recherche (4 rue des Irlandais, 75005 Paris), en Salle Athéna.

Il sera également possible de suivre la soutenance à distance via le lien suivant :
https://rendez-vous.renater.fr/muted/Soutenance_de_these_dbef01-5e60b5-6d0c29#config.startWithVideoMuted=true&config.startWithAudioMuted=true

Le jury est composé de :

Mme Nathalie Vallée (Présidente du jury), Directrice de Recherche, CNRS
M. Jeffrey Steele (Rapporteur), Professeur, Université de Toronto Mississauga
M. Hans Van de Velde (Rapporteur), Professeur, Université d’Utrecht
Mme Anne Hermes (Examinatrice), Chargée de Recherche, CNRS
M. Didier Demolin (Examinateur), Professeur Émérite, Université Sorbonne Nouvelle
M. Emmanuel Ferragne (Examinateur), Professeur, Université Paris Cité
Mme Claire Pillot-Loiseau (Directrice de thèse), Professeur, Université Sorbonne Nouvelle

Résumé

Les rhotiques forment une catégorie phonologique cohérente dans de nombreuses langues, en dépit de leur hétérogénéité phonétique. Cette thèse examine deux systèmes rhotiques aux propriétés contrastées, le /ʁ/ français et le /ɹ/ de l’anglais américain, et montre que la même catégorie phonologique rhotique peut être réalisée par des stratégies de codage diamétralement opposées : l’une acoustique et contextuellement organisée, l’autre articulatoire et individuellement stabilisée.

Pour le /ʁ/ français, un modèle de classification par forêts aléatoires entraîné sur le signal acoustique identifie le voisement et le mode d’articulation avec 95,4 % et 96,5 % de précision en validation croisée stratifiée. Des modèles bayésiens hiérarchiques révèlent que le voisement est principalement conditionné par le contexte segmental adjacent et la position de coda. Le contraste fricative-approximante est organisé par l’assimilation du voisement des obstruantes adjacentes. Le contraste vibrante-approximante est, en revanche, insensible au contexte segmental et régi par les stratégies articulatoires individuelles des locuteurs. La validation articulatoire par EMA confirme partiellement ces catégories : le mode d’articulation présente des corrélats articulatoires crédibles, mais le voisement n’en présente aucun, sa variabilité articulatoire étant absorbée par les effets de locuteur.

Pour le /ɹ/ américain, une classification non supervisée des indices articulatoires EMA, précédée d’une évaluation diagnostique explicite du nombre de groupes, partitionne l’espace en trois configurations (rétroflexe, bunched, intermédiaire). Ces diagnostics révèlent que cet espace est structuré de façon continue plutôt que discrètement regroupé, corroborant le continuum articulatoire documenté depuis Delattre et Freeman (1968). La sélection de configuration est dominée par l’identité du locuteur. La classification acoustique plafonne à 65,4 % de précision, avec un rappel qui s’effondre à 48,6 % pour la rétroflexe, résultat cohérent avec le principe d’équivalence motrice, qui rend l’inversion acoustique-vers-articulatoire structurellement contrainte pour ce système.

Ces résultats définissent deux modalités contrastées de correspondance acoustique-articulatoire. Pour le /ʁ/ français, l’information acoustique suffit à identifier la catégorie de mode, et cette catégorie présente des corrélats articulatoires identifiables : l’inversion acoustique-vers-articulatoire est déterminable. Pour le /ɹ/ américain, cette inversion est structurellement sous-déterminée : une même signature acoustique peut être produite par au moins trois configurations articulatoires distinctes, et l’information acoustique seule ne permet pas d’identifier la réalisation sous-jacente.

Mots-clés : rhotiques, classification automatique, articulographie électromagnétique (EMA), modèles bayésiens hiérarchiques, phonétique acoustique, phonétique articulatoire

—

Abstract

Rhotics form a coherent phonological category in many languages, despite their phonetic heterogeneity. This thesis examines two rhotic systems with contrasting properties, French /ʁ/ and American English /ɹ/, and shows that the same rhotic phonological category can be realized through diametrically opposed coding strategies: one acoustic and contextually organized, the other articulatory and individually stabilized.

For French /ʁ/, a random forest classifier trained on the acoustic signal identifies voicing and manner of articulation with 95.4% and 96.5% accuracy in stratified cross-validation. Hierarchical Bayesian models reveal that voicing is primarily conditioned by adjacent segmental context and coda position. The fricative-approximant contrast is organized by voicing assimilation from adjacent obstruents. The trill-approximant contrast, by contrast, is insensitive to segmental context and governed by individual speakers’ articulatory strategies. EMA articulatory validation partially confirms these categories: manner of articulation yields credible articulatory correlates, whereas voicing yields none, its articulatory variability being absorbed by speaker effects.

For American English /ɹ/, an unsupervised classification of EMA articulatory indices, preceded by explicit diagnostic evaluation of the number of clusters, partitions the articulatory space into three configurations (retroflex, bunched, intermediate). These diagnostics reveal that the space is structured continuously rather than discretely clustered, corroborating the articulatory continuum documented since Delattre and Freeman (1968). Configuration selection is dominated by speaker identity. Acoustic classification peaks at 65.4% accuracy, with recall collapsing to 48.6% for the retroflex, a result consistent with the motor equivalence principle, which renders acoustic-to-articulatory inversion structurally constrained for this system.

These results characterize two contrasting modes of acoustic-articulatory correspondence. For French /ʁ/, acoustic information is sufficient to recover the manner category, and that category has identifiable articulatory correlates: the acoustic-to-articulatory mapping is recoverable. For American English /ɹ/, the mapping is structurally indeterminate: the same acoustic signature can be produced by at least three distinct articulatory configurations, and acoustic information alone cannot identify the underlying realization.

Keywords: rhotics, automatic classification, electromagnetic articulography (EMA), hierarchical Bayesian models, acoustic phonetics, articulatory phonetics

Voir les sections parentes

Soutenance de Minmin Yang

19 June 2026 par Roland Trouville

Regards croisés autour de la voix chantée

15 June 2026 par Roland Trouville

Publication dans PLoS One portant sur la mesure de la respiration à l'aide de l'EMA

29 May 2026 par Roland Trouville

Information relative aux conditions de la RGPD concernant les cookies