Soutenance de Jingyi Sun

When Tonal Contrast Collapses: Neutral Tone as a Reference System for Quantifying Tonal Reduction in Standard Mandarin
09 July 2026, 10h0013h00

La soutenance aura lieu le jeudi 9 juillet 2026 à 10h, à la Maison de la Recherche (4 rue des Irlandais, 75005 Paris), en salle Athéna.

Le jury sera composé de :
  • Mme Cécile Fougeron (présidente du jury), Directrice de Recherche, CNRS
  • Mme Yiya Chen (rapportrice), Professeure, Leiden University
  • M. Jiahong Yuan (rapporteur), Professeur, University of Science and Technology of China
  • Mme Lori Lamel (examinatrice), Directrice de Recherche, CNRS
  • M. Emmanuel Ferragne (examinateur), Professeur, Université Paris Cité
  • Mme Martine Adda-Decker (directrice de thèse), Directrice de Recherche, CNRS
  • Mme Yaru Wu (co-directrice de thèse), Maîtresse de conférences, Université de Caen Normandie
  • M. Nicolas Audibert (invité), Maître de conférences HDR, Université Sorbonne Nouvelle

 

Lorsque le contraste tonal s’effondre : le ton neutre comme système de référence pour quantifier la réduction tonale en mandarin standard

Résumé

Dans la parole continue en mandarin standard, les tons lexicaux restent des catégories phonologiques, mais leur réalisation phonétique en f0 est façonnée par un large éventail de facteurs, parmi lesquels la coarticulation, la durée, la planification prosodique, le style de parole et la fréquence lexicale. Cette situation rend la réduction tonale difficile à isoler de la variation contextuelle générale. Guidée par un dispositif comparatif théoriquement informé et fondée sur de grands corpus oraux, cette thèse traite la réduction comme un mouvement graduel et multidimensionnel sur un continuum allant d’une réalisation forte à une réalisation faible. Elle examine comment les tons lexicaux se rapprochent d’une configuration faible modélisée empiriquement, et à partir de quel point ce rapprochement commence à compromettre le contraste tonal.La référence faible est construite à partir du ton neutre (Neutral Tone, NT), modélisé dans la parole spontanée, lue et radiodiffusée comme une région variable mais régulière de réalisation tonale faible. Le NT est principalement façonné par le ton précédent et la durée, tandis que le style de parole définit un espace de réalisation plus large. Ces régularités permettent de mesurer chaque occurrence de ton lexical par rapport à une trajectoire de NT estimée dans des conditions comparables. La base empirique combine un corpus mandarin de 36 heures construit pour cette thèse et comparant plusieurs styles de parole avec un corpus radiodiffusé du LDC de 30 heures, traités par transcription avec WhisperX, alignement avec MFA, extraction neuronale de la f0 et modélisation acoustique contrôlée. Le système de réduction tonale (Tonal Reduction System, TRS) qui en résulte projette chaque occurrence sur deux Reduction Indices (RIs). RI_shape indexe la géométrie du contour. RI_register indexe le niveau de hauteur et la séparation de l’étendue tonale.

Appliqué aux données de corpus, le TRS identifie la durée comme la contrainte la plus forte. En dessous de 60 ms, plus d’un tiers des occurrences de tons lexicaux en parole spontanée entrent dans une zone à faible contraste, où la forme du contour et le registre se déplacent nettement vers le NT. Lorsque la durée augmente, le contraste se rétablit de manière inégale, la forme continuant à se déployer tandis que la séparation de registre atteint un plateau autour de 120 à 150 ms. L’identité tonale et le contexte tonal structurent également ce mouvement. T1 est le plus proche du NT par la forme de son contour, tout en restant distinct en registre, un résultat compatible avec les analyses antérieures du NT comme cible médiane faiblement implémentée. T3 reste le plus éloigné du NT par son contour, ce qui est cohérent avec sa trajectoire descendante-montante complexe. Les contextes impliquant T2 et T3 résistent à la convergence vers le NT, en particulier pour la forme du contour. Une fois la durée et le contexte contrôlés, la parole spontanée demeure la plus proche de la référence faible, la parole radiodiffusée la plus éloignée, et la parole lue occupe une position intermédiaire. La fréquence lexicale exerce un effet plus faible mais cumulatif, les mots plus fréquents tendant vers des réalisations tonales plus réduites.

Dans l’ensemble, cette thèse définit la réduction tonale comme un mouvement graduel dans un espace contraint d’implémentation phonétique. Elle quantifie dans quelle mesure les tons lexicaux se rapprochent d’une configuration faible ajustée au contexte, dans quelles conditions, et selon quelles dimensions acoustiques. En combinant une modélisation de référence fondée sur le NT avec des indices de réduction compacts, le TRS transforme la réalisation tonale faible, graduelle et sensible au contexte en un objet mesurable, et propose un cadre transférable pour l’étude de la réduction au-delà des tons du mandarin.

Mots-clés : réduction tonale ; ton neutre ; mandarin standard ; phonétique de corpus ; parole continue ; contraste tonal

=================================================

When Tonal Contrast Collapses: Neutral Tone as a Reference System for Quantifying Tonal Reduction in Standard Mandarin

Abstract

In Standard Mandarin connected speech, lexical tones remain phonological categories, yet their surface f0 realization is shaped by a wide range of factors, among them coarticulation, duration, prosodic planning, speech style and lexical frequency. This makes tonal reduction difficult to isolate from general contextual variation. Guided by a theoretically informed comparative design and grounded in large speech corpora, this dissertation treats reduction as a gradient and multidimensional movement along a strong to weak continuum. It asks how lexical tones approach an empirically modeled weak configuration, and when this movement begins to compromise tonal contrast.The weak reference is built from Neutral Tone (NT), modeled across spontaneous, read and broadcast speech as a variable but regular region of weak tonal implementation. NT is shaped chiefly by preceding tone and duration, while style sets the broader realization space. These regularities allow each lexical tone token to be measured against a condition-matched NT trajectory. The empirical base combines a self-built 36-hour style-parallel Mandarin corpus with a 30-hour LDC broadcast news corpus, processed through WhisperX transcription, MFA alignment, neural f0 extraction and controlled acoustic modelling. The resulting Tonal Reduction System (TRS) maps each token onto two Reduction Indices (RIs). RI_shape indexes contour geometry. RI_register indexes pitch level and pitch range separation.

Applied to the corpus data, the TRS identifies duration as the strongest physical constraint. Below 60 ms, more than one third of spontaneous lexical tone tokens enter a low-contrast collapse zone, with both shape and register moving sharply toward NT. As duration increases, contrast recovers unevenly, with shape still unfolding while register separation plateaus around 120 to 150 ms. Tone identity and context further structure this movement. T1 is closest to NT in shape but remains far from it in register, consistent with previous accounts of NT as a weakly implemented static mid target. T3 stays farthest from NT in shape, as expected from its complex falling-rising trajectory. T2 and T3 contexts resist convergence toward NT, especially in shape. After duration and context are controlled, spontaneous speech remains closest to the weak reference, broadcast speech farthest, and read speech intermediate. Lexical frequency adds a smaller cumulative pressure toward lower RI values.

Overall, this dissertation defines tonal reduction as graded movement within a constrained space of phonetic implementation. It quantifies how far lexical tones approach a context-matched weak configuration, under which conditions, and along which acoustic dimensions. By combining NT-based reference modelling with compact RIs, the TRS turns weak, gradient and context-sensitive tonal realization into a measurable object, and offers a transferable framework for studying reduction beyond Mandarin tone.

Keywords : tonal reduction; Neutral Tone; Standard Mandarin; corpus phonetics; connected speech; tonal contrast