Soutenance de Lila Kim

14 April 2025 par Roland Trouville
Détection automatique de la nasalité pour une caractérisation de la qualité de voix des locuteurs

La soutenance aura lieu le Jeudi 24 Avril 2025 à 10h, au lieu suivant :

Salle Athéna, Maison de la Recherche, Université Sorbonne Nouvelle
4 Rue des Irlandais, 75005 Paris.

Devant un jury composé de :

  • Ioana Vasilescu: Directrice de Recherche, LISN, Université Paris-Saclay, Rapportrice
  • Jean Luc Rouas: Chargé de Recherche HDR, LABRI, Université de Bordeaux, Rapporteur
  • Guillaume Wisniewski: Maître de Conférences, LLF, Université Paris Cité, Examinateur
  • Marie Tahon: Professeure des Universités, LST, Université du Mans, Examinatrice
  • Richard Dufour: Professeur des Universités, LS2N, Université de Nantes, Examinateur
  • Véroniqe Delvaux: Chercheur qualifié, IRSTL/FNRS, Univesité de Mons, Examinatrice
  • Cédric Gendrot: Professeur des Universités, LPP, Université Sorbonne Nouvelle, Directeur de thèse

———————————-Résumé ——————————————-

La nasalité est une caractéristique acoustique affectant consonnes et voyelles, comme dans les contrastes entre « balle » et « malle » ou « bas » et « banc ». Elle est étudiée en linguistique, reconnaissance du locuteur et identification des troubles de la parole. Avec l’essor du Deep Learning, notamment via les Transformers, de nouvelles approches permettent d’analyser cette caractéristique. Cette thèse explore la nasalité par l’apprentissage auto-supervisé afin d’améliorer la reconnaissance du locuteur et d’éclairer les représentations internes du modèle wav2vec 2.0 grâce à une validation perceptive, acoustique et physiologique.

L’étude s’appuie sur les réseaux neuronaux convolutifs et wav2vec 2.0 pour détecter la nasalité, l’analyse progressive de tous les phonèmes français, l’expérimentation sur différentes fenêtres d’extraction et l’identification des couches du Transformer les plus pertinentes. Une validation croisée à travers trois paramètres linguistiques complète l’analyse.

Les résultats atteignent une exactitude de 99 %. Les courtes séquences optimisent la détection de la nasalité phonétique, tandis que les longues séquences sont plus efficaces pourla nasalité phonémique. La structure des vecteurs a été visualisées via t-SNE. L’apprentissage du modèle sur le français diffère de celui sur l’anglais, soulignant l’impact du statut phonologique de la nasalité. Contrairement aux humains, qui s’appuient sur le débit d’air nasal, le modèle privilégie le débit buccal. Mais aucun paramètre unique n’explique entièrement les erreurs de classification. Enfin, le détecteur de nasalité a été optimisé grâce à l’extraction de fenêtres glissantes avec un chevauchement de 10 ms.

———————————-Abstract——————————————-

Nasality is an acoustic feature affecting both consonants and vowels, as observed in contrasts such as « balle » vs. « malle » or « bas » vs. « banc ». It is studied in linguistics, speaker recognition, and speech disorder identification. With the rise of deep learning, particularly through Transformers, new approaches have emerged to analyze this feature. This thesis explores nasality through self-supervised learning to enhance speaker recognition and to better understand the internal representations of the wav2vec 2.0 model through perceptual, acoustic, and physiological validation.

The study employs convolutional neural networks and wav2vec 2.0 to detect nasality, analyzing all French phonemes, experimenting with different extraction windows, and identifying the most  relevant layers of the Transformer model. A cross-validation approach using three linguistic parameters completes the analysis.

The results achieved an accuracy of 99%. Short sequences optimize the detection of phonetic nasality, while longer sequences are more effective for phonemic nasality. The structure of the vectors was visualized using t-SNE. The model’s learning process for French differs from that for English, highlighting the impact of the phonological status of nasality. Unlike humans, who rely on nasal airflow, the model prioritizes oral airflow. However, no single parameter fully accounts for classification errors. Finally, the nasal detection system was optimized through the use of sliding windows with a 10 ms overlap, improving the accuracy and robustness.

Voir les sections parentes