Soutenance de Thèse de Clara Ponchard

La soutenance aura lieu le mardi 5 septembre 2023 à 16 heures à la

Maison de la Recherche de l’Université Sorbonne Nouvelle
Salle Athéna
4 rue des Irlandais
75005 Paris

Devant le jury composé de :

  • David GRABLI (Rapporteur), Professeur, Praticien hospitalier, Service de neurologie, Hôpital
    de la Pitié Salpetrière, Paris
  • François PELLEGRINO (Rapporteur), Directeur de recherche CNRS, DDL Lyon 2
  • Claire PILLOT-LOISEAU (Examinatrice), Professeure, Université Sorbonne nouvelle, Paris 3
  • Jody KREIMAN (Examinatrice), Professeure, University of California, Los Angeles
  • John KINGSTON (Examinateur), Professeur, University of Massachusetts, Amherst
  • Lise CREVIER-BUCHMAN (Co-Directrice), Chargée de Recherche CNRS, Hôpital Foch, Université Sorbonne nouvelle, Paris 3
  • Didier DEMOLIN (Co-Directeur), Professeur émérite, Université Sorbonne nouvelle, Paris 3

Résumé
Cette thèse porte sur les troubles de la parole qui se manifestent chez les femmes atteintes de la maladie de Parkinson. Nous avons choisi de nous concentrer sur une population féminine car, bien que les femmes atteintes de la maladie de Parkinson représentent une part importante de la population, les études prenant en compte le sexe féminin comme une variable cruciale sont fortement sous-représentées. De plus, les mesures aérodynamiques sont rarement exploitées. Ces constats ont motivé cette recherche en soulignant la nécessité d’une description objective, quantifiée et  détaillée de la voix parkinsonienne. Pour cela, nous avons réalisé une évaluation instrumentale multiparamétrique sur un corpus de 74 femmes, dont 37 femmes parkinsoniennes et 37 témoins,
appariées par âge. Notre recherche se distingue par (1) l’élaboration d’un cadre conceptuel et méthodologique pour le traitement de la parole normale et dysarthrique, en utilisant une approche innovante pour segmenter et mesurer automatiquement les données aérodynamiques et acoustiques ; (2) la mise en place d’une étude multiparamétrique qui intègre des mesures acoustiques et
aérodynamiques, et qui explore la relation entre la pression sous-glottique et la fréquence fondamentale ; (3) l’élaboration d’un modèle de production normale afin d’identifier les déviances spécifiques à la parole parkinsonienne ; (4) l’identification des sources de variation des paramètres aérodynamiques et acoustiques, tels que les effets du vieillissement ou de la prise de mesure ; et (5) la détection des caractéristiques les plus altérées et des mesures les plus performantes pour discriminer la parole parkinsonienne via une analyse multiparamétrique et une tâche de  classification automatique des marqueurs vocaux.

Abstract
This thesis focuses on the speech disorders that occur in women suffering from Parkinson’s disease, known as hypokinetic dysarthria. We chose to focus on a female population because, although
women with Parkinson’s disease represent a significant portion of the population, studies that consider gender as a crucial variable are strongly underrepresented. Moreover, aerodynamic measures, although more difficult to acquire and automatically process than acoustic measures, are rarely exploited. These observations motivated this research, highlighting the need of an objective, quantified, and detailed description of the voice of women with Parkinson’s disease. To this end, we carried out a multiparametric instrumental evaluation on a corpus of 74 women, including 37 with Parkinson’s and 37 controls, matched according to their age. Our research stands out by (1) the development of a conceptual and methodological framework for the processing of normal and dysarthric speech, using an innovative approach to segment and automatically measure aerodynamic and acoustic data; (2) the implementation of a multiparametric study that integrates acoustic and aerodynamic measurements, and explores the relationship between subglottal pressure and fundamental frequency; (3) the establishment of a normal production model to identify deviations specific to Parkinsonian speech; (4) the identification of sources of variation in aerodynamic and acoustic parameters, such as the effects of aging or the measurement process; and (5) the detection of the most altered features and the most effective measurements to discriminate Parkinsonian speech through a multiparametric analysis and an automatic classification task of vocal markers.

Soutenance de Thèse d’Alexis Dehais Underdown

La soutenance aura lieu le vendredi 8 septembre 2023 à 16 heure à la Maison de la Recherche de l’Université Sorbonne Nouvelle
Salle Athéna
4 rue des Irlandais
75005 Paris
Devant le jury composé de :

  • Didier Demolin                        Professeur Emérite, Université Sorbonne nouvelle, Paris 3, Co-Directeur
  • Lise Crevier Buchman            Chargée de Recherche CNRS, Hôpital Foch, Université Sorbonne nouvelle, Paris 3, Co-Directrice
  • Alice Turk                                  Professeure, University of Edinburgh, Rapporteuse
  • Yves Laprie                                Directeur de recherche CNRS, Loria, Nancy, Rapporteur
  • Bryan Gick                                 Professeur, University of British Columbia, Examinateur
  • John Kingston                          Professeur, University of Massachusetts, Examinateur
  • Claire Pillot Loiseau                Professeure, Université Sorbonne nouvelle, Paris 3, Examinatrice

Résumé:

Avant d’être un objet d’étude scientifique, le Human Beatbox (HBB) est avant tout une pratique musicale. Les beatboxeurs et les beatboxeuses utilisent leur conduit vocal pour produire des sons musicaux : sons de batterie, instruments à vent ou à corde, musique électronique … Comment est produit le Human Beatbox ? Quelles sont les capacités du conduit vocal humain ? Existe-t-il un lien entre la production du Beatbox et de la parole ? Cette thèse tente d’apporter des éléments de discussion sur ces questions. À partir de données articulatoires, aérodynamiques et acoustiques, nous proposons une analyse de la production du Human Beatbox à différentes vitesses (90, 120, 150 battements par minute). Nos résultats montrent que les sujets utilisent des mécanismes de production similaires aux locuteurs des langues. Toutefois, ils combinent un plus grand nombre de mécanismes différents. Le Human Beatbox possède les propriétés d’un système combinatoire discret (Proctor et al., 2013). Les résultats sur les effets du tempo suggèrent que les stratégies individuelles de réorganisation temporelle des gestes sont similaires aux stratégies proposées par Byrd et Tan (1996). En effet, les sujets manipulent la durée des gestes et/ou des intervalles séparant les gestes. On a observé chez 2 sujets, des contraintes de coordination entre les gestes d’initiation et d’articulation. Le Human Beatbox jette un regard différent sur la phonétique en permettant d’actualiser son cadre théorique et de passer d’une approche purement linguistique à une approche anthropophonique (Catford, 1977; Lindblom, 1990) des phénomènes phonétiques.
Mots-clés : Human Beatbox, Phonétique, Articulation, Aérodynamique, Acoustique, Tempo

Soutenance de Thèse de Daria D’Alessandro

La soutenance aura lieu le :
jeudi 15 décembre 2022 à 14h00
à la Maison de la Recherche de l’Université Sorbonne Nouvelle
Salle Claude Simon
4 rue des Irlandais
75005 Paris

Devant le jury composé de :

  • Pascal Perrier (Rapporteur) Professeur, Grenoble-INP, GIPSA-lab

  • Douglas H. Whalen (Rapporteur) Professeur, CUNY, Haskins Laboratories

  • Véronique Delvaux (Examinatrice) Chercheur qualifié FNRS, UMONS

  • Anne Hermes (Examinatrice) Chargée de recherche CNRS, LPP

  • Cécile Fougeron (Directrice de thèse) Directeur de recherche CNRS, LPP

Résumé

La coarticulation anticipatoire se réfère à l’anticipation des mouvements articulatoires pour la réalisation de cibles de parole à venir et peut être considérée comme un indice de planification. Dans quatre études, la coarticulation anticipatoire V-à-V est étudiée dans différents Troubles Moteurs de la Parole, i.e. Apraxie de la Parole et Dysarthrie associée à la SLA, la maladie de Wilson, et la maladie de Parkinson (et comparée à la coarticulation C-à-V), chez des adultes âgés de 20 à 93 ans, et dans un groupe restreint de locutrices dans différentes conditions de parole : tempo lent, rapide et normal, dans un mot, à travers une frontière de mot et de proposition relative. Les résultats montrent une réduction de la coarticulation V-à-V dans l’Apraxie de la Parole et la Dysarthrie, qui pourrait être expliquée par des déficits spécifiques à ces pathologies. Une réduction non-linéaire de la coarticulation avec l’âge semble liée à un ralentissement du débit jusqu’à 70 ans, alors qu’une relation directe n’est pas trouvée pour les locuteurs plus âgés. Les différences inter-individuelles de coarticulation en réponse aux changements de tempo suggèrent que la relation entre la coarticulation et le débit articulatoire est spécifique au locuteur. Des variations inter-individuelles de coarticulation sont trouvées aussi en fonction du type de frontière et ne sont que partiellement expliquées par le phrasé prosodique. Ces résultats sont discutés selon deux axes, l’un traitant de la taille des unités de planification motrice dans la parole, et l’autre discutant comment peuvent être modélisées les variations de coarticulation en fonction du locuteur et de la population.

Soutenance de Thèse de Michaela Pernon

La soutenance aura lieu le :
vendredi 25 novembre 2022 à 14h30
au Campus Nation de l’Université Sorbonne Nouvelle
Amphithéâtre B015, RDC
8 avenue de Saint Mandé
75012 Paris

Devant le jury composé de :

  • M. David GRABLI, PU-PH, HDR, Institut du Cerveau, HU Pitié-Salpêtrière, Paris, Rapporteur ;
  • M. Serge PINTO, DR, HDR, CNRS-LPL, Université Aix-Marseille, Rapporteur ;
  • Mme Lise CREVIER-BUCHMAN, PH, CRHC, HDR, CNRS-LPP, Université Sorbonne Nouvelle, Paris, Examinatrice ;
  • Mme Marina LAGANARO, PR, Université de Genève, Examinatrice ;
  • M. Vincent MARTEL-SAUVAGEAU, PR Agrégé, Chercheur régulier, Université Laval, Québec, Examinateur ;
  • Mme Cécile FOUGERON, DR, HDR, CNRS-LPP, Université Sorbonne Nouvelle, Paris, Directrice de thèse.

Résumé

Cette thèse examine les apports d’approches d’évaluation perceptive globale, acoustique et cognitive, pour le diagnostic et la caractérisation de la parole des locuteurs présentant un trouble moteur acquis de la parole (MSD), dysarthrie et/ou apraxie de la parole (AoS).

Pour cela, trois études ont été menées chez quatre groupes de locuteurs: neurotypiques, pathologiques présentant une AoS, ou une dysarthrie hypokinétique dans la maladie de Parkinson, ou une dysarthrie mixte flasque-spastique dans la sclérose latérale amyotrophique. Ces études, partiellement basées sur le corpus MonPaGe-2.0.s, portaient respectivement sur chaque approche: (i) une tâche de classification auditivo-perceptive multijuges des MSDs, (ii) une analyse phonético-acoustique discrète par dimension de parole des locuteurs aux taux de précision les plus bas et les plus élevés en (i), (iii) un paradigme de double tâche évaluant chez des locuteurs neurotypiques les effets d’une demande attentionnelle et exécutive sur des tâches de parole et non verbales.

Cette thèse montre que les approches d’évaluation perceptive globale et acoustique diffèrent peu pour le diagnostic des MSDs, ne permettant pas de diagnostiquer les MSDs très légers. L’approche acoustique permet une caractérisation quantifiée des profils des MSDs en moyenne sur trois dimensions de parole. Les effets de double tâche s’avèrent prometteurs pour une application clinique. Ces trois études objectivent des différences selon les tâches de parole. Leur demande cognitivo-motrice, dont l’examen permettrait d’affiner le diagnostic différentiel des MSDs et leur caractérisation, constitue l’approche cognitive de l’évaluation de la parole à part entière.

Soutenance de Thèse de Gabriele Chignoli

La soutenance aura lieu le :
jeudi 15 septembre 2022 à 14h00
à la Maison de la recherche de l’Université Sorbonne Nouvelle
salle Claude Simon
4, rue des Irlandais
75005 Paris

Devant le jury composé de :

  • Damien LOLIVE HDR Université de Rennes 1, Rapporteur
  • Ioana VASILESCU HDR, CNRS – LISN Université Paris-Saclay, Rapporteuse
  • Jean-François BONASTRE PR, CNRS – LIA – Université d’Avignon, Examinateur
  • Cécile FOUGERON DR, CNRS – LPP – Université Sorbonne Nouvelle, Examinatrice
  • Christine MEUNIER DR, CNRS – LPL – Université Aix-Marseille, Examinatrice
  • Cédric GENDROT HDR, CNRS – LPP – Université Sorbonne Nouvelle, Directeur de thèse.

 

Résumé

La décomposition du signal vocal en unités phonétiquement significatives permet d’analyser les variations inter- et intra- locuteur. Ces unités sont des composantes associées à des caractéristiques dont la nature est liée aux aspects physiques, psychologiques et sociaux d’un locuteur. Dans cette thèse, nous comparons une caractérisation perceptive, une analyse phonétique et des techniques de modélisation avancées par des réseaux de neurones à convolution (CNN).

L’analyse des clusterings montre que les résultats perceptifs sont cohérents avec ceux obtenus par les approches CNN et phonétique, ce qui soutient leurs applications en phonétique. Nos résultats mettent en évidence que les spectrogrammes sont la représentation de la parole la plus précise pour l’identification des locuteurs ( % de bonnes réponses en moyenne). Les formants et des harmoniques plus élevés sont plus importants dans la caractérisation des voix féminines. En revanche, les caractéristiques de la qualité de la voix, telles que le soue et la raucité, jouent un rôle majeur dans la caractérisation des voix masculines. Le lien entre les coecients cepstraux à fréquence Mel (MFCC) et les mesures phonétiques classiques est également examiné. Les MFCC sont principalement liés à l’intensité et à f dans la caractérisation des voix féminines, tandis qu’aux distributions d’énergie et à la forme spectrale de bas niveau pour celle des voix masculines.

Nos résultats confirment l’importance de la description de la variation intra-locuteur pour une compréhension plus complète des différences entre locuteurs.

Soutenance de Thèse de David Alejandro Bustamante

Cette thèse a pour objet la perception et la production des voyelles nasales du français par des apprenants du français hispanophones espagnols et colombiens. Dans six expériences de perception des voyelles orales et nasales françaises, nous testons ces deux populations d’hispanophones pour quatre niveaux de français : sujets n’ayant jamais étudié ou parlé le français (25 espagnols et 20 colombiens), et apprenants du français de trois niveaux (débutant, intermédiaire et avancé : 30 apprenants espagnols et 26 colombiens). Les résultats des expériences de discrimination sont interprétés dans le cadre du modèle PAM (Perceptual Assimilation Model). Pour les voyelles orales, les contrastes /e/-/i/, /y/-/i/, /ø/-/ɛ/ sont les mieux discriminés (TC, two categories assimilation), suivis par /ø/-/o/ puis /y/-/u/, avec un avantage des sujets espagnols sur les colombiens. Comme /y/ est massivement assimilé à /u/, le contraste /y/-/u/ est de type SC (single category assimilation) ou CG (category goodness assimilation), donc difficile ; comme /ø/ est assimilé soit à /e/ soit à /o/, voire /u/, le contraste /ø/-/o/ est un cas hybride, tantôt SC ou CG, tantôt TC, de difficulté intermédiaire. Le trait [+rounded] étant associé aux voyelles postérieures en espagnol, il se peut que les hispanophones interprètent /y/ et /ø/ comme des voyelles postérieures fermées. Les résultats de discrimination des contrastes nasale vs. orale “correspondante” (/a/-/ɑ̃ /, /ɛ/-/ɛ̃ /, /ɔ/-/ɔ̃ /, /o/-/ɔ̃ /) suggèrent que les sujets hispanophones sont tous sensibles à la présence/absence du trait nasal, mais des difficultés sont observées pour le contraste /o/-/ɔ̃ /, où /ɔ̃ / est le plus souvent assimilé à /o/. La distance des pôles spectraux est par ailleurs la plus petite pour /o/-/ɔ̃ /. Les résultats de l’expérience de discrimination des contrastes entre voyelles nasales montrent que les contrastes /ɛ̃ /-/ɑ̃ / et /ɑ̃ /-/ɔ̃ / sont les plus difficiles pour les apprenants hispanophones, notamment les Colombiens. Le contraste /ɛ̃ /-/ɔ̃ / est le plus facile. Pour les Espagnols, le degré de difficulté est le même pour /ɛ̃ /- /ɑ̃ / et /ɑ̃ /-/ɔ̃ / ; pour les Colombiens, /ɑ̃ /-/ɔ̃ / est plus difficile que /ɛ̃ /-/ɑ̃ /. Ces résultats sont prédits par les assimilations. Pour les deux groupes, /ɛ̃ / est systématiquement assimilé à /a/ et /ɔ̃ / à /o/, ce qui explique la bonne discrimination de /ɛ̃ /-/ɔ̃ /. Par contre, /ɑ̃ / est assimilé soit à /a/ soit à /o/, avec un net avantage pour /o/ chez les Colombiens expliquant l’asymétrie observée pour /ɛ̃ /-/ɑ̃ / vs. /ɑ̃ /-/ɔ̃ / entre Espagnols et Colombiens. Les résultats des expériences de catégorisation à choix forcé des voyelles nasales montrent que /ɛ̃ / et /ɑ̃ / sont les voyelles les plus difficiles à identifier et ce à un même degré de difficulté pour tous les apprenants hispanophones. En production, les résultats de la tâche de lecture des voyelles nasales montrent que les apprenants, surtout les Colombiens, produisent des voyelles plus longues que les Français. La proportion de nasalité est plus importante pour les natifs que pour les apprenants. La mesure formantique du début des voyelles nasales, considéré comme non nasalisé, permet d’observer une variabilité importante chez les apprenants pour /ɛ̃ / et /ɑ̃ / : la cible articulatoire sous-jacente de /ɛ̃ / serait plus proche de /ɛ/, et celle de /ɑ̃ /, plus proche de /a/.

HDR de Cédric Gendrot à l’Université Lumière Lyon 2

Elle s’intitule:

Traitement automatique et analyse de la variation dans la parole : des mesures phonétiques sur grands corpus aux réseaux de neurones profonds

et aura lieu le jeudi 8 juillet 2021 à 14 heures à l’université Lumière Lyon 2, devant un jury composé de Mesdames et Messieurs

Laurent Besacier, Président, Professeur, Université Grenoble Alpes et Naver Labs Europe
Ann R. Bradlow, Rapporteur, Professeur, Northwestern University, Department of Linguistics
Corinne Fredouille, Rapporteur, Maitre de Conférences HDR, Avignon Université, UR 4128 Laboratoire Informatique d’Avignon
Kim Gerdes, Examinateur, Professeur, Université Paris-Saclay, UMR9015 Laboratoire Interdisciplinaire des Sciences du Numérique
Christine Meunier, Rapporteur, Directeur de Recherche CNRS, Aix-Marseille Université, UMR7309 Laboratoire Parole et Langage
François Pellegrino, Garant, Directeur de Recherche CNRS, Université Lumière Lyon 2, UMR5596 Dynamique du Langage

La soutenance sera diffusée à l’adresse https://web.msh-lse.fr/live/

HDR d’Emmanuel Ferragne à l’Université Aix-Marseille

Elle s’intitule:

Du groupe à l’individu, du corpus à l’expérimentation, du spectrogramme au deep learning pour la phonétique

et aura lieu le vendredi 25 juin 2021 à 14 heures au Laboratoire Parole et Langage, Université d’Aix-Marseille, devant un jury composé de Mesdames et Messieurs

Sylvie HANOTE, (Université de Poitiers), rapporteure
Sophie HERMENT, (Université d’Aix-Marseille), garante
Christine MEUNIER, (Université d’Aix-Marseille, CNRS), examinatrice
Noël NGUYEN, (Université d’Aix-Marseille), rapporteur
François PELLEGRINO, (Université Lyon 2, CNRS), examinateur
Anne PRZEWOZNY-DESRIAUX, (Université de Toulouse Jean Jaurès), rapporteure

La soutenance aura lieu à huis-clos et le public pourra suivre en ligne

Soutenance de Thèse d’Amelia Pettirossi

Cette thèse s’intéresse à l’impact de la dysphonie à travers trois grands axes : la représentation de sa propre voix, la transmission du message et la perception d’autrui. Nous nous basons sur deux populations de femmes professeures des écoles (PE), l’une de 709 PE interrogées via internet et l’autre de 61 locutrices PE enregistrées en conditions contrôlées. À partir d’une évaluation perceptive experte sur l’échelle GRBAS, nos locutrices ont été catégorisées en deux groupes de 37 témoins et 24 dysphoniques légères. Outre les importantes plaintes vocales et l’altération de la qualité de vie qui touchent nos deux populations, nous observons un effet de l’âge des élèves sur la prévalence des troubles vocaux. L’analyse des productions de nos locutrices en lecture calme ou face à une classe bruyante suggère que les PE utilisent des stratégies d’adaptation dans leur pratique professionnelle qui pourraient être impactées par la dysphonie. La dysphonie semble également impacter la transmission de l’information à destination d’élèves de 7 à 10 ans puisque des temps de réaction plus longs sont relevés lors du décodage du contraste de voisement dans une tâche d’identification de mot lorsque la consigne est produite par une locutrice dysphonique. Enfin, suite à une première tâche de catégorisation libre, l’attribution de traits de personnalité par un panel d’auditeurs naïfs se basant uniquement sur la voix des PE met en évidence des profils vocaux associés à des représentations plus ou moins positives. L’accord modéré constaté entre le degré de trouble vocal perçu et l’évaluation experte de la dysphonie semble lié à la perception positive de la raucité par les auditeurs naïfs.

Soutenance de Thèse de Bowei Shao

Chinese languages have a set of segments known as ‘apical vowels’ (舌尖元音 in Chinese). Their exact nature is still the source of an ongoing debate: Are they consonants or vowels? ‘Apical vowels’ have been analysed in previous studies as genuine vowels, fricative vowels, syllabic fricatives, or syllabic approximants. This dissertation is concerned with the apical vowel attested in Jixi-Hui Chinese. I examine this segment from phonetic and phonological perspectives and show that it is best defined as a voiced fricative consonant (transcribed /z̩/). Phonologically, this segment is a distinct phoneme from /i/. It is exclusively attested in syllable nucleus position where it constitutes a tone-bearing unit. It can appear not only after coronal sibilants /s ts tsh/, but also bilabials /p ph/ and nasals /m n/. Phonetically, the acoustic and articulatory characteristics of this segment are examined. The results show that /z̩/ contains in the majority of cases frication noise in its initial phase superposed on voicing, and a clearer formant structure appears towards its end. The harmonic-to-noise ratio and zero-crossing rate analyses confirm this significant presence of noise, clearly distinguishing this segment from vowels. The smoothing-spline ANOVA analyses of ultrasound data show that /z̩/ has a near-identical tongue shape to /s/ on both mid-sagittal and coronal planes despite some speaker-specific differences. This /s/-like tongue shape is constant in bilabial and alveolar consonantal contexts. The variability in the way /z̩/ is phonetically implemented is argued to be a consequence of two interacting constraints: a structural one related to the distinctive status of /z̩/ and the role it plays within syllable structure, and a physical one related to the incompatibility of voicing and frication. The study further argues for the necessity of recognising syllabic fricatives in Jixi-Hui Chinese and probably also in other Chinese languages.