Modélisation globale de la production de la parole pour la synthèse articulatoire

La synthèse articulatoire consiste à simuler numériquement les phénomènes articulatoires, mécaniques, et acoustiques mis enjeu lors de la production de la parole. Située à l’opposé de l’approche concaténative, elle permet à la fois d’étudier ces phénomènes, de modifier le rendu de parole en modifiant virtuellement les paramètres physiologiques du locuteur, et également de lier les indices acoustiques à l’origine de l’identification des sons à leur origine articulatoire. L’approche globale présentée ici s’appuie sur une modélisation fine de la production de la parole à différents niveaux, à savoir une modélisation articulatoire de la déformation de la géométrie du conduit vocal au cours du temps, une modélisation mécanique aéroacoustique et géométrique de la glotte, ainsi qu’une modélisation numérique de la propagation acoustique à l’intérieur du conduit vocal.

La modélisation articulatoire s’appuie sur les premiers modes de déformation des différents articulateurs (langue, lèvres, mâchoire, vélum, et larynx) calculés à partir de leurs contours extraits de coupes médio-sagittales du conduit vocal obtenues par IRM statiques. Une nouvelle approche utilisant une reconstruction de films articulatoires à haute définition spatio-temporelle obtenus par IRM sera également présentée. Une vue médio-sagittale du conduit vocal est ainsi modélisée à l’aide d’un petit nombre de paramètres.

Ensuite un modèle de glotte est spécialement conçu pour reproduire le caractère auto-entretenu des oscillations des plis vocaux. Ainsi, leurs mouvements sont pilotés par les conditions aéroacoustiques au voisinage de la glotte. Le modèle présenté permet également l’ajout en parallèle d’une fente glottique nécessaire à la simulation de fricatives voisées ou de voix soufflées. La propagation acoustique au sein du conduit vocal est alors assurée à l’aide d’une méthode de résolution des équations de l’acoustique à chaque pas temporel. Elle se base sur l’analogie électrique-acoustique de Maeda adaptée à un réseau de guides d’onde.

Enfin, des exemples de synthèse par copie sont présentés. Ils ont pour but de reproduire la parole naturelle d’un locuteur à partir de l’acquisition simultanée du signal audio et des images du conduit vocal ou de l’estimation des données géométriques du conduit vocal par l’intermédiaire de techniques inverses.


Title :
Global modeling of speech production for articulatory synthesis

Abstract :
Articulatory synthesis consists in the numerical simulation of the articulatory, mechanical and acoustic phenomena involved in speech production. Unlike the concatenative approach, it enables these phenomena to be investigated, the speech signal to be specifically designed by virtually modifying the physiological parameters of the speaker, and the acoustic clues of natural speech to be related to their articulatory origin. The global approach that is presented is based on fine modelings of speech production at several levels, namely an articualtory modeling of the deformation of the vocal tract shape as a function of time, a mechanical and geometric modeling of the glottis, as well as a numeric modeling of the acoustic propagation inside the vocal tract.

The articulatory modeling is based on the first deformation modes of the articulators (tongue, lips, jaw, velum, and larynx) computed from the contours extracted from midsagittal slices of the vocal tract obtained from static MRI. A new approach using reconstruction of articulatory films with high spatiotemporal resolution obtained by cineMRI is also presented. The midsagittal shape of the vocal tract is then modeled thanks to a small amount of parameters.

Then, a glottis model is designed in order to reproduce the self-sustaining nature of the vocal folds oscillations. Thus, their movements are driven by the aeroacoustic conditions at the glottis vicinity. The presented model allows a parallel glottal chink to be integrated to accurately simulate voiced fricatives and breathy voices. Acoustic propagation inside the vocal tract is guaranteed by solving the acoustic equations at each time step. It is based on the electric-analogy by Maeda that is adapted to a waveguide network.

Finally, a few examples of copy synthesis are presented. They aim at reproducing the natural speech of a speaker from the simultaneous acquisition of the audio signal and images of the vocal tract, or by recovering the geometry of the vocal tract using inverse techniques.

SRPP dédié à la linguistique africaine

14h00-15h30 :
Firmin Ahoua, Président de la SLAO (Univ. Houphouët Boigny, Abidjan) & Rémy
Bôle-Richard, Besançon : Vers la reconstruction du proto-potou

15h30-16h00 : pause

16h00-18h00 :
Table ronde, avec les communications de :
Constantine Yuka, Secrétaire de la SLAO, Univ. du Benin, Nigeria :
Refocusing the study of African languages : An agreement-based approach
Eno-Abasi Urua & Moses Ekpenyong, Univ. d’Uyo (Nigeria) :
Naming and Trending Name Patterns among the Ibibio of Nigeria.

Prise de données aérodyamiques : principes, méthodes de mesures et d’analyse.

La présentation discutera des principes fondamentaux à connaître sur l’aérodynamique de la parole : pression et volume, pression et masse d’air, débit d’air, vélocité des particules, intensité de la turbulence, effet de Bernoulli et principes de mesure des paramètres aérodynamiques. Les conséquences phonologiques de ces paramètres seront discutées pour des sons particuliers : implosives sonores et sourdes en fulfulde, éjectives en amharique, nasales et nasalisation en guarani ainsi que les types phonatoires en nasa yuwe.
Quelques éléments à connaître sur la calibration et la quantification des données avec l’appareil EVA seront présentés avant une démonstration de prise de données (débit d’air oral, nasal et pression pharyngale synchronisés avec un enregistrement acoustique et d’électroglottographe).

Clarity and the Lexicon

Speech produced in the context of real or imagined communicative difficulties is characterized by hyperarticulation. Phonological neighborhood density, which represents a type of lexical difficulty, conditions similar patterns in production : Words with many neighbors are hyperarticulated relative to words with fewer. In this talk, I will present data from several studies detailing these neighborhood effects, looking at patterns of coarticulation as well as hyperarticulation, and looking at them in both English and French. And I will compare the effects that arise in communicative contexts to those that arise due to lexical conditions, both in terms of their realizations and in terms of their consequences for perception. I will argue that the particular patterns of results suggest that neighborhood effects, like clear speech effects, may be listener-directed.

Selective attention to features : How Polish learners of English and French perceive Dutch vowels

In this paper non-native speech perception is argued to be based on the interplay of categories and feature clusters. Non-native speech perception has traditionally been examined in relation to assimilations of these non-native language speech sounds which are similar to first language sounds and new category formation for considerably different sounds (Flege 1995, Best 1995, Best and Tyler 2007). This paper tests the postulate by Pajak and Levy (2014) whereby an important role of selective attention to features is seen as supplementing the role of categories in non-native speech perception, even if the context for using these features is different in the two languages involved. Additionally this paper elaborates on Pajak and Levy’s (2014) hypothesis to claim that categories and certain feature combinations are crucial for faithful non-native vowel perception.

Perception experiments were designed with the aim of testing whether the acquisition of L2 with specific vowel features facilitates the perception of foreign language vowels with the same feature used in different contexts (cf. Bohn and Best 2012). 10 Polish learners of English and 10 Polish learners of French completed discrimination and assimilation (categorization and goodness rating) tests on seven Dutch vowel contrasts. Discrimination is hypothesized to be consistent with the Perceptual Assimilation Model (Best 1995, Best and Tyler 2007) types, and asymmetries predicted by the Natural Referent Vowel framework (Polka and Bohn 2003, 2011) are mainly expected for single-category assimilations (see Tyler et al. 2014 who suggest that perceptual assimilation might modulate the effects of vowel peripherality on non-native vowel perception). The choice of languages serves the purpose of examining the role of features related to acoustic characteristics of vowel quality, tenseness and lip rounding. Dutch has an extensive vowel inventory with front unrounded, front rounded and back rounded vowels. Dutch vowels are also distinguished by tenseness. English does not have front rounded vowels, but it uses tenseness as features specifying vowel categories and it has low vowels. French also has a relatively large vowel inventory, it has a front rounded vowel, but it does not use tenseness contrastively The preliminary results support the hypothesis and point to the vital role of the tongue height and lip rounding in foreign vowel perception.

References :

Best, C. 1995. A direct realist view of cross-language speech perception. In W. Strange (Ed.), Speech perception and linguistic experience : Issues in cross language research. Timonium, MD : York Press, 233-277.

Best, C. and M. Tyler. 2007. Non-native and second language speech perception. In : O.-S. Bohn, M. Munro (Eds.) Language experience in second language speech learning : In honor of James Emil Flege. Amsterdam : John Benjamins, 13-34.

Bohn, O-S. and C. Best. 2012. Native-language phonetic and phonological influences on perception of American English approximants by Danish and German listeners. Journal of Phonetics 40 : 109-128.

Flege, J.E. 1995. Second language speech learning : Theory, findings and problems. In W. Strange (Ed.), Speech perception and linguistic experience : Issues in cross language research (pp. 233-277). Timonium, MD : York Press.

Levy E. S. and W. Strange. 2008. Perception of French vowels by American English adults with and without French language experience. Journal of Phonetics 36 : 141-157.

Pajak, B. and R. Levy. 2014. The role of abstraction in non-native speech perception. Journal of Phonetics 46, 147-160.

Polka, L. and O.-S. Bohn. 2003. Assymetries in vowel perception. Speech communication 41 : 221-231.

Polka, L. and O.-S. Bohn. 2011. Natural Referent Vowel (NRV) framework : An emerging view on early phonetic development. Journal of Phonetics 39 : 467-478.

Tyler, M.D, C. Best, A. Faber and A.G. Levitt. 2014. Perceptual Assimilation and Discrimination of non-native vowel contrasts. Phonetica 71 : 4-21.

Dominance et agressivité dans le débat politique : Etude perceptive et acoustique du conseil municipal de Montreuil (93100)

La présente thèse s’intéresse aux rapports entre dominance et hostilité dans le débat politique et interroge le rôle joué par les caractéristiques expressives de la parole. Tout en insistant sur la complexité de mener une étude phonétique, tant acoustique que perceptive, de la parole produite en condition écologique, ce travail de recherche propose un ensemble d’approches et de méthodologies complémentaires adaptées à la parole politique. Un corpus a été constitué à partir de 117 extraits de parole de la Maire de Montreuil (D. Voynet) et de 4 de ses opposants durant le conseil municipal en 2013, période alors marquée par un fort climat de tension politique. Les 5 locuteurs du corpus ont accepté de participer à la production d’une relecture du corpus original à partir de transcriptions orthographiques simplifiées de leurs propres productions dans le cadre d’entretiens individuels. Cette contrepartie lue a pu servir de condition de contrôle dans l’analyse acoustique des données. Les deux conditions (original, relecture) ont été annotées, segmentées et appariées (phonèmes, syllabes, mots). Des métriques de comparaison systématique de segment à segment ont été calculées pour mesurer les différences de caractéristiques temporelles, mélodiques et spectrales entre les deux conditions.

En parallèle, une première évaluation perceptive (22 participants) a permis de pondérer l’influence du contenu sémantique (transcriptions orthographiques) et des indices paralinguistiques (extraits audio) dans la perception de l’hostilité au sein du corpus original. Durant les entretiens individuels, les 5 locuteurs ont également participé à une tâche de perception dans laquelle ils ont évalué leurs propres stimuli sur trois dimensions (content/mécontent ; calme/agité ; contrôle-dominance(-/+)). Cette auto-évaluation a été comparée à une évaluation similaire par 24 auditeurs naïfs.

L’analyse des corrélats acoustiques de l’hostilité perçue fait état de stratégies temporelles et mélodiques multiples et hétérogènes dans la parole politique perçue comme agressive. Tous locuteurs confondus, les extraits ayant obtenu les plus hauts scores d’hostilité sont marqués par un accroissement de la f0 par rapport à la condition lue, ainsi que par l’insertion de pauses silencieuses. On note également une irrégularité de durée des segments, peu congruente avec le patron prosodique attendu du français (Léon, 2005). Des stratégies divergentes sont observées parmi les locuteurs, notamment au niveau de l’écart entre corpus relecture et corpus original sur des paramètres tels que la f0 moyenne, la réalisation d’allongements syllabiques pré-pausaux et les variations de débit articulatoire d’un bloc inter-pausal à l’autre.

Conformément aux recommandations de Duez (1991) et suivant la typologie de Degand & Simon (2009, 2011), une annotation des frontières syntaxiques a été mise en place de façon à quantifier l’écart entre structure syntaxique et structure prosodique pour chaque production, ainsi que l’influence de ces structurations sur les caractéristiques segmentales et suprasegmentales. Des caractéristiques temporelles propres aux marques de focalisation (Ferré, 2003 ; Béchet, 2014) sont notamment relevées dans le cas d’insertions de pauses silencieuses au sein de séquences syntaxiques minimales.

Références bibliographiques :

· Béchet, M., Sandré, M., Hirsch, F., Richard, A., & Marsac, F. R. Sock (2014) De l’utilisation de la pause silencieuse dans le débat politique télévisé. Le cas de François Hollande. Mots. Les langages du politique, 103, 23-38.

· Duez, D. (1991). La pause dans la parole de l’homme politique. Editions du Centre national de la recherche scientifique.

· Ferré, G. (2003). Les pauses démarcatives déplacées en anglais spontané. Marquage kinésique et prosodique. LIDIL-Revue de linguistique et de didactique des langues, 26, 155-169.

· Léon, P. R. (2005). Phonétisme et prononciations du français. A. Colin.

· Simon, A. & Degand, L. (2011). L’analyse en unités discursives de base : pourquoi et comment ? Langue française, 170,(2), 45-59.

Tutorial – Traitement du signal EEG : Une introduction à EEDLAB et ERPLAB

La présentation concerne le traitement du signal EEG. Il ne s’agit pas de présenter des données ou des analyses faites sur des données précises mais plutôt d’une introduction aux logiciels EEGLAB er ERPPLAB. Ces deux toolboxes Matlab libres et gratuites permettent de passer du signal brut à l’extraction des valeurs par condition d’une fenêtre temporelle précise.

La présentation abordera les sujets suivants : comment passer du signal continu au signal époqué, les traitements du signal époqué, l’affichage des ondes (par condition) et l’extraction des valeurs.

SRPP Multi Intervenants

Intervenant 1 : Natacha Chevrier (Lyon2, DDL)

Titre : Caractéristiques typologiques de la phonologie du bribri : système nasal et géminée modulée

Résumé :
Le bribri est une langue en danger de la famille chibcha (Quesada 2007, Constenla 2012), parlée au sud-est du Costa Rica (Amérique Centrale). Lors de ce séminaire, je présenterai les deux caractéristiques typologiquement les plus marquées de la phonologie du bribri : (i) le système nasal et (ii) la géminée modulée /tk/ (Chevrier 2017).

(i) Le bribri fait partie des rares langues du monde dans lesquelles la nasalité n’est pas distinctive pour les consonnes. Les consonnes nasales présentes dans l’output sont le résultat d’harmonies nasales (Cohn 1993 ; Walker 2001) et d’hypervoisement par abaissement du voile du palais (Iverson & Salmons 1996 ; Solé 2009).

(ii) La consonne /tk/ est une unité distinctive, combinant deux lieux, sans pour autant être une consonne doublement articulée, contrairement à ce qui avait précédemment été décrit (Lehmann 1920 ; Schlabach 1974 ; Wilson 1974 ; Constenla 1981 ; Jara 2004). Le caractère atypique de cette consonne peut être expliqué par une analyse diachronique.

Les analyses s’appuient sur des données acoustiques, récoltées dans deux communautés bribri entre 2012 et 2014 (Bajo Coen – Coroma et Amubre). Elles s’inscrivent dans le modèle de la Phonologie Articulatoire (Browman & Goldstein 1986, 1989).

Références

Browman C. & L. Goldstein, 1986, « Towards an Articulatory Phonology », Haskings Laboratories : Status Report on Speech Research SR-85, p. 219–50.

— 1989. « Articulatory gestures as phonological units », Phonology 6, p. 201–51.

Chevrier N., 2017, Analyse de la phonologie du bribri (chibcha) dans une perspective typologique : nasalité et géminée modulée, Université Lyon 2 : thèse de doctorat : sciences du langage.

Cohn A., 1993, « A survey of the phonology of the feature nasal », Working papers of the Cornell Phonetics Laboratory 8, p. 141–203.

Constenla Umaña A., 1981, Comparative Chibchan phonology, Université de Pennsylvanie : thèse de doctorat, Linguistique.

— 2012, « Chibchan languages », dans L. Campbell & V. Grondona (éds), The indigenous languages of South America : a comprehensive guide, The world of linguistics 2, Berlin, Boston : Mouton de Gruyter, p. 391–439.

Iverson G. & J. Salmons 1996, « Mixtec prenasalization as hypervoicing », International Journal of American Linguistics 62 (2), p.165–75.

Jara Murillo C., 2004, « Observaciones para el estudio dialectológico de la lengua bribri », Estudios de lingüística chibcha 23, p. 89–120.

Lehmann W., 1920, Zentral-Amerika, Teil I, Die Sprachen Zentral-Amerikas in Ihren Beziehungen Zueinander Sowie Zu Sud-Amerika Und Mexiko I, Berlin : Der Genera.

Quesada J.-D., 2007, The Chibchan languages, Cartago : Ediorial tecnológica de Costa Rica.

Schlabach R., 1974, « Los fonemas del bribri del valle de talamanca », América indígena 34 (2), p. 355–62.

Solé M.-J., 2009, « Acoustic and aerodynamic factors in the interaction of features : the case of nasality and voicing », dans M. Vigário, S. Frota & J. M. Freitas (éds), Phonetics and phonology : interactions and interrelations, Amsterdam, Philadelphia : John Benjamins, p. 205–34.

Walker R., 2001, « Nasal harmony », dans M. van Oostendorp, C. J. Ewen, E. Hume & K. Rice (éds), The blackwell companion to phonology III, Malden, Oxford, Chichester : Wiley-Blackwell, p. 1838–65.

Wilson J., 1974, « Analisis fonologico del bribri », América indígena 34 (2), p. 341–53.

Intervenant 2 : Hyunsoon Kim (Hongik University), Shinji Maeda (CNRS LTCI), Kiyoshi Honda (Tianjin University) and Lise Crevier-Buchman (Hôpital Européen Georges Pompidou)

Titre : Articulatory dynamics in ePGG, Pio, airflow and acoustic data for the Korean fricatives /s, s’/

Résumé :
This paper is concerned with the speech mechanism and representation of the two-way phonation contrast in Korean fricatives /s, s’/ based on a new non-invasive technique called external lighting and sensing photoglottograph (ePGG) as well as Pio (intra-oral air pressure) above the glottis, airflow and acoustic data. The adduction-abduction movement of the glottis during the production of the fricatives was monitored with light emitting diodes (IR LEDs) placed on the neck exterior surface between the hyoid bone and the thyroid cartilage. Airflow rate was also measured by the principle of pressure-difference anemometry using a protection mask made of synthetic fibers and a differential pressure sensor. Pio was measured by inserting a pressure probe to the pharyngeal cavity via the nostril, and the distance between the end of the probe and the glottis was around 4-5 cm. A multichannel data recorder (Dash-8x, Astro-Med) was used for simultaneous recordings of ePGG, airflow and acoustic data and also for those of Pio, airflow and acoustic data. Four native speakers (2 male and 2 female) of Seoul Korean participated in the experiments.

Domain-initial strengthening as reduced coarticulation

Domain-initial strengthening refers to variation in the phonetic properties of consonants and vowels when occurring after a prosodic boundary and according to the strength of this boundary (the stronger the boundary, the stronger the strengthening). This strengthening results in a spatial expansion of articulatory movements and the enhancement of (some of) the segment’s contrastive acoustic properties (see [1], [2]). Concomitant changes in timing have also been reported for strengthened segments. Although lengthening of domain-initial segments has not been found to be systematic, especially in French [2, 3], overlap between consonants in #CC clusters (with “#” representing a prosodic boundary) tends to decrease with increased boundary strength [4, 5]. A recent study on French V-to-V coarticulation in #V1CV2 sequences also showed a reduced anticipatory coarticulation of V2 on V1 when it is initial in a strong prosodic domain [6]. In the present study we test for a change in C-to-V coarticulation in French according to the prosodic position of the sequence (IP initial vs. word medial) and we look at different types of coarticulation varying in terms of cohesiveness by comparing : carryover coarticulation in CV sequences (where the overlap between segments is rather stable) and anticipatory coarticulation VC sequences (more variable and possibly more affected by other factors, as prosodic position).

About 17,000 vowels extracted from two large corpora (ESTER [7] and NCCFr [8]) of natural speech are studied. These includes /i, e, a, ɔ/ in uvular /R/ vs. coronal /t, d, s, z, n, l/ contexts in VC sequences. CV sequences in the same uvular vs. coronal contexts could also been observed for /a/ (but not for the other vowels due to insufficient number of cases). C-to-V coarticulation is compared between sequences that are either initial in an Intonational Phrase (IPi) or medial in a word (Wm). In Wm position, the opposite context (left in VC and right in CV) is a labial consonant. While in the CV sequence, C and V are always tautosyllabic, we could not control for the syllabic affiliation of C in the VC cases. Coarticulation is measured as the difference in F1 and F2 according to consonantal context. Analysis is performed using a linear mixed model in R [9] and the package lme4 [10].

Results show a clear effect of consonantal context in both VC and CV structures : as expected, F1 is significantly lower and F2 higher in coronal context than in uvular context. Prosodic position affects both F1 and F2 dimensions in a vowel-dependent way. When in IPi position, /a/ has a higher F1 (and F2 in VC only), /e/ has a lower F1 and a higher F2, /i/ has a higher F2, while no change is found for /ɔ/. More interestingly, our study reveals an interaction between the prosodic position and consonantal context. For all vowels in VC sequences, and for both F1 and F2, the effect of consonantal context is smaller in IPi position than in Wm position. This illustrated in Figure 1 for /aC/ and /eC/. In CV, the effect of consonantal context also interacts with prosodic position, although difference between prosodic positions is subtler.

This study based on a large amount of data produced in a naturalistic context shows that vowels in strong prosodic positions are less coarticulated, i.e. less overlapped by surrounding consonants, in French. These results will be discussed according to the proposed domain of activation of a π-gesture responsible of the slowing down of articulatory gestures near phrase boundaries. Overall, this reduced overlap undergone by prosodic domain initial vowels, and vowels in domain initial syllables, provides further support to the view that initial strengthening contributes to the preservation of segmental identity.

[1] Cho, T. 2011. Laboratory phonology. The continuum companion to phonology, 343-368.

[2] Georgeton, L., & Fougeron, C. 2014. Domain-initial strengthening on French vowels and phonological contrasts : evidence from lip articulation and spectral variation. Journal of Phonetics, 44, 83-95.

[3] Keating, P., Cho, T., Fougeron, C., & Hsu, C. 2003. Domain-initial articulatory strengthening in four languages. Laboratory Phonology, 6, 143–161.

[4] Bombien, L., Mooshammer, C., Hoole, P., Rathcke, T., & Kühnert, B. 2007. Articulatory strengthening in initial German /kl/ clusters under prosodic variation. International Congress of Phonetic Sciences XVI, (Saarbrücken), 457–460.

[5] Byrd, D., & Choi, S. 2010. At the juncture of prosody, phonology, and phonetics—The interaction of phrasal and syllable structure in shaping the timing of consonant gestures. Laboratory Phonology, 10, 31–59.

[6] Turco, G., Fougeron, C., & Audibert, N. 2016. The effects of prosody on French V-to-V coarticulation : A corpus-based study. Proceedings of Interspeech, (San Francisco), 998-1001.

[7] Gravier, G., Bonastre, J-F., Geoffrois, E., Galliano, S., Tait, K. Mc., & Choukri, K. 2006. Corpus description of the ESTER evaluation campaign for the rich transcription of French broadcast news. Proceedings of European Conference on Speech Communication and Technology, 139–142.

[8] Torreira, F., Adda-Decker, M., & Ernestus, M. 2010. The Nijmegen corpus of casual French. Speech Communication, 52, 201–212.

[9] R Development Core Team. 2008. R : A language and environment for statistical computing. R Foundation for Statistical Computing. Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R- project.org/.

[10] Bates, D., Maechler, M., Bolker, B., & Walker, S. 2015. Fitting Linear Mixed-Effects Models Using lme4. Journal of Statistical Software, 67(1), 1-48.