English phonotactics : A-feature-based approach

The goal of this talk is to provide an analysis of English consonant clusters based on the assumption that phonotactic preferences are encoded in phonological features of individual segments forming a cluster. In this contribution, this encoding is expressed by a set of 19 parameters established for the following features : complexity, place of articulation, manner of articulation and voice. On the basis of observed tendencies of feature distribution and co-occurrence, a set of new phonotactic preferences which govern the syllable structure in English is proposed. Additionally, statistical methods of Principal Component Analysis and Cluster Analysis are employed in order to weigh the features and illustrate the groups of clusters which follow a particular set of preferences. This work is an extension of Orzechowska and Wiese (2015) who advocate the view that phonological features rather segments determine phonotactics in a given language. The approach varies from measures of phonotactic complexity which rely on a subset of phonological features or evaluate cluster well-formedness on the basis of pre-specified conditions. For instance, sonority tends to be based on manner of articulation (e.g. Steriade 1990, Wiese 1988), although some hierarchies distinguish between voiced and voiceless obstruents (e.g. Jespersen 1913, Vennemann 1988). Additionally, traditional cluster evaluation follows the Sonority Sequencing Generalization (Selkirk 1984) which specifies what consonant clusters should be like, rather than what they are like. The latter approach is stressed in this talk. Much as the same set of phonological features (complexity, place, manner, voice) is universally available to all languages, each language selects a feature or a subset of features in the construction of clusters, which decide on the idiosyncratic character of clusters in a given phonological system. This explains a large variation in cluster inventories in, e.g. Slavic and Germanic systems.

Références

  • Clements, G. N. (1990). The role of the sonority cycle in core syllabification. In J. Kingston & M. E. Beckman (Eds.), Papers in Laboratory Phonology I : Between the Grammar and Physics of Speech 1, pp. 283–333. New York : CUP.
  • Jespersen, O. (1913). Lehrbuch der Phonetik (2nd ed.). Leipzig, Berlin : Teubner.
  • Orzechowska, P. & R. Wiese. (2015). Preferences and variation in word-initial phonotactics : A multidimensional evaluation of German and Polish. Folia Linguistica 49(2) : 439–486.
  • Sievers, E. (1901). Grundzüge der Phonetik. Zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. Leipzig : Breitkopf & Haertel.
  • Steriade, D. (1990). Greek prosodies and the nature of syllabification. New York : Garland Publishing.
  • Vennemann, T. (1988). Preference Laws for Syllable Structure and the Explanation of Sound Change. Berlin ; New York ; Amsterdam : Mouton de Gruyter.
  • Wiese, R. (1988). Silbische und Lexikalische Phonologie. Studien zum Chinesischen und Deutschen. Tübingen : Max Niemeyer Verlag.

Voice quality and the perception of speakers’ social image

Human speakers manipulate voice acoustic parameters to persuade the audience, achieve goals, arouse emotional states, and convey personality traits (Signorello, 2014). Distinct communication contexts (environmental acoustics, listeners’ biological and social traits) in which the vocal communication (or interaction) takes place influence speakers’ ways to manipulate voice. The voice qualities resulting from the manipulation convey specific type and traits of the speakers’ social image : dominance and biological fitness (Ohala, 1984, 1996), size (Pisanski et al., 2014), physical strength (Sell et al., 2010), age and race (Kreiman and Sidtis, 2011), attractiveness (Klofstad et al., 2015 ; Anderson and Klofstad, 2012), personality traits and affective states (Banse and Scherer, 1996 ; Bänziger and Scherer, 2005 ; Grandjean et al., 2006), and leadership and charisma status (Klofstad et al., 2015 ; Anderson and Klofstad, 2012 ; Signorello, 2014).

This talk will feature several studies that I conducted to investigate voice quality and how it conveys speakers’ social image. The matter was studied comparing distinct genders, languages, and communication contexts. The broad intent of this research was twofold : (a) to discern voice acoustics parameters related to speakers’ evolved vocal behavioral abilities from the ones resulting from linguistically-filtered strategies (used to adapting one’s voice quality to cultural-related expectations) ; (b) to investigate the perceptual salience of voice quality acoustic patterns in triggering specific social behaviors in listeners.

Références :

  • Anderson, R. C. and Klofstad, C. A. (2012). Preference for leaders with masculine voices holds in the case of feminine leadership roles. PLoS ONE, 7(12):e51216.
  • Banse, R. and Scherer, K. (1996). Acoustic profiles in vocal emotion expression. Journal of Personality and Social Psychology, 70(3):614–36.
  • Bänziger, T. and Scherer, K. R. (2005). The role of intonation in emotional expressions. Speech Communication, 46:252–267.
  • Grandjean, D., Bänziger, T., and Scherer, K. R. (2006). Intonation as an interface between language and affect. Progress in Brain Research, 156:235–268.
  • Klofstad, C. A., Anderson, R. C., and Nowicki, S. (2015). Perceptions of Competence, Strength, and Age Influence Voters to Select Leaders with Lower-Pitched Voices. PLoS ONE, 10(8):e0133779.
  • Kreiman, J. and Sidtis, D. (2011). Foundations of Voice Studies : An Interdisci- plinary Approach to Voice Production and Perception. Wiley-Blackwell, Oxford, UK.
  • Ohala, J. J. (1984). An ethological perspective on common cross-language utilization of F0 of voice. Phonetica, 41(1):1–16.
  • Ohala, J. J. (1996). Ethological theory and the expression of emotion in the voice. In Pro- ceedings of the 4th International Conference on Spoken Language Processing (ICSLP 96), volume 3, pages 1812–1815, Philadelphia, PA, USA.
  • Pisanski, K., Fraccaro, P. J., Tigue, C. C., O’Connor, J. J. M., Röder, S., Andrews, P. W., Fink, B., DeBruine, L. M., Jones, B. C., and Feinberg, D. R. (2014). Vocal indicators of body size in men and women : a meta-analysis. Animal Behaviour, 95(0):89–99.
  • Sell, A., Bryant, G. A., Cosmides, L., Tooby, J., Sznycer, D., von Rueden, C., Krauss, A., and Gurven, M. (2010). Adaptations in humans for assessing physical strength from the voice. Proceedings of the Royal Society B : Biological Sciences.
  • Signorello, R. (2014). La Voix Charismatique : Aspects Psychologiques et Caractéristiques Acoustiques. Ph.D. Thesis in Linguistics and Psychology, Université de Grenoble, France and Università degli Studi Roma Tre, Italy.

Complexity and dynamics of speech communication

Verbal communication relies on the interaction between many heterogeneous processes involving physical, cognitive and social variables and unfolding over different time scales. The overarching objective of my studies is to understand how this coordination is achieved and how it shapes the linguistic system. In this presentation, I will give an overview of this work and of the methods conceived to support my research program. In the first part of the presentation, I will rapidly summarize the results of recent work showing that 1) invariant coordinative relations link the behaviour of the articulators during the production of speech consonants and that 2) the degree of coordination between the production of syllables and the production of prosodic prominence is a key dimension to understand rhythmic typology. These results have been obtained thanks to the combination of two different approaches to study speech spatiotemporal patterns. These will be illustrated in the second part of the presentation. In the first approach, we use Wavelet Based Functional Mixed Models to estimate the effects of experimental factors on the shape of time series (e.g. F0 curves) and on images (e.g. ultrasound vocal tract images). In the second approach, we adapt state-space methods (originally introduced to characterize dynamical systems) to study the organization of the processes underlying the production of speech patterns (e.g. speech gestures) by analysing their variability. In the last part of the presentation, I will illustrate an ongoing project aimed at studying inter-speaker coordination. The modelling part of the project aims at testing models of inter-speaker coordination by studying the interactions between human speakers and an artificial agent. The artificial agent can coordinate its behaviour with the human speakers during the repetition of simple speech utterances. The exploratory part of the project aims at understanding how and if physiological coordination between speakers involved in a conversation has an impact on the coordination of their speech acts and makes communication more efficient.

Probing articulatory coordination using Real-time MRI

The talk will present an overview of the MRI-based research on articulatory coordination ongoing at the Speech Production and Articulation kNowledge (SPAN) group at the University of Southern California. This will include a description of the methods used for real-time data acquisition, the analysis and measurement techniques that have been developed, and their application to 3 issues : (1) how do individual talkers differ in their coordination of multiple articulators to produce vocal tract constrictions, and how much of that variation is due to anatomical differences ? (2) How are the laryngeal raising and lowering gestures associated with ejectives and implosives coordinated with their oral constriction gestures ? (3) What aspects of consonant and vowel production are maintained or lost following a partial glossectomy, and how do glossectomy patients compensate for reduced lingual mass and mobility, post-operatively ?

Computational description and control of sentiment information embedded in speech

In this talk, recent research activities are introduced in sentiment correlation analyses among speech, language and color studied at our research laboratory. Following the findings of fundamental correlations between communicative speech prosody and its impressions expressed by language, communicative F0 pattern is calculated. Using Japanese sentences consisting of adverbs showing magnitude, adjectives and final particles, the possibility of F0 control for communicative speech synthesis is shown. The other experimental trial is also introduced to show that this sentiment mapping between impression (language) and prosody (speech) can also be observed between speech and color. These two research studies indicate a new paradigm of cross-modal computational modeling of sentiment information processing between speech, language and image.

Reconnaissance de la parole « zéro-ressource » et modèles d’apprentissage phonétique et phonologique

Les systèmes de reconnaissance de la parole (ASR) sont fonctionnellement similaires à l’être humain. Ils prennent de l’audio en entrée dans une représentation basée sur une analyse spectrale, et ils sortent une séquence de mots, souvent découpés en segments. Ils diffèrent à deux égards essentiels. Pour une chose, bien sûr, les systèmes ASR ne prétendent pas respecter les modèles théoriques en phonétique et en phonologie des mécanismes et des représentations chez l’être humain, et les théories linguistiques ne sont pas contraintes par ce qui marche ou non chez les systèmes ASR. Mais, plus fondamentalement, l’apprentissage chez l’être humain est plus efficace que chez les systèmes ASR par ordre de grandeur. On estime qu’avant l’âge de 4 ans, un enfant aura entendu entre 200 et 4800 heures de parole, selon la culture ; pour arriver à une bonne performance, les systèmes ASR de pointe utilise des dizaines ou des milliers d’heures d’enregistrements pour s’entraîner. En plus, ces données sont accompagnées d’une transcription phonémique ou textuelle, ce qui est une information entièrement inaccessible à l’apprenant humain, et même les systèmes très performants ont beaucoup de difficulté à reconnaitre des locuteurs et des dialectes sur lesquels ils n’ont pas été entraînés.

La recherche en apprentissage « zéro ressource » propose d’éliminer les transcriptions de la « pipeline » ASR. Le double objectif : d’améliorer les systèmes ASR, en réduisant la dépendance sur l’annotation ; et de proposer des modèles psycholinguistique de l’apprentissage phonétique et phonologique qui utilisent le même type de données brutes accessibles à l’enfant, en prenant comme point de départ le simple défi d’avoir un système fonctionnel. Je résume les résultats du challenge « ZeroSpeech 2017 » que nous avons organisé en décembre, en les mettant dans le contexte de la problématique de la modélisation cognitive, et en faisant une comparaison avec la génération précédente de modèles psycholinguistique d’apprentissage et de perception de la parole.

Fiabilité de la comparaison de voix dans le cadre judiciaire

Dans les procédures judiciaires, des enregistrements de voix sont de plus en plus fréquemment présentés comme élément de preuve. En général, il est fait appel à un expert scientifique pour établir si l’extrait de voix en question a été prononcé par un suspect donné (prosecution hypothesis) ou non (defence hypothesis). Ce processus est connu sous le nom de “Forensic Voice Comparison (FVC)” (comparaison de voix dans le cadre judiciaire). Depuis l’émergence du modèle DNA typing, l’approche Bayesienne est devenue le nouveau “golden standard” en sciences criminalistiques. Dans cette approche, l’expert exprime le résultat de son analyse sous la forme d’un rapport de vraisemblance (LR). Ce rapport ne favorise pas seulement une des hypothèses (“prosecution” ou “defence”) mais il fournit également le poids de cette décision. Bien que le LR soit théoriquement suffisant pour synthétiser le résultat, il est dans la pratique assujetti à certaines limitations en raison de son processus d’estimation. Cela est particulièrement vrai lorsque des systèmes de reconnaissance automatique du locuteur (ASpR) sont utilisés. Ces systèmes produisent un score dans toutes les situations sans prendre en compte les conditions spécifiques au cas étudié. Plusieurs facteurs sont presque toujours ignorés par le processus d’estimation tels que la qualité et la quantité d’information dans les deux enregistrements vocaux, la cohérence de l’information entre les deux enregistrements, leurs contenus phonétiques ou encore les caractéristiques intrinsèques des locuteurs.

Tous ces facteurs mettent en question la notion de fiabilité de la comparaison de voix dans le cadre judiciaire. Dans cette thèse, nous voulons adresser cette problématique dans le cadre des systèmes automatiques (ASpR) sur deux points principaux.

Le premier consiste à établir une échelle hiérarchique des catégories phonétiques des sons de parole selon la quantité d’information spécifique au locuteur qu’ils contiennent. Cette étude montre l’importance du contenu phonétique : Elle met en évidence des différences intéressantes entre les phonèmes et la forte influence de la variabilité intra-locuteurs. Ces résultats ont été confirmés par une étude complémentaire sur les voyelles orales basée sur les paramètres formantiques, indépendamment de tout système de reconnaissance du locuteur.

Le deuxième point consiste à mettre en œuvre une approche afin de prédire la fiabilité du LR à partir des deux enregistrements d’une comparaison de voix sans recours à un ASpR. À cette fin, nous avons défini une mesure d’homogénéité (NHM) capable d’estimer la quantité d’information et l’homogénéité de cette information entre les deux enregistrements considérés. Notre hypothèse ainsi définie est que l’homogénéité soit directement corrélée avec le degré de fiabilité du LR. Les résultats obtenus ont confirmé cette hypothèse avec une mesure NHM fortement corrélée à la mesure de fiabilité du LR. Nos travaux ont également mis en évidence des différences significatives du comportement de NHM entre les comparaisons cibles et les comparaisons imposteurs.

Nos travaux ont montré que l’approche “force brute” (reposant sur un grand nombre de comparaisons) ne suffit pas à assurer une bonne évaluation de la fiabilité en FVC.En effet, certains facteurs de variabilité peuvent induire des comportements locaux des systèmes, liés à des situations particulières. Pour une meilleure compréhension de l’approche FVC et/ou d’un système ASpR, il est nécessaire d’explorer le comportement du système à une échelle aussi détaillée que possible (le diable se cache dans les détails).

Phonetic prominence in French : Comparing L1 and L2 speakers

This study investigates how L1 and L2 speakers of French produce phonetic correlates of French prosodic structure, specifically the properties of Accentual Phrases that are evidenced in dimensions other than f0. The L2 speakers had English L1, with varying levels of proficiency in French. Differences in prosodic structure between English and French lead us to expect differences between these speakers and L1 French speakers. Our study measured jaw and tongue displacement in electromagnetic articulography, as well as acoustic duration and vowel formant values. We found that despite substantial individual variation, the L1 speakers generally show expanded articulation (greater jaw displacement, and F1 values corresponding to this), and longer durations on syllables that are final in an Accentual Phrase (identified using f0 cues). The most obvious differences in the L2 speakersΓÇÖ productions were seen in polysyllabic words, particularly cognates, where less advanced speakers tended to produce expanded articulations on syllables that would receive lexical stress in English but no accentuation in French.

Processing of French liaison by infants

French liaison is a relatively frequent morpho-phonological process occurring between two words (e.g. les amis –> [le.zami]). Liaison is particularly challenging for infants, since the surfaced form (e.g. zami) is non-aligned with the word boundary (e.g., ami). In this talk, I will focus on how infants between 20- to 36-month-old resolve lexical ambiguities when word boundaries are unclear due to liaison. I will outline a series of experiments aimed at testing infant’s encoded form of new words, and report an eye-tracking study aimed at testing the phonetic representation of familiar vowel-initial words. I will argue that infants’ segmentation is first guided by an onset bias, and their ability to eventually parse vowel-initial words correctly stem from their sensitivity to distributional information and their gradual understanding of the syntactic contexts in which liaison occurs.

Intonation dans les langues à tons africaines : développements actuels

Bien que presqu’un tiers des langues du monde soient parlées en Afrique, les travaux sur l’intonation des langues africaines restent rares et les ouvrages sur l’intonation, qu’ils soient des livres de synthèse ou des ouvrages collectifs, ont jusqu’à très récemment quasiment ignoré les langues africaines (Hirst & di Cristo 1999, Jun 2005, 2014, entre autres). Le livre “Intonation in African languages” (2016, Laura Downing et Annie Rialland, eds.) a commencé à combler cette lacune. Notre présentation s’appuiera fortement mais non exclusivement sur les études publiées dans ce livre. Notre but principal sera de dégager les développements actuels dans le domaine de l’intonation dans les langues africaines et de montrer comment ces études peuvent contribuer à une modélisation des relations entre tons et intonation et plus généralement à celle des phénomènes réalisés de façon concomitante
Les points que nous considèrerons plus particulièrement sont les suivants : 1) descentes mélodiques, 2) tons de frontières 3) expression de focus, 4) marquage des questions polaires.

1) Descentes mélodiques. Les énoncés assertifs sont souvent descendants. Cependant, ces descentes mélodiques résultent de divers processus qui doivent être distingués et peuvent intervenir indépendamment les uns des autres. Les processus actuellement généralement reconnus sont : 1) La déclinaison, 2) Le downdrift, 3) Le downstep, 4) L’abaissement final. Ces processus tendent à être de mieux en mieux connus au fur et à mesure que notre connaissance de l’intonation s’améliore. Ainsi, la déclinaison, qui est une descente graduelle et linéaire, peut s’appliquer différemment selon la séquence de tons en question (Akan : Kügler, 2016). Le downdrift, très fréquent dans les réalisations de séquences alternantes de tons hauts ou moyens et de tons bas, tend à être asymptotique, avec une forme modélisable en termes d’équation impliquant une valeur asymptotique et un coefficient de réduction des intervalles (Chichewa : Myers, 1996). Le downdrift et le downstep peuvent être similaires ou différents dans une langue donnée (Wule Dagara : Rialland and Some, 2011). Le downdrift et le downstep manifestent l‘un et l’autre des mécanismes d’anticipation qui peuvent être de longue portée. La pente et le domaine de l’abaissement final peuvent aussi différer d’une langue à l’autre et deux formes d’abaissement final peuvent se trouver dans une seule langue (Bemba : Kula, 2016).

2) Tons de frontière. Quand on analyse une langue à tons, un des problèmes principaux qui est rencontré est la séparation entre tons lexicaux et “tons de frontière” (c’est à dire des tons associés à des frontières de constituants). Ces divers tons peuvent simplement se suivre, les tons de frontière pouvant être réalisés avant ou après les tons lexicaux. Ils peuvent aussi s’annuler les uns les autres dans certains contextes, les tons de frontière prenant alors le pas sur les tons lexicaux ou l’inverse (Shekgalagari : Hyman et Monaka 2011). D’autres relations que la succession entre tons lexicaux et tons de frontière ont également été dégagées. Nous verrons que ces tons peuvent se superposer, engendrant alors des realisations infra-basses ou supra-hautes (Embosi : Rialland & Aborobongui, 2016). Ils peuvent aussi s’attirer ou se repousser (Shingazidja : Patin, 2016, Embosi : Rialland & Aborobongui, 2016)..

3) Expression du focus. Les langues africaine remettent en question l’idée très largement répandue que le focus est associé à une proéminence prosodique. Elles présentent une très large diversité de faits : absence de marque prosodique de focus (Basaa : Makasso & al., 2016, Embosi : Rialland & Aborobongui, 2016 ; Tswana : Zerbian 2016), abaissement des termes en focus (Akan : Kügler, 2016), assignation d’un accent par défaut aux constituants hors focus (Chimiini : Kisseberth, 2016), modification du phrasing (Shingazidja : Patin, 2016), entre autres.

4) Marquage prosodique des questions polaires. La litérature récente fait état d’une grande diversité de marquage prosodique des questions polaires : absence de marque prosodique, intonation montante, intonation descendante, voix soufflée, relèvement des derniers tons hauts, suspension du downdrift, suppression de l’allongement pénultième. Une attention particulière sera portée à la famille des intonations relâchées, souvent descendantes (“lax prosodies”), qui est une caractéristique de l’aire soudanique africaine (Rialland, 2009 ; Clements et Rialland, 2008).

Les recherches sur l’intonation des langues africaines en sont à leur début et elles s’avèrent déjà riches en implications théoriques (modélisation des superpositions, modélisation des anticipations dans la production de la parole, enrichissements typologiques).