Traitement Automatique de la Langue et Linguistique de Corpus – Laboratoire de Phonétique et Phonologie

La plupart des études actuelles sur de grands corpus tente de vérifier des hypothèses existantes, conçues dans un système théorique. Dans la nouvelle thématique, notre but est d’élargir la méthodologie statistique habituelle afin d’inclure le pouvoir exploratif, prédictif et même explicatif de l’approche statistique.

Nous aspirons ainsi à découvrir des corrélations encore inconnues entre prosodie (phonologie segmentale) d’une part et syntaxe/structure communicative d’autre part. Des corpus oraux arborés dans des langues variées (partiellement développés par des membres du LPP en français, cantonais, naija et d’autres langues africaines, souvent peu décrites) sont maintenant d’une taille suffisante pour faire resurgir des phénomènes corrélatifs intéressants. Ceux-ci doivent être analysés et ensuite inclus dans de nouvelles formes de modélisation quantificatives guidées par les données, aboutant ainsi à une description empirique de la parole, de la performance.

Par exemple, le travail en cours sur la réduction de phonèmes sera poursuivi en incluant des langues typologiquement différentes comme des langues à tons. Nous envisageons de déterminer automatiquement, sans modèle préalable, des corrélations entre position dans un groupe prosodique et différents types de réduction phonétique, ce qui constituera un pas dans le développement d’une méthodologie de découverte des régularités sur corpus bruts ou bien annotés en prosodie et syntaxe.

Auparavant, les travaux sur grands corpus tendaient à laisser de côté les stratégies individuelles pour se concentrer sur les tendances majoritaires. Maintenant que ces tendances sont mieux connues, nous pouvons cibler l’analyse des stratégies individuelles et ainsi mieux comprendre les résultats de l’apprentissage automatique dans le cadre de la reconnaissance du locuteur notamment. Ce travail se fera dans le cadre du nouveau projet ANR VoxCrim (2018-2021) avec Cécile Fougeron, Cédric Gendrot et Nicolas Audibert.

Pour y arriver, nous devons aussi poursuivre le développement d’outils de transformation d’annotation, de requête multi-couches (prenant en compte les métadonnées), de calcul statistique et même d’annotation manuelle même (par spécialiste et myriadisé), afin de faire grandir nos corpus et d’adapter facilement les annotations existantes à nos besoins d’analyse (travaux réalisés par Kim Gerdes notamment).Le développement en cours d’un corpus oral de code-switching français-arabe montre l’étendue du défi informatique : les outils habituels d’analyse et d’annotation (par exemple Kaldi pour la reconnaissance et des parseurs statistiques pour l’annotation) ne peuvent être appliqués qu’après la reconnaissance automatique de la langue, ce qui implique le développement d’un processus de bootstrapping, avec une intervention humaine régulière dans le processus d’annotation.

A lire aussi «Les Thématiques de Recherche»

Acquisition et multilinguisme Cette thématique traite de la phonétique et de la phonologie en lien avec l’acquisition des langues chez l’enfant (L1, L2) et l’adulte (L2), notamment grâce à l’intégration de Naomi Yamaguchi depuis 2014, spécialiste de l’acquisition chez l’enfant. Les travaux sur la L2 portent prioritairement sur le français (FLE) et l’anglais (ALE), mais d’autres langues seront examinées (arabe standard, allemand…) Langues du monde: Description et Modélisation Le projet scientifique de cette nouvelle thématique « Langue du monde : description et modélisation » hérite en grande partie des recherches menées au sein des thématiques 1 & 3 respectivement « Typologie : phonétique et phonologie » et « Traitements et unités de représentation » du quinquennat en cours. Les fondements expérimentaux de la phonétique Cette nouvelle thématique reprend l’un des plus anciens thèmes du laboratoire et se consacrera au développement de méthodes et d’outils en phonétique expérimentale qui traite de la dimension biologique (anatomie, physiologie), physique (acoustique), psychologique et sociale des systèmes sonores des langues ou des sons de langues particulières.

A lire aussi «Les Thématiques de Recherche»

Information relative aux conditions de la RGPD concernant les cookies