Traitement Automatique de la Langue et Linguistique de Corpus

La plupart des études actuelles sur de grands corpus tente de vérifier des hypothèses existantes, conçues dans un système théorique. Dans la nouvelle thématique, notre but est d’élargir la méthodologie statistique habituelle afin d’inclure le pouvoir exploratif, prédictif et même explicatif de l’approche statistique.

Nous aspirons ainsi à découvrir des corrélations encore inconnues entre prosodie (phonologie segmentale) d’une part et syntaxe/structure communicative d’autre part. Des corpus oraux arborés dans des langues variées (partiellement développés par des membres du LPP en français, cantonais, naija et d’autres langues africaines, souvent peu décrites) sont maintenant d’une taille suffisante pour faire resurgir des phénomènes corrélatifs intéressants. Ceux-ci doivent être analysés et ensuite inclus dans de nouvelles formes de modélisation quantificatives guidées par les données, aboutant ainsi à une description empirique de la parole, de la performance.

Par exemple, le travail en cours sur la réduction de phonèmes sera poursuivi en incluant des langues typologiquement différentes comme des langues à tons. Nous envisageons de déterminer automatiquement, sans modèle préalable, des corrélations entre position dans un groupe prosodique et différents types de réduction phonétique, ce qui constituera un pas dans le développement d’une méthodologie de découverte des régularités sur corpus bruts ou bien annotés en prosodie et syntaxe.

Auparavant, les travaux sur grands corpus tendaient à laisser de côté les stratégies individuelles pour se concentrer sur les tendances majoritaires. Maintenant que ces tendances sont mieux connues, nous pouvons cibler l’analyse des stratégies individuelles et ainsi mieux comprendre les résultats de l’apprentissage automatique dans le cadre de la reconnaissance du locuteur notamment. Ce travail se fera dans le cadre du nouveau projet ANR VoxCrim (2018-2021) avec Cécile Fougeron, Cédric Gendrot et Nicolas Audibert.

Pour y arriver, nous devons aussi poursuivre le développement d’outils de transformation d’annotation, de requête multi-couches (prenant en compte les métadonnées), de calcul statistique et même d’annotation manuelle même (par spécialiste et myriadisé), afin de faire grandir nos corpus et d’adapter facilement les annotations existantes à nos besoins d’analyse (travaux réalisés par Kim Gerdes notamment).Le développement en cours d’un corpus oral de code-switching français-arabe montre l’étendue du défi informatique : les outils habituels d’analyse et d’annotation (par exemple Kaldi pour la reconnaissance et des parseurs statistiques pour l’annotation) ne peuvent être appliqués qu’après la reconnaissance automatique de la langue, ce qui implique le développement d’un processus de bootstrapping, avec une intervention humaine régulière dans le processus d’annotation.