From treebanks to partial syntactic structure induction
La soutenance aura lieu le mercredi 31 janvier à 13h30 à l’adresse suivante :
Sorbonne Nouvelle, Campus Nation
Salle A608
8, avenue de Saint-Mandé – 75012 Paris
Devant le jury composé de :
-
Marie CANDITO, maîtresse de conférences HDR à l’Université Paris Cité, rapporteuse
-
Ramon FERRER-I-CANCHO, professeur à l’Universitat Politècnica de Catalunya, Barcelone, rapporteur
-
Delphine BERNHARD, maîtresse de conférences à l’Université de Strasbourg, examinatrice
-
Sylvain KAHANE, professeur à l’Université Paris Nanterre et membre senior de l’IUF, président du jury
-
Martine ADDA-DECKER, directrice de recherche au CNRS, directrice de la thèse
-
Kim GERDES, professeur à l’Université Paris-Saclay, co-directeur de la thèse
Résumé :
Nos travaux se situent dans le monde complexe des « treebanks », ces grandes bases de données constituées de textes associées à des annotations détaillant leur structure syntaxique. Les treebanks sont très utiles dans de nombreux domaines, allant de la linguistique à la modélisation mathématique et à l’innovation par des outils de traitement automatique de la langue (TAL) capables de mettre en lumière la sémantique des textes. Après une introduction portant sur le rôle des treebanks dans des domaines variés, nous plongeons dans l’histoire de la création des treebanks, qui a évolué d’une pratique d’annotation manuelle de textes vers les treebanks modernes avec l’avènement des technologiques relatives au stockage et calculs pour le traitement de la langue. Le chapitre 3 montre les méthodes de création de ces treebanks. Le chapitre 4 discute des problématiques liées à la constitution des guides d’annotation, documents techniques décrivant les principes et
conventions utiles à l’annotation, et mets en évidences certaines de ces problématiques au travers de deux études de cas, la première portant sur traitement des expressions multi-mots, la seconde portant sur la constitution d’un treebank dans une langue peu pourvue en ressources. Ici, le projet ANR NaijaSynCor se concentre sur le pidgin-créole Naija parlé au Nigeria,
montrant comment une langue peut être analysée et documentée en utilisant des méthodes modernes. Le chapitre 5 présente l’outil Arborator-Grew, conçu pour faciliter l’annotation collaborative des treebanks. Cet outil permet aux chercheurs et aux étudiants de travailler ensemble en partageant leurs analyses des textes et facilite l’amélioration itérative des annotations. Le chapitre 6 étudie comment des lois linguistiques fondamentales comme la loi de Menzerath-Altmann et le Heavy Constituent Shift interagissent. Il propose également plusieurs procédures pour générer des arbres artificiels, permettant de contraster leurs propriété avec celles des arbres syntaxiques. Enfin, le chapitre 7 vise à utiliser des techniques statistiques pour découvrir la structure cachée des phrases dans un texte. Cette méthode a le potentiel de nous amener à mieux comprendre la structuration des langues sans avoir besoin de s’appuyer sur des textes déjà analysés. En résumé, ce travail montre l’importance des treebanks dans notre compréhension des langues, et leur rôle important dans le développement des technologies linguistiques. Il souligne aussi l’innovation continue dans ce domaine, ouvrant de nouvelles voies pour l’étude et l’analyse des langues.
Voir les sections parentes
HDR d'Angélique Amelot
11 December 2025
par Roland Trouville
Les RJCP 2025 : 30 ans après, retour aux sources à Paris
03 December 2025
par Roland Trouville
Une double victoire pour Xuejing Chen au concours « Ma Thèse en 180 secondes » – Édition Chine 2025
27 November 2025
par Roland Trouville


