ETAPE

Evaluations en Traitement Automatique de la Parole

ANR ANR-09-CORD-009-05

Projet financé dans le cadre du programme ANR CONTINT édition 2009

6 équipes partenaires :

  • Laboratoire de Phonétique et Phonologie, Paris (UMR 7018) ; resp. C. Gendrot
  • Laboratoire de Linguistique Formelle (LLF UMR 7110) ; resp. A. Abeillé
  • Association Francophone de la Communication Parlée (AFCP-Association) ; resp. G. Gravier
  • Evaluations and Language resources Distribution Agency (ELDA) ; resp. K. Choukri
  • Délégation Générale pour l’Armement (DGA/CEP) ; resp. S. Galliano
  • Laboratoire National de Métrologie et d’Essais (LNE) ; resp. L. Quintard

Coordinateur principal : Guillaume GRAVIER (AFCP)
Coordinateur pour le LPP : Cédric GENDROT

16 participants (par ordre alphabétique) :

  • AFCP : Gilles Adda, Guillaume Gravier
  • ELDA : Sylvain Galliano, Edouard Geoffrois
  • DGA/CEP : Khalid Choukri, Nicolas Moreau
  • LLF : Anne Abeillé, Marie Candito, Benoit Crabbé, Elisabeth Delais Roussarie
  • LNE : Olivier Galibert, Jacques Perdereau, Ludovic Quintard
  • LPP : Cécile Fougeron, Cédric Gendrot, Jacqueline Vaissière

Durée du projet : 3 ans (début 01/01/2010)

Résumé en français :

Le projet ETAPE a pour objectif premier la mise en œuvre d’une campagne d’évaluation des technologies vocale pour la transcription automatique de la parole spontanée dans les flux télévisés. Si, comme l’ont montré les précédentes campagnes d’évaluation organisées en France, les technologies de la parole ont atteint une certaine maturité pour des contenus contrôlés, il n’est à l’heure actuelle pas possible d’évaluer de manière objective les performances de ces technologies sur des données représentatives des contenus télévisés. En particulier, la parole spontanée, parfois superposée, dans des fonds sonores variés (studio, intérieur, extérieur) est très fortement présente dans ces contenus et pose problème aux technologies actuelles. Le projet ETAPE s’inscrit pour une part dans la continuité des campagnes ESTER – en ce qu’elles ont stimulé les équipes de recherche et permis des progrès considérables dans le domaines des technologies du traitement de la parole (transcription automatique, structuration par le locuteur ou encore détection des entités nommées) grâce notamment à la mise disposition et la diffusion de corpus annotés et enrichis – tout en définissant de nouveaux enjeux comme la parole spontanée, la diversité des contenus ou encore le traitement des zones de parole superposée. Outre une mesure objective des performances des technologies vocales sur des contenus réalistes et proches d’applications sensibles, le projet affiche l’objectif de mettre à la disposition de la communauté scientifique un corpus de parole spontanée annoté et enrichie par des alignements phonétiques et des arbres syntaxiques. Les enjeux du projet sont de faire progresser les technologies du traitement automatique de la parole par le biais de la production de ressources, de la définition de nouveaux problèmes, de l’évaluation et de la structuration de la communauté scientifique. Un enjeu important est également de faire émerger de nouveaux axes de recherche. L’implication de plusieurs communautés scientifiques, notamment du domaine des sciences humaines et sociales, l’enrichissement des annotations par des alignements phonétiques et des annotations syntaxiques et l’évaluation de tâches à la frontière entre traitement de la parole et traitement des langues sont autant de facteurs favorisant l’émergence d’axes de recherche transverses. Au-delà des enjeux scientifiques immédiats, le projet vise à favoriser et à promouvoir l’utilisation des technologies de la parole, pour la langue française, dans des applications de structuration et d’accès aux contenus numériques.

Résumé en anglais :

The ETAPE project primarily aims at implementing an evaluation campaign of speech technologies for spontaneous speech in TV streams. If, as demonstrated by previous evaluation campaigns in France, speech technology has reached a degree of maturity in controlled environments, objectively measuring performances on documents representative of actual TV contents is currently not possible. In particular, spontaneous speech, sometimes with overlapping speech, with various background noises (studio, indoor, outdoor) accounts for most of these real-life contents. The project ETAPE is a continuity of the ESTER campaigns – in terms of impacts on research and technology – with the definition of new challenges such as spontaneous speech, diversity of the contents or overlapping speech. In addition to the objective measure of speech technology performances on real-life contents, the project aims at making available to the community a spontaneous speech corpus enriched with phonetic and syntactic annotations. The project aims at generating progresses in automatic speech processing via the production of crucial resources, the definition of new problems and the structuring of the community. Another target is to foster new research directions due to the presence of various disciplines, the rich annotation with phonetic and syntactic information and the evaluation of tasks at the frontier between speech recognition and natural language processing. On top of these scientific goals, the project aims at promoting the use of speech technologies for the French language in e-contents.