Rhapsodie

Corpus de référence en français parlé

RF_ANR-07-CORP-03

5 équipes partenaires :

  • MODYCO, responsable scientifique : Anne Lacheret
  • IRCAM, responsable scientifique : Xavier Rodet
  • LATTICE, responsable scientifique : Bernard Victorri
  • ERSS, responsable scientifique : Nathalie Rossi
  • LPL, responsable scientifique : Valérie Pasdeloup

Coordinatrice principale : Anne LACHERET-DUJOUR

40 participants : Dont LPP : Kim Gerdes

  • Linguistique théorique Prosodie : Corine Astesano, Matthieu Avanzi, Roxane Bertrand, Mariapaola D’Imperio, Gaëlle Ferré, Daniel Hirst, Anna Kaglik, Valérie Pasdeloup, Lidia Philippe, Cristel Portes Syntaxe : Christophe Benzitoun, Jeanne-Marie Debaisieux, Sophie de Pontonx, Anne Dister, Julie Glikman, Piet Mertens, Nathalie Rossi-Gensane Ressources : Olivier Baude, Jacques Durand, Bernard Laks
  • Linguistique computationnelle Prosodie : Jean-Philippe Goldman, Philippe Martin, Nicolas Obin, Bernard Victorri Syntaxe : Lionel Clément, Eric de la Clergerie, Kim Gerdes, Sylvain Kahane, Renaud Marlet, Benoit Sagot Synthèse : Grégory Beller, Axel Roebel, Ressources : Philippe Blache, Sylvain Caillou, Michel Jacobson, Matthieu Quignard, Xavier Rodet, Atanas Tchobanov, Christophe Veaux

Durée du projet : 4 ans ; janvier 2008 – décembre 2011

Résumé en français :

Depuis le début des années 1980, ont été lancés des projets de grande envergure pour la constitution de corpus oraux dans les langues de grande diffusion. Conjointement, des consortiums internationaux de coordination de projets ont vu le jour (ex. Clarin ). Dans ce contexte foisonnant, les français ont pris conscience du retard accumulé dans la constitution et l’exploitation des corpus oraux. C’est sans doute la raison pour laquelle de nombreux projets visant au développement de larges corpus de français parlé ont vu le jour au cours de ces 20 dernières années. Plus récemment, des structures de mutualisation et d’échanges de ressources ont été développées à l’échelle nationale (voir la mise en place du Centre de Ressources pour la Description de l’Oral). Trois questions fondamentales sont associées à ces entreprises de récolte, d’exploitation et d’hébergement de corpus oraux : l’échantillonnage des corpus, les conventions de transcription, les types d’annotation fournis, à laquelle est associée la question des standards d’annotation, question majeure pour la. prosodie qui, pour l’essentiel, reste le parent pauvre. Peu de corpus sont annotés et quand ils le sont, la transcription repose sur des présupposés théoriques trop forts pour être mutualisables. C’est le cas de TOBI imposé de facto comme norme pour l’annotation prosodique. C’est également le cas de C-ORAL-ROM où l’annotation est étroitement dépendante de la notion d’acte de langage telle que la conçoit E. Cresti. De même, le traitement syntaxique des corpus oraux reste pauvre, se réduisant le plus souvent à la lématisation et l’étiquetage en parties du discours.

Dans ce contexte, notre projet est consacré à l’élaboration d’un corpus de référence de français parlé échantillonné en différents genres discursifs et doté d’annotations prosodiques et syntaxiques exploitables pour l’analyse du statut de la prosodie dans le discours, de ses relations avec la syntaxe.et la structure informationnelle.

Résumé en anglais :

Since the beginning of the 1980s, a number of large-scale projects aiming to set up oral corpora for widely-spoken languages have been launched. At the same time, certain international consortia for project coordination were set up (for example : Clarin ). In this vibrant context, the French authorities have become aware of the fact that there has been a falling behind in the setting up and exploitation of oral corpora. This is no doubt the reason why a large number of projects aimed at elaborating large corpora of spoken French were initiated over the last 20 years. More recently, various systems for sharing of resources and exchange were put in place at national level (see the Resource Centre for the Description of the Spoken Language (CRDO)). Three basic questions arise from these efforts to collect, exploit and store oral corpora : their subdivision into representative discourse genres, the transcription conventions adopted, the types of annotation made available (with the associated issue of standards of annotation – a major issue in connection with prosody, which taken overall remains the poor relation). Relatively few corpora have been annotated, and where they have been, their transcription is founded upon theoretical assumptions which are too powerful to be shared. This is the case with the TOBI system which is de facto imposed as the norm in the annotation of prosody. It is also the case with C-ORAL-ROM, where the annotation is closely bound up with the notion of speech act, as conceived by E. Cresti. In addition, the syntactic treatment of oral corpora remains insufficient, often boiling down to the lemmatisation and labelling of parts of speech. In this context, our project aims to constitute a reference corpus of spoken French subdivided into different representative discourse genres equipped with prosodic and syntactic annotations that may be used in the analysis of the status of prosody in discourse as well as of its relations with syntax and information structure. The term « reference corpus » is justified here in several important respects :
- Through the subdivision into representative discourse genres, which is based on a thorough study of these types.
- Through current research which is developing that of the past : we are building on the results of the work on macro-syntax of the last 20 years, as well as on those of the research on the prototypical structures of spoken French yielded by the reference corpora C-ORAL ROM and DELIC. Our added value consists in enriching our knowledge of the intonational profiling of these structures which have been well documented by this earlier research, but whose detailed prosodic analysis still remains to be done.
- Through an annotational strategy which is not placed within a narrow phonological framework, which makes it possible to envisage different interpretative approaches developed within a variety of theoretical frameworks, around complementary research axes, and which will enrich the existing grammars of spoken French.
- Through the programming of labelling and semi-automatic robust segmentation algorithms which are easily usable, freely distributed and hence shared usage, thus capable of being stored by the Aix annexe of the Resource Centre for the Description of the Spoken Language (CRDO).
- « Reference » also, since the corpus will have been set up on the basis of minimal charters in order to be freely distributable. As far as the sound quality of the recordings is concerned, we refer to PFC protocol. Regarding the deontological and legal dimension (request for authorisation and enlightened consent, anonymisation), the coding and cataloguing of the metadata concerning the sociological identification of the speakers, and the genres represented, etc.), we follow the recommendations stipulated in the DGLFL good practice guide.
- « Reference », finally, since the project will be the subject of an in-depth discussion on the standards for the annotation and formatting of the resources (TEI, XML), whence, once again, the potential for storage in the CRDO (Paris annexe, under the direction of M. Jacobson) which makes for international visibility.

Voir en ligne : http://projet-rhapsodie.fr/