EVA

EVA: Explicit Voice Attributes

projet ANR EVA “Explicit Voice Attributes »

2023-2027

 

AAPG2023 Projet de recherche collaborative – entreprise (PRCE)

Axe E.2 – Intelligence artificielle et science des données

 

Extraction des attributs de la voix et leur utilisation pour contrôler la synthèse et la conversion de la parole.

PI : Olivier LE BLOUCH (Orange)

Partenaires : IRCAM, Laboratoire Informatique d’Avignon (LIA), Avignon University, IRISA – Institut de Recherche en Informatique et Systèmes Aléatoires, Laboratoire de Phonétique et Phonologie (UMR7018), le tout coordonné par Orange et soutenu par Le Voice Lab.

Coordinateur LPP : Cédric Gendrot

Autres membres LPP : Nicolas Audibert

 

 

L’objectif du projet EVA (« Explicite Voice Attributes ») est de déchiffrer les codes des voix humaines par l’apprentissage de représentations explicites et structurées des attributs de la voix. La réalisation de cet objectif aura un fort impact scientifique et technologique, dans au moins deux domaines d’application : premièrement, dans l’analyse de la parole, il permettra de comprendre l’enchevêtrement complexe des caractéristiques d’une voix humaine ; deuxièmement, pour la génération ou la transformation de voix, il alimentera une large gamme d’applications pour créer une voix avec les attributs souhaités, permettant la conception de ce que l’on appelle une personnalité vocale. L’ensemble des attributs sera défini soit par des experts humains, soit découvert à partir des données en utilisant des réseaux neuronaux non supervisés, légèrement supervisé, ou supervisés. Il couvrira une description du timbre, de la qualité de la voix, de la phonation, des caractéristiques personnelles du locuteur tels que des prononciations spécifiques ou des troubles de la parole (par exemple zézaiement), des accents régionaux ou non natifs, et des éléments para-linguistiques tels que les émotions ou le style. Idéalement, chaque attribut pourrait être contrôlé dans la synthèse et la conversion par un degré d’intensité, ce qui permettrait de l’amplifier ou de l’effacer de la voix, dans le cadre d’une intégration structurée. Les principaux résultats industriels attendus concernent différents cas d’utilisation de la transformation de la voix. Le premier est l’anonymisation de la voix : afin de permettre des enregistrements vocaux conformes à la RGPD, les systèmes de conversion vocale pourraient être configurés pour supprimer les attributs fortement associés à l’identité d’un locuteur, tandis que les autres attributs resteraient inchangés pour préserver l’intelligibilité, le naturel et l’expressivité de la voix manipulée ; le deuxième est la création de voix : de nouvelles voix pourraient être sculptées à partir d’un ensemble d’attributs souhaités, afin d’alimenter l’industrie de la création; et le troisième est la transformation de la voix, notamment dans le contexte des la création artistique.