Devant le jury composé de :
-
Damien LOLIVE HDR Université de Rennes 1, Rapporteur
-
Ioana VASILESCU HDR, CNRS – LISN Université Paris-Saclay, Rapporteuse
-
Jean-François BONASTRE PR, CNRS – LIA – Université d’Avignon, Examinateur
-
Cécile FOUGERON DR, CNRS – LPP – Université Sorbonne Nouvelle, Examinatrice
-
Christine MEUNIER DR, CNRS – LPL – Université Aix-Marseille, Examinatrice
-
Cédric GENDROT HDR, CNRS – LPP – Université Sorbonne Nouvelle, Directeur de thèse.
Résumé
La décomposition du signal vocal en unités phonétiquement significatives permet d’analyser les variations inter- et intra- locuteur. Ces unités sont des composantes associées à des caractéristiques dont la nature est liée aux aspects physiques, psychologiques et sociaux d’un locuteur. Dans cette thèse, nous comparons une caractérisation perceptive, une analyse phonétique et des techniques de modélisation avancées par des réseaux de neurones à convolution (CNN).
L’analyse des clusterings montre que les résultats perceptifs sont cohérents avec ceux obtenus par les approches CNN et phonétique, ce qui soutient leurs applications en phonétique. Nos résultats mettent en évidence que les spectrogrammes sont la représentation de la parole la plus précise pour l’identification des locuteurs ( % de bonnes réponses en moyenne). Les formants et des harmoniques plus élevés sont plus importants dans la caractérisation des voix féminines. En revanche, les caractéristiques de la qualité de la voix, telles que le soue et la raucité, jouent un rôle majeur dans la caractérisation des voix masculines. Le lien entre les coecients cepstraux à fréquence Mel (MFCC) et les mesures phonétiques classiques est également examiné. Les MFCC sont principalement liés à l’intensité et à f dans la caractérisation des voix féminines, tandis qu’aux distributions d’énergie et à la forme spectrale de bas niveau pour celle des voix masculines.
Nos résultats confirment l’importance de la description de la variation intra-locuteur pour une compréhension plus complète des différences entre locuteurs.