Thèse Démêler les Représentations Prosodiques dans les Systèmes de Traitement de la Parole H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Le Mans Université École doctorale : École doctorale Mathématiques et Sciences et Technologies du numérique, de l'Information et de la Communication Laboratoire de recherche : LABORATOIRE D'INFORMATIQUE DE L'UNIVERSITE DU MANS (LIUM) Direction de la thèse : Marie TAHON ORCID 0000-0002-6782-0332 Date limite de candidature : 2026-05-10T00:00:00
Dans le traitement de la parole, les systèmes sont souvent performants pour les informations qui relèvent du contenu, comme le bon choix des mots et expressions, et l'organisation de la phrase. Il semblerait que les informations prosodiques commencent à se frayer un chemin dans les systèmes mais cette intégration pourrait encore bénéficier d'améliorations.
En phonétique, la prosodie comprend plusieurs facteurs comme la modulation de la fréquence fondamentale (f0), le rythme et l'intensité (Godde et al., 2019). Par ailleurs, les chercheurs des Sciences du langage s'accordent sur le fait que l'annotation de la prosodie peut concerner des niveaux différents : montées et descentes mélodiques, annotations du type de syllabe, annotations rythmiques comme le pied (Hirst, 2022, Wottawa et Adda-Decker, 2025).
Dans les systèmes de traitement de la parole actuels (en particulier pour la conversion de voix et la synthèse - TTS, ASR), la prosodie est généralement associée à un contour de f0, à l'énergie et, parfois, à la durée des segments phonétiques (Ming et al., 2016; Tahon et al., 2017 ; Wepner et al., 2022), ou à une représentation latente (implicite) apprise à partir de corpus d'émotion (Global Style Token, Wang et al., 2018; Lenglet et al., 2023). Une hiérarchisation de ces informations ne semble pas (encore) être une préoccupation.
Un autre problème s'ajoute à ce manque de hiérarchisation : dans les travaux qui intègrent la prosodie de manière implicite pour le traitement de la parole, les informations prosodiques apprises sont ajoutées à celles obtenues à partir du texte seul (pause, 1/2 pause, allongement, en lien avec les aspects linguistiques et sémantiques), mais également aux représentations issues des signaux audio apprises sur des données spécifiques (style journalistique, émotions). Par exemple dans Global Style Token (système de TTS), la prosodie va être encodée à la fois dans l'encodeur de texte et dans le "style embedding". Ces deux représentations sont redondantes ou largement corrélées. Il se pose alors la question de déterminer si un modèle avec une seule entrée pour les représentations prosodiques obtient des performances similaires que celui qui dédouble l'information.
Financement et localisation : La thèse se déroulera au Mans dans les locaux du LIUM.
Le ou la doctorant·e aura accès à un bureau dans les locaux du LIUM, ainsi qu'aux équipements nécessaires à son travail (ordinateur, écran). Le laboratoire s'engage à lui fournir les moyens nécessaires sur fonds propres (financiers et matériels) pour lui permettre de publier ses travaux dans les conférences et journaux majeurs du domaine.
Le LIUM dispose d'un serveur de calcul permettant l'apprentissage de modèles d'IA. Une équipe technique est disponible pour accompagner l'étudiant·e dans la prise en main de ce service. L'étudiant·e disposera également d'un accès aux infrastructures de calcul nationale (Jean Zay) et régionale (GLiCID) pour l'apprentissage et l'évaluation des modèles d'apprentissage automatique.
Programme de travail :
1) État de l'art:
Déterminer les systèmes du traitement de la parole qui seront utilisés dans la thèse en fonction de l'expérience du ou de la candidate et des critères suivants : être facilement manipulables et modifiables par des interventions sur les espaces latents du modèle. Relever les définitions de la prosodie dans différentes disciplines et travailler sur leurs représentations dans le signal de la parole. Retenir les définitions pertinentes pour le travail avec les systèmes automatiques tout en hiérarchisant les informations.
2) Démêler l'encodage (Hu, 2022 ; Babianski, 2023 ; Qu et al., 2023) : Dans quelle mesure les représentations apprises à partir du texte rendent compte de la réalité du signal (compréhension, génération) ?
a) Analyse des représentations pré-entraînées sur différents types de données menant à une analyse contrastive
b) Analyses phonétiques du signal d'entrée ou du signal généré
c) A partir de ces connaissances : définition de la prosodie d'un point de vue numérique
3) Interprétation des représentations et apprentissage de représentations démêlées par l'information prosodique.
4) Ouverture sur le contrôle prosodique dans les systèmes avec la synthèse de parole ou la reconnaissance de la parole annotant et analysant la proéminence prosodique. Par ailleurs, les applications dans le domaine des accents régionaux (sarthois), l'apprentissage des langues étrangères ou en orthophonie peuvent être explorées.