Multimodal Speech: from articulatory speech to audiovisual speech

La communication parlée est par essence multimodale. Le signal acoustique véhicule la modalité auditive, et l'image la modalité visuelle et gestuelle (déformations du visage). Le signal de parole est en effet la conséquence des déformations du conduit vocal sous l'effet du mouvement de la mâchoire, des lèvres, de la langue, etc.. pour moduler le signal d'excitation produit par les cordes vocales ou les turbulences aérodynamiques. Ces déformations sont visibles au niveau du visage (lèvres, joues, mâchoire) grâce à la coordination des différents muscles orofaciaux et de la déformation de la peau induite par ces derniers. La modalité visuelle permet de fournir des informations complémentaires au signal acoustique, et elle devient indispensable dans le cas où le signal acoustique est dégradé, comme c'est le cas chez les malentendants, ou en milieu bruité. D'autres modalités peuvent être liées à la parole, comme les mouvements des sourcils et les différents gestes qui expriment l'émotion. Cette dernière modalité suprasegmentale peut, comme la modalité visuelle, compléter le message acoustique ou acoustique-visuel. Cet exposé présentera les travaux que je mène sur la parole multimodale. Ce caractère multimodal de la communication parlée est traité de deux façons différentes : (1) étudier les deux composantes articulatoire et acoustique de la parole. En effet, je m'intéresse à la caractérisation articulatoire des sons et à l'étude du lien entre l'espace articulatoire et l'espace acoustique. En particulier, je m'intéresse à la récupération de l'évolution temporelle du conduit vocal à partir du signal acoustique (aussi appelée inversion acoustique-articulatoire) et à l'étude de la caractérisation articulatoire de la parole par l'analyse de corpus de données articulatoires. (2) étudier les deux composantes acoustique et visuelle. Dans ce cadre, je m'intéresse à l'effet de la déformation du conduit vocal sur l'apparence du visage qui véhicule le message visuel. La synthèse acoustique-visuelle est un cadre qui permet d'étudier cet aspect. De plus, l'étude de l'intelligibilité audiovisuelle permet de mieux comprendre les mécanismes de la communication audiovisuelle, mais également d'évaluer le système de synthèse acoustique-visuelle. Enfin, je présenterai mon programme de recherche qui porte sur la parole multimodale expressive que je propose d'étudier globalement, c.-à-d. en considérant les composantes articulaire, acoustique et visuelle ainsi que l'expressivité intrinsèque de celles-ci, simultanément. Je propose en particulier d'aborder la modélisation de la dynamique articulatoire et faciale de la parole pour produire de la parole combinée avec les expressions faciales.

Data and Resources

Additional Info

Field Value
Source https://theses.hal.science/tel-00927119
Author Ouni, Slim
Maintainer CCSD
Last Updated May 7, 2026, 13:23 (UTC)
Created May 7, 2026, 13:23 (UTC)
Identifier tel-00927119
Language en
Rights https://about.hal.science/hal-authorisation-v1/
contributor Analysis, perception and recognition of speech (PAROLE) ; Centre Inria de l'Université de Lorraine ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD) ; Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA) ; Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA) ; Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-CentraleSupélec-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
creator Ouni, Slim
date 2013-11-29T00:00:00
harvest_object_id c25f5bea-16c2-41d3-bfd0-38108a4d1ef1
harvest_source_id 3374d638-d20b-4672-ba96-a23232d55657
harvest_source_title test moissonnage SELUNE
metadata_modified 2025-11-04T00:00:00
set_spec type:HDR