Robot Behavior Generation and Human Behavior Understanding in Natural Human-Robot Interaction - ENSTA Paris - École nationale supérieure de techniques avancées Paris Accéder directement au contenu
Thèse Année : 2021

Robot Behavior Generation and Human Behavior Understanding in Natural Human-Robot Interaction

Génération du Comportement du Robot et Compréhension du Comportement Humain dans L'interaction Naturelle Humain-Robot

Résumé

Having a natural interaction makes a significant difference in a successful human-robot interaction (HRI). The natural HRI refers to both human multimodal behavior understanding and robot verbal or non-verbal behavior generation. Humans can naturally communicate through spoken dialogue and non-verbal behaviors. Hence, a robot should perceive and understand human behaviors so as to be capable of producing a natural multimodal and spontaneous behavior that matches the social context. In this thesis, we explore human behavior understanding and robot behavior generation for natural HRI. This includes multimodal human emotion recognition with visual information extracted from RGB-D and thermal cameras and non-verbal multimodal robot behavior synthesis.Emotion recognition based on multimodal human behaviors during HRI can help robots understand user states and exhibit a natural social interaction. In this thesis, we explored multimodal emotion recognition with thermal facial information and 3D gait data in HRI scene when the emotion cues from thermal face and gait data are difficult to disguise. A multimodal database with thermal face images and 3D gait data was built through the HRI experiments. We tested the various unimodal emotion classifiers (i.e., CNN, HMM, Random Forest model, SVM) and one decision-based hybrid emotion classifier on the database for offline emotion recognition. We also explored an online emotion recognition system with limited capability in the real-time HRI setting. Interaction plays a critical role in skills learning for natural communication. Robots can get feedback during the interaction to improve their social abilities in HRI.To improve our online emotion recognition system, we developed an interactive robot learning (IRL) model with the human in the loop. The IRL model can apply the human verbal feedback to label or relabel the data for retraining the emotion recognition model in a long-term interaction situation. After using the interactive robot learning model, the robot could obtain a better emotion recognition accuracy in real-time HRI.The human non-verbal behaviors such as gestures and face action occur spontaneously with speech, which leads to a natural and expressive interaction. Speech-driven gesture and face action generation are vital to enable a social robot to exhibit social cues and conduct a successful HRI. This thesis proposes a new temporal GAN (Generative Adversarial Network) architecture for a one-to-many mapping from acoustic speech representation to the humanoid robot's corresponding gestures. We also developed an audio-visual database to train the speaking gesture generation model. The database includes the speech audio data extracted directly from the videos and the associated 3D human pose data extracted from 2D RGB images. The generated gestures from the trained co-speech gesture synthesizer can be applied to social robots with arms. The evaluation result shows the effectiveness of our generative model for speech-driven robot gesture generation. Moreover, we developed an effective speech-driven facial action synthesizer based on GAN, i.e., given an acoustic speech, a synchronous and realistic 3D facial action sequence is generated. A mapping between the 3D human facial actions to real robot facial actions that regulate the Zeno robot facial expression is completed. The application of co-speech non-verbal robot behaviors (gesture and face action) synthesis for the social robot can make a friendly and natural human-robot interaction.
Pouvoir afficher une interaction naturelle a un impact significatif dans la réussite d’une interaction humain-robot (HRI). Quand nous parlons d’une HRI naturelle, nous faisons référence à la fois à la compréhension du comportement multimodal humain et à la génération de comportements verbaux ou non verbaux du robot. Les humains peuvent naturellement communiquer par le biais du langage et de comportements non verbaux. Par conséquent, un robot doit percevoir et comprendre les comportements humains afin d'être capable de produire un comportement multimodal et naturel qui corresponde au contexte social. Dans cette thèse, nous explorons la compréhension du comportement humain et la génération du comportement du robot pour une HRI naturelle. Cela comprend la reconnaissance multimodale des émotions humaines avec des informations visuelles extraites des cameras RGB-D et thermiques, et la synthèse du comportement non verbal du robot.La perception des émotions humaines en tant que composante fondamentale de la communication joue un rôle important dans le succès des interactions entre un robot et un humain. La reconnaissance des émotions basée sur les comportements humains multimodaux lors d’une HRI peut aider les robots à comprendre les états des utilisateurs et à produire une interaction sociale naturelle. Dans cette thèse, nousinvestiguons la reconnaissance multimodale des émotions avec des informations thermiques du visage et des données de la marche humaine. Une base de données multimodale contenant des images thermiques du visage et des données de la marche en 3D a été créée grâce aux expériences d'HRI. Nous avons testé les différents classificateurs d'émotions unimodaux (c-à-d, CNN, HMM, forêts aléatoires, SVM) et un classificateur d'émotions hybride pour la reconnaissance des émotions hors ligne. Nous avons également exploré un système de reconnaissance des émotions en ligne avec des capacités limitées dans le cadre de l’HRI en temps réel. L'interaction joue un rôle essentiel dans l'apprentissage des compétences pour une communication naturelle. Pour améliorer notre système de reconnaissance des émotions en ligne, nous avons développé un modèle d'apprentissage robotique interactif (IRL) avec l'humain dans la boucle. Le modèle IRL peut appliquer la rétroaction verbale humaine pour étiqueter ou réétiqueter les données pour améliorer le modèle de reconnaissance des émotions dans une situation d'interaction à long terme. Après avoir utilisé le modèle d'apprentissage interactif du robot, le robot a pu obtenir une meilleure précision de reconnaissance des émotions en temps réel.Les comportements humains non verbaux tels que les gestes et les expressions faciales se produisent spontanément avec la parole, ce qui conduit à une interaction naturelle et expressive. La génération de gestes et d’expressions faciales par la parole est essentielle pour permettre à un robot social d'exposer des signaux sociaux et de mener une HRI réussie. Cette thèse propose une nouvelle architecture temporelle GAN (Generative Adversarial Network) pour une cartographie un-à-plusieurs de la représentation acoustique de la parole aux gestes correspondants du robot humanoïde. Nous avons également développé une base de données audiovisuelle pour entraîner le modèle de génération de gestes à partir de la parole. La base de données comprend les données audio extraites directement des vidéos et les données des gestes humaines. Notre synthétiseur de gestes peut être appliqué à des robots sociaux avec des bras. Le résultat de l'évaluation montre l'efficacité de notre modèle génératif pour la génération de gestes de robot à partir de la parole. De plus, nous avons développé un synthétiseur d'expression faciale efficace basé sur GAN. Etant donné un signal audio, une séquence faciale synchrone et réaliste est générée. Nous avons testé cette partie avec le robot Zeno.
Fichier principal
Vignette du fichier
97411_YU_2021_archivage.pdf (14.2 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03313805 , version 1 (04-08-2021)

Identifiants

  • HAL Id : tel-03313805 , version 1

Citer

Chuang Yu. Robot Behavior Generation and Human Behavior Understanding in Natural Human-Robot Interaction. Human-Computer Interaction [cs.HC]. Institut Polytechnique de Paris, 2021. English. ⟨NNT : 2021IPPAE009⟩. ⟨tel-03313805⟩
328 Consultations
248 Téléchargements

Partager

Gmail Facebook X LinkedIn More