Exploration of reinforcement learning algorithms for autonomous vehicle visual perception and control - ENSTA Paris - École nationale supérieure de techniques avancées Paris Accéder directement au contenu
Thèse Année : 2021

Exploration of reinforcement learning algorithms for autonomous vehicle visual perception and control

Exploration des algorithmes d'apprentissage par renforcement pour la perception et le controle d'un véhicule autonome par vision

Résumé

Reinforcement learning is an approach to solve a sequential decision making problem. In this formalism, an autonomous agent interacts with an environment and receives rewards based on the decisions it makes. The goal of the agent is to maximize the total amount of rewards it receives. In the reinforcement learning paradigm, the agent learns by trial and error the policy (sequence of actions) that yields the best rewards.In this thesis, we focus on its application to the perception and control of an autonomous vehicle. To stay close to human driving, only the onboard camera is used as input sensor. We focus in particular on end-to-end training, i.e. a direct mapping between information from the environment and the action chosen by the agent. However, training end-to-end reinforcement learning for autonomous driving poses some challenges: the large dimensions of the state and action spaces as well as the instability and weakness of the reinforcement learning signal to train deep neural networks.The approaches we implemented are based on the use of semantic information (image segmentation). In particular, this work explores the joint training of semantic information and navigation.We show that these methods are promising and allow to overcome some limitations. On the one hand, combining segmentation supervised learning with navigation reinforcement learning improves the performance of the agent and its ability to generalize to an unknown environment. On the other hand, it enables to train an agent that will be more robust to unexpected events and able to make decisions limiting the risks.Experiments are conducted in simulation, and numerous comparisons with state of the art methods are made.
L'apprentissage par renforcement est une approche permettant de résoudre un problème de prise de décision séquentielle. Dans ce formalisme, un agent autonome interagit avec un environnement et reçoit des récompenses en fonction des décisions qu'il prend. L'objectif de l'agent est de maximiser le montant total des récompenses qu'il obtient. Dans le paradigme de l'apprentissage par renforcement, l'agent apprend par essais-erreurs la politique (séquence d'actions) qui donne les meilleures récompenses.Dans cette thèse, nous nous concentrons sur son application à la perception et au contrôle d'un véhicule autonome. Pour rester proche des conditions d'un conducteur humain, seule la caméra embarquée est utilisée comme capteur d'entrée. Nous nous focalisons en particulier sur l'apprentissage de bout-en-bout de la conduite, c'est-à-dire une correspondance directe entre les informations provenant de l'environnement et l'action choisie par l'agent. Ce type d'apprentissage pose cependant certains défis : les grandes dimensions des espaces d'états et d'actions ainsi que l'instabilité et la faiblesse du signal de l'apprentissage par renforcement pour entraîner des réseaux de neurones profonds.Les approches que nous avons mises en oeuvre pour faire face à ces défis reposent sur l'utilisation de l'information sémantique (segmentation d'images). En particulier, nous explorons l'apprentissage conjoint de l'information sémantique et de la navigation.Nous montrons que ces méthodes sont prometteuses et permettent de lever certains verrous. D'une part combiner l'apprentissage supervisé de la segmentation à l'apprentissage par renforcement de la navigation améliore les performances de l'agent, ainsi que sa capacité à généraliser à un environnement inconnu. D'autre part, cela permet d'entraîner un agent qui sera plus robuste aux évènements inattendus et capable de prendre des décisions en limitant les risques.Les expériences sont menées en simulation, et de nombreuses comparaisons avec les méthodes de l'état de l'art sont effectuées.
Fichier principal
Vignette du fichier
98901_CARTON_2021_archivage.pdf (29.87 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03273748 , version 1 (29-06-2021)

Identifiants

  • HAL Id : tel-03273748 , version 1

Citer

Florence Carton. Exploration of reinforcement learning algorithms for autonomous vehicle visual perception and control. Machine Learning [cs.LG]. Institut Polytechnique de Paris, 2021. English. ⟨NNT : 2021IPPAE007⟩. ⟨tel-03273748⟩
470 Consultations
287 Téléchargements

Partager

Gmail Facebook X LinkedIn More