Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct - ENSTA Paris - École nationale supérieure de techniques avancées Paris Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

Résumé

La résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt récent en apprentissage par renforcement. L'algorithme PI^2 est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article, nous considérons PI^2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons PI^2 à d'autres membres de la même famille - la " méthode d'entropie croisée " et CMA-ES - au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d'un nouvel algorithme que nous appelons PI^2 -CMA pour " Path Integral Policy Improvement with Covariance Matrix Adaptation ". Le principal avantage de PI^2 -CMA est qu'il détermine l'amplitude du bruit d'exploration automatiquement.
Fichier principal
Vignette du fichier
1.pdf (851.68 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00736310 , version 1 (28-09-2012)

Identifiants

  • HAL Id : hal-00736310 , version 1

Citer

Freek Stulp, Olivier Sigaud. Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 12 p. ⟨hal-00736310⟩
149 Consultations
240 Téléchargements

Partager

Gmail Facebook X LinkedIn More