Avertir le modérateur

01/02/2019

PPF,Go-Explore->PoissySmartCity-> : une nouvelle approche des problèmes difficiles à explorer..Voyez plus loin : un rai de soleil se dessine à l'horizon... Ayez confiance en l'avenir. Je vous souhaite une journée lumineuse, pour nourrir votre esprit,...

Go-Explore: une nouvelle approche des problèmes difficiles à explorer

Go-Explore ouvre de nombreuses nouvelles voies de recherche pour l’améliorer et pour intégrer ses connaissances aux algorithmes RL actuels

L’exploration intelligente est un défi majeur dans l’apprentissage par renforcement, en particulier lorsque les récompenses sont rares ou trompeuses. Deux jeux Atari servent de points de repère pour de tels domaines d'exploration difficile: Revenge et Pitfall de Montezuma. Sur les deux jeux, les algorithmes RL actuels fonctionnent mal, même ceux avec une motivation intrinsèque, qui est la méthode dominante pour améliorer les performances sur les domaines d'exploration difficile. Pour remédier à ce manque, nous introduisons un nouvel algorithme appelé Go-Explore. Il exploite les principes suivants: (1) mémoriser les états précédemment visités, (2) revenir dans un état prometteur (sans exploration), puis explorer à partir de celui-ci, et (3) résoudre des environnements simulés par tous les moyens disponibles (y compris en introduisant un déterminisme) , puis robustifier via un apprentissage par imitation. L'effet combiné de ces principes est une amélioration spectaculaire des performances sur les problèmes d'exploration difficile. Sur Montezuma's Revenge, Go-Explore marque une moyenne de plus de 43k points, soit près de 4 fois l'état de l'art précédent. Go-Explore peut également exploiter la connaissance du domaine fournie par l'homme et, lorsqu'elle est augmentée, rapporte en moyenne plus de 650 000 points à Revenge de Montezuma. Ses performances maximales de près de 18 millions dépassent le record du monde humain, répondant même à la définition la plus stricte des performances "surhumaines". Sur Pitfall, Go-Explore avec la connaissance du domaine est le premier algorithme à obtenir un score supérieur à zéro. Son score moyen de près de 60 000 points dépasse les performances humaines des experts. Parce que Go-Explore produit des démonstrations hautes performances automatiquement et à moindre coût, il est également supérieur aux travaux d’apprentissage par imitation dans lesquels l’homme fournit des démonstrations de solutions. Go-Explore ouvre de nombreuses nouvelles voies de recherche pour l’améliorer et pour intégrer ses connaissances aux algorithmes RL actuels. Cela peut également permettre de progresser sur des problèmes d’exploration difficile jusque-là insolubles dans de nombreux domaines, en particulier ceux qui exploitent un simulateur pendant la formation (par exemple, la robotique).
Commentaires: 37 pages, 14 figures
Sujets: Apprentissage automatique (cs.LG) ; Intelligence artificielle (cs.AI); Apprentissage Machine (stat.ML)
Cite comme: arXiv: 1901.10995 [cs.LG]
  (ou arXiv: 1901.10995v1 [cs.LG] pour cette version)

Historique de soumission

De: Jeff Clune [ voir email ]
[v1] mer. 30 janvier 2019 18:40:37 UTC (3,555 KB)

Voyez plus loin : un rai de soleil se dessine à l'horizon... Ayez confiance en l'avenir. Je vous souhaite une journée lumineuse, pour nourrir votre esprit, il n'est jamais trop tard pour apprendre...StefanRaducanu, Webpiculteur

Partnership,Work smarter together! What’s the secret of good SEO copywriting projects? Combining SEO & Copywriting...

Les commentaires sont fermés.

 
Toute l'info avec 20minutes.fr, l'actualité en temps réel Toute l'info avec 20minutes.fr : l'actualité en temps réel | tout le sport : analyses, résultats et matchs en direct
high-tech | arts & stars : toute l'actu people | l'actu en images | La une des lecteurs : votre blog fait l'actu