Bonjour
Voici le pseudo code donné dans Wikipedia et je comprend pas les lignes 10 11 12 et 14.
Code :
- On initialise V(s) aléatoirement, qui est la valeur que l'agent attribuera à chaque état s.
- On initialise la politique π à évaluer.
- On répète (pour chaque épisode) :
- On initialise s
- On répète (à chaque pas de temps de l'épisode) :
- a ← action donnée par π pour s
- L'agent effectue l'action a; on observe la récompense r et l'état suivant s'
- V(s) ← V(s) + α [r + γV(s') - V(s)]
- s ← s'
- Jusqu'à ce que s soit terminal
|
Source : http://fr.wikipedia.org/wiki/Appre [...] nforcement
Si vous pouviez m'aider.... Merci déjà.
Que signifie le verbe "observer", l'expression 'effectue l'action" , et puis la formule dessous, avec un alpha si je me trompe pas, et Y, qu'est-ce qui vien faire là ? ....
Enfin voilà.
Message édité par Profil supprimé le 12-12-2011 à 20:05:49