Algo

Apprentissage par renforcement.

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : Apprentissage par renforcement.

Profil supprimé

Bonjour
Voici le pseudo code donné dans Wikipedia et je comprend pas les lignes 10 11 12 et 14.

Code :

On initialise V(s) aléatoirement, qui est la valeur que l'agent attribuera à chaque état s.
On initialise la politique π à évaluer.
On répète (pour chaque épisode) :
On initialise s
On répète (à chaque pas de temps de l'épisode) :
a ← action donnée par π pour s
L'agent effectue l'action a; on observe la récompense r et l'état suivant s'
V(s) ← V(s) + α [r + γV(s') - V(s)]
s ← s'
Jusqu'à ce que s soit terminal

Source : http://fr.wikipedia.org/wiki/Appre [...] nforcement
Si vous pouviez m'aider.... Merci déjà.

Que signifie le verbe "observer", l'expression 'effectue l'action" , et puis la formule dessous, avec un alpha si je me trompe pas, et Y, qu'est-ce qui vien faire là ? ....
Enfin voilà.

Message édité par Profil supprimé le 12-12-2011 à 20:05:49

Publicité

Pc_eXPert

C'est indiqué dans l'article :
(où γ est un facteur de dévaluation compris entre 0 et 1 et permettant, selon sa valeur, de prendre en compte les récompenses plus ou moins loin dans le futur pour le choix des actions de l'agent).
Il s'agit de gamma, pas Y.

Voici mon interprétation des lignes 10 -> 14 :
a est exécuté, retourne r et fait passer à l'état intermédiaire s'
V(s), donc la valeur originellement aléatoire, se voit donné la valeur
V(s) + α [r + γV(s') - V(s)] (alpha étant le pas)
Retour à s.

Pour l'utilisation de gamma, ils en parlent dans l'article mais c'est assez succint.

Profil supprimé

Merci ! J'ai du mal quand même.

Pc_eXPert

Très honnêtement cet article de Wikipedia est trop succint pour être vraiment utile. Je suis loin d'être un spécialiste de l'apprentissage par renforcement, mais par contre le lien qu'ils donnent en bas de l'article semble bien plus complet. Après, il faut être anglophone :
http://webdocs.cs.ualberta.ca/~sut [...] -book.html

Profil supprimé

Ouais, faut speaker l'english et c'est pas my case.

rufo

Pas me confondre avec Lycos!

Regardes du côté du Qlearning, c'est grosso-modo la même chose J'avais développé en TP de Qlearning un petit jeu des allumettes pour faire apprendre (par renforcement) à l'ordinateur à jouer. En 1000 itérations, il avait vachement bien appris et il était dur à battre, le bougre Du reste, dans mon jeu, j'avais mis plusieurs IA : le PC joue au pif, le PC apprend un peu (qq itérations d'apprentissage), le PC est une brute (1000 itérations). C'était bien cette formule que j'avais utilisée.

J'avais codé ça en Delphi, je pourrais t'envoyer le source si je le retrouve (et si ça t'intéresse)...

Edit : 2 bons articles mais en anglais
http://www.nbu.bg/cogs/events/2000 [...] torial.pdf
http://people.revoledu.com/kardi/t [...] orithm.htm

Edit 2 : tiens, 2 autres en français :
http://www-desir.lip6.fr/~herpsonc [...] n_0108.pdf
http://www.grappa.univ-lille3.fr/~ [...] cement.pdf

Message édité par rufo le 15-12-2011 à 14:24:24

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta

Profil supprimé

Merci rufo pour tout ça.

FORUM HardWare.fr

Programmation

Algo

Apprentissage par renforcement.

Sujets relatifs
algo d'apprentissage à base de réseau de neurones.	bête question: programme pour faciliter l'apprentissage de python
[Apprentissage ActionScript]	apprentissage tableau html soucis
[VBA] Support d'apprentissage	[Apprentissage] Passage de Java à C#
apprentissage du bash	Apprentissage du slovène au travers d'une IHM tactile
très bon site pour apprentissage programmation ?	apprentissage CSS
Plus de sujets relatifs à : Apprentissage par renforcement.

Page générée en 0.055 secondes