Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
6514 connectés 

  FORUM HardWare.fr
  Programmation
  Algo

  Apprentissage par renforcement.

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Apprentissage par renforcement.

n°2116341
Profil sup​primé
Posté le 12-12-2011 à 20:01:56  answer
 

Bonjour
Voici le pseudo code donné dans Wikipedia et je comprend pas les lignes 10 11 12 et 14.  

Code :
  1. On initialise V(s) aléatoirement, qui est la valeur que l'agent attribuera à chaque état s.
  2.     On initialise la politique π à évaluer.
  3.     On répète (pour chaque épisode) :
  4.         On initialise s
  5.         On répète (à chaque pas de temps de l'épisode) :
  6.             a ← action donnée par π pour s
  7.             L'agent effectue l'action a; on observe la récompense r et l'état suivant s'
  8.             V(s) ← V(s) + α [r + γV(s') - V(s)]
  9.             s ← s'
  10.         Jusqu'à ce que s soit terminal


Source : http://fr.wikipedia.org/wiki/Appre [...] nforcement
Si vous pouviez m'aider.... Merci déjà.
 
Que signifie le verbe "observer", l'expression 'effectue l'action" , et puis la formule dessous, avec un alpha si je me trompe pas, et Y, qu'est-ce qui vien faire  là ? ....  
Enfin voilà.


Message édité par Profil supprimé le 12-12-2011 à 20:05:49
mood
Publicité
Posté le 12-12-2011 à 20:01:56  profilanswer
 

n°2116351
Pc_eXPert
Posté le 12-12-2011 à 20:51:32  profilanswer
 

C'est indiqué dans l'article :
(où γ est un facteur de dévaluation compris entre 0 et 1 et permettant, selon sa valeur, de prendre en compte les récompenses plus ou moins loin dans le futur pour le choix des actions de l'agent).
Il s'agit de gamma, pas Y.
 
Voici mon interprétation des lignes 10 -> 14 :
a est exécuté, retourne r et fait passer à l'état intermédiaire s'
V(s), donc la valeur originellement aléatoire, se voit donné la valeur  
V(s) + α [r + γV(s') - V(s)] (alpha étant le pas)
Retour à s.
 
Pour l'utilisation de gamma, ils en parlent dans l'article mais c'est assez succint.

n°2116382
Profil sup​primé
Posté le 13-12-2011 à 01:50:30  answer
 

Merci ! J'ai du mal quand même.

n°2116383
Pc_eXPert
Posté le 13-12-2011 à 02:00:12  profilanswer
 

Très honnêtement cet article de Wikipedia est trop succint pour être vraiment utile. Je suis loin d'être un spécialiste de l'apprentissage par renforcement, mais par contre le lien qu'ils donnent en bas de l'article semble bien plus complet. Après, il faut être anglophone :
http://webdocs.cs.ualberta.ca/~sut [...] -book.html

n°2116384
Profil sup​primé
Posté le 13-12-2011 à 03:01:46  answer
 

Ouais, faut speaker l'english et c'est pas my case. :/

n°2116783
rufo
Pas me confondre avec Lycos!
Posté le 15-12-2011 à 14:16:36  profilanswer
 

Regardes du côté du Qlearning, c'est grosso-modo la même chose ;) J'avais développé en TP de Qlearning un petit jeu des allumettes pour faire apprendre (par renforcement) à l'ordinateur à jouer. En 1000 itérations, il avait vachement bien appris et il était dur à battre, le bougre :D Du reste, dans mon jeu, j'avais mis plusieurs IA : le PC joue au pif, le PC apprend un peu (qq itérations d'apprentissage), le PC est une brute (1000 itérations). C'était bien cette formule que j'avais utilisée. ;)
 
J'avais codé ça en Delphi, je pourrais t'envoyer le source si je le retrouve (et si ça t'intéresse)...
 
Edit : 2 bons articles mais en anglais :/
http://www.nbu.bg/cogs/events/2000 [...] torial.pdf
http://people.revoledu.com/kardi/t [...] orithm.htm
 
Edit 2 : tiens, 2 autres en français :  
http://www-desir.lip6.fr/~herpsonc [...] n_0108.pdf
http://www.grappa.univ-lille3.fr/~ [...] cement.pdf


Message édité par rufo le 15-12-2011 à 14:24:24

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
n°2117069
Profil sup​primé
Posté le 18-12-2011 à 11:53:03  answer
 

Merci rufo pour tout ça.


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Algo

  Apprentissage par renforcement.

 

Sujets relatifs
algo d'apprentissage à base de réseau de neurones.bête question: programme pour faciliter l'apprentissage de python
[Apprentissage ActionScript]apprentissage tableau html soucis
[VBA] Support d'apprentissage[Apprentissage] Passage de Java à C#
apprentissage du bashApprentissage du slovène au travers d'une IHM tactile
très bon site pour apprentissage programmation ?apprentissage CSS
Plus de sujets relatifs à : Apprentissage par renforcement.


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)