Bonjour,
Après avoir cherché la réponse à mon problème pendant plusieurs jours je me décide enfin à poster en espérant que peut être quelqu'un pourra m'éclairer.
Quand on utilise la méthode min-max dans un jeu de stratégie combinatoire on cherche le meilleur coup tout en considérant que l'adversaire jouera aussi de façon optimale d'où l'alternance entre noeuds min et noeuds max dans l'arbre des possibles. Dans l'algorithme UCT on parcours l'arbre en choisissant à chaque fois le noeud qui à la valeur UCT la plus importante sans prendre en compte si ce coup correspond à un mouvement de l'adversaire ou à un mouvement de l'IA : c'est cette partie qui me pose problème!
===> Imaginons que suite à un parcours de l'arbre on atteint un noeud qui n'a toujours pas été évalué et qui correspond à l'état du jeu juste après un coup de l'adversaire : on évalue donc le noeud et on obtiens une victoire de l'IA => super, on remonte donc l'arbre pour modifier la valeur des noeuds mères et prendre en compte cette nouvelle évaluation, seulement il parait évident que l'adversaire ne jouera pas à chaque fois le coup qui avantage le plus l'IA or j'ai l'impression que c'est ce qu'il se passe avec une telle méthode.
Pour mieux expliquer mon problème intéressons-nous à l'arbre suivant : en page 11 du pdf en remarque que l'algorithme ne prend pas en compte la réponse de l'adversaire, il choisis purement et simplement le coup qui l'avantage le plus à chaque étape!
Je m'excuse pour le côté un peu brouillon de ce post et je remercie sincèrement ceux qui prendront la peine de m'aider.
Message édité par murujan le 25-07-2010 à 18:57:35