| |||||
| Auteur | Sujet : Infra IA : aide au choix et troubleshot de LLM locaux |
|---|---|
neo world | Reprise du message précédent : |
the_fennec f3nn3cUs z3rd4 | Je fais toujours un flappy bird en mode one shot:
--------------- Faudra que je teste un jour :o |
neo world |
|
ibuprophet | Comme dans la vraie vie : t'es nul en dev, va faire du pilotage de projet |
neo world | Rigole pas avec ces technologies on sera tous chef de projet / manager d’une équipe d’agents dans un futur pas si lointain |
LibreArbitre La /root est longue |
--------------- Pharyo | Cinépite | Capvirage |
Rasthor | Ou remplacé. |
the_fennec f3nn3cUs z3rd4 |
--------------- Faudra que je teste un jour :o |
neo world |
the_fennec f3nn3cUs z3rd4 |
Message édité par the_fennec le 13-05-2026 à 14:34:17 --------------- Faudra que je teste un jour :o |
neo world | Ça fait cher de RAM |
Rasthor |
|
LibreArbitre La /root est longue |
the_fennec f3nn3cUs z3rd4 |
--------------- Faudra que je teste un jour :o |
neo world | ah ouais l'offload vers le CPU fait mal ! |
the_fennec f3nn3cUs z3rd4 | Non, j'ai un mix NV/AMD pour les CG. --------------- Faudra que je teste un jour :o |
neo world | attends tu fais du multinodes avec le BC250 ? |
the_fennec f3nn3cUs z3rd4 | Ben oui, ça marche super bien, RPC powa --------------- Faudra que je teste un jour :o |
neo world |
Message édité par neo world le 13-05-2026 à 18:46:12 |
Olivie SUUUUUUUUUUUUUU |
--------------- |
neo world | c'est les suivants à se faire remplacer #Matrix |
TotalRecall |
Merci à ceux qui m'ont répondu il y a déjà trois pages Si je récapitule ce que j'ai testé sous Windows pour ma 9070XT où je voulais faire fonctionner Vulkan ou ROCm, voilà ce que j'en retire si ça peut servir à quelqu'un (attention, niveau super débutant du LLM en local - Ollama (fourni par AMD avec la "AI Suite" quand on installe les drivers) : c'est tout pourri. Le paramétrage est limité, le support Vulkan moyen (j'avais fréquemment des erreurs et les perfs sont bof, cf mon post initial), et par défaut il n'est pas activé, ce qui est quand même un comble pour un truc poussé dans un driver de GPU - Lemonade : c'est mieux, ça tourne correctement en Vulkan, mais ça me semble beaucoup trop user friendly, on ne peut pas paramétrer grand chose. Truc appréciable, le catalogue de modèles est bien fourni et ils sont triés par usage (dont la génération d'image / audio, etc). Ca doit être sympa pour découvrir quand on ne sait pas ce qu'on cherche précisément. Les modèles Stable Diffusion ne fonctionnent pas (il ne trouve pas hipmachin, donc encore une histoire de ROCm, mais j'ai un driver AMD de retard) - LM Studio : ça marche du feu de dieu Message édité par TotalRecall le 14-05-2026 à 19:46:11 --------------- Topic .Net - C# @ Prog |
neo world | gros fan de LM studio aussi que ce soit sur Mac ou linux. Merci pour ton retour |
bounty2k |
|
neo world |
|
TotalRecall |
--------------- Topic .Net - C# @ Prog |
bounty2k |
|
TotalRecall | Pauvre IA, si t'as pas arrêté de la harceler en affirmant qu'un truc est buggué tu sais bien qu'à la fin elle va toujours chercher à te faire plaisir et te confirmer que t'as raison --------------- Topic .Net - C# @ Prog |
the_fennec f3nn3cUs z3rd4 | llama.cpp. FTW --------------- Faudra que je teste un jour :o |
the_fennec f3nn3cUs z3rd4 |
--------------- Faudra que je teste un jour :o |
the_fennec f3nn3cUs z3rd4 | Documentation : Configuration llama-server en mode cluster
Message édité par the_fennec le 14-05-2026 à 23:35:50 --------------- Faudra que je teste un jour :o |
neo world | nickel merci ! |
the_fennec f3nn3cUs z3rd4 | Une des limitations actuelles est que l’exécution des layers est séquentielle, plus on a de cartes plus c'est lent. Llama.cpp a une option "--split-mode" pour split les modèles par "row" (deprecated) ou "tensors" (CUDA), et exécuter en parallèle mais aucune des deux ne fonctionne pour moi, je pense que c'est a cause de mon mix CUDA/Vulkan.
--------------- Faudra que je teste un jour :o |
neo world | pourquoi pas une VM Linux via hyperV (avec GPU passthrough) ou wsl2 avec windowc 11 pro (pas du vrai passthrough mais cuda fonctionne quand même |
the_fennec f3nn3cUs z3rd4 | C'est un Windows Server 2019 (via esxi8), donc pas de WSL il me semble et je pense pas pouvoir mettre hyperV en plus a cause du passthrough dans l'esxi8.
--------------- Faudra que je teste un jour :o |
neo world | ah bah une VM linux avec ESXi et GPU passthrough |
the_fennec f3nn3cUs z3rd4 | C'est un serveur ESXi avec 5/6 VMs qui est dans mon sous-sol. Ma VM Windows a le GPU, il est utilisé aussi pour d'autres trucs genre Jellyfin, Tdarr et d'autre bidouilles genre ComfyUI ou d'autre trucs IA du moment. Elle sert aussi de NAS. Je voulais aussi faire du Steam cast et retirer mon HTPC de jeu, mais ça marche pas bien.
--------------- Faudra que je teste un jour :o |
LibreArbitre La /root est longue |
Message édité par LibreArbitre le 15-05-2026 à 22:18:52 --------------- Pharyo | Cinépite | Capvirage |
the_fennec f3nn3cUs z3rd4 |
--------------- Faudra que je teste un jour :o |
the_fennec f3nn3cUs z3rd4 | Test de vLLM ...
Message édité par the_fennec le 17-05-2026 à 14:51:47 --------------- Faudra que je teste un jour :o |

| Sujets relatifs | |
|---|---|
| [Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co | sécurité de l'IA / agentique et des Devs en roue libre |
| Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux | |




