Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2729 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  7  8  9  ..  18  19  20  21  22  23
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°16078
neo world
Posté le 13-05-2026 à 10:55:28  profilanswer
 

Reprise du message précédent :
C'est une tradition  :whistle: ? Y'a un léger bug pour passer les tubes :o
 
Ici j'ai refait ma stack :
backend IA toujours sur Strix Halo (étonnant :o )  
VS Code Devcontainer (Docker Desktop sur Mac)
Cline en mode connexion compatible open AI (sinon cet idiot refuse de mettre une clé d'API [:zzanna:1] )
Plan avec Minimax-m2.7 3qbits XXS
Code avec Qwen3 coder Next Q8
 
Je lui ait fait faire un flappy bee (qui a demandé quelques corrections que coder-next a géré seul)
https://crimson-ilene-59.tiiny.site/
 
enjoy  :whistle:

n°16079
the_fennec
f3nn3cUs z3rd4
Posté le 13-05-2026 à 11:14:30  profilanswer
 

Je fais toujours un flappy bird en mode one shot:

Citation :

write an html5 clone of flappy bird


 
Ça me permet de voir si le modèle est bon ou pas. Un truc qui marche pas du premier coup c'est out.
Je peux valider le split mémoire et la charge, mais surtout le tg/s, je prends pas un modèle en dessous de 30 tg/s.
 
La je viens de lancer Mistral-Small-4-119B-2603-UD-IQ4_XS pour le fun, mais 5 tg/s c'est pas viable :o.
 
Le résultat est pas fameux:
https://goated-lint-j507.pagedrop.io
 
J'ai prévu de tester Nemotron et Qwen 122B avant de revenir a Qwen 3.6.


---------------
Faudra que je teste un jour :o
n°16080
neo world
Posté le 13-05-2026 à 11:31:03  profilanswer
 

Je suis un peu plus exigeant :o
 

Code :
  1. I want a cute flappy-bee game.
  2. In the style of flappy bird I want this game with a colorful theme about a bee that passes between obstacles (walls of honeycomb). The game should have three difficulty levels (easy, slower, less gravity, bigger spaces between walls), medium (faster, more gravity, spaces between walls still bigger than normal) and hard  (standard level of difficulty of a flappy bird game). I also want a score dashboard keeping the pseudo, score and date / time of achievment of the ten best players


Message édité par neo world le 13-05-2026 à 11:31:43
n°16081
neo world
Posté le 13-05-2026 à 11:32:54  profilanswer
 

the_fennec a écrit :

Je fais toujours un flappy bird en mode one shot:

Citation :

write an html5 clone of flappy bird


 
Ça me permet de voir si le modèle est bon ou pas. Un truc qui marche pas du premier coup c'est out.
Je peux valider le split mémoire et la charge, mais surtout le tg/s, je prends pas un modèle en dessous de 30 tg/s.
 
La je viens de lancer Mistral-Small-4-119B-2603-UD-IQ4_XS pour le fun, mais 5 tg/s c'est pas viable :o.
 
Le résultat est pas fameux:
https://goated-lint-j507.pagedrop.io
 
J'ai prévu de tester Nemotron et Qwen 122B avant de revenir a Qwen 3.6.


Nemotron super ne semble pas être un bon developpeur. Plutôt adapté à de l'orchestration :jap:

n°16082
ibuprophet
Posté le 13-05-2026 à 13:29:03  profilanswer
 

Comme dans la vraie vie : t'es nul en dev, va faire du pilotage de projet  :o

n°16083
neo world
Posté le 13-05-2026 à 13:32:02  profilanswer
 

Rigole pas avec ces technologies on sera tous chef de projet / manager d’une équipe d’agents dans un futur pas si lointain :o

n°16084
LibreArbit​re
La /root est longue
Posté le 13-05-2026 à 14:05:01  profilanswer
 

neo world a écrit :

Rigole pas avec ces technologies on sera tous chef de projet / manager d’une équipe d’agents dans un futur pas si lointain :o


Ha mais c'est une certitude :jap:


---------------
Pharyo | Cinépite | Capvirage
n°16085
Rasthor
Posté le 13-05-2026 à 14:14:54  profilanswer
 

Ou remplacé. :O

n°16086
the_fennec
f3nn3cUs z3rd4
Posté le 13-05-2026 à 14:19:14  profilanswer
 

neo world a écrit :

Nemotron super ne semble pas être un bon developpeur. Plutôt adapté à de l'orchestration :jap:


Je teste on verra bien :D
 

ibuprophet a écrit :

Comme dans la vraie vie : t'es nul en dev, va faire du pilotage de projet  :o


neo world a écrit :

Rigole pas avec ces technologies on sera tous chef de projet / manager d’une équipe d’agents dans un futur pas si lointain :o


 
Pitié ça fait des années que je refuse ça...


---------------
Faudra que je teste un jour :o
n°16087
neo world
Posté le 13-05-2026 à 14:26:39  profilanswer
 

Rasthor a écrit :

Ou remplacé. :O


Par un LLM ?  [:hahaguy]

n°16088
the_fennec
f3nn3cUs z3rd4
Posté le 13-05-2026 à 14:33:01  profilanswer
 

neo world a écrit :


Nemotron super ne semble pas être un bon developpeur. Plutôt adapté à de l'orchestration :jap:


 
En effet, 3 tg/s et code non fonctionnel. 120B de paramètre pour de l'orchestration c'est cher payé :o.


Message édité par the_fennec le 13-05-2026 à 14:34:17

---------------
Faudra que je teste un jour :o
n°16089
neo world
Posté le 13-05-2026 à 14:42:40  profilanswer
 

Ça fait cher de RAM :D, tu le fais tourner sur quoi ?

n°16090
Rasthor
Posté le 13-05-2026 à 14:50:24  profilanswer
 

neo world a écrit :


Par un LLM ?  [:hahaguy]


Ouais. Ou plutot l'idée que les LLM remplace les gens.
 
Les patrons ont viré massivement ces deux dernières années, sous prétexte d'optimisation via l'IA.

n°16091
LibreArbit​re
La /root est longue
Posté le 13-05-2026 à 14:53:07  profilanswer
 

Le grand remplacement qu'on n'aura pas vu venir :lol:
 
Le RN s'attaquera à l'IA dans quelques années du coup :o


Message édité par LibreArbitre le 13-05-2026 à 14:53:17

---------------
Pharyo | Cinépite | Capvirage
n°16092
the_fennec
f3nn3cUs z3rd4
Posté le 13-05-2026 à 15:43:43  profilanswer
 

neo world a écrit :

Ça fait cher de RAM :D, tu le fais tourner sur quoi ?


 
Ma config alacon: Ryzen 3600, 32GB RAM, 4060Ti 16GB + BC250.
 
Sinon Qwen 3.5 122B, 3tg/s nul :o
https://intuitive-aurora-g476.pagedrop.io


---------------
Faudra que je teste un jour :o
n°16093
neo world
Posté le 13-05-2026 à 15:56:43  profilanswer
 

ah ouais l'offload vers le CPU fait mal ! [:the geddons] Tu as testé des modèles en NFP4 ? C'est sensé faire des miracles avec les cartes nvidia :D

n°16094
the_fennec
f3nn3cUs z3rd4
Posté le 13-05-2026 à 16:10:17  profilanswer
 

Non, j'ai un mix NV/AMD pour les CG.


---------------
Faudra que je teste un jour :o
n°16095
neo world
Posté le 13-05-2026 à 16:14:00  profilanswer
 

attends tu fais du multinodes avec le BC250 ?  [:sirius gott:10]  
 
moi je parlais de trouveru n modèle pépouse qui tient sur ta 4060 ti  :whistle:

n°16096
the_fennec
f3nn3cUs z3rd4
Posté le 13-05-2026 à 16:59:47  profilanswer
 

Ben oui, ça marche super bien, RPC powa :o
Ça me donne 30GB de VRAM.
 
La j'étais en train de tester des modèles de 50/60GB maintenant que j'ai libéré ma RAM.


---------------
Faudra que je teste un jour :o
n°16097
neo world
Posté le 13-05-2026 à 18:45:46  profilanswer
 

the_fennec a écrit :

Ben oui, ça marche super bien, RPC powa :o
Ça me donne 30GB de VRAM.
 
La j'étais en train de tester des modèles de 50/60GB maintenant que j'ai libéré ma RAM.


je veux bien que tu nous dise comment tu as procédé (frameworks, config, partie réseau ...), les modèles qui le supportent le mieux etc. en mode tutoriel "j'ai trouvé une boite à chaussures dans mon grenier, une peau de banane et un raspberry pi nano. Je peux les assembler façon megazorde pour héberger mon modèle ?" :o Pour l'ajouter à la FP
 
Tu peux le faire rédiger pour une IA si elle est locale et si tu vérifie l'info :D


Message édité par neo world le 13-05-2026 à 18:46:12
n°16098
Olivie
SUUUUUUUUUUUUUU
Posté le 13-05-2026 à 22:10:53  profilanswer
 

Rasthor a écrit :


Ouais. Ou plutot l'idée que les LLM remplace les gens.
 
Les patrons ont viré massivement ces deux dernières années, sous prétexte d'optimisation via l'IA.


Faut donc devenir patron pour ne pas se faire grandremplacer  [:michel_cymerde:7]


---------------

n°16099
neo world
Posté le 13-05-2026 à 22:51:30  profilanswer
 

c'est les suivants à se faire remplacer #Matrix :o

n°16100
TotalRecal​l
Posté le 14-05-2026 à 18:44:33  profilanswer
 

TotalRecall a écrit :

Béh non apparemment pas, pour la 9070XT le support Windows est nettement en retrait sur celui pour Linux, surtout en ce qui concerne Ollama. Donc je suis preneur des alternatives éprouvées si ici quelqu'un l'a fait avec ce modèle.

 

Merci à ceux qui m'ont répondu il y a déjà trois pages :p

 

Si je récapitule ce que j'ai testé sous Windows pour ma 9070XT où je voulais faire fonctionner Vulkan ou ROCm, voilà ce que j'en retire si ça peut servir à quelqu'un (attention, niveau super débutant du LLM en local :o) :

 

- Ollama (fourni par AMD avec la "AI Suite" quand on installe les drivers) : c'est tout pourri. Le paramétrage est limité, le support Vulkan moyen (j'avais fréquemment des erreurs et les perfs sont bof, cf mon post initial), et par défaut il n'est pas activé, ce qui est quand même un comble pour un truc poussé dans un driver de GPU :o. Bref on se demande pourquoi AMD met ça en avant.

 

- Lemonade : c'est mieux, ça tourne correctement en Vulkan, mais ça me semble beaucoup trop user friendly, on ne peut pas paramétrer grand chose. Truc appréciable, le catalogue de modèles est bien fourni et ils sont triés par usage (dont la génération d'image / audio, etc). Ca doit être sympa pour découvrir quand on ne sait pas ce qu'on cherche précisément. Les modèles Stable Diffusion ne fonctionnent pas (il ne trouve pas hipmachin, donc encore une histoire de ROCm, mais j'ai un driver AMD de retard)

 

- LM Studio : ça marche du feu de dieu :o. Aussi bien en Vulkan qu'en ROCm (les deux s'installent en un clic), c'est performant, très paramétrable, et ça tourne nickel :love:. Plutôt orienté LLM que Diffusion et cie par contre à première vue contrairement à Lemonade qui fait tout. Et quelques modèles qui ne se chargent pas sans raison avec un message d'erreur ultra vague. De ce côté là Lemonade semble plus polyvalent et plus cohérent.


Message édité par TotalRecall le 14-05-2026 à 19:46:11

---------------
Topic .Net - C# @ Prog
n°16101
neo world
Posté le 14-05-2026 à 19:09:07  profilanswer
 

gros fan de LM studio aussi que ce soit sur Mac ou linux. Merci pour ton retour :D

n°16102
bounty2k
Posté le 14-05-2026 à 19:14:44  profilanswer
 

neo world a écrit :

gros fan de LM studio aussi que ce soit sur Mac ou linux. Merci pour ton retour :D


Moi c'est tout l'inverse, j'ai testé Ollama, LlamaCPP, AnythingLLM et LMStudio sur Windows et Mac, et celui qui marche le moins bien est systématiquement LMStudio, chaque fois que je teste un model dessus ça bug ou crash (model qui fonctionne avec les autres solutions) aussi bien sur MAC que Windows, pourtant sur le papier il réuni le meilleur des 3 autres produits. Du coup j'ai laissé tombé.

n°16103
neo world
Posté le 14-05-2026 à 19:36:29  profilanswer
 

bounty2k a écrit :


Moi c'est tout l'inverse, j'ai testé Ollama, LlamaCPP, AnythingLLM et LMStudio sur Windows et Mac, et celui qui marche le moins bien est systématiquement LMStudio, chaque fois que je teste un model dessus ça bug ou crash (model qui fonctionne avec les autres solutions) aussi bien sur MAC que Windows, pourtant sur le papier il réuni le meilleur des 3 autres produits. Du coup j'ai laissé tombé.


tu as regardé les logs ? mois les seuls fois où ça merdait c'était des out of memory et faut penser à aller chercher des frameworks à jours dans config / runtime :D

n°16104
TotalRecal​l
Posté le 14-05-2026 à 19:47:40  profilanswer
 

bounty2k a écrit :


Moi c'est tout l'inverse, j'ai testé Ollama, LlamaCPP, AnythingLLM et LMStudio sur Windows et Mac, et celui qui marche le moins bien est systématiquement LMStudio, chaque fois que je teste un model dessus ça bug ou crash (model qui fonctionne avec les autres solutions) aussi bien sur MAC que Windows, pourtant sur le papier il réuni le meilleur des 3 autres produits. Du coup j'ai laissé tombé.


Lemonade a quand même l'air de garder le gros avantage de la polyvalence, mais j'ai vraiment du mal avec l'interface qui ne donne accès à rien.
 
J'ai édité mon post pour compléter un poil mais j'ai aussi eu des petits pb avec LM Studio sur certains modèles (les gros du marché fonctionnent parfaitement par contre : Qwen, Gemma...)


---------------
Topic .Net - C# @ Prog
n°16105
bounty2k
Posté le 14-05-2026 à 19:50:03  profilanswer
 

neo world a écrit :


tu as regardé les logs ? mois les seuls fois où ça merdait c'était des out of memory et faut penser à aller chercher des frameworks à jours dans config / runtime :D


Rien dans les logs, dans la plupart des cas ça me mettait des erreurs du type "unable to load the model" sans justifications, sur des petits model (<12B) qui passaient crèmes sur les autres outils.
J'ai même demandé de l'aide à l'IA qui a fini par me répondre qu'effectivement LMStudio était buggué  :lol: .

n°16106
TotalRecal​l
Posté le 14-05-2026 à 19:52:39  profilanswer
 

Pauvre IA, si t'as pas arrêté de la harceler en affirmant qu'un truc est buggué tu sais bien qu'à la fin elle va toujours chercher à te faire plaisir et te confirmer que t'as raison :o.


---------------
Topic .Net - C# @ Prog
n°16107
the_fennec
f3nn3cUs z3rd4
Posté le 14-05-2026 à 19:52:49  profilanswer
 

llama.cpp. FTW :o
Perso j'aime bien avoir mes config dans des fichiers .bat et j'y ajoute des commentaires et autres tunings.
 
 
NVidia NVFP4 vs llama.cpp Q4: Faster Local LLMs But At What Quality?
https://www.youtube.com/watch?v=5daRawqNpaE
 
(il est sur Ollama)
Intéressant de voir un gain en perf coté NVFP4 pour une taille similaire, mais moi je suis en Q6 en ce moment ...
Surprennant de savoir que le format NVFP4 marche aussi avec MLX!


---------------
Faudra que je teste un jour :o
n°16108
the_fennec
f3nn3cUs z3rd4
Posté le 14-05-2026 à 19:54:37  profilanswer
 

neo world a écrit :


je veux bien que tu nous dise comment tu as procédé (frameworks, config, partie réseau ...), les modèles qui le supportent le mieux etc. en mode tutoriel "j'ai trouvé une boite à chaussures dans mon grenier, une peau de banane et un raspberry pi nano. Je peux les assembler façon megazorde pour héberger mon modèle ?" :o Pour l'ajouter à la FP
 
Tu peux le faire rédiger pour une IA si elle est locale et si tu vérifie l'info :D


 
J'essaye de faire une jolie config :jap:.
D'ailleurs le web UI de llama.cpp supporte des tools maintenant, une fois que ma config (re)marchera bien, je vais lui demander de se documenter lui même :D


---------------
Faudra que je teste un jour :o
n°16109
the_fennec
f3nn3cUs z3rd4
Posté le 14-05-2026 à 23:33:21  profilanswer
 

Documentation : Configuration llama-server en mode cluster
 
Commande de lancement :

Code :
  1. llama-server --no-mmap --flash-attn on  --alias default --host 0.0.0.0 --rpc 192.168.0.40:50000 --port 8080 --jinja -m X:\dev\models\Qwen3.6-35B-A3B-UD-Q6_K.gguf -ngl 99 -ts 20,21 --n-cpu-moe 0 --ctx-size 131072 --temp 0.6 --top-p 0.95 --min-p 0.0 --top-k 20 --presence-penalty 0.0 --repeat_penalty 1.0 --chat-template-kwargs "{"preserve_thinking": true}" -ctk q8_0 -ctv q8_0


 
Commande de lancement server RPC:

Code :
  1. rpc-server -p 50000 -H 0.0.0.0


 
Détail des paramètres :
 

  • --no-mmap : Désactive le mappage mémoire (mmap) pour le chargement du modèle. Évite les conflits de RAM/VRAM et force le chargement en VRAM uniquement.
  • --flash-attn on : Active l'attention flash pour accélérer l'inférence et optimiser l'utilisation de la VRAM.
  • --alias default : Nom de référence du modèle, pas besoin de changer la config coté client quand on change de modèle.
  • --host 0.0.0.0 : Bind sur toutes les interfaces réseau. Rend le serveur accessible depuis le LAN.
  • --rpc 192.168.0.40:50000 : Endpoint RPC pour le routage MoE distribué, la synchronisation d'état ou la communication inter-nœuds.
  • --port 8080 : Port TCP d'écoute du serveur HTTP/OpenAI-compatible.
  • --jinja : Active le moteur Jinja2 pour le rendu des templates de conversation (nécessaire pour les templates complexes).
  • -m ... : Chemin absolu vers le fichier modèle GGUF (Qwen3.6-35B-A3B-UD-Q6_K).
  • -ngl 99 : Nombre maximal de couches à décharger sur le(s) GPU. 99 force le déchargement de toutes les couches disponibles.
  • -ts 20,21 : Répartition des tenseurs (tensor split) sur les GPUs. Exemple : 20 couches sur le GPU rpc0, 21 sur le GPU CUDA 1.
  • --n-cpu-moe 0 : Désactive les workers CPU pour les couches MoE. Le traitement est entièrement délégué aux GPU.
  • --ctx-size 131072 : Taille du contexte en tokens (128K tokens).
  • --temp 0.6 : Température. 0.6 offre un bon compromis entre créativité et cohérence.
  • --top-p 0.95 : Échantillonnage par noyau (nucleus sampling). Conserve les tokens dont la probabilité cumulée atteint 95%.
  • --min-p 0.0 : Seuil min-p désactivé (aucun filtre par probabilité minimale).
  • --top-k 20 : Limite l'échantillonnage aux 20 tokens les plus probables à chaque étape.
  • --presence-penalty 0.0 : Pénalité de présence désactivée (le modèle n'est pas pénalisé pour avoir déjà utilisé un token).
  • --repeat_penalty 1.0 : Pénalité de répétition désactivée (valeur par défaut).
  • --chat-template-kwargs ... : Arguments JSON passés au template de conversation. preserve_thinking: true conserve les balises <think>...</think> pour les modèles entraînés avec des phases de raisonnement explicite.
  • -ctk q8_0 -ctv q8_0 : Quantification du cache KV (Key/Value) en format q8_0. Réduit significativement l'empreinte mémoire du cache tout en préservant la qualité de génération.


Notes & Recommandations :
Cette configuration est optimisée pour un environnement multi-GPU (répartition via -ts 20,21).
Le cache KV quantifié (q8_0) est essentiel pour maintenir un contexte de 128K tokens sans saturer la VRAM.
 
Mettre un auto restart sur le server RPC; il crash si on envoie trop de layers avec -ts.
 
Avec cette config je suis a plus de 40 tg/s avec une 4060Ti 16GB et une BC250.


Message édité par the_fennec le 14-05-2026 à 23:35:50

---------------
Faudra que je teste un jour :o
n°16110
neo world
Posté le 15-05-2026 à 09:15:32  profilanswer
 

nickel merci ! :D

n°16111
the_fennec
f3nn3cUs z3rd4
Posté le 15-05-2026 à 11:25:08  profilanswer
 

Une des limitations actuelles est que l’exécution des layers est séquentielle, plus on a de cartes plus c'est lent. Llama.cpp a une option "--split-mode" pour split les modèles par "row" (deprecated) ou "tensors" (CUDA), et exécuter en parallèle mais aucune des deux ne fonctionne pour moi, je pense que c'est a cause de mon mix CUDA/Vulkan.
 
J'ai prévu de regarder vLLM, mais j'ai peu de chance que ça marche. J'ai Windows d'un coté qui n'est supporté que dans un fork et ROCm de l'autre qui ne supporte la BC250 que partiellement.


---------------
Faudra que je teste un jour :o
n°16112
neo world
Posté le 15-05-2026 à 11:55:12  profilanswer
 

pourquoi pas une VM Linux via hyperV (avec GPU passthrough) ou wsl2 avec windowc 11 pro (pas du vrai passthrough mais cuda fonctionne quand même :D
 
Ca ne règle que la moitié du problème mais tu peux focuser ton action sur le BC250 avec ça :D

n°16113
the_fennec
f3nn3cUs z3rd4
Posté le 15-05-2026 à 12:30:20  profilanswer
 

C'est un Windows Server 2019 (via esxi8), donc pas de WSL il me semble et je pense pas pouvoir mettre hyperV en plus a cause du passthrough dans l'esxi8.
 
Je pense que https://github.com/SystemPanic/vllm-windows doit bien marcher avec CUDA, j'ai plus de doutes avec la BC250 :o


---------------
Faudra que je teste un jour :o
n°16114
neo world
Posté le 15-05-2026 à 13:04:53  profilanswer
 

ah bah une VM linux avec ESXi et GPU passthrough :D je savais pas que tu avais ta carte Nvidia sur un hyperviseur déjà :D
 
C'est aussi ta machine de jeu vidéo il me semble ? elle est à distance par rapport à ton bureau ou tu voulais ESXi pour d'autres raisons ?

n°16115
the_fennec
f3nn3cUs z3rd4
Posté le 15-05-2026 à 14:52:39  profilanswer
 

C'est un serveur ESXi avec 5/6 VMs qui est dans mon sous-sol. Ma VM Windows a le GPU, il est utilisé aussi pour d'autres trucs genre Jellyfin, Tdarr et d'autre bidouilles genre ComfyUI ou d'autre trucs IA du moment. Elle sert aussi de NAS. Je voulais aussi faire du Steam cast et retirer mon HTPC de jeu, mais ça marche pas bien.
 
Ça fait un moment que j'ai cette config migrée de machine en machine, j'ai encore une VM Windows Server 2003 qui tourne dessus :o. Je voudrais bouger sur Proxmox, mais trop la flemme pour le moment.


---------------
Faudra que je teste un jour :o
n°16116
LibreArbit​re
La /root est longue
Posté le 15-05-2026 à 22:18:27  profilanswer
 

neo world a écrit :

pourquoi pas une VM Linux via hyperV (avec GPU passthrough) ou wsl2 avec windowc 11 pro (pas du vrai passthrough mais cuda fonctionne quand même :D
 
Ca ne règle que la moitié du problème mais tu peux focuser ton action sur le BC250 avec ça :D


Pour du passthrough il faut un iGP car le GPU deviendra exclusif à la VM...
 
Édit : sauf si ça a changé depuis...


Message édité par LibreArbitre le 15-05-2026 à 22:18:52

---------------
Pharyo | Cinépite | Capvirage
n°16117
the_fennec
f3nn3cUs z3rd4
Posté le 16-05-2026 à 10:17:30  profilanswer
 

LibreArbitre a écrit :


Pour du passthrough il faut un iGP car le GPU deviendra exclusif à la VM...
 
Édit : sauf si ça a changé depuis...


 
C'est pas un soucis pour ESXi, j'ai pas d'iGPU. L'écran se désactive quand le GPU est assigné a la VM, et une fois que Windows le réinitialise la sortie écran affiche le bureau Windows. Pour hyperV je sais pas par contre.


---------------
Faudra que je teste un jour :o
n°16118
the_fennec
f3nn3cUs z3rd4
Posté le 17-05-2026 à 14:51:05  profilanswer
 

Test de vLLM ...
https://github.com/SystemPanic/vllm-windows
 
Comme d'hab' avec les trucs en python, grosse galère pour les dépendances, en fait il faut (entre autres) Cuda 13.0 et 13.2 et patcher l'install de Cuda ...
 
 
Finalement ça se lance avec un modèle en carton  [:theyellowman]
 
Test de Qwen3.5-27B-Q3_K_M.gguf qui devrait tenir dans 16GB de VRAM:

Citation :

ValueError: GGUF model with architecture qwen35 is not supported yet.


 
[:fail]
 
Et dire qu'au taf' ya un mec qui me saoule en disant que vLLM est plus simple et plus rapide que llama.cpp ...  
 

Citation :

Mais way, c'est bien mieux en local, mais j'ai juste testé avec une image préconfigurée sur une instance EC2 g7e RTX PRO 6000 96GB :o


Message édité par the_fennec le 17-05-2026 à 14:51:47

---------------
Faudra que je teste un jour :o
 Page :   1  2  3  4  5  ..  7  8  9  ..  18  19  20  21  22  23

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)