Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 8 9 10 .. 18 19 20 21 22 23 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

the_fennec

f3nn3cUs z3rd4

Reprise du message précédent :
Test de vLLM ...
https://github.com/SystemPanic/vllm-windows

Comme d'hab' avec les trucs en python, grosse galère pour les dépendances, en fait il faut (entre autres) Cuda 13.0 et 13.2 et patcher l'install de Cuda ...

Finalement ça se lance avec un modèle en carton [:theyellowman]

Test de Qwen3.5-27B-Q3_K_M.gguf qui devrait tenir dans 16GB de VRAM:

Citation :

ValueError: GGUF model with architecture qwen35 is not supported yet.

[:fail]

Et dire qu'au taf' ya un mec qui me saoule en disant que vLLM est plus simple et plus rapide que llama.cpp ...

Citation :

Mais way, c'est bien mieux en local, mais j'ai juste testé avec une image préconfigurée sur une instance EC2 g7e RTX PRO 6000 96GB

Message édité par the_fennec le 17-05-2026 à 14:51:47

---------------
Faudra que je teste un jour :o

neo world

Le mec en roue libre :lol:

Tu as la dernière vidéo du youtubeur infra AI que tu as déjà partagé ici qui parle de ses péripéties avec un cluster d’inference Strix Halo. Tu dois pouvoir récupérer des bouts pour ton usage

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Le mec en roue libre :lol:

En plus il a testé la version non-quantifiée sur vLLM et q4 sur llama.cpp pour prouver que vLLM est plus rapide ... noshit Sherlock maintenant je sais pourquoi.

neo world a écrit :

Tu as la dernière vidéo du youtubeur infra AI que tu as déjà partagé ici qui parle de ses péripéties avec un cluster d’inference Strix Halo. Tu dois pouvoir récupérer des bouts pour ton usage

Merci, je regarderais!

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

J'ai regardé:
Three months wrong about why my 4-node AMD cluster was slow
https://www.youtube.com/watch?v=32cjdHVoSRo

Il a bien souffert effet, par contre les perfs
A un moment il fait tourner Qwen next, et je dois avoir a peut près les même perfs avec ma config de clodo

Mais la conclusion pour moi est simple, vLLM c'est un sacré bourrier :lol:

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Le support du MTP a été mergé dans llama.cpp:
https://github.com/ggml-org/llama.cpp/pull/22673

:love:

---------------
Faudra que je teste un jour :o

ibuprophet

Benché:
+85% avec n=3. C'est exactement le scénario prévu : dense model, compute-bound, MTP fait tout son effet.

Variant TG (t/s) vs baseline
27B dense sans MTP 64 baseline
27B dense + MTP n=3 119 +85%
27B dense + MTP n=6 102 +59%
n=3 est le sweet spot — au-delà, l'acceptance rate chute et le coût de vérification des drafts rejetés l'emporte.

Contraste total avec le MoE :

MoE 35B-A3B MXFP4 : +0% (memory-bandwidth-bound, 220 t/s de base)
Dense 27B Q4 : +85% (compute-bound, 64 → 119 t/s)

neo world

[:haha want]

merci du partage

yohaskan

[:hephaestos] La flème donc j'ai demandé à l'IA de rediger le post :

Salut les gars,

Pour illustrer concrètement ce qu'on peut sortir aujourd'hui en local avec un gros GPU (une RTX 5090 ici), je vous partage mes expérimentations sur un concept d'assistant de jeu immersif en temps réel.

L'objectif : Avoir une IA capable de voir la session de jeu, d'intervenir à l'oral ou de répondre à la voix, tout en allant déterrer des infos complémentaires (comme le Wiki ou le lore brut directement extrait des fichiers .pak du jeu). C'est ultra pratique sur un jeu qui vient de sortir, où le wiki en ligne est encore à moitié vide ou pas traduit.

Pour les curieux, voilà la stack technique complète sous le capot :

* App maison en Python : Cheshire AI V.2 (qui sert d'orchestrateur global et gère la vision, le wikisearch, la mémorisation et la DB locale).
* LLM : Qwen 3.5 9B propulsé via l'API de LM Studio Server.
* STT (Reconnaissance vocale) : Fast Whisper.
* TTS (Synthèse vocale) : Un serveur XTTSv2 custom pour donner sa voix à l'assistante (que j'ai appelée Triss).

J'ai condensé le rendu sur trois petits shorts pour montrer ce que ça donne en conditions réelles :

Sur Subnautica 2 (zéro spoil, juste de l'observation de créatures) :

* Le Crabe Clown :
https://www.youtube.com/shorts/sjIbg3gvEr8

L'IA capte le contexte visuel (la présence d'une créature dans les algues à 16m). Elle me propose spontanément de fouiller la base de données locale, me sort sa description comportementale brute (animal docile qui utilise un périscope avant de sortir) et me propose de mémoriser l'entrée pour enrichir notre base.

* La Méduse Électrique :
https://www.youtube.com/shorts/63eex5c0X9s

Là, on pousse l'extraction de données plus loin. Elle me sort des détails très pointus sur l'anatomie de la créature (les ropali pour chasser, le pédoncule) et ses stats de combat (génération de 400 à 1000 volts). Elle ajoute même une petite touche RP sympa sur le danger potentiel pour un humain avant de sauvegarder les données.

Sur No Man's Sky (avec l'interface du soft visible) :

* L'interface de Triss :
https://www.youtube.com/shorts/w0jczNC9Mbg

Sur celui-ci, on voit directement l'envers du décor avec l'UI de Cheshire AI Monitor. On peut suivre les logs et les temps de traitement en direct (les latences STT + Génération Audio s'affichent à l'écran et tournent autour de 2 à 3 secondes). C'est assez fou de voir la réactivité : dès que je lui fais remarquer que le jour se lève, le module de vision valide l'environnement en direct ("le ciel s'illumine" ) et elle relance la discussion de manière super fluide.

L'idée à terme, c'est vraiment d'avoir un copilote autonome et 100% offline qui s'adapte au rythme du joueur et du chat Twitch.

Message édité par yohaskan le 18-05-2026 à 11:28:56

the_fennec

f3nn3cUs z3rd4

J'ai du mal a charger les modèles MTP, je comprends pas trop pourquoi ça me fait des erreurs de mémoire alors que j'ai large la place pour charger des modèles plus gros.

Avec Qwen3.6-27B-Q6_K d'Unsloth ça passe, mais pas Qwen3.6-27B-Q6_K_XL. D'ailleurs je pense que certains modèles ne sont pas a jours, le K_XL fait la même taille en normal et en MTP, la ou le K fait 1GB de plus...

Bref, j'ai bien un gain en génération de code, je suis a 20 tg/s en --spec-type draft-mtp --spec-draft-n-max 3 et 11 tg/s sans MTP.

Pas de drop en qualité
https://stateless-feast-t3xb.pagedrop.io

Testé n-max=2 et n-max=4 et dans les deux cas c'est moins bon. Je comprends pas trop la recommandation de 6 sur la page d'Unsloth.

@ibuprophet quels modèles utilises-tu?

Message édité par the_fennec le 18-05-2026 à 10:55:35

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Test avec Qwen3.6-35B-A3B-UD-Q5_K_S.gguf [:perco_35:2]

Je fais du 63 tg/s au lieu de 35!

Par contre les MTP sont plus gros, je peux pas charger du Q6. En plus j'ai l'impression qu'ils gèrent pas bien le split asymétrique. Les perfs se cassent la gueule si je suis pas en 50/50 au niveau des layers.

Flappy 35B MTP:
https://steady-toast-d77q.pagedrop.io

edit: je le relance sur Linux 7 pour Amiga. Le prompt processing est a la même vitesse, dans les 300/s (normal) et le tg/s est dans les 50, mais c'est beaucoup plus de shell que de code.

Message édité par the_fennec le 18-05-2026 à 11:34:51

---------------
Faudra que je teste un jour :o

TotalRecall

yohaskan a écrit :

[:hephaestos] La flème donc j'ai demandé à l'IA de rediger le post :
...

Chouette projet [:implosion du tibia] :jap: !

Message édité par TotalRecall le 18-05-2026 à 11:50:08

---------------
Topic .Net - C# @ Prog

ibuprophet

the_fennec a écrit :

@ibuprophet quels modèles utilises-tu?

Gemma 4 et Qwen 3.6 avec ces configs :
gemma4-31b-UD-Q5_K_XL-ctx245k-turboquant
qwen3.6-27b-UD-Q4_K_XL-ctx245k-mtp
qwen3.6-35b-a3b-MXFP4_MOE-ctx262k

the_fennec

f3nn3cUs z3rd4

ibuprophet a écrit :

Gemma 4 et Qwen 3.6 avec ces configs :
gemma4-31b-UD-Q5_K_XL-ctx245k-turboquant
qwen3.6-27b-UD-Q4_K_XL-ctx245k-mtp
qwen3.6-35b-a3b-MXFP4_MOE-ctx262k

gemma4 n'a pas le MTP il me semble?

Ce sont ceux d'Unsloth?

---------------
Faudra que je teste un jour :o

neo world

yohaskan a écrit :

propre [:implosion du tibia]

tu comptes publier le code / fichiers de config ?

neo world

the_fennec a écrit :

Le support du MTP a été mergé dans llama.cpp:
https://github.com/ggml-org/llama.cpp/pull/22673

:love:

enfin ! :love:

the_fennec

f3nn3cUs z3rd4

Qwen 3.7 [:cerveau eonwe]
https://www.reddit.com/r/LocalLLaMA [...] king_hard/

[:legrillepain:3]

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Plus de MTP:
https://github.com/ggml-org/llama.cpp/pull/23269

Les binaires sont pas encore dispo.

---------------
Faudra que je teste un jour :o

gremi

Vieux con des neiges d'antan

the_fennec a écrit :

Qwen 3.7 [:cerveau eonwe]
https://www.reddit.com/r/LocalLLaMA [...] king_hard/

[:legrillepain:3]

Ils ont une conf aujourd'hui de ce que j'ai compris, ça devrait sortir

---------------
In aligot we trust.

the_fennec

f3nn3cUs z3rd4

Pas testé, BC-250 Unlock

https://github.com/duggasco/bc250-40cu-unlock

Citation :

Re-enable all 40 CUs on the AMD BC-250 (gfx1013 / Cyan Skillfish / salvaged PS5 APU).

The BC-250 ships with 24 of 40 RDNA2 CUs active. This patch unlocks all 40 by writing two hardware registers during amdgpu driver init. No firmware mods, no permanent changes — just a kernel module parameter.

:love:

---------------
Faudra que je teste un jour :o

yohaskan

TotalRecall a écrit :

Chouette projet [:implosion du tibia] :jap: !

Merci :jap:

neo world a écrit :

propre [:implosion du tibia]

tu comptes publier le code / fichiers de config ?

En l'état non, j'aimerai pas foutre en ligne du code pas purgé comme un paquet de linge sale...
Et le projet n'est pas fini, toujours des idées, opti a faire...
et le rythme de sortie des LLM laisse pas trop le temps pour faire une pause de lavage du code
par exemple, j’évite au max d'avoir des valeurs coder en dure dans l'app, elles sont, comme celle des prompts et description d'outils, dans le profil .yaml de chaque jeux
Mais je dois aussi faire des conditions prefill selon le Payload du LLM (Qwen, Gemma, Mistral...) pour les empêcher de réfléchir pour rien
du type :

Code :

post_vision: |
<|think_on|>Analyse visuelle terminée. J'ai examine l'image et identifie les éléments clés.</|think_off|>
Voici ce que je peux te dire :

Possible que demain ces conditions ne soit plus utile si le nouveau LLM (Qwen 3.7? Gemma-5 ?) n'a plus de bug d'"overthinking"

Quich

Pouet ?

the_fennec a écrit :

Pas testé, BC-250 Unlock

https://github.com/duggasco/bc250-40cu-unlock

Citation :

Re-enable all 40 CUs on the AMD BC-250 (gfx1013 / Cyan Skillfish / salvaged PS5 APU).

The BC-250 ships with 24 of 40 RDNA2 CUs active. This patch unlocks all 40 by writing two hardware registers during amdgpu driver init. No firmware mods, no permanent changes — just a kernel module parameter.

:love:

Top ça, je testerais quand j'aurais le temps même si le mien ne sert que pour jouer
S'ils trouvent comment réactiver les 2 cores zen en plus ça serait bien aussi

Message édité par Quich le 20-05-2026 à 10:42:48

---------------
Feedback

the_fennec

f3nn3cUs z3rd4

Quich a écrit :

Top ça, je testerais quand j'aurais le temps même si le mien ne sert que pour jouer
S'ils trouvent comment réactiver les 2 cores zen en plus ça serait bien aussi

Par contre je me demande comment tester que les core réactivé marchent bien. Ils doivent avoir une bonne raison de les avoir désactivés, je sais que c'est censé être des rebus de PS5, mais les mineurs auraient le même intérêt que nous.

---------------
Faudra que je teste un jour :o

Quich

Pouet ?

the_fennec a écrit :

Y'a des scripts de tests sur le dépôt il me semble.
Ça peut être une histoire de fréquence aussi, la PS5 c'est 36CU à 2,23GHz --> s'il n'y en a que 35 qui tiennent dans l'enveloppe thermique définie --> rebus.

---------------
Feedback

neo world

Les possesseurs de BC 250 sont gâtés

Je vais finir par surveiller les bons plans aussi. Surtout si y’a du Qwen 3.7 qui entrerait dans les 16 go :love:

Olivie

SUUUUUUUUUUUUUU

Pour ceux que ca intéresse (faut une adresse email d'un ndd)
lien: https://dsx-air.nvidia.com

Citation :

Conclusion nette

DSX Air vaut le coup si tu veux :

monter en compétence sur l’infra réseau IA ;
comprendre comment les gros datacenters IA sont préparés avant livraison physique ;
tester des scripts de provisioning ;
créer des labs reproductibles ;
apprendre Cumulus / Spectrum-X / NetQ / Run:ai / AI factory networking.

DSX Air ne vaut pas le coup si ton objectif est :

avoir du GPU gratuit ;
héberger tes agents IA ;
remplacer ton VPS ;
faire tourner une app SaaS en production.

---------------

extenue1

Ca vaut / vaudra quoi ça en term de perfs IA locale ?

Minisforum S5 et S7 : NAS flash avec IA locale pour le homelab - Cachem https://share.google/jEkxkBLN0dedhPZQu

the_fennec

f3nn3cUs z3rd4

extenue1 a écrit :

Ca vaut / vaudra quoi ça en term de perfs IA locale ?

Minisforum S5 et S7 : NAS flash avec IA locale pour le homelab - Cachem https://share.google/jEkxkBLN0dedhPZQu

C'est de la daube, avec un NPU en carton et 16GB de RAM tu peux rien faire tourner. Ils parlent d'Openclaw, mais c'est pas de l'IA locale, ça peut tourner sur une patate.

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Quich a écrit :

Ha oui, j'avais vu les bench, mais pas bc250-compute-verify.sh. Balèze!:
https://github.com/duggasco/bc250-4 [...] -verify.sh

neo world a écrit :

Les possesseurs de BC 250 sont gâtés

Je vais finir par surveiller les bons plans aussi. Surtout si y’a du Qwen 3.7 qui entrerait dans les 16 go :love:

Vise 14GB, pas plus et encore j'utilise le server rpc qui a probablement besoin de moins qu'un llama complet.

---------------
Faudra que je teste un jour :o

LaRoueEstTombee

Hortense ! Pour moi !

Ce bordel que c'est tout ça

De voir l'évolution en 4 jours pour avoir un modèle qui tourne sur le NPU d'un Ryzen AI avec Linux... Bon, c'est pas le tout, maintenant faut que je rende ça exploitable au quotidien :lol:

---------------
Votre couroux impitoiable Veut-il renverser l'Univers ?

neo world

extenue1 a écrit :

Ca vaut / vaudra quoi ça en term de perfs IA locale ?

Minisforum S5 et S7 : NAS flash avec IA locale pour le homelab - Cachem https://share.google/jEkxkBLN0dedhPZQu

Hello !

Comme the_fennec je pense que c'est pas une très bonne idée (globalement tout ce qui est IA tourne super bien sur Nvidia, un peu l'aventure mais on s'en sort avec AMD et l'Aventure avec un grand A sur Intel). Ca ne veut pas dire que tu ne pourras pas en faire ce que tu as besoin mais n'attend pas les perfs d'un GPU avec GDDR / HBM (bande passante limitée par la RAM classique embarquée ce qui impacte énormement le pre processing et le nombre de token/seconde). Si tu as besoin de jouer avec des modèles assez larges avec un budget riquiqui tu as le BC 250 plébicité ici (avec 16GO de GDDR en plus :love: ), tu peux jouer avec des cartes graphiques (de préference nvidia avec support cuda mais les cartes AMD modernes commencent à bien fonctionner) ou tu peux taper du NPU AMD (ça marche mais ce sera moins rapide que ses cousines en gddr et avec le prix de la RAM en ce moment c'est pas le moment idéal de s'équiper :jap: )

Le prix de la RAM est tellement abusé d'ailleurs que la plupart des mini PC que tu peux trouver sur dealabs avec 32GO / 1 TO coutent 50€ plus cher qu'acheter 32GO de RAM et un SSD NVME de perf équivalent. La machine est quasi offerte :pt1cable:

neo world

the_fennec a écrit :

Ha oui, j'avais vu les bench, mais pas bc250-compute-verify.sh. Balèze!:
https://github.com/duggasco/bc250-4 [...] -verify.sh

the_fennec a écrit :

Vise 14GB, pas plus et encore j'utilise le server rpc qui a probablement besoin de moins qu'un llama complet.
https://i.imgur.com/3JL4ONT.png

Je note merci :jap: . Je pense que je vais attendre de voir comment se comportent mes agents avec mon infra existante et faire des tests avec des modèles de différentes tailles avant de me décider (mais la machine est à nouveau dispo aux environs des 160€ ça rend l'opération très tentante )

La je suis en train de monter mon homelab (3 noeuds proxmox 7640HS avec 32GO de RAM et 1 to de CEPH pour chaque noeud). Il va embarque son propre Git, CI/CD, wiki, postgres, container, agents de dev et infra de backup externe pour que le bordel puisse tourner en vase clos en illimité en mode AI factory locale avec Qwen et Minimax sur le halo strix pour piloter la partie dev / documentation / debug.

C'est un beau bordel d'être aussi multi-casquette. Ca me rappel le temps où je bossais en PME

ionik

[:eponge]

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

speedboyz30

Guide Michelin :o

Nouveaux procs chez AMD:

Citation :

La gamme se compose de trois références :

Le Ryzen AI Max+ PRO 495 trône tout en haut avec 16 cores / 32 threads, une fréquence Boost de 5.2 GHz, un iGPU complet de 40 CU et un NPU à 55 TOPS.

Le Ryzen AI Max PRO 490 passe à 12 cores / 24 threads, avec un Boost à 5.0 GHz, un iGPU de 32 CU et un NPU capable de 50 TOPS.

Enfin, le Ryzen AI Max PRO 485 propose 8 cores / 16 threads, conserve les 32 CU côté graphique et le NPU à 50 TOPS.

https://www.cowcotland.com/news/100 [...] moire.html

[:moonbloood:2] [:la chancla:1]

hardcorsaire

Donc si j'ai bien suivi, les CPU labelisé "AI" d'AMD ont pour principal attrait de supporter un max de RAM alouable à l'iGPU

(bien plus que ce qu'on aura jamais sur un GPU classique)

[:tenjo tenge:4]

neo world

j'attends un peu avant de sauter au plafond. A priori ils vont commencer à livrer HP et lenovo avant la fin de l'année mais j'ai pas vu d'information circuler pour les autres intégrateurs aux meilleurs prix.

Mais ça ferait un beau jumeau à mon strix halo 395 qui n'offre que 121GO de VRAM en bidouillant un peu

neo world

hardcorsaire a écrit :

Oui c'est ce qui permet de tirer 30 à 50 tokens / secondes sur des modèles qui, en CPU, en tirent entre 1 et 8. Evidemment c'est beaucoup moins bien qu'avec un vrai GPU mais 192GB de GDDR / HBM c'est un pwal cher

speedboyz30

Guide Michelin :o

Après la question c'est :

Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?

hardcorsaire

Les modèles de CPU Ryzen AI Max ne sont pas dispo au détail ? uniquement via les machines Halo ?

speedboyz30 a écrit :

Après la question c'est :

Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?

Faut voir la décote de la machine Halo, et surtout les limitations de l'abo Claude

Après, sur la partie privacy, il n'y a pas match

Quich

Pouet ?

"Strix Halo" c'est le nom de la gamme de CPU.
Ce ne sont pas des CPU qui se montent sur un socket type AM5 mais sont montés en BGA (soudé sur la carte mère).
Donc ils ne sont pas vendu seuls mais disponibles avec au minimum une carte mère.
C'est vendu en général dans des mini-PC, par différents assembleurs, pas uniquement AMD.

Message édité par Quich le 21-05-2026 à 17:14:14

---------------
Feedback

speedboyz30

Guide Michelin :o

hardcorsaire a écrit :

Faut voir la décote de la machine Halo, et surtout les limitations de l'abo Claude

Après, sur la partie privacy, il n'y a pas match

Faut déjà bien taper dedans pour arriver au Max 100$ par mois.

La décote ça doit faire mal quand même vu que dans 2 ans ça sera sûrement dépassé [:zyzz:2]
On annonce une sortie de crise de la ram pour 2027

neo world

speedboyz30 a écrit :

Après la question c'est :

Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?

mon plan c'est plutôt un abo claude à 20 balles par mois pour ne pas prendre l'abo à 100 balles sans maîtrise des prix. Je suis sur un plan à 5 ans moi monsieur [:biron_sacquet:3]

Page : 1 2 3 4 5 .. 8 9 10 .. 18 19 20 21 22 23

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co	sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.087 secondes