Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 17 18 19 20 21 22 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

the_fennec

f3nn3cUs z3rd4

Reprise du message précédent :
De quoi tu parles XaTriX?

---------------
Faudra que je teste un jour :o

XaTriX

[:rofl] le trompage de topic

---------------
[:dawa]

neo world

the_fennec a écrit :

Pas si cher que ça quand on voit que 128GB de DDR5 c'est déjà 1200 euros, 350 balles pour un SSD de 2TB ...

Oui et surtout le gpu n’y a pas accès moi j’étais au départ parti pour acheter un pc d’occasion et lui coller un gpu amd ou Intel avec 32GB (trouvable neufs aux environs des 700 balles pièce mais il en aurait rapidement fallu plus et avec le potentiel rattrapage des prix sur les cartes nvidia ( ou si le support restait anecdotique pour les api Intel) je n’aurais pas été serein. La si la reconversion fonctionne je peux toujours étendre via cluster ou alors en faire une machine de jeu au mauvais rapport qualité prix

neo world

XaTriX a écrit :

[:rofl] le trompage de topic

Je me disais avec les histoires de spermatozoides

Je veux pas savoir où tu postes

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

32G de VRAM on peut viser une paire de 5060Ti ou équivalent AMD, mais c'est déjà 1000 balles. Miser sur Intel, a moins de faire un joli coup en occase, c'est très risqué pour le moment.

Ça fait mal au cul, mais ta config est un bon plan, c'est juste que ça doit pas donner des tonnes en token/sec mais c'est top de pouvoir charger n'importe quel model!

Message édité par the_fennec le 30-04-2026 à 12:23:41

---------------
Faudra que je teste un jour :o

neo world

Le nombre de tokens / seconde est pas si ridicule même face à nvidia. Par contre sur des travaux comme de la génération de vidéos c’est pas au point et pour peu qu’on ait besoin d’un modèle en fp16 ou qu’on ait accès à un modèle optimisé avec le mode de précision nvidia sur 4 bits et là en effet l’AMD AI 395 est à la rue niveau performances mais la l’objectif c’est un lab tout en un avec la partie test et debug avant une mise en pseudo prod sur un cluster K8s externe

Tu rigoles mais moi je voulais du minimax 2.7 ou du Kimi ou deepseek. On en est loin encore mais ça fera l’affaire avec un gros modèle en API externe pour lee plus compliqué seulement

XaTriX

neo world a écrit :

Je me disais avec les histoires de spermatozoides

Je veux pas savoir où tu postes

Topic fusées

---------------
[:dawa]

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Tu mets large un Minimax Q3 voir IQ4:
https://huggingface.co/unsloth/MiniMax-M2.7-GGUF

Après je sais pas ce que tu peux espérer en t/s. Il y a cette chaîne que je viens de découvrir qui est pas mal pour les tests en local:
https://www.youtube.com/@AZisk

J'ai trouvé coder-next en IQ3 largement utilisable, pas de raison que Minimax soit moins bon.

Message édité par the_fennec le 30-04-2026 à 14:23:30

---------------
Faudra que je teste un jour :o

dadamonhfr

Avec ces strix halo, la génération de tokens/sec est raisonnable je trouve quand le contexte est petit. Mais malheureusement ça semble chuter lourdement avec les gros contexte.

Le top pour moi, ça serait de lui coller un GPU au cul via nvme/oculink.

neo world

the_fennec a écrit :

J'ai regardé énormément de ses vidéos (je fais tous mes labs avec lui en fond sonore) :whistle: . Pour les tests de perfs du Strix c'est pas forcément la référence parce qu'il à reçu le sien il y a 9 mois avec un support bancal de Vulkan, des firmware pré janvier 2026 qui aident bien à la stabilité et des p'tits oublis d'optimisation (dégager les options de virtualisation pour tirer 6/7% de plus en perf).

Pour la partie + théorique/pratiques des modèles elle explique très bien : https://www.youtube.com/@juliaturc1

dadamonhfr a écrit :

Ca reste faisable si besoin d’accélérer certaines workloads (PCI express 4X mais la perte de perfs est pas si énorme vu que ça effecte surtout le chargement du modèle et y'a moyen d'utiliser le stot m2 PCI 5 si vraiment on trouve ça lent) mais clairement mon plan d’expansion serait plutôt d'en prendre un deuxième et de clusteriser :love: [:cerveau lent]

Mais ce sera pas pour cette année

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Super, je mets ça de coté, merci!

---------------
Faudra que je teste un jour :o

pich_mu

Je galère un peu parfois à faire tourner RooCode + VS Studio avec qwen 3.5 14B et un contexte de 32k sur la 5080. Ça marche mais je sens qu’il offload sur le CPU et la RAM et c’est quand même bien lent…

Je vais essayer de trouver un autre modèle, à ce sujet j’avais une question : on sent vraiment la diff entre un modèle FP16, Q8 et Q4 ? Parce que la quantité de ram nécessaire nan quand même rien à voir :pt1cable:

the_fennec

f3nn3cUs z3rd4

pich_mu a écrit :

Je dirais qu'entre FP16 et Q8 c'est faible. Ensuite ça dépends du modèle. J'ai eu des résultats satisfaisants avec Qwen3-Coder-Next-UD-IQ3_S la ou je trouvais Qwen3.5 35B assez nul, même en Q5/Q6. Par contre je suis content du Qwen 3.6 en Q6.

J'utilise les quants Unsloth, mais je trouve les guide de taille Bartowski bien faits:
https://huggingface.co/bartowski/Qw [...] B-A3B-GGUF

Essaye Qwen3.6-35B-A3B-UD-IQ3_S.gguf pour voir, avec 32k de contexte en Q8:
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF

Tu utilises quoi pour faire tourner ton modèle?

Spoiler :

La bonne réponse c'est llama.cpp

Message édité par the_fennec le 30-04-2026 à 17:25:52

---------------
Faudra que je teste un jour :o

neo world

pich_mu a écrit :

ça aide quand même bien (tu diminue la précision de moitié entre FP 16 et Q8 avec un impact négligeable sur les résultats aux benchmark. Ca tient normalement toujours bien en Q4 mais en dessous ça devient l'aventure des hallucinations selon les modèles :whistle:

Tu utilises quoi pour faire tourner ton modèle ? avec LM studio tu choisis au démarrage ce qui va en GPU / CPU. C'est super lent en mode mixte donc si tu pousses la réglette sur le GPU à 100¨% normalement t'es tranquille surtout que tu as une très belle carte :love:

neo world

Bon le Bosgame M5 pro à pris 170€ depuis hier. quelqu'un ici a ouvert un business de scalping ?

neo world

dadamonhfr a écrit :

ça a l'air pas si cher comme projet : https://aoostar.com/products/aoostar-ag03-egpu-dock

pich_mu

the_fennec a écrit :

Spoiler :

La bonne réponse c'est llama.cpp

neo world a écrit :

Merci à tt les 2 pour les réponses :jap:

J’utilise LM Studio pour faire tourner tout ça, je sais que c’est pas super opti, faut que je me penche sur llama.cpp :whistle:

Des fois je le demande si j’ai pas un pb avec mon setup, même en forçant le chargement sur le GPU à 100% je trouve que ça galère pas mal [:urd]

Je vais regarder les modèles proposés

the_fennec

f3nn3cUs z3rd4

Si t'est sous windows GPU-Z est pas mal pour monitorer je trouve, sous Linux nvtop.

---------------
Faudra que je teste un jour :o

pich_mu

the_fennec a écrit :

Si t'est sous windows GPU-Z est pas mal pour monitorer je trouve, sous Linux nvtop.

Je suis sous Windows oui, comme tu fait pour monitorer sous gpu-z ?

speedboyz30

Guide Michelin :o

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité [:la chancla:1]
Il est parti [:leve le pied jeannot:4]

Sinon fait chier, pas de support MLX sur Apple Silicon <32go

Olivie

SUUUUUUUUUUUUUU

speedboyz30 a écrit :

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité [:la chancla:1]
Il est parti [:leve le pied jeannot:4]

Sinon fait chier, pas de support MLX sur Apple Silicon <32go

À combien?

---------------

speedboyz30

Guide Michelin :o

~4k peanuts en terme de réduction mais au moins c'était dispo.
Et hier apple a annoncé les retards de livraison allaient continuer :

https://9to5mac.com/2026/04/30/appl [...] nstraints/

Olivie

SUUUUUUUUUUUUUU

speedboyz30 a écrit :

~4k peanuts en terme de réduction mais au moins c'était dispo.
Et hier apple a annoncé les retards de livraison allaient continuer :

https://9to5mac.com/2026/04/30/appl [...] nstraints/

Dispo en Belgique https://www.apple.com/be-fr/shop/pr [...] d%C3%A9ral

---------------

XaTriX

speedboyz30 a écrit :

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité [:la chancla:1]
Il est parti [:leve le pied jeannot:4]

Sinon fait chier, pas de support MLX sur Apple Silicon <32go

:??:

---------------
[:dawa]

Rasthor

speedboyz30 a écrit :

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité [:la chancla:1]
Il est parti [:leve le pied jeannot:4]

Sinon fait chier, pas de support MLX sur Apple Silicon <32go

XaTriX a écrit :

:??:

Peut-être en référence à ça ?
https://ollama.com/blog/mlx

Citation :

This preview release of Ollama accelerates the new Qwen3.5-35B-A3B model, with sampling parameters tuned for coding tasks.

Please make sure you have a Mac with more than 32GB of unified memory.

Mais c'est pour utiliser un modèle 35B, donc peut-être que le MLX marche pour les modèles plus petits (genre 7B) sur une machine 16GB ?

Olivie

SUUUUUUUUUUUUUU

Oui MLX marche sur moins de 32GB

---------------

neo world

speedboyz30 a écrit :

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité [:la chancla:1]
Il est parti [:leve le pied jeannot:4]

Sinon fait chier, pas de support MLX sur Apple Silicon <32go

pourquoi pas un AMD AI 395 ? quasi moitié moins cher, plus de mémoire. Si tu en prend un deuxième tu montes à 256GO de mémoire :love: . On pourra ramasser les plâtres des drivers/firmware ensemble [:schiroosh]

Autrement y'a l'AMD AI 370 : un peu moins de perfs mais la RAM (unifiée) peut être upgradée plus tard quand on arrêtera de faire fabriquer toutes les puces de DRAM au détroit d'Ormuz
https://www.amazon.fr/MINIS-FORUM-X [...] B0F58SZG8L

attention y'a quand même un delta de perf 126TOPS pour l'AI395 vs 80 pour l'AI 370 :jap:

gremi

Vieux con des neiges d'antan

pich_mu a écrit :

Ce qui marche étonnamment bien c'est de donner ta commande ollama à Claude, tu lui décris ton setup matériel et lui fournis le log au lancement, et te donne une commande adaptée à ta config ... Pour moi il y avait un paramètre mal optimisé, j'ai doublé mes token/seconde

---------------
In aligot we trust.

neo world

gremi a écrit :

bon à savoir ! c'était quel paramètre pour info et sur quelle architecture / materiel (ça peut aider une autre âme en peine ) ?

the_fennec

f3nn3cUs z3rd4

pich_mu a écrit :

Je suis sous Windows oui, comme tu fait pour monitorer sous gpu-z ?

C'est pour voir l’utilisation VRAM et %GPU. J'utilise aussi System informer pour voir quels applis utilisent de la VRAM, genre Google Drive qui utilise webview pour afficher une icône et deux options ...

---------------
Faudra que je teste un jour :o

speedboyz30

Guide Michelin :o

Rasthor a écrit :

Peut-être en référence à ça ?
https://ollama.com/blog/mlx

Citation :

This preview release of Ollama accelerates the new Qwen3.5-35B-A3B model, with sampling parameters tuned for coding tasks.

Please make sure you have a Mac with more than 32GB of unified memory.

Mais c'est pour utiliser un modèle 35B, donc peut-être que le MLX marche pour les modèles plus petits (genre 7B) sur une machine 16GB ?

Effectivement ça venait de là. Quel boulet [:leve le pied jeannot:4]

neo world a écrit :

J'ai peur des perfs réelles et de la rapidité

Ouvre la voie camarade [:ach_lette]

pich_mu

gremi a écrit :

Super idée ça ! Je vais essayer de faire pareil pour mon setup actuel sous LM Studio on va bien voir

the_fennec a écrit :

Ok c’est du monitoring classique quoi. J’utilise HW info perso pour ça. Connaît pas System Informer par contre je vais jeter un œil :jap:

Quich

Pouet ?

neo world a écrit :

Autrement y'a l'AMD AI 370 : un peu moins de perfs mais la RAM (unifiée) peut être upgradée plus tard quand on arrêtera de faire fabriquer toutes les puces de DRAM au détroit d'Ormuz
https://www.amazon.fr/MINIS-FORUM-X [...] B0F58SZG8L

attention y'a quand même un delta de perf 126TOPS pour l'AI395 vs 80 pour l'AI 370 :jap:

Le problème des machines upgradables c'est la bande passante mémoire, pas tant le nombre de tops/la puissance du GPU intégré.

Tu as 256GB/s en théorie avec la LPDDR5X à 8000MT/s sur un bus 256bit pour les Strix Halo avec un GPU 16/32/40 CU suivant le modèle.

Tu tombes à 90GB/s avec de la DDR5 5600MT/s sur un bus 128bit (2 barrettes sodimm en dual channel) pour la série Strix Point avec un GPU à max 16 CU.

La BP mémoire est très importante pour l'inférence.

Message édité par Quich le 01-05-2026 à 15:17:57

---------------
Feedback

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

BP > Quantités Vram > GPU

---------------
Victime de girafophobie, mais se soigne.

neo world

Quich a écrit :

Le problème des machines upgradables c'est la bande passante mémoire, pas tant le nombre de tops/la puissance du GPU intégré.

Tu as 256GB/s en théorie avec la LPDDR5X à 8000MT/s sur un bus 256bit pour les Strix Halo avec un GPU 16/32/40 CU suivant le modèle.

Tu tombes à 90GB/s avec de la DDR5 5600MT/s sur un bus 128bit (2 barrettes sodimm en dual channel) pour la série Strix Point avec un GPU à max 16 CU.

La BP mémoire est très importante pour l'inférence.

Bon point :jap: de ce que j'ai lu le GPU du 395 dispose de 200GB/s max (100GB/s max pour le CPU). Je me rend pas compte de la perte de perf (la moitié en tokens/s ?) mais si je compare a mon M5 pro avec 273GB/s de bande passante : largement suffisant pour un usage de Lab "avancé" / Développement d'apps même avec des contextes significatifs (40k plus) / Génération d'images avec Flux 2 and consort : 2 fois plus lent reste beaucoup plus rapide qu'un humain qui tape et à peu prêt dans ce qu'on est capable de lire en temps réel (notamment quand on passe en debug interactif). Ca devient plus discutable si on en tire des performances de CPU (0.6 / 1.3 token par seconde) : on lit plus vite que ce que la machine est capable de générer et une journée de travail ne permet de récupérer qu'entre 10 et 30k tokens. C'est bon mais pas suffisant

Tronklou a écrit :

BP > Quantités Vram > GPU

je mettrais la quantité de VRAM à égalité avec la Bande passante. Size matters

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Bof, si ça tourne a 8 token second c'est inutilisables.

---------------
Victime de girafophobie, mais se soigne.

neo world

tu veux dire que tu fais plus rapide que la machine (peut être avec le debug inclus) ?

neo world

autrement pour ceux qui cherchent une carte pas chère (environ 500 balles dans ce que j'ai vu sur Ebay) avec 32 GO de HBM2 / 1 TB de bande passante : https://medium.com/@nejc.fosnaric/f [...] 118824fcd1

A 300 watts de conso ça chauffe un pwal par contre

Message édité par neo world le 01-05-2026 à 17:21:34

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

:??:

Test au quotidiens un llm avec peu de token second en sortie et tu verras

---------------
Victime de girafophobie, mais se soigne.

neo world

Tronklou a écrit :

:??:

Test au quotidiens un llm avec peu de token second en sortie et tu verras

clairement si j'ai le choix je fais chauffer un Qwen 3.6 35B / les alternative avec mixture of experts @60 tokens / seconde plutôt que les modèles denses. Mais à partir de 7 tokens / seconde j'ai les yeux qui brillent sauf quand il pond n'importe quoi ce qui est moins rare que ce que les bench portent à croire

speedboyz30

Guide Michelin :o

Vous permettez un petit commentaire de Claude ? [:benjy86]

Edit: bordel ça bug

Message édité par speedboyz30 le 01-05-2026 à 17:49:20

Page : 1 2 3 4 5 .. 17 18 19 20 21 22

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co	sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.067 secondes