Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 18 19 20 21 22 23 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

croustx

Modoadorateur

Reprise du message précédent :

the_fennec a écrit :

Bon, c'est en place:
https://i.imgur.com/Euz9D08.jpeg

Mais j'ai mis les deux cartes sur la même alim 12V ... on sait jamais sur un malentendu mais non, dès que je monte en charge les deux cartes reboot.
C'est pas surprenant, l'alim est donnée pour 360W max et c'est pas un truc de super qualité, mais a 17 euros, elle fait le taf.

J'ai commandé une autre alim, un autre ventilo et un meilleur cable 8pins tant qu'a faire.

J'avais cru comprendre que mettre plusieurs BC250 en réseau ne donnait pas un très bon résultat ?

Message cité 1 fois

the_fennec

f3nn3cUs z3rd4

croustx a écrit :

J'avais cru comprendre que mettre plusieurs BC250 en réseau ne donnait pas un très bon résultat ?

Pour l'instant j'ai une 4060Ti 16GB et une BC250 en réseau RPC, j'en suis content. C'est sur qu'avoir tout en local serait plus performant avec un layer-split=tensor, mais c'est mieux que rien.
Avec la deuxième BC250 je pourrais charger du Qwen 3.6 en Q8 MTP, 27B et même 35B! A voir ce que ça donne en perf...

J'ai même trouvé un MiniMax-M2.7-REAP-139B-A10B-Q3_K_M de 65GB, mais ça sera pour le LOL, je pense pas que ça sera utilisable.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

Pipould's

the_fennec a écrit :

J'ai même trouvé un MiniMax-M2.7-REAP-139B-A10B-Q3_K_M de 65GB, mais ça sera pour le LOL, je pense pas que ça sera utilisable.

En parlant de layer split, on dirait que le split tensors avec MTP ne fonctionne pas et rebalance Les couches mtp Sur le cpu. Vous confirmez ? Pour qwen 3.6 27b

J'en en tout cas ce que j'ai sur ma configuration (3090/3090ti).

Message cité 1 fois

neo world

Partage la ligne de commande que tu utilises

Moi ca passe en vram mais d’autres verront peut être des soucis

the_fennec

f3nn3cUs z3rd4

Pipould's a écrit :

En parlant de layer split, on dirait que le split tensors avec MTP ne fonctionne pas et rebalance Les couches mtp Sur le cpu. Vous confirmez ? Pour qwen 3.6 27b

J'en en tout cas ce que j'ai sur ma configuration (3090/3090ti).

Le split tensors ne marche pas en RPC donc je peux pas tester. Mais en layer c'est sur GPU chez moi. T'es sur que tout passe en VRAM? Le MTP ajoute 3GB d'utilisation en plus sur un seul layer. Essaye "-ngl all" si tu l'as pas déjà.

Message cité 1 fois
Message édité par the_fennec le 23-06-2026 à 09:30:22

---------------
Faudra que je teste un jour :o

Pipould's

the_fennec a écrit :

J'essaie ca depuis hier soir. Je suis repasse en split layer, mon PP a fait un bon de 250. Mais ma generation a baisse j'ai l'impression. A voir si j'ai des OOM systeme du coup.

Message cité 1 fois

the_fennec

f3nn3cUs z3rd4

Pipould's a écrit :

J'essaie ca depuis hier soir. Je suis repasse en split layer, mon PP a fait un bon de 250. Mais ma generation a baisse j'ai l'impression. A voir si j'ai des OOM systeme du coup.

T'es sur un GPU AMD? Beaucoup de ne trucs marchent (bien) que sur CUDA.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

b-tzu

Geek a toute heure...

[:lardoncru:1]

Je vais faire des tests avec OpenVino sur mon cpu lunar lake (ultra 7 258V)
Je ne sais pas m'attendre à quoi au final, sûrement un modèle 3B, vu que j'ai que 32Go de ram unifiée, peut être un petit chat privé ou un agent de code simple pour des petits projets perso à côté

Message cité 1 fois
Message édité par b-tzu le 23-06-2026 à 10:37:24

---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)

Pipould's

the_fennec a écrit :

T'es sur un GPU AMD? Beaucoup de ne trucs marchent (bien) que sur CUDA.

La pour le coup c'est sur un Dual 3090 Ti / 3090. J'ai ca et un Strix Halo (qui me pose pas mal de soucis de timeout HTTP tellement ca prend longtemps a remonter des contextes)

Message cité 2 fois
Message édité par Pipould's le 23-06-2026 à 10:59:15

neo world

Pipould's a écrit :

La pour le coup c'est sur un Dual 3090 Ti / 3090. J'ai ca et un Strix Halo (qui me pose pas mal de soucis de timeout HTTP tellement ca prend longtemps a remonter des contextes)

copain de strix halo !

tu as quel modèle (version / constructeur / vram) de strix halo et avec quel modèle tu as eu le problème (quel moteur d'inférence, OS, modèle et quantization) ? Jamais eu de soucis de timeout http même sur des modèles de plus de 110GB (donc 120 en comptant le contexte :pt1cable: ). Le seul problème que j'ai pu avoir c'est avec LM Studio et un plugin VS Code qui laissait 30 secondes max au modèle pour former toute sa réponse (pre processing + token gen) avant de droper au milieu des tokens générés

Message cité 1 fois

Pipould's

neo world a écrit :

J'ai un bosgame M5 dans un chassis 3d printed.

Oui c'est ca que je veux dire.... J'utilise lemonade (mais n'importe, ca change rien), t'as le model qui process ou pond ses tokens et au milieu t'as le HTTP timeout de la facade qui arrive... Et ca pourri mon cline en sortie...

Pour dire la j'ai:

Strix (lemonade) -------\
----- Olla disptacher [SSH TUNEL] --- VPS [NGINX / API key proof / domaine public]
Dual 3090 (lemonade)--/

Message cité 2 fois

the_fennec

f3nn3cUs z3rd4

b-tzu a écrit :

Ah bah merci. Je vais regarder llama.cpp.
Ollama je ne connaissais pas et ça ne m'a pas trop inspiré par contre lm studio ça avait l'air bien, et ça permet en un click de partager sur le réseau local pour continue.dev dans vs code.
Tu utilise quelle ia pour te conseille sur l'ia locale ?

Ollama et LM Studio sont bien si tu as une config standard et que tu veux/peux pas bidouiller. C'est peut être possible de faire les faire marcher, mais je pense que llama.cpp est plus indiqué pour tenter le coup avec un NPU.
Tu peux peut essayer Gemma 4B qat:
https://huggingface.co/unsloth/gemma-4-E4B-it-qat-GGUF

voire 12B si t'es joueur:
https://huggingface.co/unsloth/gemma-4-12B-it-qat-GGUF

autrement Qwen 3.5 4B en Q4_K_M:
https://huggingface.co/unsloth/Qwen3.5-4B-GGUF

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Pipould's a écrit :

La pour le coup c'est sur un Dual 3090 Ti / 3090. J'ai ca et un Strix Halo (qui me pose pas mal de soucis de timeout HTTP tellement ca prend longtemps a remonter des contextes)

En cluster RCP ou deux instances séparées? Quel model?
Si t'es en RPC, passe le coté NVidia en Vulkan, je trouve que ça marche beaucoup mieux, mais split layer obligatoire (et --direct-io aussi).

Comme indiqué par neo world, donne ta command line.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Pipould's a écrit :

Ha, lemonade je connais pas.

Message cité 2 fois

---------------
Faudra que je teste un jour :o

Pipould's

the_fennec a écrit :

Ha, lemonade je connais pas.

Lemonade c'est la vie. je suis en lien avec les devs sur discord, ca bouge ultra rapidement....

Message cité 1 fois

Pipould's

the_fennec a écrit :

Le strix est separe du dual de 3090, completement. J'ai un PC (7700, B850, 32GB 6000) avec les 2 3090 dessus, et le strix.

Est-ce qu'il y aurait un interet a coupler tout ca avec du llama-rpc ? Franchement je vois pas, les 3090 sont tellement plus rapide que le strix des que le modele et context fit la vram...

J'utilise plutot le strix en mode agentic ai / gros modele / test. Et le dual 3090 pour "ma prod".

Quel est ton setup / gain avec RPC d'active ?

Message cité 1 fois

neo world

Pipould's a écrit :

faut laisser tomber cline ou passer quelques paramètres à la mano :
https://github.com/cline/cline/issues/9182
{
"requestTimeoutMs": 300000,
...
}

dans globalstate.json. Là c'est reglé pour 5 minutes

Message cité 1 fois

the_fennec

f3nn3cUs z3rd4

Pipould's a écrit :

Lemonade c'est la vie. je suis en lien avec les devs sur discord, ca bouge ultra rapidement....

Faudra que je regarde, mais ça fait beaucoup de trucs mélangés

Pipould's a écrit :

Tu pourrais mettre un gros MoE avec les layers d'attention sur la paire de 3090 et les experts sur le Strix et viser des modèles a plus de 150GB :love:

Mon setup c'est 4060Ti 16GB + 2x BC250, mais j'attends ma deuxième alim, donc une BC250 pour le moment.

Mon gain c'est uniquement en VRAM, en vitesse, je suis pas sur de gagner tant que ça. En (très) gros avec 128K de contexte je suis a 100pp/10tg sur Qwen 27B Q5 MTP ou 300pp/30tg sur 35B Q5 MTP. (avec contexte remplis, quand il est vide ça va beaucoup plus vite ).

Message cité 1 fois

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

Ha, lemonade je connais pas.

c'est un bon front à vulkan / Rocm / gestion des modèles mais attention c'est pas aussi mature que d'autres alternatives (lmstudio en premier). L'interface web est quand même bien pratique

Message cité 1 fois

Pipould's

neo world a écrit :

Exact... Mais du coup t'es bon pour passer la journee a prompt un truc qui te prendrai 1h a la mano...

Message édité par Pipould's le 23-06-2026 à 12:21:35

Pipould's

the_fennec a écrit :

Le tout en llama rpc ? C'est pas con en fait... Tu peux assigner comme ca ?

Message cité 1 fois

Pipould's

neo world a écrit :

c'est un bon front à vulkan / Rocm / gestion des modèles mais attention c'est pas aussi mature que d'autres alternatives (lmstudio en premier). L'interface web est quand même bien pratique

C'est plus un overlay de llamacpp / vllm / mlx / etc... Avec les backends cite... Que un outil all-in-one ou tu prompte aussi.

Je l'avais pris pour le load/unload dynamique des modeles a l'epoque.

neo world

pour fêter ce jour de canicule : nouveau sondage et hardware hall of fame en FP.

Si je vous ait oublié ( :jap: ) pingez vos configs !

the_fennec

f3nn3cUs z3rd4

Pipould's a écrit :

Le tout en llama rpc ? C'est pas con en fait... Tu peux assigner comme ca ?

Oui tu lances rpc-server sur un host "slave" et sur le "master" avec -ts rpc,local :

Code :

--rpc slave:50000 -ngl all --split-mode layer -ts 20,20 --n-cpu-moe 0

(tu peux mettre plus de rpc avec --rpc slave1:50000, slave1:50000 et le -ts slave1,slave2,local)

Pour la répartition des layers, voila la syntaxe:

Code :

--override-tensor "output.weight=Vulkan0" \
--override-tensor "token\_embd.weight=Vulkan0" \
--override-tensor "blk.12.ffn\_down.weight=Vulkan0" \
--override-tensor "blk.13.ffn\_down.weight=Vulkan0"
...

On peut mettre des regex:
https://github.com/ggml-org/llama.cpp/discussions/13154

Mais j'en suis pas encore la

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

@neo world, pour la FP, j'ai aussi un MBP m4 48GB pour le taf (et Bedrock aussi )

Message cité 1 fois

---------------
Faudra que je teste un jour :o

b-tzu

Geek a toute heure...

bon, cest bien compliqué a conf llama pour openvino. deja telecharger les bonnes dll openvino cest pas la folie, puis le lancer bien... et avoir des perfs deguelasse de 1 token seconde, meme sur des modeles 1.5B. gemini (toujours lui) me dit que le gguf nest peut etre pas adapté au npu, et qu'il faudrait une version spécifique du modele avec des fichiers xml et bin, quantification int4. je teste au fur et a mesure

Message cité 1 fois

---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)

neo world

the_fennec a écrit :

@neo world, pour la FP, j'ai aussi un MBP m4 48GB pour le taf (et Bedrock aussi )

j'ai failli mettre ∞ pour bedrock mais ici c'est de l'infra locale uniquement ! :whistle:

Même employé AWS ça compte pas sauf à avoir son bedrock dans son batiment ou à la rigueur s'appeler Jeff ou un de ses N-1 / N-2 grand-grand max

Message cité 1 fois
Message édité par neo world le 23-06-2026 à 15:36:20

morcok

Vous utilisez quoi comme model pour opencode sur une carte 12go ?

Message cité 1 fois

the_fennec

f3nn3cUs z3rd4

b-tzu a écrit :

Donnes un peu plus d'info... quel OS, modèle, ligne de commande. C'est plustot le NPU qui n'est pas adapté à l'IA, c'est juste un gimmick, mais si tu peux l'utiliser ça sera avec llama.cpp je pense.

neo world a écrit :

:lol: oui tu as raison!

morcok a écrit :

Vous utilisez quoi comme model pour opencode sur une carte 12go ?

Une 3060? Quel CPU/RAM/OS?
Tu pourrais commencé par un Gemma 4 12B QAT, ça devrait passer. Si t'es joueur et patient Qwen 3.6 35B avec les experts en RAM.

Message cité 2 fois

---------------
Faudra que je teste un jour :o

morcok

the_fennec a écrit :

Une 3060? Quel CPU/RAM/OS?
Tu pourrais commencé par un Gemma 4 12B QAT, ça devrait passer. Si t'es joueur et patient Qwen 3.6 35B avec les experts en RAM.

Intel i9 je sais plus quoi, 64go de ram et 3060 12go en effet.

Pour l'instant je suis sur qwen 3.6 35B effectivement. C'est pas mal mais c'est lent.
Je vais essayer gemma 4 12b, merci pour ta réponse

Message cité 1 fois

b-tzu

Geek a toute heure...

the_fennec a écrit :

:lol: oui tu as raison!

the_fennec a écrit :

Une 3060? Quel CPU/RAM/OS?
Tu pourrais commencé par un Gemma 4 12B QAT, ça devrait passer. Si t'es joueur et patient Qwen 3.6 35B avec les experts en RAM.

Windows 11, qwen 3 coder 7B et 1.5B.
J'ai bien configuré llama.cpp, avec openvino.

Message cité 1 fois

---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)

the_fennec

f3nn3cUs z3rd4

morcok a écrit :

Intel i9 je sais plus quoi, 64go de ram et 3060 12go en effet.

Pour l'instant je suis sur qwen 3.6 35B effectivement. C'est pas mal mais c'est lent.
Je vais essayer gemma 4 12b, merci pour ta réponse

Lent comment? Tu utilises quoi pour l'inférence, quel quants?

b-tzu a écrit :

Windows 11, qwen 3 coder 7B et 1.5B.
J'ai bien configuré llama.cpp, avec openvino.

Ça donne quoi dans le task manager? Est-ce que le NPU est utilisé?

---------------
Faudra que je teste un jour :o

b-tzu

Geek a toute heure...

le npu est bien a 100% dusage oui

Message cité 1 fois

---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)

the_fennec

f3nn3cUs z3rd4

b-tzu a écrit :

le npu est bien a 100% dusage oui

Bon, ben voila, a moins de choisir un autre modèle plus petit, ça n'ira pas plus vite .
Peut être Gemma 4 QAT, comme il est plus récent, mais bon ça reste un NPU.

---------------
Faudra que je teste un jour :o

b-tzu

Geek a toute heure...

et lhistoire de format ? oublier gguf pour xml/bat, comme ici : https://huggingface.co/OpenVINO/Qwe [...] ct-int4-ov

---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)

the_fennec

f3nn3cUs z3rd4

Non je pense pas que ça va aider. Tu as essayé quel quants? Quelle taille fait le modèle?
T'as essayé le iGPU plutôt que le NPU?

Essaye un truc tout petit, genre ça en Q4_K_M:
https://huggingface.co/unsloth/Qwen3.5-2B-GGUF

Post un screen de ton taskmanager, ta ligne de commande et les logs de llama.cpp.

Message édité par the_fennec le 23-06-2026 à 20:46:24

---------------
Faudra que je teste un jour :o

bounty2k

D'ailleurs pour l'anecdote j'ai testé LlamaCPP et Ollama sur un PC a base d'Ultra 5 235U eh bien sur ollama l'inférence se fait sur le CPU alors que llamaCPP utilise le GPU.
Par contre je n'ai pas réussi a utiliser le NPU, trop compliqué même avec la version spécifique llamaCPP.
Mais j'ai vue sur une chaine YT qui est déja passé sur le topic que le NPU était moins performant que le GPU mais plus efficient, donc l'intérêt est très relatif. Il montrait d'ailleur que llamaCPP était plus rapide en Vulkan que l'environnement OpenVINO d'Intel :lol:

Message cité 1 fois

Olivie

SUUUUUUUUUUUUUU

Version 1 bit

Citation :

@UnslothAI
1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5

We gave 3 models the same prompt and compared one-shot outputs.

The 1-bit GLM-5.2 GGUF ran locally on a Mac Studio M3 Ultra with 256GB RAM at ~21.6 tok/s.

Which output do you like best?
GGUF: https://huggingface.co/unsloth/GLM-5.2-GGUF

Message cité 2 fois

---------------

b-tzu

Geek a toute heure...

jai essayé le igpu, avec un modele 8B qwen 3 jetais a 8 token seconde, ca passe encore.
la je teste le tiens, je ne sais pas pourquoi il ne genere rien. le serveur tourne, mais je nai rien sur linterface quand je fais un prompt. mais j'ai deja essayé un tout petit, un 1.5B.

Message cité 1 fois

---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)

b-tzu

Geek a toute heure...

Olivie a écrit :

Version 1 bit

Citation :

256 Go de RAM :ouch:

Message cité 1 fois

---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)

neo world

et avec une grosse bande passante (de tête 800GO/s) en M3 Ultra. c'est une machine de guerre mais même là ça plafonne à 20 tokens / seconde

Avec la crise de la RAM ça va être compliqué de faire tourner ce type de modèle avec un budget 3000€ ou moins (on doit pas être loin des 10k€ avec deux DGX spark ou 5k€ avec deux strix halo) ou alors faut taper les 10 BC250 en promotion pour 2600 balles mais ça fait beaucoup de temps perdu en réseau

Page : 1 2 3 4 5 .. 18 19 20 21 22 23

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co	sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.054 secondes