Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 10 11 12 .. 18 19 20 21 22 23 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

the_fennec

f3nn3cUs z3rd4

Reprise du message précédent :

neo world a écrit :

A priori 'est pour continuer le projet tel quel mais je comprend l'envie de changer. Tu peux faire le summary / Compaction ailleurs (cloud rapide) pour dépasser le problème de timeout ?

Je cherche un combo qui peut tourner h24 sans s’arrêter, je m'en fous d'être a 2 tgs, ou qu'une compaction prenne 10 minutes. A terme je voudrais laisser l'agent tourner avec un but précis, genre "reverse engineering" complet d'un firmware jusqu`à ce que les sources compilée donnent le même binaire.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

le code hexa donne quelque chose ? Ca peut donner un bon point de départ.

Sinon j'ai pas d'idée pour la compaction. A ta place je regarderai comment rallonger le temps avant timeout (sur Continue j'avais un hard limit à 30 secondes sur chaque requète mais en passant à Cline j'ai plus ce problème débile avec LM Studio ).

Message cité 1 fois

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Sur pi.dev il y a un réglage "unlimited" mais ça fait rien. Je suis repassé sur Opencode qui marchait pas si mal au final.

Pour le reverse engineering, je pense que je devrais passer sur des modèles décensurés, donc ça sera pour plus tard.

---------------
Faudra que je teste un jour :o

neo world

Ca marche plutôt bien mais selon les méthodes de décensure il peut y avoir des baisses de performances (minime dans les tests que j'ai fait avec des modèles de 27 milliard à 120 milliard e paramètres )

the_fennec

f3nn3cUs z3rd4

c'est heretic qui s'en sort le mieux il me semble

---------------
Faudra que je teste un jour :o

neo world

Les modèles les plus téléchargés ont ça en tag sur hugging face entre autres tags :jap:

hardcorsaire

extenue1 a écrit :

Test du Nvidia DGX Spark (Dell) : le mini PC IA à 128 Go de RAM

https://www.frandroid.com/marques/3 [...] -go-de-ram

A 3k je prends, 6k non

Quel est l'intérêt de cette machine alors qu'on on a le DGX Spark officiel pour moins cher ? [:pingouino dei]

neo world

Pour toi pas grand-chose (sauf peut être en période de soldes) mais pour une entreprise qui travaille avec Dell / HP / Lenovo ou via des centrales d’achats c’est très utile :jap:

the_fennec

f3nn3cUs z3rd4

J'étais repartis sur Opencode, pour finir par me rappeler qu'il finissait par "soft boucler" et n’avançait plus vraiment.

J'ai donné sa chance a codex pour voir... C'est un vrai bordel a configurer, comme d'hab' avec les trucs vibe codés, les docs sont imbitables et pas a jour.
Mais le résultat est pas mal!
La il tourne depuis 25h non-stop avec 60k de contexte et ça avance toujours. Bon, on y est pas encore pour boot Linux sur l'Amiga, mais il progresse!

Codex a des tonnes d'options, il faut que je creuse:
https://developers.openai.com/codex/config-sample

Un truc intéressant est qu'il a des fichiers de specs sur les modèles:
https://github.com/openai/codex/blo [...] odels.json

Ça serait pas mal d'en faire un special pour Qwen. Au début le CLI était pas content de ne pas connaitre le modèle, et qu'il ferait par défaut.
Je vois aussi ça dans les logs de llama.cpp:

Code :

srv server_chat_: unsupported Responses tool type 'web_search' skipped

Je sais pas si c'est coté codex, llama ou modèle, a voir.
Dernier point, le MTP ... je sais pas trop, d'un coté je suis toujours 50 tg/s après 26h, mais de l'autre je dois être en Q5M au lieu de Q6

---------------
Faudra que je teste un jour :o

Plam

Bear Metal

Ah cool, j'ai pas pensé à tester Codex :jap:

L'impression générale par rapport à OpenCode ?

Message cité 1 fois

---------------
Spécialiste du bear metal

the_fennec

f3nn3cUs z3rd4

Plam a écrit :

Ah cool, j'ai pas pensé à tester Codex :jap:

L'impression générale par rapport à OpenCode ?

Je trouve que c'est mieux au niveau progrès sur le projet, j'ai l'impression que les prompt systèmes sont meilleurs.
Pas de soucis au niveau du tooling ou de la gestion de process.
J'ai pas trop creuser les commandes et options, si il tourne encore bien après le WE, j'investirais un peu plus de temps.
J'aime bien le plugin web d'Opencode, a voir si on peut faire pareil avec codex.

Par contre la config est compliquée, a la moindre erreur il te rebascule sur OpenAI et te demande de te connecter. Le risque étant de bouffer tes quotas OpenAI au cas ou tu ais une merde sur ta config locale.

---------------
Faudra que je teste un jour :o

Plam

Bear Metal

Super merci, je testerai ça ce we sur mon qwen 3.6 27b :jap:

---------------
Spécialiste du bear metal

the_fennec

f3nn3cUs z3rd4

Pour info ma config:
~/.codex/config.toml

Code :

model = "default"
model_provider = "llama"
# Optional, only if you want the window explicitly documented in your config.
# If omitted, Codex uses the model default.
model_context_window = 65000
# Trigger auto-compaction earlier instead of waiting near the end.
model_auto_compact_token_limit = 64000
[model_providers.llama]
name = "llama"
base_url = "http://llama:8080/v1"
wire_api = "responses"
timeout_ms = 50000000
refresh_interval_ms = 300000

Mon llama.cpp a un contexte de 65536.

Ma config llama.cpp (Windows):

Code :

set model=-m Qwen3.6-35B-A3B-UD-Q5_K_S_MTP.gguf
set tuning=--ctx-size 65536 --temp 0.6 --top-p 0.95 --min-p 0.0 --top-k 20 --presence-penalty 0.0 --repeat_penalty 1.0
set layers=-ngl 99 -ts 20,20 --n-cpu-moe 0 -ctk q8_0 -ctv q8_0
set mtp=--spec-type draft-mtp --spec-draft-n-max 3
set think=--chat-template-kwargs "{\"preserve_thinking\": true}" --reasoning on --reasoning-budget 2048 --reasoning-budget-message ". Reasoning completed, implement it."
llama-server -lv 4 --no-mmap --mlock --flash-attn on --metrics --alias default --host 0.0.0.0 --rpc bc250:50000 --port 8080 --jinja %model% %layers% %tuning% %think% %mtp%

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Bon, codex ça tourne pas mal, mais au bout d'un moment j'ai des erreurs 500 de llama.cpp, codex me dit "on a une charge élevée" . Je déteste ça quand les services/apps essayent de cacher la merde sous le tapis.
Dans la console de llama, je vois bien l'erreur 500, et un problème de parsing JSON. Je pense que c'est a cause de MTP qui se fait dessus ou Q5M. J'ai enlevé MTP et je suis repassé en Q6 pour voir si c'est mieux.

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Bon, pas mieux, même pire vu que ça arrive plus vite, erreur 500

Code :

{"error":{"code":500,"message":"Failed to parse tool call arguments as JSON: [json.exception.parse_error.101] parse error at line 1, column 96865: syntax error while parsing value - invalid string: missing closing quote; last read: '\"python3 -c \\\"\\nimport struct\\n\\nwith ope...

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

:lol: codex a fini par régler le problème de lui même, il a effacé presque tout le projet de lui même, allez, hop, poubelle!

---------------
Faudra que je teste un jour :o

Plam

Bear Metal

Pas de projet, pas de problème

---------------
Spécialiste du bear metal

XaTriX

---------------
[:dawa]

the_fennec

f3nn3cUs z3rd4

Stop One-Shotting MoE Models - Why They Fail and What Works
https://www.youtube.com/watch?v=0enQ2yRY18g

Une vidéo intéressante sur les MoE, comment ils marchent, quel problèmes ils engendrent et comment les régler.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Je suis repassé su pi.dev pour voir, il y a un plugin llama.cpp je me disais que ça serait mieux
Je suis surpris de pas voir beaucoup d'issues ouvertes, et je trouve un bug qui m'affecte:
https://github.com/earendil-works/pi/issues/3612

Citation :

This issue was auto-closed. All issues from new contributors are auto-closed by default.

:lol: le vibe-coding c'est l'ère du David Goodenough
[:amonchakai:1]

---------------
Faudra que je teste un jour :o

Amonchakai

the_fennec a écrit :

C'est intéressant. Après par principe, je fais souvent la décomposition en sous tache, pas de façon réfléchie comme il le dit, mais pour suivre l'avancement et que je me retrouve pas avec une tonne de truc a reviewer a la fin.

Sinon en méthode full agentique, on me disait aussi de passer par claude code superpowers pour faire plan et ensuite laisser les modèles locaux ou a moindre cout faire le taff.
Ça reviendrai un peu a ce qu'il décrit

Message édité par Amonchakai le 01-06-2026 à 16:45:36

the_fennec

f3nn3cUs z3rd4

On trouve des 3080 20 GB en chine, dans les 500€:
https://www.reddit.com/r/LocalLLaMA [...] reddit_and

Il s'agit d'un PCB custom avec le double de VRAM.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

Quich

Pouet ?

the_fennec a écrit :

On trouve des 3080 20 GB en chine, dans les 500€:
https://www.reddit.com/r/LocalLLaMA [...] reddit_and

Il s'agit d'un PCB custom avec le double de VRAM.

Ça parle de 650$ avec livraison et taxes.
Pour de l'inférence, c'est vraiment mieux qu'une 7900XT 20GB qu'on trouve autour de 500-550€ d'occaz par chez nous ?

Message cité 1 fois

---------------
Feedback

M300A

De mon expérience AMD sous Linux pour n'importe quoi tu te barres en courant. Rien que pour le compute il doit y avoir trois framework différents, plus ou moins compatibles selon les cartes, les modèles, les "serveur de modèle".
Moi j'y toucherai pas même avec un bâton.

Message cité 1 fois
Message édité par M300A le 02-06-2026 à 23:27:09

---------------
:wq

the_fennec

f3nn3cUs z3rd4

Quich a écrit :

Ça parle de 650$ avec livraison et taxes.
Pour de l'inférence, c'est vraiment mieux qu'une 7900XT 20GB qu'on trouve autour de 500-550€ d'occaz par chez nous ?

J'en ai vu une sur ebay hier a 499 euros, mais elle est partie. Il y en a des tonnes sur Alibaba dans les 400, mais faut négo les FDP, je sais pas combien ça donne au final.
Après si on veut pas se prendre la tête Nvidia c'est le plus simple et le plus perf.

Je recommande pas la 3080 20GB, c'est juste une curiosité, un peu comme les 4090 48GB.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

ionik

the_fennec a écrit :

Tu recommandes quoi alors ?

Message cité 2 fois

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

LibreArbitre

La /root est longue

ionik a écrit :

Tu recommandes quoi alors ?

Une 5090 32 Go [:shimay:1]

Message cité 2 fois

---------------
Pharyo | Cinépite | Capvirage

the_fennec

f3nn3cUs z3rd4

ionik a écrit :

Tu recommandes quoi alors ?

Ça dépends beaucoup du budget et de ce que tu as déjà. Je trouve que la BC250 marche bien sous Linux, Vulkan et llama.cpp semblent bien aller, ROCm par contre ça à l'air un peu le bordel.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

LibreArbitre a écrit :

Une 5090 32 Go [:shimay:1]

RTX PRO 6000 96Go c'est mieux

Message cité 2 fois

---------------
Faudra que je teste un jour :o

gilou

Modosaurus Rex

the_fennec a écrit :

RTX PRO 6000 96Go c'est mieux

Il y en a en stock chez LDLC [:ooinverse]

A+,

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Les paroles s'envolent, les APIs REST -- Hacker vaillant rien d'impossible -- (╯°□°)╯︵ ┻━┻

Plam

Bear Metal

the_fennec a écrit :

RTX PRO 6000 96Go c'est mieux

En vrai, très bon GPU, beaucoup de vRAM pour les modèles, chauffe pas trop, plutôt rapide. Par contre pour un particulier, je reconnais que c'est quand même pas à la portée de tous… Ceci étant dit, tu en fais ton assistant perso pour tout au quotidien, ça peut être un bon invest'

Message édité par Plam le 03-06-2026 à 13:08:13

---------------
Spécialiste du bear metal

hardcorsaire

M300A a écrit :

Mais ça fait pas genre +de 15 ans qu'on a OpenCL qui unifie tout ça ?

Ou alors on ne parle pas de la même chose ?

Message cité 1 fois

ionik

LibreArbitre a écrit :

Une 5090 32 Go [:shimay:1]

the_fennec a écrit :

Ça dépends beaucoup du budget et de ce que tu as déjà. Je trouve que la BC250 marche bien sous Linux, Vulkan et llama.cpp semblent bien aller, ROCm par contre ça à l'air un peu le bordel.

Je parle surtout afin d'avoir du multi GPU pour de gros modèle (mais pour le pauvre )

Message cité 1 fois

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

the_fennec

f3nn3cUs z3rd4

hardcorsaire a écrit :

Mais ça fait pas genre +de 15 ans qu'on a OpenCL qui unifie tout ça ?

Ou alors on ne parle pas de la même chose ?

Non, OpenCL c'est mort, personne ne l'utilise saut peut être des trucs IoT spécifiques.
En gros:
NVidia = CUDA, AMD = ROCm/Vulkan, Intel = OpenVINO/Vulkan, Apple = Metal/MoltenVK

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

ionik a écrit :

Je parle surtout afin d'avoir du multi GPU pour de gros modèle (mais pour le pauvre )

Si les prix était normaux, je dirais une paire de RTX 5060Ti 16GB, mais c'est une carte qui devrait valoir 400 euros, pas 550. Peut être une paire de Radeon RX 9060 XT 16GB a 400?
Je pense qu'il faut viser 32GB de VRAM pour être à l'aise.

Après si t'as une alim qui tiens le coup, la paire de 3090 en occase est un méga bon plan si le prix est correct.

Pour les joueurs, il y a les chinoiseries genre la 3080 20GB si le prix est bon, les BC250, une paire de V100 SXM2, les Radeon Instinct.

Moi je cherche une deuxième 4060Ti 16GB mais je trouve pas

Message cité 1 fois
Message édité par the_fennec le 03-06-2026 à 14:42:30

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

De mon coté je teste nanocoder qui a l'air pas mal.
J'ai laissé tombé MTP, le gain en tg/s est bon, mais il utilise beaucoup plus de VRAM, les modèles sont plus gros ET font des OOMs plus facilement. Je dois passer en Q5 au lieu de Q6 ou Q8.
Le principal problème de MTP pour moi et qu'il n'y a pas de gain en prompt processing, et c'est ce qui prends le plus de temps au final pour moi, spécialement les compactions.

Je suis en train de tester Qwen3.6-27B-Q8_0 qui passe large en fait.

---------------
Faudra que je teste un jour :o

ionik

the_fennec a écrit :

J'ai pas encore fini mon installation complète car je n'ai pas le temps mais j'ai :

Dans le serveur qui ne tourne plus pour le moment (mais pas eu le temps de tester depuis un moment les nouveau modèle)
2 x P40 (mais c'est de la bricole je trouve) (mais j'en ai une en rab)
1 X RTX A4000
Dans mon PC
1 X 3090

Message édité par ionik le 03-06-2026 à 16:11:35

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

the_fennec

f3nn3cUs z3rd4

50GB de VRAM dans ton server! T'as moyen de faire des trucs!
J'ai une 1650 Super, Pascal comme tes P40 et ça marchait pas mal! Le seul problème c'est le FP16, mais il suffit de mettre des modèles Q8.

Bon ya aussi la conso idle ou pas qui doit pas être jojo.

Limite tu mets tes 3 P40 dans le server pour 48Go de VRAM et les deux RTX dans ton PC.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

ionik

the_fennec a écrit :

2* P40 48 Go + A4000 16 Go, on est plus a 64 Go de VRM et 88 Go si je monte la 3eme P40.

Mais il faut au moins 100+ pour faire quelque chose de pas trop mal comme le Ryzen AI est pas mal mais en communication réseau on doit pas pouvoir les mapper ensemble xD

Je me demande si un MAC mini 256+ ça tourne pas mal (en vitesse je parle)

Message cité 1 fois

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

the_fennec

f3nn3cUs z3rd4

ionik a écrit :

Tu mets llama.cpp en mode server RPC d'un coté et llama.cpp server de l'autre et tu peux adresser tes 5 cartes pour 112GB de VRAM.
Par défaut le tensor split est par layers, c'est séquentiel, il y a un mode tensor qui est en parallel, mais ça marche pas chez moi, soit a cause du RPC ou de Vulkan ou des deux.

On peut aussi allouer des tensors a une carte en particulier en utilisant:

Code :

--override-tensor "output.weight=CUDA0"

Donc tu peux charger un gros MOE, et bouger les experts sur des cartes faibles et les gros layers sur tes RTX. Tu devrais obtenir de très bonne perf tu restes majoritairement sur tes RTX.
J'ai pas trop creusé le truc pour le moment, mais c'est sur ma liste.

Je pense que tu as largement de quoi t'amuser et de faire de belles choses avec tes cartes . Si t'en veux pas je suis intéressé .

J'ai pas beaucoup joué avec mon MBP m4 et llama.cpp (pas le droit), mais du peux que j'ai vu, la perf était moyenne.

---------------
Faudra que je teste un jour :o

ionik

J'ai aussi sur la CM du serveur 192 GO de ram me semble, et il peut monter a 1To de ram avec la bonne ram, mais j'ai peur d'avoir une perf dégelasse sur un Full CPU.

Par contre je me demandais si avec une conf avec 72 Go de VRAM ou 88Go de VRAM + 500Go a 1To de ram ça aurait pu charger une gros modèle et donc pouvoir (même si ça prend du temps) faire pas mal de chose en tache de fond et c'est dans cet optique la que je l'ai pris au moment ou je l'ai fait, mais je n'ai malheureusement pas encore eu le temps de faire ce que je voulais avec.

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

Page : 1 2 3 4 5 .. 10 11 12 .. 18 19 20 21 22 23

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co	sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.098 secondes