Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 9 10 11 .. 18 19 20 21 22 23 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

neo world

Reprise du message précédent :

speedboyz30 a écrit :

Après la question c'est :

Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?

mon plan c'est plutôt un abo claude à 20 balles par mois pour ne pas prendre l'abo à 100 balles sans maîtrise des prix. Je suis sur un plan à 5 ans moi monsieur [:biron_sacquet:3]

neo world

speedboyz30 a écrit :

Faut déjà bien taper dedans pour arriver au Max 100$ par mois.

La décote ça doit faire mal quand même vu que dans 2 ans ça sera sûrement dépassé [:zyzz:2]
On annonce une sortie de crise de la ram pour 2027

faut même pas y penser : tu achètes la machine à T1 avec un besoin à couvrir. La revente alors que la machine n'attends que d'être clusterisée pour plus de VRAM ne m'a même pas traversé l'esprit à l'achat

A noter que pour l'instant ça ressemble plus à investissement rentable. La machine à prix 200 balles depuis que je l'ai achetée. Bientôt on fera maturer nos serveurs en cave avant de les revendre comme un bon millésime

Message édité par neo world le 21-05-2026 à 17:32:48

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Je note merci :jap: . Je pense que je vais attendre de voir comment se comportent mes agents avec mon infra existante et faire des tests avec des modèles de différentes tailles avant de me décider (mais la machine est à nouveau dispo aux environs des 160€ ça rend l'opération très tentante )

La je suis en train de monter mon homelab (3 noeuds proxmox 7640HS avec 32GO de RAM et 1 to de CEPH pour chaque noeud). Il va embarque son propre Git, CI/CD, wiki, postgres, container, agents de dev et infra de backup externe pour que le bordel puisse tourner en vase clos en illimité en mode AI factory locale avec Qwen et Minimax sur le halo strix pour piloter la partie dev / documentation / debug.

C'est un beau bordel d'être aussi multi-casquette. Ca me rappel le temps où je bossais en PME

Fais attention, on commence comme ça et on fini avec 4 baies et 500 VMs (c'est du vécu)

---------------
Faudra que je teste un jour :o

speedboyz30

Guide Michelin :o

On attends tes retours sur le Strix Halo alors :jap:

Si possible avant l'annonce des nouveaux mac studio
Tellement peur d'être déçu en terme de qualité / rapidité

speedboyz30

Guide Michelin :o

neo world a écrit :

Pas faux [:leve le pied jeannot:1]

neo world

speedboyz30 a écrit :

On attends tes retours sur le Strix Halo alors :jap:

Si possible avant l'annonce des nouveaux mac studio
Tellement peur d'être déçu en terme de qualité / rapidité

file moi un exo (le modèle que tu veux + prompt et fichier que tu veux)

A noter qu'il y a des benchs dispos en ligne postés par un autre forumeur il y a quelques messages :jap:

the_fennec

f3nn3cUs z3rd4

speedboyz30 a écrit :

Après la question c'est :

Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?

hardcorsaire a écrit :

Faut voir la décote de la machine Halo, et surtout les limitations de l'abo Claude

Après, sur la partie privacy, il n'y a pas match

Attention, faut espérer rivaliser avec Claude/GPT avec ça, même si tu peux charger de gros modèles la dessus, les perfs sont bien en dessous.

hardcorsaire a écrit :

Les modèles de CPU Ryzen AI Max ne sont pas dispo au détail ? uniquement via les machines Halo ?

Quich a raison, il me semble que la raison pour le BGA est que le bus mémoire est géré différemment des sockets AM5.

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

Fais attention, on commence comme ça et on fini avec 4 baies et 500 VMs (c'est du vécu)

https://forum.hardware.fr/hfr/resea [...] m#t1272131 [:titimoi]

Message édité par neo world le 21-05-2026 à 17:42:18

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

https://forum.hardware.fr/hfr/resea [...] m#t1272131 [:titimoi]

Dans mon cas c'était au taf, j'avais commencé par installer un ESX pour reproduire un problème client, ça a un peu dégénéré ensuite. Heureusement j'ai pu refiler le merdier en changeant de projet .

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

C'est le mieux, dépenser l'argent des autres en mode [:isami kondo] puis prendre son jet pack quand ça devient ennuyeux / faut assumer tous les fossiles vivants qui détruisent tout sur leur passage

Message édité par neo world le 21-05-2026 à 19:13:31

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

J'ai bien donné de ma personne pour maintenir le truc alors que c'était pas mon taf', donc j'ai les fesses propres de ce coté .

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 ).

Je trouve que c'est pas mal du tout, il progresse mieux que Opencode je trouve pour le moment. Par contre il compacte pas le contexte automatiquement dans tous les cas, j'ai trouvé qu'il faut desactivé les beta, mais je sais pas encore si ça marche. Voila ma config:

env vars:

Code :

export ANTHROPIC_API_KEY="1234"
export ANTHROPIC_BASE_URL="http://llama:8080"
export ANTHROPIC_MODEL="default"
export OPENAI_BASE_URL="http://llama:8080"
export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=true

.claude/settings.json

Code :

{
"env": {
"CLAUDE_CODE_ENABLE_TELEMETRY": "0",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
"CLAUDE_CODE_ATTRIBUTION_HEADER": "0"
},
"attribution": {
"commit": "",
"pr": ""
},
"effortLevel": "high",
"promptSuggestionEnabled": false,
"plansDirectory": "./plans",
"prefersReducedMotion": true,
"terminalProgressBarEnabled": false,
"skipDangerousModePermissionPrompt": true
}

et je lance avec:
--dangerously-skip-permissions

----

Sur mon project Linux Amiga 500, la ou Opencode bouclait un peu a désactiver des modules, péter un truc, ractiver les modules. Claude code a pull la dernière branche, déactivé plein de modules et est arrivé a la conclusion que c'est pas suffisant. Il est maintenant en train de virer/stub du code du Kernel petit a petit. Je vais le laisser continuer en mode Yolo et voir ou il va. Si `CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS` marche bien, il devrait pouvoir passer la nuit a bosser tout seul.

Message édité par the_fennec le 22-05-2026 à 12:26:23

---------------
Faudra que je teste un jour :o

Olivie

SUUUUUUUUUUUUUU

the_fennec a écrit :

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 ).

Tu peux également tester avec ton modele local l’app Codex

---------------

the_fennec

f3nn3cUs z3rd4

Olivie a écrit :

Tu peux également tester avec ton modele local l’app Codex

Oui, pourquoi pas, mais je pense que Claude a plus de potentiel avec les extensions et autres custos.

Par contre toujours le soucis de compaction auto:

Code :

Searched for 2 patterns (ctrl+o to expand)
⎿ API Error: 400 {"error":{"code":400,"message":"request (131513 tokens) exceeds the available context size (131072 tokens), try increasing
it","type":"exceed_context_size_error","n_prompt_tokens":131513,"n_ctx":131072}}

Mais il progresse vraiment pas mal:

Code :

● Bash(python3 << 'PYEOF'
import sys…)
⎿ Total symbols: 3028
Top 30 functions:
sys_rt_sigtimedwait: 590160 bytes (576.3KB)
… +26 lines (ctrl+o to expand)
● Good - 984KB .text (down from 915KB before... wait, that's actually larger). Let me recheck - the calculation is broken due to shared addresses. The actual .text
section is 0xadfba = 703KB.
Let me focus on more targeted reductions. Now that DCE is working, let me try removing code from files with very low keep rates.

---------------
Faudra que je teste un jour :o

hardcorsaire

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo

Je ne vois pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??

Message édité par hardcorsaire le 22-05-2026 à 18:26:11

the_fennec

f3nn3cUs z3rd4

hardcorsaire a écrit :

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo

Je ne pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??

Il doit y en avoir pour $1500 rien qu'en RAM. Plus rapide qu'un "NVIDIA DGX Spark" et "Apple M4 Pro". Ni l'un, ni l'autre ne sont facilement dispo.
Il faut bien profiter

https://www.amd.com/en/products/pro [...] -halo.html

Bordel, il avance bien Claude, plus que 200KB:

Code :

41KB saved! Binary now 1,086,576 bytes (1.04MB). Let me continue removing more dead code.

Message édité par the_fennec le 22-05-2026 à 15:35:16

---------------
Faudra que je teste un jour :o

neo world

hardcorsaire a écrit :

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo

Je ne pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??

belle connerie si tu veux mon avis : ils vont attaquer en frontal le Nvidia DGX spark et ses deux ports 100Gb/s mellanox et le support cuda qu'AMD ne pourra pas concurrencer. Si ils sont bien idiots ils assèchent aussi l'ancienne version (entre 1000 et 1500€ moins cher) comme ça ils laissent bien la place nette à Nvidia.

De mon côté mon Strix Halo v1 n'aura pas de petit frère dans ces conditions [:vizera]

neo world

the_fennec a écrit :

tu n'as pas essayé openclaw / hermes ? je vais sans doute m'y mettre ce week-end et j'avais prévu un match hermes / claude code
(je sauve ce lien pour plus tard https://www.mindstudio.ai/blog/herm [...] r-workflow )

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Si j'ai testé les deux, Openclaw beaucoup plus que Hermes et ça marchait pas bien du tout. Après c'était avant d'avoir la BC250, donc 16GB de VRAM et Qwen3. Faudrait peut être que j'essaye de nouveau, mais OC c'est tellement le bordel que j'ai pas trop envie de m'y remettre. Ça me donnait directement l'impression de me replonger dans des softs Oracle/IBM/HP, et il faut me payer chère pour que je retouche a ces merdes .

Ce que je reproche a OC c'est d'être prévue pour des gros modèle, genre GPT/Opus avec un gros contexte. De base il y a tellement de bloat que ton contexte est déjà a moitié plein avant de commencé:
https://github.com/openclaw/opencla [...] /AGENTS.md

J'avais tout juste réussi a le faire s'auto-configuré et chercher un peu sur internet, mais ça partait rapidement en sucette.

Hermes, more of the same.

Message édité par the_fennec le 22-05-2026 à 16:16:37

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

edit:
il a triché

Citation :

## Notes

- The kernel is built with `CONFIG_MMU=y` even though the A500 has no MMU. The m68k MMU code is minimal and required by the build system.
- `CONFIG_M68020=y` is set even for a 68000 CPU — the m68k kernel is built for the 68020 instruction set which is a superset of 68000.

Message édité par the_fennec le 22-05-2026 à 17:19:02

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Bon mitigé sur Claude Code, il marche bien, mais il ne compacte pas seul, il arrive a remplir le contexte et se prends une erreur 400 de llama.cpp. Je peux encore compacter manuellement, mais c'est lourd, il bosse une grosse heure c'est tout.

Je suis en train de tester Qwen Code pour voir. Ça marche, mais ça sent le truc vibe-codé et pas testé. C'est simple a détecter: de très jolie docs, mais avec des 404 et surtout qui documentent des trucs qui marchent pas. La config JSON llama.cpp/Ollama marche pas, il faut passer par le TUI pour bien mettre les options. Pareil pour le mode YOLO, bien documenté, mais ne fonctionner pas non plus, il faut faire SHIFT+TAB pour passer en mode YOLO.

---------------
Faudra que je teste un jour :o

neo world

Tu as découpé comment tes taches ? Pour moi c’est chaud de tout faire en une passe. Faudrait découper par module en lui donnant en skills comment c’était fait dans le bon vieux temps et lui donner des templates pour qu’il puisse bosser sans exploser le million de token en contexte

the_fennec

f3nn3cUs z3rd4

J'ai un AGENTS.md et un implementation.md, mais c'est juste pour donner des guide-lines, mais c'est plus de l’exportation qu'autre chose.

Mon but est juste de trouver un combo modèle/agent qui peut tourner h24 sans s'arrêter, même si il fini par boucler.

Qwen-code n'est pas vraiment mieux, il timeout tout ça parce que la compaction dure plus de 10 minutes

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Je suis passé sur pi.dev :pt1cable:

Message cité 1 fois

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

Je suis passé sur pi.dev :pt1cable:

Alors ça donne quoi ?

Message cité 1 fois

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Alors ça donne quoi ?

Il se débrouille, mais il faut le relancer après une compaction

---------------
Faudra que je teste un jour :o

TotalRecall

Ce sujet a été déplacé de la catégorie Hardware vers la categorie Intelligence Artificielle par TotalRecall

Message cité 1 fois

---------------
Topic .Net - C# @ Prog

TotalRecall

Une nouvelle cat entière pour parler de modèles, de NPU, de lamas, et de tout ce que vous voudrez qui s'y rapporte. Amusez vous bien

Message cité 2 fois

---------------
Topic .Net - C# @ Prog

speedboyz30

Guide Michelin :o

TotalRecall a écrit :

Ce sujet a été déplacé de la catégorie Hardware vers la categorie Intelligence Artificielle par TotalRecall

Et c'est parti [:salsifouette:5]

the_fennec

f3nn3cUs z3rd4

TotalRecall a écrit :

Une nouvelle cat entière pour parler de modèles, de NPU, de lamas, et de tout ce que vous voudrez qui s'y rapporte. Amusez vous bien

Merci :jap:

---------------
Faudra que je teste un jour :o

LibreArbitre

La /root est longue

TotalRecall a écrit :

Une nouvelle cat entière pour parler de modèles, de NPU, de lamas, et de tout ce que vous voudrez qui s'y rapporte. Amusez vous bien

Chef, il y en a encore quelques uns à déplacer :

https://forum.hardware.fr/hfr/Progr [...] 8747_1.htm
https://forum.hardware.fr/hfr/Progr [...] 8701_1.htm
https://forum.hardware.fr/hfr/Discu [...] 0604_1.htm
https://forum.hardware.fr/hfr/resea [...] 9045_1.htm

:jap:

Message édité par LibreArbitre le 26-05-2026 à 15:05:30

---------------
Pharyo | Cinépite | Capvirage

Plam

Bear Metal

Ici en contexte pro pour des usages divers, j'ai 3 machines :
1. Un vieux tromblon récup gratos avec 8xP100. Très bien pour des petites tâches (enrichissement de leads etc.)
2. Une machine récente avec 1x RTX 6000 Ada (48GiB vRAM) et 1x RTX Blackwell MaxQ (96GiB vRAM). Avec vLLM côté back (très bien en multiuser), qwen MoE pour le chatGPT like (OpenWebUI) sur l'Ada et Qwen 27B dense pour OpenCode (sur le blackwell)
3. Une machine de dev en 5090

Le tout avec LiteLLM devant pour proxifier.

J'attend qwen 3.7 avec beaucoup d'impatience

Message édité par Plam le 26-05-2026 à 17:33:02

---------------
Spécialiste du bear metal

the_fennec

f3nn3cUs z3rd4

Tu utilises quoi pour l'inférence? vLLM ?
Des modèles pas quantifiés j'imagine? [:julm3]
combien d'utilisateurs?

Message cité 1 fois

---------------
Faudra que je teste un jour :o

Plam

Bear Metal

the_fennec a écrit :

Tu utilises quoi pour l'inférence? vLLM ?
Des modèles pas quantifiés j'imagine? [:julm3]
combien d'utilisateurs?

vLLM : c'est dans le post déjà Meilleur back pour multi user. OpenWebUI pour le MoE en mode « chatGPT pour tous ».

Les 2 modèles utilisés so far :

Blackwell

Modèle HF : Qwen/Qwen3.6-27B-FP8
Dense 27B, FP8 fine-grained (block size 128), MTP speculative decoding
256K context, ~29 Go de poids, ~51 Go de KV cache dispo

Modèle HF : QuantTrio/Qwen3.6-35B-A3B-AWQ
MoE 35B total / 3B actifs par token, AWQ 4-bit, MTP speculative decoding
128K context (--max-model-len 131072)

---------------
Spécialiste du bear metal

the_fennec

f3nn3cUs z3rd4

Vidéo sur les effets de la quantization, de Q8 a Q1!

Everything looks fine at 4-bit
https://www.youtube.com/watch?v=8IzUyLLn5NA

TL;DR Q4_K_M

Message cité 1 fois

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

the_fennec a écrit :

Je suis passé sur pi.dev :pt1cable:

neo world a écrit :

Alors ça donne quoi ?

Je drop aussi, c'est pas mieux que Claude et il plante avec mes compactions qui prennent des plombes:

Code :

Error: 400 request (68133 tokens) exceeds the available context size (65536 tokens), try increasing it
Context overflow recovery failed: Summarization failed: Request timed out.

En plus ça lui arrive de stopper après une compaction...

Et il est racheté par une boite:
https://www.reddit.com/r/LocalLLaMA [...] _earendil/

[:segi01]

Message cité 1 fois

---------------
Faudra que je teste un jour :o

Amonchakai

Hello

On m’a montre des truc comme ça:

https://localaimaster.com/blog/hybrid-local-cloud-ai

Une approche hybride avec une estimation de complexité pour envoyer soit à un modèle local ou sur cloud.

Vous avez regardé ce genre de truc ?

Perso j’ai un studio 64go en perso et un DGX spark au taff. Ça se testerait bien

Message cité 1 fois
Message édité par Amonchakai le 27-05-2026 à 23:40:53

extenue1

Test du Nvidia DGX Spark (Dell) : le mini PC IA à 128 Go de RAM

https://www.frandroid.com/marques/3 [...] -go-de-ram

A 3k je prends, 6k non

Message cité 2 fois
Message édité par extenue1 le 28-05-2026 à 10:22:23

the_fennec

f3nn3cUs z3rd4

CUDA 13.3 est sortis, c'est censé régler des problèmes d’alignements mémoire qui m'avaient obligé à patcher vLLM pour le faire tourner. Donc l’installe pour les pauvre devrait être plus facile. Bon, ça me concerne pas vu que ça marche pas sur la BC250.

Je vois que llama.cpp est aussi passé sur CUDA 13.3, mais j'ai pas testé.

J'ai essayé ik_llama.cpp, qui a un mode split tensor graph qui semble mieux que layers, mais après avoir bien galéré pour compiler sous Windows, ben le mode RPC marche pas:

Code :

ggml_vulkan: Error: Missing op: SSM_CONV

Peut être un soucis de compilation coté Linux, mais j'ai utilisé la même ligne de commande que llama.cpp. J'ai vu que le protocole RPC est resté en v3 vs v4 pour llama.cpp, donc j'imagine que le mode RPC ou Vulkan est un peut resté a l'abandon. Donc retour a llama.cpp...

Message édité par the_fennec le 28-05-2026 à 14:42:23

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

Vidéo sur les effets de la quantization, de Q8 a Q1!

Everything looks fine at 4-bit
https://www.youtube.com/watch?v=8IzUyLLn5NA

TL;DR Q4_K_M

:jap:

the_fennec a écrit :

Je drop aussi, c'est pas mieux que Claude et il plante avec mes compactions qui prennent des plombes:

Code :

Error: 400 request (68133 tokens) exceeds the available context size (65536 tokens), try increasing it
Context overflow recovery failed: Summarization failed: Request timed out.

En plus ça lui arrive de stopper après une compaction...

Et il est racheté par une boite:
https://www.reddit.com/r/LocalLLaMA [...] _earendil/

[:segi01]

A priori 'est pour continuer le projet tel quel mais je comprend l'envie de changer. Tu peux faire le summary / Compaction ailleurs (cloud rapide) pour dépasser le problème de timeout ?

Amonchakai a écrit :

Ca m'intéresse fortement pour mon use case. Merci :jap:

extenue1 a écrit :

Test du Nvidia DGX Spark (Dell) : le mini PC IA à 128 Go de RAM

https://www.frandroid.com/marques/3 [...] -go-de-ram

A 3k je prends, 6k non

Félicitations tu cherches en fait un AMD Halo strix 128GB pour à peine 2406€

Message cité 1 fois

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

A priori 'est pour continuer le projet tel quel mais je comprend l'envie de changer. Tu peux faire le summary / Compaction ailleurs (cloud rapide) pour dépasser le problème de timeout ?

Je cherche un combo qui peut tourner h24 sans s’arrêter, je m'en fous d'être a 2 tgs, ou qu'une compaction prenne 10 minutes. A terme je voudrais laisser l'agent tourner avec un but précis, genre "reverse engineering" complet d'un firmware jusqu`à ce que les sources compilée donnent le même binaire.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

Page : 1 2 3 4 5 .. 9 10 11 .. 18 19 20 21 22 23

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co	sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.090 secondes