Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Sujet(s) à lire :

Mot : Pseudo : Filtrer
Page : 1 2 3 4 5 6 7 8 9 10 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

neo world

Reprise du message précédent :

speedboyz30 a écrit :

Après la question c'est :

Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?

mon plan c'est plutôt un abo claude à 20 balles par mois pour ne pas prendre l'abo à 100 balles sans maîtrise des prix. Je suis sur un plan à 5 ans moi monsieur [:biron_sacquet:3]

Publicité

neo world

speedboyz30 a écrit :

Faut déjà bien taper dedans pour arriver au Max 100$ par mois.

La décote ça doit faire mal quand même vu que dans 2 ans ça sera sûrement dépassé [:zyzz:2]
On annonce une sortie de crise de la ram pour 2027

faut même pas y penser : tu achètes la machine à T1 avec un besoin à couvrir. La revente alors que la machine n'attends que d'être clusterisée pour plus de VRAM ne m'a même pas traversé l'esprit à l'achat

A noter que pour l'instant ça ressemble plus à investissement rentable. La machine à prix 200 balles depuis que je l'ai achetée. Bientôt on fera maturer nos serveurs en cave avant de les revendre comme un bon millésime

Message cité 1 fois
Message édité par neo world le 21-05-2026 à 17:32:48

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Je note merci :jap: . Je pense que je vais attendre de voir comment se comportent mes agents avec mon infra existante et faire des tests avec des modèles de différentes tailles avant de me décider (mais la machine est à nouveau dispo aux environs des 160€ ça rend l'opération très tentante )

La je suis en train de monter mon homelab (3 noeuds proxmox 7640HS avec 32GO de RAM et 1 to de CEPH pour chaque noeud). Il va embarque son propre Git, CI/CD, wiki, postgres, container, agents de dev et infra de backup externe pour que le bordel puisse tourner en vase clos en illimité en mode AI factory locale avec Qwen et Minimax sur le halo strix pour piloter la partie dev / documentation / debug.

C'est un beau bordel d'être aussi multi-casquette. Ca me rappel le temps où je bossais en PME

Fais attention, on commence comme ça et on fini avec 4 baies et 500 VMs (c'est du vécu)

Message cité 1 fois

---------------
Faudra que je teste un jour :o

speedboyz30

Guide Michelin :o

On attends tes retours sur le Strix Halo alors :jap:

Si possible avant l'annonce des nouveaux mac studio
Tellement peur d'être déçu en terme de qualité / rapidité

Message cité 1 fois

speedboyz30

Guide Michelin :o

neo world a écrit :

Pas faux [:leve le pied jeannot:1]

neo world

speedboyz30 a écrit :

On attends tes retours sur le Strix Halo alors :jap:

Si possible avant l'annonce des nouveaux mac studio
Tellement peur d'être déçu en terme de qualité / rapidité

file moi un exo (le modèle que tu veux + prompt et fichier que tu veux)

A noter qu'il y a des benchs dispos en ligne postés par un autre forumeur il y a quelques messages :jap:

the_fennec

f3nn3cUs z3rd4

speedboyz30 a écrit :

Après la question c'est :

Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?

hardcorsaire a écrit :

Faut voir la décote de la machine Halo, et surtout les limitations de l'abo Claude

Après, sur la partie privacy, il n'y a pas match

Attention, faut espérer rivaliser avec Claude/GPT avec ça, même si tu peux charger de gros modèles la dessus, les perfs sont bien en dessous.

hardcorsaire a écrit :

Les modèles de CPU Ryzen AI Max ne sont pas dispo au détail ? uniquement via les machines Halo ?

Quich a raison, il me semble que la raison pour le BGA est que le bus mémoire est géré différemment des sockets AM5.

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

Fais attention, on commence comme ça et on fini avec 4 baies et 500 VMs (c'est du vécu)

https://forum.hardware.fr/hfr/resea [...] m#t1272131 [:titimoi]

Message cité 1 fois
Message édité par neo world le 21-05-2026 à 17:42:18

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

https://forum.hardware.fr/hfr/resea [...] m#t1272131 [:titimoi]

Dans mon cas c'était au taf, j'avais commencé par installer un ESX pour reproduire un problème client, ça a un peu dégénéré ensuite. Heureusement j'ai pu refiler le merdier en changeant de projet .

Message cité 1 fois

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

C'est le mieux, dépenser l'argent des autres en mode [:isami kondo] puis prendre son jet pack quand ça devient ennuyeux / faut assumer tous les fossiles vivants qui détruisent tout sur leur passage

Message cité 1 fois
Message édité par neo world le 21-05-2026 à 19:13:31

Publicité

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

J'ai bien donné de ma personne pour maintenir le truc alors que c'était pas mon taf', donc j'ai les fesses propres de ce coté .

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 ).

Je trouve que c'est pas mal du tout, il progresse mieux que Opencode je trouve pour le moment. Par contre il compacte pas le contexte automatiquement dans tous les cas, j'ai trouvé qu'il faut desactivé les beta, mais je sais pas encore si ça marche. Voila ma config:

env vars:

Code :

export ANTHROPIC_API_KEY="1234"
export ANTHROPIC_BASE_URL="http://llama:8080"
export ANTHROPIC_MODEL="default"
export OPENAI_BASE_URL="http://llama:8080"
export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=true

.claude/settings.json

Code :

{
"env": {
"CLAUDE_CODE_ENABLE_TELEMETRY": "0",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
"CLAUDE_CODE_ATTRIBUTION_HEADER": "0"
},
"attribution": {
"commit": "",
"pr": ""
},
"effortLevel": "high",
"promptSuggestionEnabled": false,
"plansDirectory": "./plans",
"prefersReducedMotion": true,
"terminalProgressBarEnabled": false,
"skipDangerousModePermissionPrompt": true
}

et je lance avec:
--dangerously-skip-permissions

----

Sur mon project Linux Amiga 500, la ou Opencode bouclait un peu a désactiver des modules, péter un truc, ractiver les modules. Claude code a pull la dernière branche, déactivé plein de modules et est arrivé a la conclusion que c'est pas suffisant. Il est maintenant en train de virer/stub du code du Kernel petit a petit. Je vais le laisser continuer en mode Yolo et voir ou il va. Si `CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS` marche bien, il devrait pouvoir passer la nuit a bosser tout seul.

Message cité 2 fois
Message édité par the_fennec le 22-05-2026 à 12:26:23

---------------
Faudra que je teste un jour :o

Olivie

SUUUUUUUUUUUUUU

the_fennec a écrit :

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 ).

Tu peux également tester avec ton modele local l’app Codex

Message cité 1 fois

---------------

the_fennec

f3nn3cUs z3rd4

Olivie a écrit :

Tu peux également tester avec ton modele local l’app Codex

Oui, pourquoi pas, mais je pense que Claude a plus de potentiel avec les extensions et autres custos.

Par contre toujours le soucis de compaction auto:

Code :

Searched for 2 patterns (ctrl+o to expand)
⎿ API Error: 400 {"error":{"code":400,"message":"request (131513 tokens) exceeds the available context size (131072 tokens), try increasing
it","type":"exceed_context_size_error","n_prompt_tokens":131513,"n_ctx":131072}}

Mais il progresse vraiment pas mal:

Code :

● Bash(python3 << 'PYEOF'
import sys…)
⎿ Total symbols: 3028
Top 30 functions:
sys_rt_sigtimedwait: 590160 bytes (576.3KB)
… +26 lines (ctrl+o to expand)
● Good - 984KB .text (down from 915KB before... wait, that's actually larger). Let me recheck - the calculation is broken due to shared addresses. The actual .text
section is 0xadfba = 703KB.
Let me focus on more targeted reductions. Now that DCE is working, let me try removing code from files with very low keep rates.

---------------
Faudra que je teste un jour :o

hardcorsaire

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo

Je ne vois pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??

Message cité 2 fois
Message édité par hardcorsaire le 22-05-2026 à 18:26:11

the_fennec

f3nn3cUs z3rd4

hardcorsaire a écrit :

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo

Je ne pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??

Il doit y en avoir pour $1500 rien qu'en RAM. Plus rapide qu'un "NVIDIA DGX Spark" et "Apple M4 Pro". Ni l'un, ni l'autre ne sont facilement dispo.
Il faut bien profiter

https://www.amd.com/en/products/pro [...] -halo.html

Bordel, il avance bien Claude, plus que 200KB:

Code :

41KB saved! Binary now 1,086,576 bytes (1.04MB). Let me continue removing more dead code.

Message édité par the_fennec le 22-05-2026 à 15:35:16

---------------
Faudra que je teste un jour :o

neo world

hardcorsaire a écrit :

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo

Je ne pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??

belle connerie si tu veux mon avis : ils vont attaquer en frontal le Nvidia DGX spark et ses deux ports 100Gb/s mellanox et le support cuda qu'AMD ne pourra pas concurrencer. Si ils sont bien idiots ils assèchent aussi l'ancienne version (entre 1000 et 1500€ moins cher) comme ça ils laissent bien la place nette à Nvidia.

De mon côté mon Strix Halo v1 n'aura pas de petit frère dans ces conditions [:vizera]

neo world

the_fennec a écrit :

tu n'as pas essayé openclaw / hermes ? je vais sans doute m'y mettre ce week-end et j'avais prévu un match hermes / claude code
(je sauve ce lien pour plus tard https://www.mindstudio.ai/blog/herm [...] r-workflow )

Message cité 1 fois

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Si j'ai testé les deux, Openclaw beaucoup plus que Hermes et ça marchait pas bien du tout. Après c'était avant d'avoir la BC250, donc 16GB de VRAM et Qwen3. Faudrait peut être que j'essaye de nouveau, mais OC c'est tellement le bordel que j'ai pas trop envie de m'y remettre. Ça me donnait directement l'impression de me replonger dans des softs Oracle/IBM/HP, et il faut me payer chère pour que je retouche a ces merdes .

Ce que je reproche a OC c'est d'être prévue pour des gros modèle, genre GPT/Opus avec un gros contexte. De base il y a tellement de bloat que ton contexte est déjà a moitié plein avant de commencé:
https://github.com/openclaw/opencla [...] /AGENTS.md

J'avais tout juste réussi a le faire s'auto-configuré et chercher un peu sur internet, mais ça partait rapidement en sucette.

Hermes, more of the same.

Message édité par the_fennec le 22-05-2026 à 16:16:37

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

edit:
il a triché

Citation :

## Notes

- The kernel is built with `CONFIG_MMU=y` even though the A500 has no MMU. The m68k MMU code is minimal and required by the build system.
- `CONFIG_M68020=y` is set even for a 68000 CPU — the m68k kernel is built for the 68020 instruction set which is a superset of 68000.

Message édité par the_fennec le 22-05-2026 à 17:19:02

---------------
Faudra que je teste un jour :o

Publicité

Page : 1 2 3 4 5 6 7 8 9 10

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Hardware

Actus

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
Besoin d'aide pour tour	Besoin d'aide, problème avec mon pc
AIde pour config 4K	Besoin d'aide pour config rapport/qualité prix
Choix disspateur NVMe	Ajout de RAM , meilleur choix ? DDR4 2400
Aide pour config Graphiste 2D/3D	Besoin d'aide sur projet config fanless linux mint
Conseil choix 2 configs avant achat	Choix GPU - Jeux sur 49" 5120X1440p
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.092 secondes