Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
5315 connectés 

 

Sujet(s) à lire :
 

Avez-vous déjà pris du matos pour faire tourner des modèles LLM gérés par vous même ? ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-06-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7  8  9  10
Page Suivante
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°11478076
neo world
Posté le 21-05-2026 à 17:29:07  profilanswer
 

Reprise du message précédent :

speedboyz30 a écrit :

Après la question c'est :
 
Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?


mon plan c'est plutôt un abo claude à 20 balles par mois pour ne pas prendre l'abo à 100 balles sans maîtrise des prix. Je suis sur un plan à 5 ans moi monsieur  [:biron_sacquet:3]  :o :o

mood
Publicité
Posté le 21-05-2026 à 17:29:07  profilanswer
 

n°11478077
neo world
Posté le 21-05-2026 à 17:32:15  profilanswer
 

speedboyz30 a écrit :


 
Faut déjà bien taper dedans pour arriver au Max 100$ par mois.
 
La décote ça doit faire mal quand même vu que dans 2 ans ça sera sûrement dépassé  [:zyzz:2]  
On annonce une sortie de crise de la ram pour 2027 :o


faut même pas y penser : tu achètes la machine à T1 avec un besoin à couvrir. La revente alors que la machine n'attends que d'être clusterisée pour plus de VRAM ne m'a même pas traversé l'esprit à l'achat :o
 
A noter que pour l'instant ça ressemble plus à investissement rentable. La machine à prix 200 balles depuis que je l'ai achetée. Bientôt on fera maturer nos serveurs en cave avant de les revendre comme un bon millésime :o :o :o

Message cité 1 fois
Message édité par neo world le 21-05-2026 à 17:32:48
n°11478078
the_fennec
f3nn3cUs z3rd4
Posté le 21-05-2026 à 17:34:23  profilanswer
 

neo world a écrit :


Je note merci :jap:. Je pense que je vais attendre de voir comment se comportent mes agents avec mon infra existante et faire des tests avec des modèles de différentes tailles avant de me décider (mais la machine est à nouveau dispo aux environs des 160€ ça rend l'opération très tentante :D )
 
La je suis en train de monter mon homelab (3 noeuds proxmox 7640HS avec 32GO de RAM et 1 to de CEPH pour chaque noeud). Il va embarque son propre Git, CI/CD, wiki, postgres, container, agents de dev et infra de backup externe pour que le bordel puisse tourner en vase clos en illimité en mode AI factory locale avec Qwen et Minimax sur le halo strix pour piloter la partie dev / documentation / debug.
 
C'est un beau bordel d'être aussi multi-casquette. Ca me rappel le temps où je bossais en PME :D


 
Fais attention, on commence comme ça et on fini avec 4 baies et 500 VMs :o (c'est du vécu)


---------------
Faudra que je teste un jour :o
n°11478079
speedboyz3​0
Guide Michelin :o
Posté le 21-05-2026 à 17:34:41  profilanswer
 

On attends tes retours sur le Strix Halo alors :jap:
 
Si possible avant l'annonce des nouveaux mac studio :o
Tellement peur d'être déçu en terme de qualité / rapidité :/

n°11478080
speedboyz3​0
Guide Michelin :o
Posté le 21-05-2026 à 17:36:18  profilanswer
 

neo world a écrit :


faut même pas y penser : tu achètes la machine à T1 avec un besoin à couvrir. La revente alors que la machine n'attends que d'être clusterisée pour plus de VRAM ne m'a même pas traversé l'esprit à l'achat :o
 
A noter que pour l'instant ça ressemble plus à investissement rentable. La machine à prix 200 balles depuis que je l'ai achetée. Bientôt on fera maturer nos serveurs en cave avant de les revendre comme un bon millésime :o :o :o


 
Pas faux  [:leve le pied jeannot:1]

n°11478081
neo world
Posté le 21-05-2026 à 17:40:12  profilanswer
 

speedboyz30 a écrit :

On attends tes retours sur le Strix Halo alors :jap:
 
Si possible avant l'annonce des nouveaux mac studio :o
Tellement peur d'être déçu en terme de qualité / rapidité :/


file moi un exo (le modèle que tu veux + prompt et fichier que tu veux) :D
 
A noter qu'il y a des benchs dispos en ligne postés par un autre forumeur il y a quelques messages :jap:

n°11478082
the_fennec
f3nn3cUs z3rd4
Posté le 21-05-2026 à 17:40:20  profilanswer
 

speedboyz30 a écrit :

Après la question c'est :
 
Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?


 

hardcorsaire a écrit :


Faut voir la décote de la machine Halo, et surtout les limitations de l'abo Claude
 
Après, sur la partie privacy, il n'y a pas match


 
Attention, faut espérer rivaliser avec Claude/GPT avec ça, même si tu peux charger de gros modèles la dessus, les perfs sont bien en dessous.
 

hardcorsaire a écrit :

Les modèles de CPU Ryzen AI Max ne sont pas dispo au détail ? uniquement via les machines Halo ?


 
Quich a raison, il me semble que la raison pour le BGA est que le bus mémoire est géré différemment des sockets AM5.


---------------
Faudra que je teste un jour :o
n°11478083
neo world
Posté le 21-05-2026 à 17:41:35  profilanswer
 

the_fennec a écrit :


 
Fais attention, on commence comme ça et on fini avec 4 baies et 500 VMs :o (c'est du vécu)


https://forum.hardware.fr/hfr/resea [...] m#t1272131  [:titimoi]

Message cité 1 fois
Message édité par neo world le 21-05-2026 à 17:42:18
n°11478084
the_fennec
f3nn3cUs z3rd4
Posté le 21-05-2026 à 17:47:16  profilanswer
 


 
Dans mon cas c'était au taf, j'avais commencé par installer un ESX pour reproduire un problème client, ça a un peu dégénéré ensuite. Heureusement j'ai pu refiler le merdier en changeant de projet :D.


---------------
Faudra que je teste un jour :o
n°11478087
neo world
Posté le 21-05-2026 à 19:03:36  profilanswer
 

the_fennec a écrit :


 
Dans mon cas c'était au taf, j'avais commencé par installer un ESX pour reproduire un problème client, ça a un peu dégénéré ensuite. Heureusement j'ai pu refiler le merdier en changeant de projet :D.


C'est le mieux, dépenser l'argent des autres en mode  [:isami kondo] puis prendre son jet pack quand ça devient ennuyeux / faut assumer tous les fossiles vivants qui détruisent tout sur leur passage  :o

Message cité 1 fois
Message édité par neo world le 21-05-2026 à 19:13:31
mood
Publicité
Posté le 21-05-2026 à 19:03:36  profilanswer
 

n°11478091
the_fennec
f3nn3cUs z3rd4
Posté le 21-05-2026 à 19:57:16  profilanswer
 

neo world a écrit :


C'est le mieux, dépenser l'argent des autres en mode  [:isami kondo] puis prendre son jet pack quand ça devient ennuyeux / faut assumer tous les fossiles vivants qui détruisent tout sur leur passage  :o


 
J'ai bien donné de ma personne pour maintenir le truc alors que c'était pas mon taf', donc j'ai les fesses propres de ce coté :o.


---------------
Faudra que je teste un jour :o
n°11478181
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 12:26:07  profilanswer
 

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 :o).
 
Je trouve que c'est pas mal du tout, il progresse mieux que Opencode je trouve pour le moment. Par contre il compacte pas le contexte automatiquement dans tous les cas, j'ai trouvé qu'il faut desactivé les beta, mais je sais pas encore si ça marche. Voila ma config:
 
env vars:

Code :
  1. export ANTHROPIC_API_KEY="1234"
  2. export ANTHROPIC_BASE_URL="http://llama:8080"
  3. export ANTHROPIC_MODEL="default"
  4. export OPENAI_BASE_URL="http://llama:8080"
  5. export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=true


 
.claude/settings.json  

Code :
  1. {
  2.   "env": {
  3.     "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
  4.     "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
  5.     "CLAUDE_CODE_ATTRIBUTION_HEADER": "0"
  6.   },
  7.   "attribution": {
  8.     "commit": "",
  9.     "pr": ""
  10.   },
  11.   "effortLevel": "high",
  12.   "promptSuggestionEnabled": false,
  13.   "plansDirectory": "./plans",
  14.   "prefersReducedMotion": true,
  15.   "terminalProgressBarEnabled": false,
  16.   "skipDangerousModePermissionPrompt": true
  17. }


 
et je lance avec:
--dangerously-skip-permissions
 
 
----
 
Sur mon project Linux Amiga 500, la ou Opencode bouclait un peu a désactiver des modules, péter un truc, ractiver les modules. Claude code a pull la dernière branche, déactivé plein de modules et est arrivé a la conclusion que c'est pas suffisant. Il est maintenant en train de virer/stub du code du Kernel petit a petit. Je vais le laisser continuer en mode Yolo et voir ou il va. Si `CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS` marche bien, il devrait pouvoir passer la nuit a bosser tout seul.

Message cité 2 fois
Message édité par the_fennec le 22-05-2026 à 12:26:23

---------------
Faudra que je teste un jour :o
n°11478184
Olivie
SUUUUUUUUUUUUUU
Posté le 22-05-2026 à 13:04:24  profilanswer
 

the_fennec a écrit :

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 :o).


Tu peux également tester avec ton modele local l’app Codex


---------------

n°11478194
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 14:37:13  profilanswer
 

Olivie a écrit :


Tu peux également tester avec ton modele local l’app Codex


 
Oui, pourquoi pas, mais je pense que Claude a plus de potentiel avec les extensions et autres custos.
 
Par contre toujours le soucis de compaction auto:

Code :
  1. Searched for 2 patterns (ctrl+o to expand)                                                                                                                       
  2.   ⎿  API Error: 400 {"error":{"code":400,"message":"request (131513 tokens) exceeds the available context size (131072 tokens), try increasing
  3.      it","type":"exceed_context_size_error","n_prompt_tokens":131513,"n_ctx":131072}}


 
Mais il progresse vraiment pas mal:
 

Code :
  1. ● Bash(python3 << 'PYEOF'                                         
  2.       import sys…)                                                                                                                                                 
  3.   ⎿  Total symbols: 3028                                         
  4.      Top 30 functions:                                                                                                                                             
  5.                                       sys_rt_sigtimedwait: 590160 bytes (576.3KB)
  6.      … +26 lines (ctrl+o to expand)                                                                                                                               
  7.                                                                  
  8. ● Good - 984KB .text (down from 915KB before... wait, that's actually larger). Let me recheck - the calculation is broken due to shared addresses. The actual .text
  9.   section is 0xadfba = 703KB.                                               
  10.                                                                                                                                                                    
  11.   Let me focus on more targeted reductions. Now that DCE is working, let me try removing code from files with very low keep rates.



---------------
Faudra que je teste un jour :o
n°11478198
hardcorsai​re
Posté le 22-05-2026 à 15:13:54  profilanswer
 

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo
 
Je ne vois pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??

Message cité 2 fois
Message édité par hardcorsaire le 22-05-2026 à 18:26:11
n°11478201
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 15:33:31  profilanswer
 

hardcorsaire a écrit :

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo
 
Je ne pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??


 
Il doit y en avoir pour $1500 rien qu'en RAM. Plus rapide qu'un "NVIDIA DGX Spark" et "Apple M4 Pro". Ni l'un, ni l'autre ne sont facilement dispo.
Il faut bien profiter :o
 
https://www.amd.com/en/products/pro [...] -halo.html
 
Bordel, il avance bien Claude, plus que 200KB:

Code :
  1. 41KB saved! Binary now 1,086,576 bytes (1.04MB). Let me continue removing more dead code.


Message édité par the_fennec le 22-05-2026 à 15:35:16

---------------
Faudra que je teste un jour :o
n°11478203
neo world
Posté le 22-05-2026 à 15:52:53  profilanswer
 

hardcorsaire a écrit :

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo
 
Je ne pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??


belle connerie si tu veux mon avis : ils vont attaquer en frontal le Nvidia DGX spark et ses deux ports 100Gb/s mellanox et le support cuda qu'AMD ne pourra pas concurrencer. Si ils sont bien idiots ils assèchent aussi l'ancienne version (entre 1000 et 1500€ moins cher) comme ça ils laissent bien la place nette à Nvidia.
 
De mon côté mon Strix Halo v1 n'aura pas de petit frère dans ces conditions  [:vizera]

n°11478204
neo world
Posté le 22-05-2026 à 15:56:21  profilanswer
 

the_fennec a écrit :

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 :o).
 
Je trouve que c'est pas mal du tout, il progresse mieux que Opencode je trouve pour le moment. Par contre il compacte pas le contexte automatiquement dans tous les cas, j'ai trouvé qu'il faut desactivé les beta, mais je sais pas encore si ça marche. Voila ma config


tu n'as pas essayé openclaw / hermes ? je vais sans doute m'y mettre ce week-end et j'avais prévu un match hermes / claude code  
(je sauve ce lien pour plus tard https://www.mindstudio.ai/blog/herm [...] r-workflow )

n°11478208
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 16:14:57  profilanswer
 

neo world a écrit :


tu n'as pas essayé openclaw / hermes ? je vais sans doute m'y mettre ce week-end et j'avais prévu un match hermes / claude code  
(je sauve ce lien pour plus tard https://www.mindstudio.ai/blog/herm [...] r-workflow )


 
Si j'ai testé les deux, Openclaw beaucoup plus que Hermes et ça marchait pas bien du tout. Après c'était avant d'avoir la BC250, donc 16GB de VRAM et Qwen3. Faudrait peut être que j'essaye de nouveau, mais OC c'est tellement le bordel que j'ai pas trop envie de m'y remettre. Ça me donnait directement l'impression de me replonger dans des softs Oracle/IBM/HP, et il faut me payer chère pour que je retouche a ces merdes :o.
 
Ce que je reproche a OC c'est d'être prévue pour des gros modèle, genre GPT/Opus avec un gros contexte. De base il y a tellement de bloat que ton contexte est déjà a moitié plein avant de commencé:
https://github.com/openclaw/opencla [...] /AGENTS.md
 
J'avais tout juste réussi a le faire s'auto-configuré et chercher un peu sur internet, mais ça partait rapidement en sucette.
 
Hermes, more of the same.


Message édité par the_fennec le 22-05-2026 à 16:16:37

---------------
Faudra que je teste un jour :o
n°11478215
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 17:16:08  profilanswer
 

https://i.imgur.com/gxkXrRd.png
 
edit:
il a triché :/

Citation :

## Notes
 
- The kernel is built with `CONFIG_MMU=y` even though the A500 has no MMU. The m68k MMU code is minimal and required by the build system.
- `CONFIG_M68020=y` is set even for a 68000 CPU — the m68k kernel is built for the 68020 instruction set which is a superset of 68000.


Message édité par the_fennec le 22-05-2026 à 17:19:02

---------------
Faudra que je teste un jour :o
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7  8  9  10
Page Suivante

Aller à :
Ajouter une réponse
 

Sujets relatifs
Besoin d'aide pour tourBesoin d'aide, problème avec mon pc
AIde pour config 4KBesoin d'aide pour config rapport/qualité prix
Choix disspateur NVMeAjout de RAM , meilleur choix ? DDR4 2400
Aide pour config Graphiste 2D/3DBesoin d'aide sur projet config fanless linux mint
Conseil choix 2 configs avant achatChoix GPU - Jeux sur 49" 5120X1440p
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)