Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2759 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  9  10  11  ..  18  19  20  21  22  23
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°16158
neo world
Posté le 21-05-2026 à 17:29:07  profilanswer
 

Reprise du message précédent :

speedboyz30 a écrit :

Après la question c'est :
 
Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?


mon plan c'est plutôt un abo claude à 20 balles par mois pour ne pas prendre l'abo à 100 balles sans maîtrise des prix. Je suis sur un plan à 5 ans moi monsieur  [:biron_sacquet:3]  :o :o

n°16159
neo world
Posté le 21-05-2026 à 17:32:15  profilanswer
 

speedboyz30 a écrit :


 
Faut déjà bien taper dedans pour arriver au Max 100$ par mois.
 
La décote ça doit faire mal quand même vu que dans 2 ans ça sera sûrement dépassé  [:zyzz:2]  
On annonce une sortie de crise de la ram pour 2027 :o


faut même pas y penser : tu achètes la machine à T1 avec un besoin à couvrir. La revente alors que la machine n'attends que d'être clusterisée pour plus de VRAM ne m'a même pas traversé l'esprit à l'achat :o
 
A noter que pour l'instant ça ressemble plus à investissement rentable. La machine à prix 200 balles depuis que je l'ai achetée. Bientôt on fera maturer nos serveurs en cave avant de les revendre comme un bon millésime :o :o :o


Message édité par neo world le 21-05-2026 à 17:32:48
n°16160
the_fennec
f3nn3cUs z3rd4
Posté le 21-05-2026 à 17:34:23  profilanswer
 

neo world a écrit :


Je note merci :jap:. Je pense que je vais attendre de voir comment se comportent mes agents avec mon infra existante et faire des tests avec des modèles de différentes tailles avant de me décider (mais la machine est à nouveau dispo aux environs des 160€ ça rend l'opération très tentante :D )
 
La je suis en train de monter mon homelab (3 noeuds proxmox 7640HS avec 32GO de RAM et 1 to de CEPH pour chaque noeud). Il va embarque son propre Git, CI/CD, wiki, postgres, container, agents de dev et infra de backup externe pour que le bordel puisse tourner en vase clos en illimité en mode AI factory locale avec Qwen et Minimax sur le halo strix pour piloter la partie dev / documentation / debug.
 
C'est un beau bordel d'être aussi multi-casquette. Ca me rappel le temps où je bossais en PME :D


 
Fais attention, on commence comme ça et on fini avec 4 baies et 500 VMs :o (c'est du vécu)


---------------
Faudra que je teste un jour :o
n°16161
speedboyz3​0
Guide Michelin :o
Posté le 21-05-2026 à 17:34:41  profilanswer
 

On attends tes retours sur le Strix Halo alors :jap:
 
Si possible avant l'annonce des nouveaux mac studio :o
Tellement peur d'être déçu en terme de qualité / rapidité :/

n°16162
speedboyz3​0
Guide Michelin :o
Posté le 21-05-2026 à 17:36:18  profilanswer
 

neo world a écrit :


faut même pas y penser : tu achètes la machine à T1 avec un besoin à couvrir. La revente alors que la machine n'attends que d'être clusterisée pour plus de VRAM ne m'a même pas traversé l'esprit à l'achat :o
 
A noter que pour l'instant ça ressemble plus à investissement rentable. La machine à prix 200 balles depuis que je l'ai achetée. Bientôt on fera maturer nos serveurs en cave avant de les revendre comme un bon millésime :o :o :o


 
Pas faux  [:leve le pied jeannot:1]

n°16163
neo world
Posté le 21-05-2026 à 17:40:12  profilanswer
 

speedboyz30 a écrit :

On attends tes retours sur le Strix Halo alors :jap:
 
Si possible avant l'annonce des nouveaux mac studio :o
Tellement peur d'être déçu en terme de qualité / rapidité :/


file moi un exo (le modèle que tu veux + prompt et fichier que tu veux) :D
 
A noter qu'il y a des benchs dispos en ligne postés par un autre forumeur il y a quelques messages :jap:

n°16164
the_fennec
f3nn3cUs z3rd4
Posté le 21-05-2026 à 17:40:20  profilanswer
 

speedboyz30 a écrit :

Après la question c'est :
 
Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?


 

hardcorsaire a écrit :


Faut voir la décote de la machine Halo, et surtout les limitations de l'abo Claude
 
Après, sur la partie privacy, il n'y a pas match


 
Attention, faut espérer rivaliser avec Claude/GPT avec ça, même si tu peux charger de gros modèles la dessus, les perfs sont bien en dessous.
 

hardcorsaire a écrit :

Les modèles de CPU Ryzen AI Max ne sont pas dispo au détail ? uniquement via les machines Halo ?


 
Quich a raison, il me semble que la raison pour le BGA est que le bus mémoire est géré différemment des sockets AM5.


---------------
Faudra que je teste un jour :o
n°16165
neo world
Posté le 21-05-2026 à 17:41:35  profilanswer
 

the_fennec a écrit :


 
Fais attention, on commence comme ça et on fini avec 4 baies et 500 VMs :o (c'est du vécu)


https://forum.hardware.fr/hfr/resea [...] m#t1272131  [:titimoi]


Message édité par neo world le 21-05-2026 à 17:42:18
n°16166
the_fennec
f3nn3cUs z3rd4
Posté le 21-05-2026 à 17:47:16  profilanswer
 


 
Dans mon cas c'était au taf, j'avais commencé par installer un ESX pour reproduire un problème client, ça a un peu dégénéré ensuite. Heureusement j'ai pu refiler le merdier en changeant de projet :D.


---------------
Faudra que je teste un jour :o
n°16167
neo world
Posté le 21-05-2026 à 19:03:36  profilanswer
 

the_fennec a écrit :


 
Dans mon cas c'était au taf, j'avais commencé par installer un ESX pour reproduire un problème client, ça a un peu dégénéré ensuite. Heureusement j'ai pu refiler le merdier en changeant de projet :D.


C'est le mieux, dépenser l'argent des autres en mode  [:isami kondo] puis prendre son jet pack quand ça devient ennuyeux / faut assumer tous les fossiles vivants qui détruisent tout sur leur passage  :o


Message édité par neo world le 21-05-2026 à 19:13:31
n°16168
the_fennec
f3nn3cUs z3rd4
Posté le 21-05-2026 à 19:57:16  profilanswer
 

neo world a écrit :


C'est le mieux, dépenser l'argent des autres en mode  [:isami kondo] puis prendre son jet pack quand ça devient ennuyeux / faut assumer tous les fossiles vivants qui détruisent tout sur leur passage  :o


 
J'ai bien donné de ma personne pour maintenir le truc alors que c'était pas mon taf', donc j'ai les fesses propres de ce coté :o.


---------------
Faudra que je teste un jour :o
n°16169
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 12:26:07  profilanswer
 

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 :o).
 
Je trouve que c'est pas mal du tout, il progresse mieux que Opencode je trouve pour le moment. Par contre il compacte pas le contexte automatiquement dans tous les cas, j'ai trouvé qu'il faut desactivé les beta, mais je sais pas encore si ça marche. Voila ma config:
 
env vars:

Code :
  1. export ANTHROPIC_API_KEY="1234"
  2. export ANTHROPIC_BASE_URL="http://llama:8080"
  3. export ANTHROPIC_MODEL="default"
  4. export OPENAI_BASE_URL="http://llama:8080"
  5. export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=true


 
.claude/settings.json  

Code :
  1. {
  2.   "env": {
  3.     "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
  4.     "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
  5.     "CLAUDE_CODE_ATTRIBUTION_HEADER": "0"
  6.   },
  7.   "attribution": {
  8.     "commit": "",
  9.     "pr": ""
  10.   },
  11.   "effortLevel": "high",
  12.   "promptSuggestionEnabled": false,
  13.   "plansDirectory": "./plans",
  14.   "prefersReducedMotion": true,
  15.   "terminalProgressBarEnabled": false,
  16.   "skipDangerousModePermissionPrompt": true
  17. }


 
et je lance avec:
--dangerously-skip-permissions
 
 
----
 
Sur mon project Linux Amiga 500, la ou Opencode bouclait un peu a désactiver des modules, péter un truc, ractiver les modules. Claude code a pull la dernière branche, déactivé plein de modules et est arrivé a la conclusion que c'est pas suffisant. Il est maintenant en train de virer/stub du code du Kernel petit a petit. Je vais le laisser continuer en mode Yolo et voir ou il va. Si `CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS` marche bien, il devrait pouvoir passer la nuit a bosser tout seul.


Message édité par the_fennec le 22-05-2026 à 12:26:23

---------------
Faudra que je teste un jour :o
n°16170
Olivie
SUUUUUUUUUUUUUU
Posté le 22-05-2026 à 13:04:24  profilanswer
 

the_fennec a écrit :

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 :o).


Tu peux également tester avec ton modele local l’app Codex


---------------

n°16171
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 14:37:13  profilanswer
 

Olivie a écrit :


Tu peux également tester avec ton modele local l’app Codex


 
Oui, pourquoi pas, mais je pense que Claude a plus de potentiel avec les extensions et autres custos.
 
Par contre toujours le soucis de compaction auto:

Code :
  1. Searched for 2 patterns (ctrl+o to expand)                                                                                                                       
  2.   ⎿  API Error: 400 {"error":{"code":400,"message":"request (131513 tokens) exceeds the available context size (131072 tokens), try increasing
  3.      it","type":"exceed_context_size_error","n_prompt_tokens":131513,"n_ctx":131072}}


 
Mais il progresse vraiment pas mal:
 

Code :
  1. ● Bash(python3 << 'PYEOF'                                         
  2.       import sys…)                                                                                                                                                 
  3.   ⎿  Total symbols: 3028                                         
  4.      Top 30 functions:                                                                                                                                             
  5.                                       sys_rt_sigtimedwait: 590160 bytes (576.3KB)
  6.      … +26 lines (ctrl+o to expand)                                                                                                                               
  7.                                                                  
  8. ● Good - 984KB .text (down from 915KB before... wait, that's actually larger). Let me recheck - the calculation is broken due to shared addresses. The actual .text
  9.   section is 0xadfba = 703KB.                                               
  10.                                                                                                                                                                    
  11.   Let me focus on more targeted reductions. Now that DCE is working, let me try removing code from files with very low keep rates.



---------------
Faudra que je teste un jour :o
n°16172
hardcorsai​re
Posté le 22-05-2026 à 15:13:54  profilanswer
 

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo
 
Je ne vois pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??


Message édité par hardcorsaire le 22-05-2026 à 18:26:11
n°16173
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 15:33:31  profilanswer
 

hardcorsaire a écrit :

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo
 
Je ne pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??


 
Il doit y en avoir pour $1500 rien qu'en RAM. Plus rapide qu'un "NVIDIA DGX Spark" et "Apple M4 Pro". Ni l'un, ni l'autre ne sont facilement dispo.
Il faut bien profiter :o
 
https://www.amd.com/en/products/pro [...] -halo.html
 
Bordel, il avance bien Claude, plus que 200KB:

Code :
  1. 41KB saved! Binary now 1,086,576 bytes (1.04MB). Let me continue removing more dead code.


Message édité par the_fennec le 22-05-2026 à 15:35:16

---------------
Faudra que je teste un jour :o
n°16174
neo world
Posté le 22-05-2026 à 15:52:53  profilanswer
 

hardcorsaire a écrit :

Je viens de regarders les specs du futur mini-pc AMD Ryzen AI Halo
 
Je ne pas ce qui justifie un prix de 4000$ [:selnet] La RAM ??


belle connerie si tu veux mon avis : ils vont attaquer en frontal le Nvidia DGX spark et ses deux ports 100Gb/s mellanox et le support cuda qu'AMD ne pourra pas concurrencer. Si ils sont bien idiots ils assèchent aussi l'ancienne version (entre 1000 et 1500€ moins cher) comme ça ils laissent bien la place nette à Nvidia.
 
De mon côté mon Strix Halo v1 n'aura pas de petit frère dans ces conditions  [:vizera]

n°16175
neo world
Posté le 22-05-2026 à 15:56:21  profilanswer
 

the_fennec a écrit :

Bon j'ai décidé de tester Claude Code comme agent, toujours avec llama.cpp Qwen 3.6 35B en MTP. (en attendant 3.7 :o).
 
Je trouve que c'est pas mal du tout, il progresse mieux que Opencode je trouve pour le moment. Par contre il compacte pas le contexte automatiquement dans tous les cas, j'ai trouvé qu'il faut desactivé les beta, mais je sais pas encore si ça marche. Voila ma config


tu n'as pas essayé openclaw / hermes ? je vais sans doute m'y mettre ce week-end et j'avais prévu un match hermes / claude code  
(je sauve ce lien pour plus tard https://www.mindstudio.ai/blog/herm [...] r-workflow )

n°16176
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 16:14:57  profilanswer
 

neo world a écrit :


tu n'as pas essayé openclaw / hermes ? je vais sans doute m'y mettre ce week-end et j'avais prévu un match hermes / claude code  
(je sauve ce lien pour plus tard https://www.mindstudio.ai/blog/herm [...] r-workflow )


 
Si j'ai testé les deux, Openclaw beaucoup plus que Hermes et ça marchait pas bien du tout. Après c'était avant d'avoir la BC250, donc 16GB de VRAM et Qwen3. Faudrait peut être que j'essaye de nouveau, mais OC c'est tellement le bordel que j'ai pas trop envie de m'y remettre. Ça me donnait directement l'impression de me replonger dans des softs Oracle/IBM/HP, et il faut me payer chère pour que je retouche a ces merdes :o.
 
Ce que je reproche a OC c'est d'être prévue pour des gros modèle, genre GPT/Opus avec un gros contexte. De base il y a tellement de bloat que ton contexte est déjà a moitié plein avant de commencé:
https://github.com/openclaw/opencla [...] /AGENTS.md
 
J'avais tout juste réussi a le faire s'auto-configuré et chercher un peu sur internet, mais ça partait rapidement en sucette.
 
Hermes, more of the same.


Message édité par the_fennec le 22-05-2026 à 16:16:37

---------------
Faudra que je teste un jour :o
n°16177
the_fennec
f3nn3cUs z3rd4
Posté le 22-05-2026 à 17:16:08  profilanswer
 

https://i.imgur.com/gxkXrRd.png
 
edit:
il a triché :/

Citation :

## Notes
 
- The kernel is built with `CONFIG_MMU=y` even though the A500 has no MMU. The m68k MMU code is minimal and required by the build system.
- `CONFIG_M68020=y` is set even for a 68000 CPU — the m68k kernel is built for the 68020 instruction set which is a superset of 68000.


Message édité par the_fennec le 22-05-2026 à 17:19:02

---------------
Faudra que je teste un jour :o
n°16178
the_fennec
f3nn3cUs z3rd4
Posté le 25-05-2026 à 10:20:49  profilanswer
 

Bon mitigé sur Claude Code, il marche bien, mais il ne compacte pas seul, il arrive a remplir le contexte et se prends une erreur 400 de llama.cpp. Je peux encore compacter manuellement, mais c'est lourd, il bosse une grosse heure c'est tout.
 
Je suis en train de tester Qwen Code pour voir. Ça marche, mais ça sent le truc vibe-codé et pas testé. C'est simple a détecter: de très jolie docs, mais avec des 404 et surtout qui documentent des trucs qui marchent pas. La config JSON llama.cpp/Ollama marche pas, il faut passer par le TUI pour bien mettre les options. Pareil pour le mode YOLO, bien documenté, mais ne fonctionner pas non plus, il faut faire SHIFT+TAB pour passer en mode YOLO.


---------------
Faudra que je teste un jour :o
n°16179
neo world
Posté le 25-05-2026 à 12:57:51  profilanswer
 

Tu as découpé comment tes taches ? Pour moi c’est chaud de tout faire en une passe. Faudrait découper par module en lui donnant en skills comment c’était fait dans le bon vieux temps et lui donner des templates pour qu’il puisse bosser sans exploser le million de token en contexte

n°16180
the_fennec
f3nn3cUs z3rd4
Posté le 25-05-2026 à 15:00:07  profilanswer
 

J'ai un AGENTS.md et un implementation.md, mais c'est juste pour donner des guide-lines, mais c'est plus de l’exportation qu'autre chose.
 
Mon but est juste de trouver un combo modèle/agent qui peut tourner h24 sans s'arrêter, même si il fini par boucler.
 
Qwen-code n'est pas vraiment mieux, il timeout tout ça parce que la compaction dure plus de 10 minutes :o


---------------
Faudra que je teste un jour :o
n°16181
the_fennec
f3nn3cUs z3rd4
Posté le 25-05-2026 à 17:31:01  profilanswer
 

Je suis passé sur pi.dev :pt1cable:


---------------
Faudra que je teste un jour :o
n°16182
neo world
Posté le 25-05-2026 à 20:30:59  profilanswer
 

the_fennec a écrit :

Je suis passé sur pi.dev :pt1cable:


Alors ça donne quoi ? :D

n°16183
the_fennec
f3nn3cUs z3rd4
Posté le 26-05-2026 à 07:33:31  profilanswer
 

neo world a écrit :


Alors ça donne quoi ? :D


Il se débrouille, mais il faut le relancer après une compaction  :(


---------------
Faudra que je teste un jour :o
n°16184
TotalRecal​l
Posté le 26-05-2026 à 13:46:22  profilanswer
 

Ce sujet a été déplacé de la catégorie Hardware vers la categorie Intelligence Artificielle par TotalRecall


---------------
Topic .Net - C# @ Prog
n°16202
TotalRecal​l
Posté le 26-05-2026 à 13:47:44  profilanswer
 

Une nouvelle cat entière pour parler de modèles, de NPU, de lamas, et de tout ce que vous voudrez qui s'y rapporte. Amusez vous bien :o


---------------
Topic .Net - C# @ Prog
n°16208
speedboyz3​0
Guide Michelin :o
Posté le 26-05-2026 à 14:00:13  profilanswer
 

TotalRecall a écrit :

Ce sujet a été déplacé de la catégorie Hardware vers la categorie Intelligence Artificielle par TotalRecall


 
Et c'est parti  [:salsifouette:5]

n°16215
the_fennec
f3nn3cUs z3rd4
Posté le 26-05-2026 à 14:10:34  profilanswer
 

TotalRecall a écrit :

Une nouvelle cat entière pour parler de modèles, de NPU, de lamas, et de tout ce que vous voudrez qui s'y rapporte. Amusez vous bien :o


 
Merci :jap:


---------------
Faudra que je teste un jour :o
n°16238
LibreArbit​re
La /root est longue
Posté le 26-05-2026 à 15:05:19  profilanswer
 

TotalRecall a écrit :

Une nouvelle cat entière pour parler de modèles, de NPU, de lamas, et de tout ce que vous voudrez qui s'y rapporte. Amusez vous bien :o


Chef, il y en a encore quelques uns à déplacer :

 

https://forum.hardware.fr/hfr/Progr [...] 8747_1.htm
https://forum.hardware.fr/hfr/Progr [...] 8701_1.htm
https://forum.hardware.fr/hfr/Discu [...] 0604_1.htm
https://forum.hardware.fr/hfr/resea [...] 9045_1.htm

 

:jap:


Message édité par LibreArbitre le 26-05-2026 à 15:05:30

---------------
Pharyo | Cinépite | Capvirage
n°28407
Plam
Bear Metal
Posté le 26-05-2026 à 17:32:44  profilanswer
 

Ici en contexte pro pour des usages divers, j'ai 3 machines :
1. Un vieux tromblon récup gratos avec 8xP100. Très bien pour des petites tâches (enrichissement de leads etc.)
2. Une machine récente avec 1x RTX 6000 Ada (48GiB vRAM) et 1x RTX Blackwell MaxQ (96GiB vRAM). Avec vLLM côté back (très bien en multiuser), qwen MoE pour le chatGPT like (OpenWebUI) sur l'Ada et Qwen 27B dense pour OpenCode (sur le blackwell)
3. Une machine de dev en 5090

 

Le tout avec LiteLLM devant pour proxifier.

 

J'attend qwen 3.7 avec beaucoup d'impatience :o


Message édité par Plam le 26-05-2026 à 17:33:02

---------------
Spécialiste du bear metal
n°28410
the_fennec
f3nn3cUs z3rd4
Posté le 26-05-2026 à 17:53:24  profilanswer
 

Tu utilises quoi pour l'inférence? vLLM ?
Des modèles pas quantifiés j'imagine?  [:julm3]  
combien d'utilisateurs?


---------------
Faudra que je teste un jour :o
n°28444
Plam
Bear Metal
Posté le 26-05-2026 à 20:49:31  profilanswer
 

the_fennec a écrit :

Tu utilises quoi pour l'inférence? vLLM ?
Des modèles pas quantifiés j'imagine?  [:julm3]  
combien d'utilisateurs?


 
vLLM : c'est dans le post déjà :o Meilleur back pour multi user. OpenWebUI pour le MoE en mode « chatGPT pour tous ».
 
Les 2 modèles utilisés so far :

  • Blackwell

Modèle HF : Qwen/Qwen3.6-27B-FP8
Dense 27B, FP8 fine-grained (block size 128), MTP speculative decoding
256K context, ~29 Go de poids, ~51 Go de KV cache dispo
 

  • Ada

Modèle HF : QuantTrio/Qwen3.6-35B-A3B-AWQ
MoE 35B total / 3B actifs par token, AWQ 4-bit, MTP speculative decoding
128K context (--max-model-len 131072)


---------------
Spécialiste du bear metal
n°29874
the_fennec
f3nn3cUs z3rd4
Posté le 27-05-2026 à 19:41:24  profilanswer
 

Vidéo sur les effets de la quantization, de Q8 a Q1!
 
Everything looks fine at 4-bit
https://www.youtube.com/watch?v=8IzUyLLn5NA
 
TL;DR Q4_K_M :o


---------------
Faudra que je teste un jour :o
n°29875
the_fennec
f3nn3cUs z3rd4
Posté le 27-05-2026 à 20:09:09  profilanswer
 

the_fennec a écrit :

Je suis passé sur pi.dev :pt1cable:


 

neo world a écrit :


Alors ça donne quoi ? :D


 
Je drop aussi, c'est pas mieux que Claude et il plante avec mes compactions qui prennent des plombes:

Code :
  1. Error: 400 request (68133 tokens) exceeds the available context size (65536 tokens), try increasing it                   
  2. Context overflow recovery failed: Summarization failed: Request timed out.


 
En plus ça lui arrive de stopper après une compaction...
 
Et il est racheté par une boite:
https://www.reddit.com/r/LocalLLaMA [...] _earendil/
 
 [:segi01]


---------------
Faudra que je teste un jour :o
n°29883
Amonchakai
Posté le 27-05-2026 à 23:38:56  profilanswer
 

Hello
 
On m’a montre des truc comme ça:
 
https://localaimaster.com/blog/hybrid-local-cloud-ai
 
Une approche hybride avec une estimation de complexité pour envoyer soit à un modèle local ou sur cloud.  
 
Vous avez regardé ce genre de truc ?
 
Perso j’ai un studio 64go en perso et un DGX spark au taff. Ça se testerait bien

Message cité 1 fois
Message édité par Amonchakai le 27-05-2026 à 23:40:53
n°29902
extenue1
Posté le 28-05-2026 à 10:21:35  profilanswer
 

Test du Nvidia DGX Spark (Dell) : le mini PC IA à 128 Go de RAM

 

https://www.frandroid.com/marques/3 [...] -go-de-ram

 

A 3k je prends, 6k non :)

Message cité 2 fois
Message édité par extenue1 le 28-05-2026 à 10:22:23
n°29940
the_fennec
f3nn3cUs z3rd4
Posté le 28-05-2026 à 14:41:15  profilanswer
 

CUDA 13.3 est sortis, c'est censé régler des problèmes d’alignements mémoire qui m'avaient obligé à patcher vLLM pour le faire tourner. Donc l’installe pour les pauvre devrait être plus facile. Bon, ça me concerne pas vu que ça marche pas sur la BC250.
 
Je vois que llama.cpp est aussi passé sur CUDA 13.3, mais j'ai pas testé.
 
J'ai essayé ik_llama.cpp, qui a un mode split tensor graph qui semble mieux que layers, mais après avoir bien galéré pour compiler sous Windows, ben le mode RPC marche pas:

Code :
  1. ggml_vulkan: Error: Missing op: SSM_CONV


 
Peut être un soucis de compilation coté Linux, mais j'ai utilisé la même ligne de commande que llama.cpp. J'ai vu que le protocole RPC est resté en v3 vs v4 pour llama.cpp, donc j'imagine que le mode RPC ou Vulkan est un peut resté a l'abandon. Donc retour a llama.cpp...


Message édité par the_fennec le 28-05-2026 à 14:42:23

---------------
Faudra que je teste un jour :o
n°29955
neo world
Posté le 28-05-2026 à 16:28:16  profilanswer
 

the_fennec a écrit :

Vidéo sur les effets de la quantization, de Q8 a Q1!
 
Everything looks fine at 4-bit
https://www.youtube.com/watch?v=8IzUyLLn5NA
 
TL;DR Q4_K_M :o


 :jap:  
 

the_fennec a écrit :


 
 
 
Je drop aussi, c'est pas mieux que Claude et il plante avec mes compactions qui prennent des plombes:

Code :
  1. Error: 400 request (68133 tokens) exceeds the available context size (65536 tokens), try increasing it                   
  2. Context overflow recovery failed: Summarization failed: Request timed out.


 
En plus ça lui arrive de stopper après une compaction...
 
Et il est racheté par une boite:
https://www.reddit.com/r/LocalLLaMA [...] _earendil/
 
 [:segi01]


 
A priori 'est pour continuer le projet tel quel mais je comprend l'envie de changer. Tu peux faire le summary / Compaction ailleurs (cloud rapide) pour dépasser le problème de timeout ?
 

Amonchakai a écrit :

Hello
 
On m’a montre des truc comme ça:
 
https://localaimaster.com/blog/hybrid-local-cloud-ai
 
Une approche hybride avec une estimation de complexité pour envoyer soit à un modèle local ou sur cloud.  
 
Vous avez regardé ce genre de truc ?
 
Perso j’ai un studio 64go en perso et un DGX spark au taff. Ça se testerait bien


 
Ca m'intéresse fortement pour mon use case. Merci :jap:
 

extenue1 a écrit :

Test du Nvidia DGX Spark (Dell) : le mini PC IA à 128 Go de RAM
 
https://www.frandroid.com/marques/3 [...] -go-de-ram
 
A 3k je prends, 6k non :)


Félicitations tu cherches en fait un AMD Halo strix 128GB pour à peine 2406€ :o

n°29958
the_fennec
f3nn3cUs z3rd4
Posté le 28-05-2026 à 16:36:19  profilanswer
 

neo world a écrit :


A priori 'est pour continuer le projet tel quel mais je comprend l'envie de changer. Tu peux faire le summary / Compaction ailleurs (cloud rapide) pour dépasser le problème de timeout ?


 
Je cherche un combo qui peut tourner h24 sans s’arrêter, je m'en fous d'être a 2 tgs, ou qu'une compaction prenne 10 minutes. A terme je voudrais laisser l'agent tourner avec un but précis, genre "reverse engineering" complet d'un firmware jusqu`à ce que les sources compilée donnent le même binaire.


---------------
Faudra que je teste un jour :o
 Page :   1  2  3  4  5  ..  9  10  11  ..  18  19  20  21  22  23

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)