Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
3272 connectés 

 

Sujet(s) à lire :
 

Avez-vous déjà pris du matos pour faire tourner des modèles LLM gérés par vous même ? ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-06-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°11475820
neo world
Posté le 27-04-2026 à 02:06:36  profilanswer
 

Reprise du message précédent :

Tronklou a écrit :

(type BC-250 ou équivalent)
 
Y a pas d'équivalents enfaîte, ce machin est un ovni, littéralement.
C'est un APU de PS5 castré pour du cryptominage, vendue en rack.  
Récupérée comme déchets électronique et rendue exploitable par la communautés qui a rendue disponible bios et outils pour la transformer en pc utilisable sous linux.
 
Le fait que la mémoire soit partagée c'est cool, mais surtout c'est de la gddr6 avec des debits d'enfoiré : 448 GB/s
 
En comparaison un M4 c'est 120,un M5 153.
Un équivalent c'est au minimum un M5 Max a 460 ou un M4 Pro/Max 410/546


On peut quand même en trouver des APU mais sous d'autres formes Comme la steam Deck / ASUS  ROG ALLY / Lenovo Go
 
Je dis pas que le prix est le même ni la bande passante mémoire (loin s'en faut  [:youpiyoupla]) mais si on a ça qui traine dans un coin on peut démarrer ! :D

mood
Publicité
Posté le 27-04-2026 à 02:06:36  profilanswer
 

n°11475822
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 27-04-2026 à 04:00:45  profilanswer
 

Bah t'avais mis un budget de 150€, donc a partir de là un équivalent j'aurais pas pensé a un steam deck hein :D


---------------
Victime de girafophobie, mais se soigne.
n°11475831
the_fennec
f3nn3cUs z3rd4
Posté le 27-04-2026 à 07:56:39  profilanswer
 

Opencode me gonfle, il reste bloqué régulièrement sans raison, souvent sur des tool calls. Je pensais que c'était a cause des nouveaux modèles, mais ça le fait aussi avec coder-next. Avec 4k issues ouvertes, j'ai même pas envie d'en ouvrir une de plus...
 
Je vais tester pi.dev.


---------------
Faudra que je teste un jour :o
n°11475836
Rasthor
Posté le 27-04-2026 à 09:21:21  profilanswer
 

[:drapo]
 
Si vous êtes chez Apple, il y a une bonne nouvelle:
Ollama is now powered by MLX on Apple Silicon in preview
https://ollama.com/blog/mlx
 
 
MLX est le framework ML d'Apple pour utiliser le GPU des puces ARM.

n°11475889
dadamonhfr
Posté le 27-04-2026 à 16:53:27  profilanswer
 

[:cerveau drapal]
 
Chez moi j'ai :
- 16 Go VRAM (5060 ti)
- 64 Go de RAM (DDR4)
 
J'ai commencé par llamastudio, puis ollama, et maintenant j'utilise principalement llamacpp
C'est surtout pour satisfaire ma curiosité et comprendre comment tout ça marche. Je fais 2-3 tests et après j'arrête. Mon dernier test c'était pour le faire fonctionner avec Hermes (concurrent openclaw)
 
Au boulot on a un vieux serveur avec 256 Go de RAM DDR4 mais 0 VRAM.
J'avais eu l'intention à un moment de déployer un des modèles à 120-130 Go dessus mais quand je vois comment ça se traine juste avec un modèle 30 Go j'ai finalement abandonné l'idée.
 
Y en parmi vous qui ont acheté un PC strix halo ? Ou un DGX spark ? J'hésitais à sauter le pas pour les 128 Go de RAM partagée. Mais les prix ont tellement augmenté dernièrement ...

n°11475890
the_fennec
f3nn3cUs z3rd4
Posté le 27-04-2026 à 17:02:09  profilanswer
 

C'est quoi le/les CPU de ton server?
T'as essayé https://github.com/ikawrakow/ik_llama.cpp ?


---------------
Faudra que je teste un jour :o
n°11475904
dadamonhfr
Posté le 27-04-2026 à 19:20:34  profilanswer
 

C'est un Dell PowerEdge R730 Dual Intel Xeon E5-2620 v3.  
J'ai regardé le lien que t'as partagé. Ça m'a l'air compatible à 1ere vue. Je testerai.  
Merci.

n°11475920
the_fennec
f3nn3cUs z3rd4
Posté le 27-04-2026 à 23:44:04  profilanswer
 

Dire que j'en ai lassé partir 3 ou 4 à la benne... Bon après ça fait un bordel par possible et ça bouffe 200W en idle :lol:.


---------------
Faudra que je teste un jour :o
n°11476003
the_fennec
f3nn3cUs z3rd4
Posté le 28-04-2026 à 20:19:58  profilanswer
 

Benchmarking Local LLMs Against Coding Agent Harnesses
https://neuralnoise.com/2026/harness-bench-wip/?bare
 
Pas mal de résultats intéressants si il n'y a pas d'erreurs. Genre opencode est bien derrière pi.dev ou les quantification Q4 vs Q8 :/
 
Je vais tester pi dev pour voir, mon opencode/Qwen 35B tourne un peu en rond sur le Kernel pour Amiga  [:vinx2]


---------------
Faudra que je teste un jour :o
n°11476004
Olivie
SUUUUUUUUUUUUUU
Posté le 28-04-2026 à 21:00:37  profilanswer
 

Je peux pas tester j’ai MBP 1 16Go :o
 
https://img3.super-h.fr/images/2026/04/28/snapshot_2824752490dfd02d27030c8ef.jpg


---------------

mood
Publicité
Posté le 28-04-2026 à 21:00:37  profilanswer
 

n°11476006
the_fennec
f3nn3cUs z3rd4
Posté le 28-04-2026 à 21:24:20  profilanswer
 

C'est pas un nouveau modèle, juste un gars random qui a quantizé un 31B.


---------------
Faudra que je teste un jour :o
n°11476007
the_fennec
f3nn3cUs z3rd4
Posté le 28-04-2026 à 21:25:43  profilanswer
 

ça par contre c'est nouveau:
https://huggingface.co/unsloth/NVID [...] oning-GGUF


---------------
Faudra que je teste un jour :o
n°11476018
neo world
Posté le 29-04-2026 à 03:51:28  profilanswer
 


Je suis en train de tester la version Omni via LM studio. Il resiste bien contre les boucles infinies thinking / recherche sur internet et il est aussi rapide que homologue Qwen 3.6 35b a3 qui lui par contre aime pas trop ça internet (infinite loop thinking / searching avec la même requete si la réponse du moteur de recherche ne lui plaît pas ^^)
 
je fais des tests aussi avec llama 3.3 70b. Le ventilo souffle bien :o

n°11476019
neo world
Posté le 29-04-2026 à 03:57:43  profilanswer
 


j'ai testé avec LM studio sur le M5 pro (et tous les packages MLX nécessaire). Ca génère un peu plus vite (8 à 10% ?) mais rien d'extraordinaire :jap:

n°11476036
the_fennec
f3nn3cUs z3rd4
Posté le 29-04-2026 à 09:23:22  profilanswer
 

neo world a écrit :


Je suis en train de tester la version Omni via LM studio. Il resiste bien contre les boucles infinies thinking / recherche sur internet et il est aussi rapide que homologue Qwen 3.6 35b a3 qui lui par contre aime pas trop ça internet (infinite loop thinking / searching avec la même requete si la réponse du moteur de recherche ne lui plaît pas ^^)
 
je fais des tests aussi avec llama 3.3 70b. Le ventilo souffle bien :o


 
Étant multi-media il devrait être pas mal pour les trucs genre Openclaw.


---------------
Faudra que je teste un jour :o
n°11476039
Neji Hyuga
:grut:
Posté le 29-04-2026 à 09:43:03  profilanswer
 
n°11476097
speedboyz3​0
Guide Michelin :o
Posté le 29-04-2026 à 14:38:28  profilanswer
 

Y a des studios en refurb chez Apple les copains

n°11476101
neo world
Posté le 29-04-2026 à 15:28:07  profilanswer
 

Merci ! j'ai jeté un œil ce matin mais en dehors du M2 Ultra (a un prix pas du tout abusé :o) ils sont un peu faiblards en RAM.
 
Je commence à me poser la question de prendre un AMD AI MAX 395+ 128 GO (au delà du nom ridicule ça permettrait d'avoir un cluster de 256GO de RAM unifié pour le prix d'un seul M2 Ultra 64GO  :pt1cable: ) avec l'idée de faire tourner une équipe d'agents à côté du modèle planifieur / orchestrateur  [:bakk21]  
 
Autrement toujours assez bluffé par la paire Nemotron 3 nano Omni / Qwen 3.6 27 ou 35. Je suis assez triste de l'absence de modèles 70b en dehors de llama 3.3 qui commence à montrer son âge ^^
 
Autrement peur ceux qui débutent et cherchent que materiel acheter / modèle à choisir il y a ce site qui compare les modèles locaux sur quelques benchmarks vs le materiel qui peut les héberger :
https://runthisllm.com/
 
Et un autre plus orienté benchmark des modèles open weight et les modèles propriétaires :
https://artificialanalysis.ai/model [...] -reasoning
 
le retard est pas si énorme  [:sir_knumskull]

n°11476112
speedboyz3​0
Guide Michelin :o
Posté le 29-04-2026 à 16:29:32  profilanswer
 

neo world a écrit :

Merci ! j'ai jeté un œil ce matin mais en dehors du M2 Ultra (a un prix pas du tout abusé :o) ils sont un peu faiblards en RAM.
 
Je commence à me poser la question de prendre un AMD AI MAX 395+ 128 GO (au delà du nom ridicule ça permettrait d'avoir un cluster de 256GO de RAM unifié pour le prix d'un seul M2 Ultra 64GO  :pt1cable: ) avec l'idée de faire tourner une équipe d'agents à côté du modèle planifieur / orchestrateur  [:bakk21]  
 
Autrement toujours assez bluffé par la paire Nemotron 3 nano Omni / Qwen 3.6 27 ou 35. Je suis assez triste de l'absence de modèles 70b en dehors de llama 3.3 qui commence à montrer son âge ^^
 
Autrement peur ceux qui débutent et cherchent que materiel acheter / modèle à choisir il y a ce site qui compare les modèles locaux sur quelques benchmarks vs le materiel qui peut les héberger :
https://runthisllm.com/
 
Et un autre plus orienté benchmark des modèles open weight et les modèles propriétaires :
https://artificialanalysis.ai/model [...] -reasoning
 
le retard est pas si énorme  [:sir_knumskull]


 
Merde y avait un M4 Max 16 CPU / 40 GPU et 64Go de ram qui est parti !
 
Tu t'orienterais vers quoi comme AMD AI MAX 395+ 128 GO?

n°11476120
neo world
Posté le 29-04-2026 à 16:46:19  profilanswer
 

speedboyz30 a écrit :


 
Merde y avait un M4 Max 16 CPU / 40 GPU et 64Go de ram qui est parti !
 
Tu t'orienterais vers quoi comme AMD AI MAX 395+ 128 GO?


le moins cher : bosgame M5 :jap:

n°11476147
neo world
Posté le 29-04-2026 à 21:08:46  profilanswer
 

pour ceux qui se disent (ouais je lis dans vos pensées maintenant :o ) que je suis taré de choisir la mouture sans extension PCI express ni GBIC pour monter un cluster basses latences / RDMA, pas de panique : [:gidoin]  
 
Il y a deux ports M2 sur la machine et le second peut être détourné  [:hyugens] avec une nappe convertisseur M2 / Occulink pour récupérer 4 liens PCI express et monter de l'infiniband @ 50gb/s tout en profitant de latences sub 5µ secondes et du support du RDMA.  [:bibliophage:1]  [:palmyre]

n°11476155
niko123456
Posté le 29-04-2026 à 22:02:54  profilanswer
 

Testé qwen3-code-next en Q5 avec 130k en ctx aujourd'hui pour 45 t/s en génération, pas déçu du résultat, j'ai pu faire deux trois trucs sympa avec.
 
Quitte à offload j'ai poussé sur un MiniMax-M2.7-UD-IQ4_NL à 65k de ctx (un peu de mal à le stabiliser) ça m'a donné 30/15 t/s sur le prompt "make an html5 clone of space invaders" et "updates the design" ce résultat https://glacial-morsel-334z.pagedrop.io/
 
A voir ce que ça peut me sortir en dev sur des taches nocturnes.

n°11476157
M300A
Posté le 29-04-2026 à 22:09:29  profilanswer
 

Oui il a l'air top ce Qwen, j'utilise toujours intensivement le 3.6 Plus via opencode zen et franchement ça vaut largement un sonnet. Peut être pas opus, mais comme il marche correctement un jour sur deux et sur le planning est pas connu à l'avance...


---------------
:wq
n°11476159
bounty2k
Posté le 29-04-2026 à 22:16:34  profilanswer
 

Rasthor a écrit :

[:drapo]
 
Si vous êtes chez Apple, il y a une bonne nouvelle:
Ollama is now powered by MLX on Apple Silicon in preview
https://ollama.com/blog/mlx
 
 
MLX est le framework ML d'Apple pour utiliser le GPU des puces ARM.


L'article n'est pas très précis, mais il semble n'y avoir qu'un seul model MLX disponible (Qwen3.6) et uniquement en FP, du coup ça limite un peu l'intérêt. A voir ce que ça donne pour la suite.
A priori il n'est pas possible de récupérer un model MLX depuis huggingface par exemple

n°11476161
neo world
Posté le 29-04-2026 à 22:26:16  profilanswer
 

niko123456 a écrit :

Testé qwen3-code-next en Q5 avec 130k en ctx aujourd'hui pour 45 t/s en génération, pas déçu du résultat, j'ai pu faire deux trois trucs sympa avec.
 
Quitte à offload j'ai poussé sur un MiniMax-M2.7-UD-IQ4_NL à 65k de ctx (un peu de mal à le stabiliser) ça m'a donné 30/15 t/s sur le prompt "make an html5 clone of space invaders" et "updates the design" ce résultat https://glacial-morsel-334z.pagedrop.io/
 
A voir ce que ça peut me sortir en dev sur des taches nocturnes.


C’est pas mal ! Il a mis combien de temps ? (Notamment la partie aller-retour sur les buts) ?

n°11476165
Rasthor
Posté le 29-04-2026 à 23:08:52  profilanswer
 

bounty2k a écrit :


L'article n'est pas très précis, mais il semble n'y avoir qu'un seul model MLX disponible (Qwen3.6) et uniquement en FP, du coup ça limite un peu l'intérêt. A voir ce que ça donne pour la suite.
A priori il n'est pas possible de récupérer un model MLX depuis huggingface par exemple


J'ai cru qu'Ollama était le moteur, et donc c'est celui qui bénéficiait de l'accélération avec MLX (GPU ou Neural Accelerators, je ne suis pas sur).
Et les modèles sont ensuite juste des fichiers lus par ce moteur.

n°11476167
niko123456
Posté le 29-04-2026 à 23:18:22  profilanswer
 

neo world a écrit :


C’est pas mal ! Il a mis combien de temps ? (Notamment la partie aller-retour sur les buts) ?


 
Je ne sais pas trop, comme c'est pas fluide je suis partit faire autre chose. Pas plus de 10 minutes je pense.

n°11476173
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 00:20:18  profilanswer
 

J'ai mis ce nouveau projet d'agent a tourner pendant la nuit (en mode yolo):
https://github.com/mlhher/late
 
J'aime bien la philosophie du truc!


---------------
Faudra que je teste un jour :o
n°11476175
le canard ​nouveau
coin
Posté le 30-04-2026 à 00:47:10  profilanswer
 

drapal :o


---------------
Sivouplé, un referral scam citizen https://robertsspaceindustries.com/ [...] -SVBP-3PT3
n°11476196
bounty2k
Posté le 30-04-2026 à 07:58:55  profilanswer
 

Rasthor a écrit :


J'ai cru qu'Ollama était le moteur, et donc c'est celui qui bénéficiait de l'accélération avec MLX (GPU ou Neural Accelerators, je ne suis pas sur).
Et les modèles sont ensuite juste des fichiers lus par ce moteur.


J'ai compris la même chose, sauf qu'il ne précise pas les models MLX disponibles (en fouillant je n'ai trouvé que Qwen3.6) ni comment installer des model externes.
Mais ça va clairement dans le bon sens (pour les possesseur de puces Apple Arm)

n°11476211
neo world
Posté le 30-04-2026 à 09:26:47  profilanswer
 

Le modèle a aussi besoin de passer par des moulinettes pour que le moteur puisse puisse exécuter les accélérateurs / API métal. Mais y’a énormément de modèles en MLX. Par contre c’est 9 fois sur 10 du travail de passionnés plutôt que celui des éditeurs des modèles.
 
Bon j’ai commandé le Bosgame M5 sinon. Y’a plus qu’à attendre [:toyoyost:3]

n°11476218
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 10:28:13  profilanswer
 

128GB? Combien?


---------------
Faudra que je teste un jour :o
n°11476222
Quich
Pouet ?
Posté le 30-04-2026 à 10:35:29  profilanswer
 

[:atom1ck]


---------------
Feedback
n°11476224
Neji Hyuga
:grut:
Posté le 30-04-2026 à 10:50:48  profilanswer
 

neo world a écrit :

Le modèle a aussi besoin de passer par des moulinettes pour que le moteur puisse puisse exécuter les accélérateurs / API métal. Mais y’a énormément de modèles en MLX. Par contre c’est 9 fois sur 10 du travail de passionnés plutôt que celui des éditeurs des modèles.
 
Bon j’ai commandé le Bosgame M5 sinon. Y’a plus qu’à attendre [:toyoyost:3]


 
L'un de mes clients a reçu le sien il y a quelques semaines, pour l'instant il est très content.
 
Je suis curieux de voir combien de tokens/s ça débite avec Qwen3.5 122B sur ollama par rapport à "mon" GB10.

Message cité 1 fois
Message édité par Neji Hyuga le 30-04-2026 à 10:55:22

---------------
Le Topic Unique des collections de cartes graphiques - GPUCHAN.ORG
n°11476226
neo world
Posté le 30-04-2026 à 11:01:01  profilanswer
 

the_fennec a écrit :

128GB? Combien?


2221,95€ pour le 128GB :pt1cable:  
 
Je te ferai un retour Neji quand ce sera arrivé :jap:

Message cité 2 fois
Message édité par neo world le 30-04-2026 à 11:01:32
n°11476227
LaRoueEstT​ombee
Hortense ! Pour moi !
Posté le 30-04-2026 à 11:10:07  profilanswer
 
n°11476228
LibreArbit​re
La /root est longue
Posté le 30-04-2026 à 11:30:37  profilanswer
 

neo world a écrit :

2221,95€ pour le 128GB :pt1cable:  
 
Je te ferai un retour Neji quand ce sera arrivé :jap:


Ces freelances qui crânent :kaola:


---------------
Protometre | Creatinometre
n°11476229
neo world
Posté le 30-04-2026 à 11:32:06  profilanswer
 

Je suis en CDI moi mossieur. J’ai payé ma TVA et mes impôts sur le revenu avant de dépenser l’argent durement gagné :o

n°11476232
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 11:41:08  profilanswer
 

neo world a écrit :


2221,95€ pour le 128GB :pt1cable:  
 
Je te ferai un retour Neji quand ce sera arrivé :jap:


 
Pas si cher que ça quand on voit que 128GB de DDR5 c'est déjà 1200 euros, 350 balles pour un SSD de 2TB ...


---------------
Faudra que je teste un jour :o
n°11476234
XaTriX
Posté le 30-04-2026 à 11:43:12  profilanswer
 

et les centres spatiaux ce sont des couilles :jap:


---------------
Proxytaf ? non rien
n°11476236
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 11:49:54  profilanswer
 

De quoi tu parles XaTriX?


---------------
Faudra que je teste un jour :o
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7

Aller à :
Ajouter une réponse
 

Sujets relatifs
Besoin d'aide pour tourBesoin d'aide, problème avec mon pc
AIde pour config 4KBesoin d'aide pour config rapport/qualité prix
Choix disspateur NVMeAjout de RAM , meilleur choix ? DDR4 2400
Aide pour config Graphiste 2D/3DBesoin d'aide sur projet config fanless linux mint
Conseil choix 2 configs avant achatChoix GPU - Jeux sur 49" 5120X1440p
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)