Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2322 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  17  18  19  20  21  22
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°15878
neo world
Posté le 27-04-2026 à 02:06:36  profilanswer
 

Reprise du message précédent :

Tronklou a écrit :

(type BC-250 ou équivalent)
 
Y a pas d'équivalents enfaîte, ce machin est un ovni, littéralement.
C'est un APU de PS5 castré pour du cryptominage, vendue en rack.  
Récupérée comme déchets électronique et rendue exploitable par la communautés qui a rendue disponible bios et outils pour la transformer en pc utilisable sous linux.
 
Le fait que la mémoire soit partagée c'est cool, mais surtout c'est de la gddr6 avec des debits d'enfoiré : 448 GB/s
 
En comparaison un M4 c'est 120,un M5 153.
Un équivalent c'est au minimum un M5 Max a 460 ou un M4 Pro/Max 410/546


On peut quand même en trouver des APU mais sous d'autres formes Comme la steam Deck / ASUS  ROG ALLY / Lenovo Go
 
Je dis pas que le prix est le même ni la bande passante mémoire (loin s'en faut  [:youpiyoupla]) mais si on a ça qui traine dans un coin on peut démarrer ! :D

n°15879
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 27-04-2026 à 04:00:45  profilanswer
 

Bah t'avais mis un budget de 150€, donc a partir de là un équivalent j'aurais pas pensé a un steam deck hein :D


---------------
Victime de girafophobie, mais se soigne.
n°15880
the_fennec
f3nn3cUs z3rd4
Posté le 27-04-2026 à 07:56:39  profilanswer
 

Opencode me gonfle, il reste bloqué régulièrement sans raison, souvent sur des tool calls. Je pensais que c'était a cause des nouveaux modèles, mais ça le fait aussi avec coder-next. Avec 4k issues ouvertes, j'ai même pas envie d'en ouvrir une de plus...
 
Je vais tester pi.dev.


---------------
Faudra que je teste un jour :o
n°15881
Rasthor
Posté le 27-04-2026 à 09:21:21  profilanswer
 

[:drapo]
 
Si vous êtes chez Apple, il y a une bonne nouvelle:
Ollama is now powered by MLX on Apple Silicon in preview
https://ollama.com/blog/mlx
 
 
MLX est le framework ML d'Apple pour utiliser le GPU des puces ARM.

n°15882
dadamonhfr
Posté le 27-04-2026 à 16:53:27  profilanswer
 

[:cerveau drapal]
 
Chez moi j'ai :
- 16 Go VRAM (5060 ti)
- 64 Go de RAM (DDR4)
 
J'ai commencé par llamastudio, puis ollama, et maintenant j'utilise principalement llamacpp
C'est surtout pour satisfaire ma curiosité et comprendre comment tout ça marche. Je fais 2-3 tests et après j'arrête. Mon dernier test c'était pour le faire fonctionner avec Hermes (concurrent openclaw)
 
Au boulot on a un vieux serveur avec 256 Go de RAM DDR4 mais 0 VRAM.
J'avais eu l'intention à un moment de déployer un des modèles à 120-130 Go dessus mais quand je vois comment ça se traine juste avec un modèle 30 Go j'ai finalement abandonné l'idée.
 
Y en parmi vous qui ont acheté un PC strix halo ? Ou un DGX spark ? J'hésitais à sauter le pas pour les 128 Go de RAM partagée. Mais les prix ont tellement augmenté dernièrement ...

n°15883
the_fennec
f3nn3cUs z3rd4
Posté le 27-04-2026 à 17:02:09  profilanswer
 

C'est quoi le/les CPU de ton server?
T'as essayé https://github.com/ikawrakow/ik_llama.cpp ?


---------------
Faudra que je teste un jour :o
n°15884
dadamonhfr
Posté le 27-04-2026 à 19:20:34  profilanswer
 

C'est un Dell PowerEdge R730 Dual Intel Xeon E5-2620 v3.  
J'ai regardé le lien que t'as partagé. Ça m'a l'air compatible à 1ere vue. Je testerai.  
Merci.

n°15885
the_fennec
f3nn3cUs z3rd4
Posté le 27-04-2026 à 23:44:04  profilanswer
 

Dire que j'en ai lassé partir 3 ou 4 à la benne... Bon après ça fait un bordel par possible et ça bouffe 200W en idle :lol:.


---------------
Faudra que je teste un jour :o
n°15886
the_fennec
f3nn3cUs z3rd4
Posté le 28-04-2026 à 20:19:58  profilanswer
 

Benchmarking Local LLMs Against Coding Agent Harnesses
https://neuralnoise.com/2026/harness-bench-wip/?bare
 
Pas mal de résultats intéressants si il n'y a pas d'erreurs. Genre opencode est bien derrière pi.dev ou les quantification Q4 vs Q8 :/
 
Je vais tester pi dev pour voir, mon opencode/Qwen 35B tourne un peu en rond sur le Kernel pour Amiga  [:vinx2]


---------------
Faudra que je teste un jour :o
n°15887
Olivie
SUUUUUUUUUUUUUU
Posté le 28-04-2026 à 21:00:37  profilanswer
 

Je peux pas tester j’ai MBP 1 16Go :o
 
https://img3.super-h.fr/images/2026/04/28/snapshot_2824752490dfd02d27030c8ef.jpg


---------------

n°15888
the_fennec
f3nn3cUs z3rd4
Posté le 28-04-2026 à 21:24:20  profilanswer
 

C'est pas un nouveau modèle, juste un gars random qui a quantizé un 31B.


---------------
Faudra que je teste un jour :o
n°15889
the_fennec
f3nn3cUs z3rd4
Posté le 28-04-2026 à 21:25:43  profilanswer
 

ça par contre c'est nouveau:
https://huggingface.co/unsloth/NVID [...] oning-GGUF


---------------
Faudra que je teste un jour :o
n°15890
neo world
Posté le 29-04-2026 à 03:51:28  profilanswer
 


Je suis en train de tester la version Omni via LM studio. Il resiste bien contre les boucles infinies thinking / recherche sur internet et il est aussi rapide que homologue Qwen 3.6 35b a3 qui lui par contre aime pas trop ça internet (infinite loop thinking / searching avec la même requete si la réponse du moteur de recherche ne lui plaît pas ^^)
 
je fais des tests aussi avec llama 3.3 70b. Le ventilo souffle bien :o

n°15891
neo world
Posté le 29-04-2026 à 03:57:43  profilanswer
 


j'ai testé avec LM studio sur le M5 pro (et tous les packages MLX nécessaire). Ca génère un peu plus vite (8 à 10% ?) mais rien d'extraordinaire :jap:

n°15892
the_fennec
f3nn3cUs z3rd4
Posté le 29-04-2026 à 09:23:22  profilanswer
 

neo world a écrit :


Je suis en train de tester la version Omni via LM studio. Il resiste bien contre les boucles infinies thinking / recherche sur internet et il est aussi rapide que homologue Qwen 3.6 35b a3 qui lui par contre aime pas trop ça internet (infinite loop thinking / searching avec la même requete si la réponse du moteur de recherche ne lui plaît pas ^^)
 
je fais des tests aussi avec llama 3.3 70b. Le ventilo souffle bien :o


 
Étant multi-media il devrait être pas mal pour les trucs genre Openclaw.


---------------
Faudra que je teste un jour :o
n°15893
Neji Hyuga
:grut:
Posté le 29-04-2026 à 09:43:03  profilanswer
 
n°15894
speedboyz3​0
Guide Michelin :o
Posté le 29-04-2026 à 14:38:28  profilanswer
 

Y a des studios en refurb chez Apple les copains

n°15895
neo world
Posté le 29-04-2026 à 15:28:07  profilanswer
 

Merci ! j'ai jeté un œil ce matin mais en dehors du M2 Ultra (a un prix pas du tout abusé :o) ils sont un peu faiblards en RAM.
 
Je commence à me poser la question de prendre un AMD AI MAX 395+ 128 GO (au delà du nom ridicule ça permettrait d'avoir un cluster de 256GO de RAM unifié pour le prix d'un seul M2 Ultra 64GO  :pt1cable: ) avec l'idée de faire tourner une équipe d'agents à côté du modèle planifieur / orchestrateur  [:bakk21]  
 
Autrement toujours assez bluffé par la paire Nemotron 3 nano Omni / Qwen 3.6 27 ou 35. Je suis assez triste de l'absence de modèles 70b en dehors de llama 3.3 qui commence à montrer son âge ^^
 
Autrement peur ceux qui débutent et cherchent que materiel acheter / modèle à choisir il y a ce site qui compare les modèles locaux sur quelques benchmarks vs le materiel qui peut les héberger :
https://runthisllm.com/
 
Et un autre plus orienté benchmark des modèles open weight et les modèles propriétaires :
https://artificialanalysis.ai/model [...] -reasoning
 
le retard est pas si énorme  [:sir_knumskull]

n°15896
speedboyz3​0
Guide Michelin :o
Posté le 29-04-2026 à 16:29:32  profilanswer
 

neo world a écrit :

Merci ! j'ai jeté un œil ce matin mais en dehors du M2 Ultra (a un prix pas du tout abusé :o) ils sont un peu faiblards en RAM.
 
Je commence à me poser la question de prendre un AMD AI MAX 395+ 128 GO (au delà du nom ridicule ça permettrait d'avoir un cluster de 256GO de RAM unifié pour le prix d'un seul M2 Ultra 64GO  :pt1cable: ) avec l'idée de faire tourner une équipe d'agents à côté du modèle planifieur / orchestrateur  [:bakk21]  
 
Autrement toujours assez bluffé par la paire Nemotron 3 nano Omni / Qwen 3.6 27 ou 35. Je suis assez triste de l'absence de modèles 70b en dehors de llama 3.3 qui commence à montrer son âge ^^
 
Autrement peur ceux qui débutent et cherchent que materiel acheter / modèle à choisir il y a ce site qui compare les modèles locaux sur quelques benchmarks vs le materiel qui peut les héberger :
https://runthisllm.com/
 
Et un autre plus orienté benchmark des modèles open weight et les modèles propriétaires :
https://artificialanalysis.ai/model [...] -reasoning
 
le retard est pas si énorme  [:sir_knumskull]


 
Merde y avait un M4 Max 16 CPU / 40 GPU et 64Go de ram qui est parti !
 
Tu t'orienterais vers quoi comme AMD AI MAX 395+ 128 GO?

n°15897
neo world
Posté le 29-04-2026 à 16:46:19  profilanswer
 

speedboyz30 a écrit :


 
Merde y avait un M4 Max 16 CPU / 40 GPU et 64Go de ram qui est parti !
 
Tu t'orienterais vers quoi comme AMD AI MAX 395+ 128 GO?


le moins cher : bosgame M5 :jap:

n°15898
neo world
Posté le 29-04-2026 à 21:08:46  profilanswer
 

pour ceux qui se disent (ouais je lis dans vos pensées maintenant :o ) que je suis taré de choisir la mouture sans extension PCI express ni GBIC pour monter un cluster basses latences / RDMA, pas de panique : [:gidoin]  
 
Il y a deux ports M2 sur la machine et le second peut être détourné  [:hyugens] avec une nappe convertisseur M2 / Occulink pour récupérer 4 liens PCI express et monter de l'infiniband @ 50gb/s tout en profitant de latences sub 5µ secondes et du support du RDMA.  [:bibliophage:1]  [:palmyre]

n°15899
niko123456
Posté le 29-04-2026 à 22:02:54  profilanswer
 

Testé qwen3-code-next en Q5 avec 130k en ctx aujourd'hui pour 45 t/s en génération, pas déçu du résultat, j'ai pu faire deux trois trucs sympa avec.
 
Quitte à offload j'ai poussé sur un MiniMax-M2.7-UD-IQ4_NL à 65k de ctx (un peu de mal à le stabiliser) ça m'a donné 30/15 t/s sur le prompt "make an html5 clone of space invaders" et "updates the design" ce résultat https://glacial-morsel-334z.pagedrop.io/
 
A voir ce que ça peut me sortir en dev sur des taches nocturnes.

n°15900
M300A
Posté le 29-04-2026 à 22:09:29  profilanswer
 

Oui il a l'air top ce Qwen, j'utilise toujours intensivement le 3.6 Plus via opencode zen et franchement ça vaut largement un sonnet. Peut être pas opus, mais comme il marche correctement un jour sur deux et sur le planning est pas connu à l'avance...


---------------
:wq
n°15901
bounty2k
Posté le 29-04-2026 à 22:16:34  profilanswer
 

Rasthor a écrit :

[:drapo]
 
Si vous êtes chez Apple, il y a une bonne nouvelle:
Ollama is now powered by MLX on Apple Silicon in preview
https://ollama.com/blog/mlx
 
 
MLX est le framework ML d'Apple pour utiliser le GPU des puces ARM.


L'article n'est pas très précis, mais il semble n'y avoir qu'un seul model MLX disponible (Qwen3.6) et uniquement en FP, du coup ça limite un peu l'intérêt. A voir ce que ça donne pour la suite.
A priori il n'est pas possible de récupérer un model MLX depuis huggingface par exemple

n°15902
neo world
Posté le 29-04-2026 à 22:26:16  profilanswer
 

niko123456 a écrit :

Testé qwen3-code-next en Q5 avec 130k en ctx aujourd'hui pour 45 t/s en génération, pas déçu du résultat, j'ai pu faire deux trois trucs sympa avec.
 
Quitte à offload j'ai poussé sur un MiniMax-M2.7-UD-IQ4_NL à 65k de ctx (un peu de mal à le stabiliser) ça m'a donné 30/15 t/s sur le prompt "make an html5 clone of space invaders" et "updates the design" ce résultat https://glacial-morsel-334z.pagedrop.io/
 
A voir ce que ça peut me sortir en dev sur des taches nocturnes.


C’est pas mal ! Il a mis combien de temps ? (Notamment la partie aller-retour sur les buts) ?

n°15903
Rasthor
Posté le 29-04-2026 à 23:08:52  profilanswer
 

bounty2k a écrit :


L'article n'est pas très précis, mais il semble n'y avoir qu'un seul model MLX disponible (Qwen3.6) et uniquement en FP, du coup ça limite un peu l'intérêt. A voir ce que ça donne pour la suite.
A priori il n'est pas possible de récupérer un model MLX depuis huggingface par exemple


J'ai cru qu'Ollama était le moteur, et donc c'est celui qui bénéficiait de l'accélération avec MLX (GPU ou Neural Accelerators, je ne suis pas sur).
Et les modèles sont ensuite juste des fichiers lus par ce moteur.

n°15904
niko123456
Posté le 29-04-2026 à 23:18:22  profilanswer
 

neo world a écrit :


C’est pas mal ! Il a mis combien de temps ? (Notamment la partie aller-retour sur les buts) ?


 
Je ne sais pas trop, comme c'est pas fluide je suis partit faire autre chose. Pas plus de 10 minutes je pense.

n°15905
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 00:20:18  profilanswer
 

J'ai mis ce nouveau projet d'agent a tourner pendant la nuit (en mode yolo):
https://github.com/mlhher/late
 
J'aime bien la philosophie du truc!


---------------
Faudra que je teste un jour :o
n°15906
le canard ​nouveau
coin
Posté le 30-04-2026 à 00:47:10  profilanswer
 

drapal :o


---------------
Sivouplé, un referral scam citizen https://robertsspaceindustries.com/ [...] -SVBP-3PT3
n°15907
bounty2k
Posté le 30-04-2026 à 07:58:55  profilanswer
 

Rasthor a écrit :


J'ai cru qu'Ollama était le moteur, et donc c'est celui qui bénéficiait de l'accélération avec MLX (GPU ou Neural Accelerators, je ne suis pas sur).
Et les modèles sont ensuite juste des fichiers lus par ce moteur.


J'ai compris la même chose, sauf qu'il ne précise pas les models MLX disponibles (en fouillant je n'ai trouvé que Qwen3.6) ni comment installer des model externes.
Mais ça va clairement dans le bon sens (pour les possesseur de puces Apple Arm)

n°15908
neo world
Posté le 30-04-2026 à 09:26:47  profilanswer
 

Le modèle a aussi besoin de passer par des moulinettes pour que le moteur puisse puisse exécuter les accélérateurs / API métal. Mais y’a énormément de modèles en MLX. Par contre c’est 9 fois sur 10 du travail de passionnés plutôt que celui des éditeurs des modèles.
 
Bon j’ai commandé le Bosgame M5 sinon. Y’a plus qu’à attendre [:toyoyost:3]

n°15909
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 10:28:13  profilanswer
 

128GB? Combien?


---------------
Faudra que je teste un jour :o
n°15910
Quich
Pouet ?
Posté le 30-04-2026 à 10:35:29  profilanswer
 

[:atom1ck]


---------------
Feedback
n°15911
Neji Hyuga
:grut:
Posté le 30-04-2026 à 10:50:48  profilanswer
 

neo world a écrit :

Le modèle a aussi besoin de passer par des moulinettes pour que le moteur puisse puisse exécuter les accélérateurs / API métal. Mais y’a énormément de modèles en MLX. Par contre c’est 9 fois sur 10 du travail de passionnés plutôt que celui des éditeurs des modèles.
 
Bon j’ai commandé le Bosgame M5 sinon. Y’a plus qu’à attendre [:toyoyost:3]


 
L'un de mes clients a reçu le sien il y a quelques semaines, pour l'instant il est très content.
 
Je suis curieux de voir combien de tokens/s ça débite avec Qwen3.5 122B sur ollama par rapport à "mon" GB10.


Message édité par Neji Hyuga le 30-04-2026 à 10:55:22

---------------
Le Topic Unique des collections de cartes graphiques - GPUCHAN.ORG
n°15912
neo world
Posté le 30-04-2026 à 11:01:01  profilanswer
 

the_fennec a écrit :

128GB? Combien?


2221,95€ pour le 128GB :pt1cable:  
 
Je te ferai un retour Neji quand ce sera arrivé :jap:


Message édité par neo world le 30-04-2026 à 11:01:32
n°15913
LaRoueEstT​ombee
Hortense ! Pour moi !
Posté le 30-04-2026 à 11:10:07  profilanswer
 
n°15914
LibreArbit​re
La /root est longue
Posté le 30-04-2026 à 11:30:37  profilanswer
 

neo world a écrit :

2221,95€ pour le 128GB :pt1cable:  
 
Je te ferai un retour Neji quand ce sera arrivé :jap:


Ces freelances qui crânent :kaola:


---------------
Pharyo | Cinépite | Capvirage
n°15915
neo world
Posté le 30-04-2026 à 11:32:06  profilanswer
 

Je suis en CDI moi mossieur. J’ai payé ma TVA et mes impôts sur le revenu avant de dépenser l’argent durement gagné :o

n°15916
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 11:41:08  profilanswer
 

neo world a écrit :


2221,95€ pour le 128GB :pt1cable:  
 
Je te ferai un retour Neji quand ce sera arrivé :jap:


 
Pas si cher que ça quand on voit que 128GB de DDR5 c'est déjà 1200 euros, 350 balles pour un SSD de 2TB ...


---------------
Faudra que je teste un jour :o
n°15917
XaTriX
Posté le 30-04-2026 à 11:43:12  profilanswer
 

et les centres spatiaux ce sont des couilles :jap:


---------------
[:dawa]
n°15918
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 11:49:54  profilanswer
 

De quoi tu parles XaTriX?


---------------
Faudra que je teste un jour :o
 Page :   1  2  3  4  5  ..  17  18  19  20  21  22

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)