Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 17 18 19 20 21 22 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

neo world

Reprise du message précédent :

Tronklou a écrit :

(type BC-250 ou équivalent)

Y a pas d'équivalents enfaîte, ce machin est un ovni, littéralement.
C'est un APU de PS5 castré pour du cryptominage, vendue en rack.
Récupérée comme déchets électronique et rendue exploitable par la communautés qui a rendue disponible bios et outils pour la transformer en pc utilisable sous linux.

Le fait que la mémoire soit partagée c'est cool, mais surtout c'est de la gddr6 avec des debits d'enfoiré : 448 GB/s

En comparaison un M4 c'est 120,un M5 153.
Un équivalent c'est au minimum un M5 Max a 460 ou un M4 Pro/Max 410/546

On peut quand même en trouver des APU mais sous d'autres formes Comme la steam Deck / ASUS ROG ALLY / Lenovo Go

Je dis pas que le prix est le même ni la bande passante mémoire (loin s'en faut [:youpiyoupla] ) mais si on a ça qui traine dans un coin on peut démarrer !

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Bah t'avais mis un budget de 150€, donc a partir de là un équivalent j'aurais pas pensé a un steam deck hein

---------------
Victime de girafophobie, mais se soigne.

the_fennec

f3nn3cUs z3rd4

Opencode me gonfle, il reste bloqué régulièrement sans raison, souvent sur des tool calls. Je pensais que c'était a cause des nouveaux modèles, mais ça le fait aussi avec coder-next. Avec 4k issues ouvertes, j'ai même pas envie d'en ouvrir une de plus...

Je vais tester pi.dev.

---------------
Faudra que je teste un jour :o

Rasthor

[:drapo]

Si vous êtes chez Apple, il y a une bonne nouvelle:
Ollama is now powered by MLX on Apple Silicon in preview
https://ollama.com/blog/mlx

MLX est le framework ML d'Apple pour utiliser le GPU des puces ARM.

dadamonhfr

[:cerveau drapal]

Chez moi j'ai :
- 16 Go VRAM (5060 ti)
- 64 Go de RAM (DDR4)

J'ai commencé par llamastudio, puis ollama, et maintenant j'utilise principalement llamacpp
C'est surtout pour satisfaire ma curiosité et comprendre comment tout ça marche. Je fais 2-3 tests et après j'arrête. Mon dernier test c'était pour le faire fonctionner avec Hermes (concurrent openclaw)

Au boulot on a un vieux serveur avec 256 Go de RAM DDR4 mais 0 VRAM.
J'avais eu l'intention à un moment de déployer un des modèles à 120-130 Go dessus mais quand je vois comment ça se traine juste avec un modèle 30 Go j'ai finalement abandonné l'idée.

Y en parmi vous qui ont acheté un PC strix halo ? Ou un DGX spark ? J'hésitais à sauter le pas pour les 128 Go de RAM partagée. Mais les prix ont tellement augmenté dernièrement ...

the_fennec

f3nn3cUs z3rd4

C'est quoi le/les CPU de ton server?
T'as essayé https://github.com/ikawrakow/ik_llama.cpp ?

---------------
Faudra que je teste un jour :o

dadamonhfr

C'est un Dell PowerEdge R730 Dual Intel Xeon E5-2620 v3.
J'ai regardé le lien que t'as partagé. Ça m'a l'air compatible à 1ere vue. Je testerai.
Merci.

the_fennec

f3nn3cUs z3rd4

Dire que j'en ai lassé partir 3 ou 4 à la benne... Bon après ça fait un bordel par possible et ça bouffe 200W en idle :lol: .

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Benchmarking Local LLMs Against Coding Agent Harnesses
https://neuralnoise.com/2026/harness-bench-wip/?bare

Pas mal de résultats intéressants si il n'y a pas d'erreurs. Genre opencode est bien derrière pi.dev ou les quantification Q4 vs Q8

Je vais tester pi dev pour voir, mon opencode/Qwen 35B tourne un peu en rond sur le Kernel pour Amiga [:vinx2]

---------------
Faudra que je teste un jour :o

Olivie

SUUUUUUUUUUUUUU

Je peux pas tester j’ai MBP 1 16Go

---------------

the_fennec

f3nn3cUs z3rd4

C'est pas un nouveau modèle, juste un gars random qui a quantizé un 31B.

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

ça par contre c'est nouveau:
https://huggingface.co/unsloth/NVID [...] oning-GGUF

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

ça par contre c'est nouveau:
https://huggingface.co/unsloth/NVID [...] oning-GGUF

Je suis en train de tester la version Omni via LM studio. Il resiste bien contre les boucles infinies thinking / recherche sur internet et il est aussi rapide que homologue Qwen 3.6 35b a3 qui lui par contre aime pas trop ça internet (infinite loop thinking / searching avec la même requete si la réponse du moteur de recherche ne lui plaît pas ^^)

je fais des tests aussi avec llama 3.3 70b. Le ventilo souffle bien

neo world

Olivie a écrit :

Je peux pas tester j’ai MBP 1 16Go

https://img3.super-h.fr/images/2026 [...] 30c8ef.jpg

j'ai testé avec LM studio sur le M5 pro (et tous les packages MLX nécessaire). Ca génère un peu plus vite (8 à 10% ?) mais rien d'extraordinaire :jap:

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Étant multi-media il devrait être pas mal pour les trucs genre Openclaw.

---------------
Faudra que je teste un jour :o

Neji Hyuga

:grut:

[:lardoncru]

---------------
Le Topic Unique des collections de cartes graphiques - GPUCHAN.ORG

speedboyz30

Guide Michelin :o

Y a des studios en refurb chez Apple les copains

neo world

Merci ! j'ai jeté un œil ce matin mais en dehors du M2 Ultra (a un prix pas du tout abusé ) ils sont un peu faiblards en RAM.

Je commence à me poser la question de prendre un AMD AI MAX 395+ 128 GO (au delà du nom ridicule ça permettrait d'avoir un cluster de 256GO de RAM unifié pour le prix d'un seul M2 Ultra 64GO :pt1cable: ) avec l'idée de faire tourner une équipe d'agents à côté du modèle planifieur / orchestrateur [:bakk21]

Autrement toujours assez bluffé par la paire Nemotron 3 nano Omni / Qwen 3.6 27 ou 35. Je suis assez triste de l'absence de modèles 70b en dehors de llama 3.3 qui commence à montrer son âge ^^

Autrement peur ceux qui débutent et cherchent que materiel acheter / modèle à choisir il y a ce site qui compare les modèles locaux sur quelques benchmarks vs le materiel qui peut les héberger :
https://runthisllm.com/

Et un autre plus orienté benchmark des modèles open weight et les modèles propriétaires :
https://artificialanalysis.ai/model [...] -reasoning

le retard est pas si énorme [:sir_knumskull]

speedboyz30

Guide Michelin :o

neo world a écrit :

Merde y avait un M4 Max 16 CPU / 40 GPU et 64Go de ram qui est parti !

Tu t'orienterais vers quoi comme AMD AI MAX 395+ 128 GO?

neo world

speedboyz30 a écrit :

Merde y avait un M4 Max 16 CPU / 40 GPU et 64Go de ram qui est parti !

Tu t'orienterais vers quoi comme AMD AI MAX 395+ 128 GO?

le moins cher : bosgame M5 :jap:

neo world

pour ceux qui se disent (ouais je lis dans vos pensées maintenant ) que je suis taré de choisir la mouture sans extension PCI express ni GBIC pour monter un cluster basses latences / RDMA, pas de panique : [:gidoin]

Il y a deux ports M2 sur la machine et le second peut être détourné [:hyugens] avec une nappe convertisseur M2 / Occulink pour récupérer 4 liens PCI express et monter de l'infiniband @ 50gb/s tout en profitant de latences sub 5µ secondes et du support du RDMA. [:bibliophage:1] [:palmyre]

niko123456

Testé qwen3-code-next en Q5 avec 130k en ctx aujourd'hui pour 45 t/s en génération, pas déçu du résultat, j'ai pu faire deux trois trucs sympa avec.

Quitte à offload j'ai poussé sur un MiniMax-M2.7-UD-IQ4_NL à 65k de ctx (un peu de mal à le stabiliser) ça m'a donné 30/15 t/s sur le prompt "make an html5 clone of space invaders" et "updates the design" ce résultat https://glacial-morsel-334z.pagedrop.io/

A voir ce que ça peut me sortir en dev sur des taches nocturnes.

M300A

Oui il a l'air top ce Qwen, j'utilise toujours intensivement le 3.6 Plus via opencode zen et franchement ça vaut largement un sonnet. Peut être pas opus, mais comme il marche correctement un jour sur deux et sur le planning est pas connu à l'avance...

---------------
:wq

bounty2k

Rasthor a écrit :

L'article n'est pas très précis, mais il semble n'y avoir qu'un seul model MLX disponible (Qwen3.6) et uniquement en FP, du coup ça limite un peu l'intérêt. A voir ce que ça donne pour la suite.
A priori il n'est pas possible de récupérer un model MLX depuis huggingface par exemple

neo world

niko123456 a écrit :

C’est pas mal ! Il a mis combien de temps ? (Notamment la partie aller-retour sur les buts) ?

Rasthor

bounty2k a écrit :

J'ai cru qu'Ollama était le moteur, et donc c'est celui qui bénéficiait de l'accélération avec MLX (GPU ou Neural Accelerators, je ne suis pas sur).
Et les modèles sont ensuite juste des fichiers lus par ce moteur.

niko123456

neo world a écrit :

C’est pas mal ! Il a mis combien de temps ? (Notamment la partie aller-retour sur les buts) ?

Je ne sais pas trop, comme c'est pas fluide je suis partit faire autre chose. Pas plus de 10 minutes je pense.

the_fennec

f3nn3cUs z3rd4

J'ai mis ce nouveau projet d'agent a tourner pendant la nuit (en mode yolo):
https://github.com/mlhher/late

J'aime bien la philosophie du truc!

---------------
Faudra que je teste un jour :o

le canard nouveau

coin

drapal

---------------
Sivouplé, un referral scam citizen https://robertsspaceindustries.com/ [...] -SVBP-3PT3

bounty2k

Rasthor a écrit :

J'ai compris la même chose, sauf qu'il ne précise pas les models MLX disponibles (en fouillant je n'ai trouvé que Qwen3.6) ni comment installer des model externes.
Mais ça va clairement dans le bon sens (pour les possesseur de puces Apple Arm)

neo world

Le modèle a aussi besoin de passer par des moulinettes pour que le moteur puisse puisse exécuter les accélérateurs / API métal. Mais y’a énormément de modèles en MLX. Par contre c’est 9 fois sur 10 du travail de passionnés plutôt que celui des éditeurs des modèles.

Bon j’ai commandé le Bosgame M5 sinon. Y’a plus qu’à attendre [:toyoyost:3]

the_fennec

f3nn3cUs z3rd4

128GB? Combien?

---------------
Faudra que je teste un jour :o

Quich

Pouet ?

[:atom1ck]

---------------
Feedback

Neji Hyuga

:grut:

neo world a écrit :

L'un de mes clients a reçu le sien il y a quelques semaines, pour l'instant il est très content.

Je suis curieux de voir combien de tokens/s ça débite avec Qwen3.5 122B sur ollama par rapport à "mon" GB10.

Message édité par Neji Hyuga le 30-04-2026 à 10:55:22

---------------
Le Topic Unique des collections de cartes graphiques - GPUCHAN.ORG

neo world

the_fennec a écrit :

128GB? Combien?

2221,95€ pour le 128GB :pt1cable:

Je te ferai un retour Neji quand ce sera arrivé :jap:

Message édité par neo world le 30-04-2026 à 11:01:32

LaRoueEstTombee

Hortense ! Pour moi !

[:cerveau fusion]

---------------
Votre couroux impitoiable Veut-il renverser l'Univers ?

LibreArbitre

La /root est longue

neo world a écrit :

2221,95€ pour le 128GB :pt1cable:

Je te ferai un retour Neji quand ce sera arrivé :jap:

Ces freelances qui crânent :kaola:

---------------
Pharyo | Cinépite | Capvirage

neo world

Je suis en CDI moi mossieur. J’ai payé ma TVA et mes impôts sur le revenu avant de dépenser l’argent durement gagné

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

2221,95€ pour le 128GB :pt1cable:

Je te ferai un retour Neji quand ce sera arrivé :jap:

Pas si cher que ça quand on voit que 128GB de DDR5 c'est déjà 1200 euros, 350 balles pour un SSD de 2TB ...

---------------
Faudra que je teste un jour :o

XaTriX

et les centres spatiaux ce sont des couilles :jap:

---------------
[:dawa]

the_fennec

f3nn3cUs z3rd4

De quoi tu parles XaTriX?

---------------
Faudra que je teste un jour :o

Page : 1 2 3 4 5 .. 17 18 19 20 21 22

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co	sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.074 secondes