Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 6 .. 17 18 19 20 21 22 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

speedboyz30

Guide Michelin :o

Reprise du message précédent :
Vous permettez un petit commentaire de Claude ? [:benjy86]

Edit: bordel ça bug

Message édité par speedboyz30 le 01-05-2026 à 17:49:20

speedboyz30

Guide Michelin :o

Vous permettez un petit commentaire de Claude ? [:benjy86]

⏱️ Impact concret : 8 vs 20 vs 30 tokens/s

---
Repère clé : la vitesse de lecture

Un humain lit environ 4-5 tokens/s en français.
---

neo world

merci Claude [:obvious]

gremi

Vieux con des neiges d'antan

neo world a écrit :

bon à savoir ! c'était quel paramètre pour info et sur quelle architecture / materiel (ça peut aider une autre âme en peine ) ?

pich_mu a écrit :

Super idée ça ! Je vais essayer de faire pareil pour mon setup actuel sous LM Studio on va bien voir

Je ne retrouve plus les échanges mais au final j'utilise ça, sur un R7 9800x3D, 64 Go de DDR5, 5070 ti 16Go :

gremi@gremi-ubuntu:~/llama/llama-b8838$ ./llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL --alias qwen3.6-35b-a3b --fit on --fit-ctx 128000 --fit-target 768 -np 1 -fa on --mlock -ctk q8_0 -ctv q8_0 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 --reasoning-budget -1 --host 127.0.0.1 --port 8033

Et c'était ma première fois avec llama (d'habitude j'utilisais LMStudio), il m'a fait aussi remarquer que je n'avais pas le bon binaire, j'étais full CPU au début, avec le binaire cuda c'était aussi mieux

Message édité par gremi le 01-05-2026 à 19:15:29

---------------
In aligot we trust.

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

speedboyz30 a écrit :

Mais vous utilisez vraiment des llm au quotidiens ?

La vitesse de génération c'est pas uniquement ce qui s'affiche en streaming sur l’écran mais aussi la phase de réflexion avant. Donc tu monte rapidement a plusieurs minutes pour une réponse. Typiquement tu demande 50 lignes t'es deja a 3 minutes
Je balance environs 1 millions de tokens/jours dans mon usage, et vus comme les gens râlent sur les limites des abos je doit pas être le seul. A 5 token/s ca me prendrais 2,3 jours

En POC c'est rigolo, si t'as besoin que de quelques requête par jours... globalement tu va prendre un abo gratos ca suffit ( et pas acheter du local vus le tarif ) et si tu veut un vrai usage "réaliste" bah c'est de la merde [:cerveau manust]
Sinon personne se ferais chier a balancer des X milliers d'euros dans du gros matos, mais prendrais juste un vieux server avec de ram hein

---------------
Victime de girafophobie, mais se soigne.

oh_damned

[:cerveau drapal]

---------------
“Everyone has a plan: until they get punched in the face.” – Mike Tyson

the_fennec

f3nn3cUs z3rd4

Tronklou a écrit :

Il y a deux vitesses a prendre en compte en local. La génération (tgs) et le processing (pps). Souvent on donne que le tgs, c'est la qu'on est le plus bas, 5 tgs c'est lent, mais le pps serait plutôt dans les 50 je pense.

---------------
Faudra que je teste un jour :o

neo world

Tronklou a écrit :

ton vieux serveur avec de la RAM c'est 1 token / seconde les jours de grand vent

La partie pre-processing (ttft/thinking) est beaucoup moins sensible à la bande passante mémoire et pèse plus sur la puissance de calcul de ce que je comprend :jap: On arrive à plusieurs centaines de Tokens / secondes en phase avant réponse même avec un système moyen et c'est quand le modèle prend son baton de pèlerin et fait passe par chaque paramètre actif au moment de générer chaque nouveau token de réponse que la bande passante prend cher

après tu as peut être une base de code énorme à scanner avant de répondre ? Mais théoriquement c'est mieux de le restreindre aux morceaux (microservices + design doc des APIs ?) dont il a besoin pour travailler pour lui éviter de partir dans tous les sens :jap:

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Dans mon usage j'ai pas le choix que de charger beaucoup.

Mais je maintiens : bosser avec du 5 token/s, faut être maso hein

---------------
Victime de girafophobie, mais se soigne.

neo world

gremi a écrit :

Je ne retrouve plus les échanges mais au final j'utilise ça, sur un R7 9800x3D, 64 Go de DDR5, 5070 ti 16Go :

merci :jap:

oh_damned a écrit :

[:cerveau drapal]

[:cetrio:1]

Tronklou a écrit :

Dans mon usage j'ai pas le choix que de charger beaucoup.

Mais je maintiens : bosser avec du 5 token/s, faut être maso hein

Message édité par neo world le 01-05-2026 à 21:32:32

LibreArbitre

La /root est longue

neo world a écrit :

merci :jap:

neo world a écrit :

[:cetrio:1]

neo world a écrit :

https://i.imgflip.com/aqob6r.jpg

C'est pas pour lui jeter des fleurs mais Tronklou est dans une niche dans lequel il est expert donc tous les usages ne se valent pas

---------------
Pharyo | Cinépite | Capvirage

neo world

on est entre gens de qualité sur ce topic [:clooney3]

neo world

pour les aventuriers : un GPU de 96GB pour 1400$ [:wark0] fabriqué par Huawei [:chtivain:1] mais LPDDR4X [:joemoomoot] et compatible qu'avec les lames Huawei équipés du CPU Kunpeng [:600000_voix:8]
https://pausehardware.com/huawei-at [...] demontage/

https://www.youtube.com/watch?v=qGe_fq68x-Q

C'est pas encore la révolution BYD / MG / Xiaomi / ... qu'on a pu voir avec les voitures

the_fennec

f3nn3cUs z3rd4

Pas mal, a voir pour les perfs avec 150W seulement. Mais bon, on est pas près d'en voir dans nos PC.

---------------
Faudra que je teste un jour :o

LibreArbitre

La /root est longue

Ça avait déjà été benché et certes ça peut loader des gros modèles mais en terme de génération de token par seconde c'était l'équivalent d'une 3060 Ti...

---------------
Pharyo | Cinépite | Capvirage

TotalRecall

Yop [:cerveau drapal] ,

Des gens ici qui pourraient m'aiguiller pour faire fonctionner sans trop de galères Ollama + gemma4 en ROCm sur une AMD RX9070XT (donc "gfx1201" il me semble) sous Windows 11 ?

J'ai testé Ollama en CLI avec Vulkan ( $env:OLLAMA_VULKAN="1" ) mais c'est pas concluant, il me sort toutes sortes de trucs fantaisistes : des réponses vides ou tronquées, des caractères aléatoires... Alors qu'en CPU c'est ok.

Je testerai donc bien ROCm mais le support Windows a l'air pas mal à la bourre.
Entre
- Les histoires de faire un build custom d'Ollama rien que pour le support AMD (edit : trouvé ça : https://github.com/likelovewant/ollama-for-amd ),
- les packages custom ( https://github.com/ROCm/TheRock )
- le site AMD et les dépôts un peu labyrinthiques ( https://repo.radeon.com/rocm/windows/rocm-rel-7.2.1/ ),
- les liens comme https://www.amd.com/en/developer/re [...] p-sdk.html qui s'arrêtent à la version 7.1.1 alors qu'on est en 7.2.1
- "AMD-Software-PRO-Edition-26.Q1-Win11-For-HIP.exe" qui package un driver "PRO" pour le GPU en plus du SDK HIP 7.1.0 (je ne sais pas si je suis censé installer le driver qui viendrait alors écraser mon Adrenalin, ou juste mettre le HIP, l'installeur propose de choisir)

C'est très chiant rien que pour trouver quoi installer . C'est ma machine principale donc ça m'emmerderait de devoir installer 12 drivers foireux juste pour expérimenter, du coup je m'en remets à vous si certains ont expérimenté, sinon j'attendrai que tout ça gagne en maturité...
Merci

Message édité par TotalRecall le 03-05-2026 à 17:00:23

---------------
Topic .Net - C# @ Prog

LibreArbitre

La /root est longue

Le plus simple serait d'acheter un GPU des verts [:zedlefou:1]

---------------
Pharyo | Cinépite | Capvirage

Quich

Pouet ?

LM studio c'est plug and play, en tout cas sur ma Rx6800 puis la 7900, je n'ai rien eu à faire.

---------------
Feedback

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

TotalRecall a écrit :

Yop [:cerveau drapal] ,

Des gens ici qui pourraient m'aiguiller pour faire fonctionner sans trop de galères Ollama + gemma4 en ROCm sur une AMD RX9070XT (donc "gfx1201" il me semble) sous Windows 11 ?

llama.cpp avec vulkan et ça roule tout seul :sol:

---------------
Victime de girafophobie, mais se soigne.

gremi

Vieux con des neiges d'antan

TotalRecall a écrit :

Yop [:cerveau drapal] ,

Des gens ici qui pourraient m'aiguiller pour faire fonctionner sans trop de galères Ollama + gemma4 en ROCm sur une AMD RX9070XT (donc "gfx1201" il me semble) sous Windows 11 ?

J'ai testé Ollama en CLI avec Vulkan ( $env:OLLAMA_VULKAN="1" ) mais c'est pas concluant, il me sort toutes sortes de trucs fantaisistes : des réponses vides ou tronquées, des caractères aléatoires... Alors qu'en CPU c'est ok.

Je testerai donc bien ROCm mais le support Windows a l'air pas mal à la bourre.
Entre
- Les histoires de faire un build custom d'Ollama rien que pour le support AMD (edit : trouvé ça : https://github.com/likelovewant/ollama-for-amd ),
- les packages custom ( https://github.com/ROCm/TheRock )
- le site AMD et les dépôts un peu labyrinthiques ( https://repo.radeon.com/rocm/windows/rocm-rel-7.2.1/ ),
- les liens comme https://www.amd.com/en/developer/re [...] p-sdk.html qui s'arrêtent à la version 7.1.1 alors qu'on est en 7.2.1
- "AMD-Software-PRO-Edition-26.Q1-Win11-For-HIP.exe" qui package un driver "PRO" pour le GPU en plus du SDK HIP 7.1.0 (je ne sais pas si je suis censé installer le driver qui viendrait alors écraser mon Adrenalin, ou juste mettre le HIP, l'installeur propose de choisir)

C'est très chiant rien que pour trouver quoi installer . C'est ma machine principale donc ça m'emmerderait de devoir installer 12 drivers foireux juste pour expérimenter, du coup je m'en remets à vous si certains ont expérimenté, sinon j'attendrai que tout ça gagne en maturité...
Merci

Demande à Claude avec les logs, c'est impressionnant

Citation :

Le problème précisOllama n'embarque dans son dossier ROCm que les bibliothèques pour les GPU supportés (ex: gfx1100 pour la RX 7900 XTX). Les libs gfx12xx nécessaires à la RX 9070 XT (gfx1201) sont tout simplement absentes.

Message édité par gremi le 03-05-2026 à 18:55:37

---------------
In aligot we trust.

speedboyz30

Guide Michelin :o

Tout simplement [:benjy86]

the_fennec

f3nn3cUs z3rd4

Tronklou a écrit :

llama.cpp avec vulkan et ça roule tout seul :sol:

+1 llama.cpp rulez

---------------
Faudra que je teste un jour :o

neo world

+1 avec les commentaires au dessus (et préference pour LM Studio ou Lemonade qui supporte mieux ROCM et tout ce qui va avec côté AMD https://lemonade-server.ai/install_options.html )

Kyjja

Y'a pot !

[:kimonox:6]

neo world

Pour ceux qui cherchent à s'équiper niveau matériel réfléchissez bien à votre timing. La RAM a plutôt un peu diminué depuis le pic. On peut espérer que ça va continuer à diminuer mais les fabricants de puces DRAM (présents aux côtés des GPU / CPU) lancent des alertes sur leur capacité à y répondre.

Information à prendre avec un grain de sel (le fabriquant va pas se tirer une balle dans le pied en insistant sur l'absence de demande côté marché B2C et donc sur une baisse de prix à venir si les gens attendent encore un peu ) mais bref à prendre en compte :
https://www.mac4ever.com/mac/195972 [...] e-confirme

Kyjja a écrit :

[:kimonox:6]

[:cetrio:2]

Message édité par neo world le 03-05-2026 à 21:48:20

TotalRecall

LibreArbitre a écrit :

Le plus simple serait d'acheter un GPU des verts [:zedlefou:1]

[:adnauseam:3] [:mooonbloood]

Quich a écrit :

LM studio c'est plug and play, en tout cas sur ma Rx6800 puis la 7900, je n'ai rien eu à faire.

Sauf que justement la 9070XT n'est pas supporté par Ollama et les drivers ROCm sont à la bourre (d'où le fait d'avoir un support un peu tronqué avec juste HIP au lieu de la suite complète, et les livrables au référencement chaotique), alors que sur les 7900XT c'est annoncé pleinement compatible. Côté LM Studio j'avais l'impression que c'est pas fou non plus.

gremi a écrit :

Demande à Claude avec les logs, c'est impressionnant

Citation :

Voilà, mais ça c'est plus le problème que la solution

Des gens disent "avoir réussi après moults bidouilles" et après ça part très vite dans toutes les directions (j'en ai résumé quelques unes).
Vu que la 9070 est sortie il y a plus d'un an et qu'AMD a dû en vendre plus que trois ou quatre, je suis à peu près convaincu que quelqu'un quelque part a dû trouver la combinaison soft optimale pour que ça tourne et planquer ça quelque part sur un obscur repos Github ou un tuto Reddit.
D'où ma question précise.

Tronklou a écrit :

llama.cpp avec vulkan et ça roule tout seul :sol:

Au pire je retesterai effectivement sous Vulkan mais vu que ça foirait avec Ollama c'est pas dit que ça soit mieux

the_fennec a écrit :

+1 llama.cpp rulez

neo world a écrit :

+1 avec les commentaires au dessus (et préference pour LM Studio ou Lemonade qui supporte mieux ROCM et tout ce qui va avec côté AMD https://lemonade-server.ai/install_options.html )

Y compris pour une RX9070XT ?
Si oui j'essaierai Lemonade avec llama.cpp.
Mais j'imagine que côté CG il faut quand même installer HIP (par exemple via l'EXE que je citais plus haut) ? Ou bien c'est embarqué ?

Message édité par TotalRecall le 03-05-2026 à 22:57:05

---------------
Topic .Net - C# @ Prog

neo world

Si je regarde dans ce fil ( https://github.com/lmstudio-ai/lmst [...] issues/574 ) il semblerait que oui à condition d'avoir ROCM 6.4.1 minimum sur Linux. J'imagine que c'est pareil côté windows ? [:eraser17]

TotalRecall

Béh non apparemment pas, pour la 9070XT le support Windows est nettement en retrait sur celui pour Linux, surtout en ce qui concerne Ollama. Donc je suis preneur des alternatives éprouvées si ici quelqu'un l'a fait avec ce modèle.

---------------
Topic .Net - C# @ Prog

neo world

https://learn.microsoft.com/fr-fr/w [...] pu-compute

Dis moi ce que tu veux et je te dirais comment (peut-être) t'en passer

neo world

Pour ceux qui se demandent comment se passent les commandes du AMD Strix Halo / AI 395 : commande jeudi Matin, vendredi férié, mail dimanche à 14h pour me confirmer une expedition en cours. Les livraisons semblent assurées en 3 à 7 jours en Europe d'après le mail. Je vous tient au courant quand c'est dans mes mains

the_fennec

f3nn3cUs z3rd4

TotalRecall a écrit :

Test llama.cpp, ya rien a installer, juste un zip:
https://github.com/ggml-org/llama.c [...] an-x64.zip

---------------
Faudra que je teste un jour :o

ibuprophet

TotalRecall a écrit :

Installe llinux
Sous linux, je te confirme que la R9070XT marche parfaitement avec ollama. A noter que Vulkan > ROCm en monoGPU mais en multiGPU c'est l'inverse.

speedboyz30

Guide Michelin :o

neo world a écrit :

On reviendrait enfin sur la norme du "plus t'attends et plus t'as de meilleures perfs pour moins cher" [:tiibo:1]

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Tu as plus d'économies a attendre de par l'efficience des models et des améliorations des moteurs d'inférences.
Le hardware restera trop cher au prorata des performances pour un bon moment, regarde l'évolution des gpu depuis des années [:cerveau erf]

---------------
Victime de girafophobie, mais se soigne.

the_fennec

f3nn3cUs z3rd4

Le principal problème pour les GPUs est que les constructeurs n'ont pas prévu d'ajouter plus de VRAM, mais de bidouiller en DLSS/etc.

Une 5060Ti avec 32GB en GDDR6 a 500 balles ça serait top pour le local, mais zéro chance que ça existe un jour.

---------------
Faudra que je teste un jour :o

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

L'anomalie c'était la 3090 avec ses 24gb et le nvlink.

NVIDIA a bien retenu la leçon depuis :lol:

---------------
Victime de girafophobie, mais se soigne.

Scrabble

the_fennec a écrit :

Le principal problème pour les GPUs est que les constructeurs n'ont pas prévu d'ajouter plus de VRAM, mais de bidouiller en DLSS/etc.

Oui, enfin les constructeurs, c'est nVIDIA, hein.
AMD a sorti la R9700 et Intel la B70

the_fennec

f3nn3cUs z3rd4

Scrabble a écrit :

Oui, enfin les constructeurs, c'est nVIDIA, hein.
AMD a sorti la R9700 et Intel la B70

Je parle de GPU grand public et accessible pour du LLM local, donc exit la R9700. Quand a Intel, c'est encore pas ça niveau support il me semble.

Est-ce qu'au lieu d'une R9700 à 1600 euros c'est pas plus rentable de prendre une paire de 5060Ti pour 1200 euros?

---------------
Faudra que je teste un jour :o

neo world

Si y’a le support de cuda je pense que tu peux mettre n’importe quel produit Nvidia avec autant de VRaM dedans et gagner par ko face à Intel ou AMD

the_fennec

f3nn3cUs z3rd4

C'est bien dommage d'ailleurs qu'il n'y ait pas de devs chez Intel pour faire une API qui marche, une paire d'A770 pour 32GB a 600 balles ça l'aurait bien fait... Mais ils laissent visiblement tombé le marché du GPU pour se concentrer sur leurs grilles pains de 15 ième génération

---------------
Faudra que je teste un jour :o

bounty2k

the_fennec a écrit :

Sisi, il y a bien OpenVINO qui existe, mais bon c'est pas idéal.
A priori on peu également recompiler llamacpp pour le rendre compatible avec les NPU ou GPU Intel, car pas natif .

Message édité par bounty2k le 04-05-2026 à 16:12:35

Page : 1 2 3 4 5 6 .. 17 18 19 20 21 22

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co	sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.084 secondes