Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
4301 connectés 

 

Sujet(s) à lire :
 

Avez-vous déjà pris du matos pour faire tourner des modèles LLM gérés par vous même ? ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-06-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°11476372
speedboyz3​0
Guide Michelin :o
Posté le 01-05-2026 à 17:47:49  profilanswer
 

Reprise du message précédent :
Vous permettez un petit commentaire de Claude ?  [:benjy86]

 

Edit: bordel ça bug :o


Message édité par speedboyz30 le 01-05-2026 à 17:49:20
mood
Publicité
Posté le 01-05-2026 à 17:47:49  profilanswer
 

n°11476373
speedboyz3​0
Guide Michelin :o
Posté le 01-05-2026 à 17:48:10  profilanswer
 

Vous permettez un petit commentaire de Claude ?  [:benjy86]  
 
 
 ⏱️ Impact concret : 8 vs 20 vs 30 tokens/s
 
  ---
  Repère clé : la vitesse de lecture
 
  Un humain lit environ 4-5 tokens/s en français.
  ---
 

n°11476374
neo world
Posté le 01-05-2026 à 18:08:10  profilanswer
 

merci Claude  [:obvious] :D

n°11476378
gremi
Vieux con des neiges d'antan
Posté le 01-05-2026 à 19:08:26  profilanswer
 

neo world a écrit :


bon à savoir ! c'était quel paramètre pour info et sur quelle architecture / materiel (ça peut aider une autre âme en peine :o ) ?

 
pich_mu a écrit :

 

Super idée ça ! Je vais essayer de faire pareil pour mon setup actuel sous LM Studio on va bien voir  :D

 


 

Je ne retrouve plus les échanges mais au final j'utilise ça, sur un R7 9800x3D, 64 Go de DDR5, 5070 ti 16Go :

 

gremi@gremi-ubuntu:~/llama/llama-b8838$ ./llama-server   -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL   --alias qwen3.6-35b-a3b   --fit on --fit-ctx 128000 --fit-target 768   -np 1 -fa on --mlock   -ctk q8_0 -ctv q8_0   --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0   --presence-penalty 0.0 --repeat-penalty 1.0   --reasoning-budget -1   --host 127.0.0.1 --port 8033

 

Et c'était ma première fois avec llama (d'habitude j'utilisais LMStudio), il m'a fait aussi remarquer que je n'avais pas le bon binaire, j'étais full CPU au début, avec le binaire cuda c'était aussi mieux :o

Message cité 1 fois
Message édité par gremi le 01-05-2026 à 19:15:29

---------------
In aligot we trust.
n°11476384
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 01-05-2026 à 20:38:18  profilanswer
 

speedboyz30 a écrit :

Vous permettez un petit commentaire de Claude ?  [:benjy86]  
 
 
 ⏱️ Impact concret : 8 vs 20 vs 30 tokens/s
 
  ---
  Repère clé : la vitesse de lecture
 
  Un humain lit environ 4-5 tokens/s en français.
  ---
 


 
Mais vous utilisez vraiment des llm au quotidiens ?  :o  
 
La vitesse de génération c'est pas uniquement ce qui s'affiche en streaming sur l’écran mais aussi la phase de réflexion avant. Donc tu monte rapidement a plusieurs minutes pour une réponse. Typiquement tu demande 50 lignes t'es deja a 3 minutes :D  
Je balance environs 1 millions de tokens/jours dans mon usage, et vus comme les gens râlent sur les limites des abos je doit pas être le seul. A 5 token/s ca me prendrais 2,3 jours  :D  
 
En POC c'est rigolo, si t'as besoin que de quelques requête par jours... globalement tu va prendre un abo gratos ca suffit ( et pas acheter du local vus le tarif ) et si tu veut un vrai usage "réaliste" bah c'est de la merde [:cerveau manust]
Sinon personne se ferais chier a balancer des X milliers d'euros dans du gros matos, mais prendrais juste un vieux server avec de ram hein :D


---------------
Victime de girafophobie, mais se soigne.
n°11476385
oh_damned
Posté le 01-05-2026 à 20:50:18  profilanswer
 

[:cerveau drapal]


---------------
“Everyone has a plan: until they get punched in the face.” – Mike Tyson
n°11476387
the_fennec
f3nn3cUs z3rd4
Posté le 01-05-2026 à 20:56:37  profilanswer
 

Tronklou a écrit :


 
Mais vous utilisez vraiment des llm au quotidiens ?  :o  
 
La vitesse de génération c'est pas uniquement ce qui s'affiche en streaming sur l’écran mais aussi la phase de réflexion avant. Donc tu monte rapidement a plusieurs minutes pour une réponse. Typiquement tu demande 50 lignes t'es deja a 3 minutes :D  
Je balance environs 1 millions de tokens/jours dans mon usage, et vus comme les gens râlent sur les limites des abos je doit pas être le seul. A 5 token/s ca me prendrais 2,3 jours  :D  
 
En POC c'est rigolo, si t'as besoin que de quelques requête par jours... globalement tu va prendre un abo gratos ca suffit ( et pas acheter du local vus le tarif ) et si tu veut un vrai usage "réaliste" bah c'est de la merde [:cerveau manust]
Sinon personne se ferais chier a balancer des X milliers d'euros dans du gros matos, mais prendrais juste un vieux server avec de ram hein :D


 
Il y a deux vitesses a prendre en compte en local. La génération (tgs) et le processing (pps). Souvent on donne que le tgs, c'est la qu'on est le plus bas, 5 tgs c'est lent, mais le pps serait plutôt dans les 50 je pense.


---------------
Faudra que je teste un jour :o
n°11476390
neo world
Posté le 01-05-2026 à 21:02:41  profilanswer
 

Tronklou a écrit :


 
Mais vous utilisez vraiment des llm au quotidiens ?  :o  
 
La vitesse de génération c'est pas uniquement ce qui s'affiche en streaming sur l’écran mais aussi la phase de réflexion avant. Donc tu monte rapidement a plusieurs minutes pour une réponse. Typiquement tu demande 50 lignes t'es deja a 3 minutes :D  
Je balance environs 1 millions de tokens/jours dans mon usage, et vus comme les gens râlent sur les limites des abos je doit pas être le seul. A 5 token/s ca me prendrais 2,3 jours  :D  
 
En POC c'est rigolo, si t'as besoin que de quelques requête par jours... globalement tu va prendre un abo gratos ca suffit ( et pas acheter du local vus le tarif ) et si tu veut un vrai usage "réaliste" bah c'est de la merde [:cerveau manust]
Sinon personne se ferais chier a balancer des X milliers d'euros dans du gros matos, mais prendrais juste un vieux server avec de ram hein :D


ton vieux serveur avec de la RAM c'est 1 token / seconde les jours de grand vent :o
 
La partie pre-processing (ttft/thinking) est beaucoup moins sensible à la bande passante mémoire et pèse plus sur la puissance de calcul de ce que je comprend :jap: On arrive à plusieurs centaines de Tokens / secondes en phase avant réponse même avec un système moyen et c'est quand le modèle prend son baton de pèlerin et fait passe par chaque paramètre actif au moment de générer chaque nouveau token de réponse que la bande passante prend cher :D
 
après tu as peut être une base de code énorme à scanner avant de répondre ? Mais théoriquement c'est mieux de le restreindre aux morceaux (microservices + design doc des APIs ?) dont il a besoin pour travailler pour lui éviter de partir dans tous les sens :jap:

n°11476391
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 01-05-2026 à 21:11:25  profilanswer
 

Dans mon usage j'ai pas le choix que de charger beaucoup.
 
Mais je maintiens : bosser avec du 5 token/s, faut être maso hein :D


---------------
Victime de girafophobie, mais se soigne.
n°11476392
neo world
Posté le 01-05-2026 à 21:32:09  profilanswer
 

gremi a écrit :


 
 
 
Je ne retrouve plus les échanges mais au final j'utilise ça, sur un R7 9800x3D, 64 Go de DDR5, 5070 ti 16Go :
 

gremi@gremi-ubuntu:~/llama/llama-b8838$ ./llama-server   -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL   --alias qwen3.6-35b-a3b   --fit on --fit-ctx 128000 --fit-target 768   -np 1 -fa on --mlock   -ctk q8_0 -ctv q8_0   --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0   --presence-penalty 0.0 --repeat-penalty 1.0   --reasoning-budget -1   --host 127.0.0.1 --port 8033


 
Et c'était ma première fois avec llama (d'habitude j'utilisais LMStudio), il m'a fait aussi remarquer que je n'avais pas le bon binaire, j'étais full CPU au début, avec le binaire cuda c'était aussi mieux :o


merci :jap:
 


 
 [:cetrio:1]  
 

Tronklou a écrit :

Dans mon usage j'ai pas le choix que de charger beaucoup.
 
Mais je maintiens : bosser avec du 5 token/s, faut être maso hein :D


 
https://i.imgflip.com/aqob6r.jpg

Message cité 1 fois
Message édité par neo world le 01-05-2026 à 21:32:32
mood
Publicité
Posté le 01-05-2026 à 21:32:09  profilanswer
 

n°11476410
LibreArbit​re
La /root est longue
Posté le 02-05-2026 à 09:49:19  profilanswer
 


 


 


C'est pas pour lui jeter des fleurs mais Tronklou est dans une niche dans lequel il est expert donc tous les usages ne se valent pas ;)


---------------
Hebergement d'images
n°11476415
neo world
Posté le 02-05-2026 à 10:43:59  profilanswer
 

on est entre gens de qualité sur ce topic  [:clooney3] :D

n°11476485
neo world
Posté le 02-05-2026 à 23:31:24  profilanswer
 

pour les aventuriers : un GPU de 96GB pour 1400$  [:wark0] fabriqué par Huawei  [:chtivain:1] mais LPDDR4X  [:joemoomoot] et compatible qu'avec les lames Huawei équipés du CPU Kunpeng [:600000_voix:8]  
https://pausehardware.com/huawei-at [...] demontage/
 
https://www.youtube.com/watch?v=qGe_fq68x-Q
 
C'est pas encore la révolution BYD / MG / Xiaomi / ... qu'on a pu voir avec les voitures :D

n°11476491
the_fennec
f3nn3cUs z3rd4
Posté le 03-05-2026 à 08:18:54  profilanswer
 

Pas mal, a voir pour les perfs avec 150W seulement. Mais bon, on est pas près d'en voir dans nos PC.


---------------
Faudra que je teste un jour :o
n°11476494
LibreArbit​re
La /root est longue
Posté le 03-05-2026 à 09:24:32  profilanswer
 

Ça avait déjà été benché et certes ça peut loader des gros modèles mais en terme de génération de token par seconde c'était l'équivalent d'une 3060 Ti...


---------------
Hebergement d'images
n°11476518
TotalRecal​l
Posté le 03-05-2026 à 16:48:13  profilanswer
 

Yop [:cerveau drapal] ,

 

Des gens ici qui pourraient m'aiguiller pour faire fonctionner sans trop de galères Ollama + gemma4 en ROCm sur une AMD RX9070XT (donc "gfx1201" il me semble) sous Windows 11 ?

 

J'ai testé Ollama en CLI avec Vulkan ( $env:OLLAMA_VULKAN="1" ) mais c'est pas concluant, il me sort toutes sortes de trucs fantaisistes : des réponses vides ou tronquées, des caractères aléatoires... Alors qu'en CPU c'est ok.

 

Je testerai donc bien ROCm mais le support Windows a l'air pas mal à la bourre.
Entre
- Les histoires de faire un build custom d'Ollama rien que pour le support AMD (edit : trouvé ça : https://github.com/likelovewant/ollama-for-amd ),
- les packages custom ( https://github.com/ROCm/TheRock )
- le site AMD et les dépôts un peu labyrinthiques ( https://repo.radeon.com/rocm/windows/rocm-rel-7.2.1/ ),
- les liens comme https://www.amd.com/en/developer/re [...] p-sdk.html qui s'arrêtent à la version 7.1.1 alors qu'on est en 7.2.1
- "AMD-Software-PRO-Edition-26.Q1-Win11-For-HIP.exe" qui package un driver "PRO" pour le GPU en plus du SDK HIP 7.1.0 (je ne sais pas si je suis censé installer le driver qui viendrait alors écraser mon Adrenalin, ou juste mettre le HIP, l'installeur propose de choisir)

 

C'est très chiant rien que pour trouver quoi installer :o. C'est ma machine principale donc ça m'emmerderait de devoir installer 12 drivers foireux juste pour expérimenter, du coup je m'en remets à vous si certains ont expérimenté, sinon j'attendrai que tout ça gagne en maturité...
Merci :D

Message cité 2 fois
Message édité par TotalRecall le 03-05-2026 à 17:00:23

---------------
Topic .Net - C# @ Prog
n°11476522
LibreArbit​re
La /root est longue
Posté le 03-05-2026 à 17:52:24  profilanswer
 

Le plus simple serait d'acheter un GPU des verts [:zedlefou:1]


---------------
Hebergement d'images
n°11476524
Quich
Pouet ?
Posté le 03-05-2026 à 17:59:24  profilanswer
 

LM studio c'est plug and play, en tout cas sur ma Rx6800 puis la 7900, je n'ai rien eu à faire.


---------------
Feedback
n°11476528
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 03-05-2026 à 18:23:19  profilanswer
 

TotalRecall a écrit :

Yop [:cerveau drapal] ,

 

Des gens ici qui pourraient m'aiguiller pour faire fonctionner sans trop de galères Ollama + gemma4 en ROCm sur une AMD RX9070XT (donc "gfx1201" il me semble) sous Windows 11 ?

 

J'ai testé Ollama en CLI avec Vulkan ( $env:OLLAMA_VULKAN="1" ) mais c'est pas concluant, il me sort toutes sortes de trucs fantaisistes : des réponses vides ou tronquées, des caractères aléatoires... Alors qu'en CPU c'est ok.

 

Je testerai donc bien ROCm mais le support Windows a l'air pas mal à la bourre.
Entre
- Les histoires de faire un build custom d'Ollama rien que pour le support AMD (edit : trouvé ça : https://github.com/likelovewant/ollama-for-amd ),
- les packages custom ( https://github.com/ROCm/TheRock )
- le site AMD et les dépôts un peu labyrinthiques ( https://repo.radeon.com/rocm/windows/rocm-rel-7.2.1/ ),
- les liens comme https://www.amd.com/en/developer/re [...] p-sdk.html qui s'arrêtent à la version 7.1.1 alors qu'on est en 7.2.1
- "AMD-Software-PRO-Edition-26.Q1-Win11-For-HIP.exe" qui package un driver "PRO" pour le GPU en plus du SDK HIP 7.1.0 (je ne sais pas si je suis censé installer le driver qui viendrait alors écraser mon Adrenalin, ou juste mettre le HIP, l'installeur propose de choisir)

 

C'est très chiant rien que pour trouver quoi installer :o. C'est ma machine principale donc ça m'emmerderait de devoir installer 12 drivers foireux juste pour expérimenter, du coup je m'en remets à vous si certains ont expérimenté, sinon j'attendrai que tout ça gagne en maturité...
Merci :D

 

llama.cpp avec vulkan et ça roule tout seul  :sol:


---------------
Victime de girafophobie, mais se soigne.
n°11476531
gremi
Vieux con des neiges d'antan
Posté le 03-05-2026 à 18:54:43  profilanswer
 

TotalRecall a écrit :

Yop [:cerveau drapal] ,  
 
Des gens ici qui pourraient m'aiguiller pour faire fonctionner sans trop de galères Ollama + gemma4 en ROCm sur une AMD RX9070XT (donc "gfx1201" il me semble) sous Windows 11 ?
 
J'ai testé Ollama en CLI avec Vulkan ( $env:OLLAMA_VULKAN="1" ) mais c'est pas concluant, il me sort toutes sortes de trucs fantaisistes : des réponses vides ou tronquées, des caractères aléatoires... Alors qu'en CPU c'est ok.
 
Je testerai donc bien ROCm mais le support Windows a l'air pas mal à la bourre.  
Entre  
- Les histoires de faire un build custom d'Ollama rien que pour le support AMD (edit : trouvé ça : https://github.com/likelovewant/ollama-for-amd ),
- les packages custom ( https://github.com/ROCm/TheRock )  
- le site AMD et les dépôts un peu labyrinthiques ( https://repo.radeon.com/rocm/windows/rocm-rel-7.2.1/ ),  
- les liens comme https://www.amd.com/en/developer/re [...] p-sdk.html qui s'arrêtent à la version 7.1.1 alors qu'on est en 7.2.1
- "AMD-Software-PRO-Edition-26.Q1-Win11-For-HIP.exe" qui package un driver "PRO" pour le GPU en plus du SDK HIP 7.1.0 (je ne sais pas si je suis censé installer le driver qui viendrait alors écraser mon Adrenalin, ou juste mettre le HIP, l'installeur propose de choisir)
 
C'est très chiant rien que pour trouver quoi installer :o. C'est ma machine principale donc ça m'emmerderait de devoir installer 12 drivers foireux juste pour expérimenter, du coup je m'en remets à vous si certains ont expérimenté, sinon j'attendrai que tout ça gagne en maturité...
Merci :D


Demande à Claude avec les logs, c'est impressionnant  ;)
 

Citation :

Le problème précisOllama n'embarque dans son dossier ROCm que les bibliothèques pour les GPU supportés (ex: gfx1100 pour la RX 7900 XTX). Les libs gfx12xx nécessaires à la RX 9070 XT (gfx1201) sont tout simplement absentes.

Message cité 1 fois
Message édité par gremi le 03-05-2026 à 18:55:37

---------------
In aligot we trust.
n°11476532
speedboyz3​0
Guide Michelin :o
Posté le 03-05-2026 à 19:00:55  profilanswer
 

Tout simplement  [:benjy86]

n°11476533
the_fennec
f3nn3cUs z3rd4
Posté le 03-05-2026 à 19:08:46  profilanswer
 

Tronklou a écrit :


 
llama.cpp avec vulkan et ça roule tout seul  :sol:


 
+1 llama.cpp rulez :o


---------------
Faudra que je teste un jour :o
n°11476541
neo world
Posté le 03-05-2026 à 21:39:33  profilanswer
 

+1 avec les commentaires au dessus (et préference pour LM Studio ou Lemonade qui supporte mieux ROCM et tout ce qui va avec côté AMD https://lemonade-server.ai/install_options.html )

n°11476542
Kyjja
Y'a pot !
Posté le 03-05-2026 à 21:42:46  profilanswer
 
n°11476543
neo world
Posté le 03-05-2026 à 21:45:36  profilanswer
 

Pour ceux qui cherchent à s'équiper niveau matériel réfléchissez bien à votre timing. La RAM a plutôt un peu diminué depuis le pic. On peut espérer que ça va continuer à diminuer mais les fabricants de puces DRAM (présents aux côtés des GPU / CPU) lancent des alertes sur leur capacité à y répondre.
 
Information à prendre avec un grain de sel (le fabriquant va pas se tirer une balle dans le pied en insistant sur l'absence de demande côté marché B2C et donc sur une baisse de prix à venir si les gens attendent encore un peu :o :o) mais bref à prendre en compte :
https://www.mac4ever.com/mac/195972 [...] e-confirme
 


 [:cetrio:2]

Message cité 1 fois
Message édité par neo world le 03-05-2026 à 21:48:20
n°11476548
TotalRecal​l
Posté le 03-05-2026 à 22:55:19  profilanswer
 

LibreArbitre a écrit :

Le plus simple serait d'acheter un GPU des verts [:zedlefou:1]


 [:adnauseam:3]  [:mooonbloood]

 
Quich a écrit :

LM studio c'est plug and play, en tout cas sur ma Rx6800 puis la 7900, je n'ai rien eu à faire.


Sauf que justement la 9070XT n'est pas supporté par Ollama et les drivers ROCm sont à la bourre (d'où le fait d'avoir un support un peu tronqué avec juste HIP au lieu de la suite complète, et les livrables au référencement chaotique), alors que sur les 7900XT c'est annoncé pleinement compatible. Côté LM Studio j'avais l'impression que c'est pas fou non plus.

 
gremi a écrit :


Demande à Claude avec les logs, c'est impressionnant  ;)

 
Citation :

Le problème précisOllama n'embarque dans son dossier ROCm que les bibliothèques pour les GPU supportés (ex: gfx1100 pour la RX 7900 XTX). Les libs gfx12xx nécessaires à la RX 9070 XT (gfx1201) sont tout simplement absentes.



Voilà, mais ça c'est plus le problème que la solution :o

 

Des gens disent "avoir réussi après moults bidouilles" et après ça part très vite dans toutes les directions (j'en ai résumé quelques unes).
Vu que la 9070 est sortie il y a plus d'un an et qu'AMD a dû en vendre plus que trois ou quatre, je suis à peu près convaincu que quelqu'un quelque part a dû trouver la combinaison soft optimale pour que ça tourne et planquer ça quelque part sur un obscur repos Github ou un tuto Reddit.
D'où ma question précise.

 
Tronklou a écrit :


llama.cpp avec vulkan et ça roule tout seul  :sol:


Au pire je retesterai effectivement sous Vulkan mais vu que ça foirait avec Ollama c'est pas dit que ça soit mieux :o

the_fennec a écrit :


+1 llama.cpp rulez :o


neo world a écrit :

+1 avec les commentaires au dessus (et préference pour LM Studio ou Lemonade qui supporte mieux ROCM et tout ce qui va avec côté AMD https://lemonade-server.ai/install_options.html )


Y compris pour une RX9070XT ? :o
Si oui j'essaierai Lemonade avec llama.cpp.
Mais j'imagine que côté CG il faut quand même installer HIP (par exemple via l'EXE que je citais plus haut) ? Ou bien c'est embarqué ?


Message édité par TotalRecall le 03-05-2026 à 22:57:05

---------------
Topic .Net - C# @ Prog
n°11476550
neo world
Posté le 03-05-2026 à 23:06:25  profilanswer
 

Si je regarde dans ce fil ( https://github.com/lmstudio-ai/lmst [...] issues/574 ) il semblerait que oui à condition d'avoir ROCM 6.4.1 minimum sur Linux. J'imagine que c'est pareil côté windows ?  [:eraser17]

n°11476552
TotalRecal​l
Posté le 03-05-2026 à 23:18:31  profilanswer
 

Béh non apparemment pas, pour la 9070XT le support Windows est nettement en retrait sur celui pour Linux, surtout en ce qui concerne Ollama. Donc je suis preneur des alternatives éprouvées si ici quelqu'un l'a fait avec ce modèle.


---------------
Topic .Net - C# @ Prog
n°11476553
neo world
Posté le 03-05-2026 à 23:20:50  profilanswer
 

https://learn.microsoft.com/fr-fr/w [...] pu-compute
 
Dis moi ce que tu veux et je te dirais comment (peut-être) t'en passer :o

n°11476556
neo world
Posté le 03-05-2026 à 23:45:43  profilanswer
 

Pour ceux qui se demandent comment se passent les commandes du AMD Strix Halo / AI 395 : commande jeudi Matin, vendredi férié, mail dimanche à 14h pour me confirmer une expedition en cours. Les livraisons semblent assurées en 3 à 7 jours en Europe d'après le mail. Je vous tient au courant quand c'est dans mes mains :D

n°11476569
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 09:14:32  profilanswer
 

TotalRecall a écrit :

Béh non apparemment pas, pour la 9070XT le support Windows est nettement en retrait sur celui pour Linux, surtout en ce qui concerne Ollama. Donc je suis preneur des alternatives éprouvées si ici quelqu'un l'a fait avec ce modèle.


 
Test llama.cpp, ya rien a installer, juste un zip:
https://github.com/ggml-org/llama.c [...] an-x64.zip


---------------
Faudra que je teste un jour :o
n°11476594
ibuprophet
Posté le 04-05-2026 à 11:05:34  profilanswer
 

TotalRecall a écrit :

Béh non apparemment pas, pour la 9070XT le support Windows est nettement en retrait sur celui pour Linux, surtout en ce qui concerne Ollama. Donc je suis preneur des alternatives éprouvées si ici quelqu'un l'a fait avec ce modèle.


 Installe llinux  :o  
Sous linux, je te confirme que la R9070XT marche parfaitement avec ollama. A noter que Vulkan > ROCm en monoGPU mais en multiGPU c'est l'inverse.

n°11476598
speedboyz3​0
Guide Michelin :o
Posté le 04-05-2026 à 11:28:48  profilanswer
 

neo world a écrit :

Pour ceux qui cherchent à s'équiper niveau matériel réfléchissez bien à votre timing. La RAM a plutôt un peu diminué depuis le pic. On peut espérer que ça va continuer à diminuer mais les fabricants de puces DRAM (présents aux côtés des GPU / CPU) lancent des alertes sur leur capacité à y répondre.
 
Information à prendre avec un grain de sel (le fabriquant va pas se tirer une balle dans le pied en insistant sur l'absence de demande côté marché B2C et donc sur une baisse de prix à venir si les gens attendent encore un peu :o :o) mais bref à prendre en compte :
https://www.mac4ever.com/mac/195972 [...] e-confirme
 


 
On reviendrait enfin sur la norme du "plus t'attends et plus t'as de meilleures perfs pour moins cher"  [:tiibo:1]

n°11476600
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 04-05-2026 à 11:31:51  profilanswer
 

Tu as plus d'économies a attendre de par l'efficience des models et des améliorations des moteurs d'inférences.
Le hardware restera trop cher au prorata des performances pour un bon moment, regarde l'évolution des gpu depuis des années  [:cerveau erf]


---------------
Victime de girafophobie, mais se soigne.
n°11476602
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 11:37:01  profilanswer
 

Le principal problème pour les GPUs est que les constructeurs n'ont pas prévu d'ajouter plus de VRAM, mais de bidouiller en DLSS/etc.
 
Une 5060Ti avec 32GB en GDDR6 a 500 balles ça serait top pour le local, mais zéro chance que ça existe un jour.


---------------
Faudra que je teste un jour :o
n°11476604
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 04-05-2026 à 11:39:50  profilanswer
 

L'anomalie c'était la 3090 avec ses 24gb et le nvlink.

 

NVIDIA a bien retenu la leçon depuis  :lol:


---------------
Victime de girafophobie, mais se soigne.
n°11476607
Scrabble
Posté le 04-05-2026 à 12:50:46  profilanswer
 

the_fennec a écrit :

Le principal problème pour les GPUs est que les constructeurs n'ont pas prévu d'ajouter plus de VRAM, mais de bidouiller en DLSS/etc.


Oui, enfin les constructeurs, c'est nVIDIA, hein.
AMD a sorti la R9700 et Intel la B70

n°11476617
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 14:26:21  profilanswer
 

Scrabble a écrit :


Oui, enfin les constructeurs, c'est nVIDIA, hein.
AMD a sorti la R9700 et Intel la B70


 
Je parle de GPU grand public et accessible pour du LLM local, donc exit la R9700. Quand a Intel, c'est encore pas ça niveau support il me semble.
 
Est-ce qu'au lieu d'une R9700 à 1600 euros c'est pas plus rentable de prendre une paire de 5060Ti pour 1200 euros?


---------------
Faudra que je teste un jour :o
n°11476620
neo world
Posté le 04-05-2026 à 14:48:05  profilanswer
 

Si y’a le support de cuda je pense que tu peux mettre n’importe quel produit Nvidia avec autant de VRaM dedans et gagner par ko face à Intel ou AMD :D

n°11476627
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 15:45:57  profilanswer
 

C'est bien dommage d'ailleurs qu'il n'y ait pas de devs chez Intel pour faire une API qui marche, une paire d'A770 pour 32GB a 600 balles ça l'aurait bien fait... Mais ils laissent visiblement tombé le marché du GPU pour se concentrer sur leurs grilles pains de 15 ième génération :o


---------------
Faudra que je teste un jour :o
n°11476630
bounty2k
Posté le 04-05-2026 à 16:10:58  profilanswer
 

the_fennec a écrit :

C'est bien dommage d'ailleurs qu'il n'y ait pas de devs chez Intel pour faire une API qui marche, une paire d'A770 pour 32GB a 600 balles ça l'aurait bien fait... Mais ils laissent visiblement tombé le marché du GPU pour se concentrer sur leurs grilles pains de 15 ième génération :o


Sisi, il y a bien OpenVINO qui existe, mais bon c'est pas idéal.
A priori on peu également recompiler llamacpp pour le rendre compatible avec les NPU ou GPU Intel, car pas natif  :( .

Message cité 1 fois
Message édité par bounty2k le 04-05-2026 à 16:12:35
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7

Aller à :
Ajouter une réponse
 

Sujets relatifs
Besoin d'aide pour tourBesoin d'aide, problème avec mon pc
AIde pour config 4KBesoin d'aide pour config rapport/qualité prix
Choix disspateur NVMeAjout de RAM , meilleur choix ? DDR4 2400
Aide pour config Graphiste 2D/3DBesoin d'aide sur projet config fanless linux mint
Conseil choix 2 configs avant achatChoix GPU - Jeux sur 49" 5120X1440p
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)