Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2342 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  6  ..  17  18  19  20  21  22
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°15958
speedboyz3​0
Guide Michelin :o
Posté le 01-05-2026 à 17:47:49  profilanswer
 

Reprise du message précédent :
Vous permettez un petit commentaire de Claude ?  [:benjy86]

 

Edit: bordel ça bug :o


Message édité par speedboyz30 le 01-05-2026 à 17:49:20
n°15959
speedboyz3​0
Guide Michelin :o
Posté le 01-05-2026 à 17:48:10  profilanswer
 

Vous permettez un petit commentaire de Claude ?  [:benjy86]  
 
 
 ⏱️ Impact concret : 8 vs 20 vs 30 tokens/s
 
  ---
  Repère clé : la vitesse de lecture
 
  Un humain lit environ 4-5 tokens/s en français.
  ---
 

n°15960
neo world
Posté le 01-05-2026 à 18:08:10  profilanswer
 

merci Claude  [:obvious] :D

n°15961
gremi
Vieux con des neiges d'antan
Posté le 01-05-2026 à 19:08:26  profilanswer
 

neo world a écrit :


bon à savoir ! c'était quel paramètre pour info et sur quelle architecture / materiel (ça peut aider une autre âme en peine :o ) ?

 
pich_mu a écrit :

 

Super idée ça ! Je vais essayer de faire pareil pour mon setup actuel sous LM Studio on va bien voir  :D

 


 

Je ne retrouve plus les échanges mais au final j'utilise ça, sur un R7 9800x3D, 64 Go de DDR5, 5070 ti 16Go :

 

gremi@gremi-ubuntu:~/llama/llama-b8838$ ./llama-server   -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL   --alias qwen3.6-35b-a3b   --fit on --fit-ctx 128000 --fit-target 768   -np 1 -fa on --mlock   -ctk q8_0 -ctv q8_0   --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0   --presence-penalty 0.0 --repeat-penalty 1.0   --reasoning-budget -1   --host 127.0.0.1 --port 8033

 

Et c'était ma première fois avec llama (d'habitude j'utilisais LMStudio), il m'a fait aussi remarquer que je n'avais pas le bon binaire, j'étais full CPU au début, avec le binaire cuda c'était aussi mieux :o


Message édité par gremi le 01-05-2026 à 19:15:29

---------------
In aligot we trust.
n°15962
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 01-05-2026 à 20:38:18  profilanswer
 

speedboyz30 a écrit :

Vous permettez un petit commentaire de Claude ?  [:benjy86]  
 
 
 ⏱️ Impact concret : 8 vs 20 vs 30 tokens/s
 
  ---
  Repère clé : la vitesse de lecture
 
  Un humain lit environ 4-5 tokens/s en français.
  ---
 


 
Mais vous utilisez vraiment des llm au quotidiens ?  :o  
 
La vitesse de génération c'est pas uniquement ce qui s'affiche en streaming sur l’écran mais aussi la phase de réflexion avant. Donc tu monte rapidement a plusieurs minutes pour une réponse. Typiquement tu demande 50 lignes t'es deja a 3 minutes :D  
Je balance environs 1 millions de tokens/jours dans mon usage, et vus comme les gens râlent sur les limites des abos je doit pas être le seul. A 5 token/s ca me prendrais 2,3 jours  :D  
 
En POC c'est rigolo, si t'as besoin que de quelques requête par jours... globalement tu va prendre un abo gratos ca suffit ( et pas acheter du local vus le tarif ) et si tu veut un vrai usage "réaliste" bah c'est de la merde [:cerveau manust]
Sinon personne se ferais chier a balancer des X milliers d'euros dans du gros matos, mais prendrais juste un vieux server avec de ram hein :D


---------------
Victime de girafophobie, mais se soigne.
n°15963
oh_damned
Posté le 01-05-2026 à 20:50:18  profilanswer
 

[:cerveau drapal]


---------------
“Everyone has a plan: until they get punched in the face.” – Mike Tyson
n°15964
the_fennec
f3nn3cUs z3rd4
Posté le 01-05-2026 à 20:56:37  profilanswer
 

Tronklou a écrit :


 
Mais vous utilisez vraiment des llm au quotidiens ?  :o  
 
La vitesse de génération c'est pas uniquement ce qui s'affiche en streaming sur l’écran mais aussi la phase de réflexion avant. Donc tu monte rapidement a plusieurs minutes pour une réponse. Typiquement tu demande 50 lignes t'es deja a 3 minutes :D  
Je balance environs 1 millions de tokens/jours dans mon usage, et vus comme les gens râlent sur les limites des abos je doit pas être le seul. A 5 token/s ca me prendrais 2,3 jours  :D  
 
En POC c'est rigolo, si t'as besoin que de quelques requête par jours... globalement tu va prendre un abo gratos ca suffit ( et pas acheter du local vus le tarif ) et si tu veut un vrai usage "réaliste" bah c'est de la merde [:cerveau manust]
Sinon personne se ferais chier a balancer des X milliers d'euros dans du gros matos, mais prendrais juste un vieux server avec de ram hein :D


 
Il y a deux vitesses a prendre en compte en local. La génération (tgs) et le processing (pps). Souvent on donne que le tgs, c'est la qu'on est le plus bas, 5 tgs c'est lent, mais le pps serait plutôt dans les 50 je pense.


---------------
Faudra que je teste un jour :o
n°15965
neo world
Posté le 01-05-2026 à 21:02:41  profilanswer
 

Tronklou a écrit :


 
Mais vous utilisez vraiment des llm au quotidiens ?  :o  
 
La vitesse de génération c'est pas uniquement ce qui s'affiche en streaming sur l’écran mais aussi la phase de réflexion avant. Donc tu monte rapidement a plusieurs minutes pour une réponse. Typiquement tu demande 50 lignes t'es deja a 3 minutes :D  
Je balance environs 1 millions de tokens/jours dans mon usage, et vus comme les gens râlent sur les limites des abos je doit pas être le seul. A 5 token/s ca me prendrais 2,3 jours  :D  
 
En POC c'est rigolo, si t'as besoin que de quelques requête par jours... globalement tu va prendre un abo gratos ca suffit ( et pas acheter du local vus le tarif ) et si tu veut un vrai usage "réaliste" bah c'est de la merde [:cerveau manust]
Sinon personne se ferais chier a balancer des X milliers d'euros dans du gros matos, mais prendrais juste un vieux server avec de ram hein :D


ton vieux serveur avec de la RAM c'est 1 token / seconde les jours de grand vent :o
 
La partie pre-processing (ttft/thinking) est beaucoup moins sensible à la bande passante mémoire et pèse plus sur la puissance de calcul de ce que je comprend :jap: On arrive à plusieurs centaines de Tokens / secondes en phase avant réponse même avec un système moyen et c'est quand le modèle prend son baton de pèlerin et fait passe par chaque paramètre actif au moment de générer chaque nouveau token de réponse que la bande passante prend cher :D
 
après tu as peut être une base de code énorme à scanner avant de répondre ? Mais théoriquement c'est mieux de le restreindre aux morceaux (microservices + design doc des APIs ?) dont il a besoin pour travailler pour lui éviter de partir dans tous les sens :jap:

n°15966
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 01-05-2026 à 21:11:25  profilanswer
 

Dans mon usage j'ai pas le choix que de charger beaucoup.
 
Mais je maintiens : bosser avec du 5 token/s, faut être maso hein :D


---------------
Victime de girafophobie, mais se soigne.
n°15967
neo world
Posté le 01-05-2026 à 21:32:09  profilanswer
 

gremi a écrit :


 
 
 
Je ne retrouve plus les échanges mais au final j'utilise ça, sur un R7 9800x3D, 64 Go de DDR5, 5070 ti 16Go :
 

gremi@gremi-ubuntu:~/llama/llama-b8838$ ./llama-server   -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL   --alias qwen3.6-35b-a3b   --fit on --fit-ctx 128000 --fit-target 768   -np 1 -fa on --mlock   -ctk q8_0 -ctv q8_0   --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0   --presence-penalty 0.0 --repeat-penalty 1.0   --reasoning-budget -1   --host 127.0.0.1 --port 8033


 
Et c'était ma première fois avec llama (d'habitude j'utilisais LMStudio), il m'a fait aussi remarquer que je n'avais pas le bon binaire, j'étais full CPU au début, avec le binaire cuda c'était aussi mieux :o


merci :jap:
 


 
 [:cetrio:1]  
 

Tronklou a écrit :

Dans mon usage j'ai pas le choix que de charger beaucoup.
 
Mais je maintiens : bosser avec du 5 token/s, faut être maso hein :D


 
https://i.imgflip.com/aqob6r.jpg


Message édité par neo world le 01-05-2026 à 21:32:32
n°15968
LibreArbit​re
La /root est longue
Posté le 02-05-2026 à 09:49:19  profilanswer
 


 


 


C'est pas pour lui jeter des fleurs mais Tronklou est dans une niche dans lequel il est expert donc tous les usages ne se valent pas ;)


---------------
Pharyo | Cinépite | Capvirage
n°15969
neo world
Posté le 02-05-2026 à 10:43:59  profilanswer
 

on est entre gens de qualité sur ce topic  [:clooney3] :D

n°15970
neo world
Posté le 02-05-2026 à 23:31:24  profilanswer
 

pour les aventuriers : un GPU de 96GB pour 1400$  [:wark0] fabriqué par Huawei  [:chtivain:1] mais LPDDR4X  [:joemoomoot] et compatible qu'avec les lames Huawei équipés du CPU Kunpeng [:600000_voix:8]  
https://pausehardware.com/huawei-at [...] demontage/
 
https://www.youtube.com/watch?v=qGe_fq68x-Q
 
C'est pas encore la révolution BYD / MG / Xiaomi / ... qu'on a pu voir avec les voitures :D

n°15971
the_fennec
f3nn3cUs z3rd4
Posté le 03-05-2026 à 08:18:54  profilanswer
 

Pas mal, a voir pour les perfs avec 150W seulement. Mais bon, on est pas près d'en voir dans nos PC.


---------------
Faudra que je teste un jour :o
n°15972
LibreArbit​re
La /root est longue
Posté le 03-05-2026 à 09:24:32  profilanswer
 

Ça avait déjà été benché et certes ça peut loader des gros modèles mais en terme de génération de token par seconde c'était l'équivalent d'une 3060 Ti...


---------------
Pharyo | Cinépite | Capvirage
n°15973
TotalRecal​l
Posté le 03-05-2026 à 16:48:13  profilanswer
 

Yop [:cerveau drapal] ,

 

Des gens ici qui pourraient m'aiguiller pour faire fonctionner sans trop de galères Ollama + gemma4 en ROCm sur une AMD RX9070XT (donc "gfx1201" il me semble) sous Windows 11 ?

 

J'ai testé Ollama en CLI avec Vulkan ( $env:OLLAMA_VULKAN="1" ) mais c'est pas concluant, il me sort toutes sortes de trucs fantaisistes : des réponses vides ou tronquées, des caractères aléatoires... Alors qu'en CPU c'est ok.

 

Je testerai donc bien ROCm mais le support Windows a l'air pas mal à la bourre.
Entre
- Les histoires de faire un build custom d'Ollama rien que pour le support AMD (edit : trouvé ça : https://github.com/likelovewant/ollama-for-amd ),
- les packages custom ( https://github.com/ROCm/TheRock )
- le site AMD et les dépôts un peu labyrinthiques ( https://repo.radeon.com/rocm/windows/rocm-rel-7.2.1/ ),
- les liens comme https://www.amd.com/en/developer/re [...] p-sdk.html qui s'arrêtent à la version 7.1.1 alors qu'on est en 7.2.1
- "AMD-Software-PRO-Edition-26.Q1-Win11-For-HIP.exe" qui package un driver "PRO" pour le GPU en plus du SDK HIP 7.1.0 (je ne sais pas si je suis censé installer le driver qui viendrait alors écraser mon Adrenalin, ou juste mettre le HIP, l'installeur propose de choisir)

 

C'est très chiant rien que pour trouver quoi installer :o. C'est ma machine principale donc ça m'emmerderait de devoir installer 12 drivers foireux juste pour expérimenter, du coup je m'en remets à vous si certains ont expérimenté, sinon j'attendrai que tout ça gagne en maturité...
Merci :D


Message édité par TotalRecall le 03-05-2026 à 17:00:23

---------------
Topic .Net - C# @ Prog
n°15974
LibreArbit​re
La /root est longue
Posté le 03-05-2026 à 17:52:24  profilanswer
 

Le plus simple serait d'acheter un GPU des verts [:zedlefou:1]


---------------
Pharyo | Cinépite | Capvirage
n°15975
Quich
Pouet ?
Posté le 03-05-2026 à 17:59:24  profilanswer
 

LM studio c'est plug and play, en tout cas sur ma Rx6800 puis la 7900, je n'ai rien eu à faire.


---------------
Feedback
n°15976
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 03-05-2026 à 18:23:19  profilanswer
 

TotalRecall a écrit :

Yop [:cerveau drapal] ,

 

Des gens ici qui pourraient m'aiguiller pour faire fonctionner sans trop de galères Ollama + gemma4 en ROCm sur une AMD RX9070XT (donc "gfx1201" il me semble) sous Windows 11 ?

 

J'ai testé Ollama en CLI avec Vulkan ( $env:OLLAMA_VULKAN="1" ) mais c'est pas concluant, il me sort toutes sortes de trucs fantaisistes : des réponses vides ou tronquées, des caractères aléatoires... Alors qu'en CPU c'est ok.

 

Je testerai donc bien ROCm mais le support Windows a l'air pas mal à la bourre.
Entre
- Les histoires de faire un build custom d'Ollama rien que pour le support AMD (edit : trouvé ça : https://github.com/likelovewant/ollama-for-amd ),
- les packages custom ( https://github.com/ROCm/TheRock )
- le site AMD et les dépôts un peu labyrinthiques ( https://repo.radeon.com/rocm/windows/rocm-rel-7.2.1/ ),
- les liens comme https://www.amd.com/en/developer/re [...] p-sdk.html qui s'arrêtent à la version 7.1.1 alors qu'on est en 7.2.1
- "AMD-Software-PRO-Edition-26.Q1-Win11-For-HIP.exe" qui package un driver "PRO" pour le GPU en plus du SDK HIP 7.1.0 (je ne sais pas si je suis censé installer le driver qui viendrait alors écraser mon Adrenalin, ou juste mettre le HIP, l'installeur propose de choisir)

 

C'est très chiant rien que pour trouver quoi installer :o. C'est ma machine principale donc ça m'emmerderait de devoir installer 12 drivers foireux juste pour expérimenter, du coup je m'en remets à vous si certains ont expérimenté, sinon j'attendrai que tout ça gagne en maturité...
Merci :D

 

llama.cpp avec vulkan et ça roule tout seul  :sol:


---------------
Victime de girafophobie, mais se soigne.
n°15977
gremi
Vieux con des neiges d'antan
Posté le 03-05-2026 à 18:54:43  profilanswer
 

TotalRecall a écrit :

Yop [:cerveau drapal] ,  
 
Des gens ici qui pourraient m'aiguiller pour faire fonctionner sans trop de galères Ollama + gemma4 en ROCm sur une AMD RX9070XT (donc "gfx1201" il me semble) sous Windows 11 ?
 
J'ai testé Ollama en CLI avec Vulkan ( $env:OLLAMA_VULKAN="1" ) mais c'est pas concluant, il me sort toutes sortes de trucs fantaisistes : des réponses vides ou tronquées, des caractères aléatoires... Alors qu'en CPU c'est ok.
 
Je testerai donc bien ROCm mais le support Windows a l'air pas mal à la bourre.  
Entre  
- Les histoires de faire un build custom d'Ollama rien que pour le support AMD (edit : trouvé ça : https://github.com/likelovewant/ollama-for-amd ),
- les packages custom ( https://github.com/ROCm/TheRock )  
- le site AMD et les dépôts un peu labyrinthiques ( https://repo.radeon.com/rocm/windows/rocm-rel-7.2.1/ ),  
- les liens comme https://www.amd.com/en/developer/re [...] p-sdk.html qui s'arrêtent à la version 7.1.1 alors qu'on est en 7.2.1
- "AMD-Software-PRO-Edition-26.Q1-Win11-For-HIP.exe" qui package un driver "PRO" pour le GPU en plus du SDK HIP 7.1.0 (je ne sais pas si je suis censé installer le driver qui viendrait alors écraser mon Adrenalin, ou juste mettre le HIP, l'installeur propose de choisir)
 
C'est très chiant rien que pour trouver quoi installer :o. C'est ma machine principale donc ça m'emmerderait de devoir installer 12 drivers foireux juste pour expérimenter, du coup je m'en remets à vous si certains ont expérimenté, sinon j'attendrai que tout ça gagne en maturité...
Merci :D


Demande à Claude avec les logs, c'est impressionnant  ;)
 

Citation :

Le problème précisOllama n'embarque dans son dossier ROCm que les bibliothèques pour les GPU supportés (ex: gfx1100 pour la RX 7900 XTX). Les libs gfx12xx nécessaires à la RX 9070 XT (gfx1201) sont tout simplement absentes.


Message édité par gremi le 03-05-2026 à 18:55:37

---------------
In aligot we trust.
n°15978
speedboyz3​0
Guide Michelin :o
Posté le 03-05-2026 à 19:00:55  profilanswer
 

Tout simplement  [:benjy86]

n°15979
the_fennec
f3nn3cUs z3rd4
Posté le 03-05-2026 à 19:08:46  profilanswer
 

Tronklou a écrit :


 
llama.cpp avec vulkan et ça roule tout seul  :sol:


 
+1 llama.cpp rulez :o


---------------
Faudra que je teste un jour :o
n°15980
neo world
Posté le 03-05-2026 à 21:39:33  profilanswer
 

+1 avec les commentaires au dessus (et préference pour LM Studio ou Lemonade qui supporte mieux ROCM et tout ce qui va avec côté AMD https://lemonade-server.ai/install_options.html )

n°15981
Kyjja
Y'a pot !
Posté le 03-05-2026 à 21:42:46  profilanswer
 
n°15982
neo world
Posté le 03-05-2026 à 21:45:36  profilanswer
 

Pour ceux qui cherchent à s'équiper niveau matériel réfléchissez bien à votre timing. La RAM a plutôt un peu diminué depuis le pic. On peut espérer que ça va continuer à diminuer mais les fabricants de puces DRAM (présents aux côtés des GPU / CPU) lancent des alertes sur leur capacité à y répondre.
 
Information à prendre avec un grain de sel (le fabriquant va pas se tirer une balle dans le pied en insistant sur l'absence de demande côté marché B2C et donc sur une baisse de prix à venir si les gens attendent encore un peu :o :o) mais bref à prendre en compte :
https://www.mac4ever.com/mac/195972 [...] e-confirme
 


 [:cetrio:2]


Message édité par neo world le 03-05-2026 à 21:48:20
n°15983
TotalRecal​l
Posté le 03-05-2026 à 22:55:19  profilanswer
 

LibreArbitre a écrit :

Le plus simple serait d'acheter un GPU des verts [:zedlefou:1]


 [:adnauseam:3]  [:mooonbloood]

 
Quich a écrit :

LM studio c'est plug and play, en tout cas sur ma Rx6800 puis la 7900, je n'ai rien eu à faire.


Sauf que justement la 9070XT n'est pas supporté par Ollama et les drivers ROCm sont à la bourre (d'où le fait d'avoir un support un peu tronqué avec juste HIP au lieu de la suite complète, et les livrables au référencement chaotique), alors que sur les 7900XT c'est annoncé pleinement compatible. Côté LM Studio j'avais l'impression que c'est pas fou non plus.

 
gremi a écrit :


Demande à Claude avec les logs, c'est impressionnant  ;)

 
Citation :

Le problème précisOllama n'embarque dans son dossier ROCm que les bibliothèques pour les GPU supportés (ex: gfx1100 pour la RX 7900 XTX). Les libs gfx12xx nécessaires à la RX 9070 XT (gfx1201) sont tout simplement absentes.



Voilà, mais ça c'est plus le problème que la solution :o

 

Des gens disent "avoir réussi après moults bidouilles" et après ça part très vite dans toutes les directions (j'en ai résumé quelques unes).
Vu que la 9070 est sortie il y a plus d'un an et qu'AMD a dû en vendre plus que trois ou quatre, je suis à peu près convaincu que quelqu'un quelque part a dû trouver la combinaison soft optimale pour que ça tourne et planquer ça quelque part sur un obscur repos Github ou un tuto Reddit.
D'où ma question précise.

 
Tronklou a écrit :


llama.cpp avec vulkan et ça roule tout seul  :sol:


Au pire je retesterai effectivement sous Vulkan mais vu que ça foirait avec Ollama c'est pas dit que ça soit mieux :o

the_fennec a écrit :


+1 llama.cpp rulez :o


neo world a écrit :

+1 avec les commentaires au dessus (et préference pour LM Studio ou Lemonade qui supporte mieux ROCM et tout ce qui va avec côté AMD https://lemonade-server.ai/install_options.html )


Y compris pour une RX9070XT ? :o
Si oui j'essaierai Lemonade avec llama.cpp.
Mais j'imagine que côté CG il faut quand même installer HIP (par exemple via l'EXE que je citais plus haut) ? Ou bien c'est embarqué ?


Message édité par TotalRecall le 03-05-2026 à 22:57:05

---------------
Topic .Net - C# @ Prog
n°15984
neo world
Posté le 03-05-2026 à 23:06:25  profilanswer
 

Si je regarde dans ce fil ( https://github.com/lmstudio-ai/lmst [...] issues/574 ) il semblerait que oui à condition d'avoir ROCM 6.4.1 minimum sur Linux. J'imagine que c'est pareil côté windows ?  [:eraser17]

n°15985
TotalRecal​l
Posté le 03-05-2026 à 23:18:31  profilanswer
 

Béh non apparemment pas, pour la 9070XT le support Windows est nettement en retrait sur celui pour Linux, surtout en ce qui concerne Ollama. Donc je suis preneur des alternatives éprouvées si ici quelqu'un l'a fait avec ce modèle.


---------------
Topic .Net - C# @ Prog
n°15986
neo world
Posté le 03-05-2026 à 23:20:50  profilanswer
 

https://learn.microsoft.com/fr-fr/w [...] pu-compute
 
Dis moi ce que tu veux et je te dirais comment (peut-être) t'en passer :o

n°15987
neo world
Posté le 03-05-2026 à 23:45:43  profilanswer
 

Pour ceux qui se demandent comment se passent les commandes du AMD Strix Halo / AI 395 : commande jeudi Matin, vendredi férié, mail dimanche à 14h pour me confirmer une expedition en cours. Les livraisons semblent assurées en 3 à 7 jours en Europe d'après le mail. Je vous tient au courant quand c'est dans mes mains :D

n°15988
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 09:14:32  profilanswer
 

TotalRecall a écrit :

Béh non apparemment pas, pour la 9070XT le support Windows est nettement en retrait sur celui pour Linux, surtout en ce qui concerne Ollama. Donc je suis preneur des alternatives éprouvées si ici quelqu'un l'a fait avec ce modèle.


 
Test llama.cpp, ya rien a installer, juste un zip:
https://github.com/ggml-org/llama.c [...] an-x64.zip


---------------
Faudra que je teste un jour :o
n°15989
ibuprophet
Posté le 04-05-2026 à 11:05:34  profilanswer
 

TotalRecall a écrit :

Béh non apparemment pas, pour la 9070XT le support Windows est nettement en retrait sur celui pour Linux, surtout en ce qui concerne Ollama. Donc je suis preneur des alternatives éprouvées si ici quelqu'un l'a fait avec ce modèle.


 Installe llinux  :o  
Sous linux, je te confirme que la R9070XT marche parfaitement avec ollama. A noter que Vulkan > ROCm en monoGPU mais en multiGPU c'est l'inverse.

n°15990
speedboyz3​0
Guide Michelin :o
Posté le 04-05-2026 à 11:28:48  profilanswer
 

neo world a écrit :

Pour ceux qui cherchent à s'équiper niveau matériel réfléchissez bien à votre timing. La RAM a plutôt un peu diminué depuis le pic. On peut espérer que ça va continuer à diminuer mais les fabricants de puces DRAM (présents aux côtés des GPU / CPU) lancent des alertes sur leur capacité à y répondre.
 
Information à prendre avec un grain de sel (le fabriquant va pas se tirer une balle dans le pied en insistant sur l'absence de demande côté marché B2C et donc sur une baisse de prix à venir si les gens attendent encore un peu :o :o) mais bref à prendre en compte :
https://www.mac4ever.com/mac/195972 [...] e-confirme
 


 
On reviendrait enfin sur la norme du "plus t'attends et plus t'as de meilleures perfs pour moins cher"  [:tiibo:1]

n°15991
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 04-05-2026 à 11:31:51  profilanswer
 

Tu as plus d'économies a attendre de par l'efficience des models et des améliorations des moteurs d'inférences.
Le hardware restera trop cher au prorata des performances pour un bon moment, regarde l'évolution des gpu depuis des années  [:cerveau erf]


---------------
Victime de girafophobie, mais se soigne.
n°15992
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 11:37:01  profilanswer
 

Le principal problème pour les GPUs est que les constructeurs n'ont pas prévu d'ajouter plus de VRAM, mais de bidouiller en DLSS/etc.
 
Une 5060Ti avec 32GB en GDDR6 a 500 balles ça serait top pour le local, mais zéro chance que ça existe un jour.


---------------
Faudra que je teste un jour :o
n°15993
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 04-05-2026 à 11:39:50  profilanswer
 

L'anomalie c'était la 3090 avec ses 24gb et le nvlink.

 

NVIDIA a bien retenu la leçon depuis  :lol:


---------------
Victime de girafophobie, mais se soigne.
n°15994
Scrabble
Posté le 04-05-2026 à 12:50:46  profilanswer
 

the_fennec a écrit :

Le principal problème pour les GPUs est que les constructeurs n'ont pas prévu d'ajouter plus de VRAM, mais de bidouiller en DLSS/etc.


Oui, enfin les constructeurs, c'est nVIDIA, hein.
AMD a sorti la R9700 et Intel la B70

n°15995
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 14:26:21  profilanswer
 

Scrabble a écrit :


Oui, enfin les constructeurs, c'est nVIDIA, hein.
AMD a sorti la R9700 et Intel la B70


 
Je parle de GPU grand public et accessible pour du LLM local, donc exit la R9700. Quand a Intel, c'est encore pas ça niveau support il me semble.
 
Est-ce qu'au lieu d'une R9700 à 1600 euros c'est pas plus rentable de prendre une paire de 5060Ti pour 1200 euros?


---------------
Faudra que je teste un jour :o
n°15996
neo world
Posté le 04-05-2026 à 14:48:05  profilanswer
 

Si y’a le support de cuda je pense que tu peux mettre n’importe quel produit Nvidia avec autant de VRaM dedans et gagner par ko face à Intel ou AMD :D

n°15997
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 15:45:57  profilanswer
 

C'est bien dommage d'ailleurs qu'il n'y ait pas de devs chez Intel pour faire une API qui marche, une paire d'A770 pour 32GB a 600 balles ça l'aurait bien fait... Mais ils laissent visiblement tombé le marché du GPU pour se concentrer sur leurs grilles pains de 15 ième génération :o


---------------
Faudra que je teste un jour :o
n°15998
bounty2k
Posté le 04-05-2026 à 16:10:58  profilanswer
 

the_fennec a écrit :

C'est bien dommage d'ailleurs qu'il n'y ait pas de devs chez Intel pour faire une API qui marche, une paire d'A770 pour 32GB a 600 balles ça l'aurait bien fait... Mais ils laissent visiblement tombé le marché du GPU pour se concentrer sur leurs grilles pains de 15 ième génération :o


Sisi, il y a bien OpenVINO qui existe, mais bon c'est pas idéal.
A priori on peu également recompiler llamacpp pour le rendre compatible avec les NPU ou GPU Intel, car pas natif  :( .


Message édité par bounty2k le 04-05-2026 à 16:12:35
 Page :   1  2  3  4  5  6  ..  17  18  19  20  21  22

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)