Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1786 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  6  7  ..  17  18  19  20  21  22
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°15998
bounty2k
Posté le 04-05-2026 à 16:10:58  profilanswer
 

Reprise du message précédent :

the_fennec a écrit :

C'est bien dommage d'ailleurs qu'il n'y ait pas de devs chez Intel pour faire une API qui marche, une paire d'A770 pour 32GB a 600 balles ça l'aurait bien fait... Mais ils laissent visiblement tombé le marché du GPU pour se concentrer sur leurs grilles pains de 15 ième génération :o


Sisi, il y a bien OpenVINO qui existe, mais bon c'est pas idéal.
A priori on peu également recompiler llamacpp pour le rendre compatible avec les NPU ou GPU Intel, car pas natif  :( .


Message édité par bounty2k le 04-05-2026 à 16:12:35
n°15999
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 16:25:31  profilanswer
 

bounty2k a écrit :


Sisi, il y a bien OpenVINO qui existe, mais bon c'est pas idéal.  
A priori on peu également recompiler llamacpp pour le rendre compatible avec les NPU ou GPU Intel, car pas natif  :( .


 
Oui je sais, mais openvino a plein de limitations, c'est un peu la 12 ième roue du carrosse :D
Le support llama.cpp est fait par des bénévoles, Intel pourrait aider quand même :o
 
J'avais un peu creusé la question avant de prendre la BC250, mais j'ai préféré pas prendre de risque. La BC250 marche au top pour ce que j'en fais.


Message édité par the_fennec le 04-05-2026 à 16:26:35

---------------
Faudra que je teste un jour :o
n°16000
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 04-05-2026 à 16:36:48  profilanswer
 

C'est clair que si tu veut le meilleur support, et surtout être toujours au premières loges pour les nouveautés et optimisation, rien ne vaut du nvidia !
AMD ça finis par arriver car mine de rien la communautés grandie, Intel on est encore looooooins derrière :/


---------------
Victime de girafophobie, mais se soigne.
n°16001
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 16:40:57  profilanswer
 

Perso je vois pas vraiment de diff entre le support CUDA/Win et Vulkan/AMD/Linux dans mon cas, ce qui marche sur l'un marche sur l'autre.


---------------
Faudra que je teste un jour :o
n°16002
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 04-05-2026 à 16:55:25  profilanswer
 

Je dit pas que ca marchera pas, mais par contre quand il y a des nouveautés, c'est en général cuda first quoi qu'il arrive.  
 
Typiquement les derniers :  
https://github.com/z-lab/dflash
https://github.com/QwenLM/FlashQLA
https://github.com/0xSero/turboquant
 
Bah si t'a pas de Cuda tu peut aller te brosser :D


---------------
Victime de girafophobie, mais se soigne.
n°16003
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 17:30:51  profilanswer
 

Le Speculative Decoding est dans le main de llama.cpp et ça marche pas top au final pour la génération de code.
Il y a une PR DFLash pour llama.cpp:
https://github.com/ggml-org/llama.cpp/pull/22105
Une personne dit que ça marche mais lent sur Vulkan et une autre pas.
 
FlashQLA je connais pas, mais ya une issue qui dit que ça marche pas sur Blackwell.
 
Les Turboquants marchent pas vraiment pour le moment je trouve, même sur CUDA. Ce que j'ai testé se casse la gueule sur des vrais modèles (Qwen 3.5 et coder) assez rapidement. Tous les tests que j'ai vu passé sont sur des modèle tout petits et des benchs, pas du vrai prompting.  
 
Après pour des PoC, c'est sur que CUDA est la première cible, mais pour de la prod j'ai l'impression que Vulkan est pas mal quand même. ROCm par contre bof bof.


---------------
Faudra que je teste un jour :o
n°16004
neo world
Posté le 04-05-2026 à 19:14:19  profilanswer
 

the_fennec a écrit :

Perso je vois pas vraiment de diff entre le support CUDA/Win et Vulkan/AMD/Linux dans mon cas, ce qui marche sur l'un marche sur l'autre.


Y'a deux principaux problème :
=> le support des anciennes cartes par AMD (c'est vraiment par vague qu'ils s'en occupent et là où tu vas prendre la première carte Nvidia qui supporte CUDA et l'utiliser sans problème avec ton projet c'est plus l'aventure côté AMD d'une carte à une autre (beaucoup de taffe de la communauté heureusement. Suffit de voir les wiki et les repos focalisés sur AMD 396. Sans eux j'achetais pas)
=> les perfs (honorables mais côté gros cluster HPC dans le top 100 il n'y en a que 16 qui ont pris de l'AMD instinct contre 69 équipés en Nvidia  :pt1cable: ) donc AMD investit par vagues distinctes (depuis 2022 pour la dernière) avant d'éteindre la lumière au premier signe d'accalmie des projets là où nvidia agis en rouleau compresseur avec des projets à plus savoir qu'en faire et du support de vieux matos (le V100 indéboulonnable  :pt1cable:) comme les nouvelles cartes qui sortent.
 
On peut espérer qu'AMD va changer son fusil d'épaule sur le sujet des drivers / frameworks / API mais so far y'a du boulot :o

n°16005
Quich
Pouet ?
Posté le 04-05-2026 à 19:58:06  profilanswer
 

Est-ce que vous avez des benchs de la perf penalty à splitter les modèles sur plusieurs GPU par rapport à une seule ?

 

J'ai demandé à Gemini et Perplexity mais je n'ai pas eu de retours bien précis avec des exemples, ils disent que c'est moins perfs à cause des limites du lien PCI-e et du fait que le kvcache/contexte est présent sur chaque GPU (donc ça limite la vram utile par GPU) mais rien de chiffré.
Par exemple 2x Mi50 16GB vs 1x MI50 32GB :o (l'avantage étant que c'est la même chose en dehors de la quantité de vram, pour les autres cartes en général la quantité de vram dépend du GPU donc il y a d'autres éléments qui changent).


---------------
Feedback
n°16006
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 20:33:18  profilanswer
 

neo world a écrit :


Y'a deux principaux problème :
=> le support des anciennes cartes par AMD (c'est vraiment par vague qu'ils s'en occupent et là où tu vas prendre la première carte Nvidia qui supporte CUDA et l'utiliser sans problème avec ton projet c'est plus l'aventure côté AMD d'une carte à une autre (beaucoup de taffe de la communauté heureusement. Suffit de voir les wiki et les repos focalisés sur AMD 396. Sans eux j'achetais pas)
=> les perfs (honorables mais côté gros cluster HPC dans le top 100 il n'y en a que 16 qui ont pris de l'AMD instinct contre 69 équipés en Nvidia  :pt1cable: ) donc AMD investit par vagues distinctes (depuis 2022 pour la dernière) avant d'éteindre la lumière au premier signe d'accalmie des projets là où nvidia agis en rouleau compresseur avec des projets à plus savoir qu'en faire et du support de vieux matos (le V100 indéboulonnable  :pt1cable:) comme les nouvelles cartes qui sortent.
 
On peut espérer qu'AMD va changer son fusil d'épaule sur le sujet des drivers / frameworks / API mais so far y'a du boulot :o


 
Oui c'est clair qu'AMD est a la ramasse par rapport a NV mais ça reste jouable. Après, a prix plus ou moins égal, je touche pas a AMD :D.
 
 

Quich a écrit :

Est-ce que vous avez des benchs de la perf penalty à splitter les modèles sur plusieurs GPU par rapport à une seule ?
 
J'ai demandé à Gemini et Perplexity mais je n'ai pas eu de retours bien précis avec des exemples, ils disent que c'est moins perfs à cause des limites du lien PCI-e et du fait que le kvcache/contexte est présent sur chaque GPU (donc ça limite la vram utile par GPU) mais rien de chiffré.
Par exemple 2x Mi50 16GB vs 1x MI50 32GB :o (l'avantage étant que c'est la même chose en dehors de la quantité de vram, pour les autres cartes en général la quantité de vram dépend du GPU donc il y a d'autres éléments qui changent).


 
 
Ca va dépendre du moteur d'inférence, genre llama.cpp vs vllm. Une fois le modèle chargé en mémoire, il n'y a plus tant que ça de données qui passent par le bus, les tokens c'est quelques ko/s, les layers restent dans leur VRAM respectives. J'ai un llama.cpp split par le réseau (1GBs) entre une 4060Ti 16GB et une BC250 avec 14GB utiles, j'arrive rarement a saturer la BC250, probablement a cause de la BP passante de la 4060. Ce qui prends du temps c'est de charger le modèle, mais c'est une ou deux minutes, max.
 
Je pense que tu peux voir 2x Mi50 16GB comme 1x MI50 32GB, il ne devrait pas y avoir une différence de perf énorme. J'ai vu que les 32GB étaient hors de prix sur Ali, ça peut être intéressant si t'as un bon plan pour 2x16GB. D'un autre coté, si tu prends une 32GB tu pourras en rajouter une autre plus tard [:billy-bob jambonbeur]


---------------
Faudra que je teste un jour :o
n°16007
the_fennec
f3nn3cUs z3rd4
Posté le 04-05-2026 à 22:31:07  profilanswer
 

J'en ait marre d'utiliser des agents de dev qui font pas ce que je veux. Alors je suis en train de faire le mien, en 100% local avec Qwen 3.6 35B prévu pour marcher avec llama.cpp bien sur.  
C'est du Java+HTML pur. On verra bien ce que ça donne :lol:.
 
https://i.imgur.com/f30XMDf.png


---------------
Faudra que je teste un jour :o
n°16008
the_fennec
f3nn3cUs z3rd4
Posté le 05-05-2026 à 11:01:47  profilanswer
 

Running a 35B AI Model on 6GB VRAM, FAST (llama.cpp Guide)
https://www.youtube.com/watch?v=8F_5pdcD3HY
 
Pas mal comme setup, 17 tg/s (je suis a 35/40) sur une GTX 1060 6GB et 24GB RAM avec un i3 et 256k de contexte (TQ :o). Par contre il donne pas le quant utilisé, peut être UD-Q5_K_XL qui fait 27GB.
Je trouve qu'il explique bien et je vais tester de bouger les moe sur le CPU, et mlock aussi. Je pense que mlock pourrait régler me PB de perf au bout de quelques jours, j'espère juste que ça laissera tourner les autres trucs sur mon server.
 
Ce qui est bien c'est qu'il a mis la commande dans un commentaire, pas besoin de se taper la vidéo si on veut juste voir ce qu'il propose.

Code :
  1. The full Docker command, copy-paste ready:
  2. docker run --rm -it \
  3.   --gpus all \
  4.   --cap-add=IPC_LOCK \
  5.   -v /path/to/models:/models \
  6.   ghcr.io/thetom/llama-cpp-turboquant:latest \
  7.   llama-server \
  8.     -m /models/qwen3.6-35b-a3b.gguf \
  9.     -ngl 999 \
  10.     --n-cpu-moe 36 \
  11.     --no-mmap \
  12.     --mlock \
  13.     --cache-type-k turbo4 \
  14.     --cache-type-v turbo3 \
  15.     --ctx-size 262144


---------------
Faudra que je teste un jour :o
n°16009
neo world
Posté le 05-05-2026 à 13:32:13  profilanswer
 

Bordel l'accent bien appuyé  :love: les 3 cm de poussière dans sa machine :lol: . Je me suis abonné  [:billy-bob jambonbeur] merci du partage :D
 
Sinon dans les commentaires il est mentionné que c'est du Q3 (mais par un simple commentateur) et dans la vidéo le cache est passé dans une moulinette qui mélange turbo quant 3 & 4 pour sauver de l'espace et des perfs. Je sais pas dire si c'est intéressant d'avoir les poids / paramètres à un Q plus élevé ?
 
J'ai regardé attentivement la vidéo mais comme j'ai que des machines avec RAM / VRAM unifiée ça va pas beaucoup m'aider :o. Mais si je veux faire un revive de de ma première machine à inférence (Dell XPS 15 avec une 1050 4GB / 16GB de RAM. Elle me servait de plateforme de démo à CUDA et YOLO V2 en temps réel avec la caméra de mon tel pour capter en live :D) ou si je décommissionne les jeux vidéos mon laptop actuel (dernière machine Windows de la maison avec 32GB de RAM un 3070TI et 8GB de VRAM)

n°16010
the_fennec
f3nn3cUs z3rd4
Posté le 05-05-2026 à 14:22:42  profilanswer
 

Oui il explique que c'est un vieux tromblon sa machine, mais c'est cool justement que tu peux faire des trucs avec une vieille config. J'aime bien aussi qu'il décrive ce qui n'a pas marché.
 
Pour TQ tu peux compresser les valeurs a mort, ça n'a que peu d'incidence sur la qualité, pour les clés par contre c'est pas le cas. J'ai lu que pour les modèles Qwen il y a plus de clés que de valeurs, je comprends pas trop comment c'est possible. Peut être que la valeur est nulle qu'on a besoin que de la clé, genre savoir qu'un "mot" est la, mais OSEF du contexte.
 
Il dit que sa prochaine vidéo c'est 27B, je serais sur le cul si il arrive a quoi que ce soit avec sa config! Perso j'arrive tout juste a 10 tg/s avec le vent dans le dos.


Message édité par the_fennec le 05-05-2026 à 14:23:20

---------------
Faudra que je teste un jour :o
n°16011
d@kn1ko
Posté le 05-05-2026 à 14:48:41  profilanswer
 

Hello
j'arrive comme un cheveux sur la soupe
J'ai une vielle config à base de I7 4770k + 16go de ram
Je voudrais donc la dédier à de l'ia locale.
 
Je pensais rajouter :
- 16go pour monter à 32 de ram  
- acheter une rtx avec 16go de vram pour commencer et peut être un second plus tard
 
J'ai un ssd de 500go dispo . je suis large ou pas du tout ?
 
Mes cas d'usages déjà définis :
- fenetre de chat classic
- n8n donc noeud llm en local
- opencode/claudecode  
 
 
Est ce que c'est réaliste ? surtout si je veux monter à 2 gpu par la suite.

n°16012
LibreArbit​re
La /root est longue
Posté le 05-05-2026 à 15:14:20  profilanswer
 

:lol:
 
Désolé mais il va te falloir un moins un GPU avec 16 Go de VRAM (j'ai pas dit de RAM mais bien de VRAM) si tu veux quelque chose d'exploitable [:zedlefou:1]


Message édité par LibreArbitre le 05-05-2026 à 15:15:04

---------------
Pharyo | Cinépite | Capvirage
n°16013
the_fennec
f3nn3cUs z3rd4
Posté le 05-05-2026 à 15:25:21  profilanswer
 

d@kn1ko a écrit :

Hello
j'arrive comme un cheveux sur la soupe
J'ai une vielle config à base de I7 4770k + 16go de ram
Je voudrais donc la dédier à de l'ia locale.
 
Je pensais rajouter :
- 16go pour monter à 32 de ram  
- acheter une rtx avec 16go de vram pour commencer et peut être un second plus tard
 
J'ai un ssd de 500go dispo . je suis large ou pas du tout ?
 
Mes cas d'usages déjà définis :
- fenetre de chat classic
- n8n donc noeud llm en local
- opencode/claudecode  
 
 
Est ce que c'est réaliste ? surtout si je veux monter à 2 gpu par la suite.


 
Oui tu as moyen de commencer a t'amuser avec ça. Tu peux voir la vidéo que j'ai posté un peu plus haut.
Avec un SSD de 500Go t'es large, tu pourras pas charger de très gros modèles de toute manière.
 
Idéalement tu mets un Linux headless pour sauver autant de VRAM que possible. Llama.cpp power :o
 
C'est quoi ton budget pour le GPU? Il faut au moins viser une RTX 5060Ti 16Go (ou 4060).
 
Par contre il faut pas s'attendre a rivaliser avec les modèles en ligne. Claudecode va te pourrir ton contexte avec toutes ses instructions. Opencode c'est mieux. J'ai testé pi.dev qui est pas mal aussi pour du local.


---------------
Faudra que je teste un jour :o
n°16014
the_fennec
f3nn3cUs z3rd4
Posté le 05-05-2026 à 15:26:13  profilanswer
 

LibreArbitre a écrit :

:lol:
 
Désolé mais il va te falloir un moins un GPU avec 16 Go de VRAM (j'ai pas dit de RAM mais bien de VRAM) si tu veux quelque chose d'exploitable [:zedlefou:1]


 
Il a bien mis vouloir prendre un GPU dans son post ;)


---------------
Faudra que je teste un jour :o
n°16015
neo world
Posté le 05-05-2026 à 15:46:07  profilanswer
 

d@kn1ko a écrit :

Hello
j'arrive comme un cheveux sur la soupe
J'ai une vielle config à base de I7 4770k + 16go de ram
Je voudrais donc la dédier à de l'ia locale.
 
Je pensais rajouter :
- 16go pour monter à 32 de ram  
- acheter une rtx avec 16go de vram pour commencer et peut être un second plus tard
 
J'ai un ssd de 500go dispo . je suis large ou pas du tout ?
 
Mes cas d'usages déjà définis :
- fenetre de chat classic
- n8n donc noeud llm en local
- opencode/claudecode  
 
 
Est ce que c'est réaliste ? surtout si je veux monter à 2 gpu par la suite.


+1 avec Fennec y'aura largement de quoi faire :D
Si à un moment tu vois des tarifs intéressants pour le GPU / La RAM ou si tu veux qu'on regarde des alternatives potentiellement intéressantes (BC 250 / AMD Strix Halo) n'hésites pas à demander :jap:

n°16016
d@kn1ko
Posté le 05-05-2026 à 15:59:45  profilanswer
 

the_fennec a écrit :


 
Oui tu as moyen de commencer a t'amuser avec ça. Tu peux voir la vidéo que j'ai posté un peu plus haut.
Avec un SSD de 500Go t'es large, tu pourras pas charger de très gros modèles de toute manière.
 
Idéalement tu mets un Linux headless pour sauver autant de VRAM que possible. Llama.cpp power :o
 
C'est quoi ton budget pour le GPU? Il faut au moins viser une RTX 5060Ti 16Go (ou 4060).
 
Par contre il faut pas s'attendre a rivaliser avec les modèles en ligne. Claudecode va te pourrir ton contexte avec toutes ses instructions. Opencode c'est mieux. J'ai testé pi.dev qui est pas mal aussi pour du local.


 
 
oui la RTX 5060Ti 16G c'est ce que j'avais vu.
Est ce que le multi gpu est bien géré par Llama.cpp? J'ai l'impression qu'il n 'y a que ca  qui gere bien le multi gpu.
j'ai vu le lien pour la video.  :jap:  
ok pour claudecode
ok pour le ssd donc 256go je serai large

n°16017
neo world
Posté le 05-05-2026 à 16:07:54  profilanswer
 

vLLM sera mieux pour le multi GPU mais tu auras le temps d'y penser quand tu achèteras une deuxième carte :D

n°16018
d@kn1ko
Posté le 05-05-2026 à 16:18:05  profilanswer
 

neo world a écrit :

vLLM sera mieux pour le multi GPU mais tu auras le temps d'y penser quand tu achèteras une deuxième carte :D


 :jap:

n°16019
the_fennec
f3nn3cUs z3rd4
Posté le 05-05-2026 à 16:56:27  profilanswer
 

d@kn1ko a écrit :


oui la RTX 5060Ti 16G c'est ce que j'avais vu.
Est ce que le multi gpu est bien géré par Llama.cpp? J'ai l'impression qu'il n 'y a que ca  qui gere bien le multi gpu.
j'ai vu le lien pour la video.  :jap:  
ok pour claudecode
ok pour le ssd donc 256go je serai large


 
Perso j'ai pas encore testé vllm, mais on peut faire plein de chose avec llama.cpp (beaucoup plus qu'avec Ollama et LMStudio).  
 
256Go ça passe, mais si tu as envie de patouiller avec plusieurs modèles ça peut vite se remplir.
Si t'as un disque mécanique qui traîne ça doit faire l'affaire aussi, charger un modèle c'est juste un accès séquentiel donc un HDD classique ça doit marcher.


---------------
Faudra que je teste un jour :o
n°16020
neo world
Posté le 05-05-2026 à 17:10:26  profilanswer
 

avec un gros gros cache alors  [:the geddons]  sinon il en a bien pour 3 à 5 minutes de chargement pour un modèle de 20GO (je sais, il a pas assez de vRAM pour le charger de toute façon. Vous pinaillez  [:kaola]  :o )

n°16021
the_fennec
f3nn3cUs z3rd4
Posté le 05-05-2026 à 17:54:05  profilanswer
 

OSEF, ça me fait ça pour mon cluster RPC. C'est chiant quand tu bidouilles, mais une fois que tu as trouvé le bon modèle 5 minutes c'est rien si tu le laisses tourner pendant des jours.


---------------
Faudra que je teste un jour :o
n°16022
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 05-05-2026 à 18:15:49  profilanswer
 

LLama.ccp surtout ca se lance en une seule ligne, tu peut le mettre en mode server et créé tes config par model avec un fichier de conf... C'est ultra simple et en même temps totalement configurable et performant, , vraiment top !
 
Clairement pour le cache, une fois que t'a trouvé ton model qui va bien pour ton workflow tu change plus tous les 4 matins.


---------------
Victime de girafophobie, mais se soigne.
n°16023
extenue1
Posté le 05-05-2026 à 20:19:10  profilanswer
 

Y'a pas des startups qui se sont montes ou des clubs ou des associations ou des solutions pour permettre de mutualiser un meme HW a partager en privé avec ses potes ?

 

Je pose l'idee : on se cotise pour louer un VPS a plusieurs ou on s'heberge chez neo world  :O pour  faire de l'IA "locale" dans le sens ou tout ce que fait chaque individu est 100% private

 

Bon sinon : pour 3000€ faut s'acheter quoi ? Si possible sans trop consommer de l'elec ...

n°16024
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 05-05-2026 à 20:23:35  profilanswer
 

Typiquement https://vast.ai/
Pas rentable de le faire soit même je pense.

 

C'est bien aussi de tester en location des gpu équivalent a ce que tu peut/veux acheter, la désillusion peut être grande entre les attentes dignes d'un gros modèles commerciales et la réalité du local.


---------------
Victime de girafophobie, mais se soigne.
n°16025
extenue1
Posté le 05-05-2026 à 20:52:21  profilanswer
 

Merci pour l'idee !!!

 

J'ai 200$ a bouffer chez digitalocean (merci github student) , je vais aller allumer leur vps gpu

n°16026
the_fennec
f3nn3cUs z3rd4
Posté le 05-05-2026 à 21:59:15  profilanswer
 

extenue1 a écrit :

Bon sinon : pour 3000€ faut s'acheter quoi ? Si possible sans trop consommer de l'elec ...


 
Un Mac Studio et de la patience :o
Ou un AMD Strix Halo


Message édité par the_fennec le 05-05-2026 à 22:02:05

---------------
Faudra que je teste un jour :o
n°16027
ibuprophet
Posté le 05-05-2026 à 23:13:45  profilanswer
 

Quich a écrit :

Est-ce que vous avez des benchs de la perf penalty à splitter les modèles sur plusieurs GPU par rapport à une seule ?
 
J'ai demandé à Gemini et Perplexity mais je n'ai pas eu de retours bien précis avec des exemples, ils disent que c'est moins perfs à cause des limites du lien PCI-e et du fait que le kvcache/contexte est présent sur chaque GPU (donc ça limite la vram utile par GPU) mais rien de chiffré.
Par exemple 2x Mi50 16GB vs 1x MI50 32GB :o (l'avantage étant que c'est la même chose en dehors de la quantité de vram, pour les autres cartes en général la quantité de vram dépend du GPU donc il y a d'autres éléments qui changent).


 
J'ai demandé à Claude de faire le test pour comparer 1x vs 2x 9070XT avec ollama-rocm
 
Modèle             Disk         Layers    Context    Mono-GPU gen   Multi-GPU gen    Δ gen       Mono prompt    Multi prompt    Δ prompt
gemma4:e4b    9.6 GB     43           65K         81.71 t/s               60.99 t/s             -25.4 %    3131 t/s             2805 t/s           -10.4 %
qwen3:8b         5.2 GB     37           65K         80.21 t/s               66.95 t/s             -16.5 %    3229 t/s             2716 t/s           -15.9 %
phi4:14b           9.1 GB     41           65K         55.44 t/s               48.60 t/s             -12.3 %    2215 t/s             2034 t/s           -8.2 %
gpt-oss:20b      13 GB      25           8K           99.16 t/s               79.66 t/s             -19.7 %    6686 t/s             6445 t/s           -3.6 %

n°16028
Quich
Pouet ?
Posté le 05-05-2026 à 23:44:09  profilanswer
 

Merci :jap:
Tu as deux 9070xt sous la main, sur la même machine ?


---------------
Feedback
n°16029
neo world
Posté le 05-05-2026 à 23:44:50  profilanswer
 

extenue1 a écrit :

Y'a pas des startups qui se sont montes ou des clubs ou des associations ou des solutions pour permettre de mutualiser un meme HW a partager en privé avec ses potes ?
 
Je pose l'idee : on se cotise pour louer un VPS a plusieurs ou on s'heberge chez neo world  :O pour  faire de l'IA "locale" dans le sens ou tout ce que fait chaque individu est 100% private
 
Bon sinon : pour 3000€ faut s'acheter quoi ? Si possible sans trop consommer de l'elec ...


 
ça me dérange pas qu'on se cotise pour acheter un ou trois ou sept petits frères à mon Strix Halo (je m'occupe de la partie chiante de l'administration du cluster / création du réseau très basse latence / load balancers pour assurer un minimum de tokens / seconde par rapport à l'investissement de départ de chacun / payer l'elec du bordel) mais il faudrait :
- se mettre d'accord sur les modèles qu'on veut y héberger dans le quota de RAM dispo des machines au total
- accepter le côté non professionnel du truc (si je suis en vacances à l'autre bout de la France et que l'accès distant est aux choux pour une raison quelconque ben c'est la vie :pt1cable: )
- surtout il faudra faire une croix à l'avantage principal d'héberger son modèle soit même : quelqu'un que vous ne connaissez pas vraiment jettera un oeil à l'activité des machines (pour le support/maintenance), va filtrer les accès réseau pour empêcher aux petits malins de me faire blacklister partout sur internet :o et je ne peux pas désactiver les journaux de transcription des conversations (what if on a un pédophile / terroriste / pirate dans le groupe qui détourne les machines de leur objet ? )
 
Sinon à ta place je ferai :
- soit du cloud (facile à mettre en œuvre. Tu peux taper des infras complètement dingues dans un budget raisonnable si c'est pour des TP de quelques heures)  
- ou alors j’achèterai deux BC-250 pour apprendre la partie infra (si c'est utile à tes études) tout en ayant un truc sérieux si tu es frugal en quantité de VRAM disponible par noeud et raisonnable sur tes attentes de Tokens / seconde via le réseau Ethernet standard le tout sans y mettre un rein
- ou encore je prendrai une machine de guerre d'occaz de la section achat et vente (petit Doom après l'effort ? :o )
 
Le strix halo et le mac studio sont de très bonnes suggestions mais ça fait pas mal de pognon bazardé si en fait non tu voulais juste jouer à Doom et profiter des soirée étudiantes jusqu'à la remise des diplômes :o

n°16030
d@kn1ko
Posté le 06-05-2026 à 09:08:17  profilanswer
 

the_fennec a écrit :


 
Perso j'ai pas encore testé vllm, mais on peut faire plein de chose avec llama.cpp (beaucoup plus qu'avec Ollama et LMStudio).  
 
256Go ça passe, mais si tu as envie de patouiller avec plusieurs modèles ça peut vite se remplir.
Si t'as un disque mécanique qui traîne ça doit faire l'affaire aussi, charger un modèle c'est juste un accès séquentiel donc un HDD classique ça doit marcher.


 
Je risque pas d'utiliser un dd.  :o  les seuls qui me restent c est du backup/nas
C'est juste que j'ai quelques ssd 2.5 en stock donc je veux mettre la bonne capacité au bon endroit on va dire


Message édité par d@kn1ko le 06-05-2026 à 09:09:17
n°16031
speedboyz3​0
Guide Michelin :o
Posté le 06-05-2026 à 12:46:41  profilanswer
 

the_fennec a écrit :


 
Un Mac Studio et de la patience :o
Ou un AMD Strix Halo


 
Préférence pour le mac studio.
 
Pour du coding / conversation ça ira.
 
Par contre pour de l'agentique, c'est mort.
Je vois partout sur reddit que c'est la merde même avec plus grosses specs  [:leve le pied jeannot:4]

n°16032
neo world
Posté le 06-05-2026 à 12:51:00  profilanswer
 

Tu as plus de détails sur les problèmes fréquents ? Ici pas de problème avec le MCP LM Studio. J’en déduis que des openclaw and consorts devraient rouler :D

n°16033
neo world
Posté le 06-05-2026 à 14:54:28  profilanswer
 

Pour ceux qui utilisent Gemma ou ont renoncé en raison de la vitesse de génération de token Google a mis à jour les modèles. Jusqu’à x3 en vitesse https://huggingface.co/collections/google/gemma-4

n°16034
speedboyz3​0
Guide Michelin :o
Posté le 06-05-2026 à 15:03:14  profilanswer
 

T'as énormément de contexte, l’utilisation d'outil ajoute beaucoup de complexité et chaque aller-retour entre l'agent et les outils demande beaucoup de tokens.  
 
Donc t'arrive à un résultat vraiment inutilisable / complètement bête :o

n°16035
speedboyz3​0
Guide Michelin :o
Posté le 06-05-2026 à 15:07:30  profilanswer
 

Par exemple:
 
https://www.reddit.com/r/openclaw/c [...] local_llm/
 

Citation :

Long answer: There is no single model that can be run on reasonably priced (and sized) hardware that will provide precise results through agentic workflows. Agentic workflows are very based on context, the model has to keep and understand context for a long time for longer workflows. Anything under 100B parameters just won't cut it (and parameters aren't the only factor, too)
 
You can use local models for things like memory embeddings, analysis of documents or ie emails, low-complexity tasks and simple questions etc. But it will never, as an example, be able to configure itself (OpenClaw) properly or use skills precisely.
 
Either you trust a cloud provider, or you don't enter any personal data (which will make it just another chat bot), or you don't use it.


 
https://www.reddit.com/r/LocalLLM/c [...] t/oiclj04/
 

Citation :

i think the framing here misses that 'agents' and 'coding help' have totally different hardware curves. coding is forgiving, a 32b qwen-coder on a single 24gb card chews through multi-file refactors fine. agentic loops where the model has to plan, call tools, recover from a failed selector, and not retry the same grep three times are where local falls apart, and it's not really a vram problem. i ran qwen3-coder and gpt-oss-120b through the same browser-control task on a 64gb mac and what kills you is tool-call schema drift plus the model hallucinating element ids, both of which scale with reasoning quality, not vram. for daily use i'd put money into one decent gpu for the coder and keep the autonomous-loop stuff on a frontier api until local reasoning gets another generation better.


 
https://www.reddit.com/r/LocalLLM/c [...] t/oi9ltqb/
 

Citation :

’d separate “local LLM hobby/lab” from “daily agentic coding” before buying hardware.
 
For local agents, the bottleneck usually isn’t just raw VRAM. It’s context length, tool latency, edit/test loops, and how much supervision you still need. A 4090/5090 box can be great for running smaller/local models, experiments, embeddings, rerankers, and private workloads, but it still won’t magically feel like a top hosted coding model on big multi-file refactors.
 
My bias would be:
 
    keep the 4070 Super for learning the workflow first
 
    test with a hosted coding model for serious multi-repo work
 
    use local models for helper roles: summarization, search/RAG, code review passes, log digestion, smaller scoped edits
 
    only go multi-GPU once you know exactly which model/context target you’re buying for
 
If speed is your top priority, renting/VPS or hosted APIs for the “main coder” plus local support models is often a better first architecture than spending thousands upfront. The painful part of agents is usually orchestration and guardrails, not just the GPU.


Message édité par speedboyz30 le 06-05-2026 à 15:10:59
n°16036
neo world
Posté le 06-05-2026 à 16:30:42  profilanswer
 

merci :jap:
 
pour les fans de Qwen grosse acceleration en vue également : https://www.reddit.com/r/LocalLLaMA [...] _using_mtp

n°16037
bounty2k
Posté le 06-05-2026 à 20:53:24  profilanswer
 

neo world a écrit :

Pour ceux qui utilisent Gemma ou ont renoncé en raison de la vitesse de génération de token Google a mis à jour les modèles. Jusqu’à x3 en vitesse https://huggingface.co/collections/google/gemma-4


Ou as tu vue cette information ? Je ne trouve rien dans la fiche des modèles.
Tu sais si cela concerne également les versions quantifiées en GGUF ?

n°16038
the_fennec
f3nn3cUs z3rd4
Posté le 06-05-2026 à 22:18:11  profilanswer
 

neo world a écrit :

Pour ceux qui utilisent Gemma ou ont renoncé en raison de la vitesse de génération de token Google a mis à jour les modèles. Jusqu’à x3 en vitesse https://huggingface.co/collections/google/gemma-4


 
Mouaif, mon problème avec les Gemma c'est pas la vitesse, mais juste qu'ils marchent pas. J'ai jamais eu de tools qui fonctionnent, et la génération fait n'importe quoi rapidement.


---------------
Faudra que je teste un jour :o
 Page :   1  2  3  4  5  6  7  ..  17  18  19  20  21  22

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)