Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2341 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  17  18  19  20  21  22
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°15918
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 11:49:54  profilanswer
 

Reprise du message précédent :
De quoi tu parles XaTriX?


---------------
Faudra que je teste un jour :o
n°15919
XaTriX
Posté le 30-04-2026 à 11:53:15  profilanswer
 

[:rofl] le trompage de topic


---------------
[:dawa]
n°15920
neo world
Posté le 30-04-2026 à 11:56:54  profilanswer
 

the_fennec a écrit :


 
Pas si cher que ça quand on voit que 128GB de DDR5 c'est déjà 1200 euros, 350 balles pour un SSD de 2TB ...


Oui et surtout le gpu n’y a pas accès moi j’étais au départ parti pour acheter un pc d’occasion et lui coller un gpu amd ou Intel avec 32GB (trouvable neufs aux environs des 700 balles pièce mais il en aurait rapidement fallu plus et avec le potentiel rattrapage des prix sur les cartes nvidia ( ou si le support restait anecdotique pour les api Intel) je n’aurais pas été serein. La si la reconversion fonctionne je peux toujours étendre via cluster ou alors en faire une machine de jeu au mauvais rapport qualité prix :o

n°15921
neo world
Posté le 30-04-2026 à 11:58:31  profilanswer
 

XaTriX a écrit :

[:rofl] le trompage de topic


Je me disais avec les histoires de spermatozoides :D
 
Je veux pas savoir où tu postes :o

n°15922
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 12:23:28  profilanswer
 

neo world a écrit :


Oui et surtout le gpu n’y a pas accès moi j’étais au départ parti pour acheter un pc d’occasion et lui coller un gpu amd ou Intel avec 32GB (trouvable neufs aux environs des 700 balles pièce mais il en aurait rapidement fallu plus et avec le potentiel rattrapage des prix sur les cartes nvidia ( ou si le support restait anecdotique pour les api Intel) je n’aurais pas été serein. La si la reconversion fonctionne je peux toujours étendre via cluster ou alors en faire une machine de jeu au mauvais rapport qualité prix :o


 
32G de VRAM on peut viser une paire de 5060Ti ou équivalent AMD, mais c'est déjà 1000 balles. Miser sur Intel, a moins de faire un joli coup en occase, c'est très risqué pour le moment.
 
Ça fait mal au cul, mais ta config est un bon plan, c'est juste que ça doit pas donner des tonnes en token/sec mais c'est top de pouvoir charger n'importe quel model!


Message édité par the_fennec le 30-04-2026 à 12:23:41

---------------
Faudra que je teste un jour :o
n°15923
neo world
Posté le 30-04-2026 à 12:37:30  profilanswer
 

Le nombre de tokens / seconde est pas si ridicule même face à nvidia. Par contre sur des travaux comme de la génération de vidéos c’est pas au point et pour peu qu’on ait besoin d’un modèle en fp16 ou qu’on ait accès à un modèle optimisé avec le mode de précision nvidia sur 4 bits et là en effet l’AMD AI 395 est à la rue niveau performances mais la l’objectif c’est un lab tout en un avec la partie test et debug avant une mise en pseudo prod sur un cluster K8s externe :D
 
Tu rigoles mais moi je voulais du minimax 2.7 ou du Kimi ou deepseek. On en est loin encore mais ça fera l’affaire avec un gros modèle en API externe pour lee plus compliqué seulement :D

n°15924
XaTriX
Posté le 30-04-2026 à 12:54:44  profilanswer
 

neo world a écrit :


Je me disais avec les histoires de spermatozoides :D

 

Je veux pas savoir où tu postes :o


Topic fusées :D


---------------
[:dawa]
n°15925
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 14:22:01  profilanswer
 

neo world a écrit :

Le nombre de tokens / seconde est pas si ridicule même face à nvidia. Par contre sur des travaux comme de la génération de vidéos c’est pas au point et pour peu qu’on ait besoin d’un modèle en fp16 ou qu’on ait accès à un modèle optimisé avec le mode de précision nvidia sur 4 bits et là en effet l’AMD AI 395 est à la rue niveau performances mais la l’objectif c’est un lab tout en un avec la partie test et debug avant une mise en pseudo prod sur un cluster K8s externe :D
 
Tu rigoles mais moi je voulais du minimax 2.7 ou du Kimi ou deepseek. On en est loin encore mais ça fera l’affaire avec un gros modèle en API externe pour lee plus compliqué seulement :D


 
Tu mets large un Minimax Q3 voir IQ4:
https://huggingface.co/unsloth/MiniMax-M2.7-GGUF
 
Après je sais pas ce que tu peux espérer en t/s. Il y a cette chaîne que je viens de découvrir qui est pas mal pour les tests en local:
https://www.youtube.com/@AZisk
 
J'ai trouvé coder-next en IQ3 largement utilisable, pas de raison que Minimax soit moins bon.


Message édité par the_fennec le 30-04-2026 à 14:23:30

---------------
Faudra que je teste un jour :o
n°15926
dadamonhfr
Posté le 30-04-2026 à 15:11:01  profilanswer
 

Avec ces strix halo, la génération de tokens/sec est raisonnable je trouve quand le contexte est petit. Mais malheureusement ça semble chuter lourdement avec les gros contexte.
 
Le top pour moi, ça serait de lui coller un GPU au cul via nvme/oculink.

n°15927
neo world
Posté le 30-04-2026 à 16:43:47  profilanswer
 

the_fennec a écrit :


 
Tu mets large un Minimax Q3 voir IQ4:
https://huggingface.co/unsloth/MiniMax-M2.7-GGUF
 
Après je sais pas ce que tu peux espérer en t/s. Il y a cette chaîne que je viens de découvrir qui est pas mal pour les tests en local:
https://www.youtube.com/@AZisk
 
J'ai trouvé coder-next en IQ3 largement utilisable, pas de raison que Minimax soit moins bon.


J'ai regardé énormément de ses vidéos (je fais tous mes labs avec lui en fond sonore)  :whistle: . Pour les tests de perfs du Strix c'est pas forcément la référence parce qu'il à reçu le sien il y a 9 mois avec un support bancal de Vulkan, des firmware pré janvier 2026 qui aident bien à la stabilité et des p'tits oublis d'optimisation (dégager les options de virtualisation pour tirer 6/7% de plus en perf).  
 
Pour la partie + théorique/pratiques des modèles elle explique très bien : https://www.youtube.com/@juliaturc1
 
 

dadamonhfr a écrit :

Avec ces strix halo, la génération de tokens/sec est raisonnable je trouve quand le contexte est petit. Mais malheureusement ça semble chuter lourdement avec les gros contexte.
 
Le top pour moi, ça serait de lui coller un GPU au cul via nvme/oculink.


Ca reste faisable si besoin d’accélérer certaines workloads (PCI express 4X mais la perte de perfs est pas si énorme vu que ça effecte surtout le chargement du modèle et y'a moyen d'utiliser le stot m2 PCI 5 si vraiment on trouve ça lent) mais clairement mon plan d’expansion serait plutôt d'en prendre un deuxième et de clusteriser  :love:  [:cerveau lent]  
 
Mais ce sera pas pour cette année :D

n°15928
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 16:55:53  profilanswer
 

neo world a écrit :


J'ai regardé énormément de ses vidéos (je fais tous mes labs avec lui en fond sonore)  :whistle: . Pour les tests de perfs du Strix c'est pas forcément la référence parce qu'il à reçu le sien il y a 9 mois avec un support bancal de Vulkan, des firmware pré janvier 2026 qui aident bien à la stabilité et des p'tits oublis d'optimisation (dégager les options de virtualisation pour tirer 6/7% de plus en perf).  
 
Pour la partie + théorique/pratiques des modèles elle explique très bien : https://www.youtube.com/@juliaturc1


 
Super, je mets ça de coté, merci!


---------------
Faudra que je teste un jour :o
n°15929
pich_mu
Posté le 30-04-2026 à 17:14:27  profilanswer
 

Je galère un peu parfois à faire tourner RooCode + VS Studio avec qwen 3.5 14B et un contexte de 32k sur la 5080. Ça marche mais je sens qu’il offload sur le CPU et la RAM et c’est quand même bien lent…
 
Je vais essayer de trouver un autre modèle, à ce sujet j’avais une question : on sent vraiment la diff entre un modèle FP16, Q8 et Q4 ? Parce que la quantité de ram nécessaire nan quand même rien à voir  :pt1cable:

n°15930
the_fennec
f3nn3cUs z3rd4
Posté le 30-04-2026 à 17:23:11  profilanswer
 

pich_mu a écrit :

Je galère un peu parfois à faire tourner RooCode + VS Studio avec qwen 3.5 14B et un contexte de 32k sur la 5080. Ça marche mais je sens qu’il offload sur le CPU et la RAM et c’est quand même bien lent…
 
Je vais essayer de trouver un autre modèle, à ce sujet j’avais une question : on sent vraiment la diff entre un modèle FP16, Q8 et Q4 ? Parce que la quantité de ram nécessaire nan quand même rien à voir  :pt1cable:


 
Je dirais qu'entre FP16 et Q8 c'est faible. Ensuite ça dépends du modèle. J'ai eu des résultats satisfaisants avec Qwen3-Coder-Next-UD-IQ3_S la ou je trouvais Qwen3.5 35B assez nul, même en Q5/Q6. Par contre je suis content du Qwen 3.6 en Q6.
 
J'utilise les quants Unsloth, mais je trouve les guide de taille Bartowski bien faits:
https://huggingface.co/bartowski/Qw [...] B-A3B-GGUF
 
Essaye Qwen3.6-35B-A3B-UD-IQ3_S.gguf pour voir, avec 32k de contexte en Q8:
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF
 
Tu utilises quoi pour faire tourner ton modèle?  
 

Spoiler :

La bonne réponse c'est llama.cpp :o


Message édité par the_fennec le 30-04-2026 à 17:25:52

---------------
Faudra que je teste un jour :o
n°15931
neo world
Posté le 30-04-2026 à 17:28:05  profilanswer
 

pich_mu a écrit :

Je galère un peu parfois à faire tourner RooCode + VS Studio avec qwen 3.5 14B et un contexte de 32k sur la 5080. Ça marche mais je sens qu’il offload sur le CPU et la RAM et c’est quand même bien lent…
 
Je vais essayer de trouver un autre modèle, à ce sujet j’avais une question : on sent vraiment la diff entre un modèle FP16, Q8 et Q4 ? Parce que la quantité de ram nécessaire nan quand même rien à voir  :pt1cable:


ça aide quand même bien (tu diminue la précision de moitié entre FP 16 et Q8 avec un impact négligeable sur les résultats aux benchmark. Ca tient normalement toujours bien en Q4 mais en dessous ça devient l'aventure des hallucinations selon les modèles  :whistle:  
 
Tu utilises quoi pour faire tourner ton modèle ? avec LM studio tu choisis au démarrage ce qui va en GPU / CPU. C'est super lent en mode mixte donc si tu pousses la réglette sur le GPU à 100¨% normalement t'es tranquille surtout que tu as une très belle carte  :love:

n°15932
neo world
Posté le 30-04-2026 à 20:11:59  profilanswer
 

Bon le Bosgame M5 pro à pris 170€ depuis hier. quelqu'un ici a ouvert un business de scalping ? :o

n°15933
neo world
Posté le 30-04-2026 à 20:28:40  profilanswer
 

dadamonhfr a écrit :

Avec ces strix halo, la génération de tokens/sec est raisonnable je trouve quand le contexte est petit. Mais malheureusement ça semble chuter lourdement avec les gros contexte.
 
Le top pour moi, ça serait de lui coller un GPU au cul via nvme/oculink.


ça a l'air pas si cher comme projet : https://aoostar.com/products/aoostar-ag03-egpu-dock

n°15934
pich_mu
Posté le 01-05-2026 à 06:12:19  profilanswer
 

the_fennec a écrit :


 
Je dirais qu'entre FP16 et Q8 c'est faible. Ensuite ça dépends du modèle. J'ai eu des résultats satisfaisants avec Qwen3-Coder-Next-UD-IQ3_S la ou je trouvais Qwen3.5 35B assez nul, même en Q5/Q6. Par contre je suis content du Qwen 3.6 en Q6.
 
J'utilise les quants Unsloth, mais je trouve les guide de taille Bartowski bien faits:
https://huggingface.co/bartowski/Qw [...] B-A3B-GGUF
 
Essaye Qwen3.6-35B-A3B-UD-IQ3_S.gguf pour voir, avec 32k de contexte en Q8:
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF
 
Tu utilises quoi pour faire tourner ton modèle?  
 

Spoiler :

La bonne réponse c'est llama.cpp :o



 

neo world a écrit :


ça aide quand même bien (tu diminue la précision de moitié entre FP 16 et Q8 avec un impact négligeable sur les résultats aux benchmark. Ca tient normalement toujours bien en Q4 mais en dessous ça devient l'aventure des hallucinations selon les modèles  :whistle:  
 
Tu utilises quoi pour faire tourner ton modèle ? avec LM studio tu choisis au démarrage ce qui va en GPU / CPU. C'est super lent en mode mixte donc si tu pousses la réglette sur le GPU à 100¨% normalement t'es tranquille surtout que tu as une très belle carte  :love:


 
Merci à tt les 2 pour les réponses  :jap:  
 
J’utilise LM Studio pour faire tourner tout ça, je sais que c’est pas super opti, faut que je me penche sur llama.cpp  :whistle:  
 
Des fois je le demande si j’ai pas un pb avec mon setup, même en forçant le chargement sur le GPU à 100% je trouve que ça galère pas mal  [:urd]  
 
Je vais regarder les modèles proposés  :)  

n°15935
the_fennec
f3nn3cUs z3rd4
Posté le 01-05-2026 à 10:08:11  profilanswer
 

Si t'est sous windows GPU-Z est pas mal pour monitorer je trouve, sous Linux nvtop.


---------------
Faudra que je teste un jour :o
n°15936
pich_mu
Posté le 01-05-2026 à 10:24:32  profilanswer
 

the_fennec a écrit :

Si t'est sous windows GPU-Z est pas mal pour monitorer je trouve, sous Linux nvtop.


 
Je suis sous Windows oui, comme tu fait pour monitorer sous gpu-z ?  :)

n°15937
speedboyz3​0
Guide Michelin :o
Posté le 01-05-2026 à 10:37:28  profilanswer
 

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité  [:la chancla:1]  
Il est parti  [:leve le pied jeannot:4]  
 
Sinon fait chier, pas de support MLX sur Apple Silicon <32go

n°15938
Olivie
SUUUUUUUUUUUUUU
Posté le 01-05-2026 à 10:50:48  profilanswer
 

speedboyz30 a écrit :

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité  [:la chancla:1]  
Il est parti  [:leve le pied jeannot:4]  
 
Sinon fait chier, pas de support MLX sur Apple Silicon <32go


À combien?


---------------

n°15939
speedboyz3​0
Guide Michelin :o
Posté le 01-05-2026 à 10:57:07  profilanswer
 

~4k peanuts en terme de réduction mais au moins c'était dispo.
Et hier apple a annoncé les retards de livraison allaient continuer :  
 
https://9to5mac.com/2026/04/30/appl [...] nstraints/

n°15940
Olivie
SUUUUUUUUUUUUUU
Posté le 01-05-2026 à 11:00:09  profilanswer
 

speedboyz30 a écrit :

~4k peanuts en terme de réduction mais au moins c'était dispo.
Et hier apple a annoncé les retards de livraison allaient continuer :  
 
https://9to5mac.com/2026/04/30/appl [...] nstraints/


Dispo en Belgique https://www.apple.com/be-fr/shop/pr [...] d%C3%A9ral


---------------

n°15941
XaTriX
Posté le 01-05-2026 à 11:14:20  profilanswer
 

speedboyz30 a écrit :

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité  [:la chancla:1]
Il est parti  [:leve le pied jeannot:4]

 

Sinon fait chier, pas de support MLX sur Apple Silicon <32go


 :??:


---------------
[:dawa]
n°15942
Rasthor
Posté le 01-05-2026 à 11:16:47  profilanswer
 

speedboyz30 a écrit :

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité  [:la chancla:1]  
Il est parti  [:leve le pied jeannot:4]  
 
Sinon fait chier, pas de support MLX sur Apple Silicon <32go


 


 
Peut-être en référence à ça ?  
https://ollama.com/blog/mlx

Citation :

This preview release of Ollama accelerates the new Qwen3.5-35B-A3B model, with sampling parameters tuned for coding tasks.
 
Please make sure you have a Mac with more than 32GB of unified memory.


 
Mais c'est pour utiliser un modèle 35B, donc peut-être que le MLX marche pour les modèles plus petits (genre 7B) sur une machine 16GB ?

n°15943
Olivie
SUUUUUUUUUUUUUU
Posté le 01-05-2026 à 11:23:53  profilanswer
 

Oui MLX marche sur moins de 32GB


---------------

n°15944
neo world
Posté le 01-05-2026 à 11:27:34  profilanswer
 

speedboyz30 a écrit :

J'ai vu passé un M3 Ultra 96Go en refurb.
J'ai hésité  [:la chancla:1]  
Il est parti  [:leve le pied jeannot:4]  
 
Sinon fait chier, pas de support MLX sur Apple Silicon <32go


pourquoi pas un AMD AI 395 ? quasi moitié moins cher, plus de mémoire. Si tu en prend un deuxième tu montes à 256GO de mémoire  :love: . On pourra ramasser les plâtres des drivers/firmware ensemble  [:schiroosh] :o
 
Autrement y'a l'AMD AI 370 : un peu moins de perfs mais la RAM (unifiée) peut être upgradée plus tard quand on arrêtera de faire fabriquer toutes les puces de DRAM au détroit d'Ormuz :o  
https://www.amazon.fr/MINIS-FORUM-X [...] B0F58SZG8L
 
attention y'a quand même un delta de perf 126TOPS pour l'AI395 vs 80 pour l'AI 370 :jap:

n°15945
gremi
Vieux con des neiges d'antan
Posté le 01-05-2026 à 11:31:04  profilanswer
 

pich_mu a écrit :


 
 
 
Merci à tt les 2 pour les réponses  :jap:  
 
J’utilise LM Studio pour faire tourner tout ça, je sais que c’est pas super opti, faut que je me penche sur llama.cpp  :whistle:  
 
Des fois je le demande si j’ai pas un pb avec mon setup, même en forçant le chargement sur le GPU à 100% je trouve que ça galère pas mal  [:urd]  
 
Je vais regarder les modèles proposés  :)  


 
Ce qui marche étonnamment bien c'est de donner ta commande ollama à Claude, tu lui décris ton setup matériel et lui fournis le log au lancement, et te donne une commande adaptée à ta config ... Pour moi il y avait un paramètre mal optimisé, j'ai doublé mes token/seconde :D


---------------
In aligot we trust.
n°15946
neo world
Posté le 01-05-2026 à 11:36:37  profilanswer
 

gremi a écrit :


 
Ce qui marche étonnamment bien c'est de donner ta commande ollama à Claude, tu lui décris ton setup matériel et lui fournis le log au lancement, et te donne une commande adaptée à ta config ... Pour moi il y avait un paramètre mal optimisé, j'ai doublé mes token/seconde :D


bon à savoir ! c'était quel paramètre pour info et sur quelle architecture / materiel (ça peut aider une autre âme en peine :o ) ?

n°15947
the_fennec
f3nn3cUs z3rd4
Posté le 01-05-2026 à 12:48:59  profilanswer
 

pich_mu a écrit :


 
Je suis sous Windows oui, comme tu fait pour monitorer sous gpu-z ?  :)


 
C'est pour voir l’utilisation VRAM et %GPU. J'utilise aussi System informer pour voir quels applis utilisent de la VRAM, genre Google Drive qui utilise webview pour afficher une icône et deux options ... :(


---------------
Faudra que je teste un jour :o
n°15948
speedboyz3​0
Guide Michelin :o
Posté le 01-05-2026 à 14:25:21  profilanswer
 

Rasthor a écrit :


Peut-être en référence à ça ?  
https://ollama.com/blog/mlx

Citation :

This preview release of Ollama accelerates the new Qwen3.5-35B-A3B model, with sampling parameters tuned for coding tasks.
 
Please make sure you have a Mac with more than 32GB of unified memory.


 
Mais c'est pour utiliser un modèle 35B, donc peut-être que le MLX marche pour les modèles plus petits (genre 7B) sur une machine 16GB ?


 
Effectivement ça venait de là. Quel boulet  [:leve le pied jeannot:4]  
 

neo world a écrit :


pourquoi pas un AMD AI 395 ? quasi moitié moins cher, plus de mémoire. Si tu en prend un deuxième tu montes à 256GO de mémoire  :love: . On pourra ramasser les plâtres des drivers/firmware ensemble  [:schiroosh] :o
 
Autrement y'a l'AMD AI 370 : un peu moins de perfs mais la RAM (unifiée) peut être upgradée plus tard quand on arrêtera de faire fabriquer toutes les puces de DRAM au détroit d'Ormuz :o  
https://www.amazon.fr/MINIS-FORUM-X [...] B0F58SZG8L
 
attention y'a quand même un delta de perf 126TOPS pour l'AI395 vs 80 pour l'AI 370 :jap:


 
J'ai peur des perfs réelles et de la rapidité :o
 
Ouvre la voie camarade  [:ach_lette]

n°15949
pich_mu
Posté le 01-05-2026 à 14:53:23  profilanswer
 

gremi a écrit :


 
Ce qui marche étonnamment bien c'est de donner ta commande ollama à Claude, tu lui décris ton setup matériel et lui fournis le log au lancement, et te donne une commande adaptée à ta config ... Pour moi il y avait un paramètre mal optimisé, j'ai doublé mes token/seconde :D


 
Super idée ça ! Je vais essayer de faire pareil pour mon setup actuel sous LM Studio on va bien voir  :D  
 

the_fennec a écrit :


 
C'est pour voir l’utilisation VRAM et %GPU. J'utilise aussi System informer pour voir quels applis utilisent de la VRAM, genre Google Drive qui utilise webview pour afficher une icône et deux options ... :(


 
Ok c’est du monitoring classique quoi. J’utilise HW info perso pour ça. Connaît pas System Informer par contre je vais jeter un œil  :jap:  
 

n°15950
Quich
Pouet ?
Posté le 01-05-2026 à 15:17:12  profilanswer
 

neo world a écrit :


pourquoi pas un AMD AI 395 ? quasi moitié moins cher, plus de mémoire. Si tu en prend un deuxième tu montes à 256GO de mémoire  :love: . On pourra ramasser les plâtres des drivers/firmware ensemble  [:schiroosh] :o

 

Autrement y'a l'AMD AI 370 : un peu moins de perfs mais la RAM (unifiée) peut être upgradée plus tard quand on arrêtera de faire fabriquer toutes les puces de DRAM au détroit d'Ormuz :o
https://www.amazon.fr/MINIS-FORUM-X [...] B0F58SZG8L

 

attention y'a quand même un delta de perf 126TOPS pour l'AI395 vs 80 pour l'AI 370 :jap:


Le problème des machines upgradables c'est la bande passante mémoire, pas tant le nombre de tops/la puissance du GPU intégré.

 

Tu as 256GB/s en théorie avec la LPDDR5X à 8000MT/s sur un bus 256bit pour les Strix Halo avec un GPU 16/32/40 CU suivant le modèle.

 

Tu tombes à 90GB/s avec de la DDR5 5600MT/s sur un bus 128bit (2 barrettes sodimm en dual channel) pour la série Strix Point avec un GPU à max 16 CU.

 

La BP mémoire est très importante pour l'inférence.


Message édité par Quich le 01-05-2026 à 15:17:57

---------------
Feedback
n°15951
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 01-05-2026 à 15:37:29  profilanswer
 

BP > Quantités Vram > GPU :D


---------------
Victime de girafophobie, mais se soigne.
n°15952
neo world
Posté le 01-05-2026 à 16:36:14  profilanswer
 

Quich a écrit :


Le problème des machines upgradables c'est la bande passante mémoire, pas tant le nombre de tops/la puissance du GPU intégré.
 
Tu as 256GB/s en théorie avec la LPDDR5X à 8000MT/s sur un bus 256bit pour les Strix Halo avec un GPU 16/32/40 CU suivant le modèle.
 
Tu tombes à 90GB/s avec de la DDR5 5600MT/s sur un bus 128bit (2 barrettes sodimm en dual channel) pour la série Strix Point avec un GPU à max 16 CU.
 
La BP mémoire est très importante pour l'inférence.


 
Bon point :jap: de ce que j'ai lu le GPU du 395 dispose de 200GB/s max (100GB/s max pour le CPU). Je me rend pas compte de la perte de perf (la moitié en tokens/s ?) mais si je compare a mon M5 pro avec 273GB/s de bande passante : largement suffisant pour un usage de Lab "avancé" / Développement d'apps même avec des contextes significatifs (40k plus) / Génération d'images avec Flux 2 and consort : 2 fois plus lent reste beaucoup plus rapide qu'un humain qui tape et à peu prêt dans ce qu'on est capable de lire en temps réel (notamment quand on passe en debug interactif). Ca devient plus discutable si on en tire des performances de CPU (0.6 / 1.3 token par seconde) : on lit plus vite que ce que la machine est capable de générer et une journée de travail ne permet de récupérer qu'entre 10 et 30k tokens.  C'est bon mais pas suffisant :o
 

Tronklou a écrit :

BP > Quantités Vram > GPU :D


je mettrais la quantité de VRAM à égalité avec la Bande passante. Size matters :o

n°15953
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 01-05-2026 à 16:53:36  profilanswer
 

Bof, si ça tourne a 8 token second c'est inutilisables.


---------------
Victime de girafophobie, mais se soigne.
n°15954
neo world
Posté le 01-05-2026 à 16:55:52  profilanswer
 

tu veux dire que tu fais plus rapide que la machine (peut être avec le debug inclus) ?  
 
https://i0.wp.com/media3.giphy.com/media/RPZu7v6zA2WOI/giphy.gif

n°15955
neo world
Posté le 01-05-2026 à 17:21:19  profilanswer
 

autrement pour ceux qui cherchent une carte pas chère (environ 500 balles dans ce que j'ai vu sur Ebay) avec 32 GO de HBM2 / 1 TB de bande passante : https://medium.com/@nejc.fosnaric/f [...] 118824fcd1
 
A 300 watts de conso ça chauffe un pwal par contre :o


Message édité par neo world le 01-05-2026 à 17:21:34
n°15956
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 01-05-2026 à 17:23:19  profilanswer
 

:??:  
 
Test au quotidiens un llm avec peu de token second en sortie et tu verras :D


---------------
Victime de girafophobie, mais se soigne.
n°15957
neo world
Posté le 01-05-2026 à 17:31:41  profilanswer
 

Tronklou a écrit :

:??:  
 
Test au quotidiens un llm avec peu de token second en sortie et tu verras :D


clairement si j'ai le choix je fais chauffer un Qwen 3.6 35B / les alternative avec mixture of experts @60 tokens / seconde plutôt que les modèles denses. Mais à partir de 7 tokens / seconde j'ai les yeux qui brillent sauf quand il pond n'importe quoi ce qui est moins rare que ce que les bench portent à croire :o

n°15958
speedboyz3​0
Guide Michelin :o
Posté le 01-05-2026 à 17:47:49  profilanswer
 

Vous permettez un petit commentaire de Claude ?  [:benjy86]

 

Edit: bordel ça bug :o


Message édité par speedboyz30 le 01-05-2026 à 17:49:20
 Page :   1  2  3  4  5  ..  17  18  19  20  21  22

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)