Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
3211 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  8  9  10  ..  18  19  20  21  22  23
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°16118
the_fennec
f3nn3cUs z3rd4
Posté le 17-05-2026 à 14:51:05  profilanswer
 

Reprise du message précédent :
Test de vLLM ...
https://github.com/SystemPanic/vllm-windows
 
Comme d'hab' avec les trucs en python, grosse galère pour les dépendances, en fait il faut (entre autres) Cuda 13.0 et 13.2 et patcher l'install de Cuda ...
 
 
Finalement ça se lance avec un modèle en carton  [:theyellowman]
 
Test de Qwen3.5-27B-Q3_K_M.gguf qui devrait tenir dans 16GB de VRAM:

Citation :

ValueError: GGUF model with architecture qwen35 is not supported yet.


 
[:fail]
 
Et dire qu'au taf' ya un mec qui me saoule en disant que vLLM est plus simple et plus rapide que llama.cpp ...  
 

Citation :

Mais way, c'est bien mieux en local, mais j'ai juste testé avec une image préconfigurée sur une instance EC2 g7e RTX PRO 6000 96GB :o


Message édité par the_fennec le 17-05-2026 à 14:51:47

---------------
Faudra que je teste un jour :o
n°16119
neo world
Posté le 17-05-2026 à 16:17:47  profilanswer
 

Le mec en roue libre  :lol:  
 
Tu as la dernière vidéo du youtubeur infra AI que tu as déjà partagé ici qui parle de ses péripéties avec un cluster d’inference Strix Halo. Tu dois pouvoir récupérer des bouts pour ton usage :D

n°16120
the_fennec
f3nn3cUs z3rd4
Posté le 17-05-2026 à 17:50:40  profilanswer
 

neo world a écrit :

Le mec en roue libre  :lol:


En plus il a testé la version non-quantifiée sur vLLM et q4 sur llama.cpp pour prouver que vLLM est plus rapide ... noshit Sherlock :o maintenant je sais pourquoi.  
 

neo world a écrit :

Tu as la dernière vidéo du youtubeur infra AI que tu as déjà partagé ici qui parle de ses péripéties avec un cluster d’inference Strix Halo. Tu dois pouvoir récupérer des bouts pour ton usage :D


 
Merci, je regarderais!


---------------
Faudra que je teste un jour :o
n°16121
the_fennec
f3nn3cUs z3rd4
Posté le 17-05-2026 à 19:18:11  profilanswer
 

J'ai regardé:
Three months wrong about why my 4-node AMD cluster was slow
https://www.youtube.com/watch?v=32cjdHVoSRo
 
Il a bien souffert effet, par contre les perfs :(
A un moment il fait tourner Qwen next, et je dois avoir a peut près les même perfs avec ma config de clodo :o
 
Mais la conclusion pour moi est simple, vLLM c'est un sacré bourrier :lol:


---------------
Faudra que je teste un jour :o
n°16122
the_fennec
f3nn3cUs z3rd4
Posté le 17-05-2026 à 19:26:58  profilanswer
 

Le support du MTP a été mergé dans llama.cpp:
https://github.com/ggml-org/llama.cpp/pull/22673
 
 :love:


---------------
Faudra que je teste un jour :o
n°16123
ibuprophet
Posté le 17-05-2026 à 23:46:10  profilanswer
 

Benché:
+85% avec n=3. C'est exactement le scénario prévu : dense model, compute-bound, MTP fait tout son effet.
 
Variant TG (t/s) vs baseline
27B dense sans MTP 64 baseline
27B dense + MTP n=3 119 +85%
27B dense + MTP n=6 102 +59%
n=3 est le sweet spot — au-delà, l'acceptance rate chute et le coût de vérification des drafts rejetés l'emporte.
 
Contraste total avec le MoE :
 
MoE 35B-A3B MXFP4 : +0% (memory-bandwidth-bound, 220 t/s de base)
Dense 27B Q4 : +85% (compute-bound, 64 → 119 t/s)

n°16124
neo world
Posté le 18-05-2026 à 00:37:01  profilanswer
 

[:haha want]  
 
merci du partage :D

n°16125
yohaskan
Posté le 18-05-2026 à 09:15:29  profilanswer
 

[:hephaestos] La flème donc j'ai demandé à l'IA de rediger le post :
 
Salut les gars,
 
Pour illustrer concrètement ce qu'on peut sortir aujourd'hui en local avec un gros GPU (une RTX 5090 ici), je vous partage mes expérimentations sur un concept d'assistant de jeu immersif en temps réel.
 
L'objectif : Avoir une IA capable de voir la session de jeu, d'intervenir à l'oral ou de répondre à la voix, tout en allant déterrer des infos complémentaires (comme le Wiki ou le lore brut directement extrait des fichiers .pak du jeu). C'est ultra pratique sur un jeu qui vient de sortir, où le wiki en ligne est encore à moitié vide ou pas traduit.
 
Pour les curieux, voilà la stack technique complète sous le capot :
 
* App maison en Python : Cheshire AI V.2 (qui sert d'orchestrateur global et gère la vision, le wikisearch, la mémorisation et la DB locale).
* LLM : Qwen 3.5 9B propulsé via l'API de LM Studio Server.
* STT (Reconnaissance vocale) : Fast Whisper.
* TTS (Synthèse vocale) : Un serveur XTTSv2 custom pour donner sa voix à l'assistante (que j'ai appelée Triss).
 
J'ai condensé le rendu sur trois petits shorts pour montrer ce que ça donne en conditions réelles :
 
Sur Subnautica 2 (zéro spoil, juste de l'observation de créatures) :
 
* Le Crabe Clown :
https://www.youtube.com/shorts/sjIbg3gvEr8
https://i.ytimg.com/vi/sjIbg3gvEr8/maxresdefault.jpg
 
L'IA capte le contexte visuel (la présence d'une créature dans les algues à 16m). Elle me propose spontanément de fouiller la base de données locale, me sort sa description comportementale brute (animal docile qui utilise un périscope avant de sortir) et me propose de mémoriser l'entrée pour enrichir notre base.
 
* La Méduse Électrique :
https://www.youtube.com/shorts/63eex5c0X9s
https://i.ytimg.com/vi/63eex5c0X9s/maxresdefault.jpg
 
Là, on pousse l'extraction de données plus loin. Elle me sort des détails très pointus sur l'anatomie de la créature (les ropali pour chasser, le pédoncule) et ses stats de combat (génération de 400 à 1000 volts). Elle ajoute même une petite touche RP sympa sur le danger potentiel pour un humain avant de sauvegarder les données.
 
Sur No Man's Sky (avec l'interface du soft visible) :
 
* L'interface de Triss :
https://www.youtube.com/shorts/w0jczNC9Mbg
https://i.ytimg.com/vi/w0jczNC9Mbg/maxresdefault.jpg
 
Sur celui-ci, on voit directement l'envers du décor avec l'UI de Cheshire AI Monitor. On peut suivre les logs et les temps de traitement en direct (les latences STT + Génération Audio s'affichent à l'écran et tournent autour de 2 à 3 secondes). C'est assez fou de voir la réactivité : dès que je lui fais remarquer que le jour se lève, le module de vision valide l'environnement en direct ("le ciel s'illumine" ) et elle relance la discussion de manière super fluide.
 
L'idée à terme, c'est vraiment d'avoir un copilote autonome et 100% offline qui s'adapte au rythme du joueur et du chat Twitch.


Message édité par yohaskan le 18-05-2026 à 11:28:56
n°16126
the_fennec
f3nn3cUs z3rd4
Posté le 18-05-2026 à 09:22:18  profilanswer
 

J'ai du mal a charger les modèles MTP, je comprends pas trop pourquoi ça me fait des erreurs de mémoire alors que j'ai large la place pour charger des modèles plus gros.
 
Avec Qwen3.6-27B-Q6_K d'Unsloth ça passe, mais pas Qwen3.6-27B-Q6_K_XL. D'ailleurs je pense que certains modèles ne sont pas a jours, le K_XL fait la même taille en normal et en MTP, la ou le K fait 1GB de plus...
 
Bref, j'ai bien un gain en génération de code, je suis a 20 tg/s en --spec-type draft-mtp --spec-draft-n-max 3 et 11 tg/s sans MTP.  
 
Pas de drop en qualité :o
https://stateless-feast-t3xb.pagedrop.io
 
Testé n-max=2 et n-max=4 et dans les deux cas c'est moins bon. Je comprends pas trop la recommandation de 6 sur la page d'Unsloth.
 
@ibuprophet quels modèles utilises-tu?


Message édité par the_fennec le 18-05-2026 à 10:55:35

---------------
Faudra que je teste un jour :o
n°16127
the_fennec
f3nn3cUs z3rd4
Posté le 18-05-2026 à 11:30:24  profilanswer
 

Test avec Qwen3.6-35B-A3B-UD-Q5_K_S.gguf  [:perco_35:2]  
 
Je fais du 63 tg/s au lieu de 35!
 
Par contre les MTP sont plus gros, je peux pas charger du Q6. En plus j'ai l'impression qu'ils gèrent pas bien le split asymétrique. Les perfs se cassent la gueule si je suis pas en 50/50 au niveau des layers.
 
Flappy 35B MTP:
https://steady-toast-d77q.pagedrop.io
 
edit: je le relance sur Linux 7 pour Amiga. Le prompt processing est a la même vitesse, dans les 300/s (normal) et le tg/s est dans les 50, mais c'est beaucoup plus de shell que de code.


Message édité par the_fennec le 18-05-2026 à 11:34:51

---------------
Faudra que je teste un jour :o
n°16128
TotalRecal​l
Posté le 18-05-2026 à 11:49:43  profilanswer
 

yohaskan a écrit :

[:hephaestos] La flème donc j'ai demandé à l'IA de rediger le post :
...


Chouette projet [:implosion du tibia] :jap: !


Message édité par TotalRecall le 18-05-2026 à 11:50:08

---------------
Topic .Net - C# @ Prog
n°16129
ibuprophet
Posté le 18-05-2026 à 12:23:11  profilanswer
 

the_fennec a écrit :


@ibuprophet quels modèles utilises-tu?


 
Gemma 4 et Qwen 3.6 avec ces configs :
gemma4-31b-UD-Q5_K_XL-ctx245k-turboquant
qwen3.6-27b-UD-Q4_K_XL-ctx245k-mtp
qwen3.6-35b-a3b-MXFP4_MOE-ctx262k
 

n°16130
the_fennec
f3nn3cUs z3rd4
Posté le 18-05-2026 à 13:14:34  profilanswer
 

ibuprophet a écrit :


 
Gemma 4 et Qwen 3.6 avec ces configs :
gemma4-31b-UD-Q5_K_XL-ctx245k-turboquant
qwen3.6-27b-UD-Q4_K_XL-ctx245k-mtp
qwen3.6-35b-a3b-MXFP4_MOE-ctx262k
 


 
gemma4 n'a pas le MTP il me semble?
 
Ce sont ceux d'Unsloth?


---------------
Faudra que je teste un jour :o
n°16131
neo world
Posté le 19-05-2026 à 08:47:06  profilanswer
 

yohaskan a écrit :

[:hephaestos] La flème donc j'ai demandé à l'IA de rediger le post :
 
Salut les gars,
 
Pour illustrer concrètement ce qu'on peut sortir aujourd'hui en local avec un gros GPU (une RTX 5090 ici), je vous partage mes expérimentations sur un concept d'assistant de jeu immersif en temps réel.
...


 
propre  [:implosion du tibia]  
 
 
tu comptes publier le code / fichiers de config ? :D

n°16132
neo world
Posté le 19-05-2026 à 08:47:48  profilanswer
 

the_fennec a écrit :

Le support du MTP a été mergé dans llama.cpp:
https://github.com/ggml-org/llama.cpp/pull/22673
 
 :love:


enfin !  :love:

n°16133
the_fennec
f3nn3cUs z3rd4
Posté le 19-05-2026 à 17:31:19  profilanswer
 

Qwen 3.7 [:cerveau eonwe]  
https://www.reddit.com/r/LocalLLaMA [...] king_hard/
 
 [:legrillepain:3]


---------------
Faudra que je teste un jour :o
n°16134
the_fennec
f3nn3cUs z3rd4
Posté le 19-05-2026 à 17:36:35  profilanswer
 

Plus de MTP:
https://github.com/ggml-org/llama.cpp/pull/23269
 
Les binaires sont pas encore dispo.


---------------
Faudra que je teste un jour :o
n°16135
gremi
Vieux con des neiges d'antan
Posté le 20-05-2026 à 07:25:05  profilanswer
 


Ils ont une conf aujourd'hui de ce que j'ai compris, ça devrait sortir :)


---------------
In aligot we trust.
n°16136
the_fennec
f3nn3cUs z3rd4
Posté le 20-05-2026 à 09:05:53  profilanswer
 

Pas testé, BC-250 Unlock
 
https://github.com/duggasco/bc250-40cu-unlock
 

Citation :

Re-enable all 40 CUs on the AMD BC-250 (gfx1013 / Cyan Skillfish / salvaged PS5 APU).
 
The BC-250 ships with 24 of 40 RDNA2 CUs active. This patch unlocks all 40 by writing two hardware registers during amdgpu driver init. No firmware mods, no permanent changes — just a kernel module parameter.


 
 :love:


---------------
Faudra que je teste un jour :o
n°16137
yohaskan
Posté le 20-05-2026 à 09:55:52  profilanswer
 

TotalRecall a écrit :


Chouette projet [:implosion du tibia] :jap: !


Merci :jap:

neo world a écrit :


 
propre  [:implosion du tibia]  
 
 
tu comptes publier le code / fichiers de config ? :D


 
En l'état non, j'aimerai pas foutre en ligne du code pas purgé comme un paquet de linge sale...
Et le projet n'est pas fini, toujours des idées, opti a faire...
et le rythme de sortie des LLM laisse pas trop le temps pour faire une pause de lavage du code  
par exemple, j’évite au max d'avoir des valeurs coder en dure dans l'app, elles sont, comme celle des prompts et description d'outils, dans le profil .yaml de chaque jeux
Mais je dois aussi faire des conditions prefill selon le Payload du LLM (Qwen, Gemma, Mistral...) pour les empêcher de réfléchir pour rien
du type :

Code :
  1. post_vision: |
  2.     <|think_on|>Analyse visuelle terminée. J'ai examine l'image et identifie les éléments clés.</|think_off|>
  3.     Voici ce que je peux te dire :


 
Possible que demain ces conditions ne soit plus utile si le nouveau LLM (Qwen 3.7? Gemma-5 ?) n'a plus de bug d'"overthinking"

n°16138
Quich
Pouet ?
Posté le 20-05-2026 à 10:42:07  profilanswer
 

the_fennec a écrit :

Pas testé, BC-250 Unlock

 

https://github.com/duggasco/bc250-40cu-unlock

 
Citation :

Re-enable all 40 CUs on the AMD BC-250 (gfx1013 / Cyan Skillfish / salvaged PS5 APU).

 

The BC-250 ships with 24 of 40 RDNA2 CUs active. This patch unlocks all 40 by writing two hardware registers during amdgpu driver init. No firmware mods, no permanent changes — just a kernel module parameter.

 

:love:


Top ça, je testerais quand j'aurais le temps même si le mien ne sert que pour jouer :o
S'ils trouvent comment réactiver les 2 cores zen en plus ça serait bien aussi :o


Message édité par Quich le 20-05-2026 à 10:42:48

---------------
Feedback
n°16139
the_fennec
f3nn3cUs z3rd4
Posté le 20-05-2026 à 11:56:28  profilanswer
 

Quich a écrit :


Top ça, je testerais quand j'aurais le temps même si le mien ne sert que pour jouer :o
S'ils trouvent comment réactiver les 2 cores zen en plus ça serait bien aussi :o


 
Par contre je me demande comment tester que les core réactivé marchent bien. Ils doivent avoir une bonne raison de les avoir désactivés, je sais que c'est censé être des rebus de PS5, mais les mineurs auraient le même intérêt que nous.


---------------
Faudra que je teste un jour :o
n°16140
Quich
Pouet ?
Posté le 20-05-2026 à 12:22:26  profilanswer
 

the_fennec a écrit :

 

Par contre je me demande comment tester que les core réactivé marchent bien. Ils doivent avoir une bonne raison de les avoir désactivés, je sais que c'est censé être des rebus de PS5, mais les mineurs auraient le même intérêt que nous.


Y'a des scripts de tests sur le dépôt il me semble.
Ça peut être une histoire de fréquence aussi, la PS5 c'est 36CU à 2,23GHz --> s'il n'y en a que 35 qui tiennent dans l'enveloppe thermique définie --> rebus.


---------------
Feedback
n°16141
neo world
Posté le 20-05-2026 à 13:21:45  profilanswer
 

Les possesseurs de BC 250 sont gâtés :D
 
Je vais finir par surveiller les bons plans aussi. Surtout si y’a du Qwen 3.7 qui entrerait dans les 16 go :love:

n°16142
Olivie
SUUUUUUUUUUUUUU
Posté le 20-05-2026 à 14:59:17  profilanswer
 

Pour ceux que ca intéresse (faut une adresse email d'un ndd) :o
lien: https://dsx-air.nvidia.com
https://pbs.twimg.com/media/HIwTOVWbIAA1Iqs?format=jpg&name=small

Citation :

Conclusion nette
 
DSX Air vaut le coup si tu veux :
 
monter en compétence sur l’infra réseau IA ;
comprendre comment les gros datacenters IA sont préparés avant livraison physique ;
tester des scripts de provisioning ;
créer des labs reproductibles ;
apprendre Cumulus / Spectrum-X / NetQ / Run:ai / AI factory networking.
 
DSX Air ne vaut pas le coup si ton objectif est :
 
avoir du GPU gratuit ;
héberger tes agents IA ;
remplacer ton VPS ;
faire tourner une app SaaS en production.


 
 


---------------

n°16143
extenue1
Posté le 20-05-2026 à 15:03:58  profilanswer
 

Ca vaut / vaudra quoi ça en term de perfs IA locale ?

 

Minisforum S5 et S7 : NAS flash avec IA locale pour le homelab - Cachem https://share.google/jEkxkBLN0dedhPZQu

n°16144
the_fennec
f3nn3cUs z3rd4
Posté le 20-05-2026 à 15:30:04  profilanswer
 

extenue1 a écrit :

Ca vaut / vaudra quoi ça en term de perfs IA locale ?
 
Minisforum S5 et S7 : NAS flash avec IA locale pour le homelab - Cachem https://share.google/jEkxkBLN0dedhPZQu


 
C'est de la daube, avec un NPU en carton et 16GB de RAM tu peux rien faire tourner. Ils parlent d'Openclaw, mais c'est pas de l'IA locale, ça peut tourner sur une patate.


---------------
Faudra que je teste un jour :o
n°16145
the_fennec
f3nn3cUs z3rd4
Posté le 20-05-2026 à 17:13:39  profilanswer
 

Quich a écrit :


Y'a des scripts de tests sur le dépôt il me semble.
Ça peut être une histoire de fréquence aussi, la PS5 c'est 36CU à 2,23GHz --> s'il n'y en a que 35 qui tiennent dans l'enveloppe thermique définie --> rebus.


 
Ha oui, j'avais vu les bench, mais pas bc250-compute-verify.sh. Balèze!:
https://github.com/duggasco/bc250-4 [...] -verify.sh
 
 

neo world a écrit :

Les possesseurs de BC 250 sont gâtés :D
 
Je vais finir par surveiller les bons plans aussi. Surtout si y’a du Qwen 3.7 qui entrerait dans les 16 go :love:


 
Vise 14GB, pas plus et encore j'utilise le server rpc qui a probablement besoin de moins qu'un llama complet.
https://i.imgur.com/3JL4ONT.png


---------------
Faudra que je teste un jour :o
n°16146
LaRoueEstT​ombee
Hortense ! Pour moi !
Posté le 20-05-2026 à 20:52:14  profilanswer
 

Ce bordel que c'est tout ça :D  
 
De voir l'évolution en 4 jours pour avoir un modèle qui tourne sur le NPU d'un Ryzen AI avec Linux... Bon, c'est pas le tout, maintenant faut que je rende ça exploitable au quotidien :lol:


---------------
Votre couroux impitoiable Veut-il renverser l'Univers ?
n°16147
neo world
Posté le 20-05-2026 à 22:08:13  profilanswer
 

extenue1 a écrit :

Ca vaut / vaudra quoi ça en term de perfs IA locale ?
 
Minisforum S5 et S7 : NAS flash avec IA locale pour le homelab - Cachem https://share.google/jEkxkBLN0dedhPZQu


Hello !
 
Comme the_fennec je pense que c'est pas une très bonne idée (globalement tout ce qui est IA tourne super bien sur Nvidia, un peu l'aventure mais on s'en sort avec AMD et l'Aventure avec un grand A sur Intel). Ca ne veut pas dire que tu ne pourras pas en faire ce que tu as besoin mais n'attend pas les perfs d'un GPU avec GDDR / HBM (bande passante limitée par la RAM classique embarquée ce qui impacte énormement le pre processing et le nombre de token/seconde). Si tu as besoin de jouer avec des modèles assez larges avec un budget riquiqui tu as le BC 250 plébicité ici (avec 16GO de GDDR en plus  :love:), tu peux jouer avec des cartes graphiques (de préference nvidia avec support cuda mais les cartes AMD modernes commencent à bien fonctionner) ou tu peux taper du NPU AMD (ça marche mais ce sera moins rapide que ses cousines en gddr et avec le prix de la RAM en ce moment c'est pas le moment idéal de s'équiper :jap: )
 
Le prix de la RAM est tellement abusé d'ailleurs que la plupart des mini PC que tu peux trouver sur dealabs avec 32GO / 1 TO coutent 50€ plus cher qu'acheter 32GO de RAM et un SSD NVME de perf équivalent. La machine est quasi offerte :pt1cable:

n°16148
neo world
Posté le 20-05-2026 à 22:24:08  profilanswer
 

the_fennec a écrit :


 
Ha oui, j'avais vu les bench, mais pas bc250-compute-verify.sh. Balèze!:
https://github.com/duggasco/bc250-4 [...] -verify.sh
 
 


 

the_fennec a écrit :


 
Vise 14GB, pas plus et encore j'utilise le server rpc qui a probablement besoin de moins qu'un llama complet.
https://i.imgur.com/3JL4ONT.png


Je note merci :jap:. Je pense que je vais attendre de voir comment se comportent mes agents avec mon infra existante et faire des tests avec des modèles de différentes tailles avant de me décider (mais la machine est à nouveau dispo aux environs des 160€ ça rend l'opération très tentante :D )
 
La je suis en train de monter mon homelab (3 noeuds proxmox 7640HS avec 32GO de RAM et 1 to de CEPH pour chaque noeud). Il va embarque son propre Git, CI/CD, wiki, postgres, container, agents de dev et infra de backup externe pour que le bordel puisse tourner en vase clos en illimité en mode AI factory locale avec Qwen et Minimax sur le halo strix pour piloter la partie dev / documentation / debug.
 
C'est un beau bordel d'être aussi multi-casquette. Ca me rappel le temps où je bossais en PME :D

n°16149
ionik
Posté le 21-05-2026 à 15:35:41  profilanswer
 
n°16150
speedboyz3​0
Guide Michelin :o
Posté le 21-05-2026 à 16:27:34  profilanswer
 

Nouveaux procs chez AMD:  
 

Citation :

La gamme se compose de trois références :
 
Le Ryzen AI Max+ PRO 495 trône tout en haut avec 16 cores / 32 threads, une fréquence Boost de 5.2 GHz, un iGPU complet de 40 CU et un NPU à 55 TOPS.
 
Le Ryzen AI Max PRO 490 passe à 12 cores / 24 threads, avec un Boost à 5.0 GHz, un iGPU de 32 CU et un NPU capable de 50 TOPS.
 
Enfin, le Ryzen AI Max PRO 485 propose 8 cores / 16 threads, conserve les 32 CU côté graphique et le NPU à 50 TOPS.


 
https://www.cowcotland.com/news/100 [...] moire.html
 
 [:moonbloood:2]  [:la chancla:1]

n°16151
hardcorsai​re
Posté le 21-05-2026 à 16:33:36  profilanswer
 

Donc si j'ai bien suivi, les CPU labelisé "AI" d'AMD ont pour principal attrait de supporter un max de RAM alouable à l'iGPU
 
(bien plus que ce qu'on aura jamais sur un GPU classique)
 
[:tenjo tenge:4]

n°16152
neo world
Posté le 21-05-2026 à 16:44:37  profilanswer
 

j'attends un peu avant de sauter au plafond. A priori ils vont commencer à livrer HP et lenovo avant la fin de l'année mais j'ai pas vu d'information circuler pour les autres intégrateurs aux meilleurs prix.
 
Mais ça ferait un beau jumeau à mon strix halo 395 qui n'offre que 121GO de VRAM en bidouillant un peu :o

n°16153
neo world
Posté le 21-05-2026 à 16:46:06  profilanswer
 

hardcorsaire a écrit :

Donc si j'ai bien suivi, les CPU labelisé "AI" d'AMD ont pour principal attrait de supporter un max de RAM alouable à l'iGPU
 
(bien plus que ce qu'on aura jamais sur un GPU classique)
 
[:tenjo tenge:4]


Oui c'est ce qui permet de tirer 30 à 50 tokens / secondes sur des modèles qui, en CPU, en tirent entre 1 et 8. Evidemment c'est beaucoup moins bien qu'avec un vrai GPU mais 192GB de GDDR / HBM c'est un pwal cher :o

n°16154
speedboyz3​0
Guide Michelin :o
Posté le 21-05-2026 à 16:51:01  profilanswer
 

Après la question c'est :
 
Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?

n°16155
hardcorsai​re
Posté le 21-05-2026 à 16:59:31  profilanswer
 

Les modèles de CPU Ryzen AI Max ne sont pas dispo au détail ? uniquement via les machines Halo ?
 

speedboyz30 a écrit :

Après la question c'est :
 
Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?


 
Faut voir la décote de la machine Halo, et surtout les limitations de l'abo Claude
 
Après, sur la partie privacy, il n'y a pas match

n°16156
Quich
Pouet ?
Posté le 21-05-2026 à 17:13:35  profilanswer
 

"Strix Halo" c'est le nom de la gamme de CPU.
Ce ne sont pas des CPU qui se montent sur un socket type AM5 mais sont montés en BGA (soudé sur la carte mère).
Donc ils ne sont pas vendu seuls mais disponibles avec au minimum une carte mère.
C'est vendu en général dans des mini-PC, par différents assembleurs, pas uniquement AMD.


Message édité par Quich le 21-05-2026 à 17:14:14

---------------
Feedback
n°16157
speedboyz3​0
Guide Michelin :o
Posté le 21-05-2026 à 17:14:46  profilanswer
 

hardcorsaire a écrit :


 
Faut voir la décote de la machine Halo, et surtout les limitations de l'abo Claude
 
Après, sur la partie privacy, il n'y a pas match


 
Faut déjà bien taper dedans pour arriver au Max 100$ par mois.
 
La décote ça doit faire mal quand même vu que dans 2 ans ça sera sûrement dépassé  [:zyzz:2]  
On annonce une sortie de crise de la ram pour 2027 :o

n°16158
neo world
Posté le 21-05-2026 à 17:29:07  profilanswer
 

speedboyz30 a écrit :

Après la question c'est :
 
Un AMD Strix Halo ou un abo claude max 100$ pendant 2 ans ?


mon plan c'est plutôt un abo claude à 20 balles par mois pour ne pas prendre l'abo à 100 balles sans maîtrise des prix. Je suis sur un plan à 5 ans moi monsieur  [:biron_sacquet:3]  :o :o

 Page :   1  2  3  4  5  ..  8  9  10  ..  18  19  20  21  22  23

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)