Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2815 connectés 

  FORUM HardWare.fr
  Hardware
  Actus

  Infra IA : aide au choix et troubleshot de LLM locaux

 

Sujet(s) à lire :
 

Avez-vous déjà pris du matos pour faire tourner des modèles LLM gérés par vous même ? ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-06-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7
Page Précédente
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°11475681
neo world
Posté le 26-04-2026 à 14:36:58  profilanswer
 

Parce que les besoins d'IA (et les prix des équipements pour les faire tourner) sont en pleine explosion  [:somberlain_multi:2]  [:bahamut49:10]  [:billy-bob jambonbeur]  :o
 
Je vous propose un topic pour parler hardware pour faire tourner ses modèles de LLM Favoris en local.
 
Table des matières
 

  • Pourquoi faire tourner son IA en local par rapport aux alternatives hébergées (Cloud) ?  [:gordon shumway:5]  
  • Comment trouver/choisir un modèle d'IA adapté à son besoin ?  [:oggyzz:4]  
  • Quel hardware choisir selon son budget ?  [:atom1ck]  
  • Comment faire tourner sereinement son IA local  [:clooney15]  
  • Troubleshot des problèmes classiques (out of memory [:bakk13] et le reste :D )


Topics à checker (merci XatriX)

XaTriX a écrit :

[:icon2] Discussions sur le matériel et son optimisation, les logiciels (ollama, LM studio, etc), framework (mlx, etc) et les modèles open-source/weight
 

[:icon2] Discussions générales sur l'IA et le ML, l'éthique et l'utilisation de l'IA
 

[:icon2] Discussions sur les LLM, les news des gros acteurs mais aussi les sorties des modèles et les outils (Claude Desktop/Cowork, etc)
 

[:icon2] Discussions sur le développement logiciel par IA/LLM avec les outils comme Claude Code, Codex et OpenCode avec gestion de projet et modèles LLM dédiés
 

[:icon2] Avec des outils comme Midjourney, Dall-e, StableDiffusion, GPT-2, Banana ..


Message édité par neo world le 26-04-2026 à 22:07:17
mood
Publicité
Posté le 26-04-2026 à 14:36:58  profilanswer
 

n°11475682
neo world
Posté le 26-04-2026 à 14:37:13  profilanswer
 

Pourquoi faire tourner son IA en local par rapport aux alternatives hébergées (Cloud) ?  
Déjà pour le plaisir d'apprendre / geeker  [:serumm]  :o mais il existe d'autres très bonnes raisons :

  • Protéger ses données / projets (projets de R&D, données personnelles sensibles) tout en jonglant avec des modèles FR / US / Chinois sans restrictions
  • Maîtriser son environnement (pas de changements intempestifs de votre modèle et ses capacités)
  • Maîtriser ses coûts : achat du materiel et paiement de l’électricité / refroidissement pour un usage potentiel illimité
  • Optimiser son modèle à ses usages (RAG / CAG / KAG / Knowledge graph)
  • Bricoler son modèle pour faire sauter ses restrictions et lui demander n'importe quoi (la réponse risque aussi d'être n'importe quoi donc gaffe !  [:-lilith-] )


Comment trouver/choisir un modèle d'IA adapté à son besoin ?
Bonne question, ça commence évidemment par son besoin (programmation, agentique, assistant), ensuite un tour par les benchmarks (ou les news de bulldozer sur HFR :o) pour voir comment les modèles disponibles en local s'en sortent :


...
 
Évidemment les modèles plus lourds de dernière génération ont tendance à mieux s'en sortir globalement mais ils pèsent aussi plus lourd en VRAM : Certains vont demander jusqu'à 8 H100 pour tourner confortablement ( environ 250k€ en le montant vous même, hors electricité / refroidissement ou 350k€ si vous préferez du clé en main fourni par Nvidia comme le DGX-H100). C'est un budget   [:sire de botcor:1]
 
Pour rendre les choses encore plus simple dans vos choix vous aurez aussi accès à des modèles avec Thinking (toute la phase où le modèle va compiler ses hypothèses avant de produire une réponse) ou sans, denses (chaque token généré exploite l'ensemble des paramètres) ou MOE (mixture of experts : chaque token sera procéssé par une partie du réseau neuronal. Par exemple 3 ou 4 milliards de paramètres sur les 35 disponibles dans le modèle). Le MoE à tendance à produire des tokens plus rapidement mais peut davantage halluciné, le modèle dense sera logiquement plus lent mais potentiellement moins de risques de d'hallucinations (attention ça dépend de plein d'autres paramètres).


Message édité par neo world le 26-04-2026 à 23:18:38
n°11475683
neo world
Posté le 26-04-2026 à 14:37:24  profilanswer
 

Et parce que l'humain ne peut pas tout, voici la FP vu par Qwen 3.6 35B (milliards de paramètres) A3B (architecture d'agents experts qui active 3 milliards de paramètres par Token processés) Q8 (8 bits de précision)
 
[:jeje84:1]  Bienvenue dans l'arène de l'IA locale !  [:jeje84:1]
 
Si vous lisez ces lignes, c'est que vous avez réalisé une vérité fondamentale : les modèles comme Qwen, Gemma, Kimi et DeepSeek ne sont plus réservés aux data centers de milliardaires. Aujourd'hui, on va démystifier l'hébergement local, avec des budgets qui vont du "je brade mon vieux PC" au "je signe un chèque sans regarder". Préparez vos circuits, on décolle !  [:8086rulez]  
 
[:tatare]  Les fondamentaux (sans jargon mortel)
 
 

  • VRAM vs RAM unifiée : La VRAM (sur GPU NVIDIA) est la zone de parking ultra-rapide pour les calculs matriciels. La RAM unifiée (Apple Silicon / AMD AI MAX) partage cette zone entre CPU et GPU. Plus c'est gros, plus vous pouvez loger de modèles sans que le système n'utilise votre disque dur comme mémoire tampon (ce qui transformerait votre inference en séance diapo chez mami).
  • Quantisation : C'est l'art de compresser un modèle sans le transformer en  [:bouh94:2] . GGUF, AWQ, FP4... En gros, on passe de 16 bits (FP16) à 4 ou 5 bits. Ça fait gagner 2 à 4x de mémoire, avec une perte de qualité souvent imperceptible pour l'utilisateur lambda.
  • Inférence vs Entraînement : Ici, on parle d'inférence (faire parler le modèle). L'entraînement, c'est une autre histoire... et un autre compte en banque.


 
Les options matérielles, du plus frugal au plus...  [:sire de botcor:1]
 
 

  • 1. Le "Petit Budget" (~150€) : PC avec APU AMD (type BC-250, Steamdeck, Legion Go, Asus ROG Ally ... ) + 16 Go de RAM unifiée. C'est le point de départ idéal pour tester des modèles légers (jusqu'au Qwen3-Coder, Gemma4-26B, Qwen3.5-35b avec le BC-250 qui tire son épingle du jeu grâce à sa bande passante mémoire et une allocation plus souple de la mémoire entre GPU et CPU) en Q2/Q3. Attendez-vous à des débits de 40 à 50 tokens par seconde donc pour de l'interactif et expérimenter, c'est parfait. Humour : Votre IA ne sera pas géniale, mais elle sera gratuite et vous apprendra l'humilité.
  • 2. Les Mac (M1/M2/M3) : 16 à 128 Go : L'architecture unifiée est magique pour l'inférence. 16 Go : acceptable pour du 7B-8B. 32-48 Go : le sweet spot pour du 13B-35B. 64-128 Go : on rentre dans le territoire des 32B-70B (avec quantisation). Attention, les puces Apple sont puissantes mais chères à l'upgrade. Conseil : visez 32 Go minimum pour ne pas souffrir.
  • 3. GPU Grand Public (NVIDIA) : 8 à 32 Go VRAM : Le standard du jeu. 8 Go (RTX 3050/4060) : limite pour du 7B. 16 Go (4070 Ti Super) : confortable pour du 13B. 24 Go (3090/4090) : le roi du local grand public, fait tourner du 34B-70B bien quantisé. 32 Go (futur RTX 5090 ou carte pro) : le prochain standard. CUDA est votre meilleur ami ici.
  • 4. Multi-GPU (2x ou plus) : Le rêve de tout débutant qui a trop de temps libre. 2x 24 Go = 48 Go VRAM. Ça permet de faire du 70B en FP16 ou du 34B en haute précision. Inconvénient : configuration complexe, synchronisation PCIe, et un budget qui explose. Astuce : commencez avec des GPU identiques, vérifiez la compatibilité du BIOS/UEFI et prévoyez une alimentation solide.
  • 5. AMD AI MAX 395 : L'étonnant (~1500€ à 2500€) : 32 Go pour ~1500€, 128 Go pour ~2500€. RAM unifiée, architecture APU, performances d'inférence solides. C'est l'alternative sérieuse aux Mac pour ceux qui veulent de l'acceleration GPU sans se ruiner. Idéal pour du 13B-34B en continu.
  • 6. Le Sommet de la Pyramide (Jusqu'à 350 000€) : DGX H100, clusters, cloud dédié. On parle ici d'infrastructures d'entreprise ou de labs de recherche. Pour un particulier ? Sauf si vous vendez vos reins, visez le cloud pour ce niveau. L'IA locale reste un terrain de jeu accessible, pas un casino.


Note sur le cloud : Si votre budget est serré, des plateformes comme RunPod, Vast.ai ou Lambda offrent des locations à l'heure. C'est pratique pour tester avant d'acheter. Mais rappelez-vous : localement, pas de frais cachés, pas de limite de tokens, et votre vie privée dort tranquille.
 
 [:mrdoug] Tableau Récapitulatif : Quelle Machine Pour Quel Modèle ?
 
Configuration    Budget Approx.    RAM/VRAM    Modèles Tournables (Inférence)    Niveau de Quantisation Recommandé

  • APU AMD BC-250 / Entrée    ~150€    16 Go unifié    Qwen-0.5B, Gemma-2B, Phi-3-mini    Q4_K_M / Q5_K_M
  • Mac M1/M2 16 Go    ~900-1200€    16 Go unifié    Qwen-7B, Gemma-7B, Llama-3-8B    Q4_K_M / Q5_K_M
  • Mac M2/M3 32-48 Go    ~1500-2500€    32-48 Go unifié    Qwen-14B, Gemma-27B, Llama-3-70B (lourd)    Q3_K_S / Q4_K_M
  • Mac M3 Pro/Max 64-128 Go    ~2500-4000€    64-128 Go unifié    Qwen-32B, DeepSeek-33B, Llama-3-70B    Q4_K_M / Q5_K_M
  • GPU NVIDIA 8 Go (RTX 3050/4060)    ~200-300€    8 Go VRAM    Qwen-7B, Gemma-7B    Q4_K_M / Q5_K_M (limité)
  • GPU NVIDIA 16 Go (4070 Ti Super)    ~700-800€    16 Go VRAM    Qwen-14B, Gemma-27B, Llama-3-8B (confortable)    Q4_K_M
  • GPU NVIDIA 24 Go (3090/4090)    ~900-1800€    24 Go VRAM    Qwen-34B, DeepSeek-33B, Llama-3-70B    Q4_K_M / Q5_K_M
  • Multi-GPU 2x 24 Go    ~1800-3600€    48 Go VRAM    Qwen-70B, DeepSeek-67B, Llama-3-70B    Q4_K_M / Q5_K_M
  • AMD AI MAX 395 (32 Go)    ~1500€    32 Go unifié    Qwen-14B, Gemma-27B, DeepSeek-33B    Q4_K_M
  • AMD AI MAX 395 (128 Go)    ~2500€    128 Go unifié    Qwen-70B, DeepSeek-67B, Llama-3-70B    Q3_K_S / Q4_K_M
  • DGX H100 / Cluster    ~350 000€    80-192 Go VRAM/GPU    Tout, en FP16/BF16, sans quantisation    FP16 / BF16 / INT8

             
*Les prix sont indicatifs, varient selon le marché et les promotions. La quantisation Q4_K_M est le standard actuel pour un bon équilibre vitesse/qualité.                
[:horatio caine]  Conseils Pratiques pour Bien Démarrer
 

  • Logiciels : Commencez avec Ollama ou LM Studio. Zéro ligne de code, interface graphique, et ça marche presque tout de suite. Pour les plus courageux : Text Generation WebUI ou vLLM.
  • Modèles : Cherchez les versions GGUF sur Hugging Face. Les créateurs comme bartowski ou TheBloke font des merveilles de quantisation.
  • Température & Paramètres : Ne jouez pas aux apprentis sorciers dès le jour 1. Gardez temp=0.7, top_p=0.9, et laissez le modèle respirer.
  • Refroidissement : Un GPU à 90°C pendant 3h, c'est comme un marathon sans eau. Aérez bien, et oui, votre facture EDF va vous saluer.
  • Écosystème : NVIDIA = CUDA (compatible partout). Apple = Metal (rapide, optimisé, mais fermé). AMD = ROCm (en progrès, mais parfois capricieux sur Windows). Choisissez votre camp en connaissance de cause.


 
[:sospc:2]  Conclusion : Votre Voyage Commence Ici
L'IA locale n'est pas réservée aux milliardaires ni aux ingénieurs avec un doctorat en physique quantique. C'est un terrain de jeu, un laboratoire, et parfois un peu de magie noire. Commencez petit, testez, quantisez, et montez en puissance quand le besoin (et le budget) le permet. Et si tout échoue... le cloud est là, avec une carte bancaire et un peu de patience.
 
Bon courage, et que vos tokens soient infinis !  [:la multiplication:5]  
 
Note finale : Si vous avez des questions précises sur un modèle ou une config, posez-les. Je réponds même à 3h du matin (surtout si c'est pour déboguer un "error 404" sur un GPU qui refuse de se mettre en mode inference).
 
ce message a été créé à partir du prompt :
Je veux que tu répondes de manière détaillée à ces questions comme si tu étais un spécialiste de l'IA local et cloud. Les réponses doivent être détaillées avec une légère pointe d'humour et doit permettre à des débutants curieux de se lancer dans le domaine de l’hébergement local de modèles tel que Qwen, Gemma, Kimi et Deepseek. Autant que possible précise les budgets nécessaires (avec une fourchette très large qui va de 150€ pour un PC AMD BC-250 avec 16GO de mémoire unifiée au DGX-H100 qui en vaut 350000€. Je veux aussi des options viables comme des Mac avec 16, 32, 48, 64, 128 GO de RAM, des cartes graphiques grand public (8, 16, 24 et 32 GO de VRAM) et les options multi GPU ( 2 et plus). Intègre aussi la game AMD AI MAX 395 qui propose de 32GO pour 1500€ à 128GO pour 2500€ pour l'option à 128GO de RAM unifié avec de solides performances en inférence. un tableau pour résumer quelle machine peut quoi sera aussi très utile. Toute la mise en page doit être fait avec du bb code (forum)


Message édité par neo world le 27-04-2026 à 02:10:16
n°11475684
XaTriX
Posté le 26-04-2026 à 14:48:32  profilanswer
 

[:drapo]


---------------
Proxytaf ? non rien
n°11475685
XaTriX
Posté le 26-04-2026 à 14:52:25  profilanswer
 

[:icon2] Discussions sur le matériel et son optimisation, les logiciels (ollama, LM studio, etc), framework (mlx, etc) et les modèles open-source/weight
 

[:icon2] Discussions générales sur l'IA et le ML, l'éthique et l'utilisation de l'IA
 

[:icon2] Discussions sur les LLM, les news des gros acteurs mais aussi les sorties des modèles et les outils (Claude Desktop/Cowork, etc)
 

[:icon2] Discussions sur le développement logiciel par IA/LLM avec les outils comme Claude Code, Codex et OpenCode avec gestion de projet et modèles LLM dédiés

Message cité 3 fois
Message édité par XaTriX le 26-04-2026 à 15:09:53

---------------
Proxytaf ? non rien
n°11475686
neo world
Posté le 26-04-2026 à 14:52:27  profilanswer
 

Bienvenue ! :D
Vous pouvez évidemment faire des suggestions / participer à la FP :D

n°11475687
speedboyz3​0
Guide Michelin :o
Posté le 26-04-2026 à 14:54:03  profilanswer
 
n°11475688
neo world
Posté le 26-04-2026 à 14:54:55  profilanswer
 
n°11475689
XaTriX
Posté le 26-04-2026 à 14:56:54  profilanswer
 


 

neo world a écrit :


 
bienvenue ! :D


recheck j'ai fait une liste des topics HFR pour les partager, dites moi si c'est accurate


---------------
Proxytaf ? non rien
n°11475690
speedboyz3​0
Guide Michelin :o
Posté le 26-04-2026 à 14:57:10  profilanswer
 

Ici je fais des tests avec LM Studio et Ollama.
 
Qwen 3.5 et Gemma 4.
 
Trop lent, trop vite limité par la ram sur mon MBA M3 24Go ram.
 
J'attends les nouveaux minis / Studios. Je pense qu'il faut au moins 48Go de ram pour avoir un modèle suffisant et le contexte qui va bien.

mood
Publicité
Posté le 26-04-2026 à 14:57:10  profilanswer
 

n°11475692
XaTriX
Posté le 26-04-2026 à 14:59:05  profilanswer
 

Bon je suis pas sur que le topic doit aller section hardware mais effectivement une partie c'est de l'hardware :D
mais c'est plus rapidement voir bien plus du soft : modeles, api, outils divers, optimisation
mais bon ok sans hardware on peut rien faire tourner et on s'adapte au hardware


---------------
Proxytaf ? non rien
n°11475693
XaTriX
Posté le 26-04-2026 à 14:59:33  profilanswer
 

speedboyz30 a écrit :

Ici je fais des tests avec LM Studio et Ollama.
 
Qwen 3.5 et Gemma 4.
 
Trop lent, trop vite limité par la ram sur mon MBA M3 24Go ram.
 
J'attends les nouveaux minis / Studios. Je pense qu'il faut au moins 48Go de ram pour avoir un modèle suffisant et le contexte qui va bien.


le mec qui arrive à souder de la ram sera riche :o
mais bon j'imagine que la ram est dans le soc chez apple m ?


---------------
Proxytaf ? non rien
n°11475694
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 26-04-2026 à 15:02:57  profilanswer
 

Oui c'est en sandwitch directement, donc un upgrade meme avec du gros matos de soudure c'est mort


---------------
Victime de girafophobie, mais se soigne.
n°11475695
XaTriX
Posté le 26-04-2026 à 15:03:43  profilanswer
 

Tronklou a écrit :

Oui c'est en sandwitch directement, donc un upgrade meme avec du gros matos de soudure c'est mort


 [:barthaliastoxik]


---------------
Proxytaf ? non rien
n°11475696
XaTriX
Posté le 26-04-2026 à 15:03:53  profilanswer
 

C'est pareil sur le matos unifié de chez AMD ?


---------------
Proxytaf ? non rien
n°11475697
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 26-04-2026 à 15:05:11  profilanswer
 

Non c'est sur la carte mere pour le coup, mais au prix des modules ram actuellement, c'est pas rentable d'acheter un strix halo + le prix des rams + le prix de l'intervention.


---------------
Victime de girafophobie, mais se soigne.
n°11475698
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 26-04-2026 à 15:06:35  profilanswer
 


 
C'est a ce prix là que tu as une bande passante d'enfoirée :D


---------------
Victime de girafophobie, mais se soigne.
n°11475699
XaTriX
Posté le 26-04-2026 à 15:10:20  profilanswer
 

Tronklou a écrit :

Non c'est sur la carte mere pour le coup, mais au prix des modules ram actuellement, c'est pas rentable d'acheter un strix halo + le prix des rams + le prix de l'intervention.


regarde chez framework en desktop


---------------
Proxytaf ? non rien
n°11475700
XaTriX
Posté le 26-04-2026 à 15:10:34  profilanswer
 

Allez voilà la liste des topics que je vais publier partout:

 

[:icon2] Discussions sur le matériel et son optimisation, les logiciels (ollama, LM studio, etc), framework (mlx, etc) et les modèles open-source/weight

 

[:icon2] Discussions générales sur l'IA et le ML, l'éthique et l'utilisation de l'IA

 

[:icon2] Discussions sur les LLM, les news des gros acteurs mais aussi les sorties des modèles et les outils (Claude Desktop/Cowork, etc)

 

[:icon2] Discussions sur le développement logiciel par IA/LLM avec les outils comme Claude Code, Codex et OpenCode avec gestion de projet et modèles LLM dédiés

 

[:icon2] Avec des outils comme Midjourney, Dall-e, StableDiffusion, GPT-2, Banana ..

Message cité 2 fois
Message édité par XaTriX le 26-04-2026 à 19:43:29

---------------
Proxytaf ? non rien
n°11475701
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 26-04-2026 à 15:13:17  profilanswer
 

XaTriX a écrit :


regarde chez framework en desktop


 
 
Oui je connais bien :D
 
Sinon tu prend un bosgame M5 ;)


---------------
Victime de girafophobie, mais se soigne.
n°11475702
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 26-04-2026 à 15:14:03  profilanswer
 

@neo world : La BC250 c'est un APU avec de la gdrr6, c'est pas une carte d'extension mais bien un pc complet en UMA :D


---------------
Victime de girafophobie, mais se soigne.
n°11475703
XaTriX
Posté le 26-04-2026 à 15:15:01  profilanswer
 

ah oui plus abordable, pas mal le 96go !


---------------
Proxytaf ? non rien
n°11475704
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 26-04-2026 à 15:17:42  profilanswer
 

Il est plus fabriqué, prend le 128gb sur le site constructeur, a moins de 2500e c'est le dernier strix halo abordable :D


---------------
Victime de girafophobie, mais se soigne.
n°11475705
XaTriX
Posté le 26-04-2026 à 15:18:44  profilanswer
 

ouais j'ai vu que c'était plus dispo :o mais bon bien moins cher et au final t'en prends presque 2 pour le prix du 128 :o


---------------
Proxytaf ? non rien
n°11475706
XaTriX
Posté le 26-04-2026 à 15:18:59  profilanswer
 

combien la BC250 ? si tu veux aligner 128go en parallele ,


---------------
Proxytaf ? non rien
n°11475707
Implosion ​du Sord
Fesseur de chameaux
Posté le 26-04-2026 à 15:20:44  profilanswer
 

[:oculae:2]


---------------
Away from keyboard, close to your breast
n°11475708
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 26-04-2026 à 15:22:58  profilanswer
 

XaTriX a écrit :

combien la BC250 ? si tu veux aligner 128go en parallele ,


 
Environs 14gb exploitable par bc250... en gros il en faut 10, + les alims, + les ssd + les ventilos et je te raconte pas le bruit et la conso :D  
 
Pas du tout intéressant versus un strix halo en full ram :jap:


---------------
Victime de girafophobie, mais se soigne.
n°11475710
Rasthor
Posté le 26-04-2026 à 15:24:42  profilanswer
 

[:drapo]

n°11475711
Jules Winn​field
порой не та...
Posté le 26-04-2026 à 15:29:35  profilanswer
 

Merci pour ce topic :jap:  
 
 

XaTriX a écrit :

[:icon2] Discussions sur le matériel et son optimisation, les logiciels (ollama, LM studio, etc), framework (mlx, etc) et les modèles open-source/weight
 

[:icon2] Discussions générales sur l'IA et le ML, l'éthique et l'utilisation de l'IA
 

[:icon2] Discussions sur les LLM, les news des gros acteurs mais aussi les sorties des modèles et les outils (Claude Desktop/Cowork, etc)
 

[:icon2] Discussions sur le développement logiciel par IA/LLM avec les outils comme Claude Code, Codex et OpenCode avec gestion de projet et modèles LLM dédiés


 

XaTriX a écrit :

Allez voilà la liste des topics que je vais publier partout:
 

[:icon2] Discussions sur le matériel et son optimisation, les logiciels (ollama, LM studio, etc), framework (mlx, etc) et les modèles open-source/weight
 

[:icon2] Discussions générales sur l'IA et le ML, l'éthique et l'utilisation de l'IA
 

[:icon2] Discussions sur les LLM, les news des gros acteurs mais aussi les sorties des modèles et les outils (Claude Desktop/Cowork, etc)
 

[:icon2] Discussions sur le développement logiciel par IA/LLM avec les outils comme Claude Code, Codex et OpenCode avec gestion de projet et modèles LLM dédiés


 
Les méfaits de l'IA  [:hahaguy]  

n°11475712
Quich
Pouet ?
Posté le 26-04-2026 à 15:29:50  profilanswer
 

[:raph0ux:3]


---------------
Feedback
n°11475713
speedboyz3​0
Guide Michelin :o
Posté le 26-04-2026 à 15:39:28  profilanswer
 

Tronklou a écrit :


Pas du tout intéressant versus un strix halo en full ram :jap:


 
Yes, mais il faut aussi voir un peu plus loin, par exemple la bande passante ram:
 
Strix Halo (AI Max+ 395): ~256-273 Go/s
Mac Studio M4 Max: 546 Go/s
Mac Studio M3 Ultra: 819 Go/s
RTX 4090: 1008 Go/s
 
Ça fait une sacrée différence en tokens / s ensuite.
Et je crois que le max de ram allouable au LLM est de 96Go vs 116Go sur un mac studio.
 
Bon c'est pas le même prix on est d'accord :o Et le studio n'est pas dispo de toutes façons :o

n°11475714
XaTriX
Posté le 26-04-2026 à 15:39:48  profilanswer
 

Jules Winnfield a écrit :

Merci pour ce topic :jap:

 



  
Jules Winnfield a écrit :

 

Les méfaits de l'IA  [:hahaguy]


Oui j'ai utilisé le post plus haut pour le travailler et je l'ai posté en mode brainless ^^


---------------
Proxytaf ? non rien
n°11475716
speedboyz3​0
Guide Michelin :o
Posté le 26-04-2026 à 15:44:59  profilanswer
 

Tronklou a écrit :

Il est plus fabriqué, prend le 128gb sur le site constructeur, a moins de 2500e c'est le dernier strix halo abordable :D

 

J'avoue c'est pas mal !

 

:o

 

https://www.bosgamepc.com/products/ [...] ai-max-395

Message cité 1 fois
Message édité par speedboyz30 le 26-04-2026 à 15:49:23
n°11475717
neo world
Posté le 26-04-2026 à 15:52:17  profilanswer
 

XaTriX a écrit :

Allez voilà la liste des topics que je vais publier partout:
 

[:icon2] Discussions sur le matériel et son optimisation, les logiciels (ollama, LM studio, etc), framework (mlx, etc) et les modèles open-source/weight
 

[:icon2] Discussions générales sur l'IA et le ML, l'éthique et l'utilisation de l'IA
 

[:icon2] Discussions sur les LLM, les news des gros acteurs mais aussi les sorties des modèles et les outils (Claude Desktop/Cowork, etc)
 

[:icon2] Discussions sur le développement logiciel par IA/LLM avec les outils comme Claude Code, Codex et OpenCode avec gestion de projet et modèles LLM dédiés


c'est ajouté en FP :jap:

n°11475718
speedboyz3​0
Guide Michelin :o
Posté le 26-04-2026 à 15:53:52  profilanswer
 


 
En fait y a pas de secret, même à ram équivalente, le Mac Studio sera 2x plus rapide  [:la chancla:1]  
2x plus cher donc 2x plus rapide  [:zyzz:1]  [:la chancla:1]

n°11475719
neo world
Posté le 26-04-2026 à 15:55:15  profilanswer
 

Tronklou a écrit :

@neo world : La BC250 c'est un APU avec de la gdrr6, c'est pas une carte d'extension mais bien un pc complet en UMA :D


Vrai ! mais un peu chiant à identifier comme PC indépendant avec son form factor PCI express (pour les mining rigs. Je sais :D) si vraiment ça t'arrache les yeux je veux bien le passer en unifié qui est sa place technique mais pas sa place de coeur  :pt1cable:  :o

n°11475720
speedboyz3​0
Guide Michelin :o
Posté le 26-04-2026 à 15:57:48  profilanswer
 

Citation :

[:icon4] LE point critique pour l'agent use : Prompt Processing
 
C'est ici que l'écart devient brutal et que beaucoup de comparatifs ratent l'essentiel.
L'agent use (tool calling, fonctions multiples, contexte long avec docs/RAG) ne dépend PAS principalement du token generation.  
Il dépend du prompt processing : la vitesse à laquelle la machine ingère 5k, 20k, 50k tokens de contexte avant de répondre.
 
Un agent typique fait ceci à chaque tour :
 
Reçoit le system prompt + tool definitions (~3-5k tokens)
Reçoit l'historique de conversation (~5-30k tokens)
Reçoit le résultat du dernier tool call (~1-10k tokens)
Doit PROMPT PROCESS tout ça avant de générer 1 token de réponse
 
Si le prompt processing est lent → chaque tool call ajoute des secondes de latence → l'agent devient frustrant à utiliser, surtout en multi-tour.
 
Mac Studio M4 Max (MLX)~400-700 t/s
Mac Studio M3 Ultra (MLX)~600-1000 t/s
Strix Halo ~340 t/s
 
Sur Strix Halo, l'AMD lag significativement à 340 tokens/sec en prompt processing malgré des capacités FP4 similaires au DGX Spark qui fait 1,723 t/s. Cela confirme que la bande passante mémoire LPDDR5X (273 GB/s) est le goulot d'étranglement.


 

n°11475721
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 26-04-2026 à 15:59:44  profilanswer
 

neo world a écrit :


Vrai ! mais un peu chiant à identifier comme PC indépendant avec son form factor PCI express (pour les mining rigs. Je sais :D) si vraiment ça t'arrache les yeux je veux bien le passer en unifié qui est sa place technique mais pas sa place de coeur  :pt1cable:  :o

 

Le form factor est bizarre mais c'est bien sa description technique, dans aucun monde c'est une carte qui se branche sur un pc  :??:


---------------
Victime de girafophobie, mais se soigne.
n°11475722
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 26-04-2026 à 16:00:12  profilanswer
 

speedboyz30 a écrit :

Citation :

[:icon4] LE point critique pour l'agent use : Prompt Processing

 

C'est ici que l'écart devient brutal et que beaucoup de comparatifs ratent l'essentiel.
L'agent use (tool calling, fonctions multiples, contexte long avec docs/RAG) ne dépend PAS principalement du token generation.
Il dépend du prompt processing : la vitesse à laquelle la machine ingère 5k, 20k, 50k tokens de contexte avant de répondre.

 

Un agent typique fait ceci à chaque tour :

 

Reçoit le system prompt + tool definitions (~3-5k tokens)
Reçoit l'historique de conversation (~5-30k tokens)
Reçoit le résultat du dernier tool call (~1-10k tokens)
Doit PROMPT PROCESS tout ça avant de générer 1 token de réponse

 

Si le prompt processing est lent → chaque tool call ajoute des secondes de latence → l'agent devient frustrant à utiliser, surtout en multi-tour.

 

Mac Studio M4 Max (MLX)~400-700 t/s
Mac Studio M3 Ultra (MLX)~600-1000 t/s
Strix Halo ~340 t/s

 

Sur Strix Halo, l'AMD lag significativement à 340 tokens/sec en prompt processing malgré des capacités FP4 similaires au DGX Spark qui fait 1,723 t/s. Cela confirme que la bande passante mémoire LPDDR5X (273 GB/s) est le goulot d'étranglement.

 


 

Oui mais c'est absolument pas le même tarif  :D


---------------
Victime de girafophobie, mais se soigne.
n°11475724
neo world
Posté le 26-04-2026 à 16:13:57  profilanswer
 

Tronklou a écrit :


 
Le form factor est bizarre mais c'est bien sa description technique, dans aucun monde c'est une carte qui se branche sur un pc  :??:


C'est une carte qui trouve sa place à côté du PC  [:moundir]  même l'alimentation ne sait pas quoi en faire avec ses connecteurs sans prise carte mère standard pour pour démarrer physiquement en même temps :o
je ne suis pas seul à avoir du mal à la catégoriser !  [:demoderateur:5]  :o

Message cité 2 fois
Message édité par neo world le 26-04-2026 à 16:14:19
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7
Page Précédente

Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Hardware
  Actus

  Infra IA : aide au choix et troubleshot de LLM locaux

 

Sujets relatifs
Besoin d'aide pour tourBesoin d'aide, problème avec mon pc
AIde pour config 4KBesoin d'aide pour config rapport/qualité prix
Choix disspateur NVMeAjout de RAM , meilleur choix ? DDR4 2400
Aide pour config Graphiste 2D/3DBesoin d'aide sur projet config fanless linux mint
Conseil choix 2 configs avant achatChoix GPU - Jeux sur 49" 5120X1440p
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)