Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2177 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  18  19  20  21  22  23
Page Suivante
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°41389
the_fennec
f3nn3cUs z3rd4
Posté le 04-07-2026 à 18:21:29  profilanswer
 

Reprise du message précédent :

M300A a écrit :

:hello:
 
Normalement je vais les avoir mes 4 RTX 6000, par contre forcément avec le prix du matos, on aura pas exactement ce qu'on voulait.
Est-ce embêtant si on est très léger niveau CPU / RAM, genre 2x 32 cores et 256G de ram ? On upgradera ça plus tard. Ce que je veux éviter c'est une connerie du genre "t'a au moins besoin d'autant de ram que de vram car pour charger le modèle c'est un swap atomique"  
 
:jap:


 
Tout dépends du modèle que tu comptes charger et du nombre d'utilisateurs, si c'est du MoE pour un utilisateur le CPU et la RAM peuvent aident. Si c'est du dense multi-user, je ne pense pas que ça sera vraiment utile. Après je dis ça juste avec ma petite expérience avec llama.cpp, pour VLLM je sais pas.
 
C'est quoi les CPUs des Xeon récent avec de la DDR5?


---------------
Faudra que je teste un jour :o
n°41390
the_fennec
f3nn3cUs z3rd4
Posté le 04-07-2026 à 18:31:50  profilanswer
 

Amonchakai a écrit :

Si tu fine tune sur le test set c’est de la triche, ça vaut rien l’évaluation


 
Je sais pas comment ils ont fait, mais déà le fait de pas le mettre en face de Qwen 3.6, c'est un peu dommage :/
 
Sinon les retours sont pas forcément très bon, pas mal de problème de tool calls:
https://huggingface.co/deepreinforc [...] iscussions
 
Il y a un an le fine tuning pouvait être intéressant, mais clairement plus maintenant. Vu que ça coûte rien en GPU par rapport à un training complet, je vois pas pourquoi les concepteurs de LLM ne l'auraient pas déjà fait...


---------------
Faudra que je teste un jour :o
n°41394
M300A
Posté le 04-07-2026 à 18:42:32  profilanswer
 

the_fennec a écrit :

 

Tout dépends du modèle que tu comptes charger et du nombre d'utilisateurs, si c'est du MoE pour un utilisateur le CPU et la RAM peuvent aident. Si c'est du dense multi-user, je ne pense pas que ça sera vraiment utile. Après je dis ça juste avec ma petite expérience avec llama.cpp, pour VLLM je sais pas.

 

C'est quoi les CPUs des Xeon récent avec de la DDR5?

 

Ca sera de l'epyc en ddr5. Quelques utilisateurs simultanés max, je pense que je vais essayer de faire tourner un Deepseek Flash complet mais j'ai pas encore réfléchi à ce qui était possible. Peut être qu'un deepseek pro ou un gml 5.2 salement quantisé peut marcher aussi mais j'ai peur que ça soit moins bon.


---------------
:wq
n°41396
the_fennec
f3nn3cUs z3rd4
Posté le 04-07-2026 à 19:11:50  profilanswer
 

M300A a écrit :

Ca sera de l'epyc en ddr5. Quelques utilisateurs simultanés max, je pense que je vais essayer de faire tourner un Deepseek Flash complet mais j'ai pas encore réfléchi à ce qui était possible. Peut être qu'un deepseek pro ou un gml 5.2 salement quantisé peut marcher aussi mais j'ai peur que ça soit moins bon.


 
Dflash passe sans soucis:
https://huggingface.co/deepseek-ai/ [...] /tree/main
 
GLM 5.2 en IQ4_XS, mais avec un paquet d'experts en CPU, mais je pense que c'est plus pour le fun qu'autre chose:
https://huggingface.co/unsloth/GLM-5.2-GGUF


---------------
Faudra que je teste un jour :o
n°41407
TotalRecal​l
Posté le 04-07-2026 à 22:18:22  profilanswer
 

M300A a écrit :


Oui dans un contexte pro les unités ne sont pas les mêmes :o


Je sais bien :D. Mais ça reste marrant à lire, surtout dans le contexte tarifaire actuel.

 
the_fennec a écrit :

 

J'aime bien la chaîne de Token Chaser pour ça:
https://www.youtube.com/watch?v=yVqjwI37br0

 

TLDR: Qwen 35B est mieux :o

 

En "fine tunant" certaines parties du modèle pour réussir les benchs, ils en cassent d'autres, notamment le tool call ce qui est autrement plus gênant que foirer un bench synthétique!


Merci pour la vidéo, j'étais passé à côté ! En pauvre que je suis c'est plutôt le 9b que je compte tester que le 35 (même si avec un peu d'offload ça rentrerait aussi en q4), mais ça reste très intéressant comme comparaison.


Message édité par TotalRecall le 04-07-2026 à 22:23:16

---------------
Topic .Net - C# @ Prog
 Page :   1  2  3  4  5  ..  18  19  20  21  22  23
Page Suivante

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)