Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 18 19 20 21 22 23 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

the_fennec

f3nn3cUs z3rd4

Reprise du message précédent :

M300A a écrit :

:hello:

Normalement je vais les avoir mes 4 RTX 6000, par contre forcément avec le prix du matos, on aura pas exactement ce qu'on voulait.
Est-ce embêtant si on est très léger niveau CPU / RAM, genre 2x 32 cores et 256G de ram ? On upgradera ça plus tard. Ce que je veux éviter c'est une connerie du genre "t'a au moins besoin d'autant de ram que de vram car pour charger le modèle c'est un swap atomique"

:jap:

Tout dépends du modèle que tu comptes charger et du nombre d'utilisateurs, si c'est du MoE pour un utilisateur le CPU et la RAM peuvent aident. Si c'est du dense multi-user, je ne pense pas que ça sera vraiment utile. Après je dis ça juste avec ma petite expérience avec llama.cpp, pour VLLM je sais pas.

C'est quoi les CPUs des Xeon récent avec de la DDR5?

Message cité 1 fois

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Amonchakai a écrit :

Si tu fine tune sur le test set c’est de la triche, ça vaut rien l’évaluation

Je sais pas comment ils ont fait, mais déà le fait de pas le mettre en face de Qwen 3.6, c'est un peu dommage

Sinon les retours sont pas forcément très bon, pas mal de problème de tool calls:
https://huggingface.co/deepreinforc [...] iscussions

Il y a un an le fine tuning pouvait être intéressant, mais clairement plus maintenant. Vu que ça coûte rien en GPU par rapport à un training complet, je vois pas pourquoi les concepteurs de LLM ne l'auraient pas déjà fait...

---------------
Faudra que je teste un jour :o

M300A

the_fennec a écrit :

C'est quoi les CPUs des Xeon récent avec de la DDR5?

Ca sera de l'epyc en ddr5. Quelques utilisateurs simultanés max, je pense que je vais essayer de faire tourner un Deepseek Flash complet mais j'ai pas encore réfléchi à ce qui était possible. Peut être qu'un deepseek pro ou un gml 5.2 salement quantisé peut marcher aussi mais j'ai peur que ça soit moins bon.

Message cité 1 fois

---------------
:wq

the_fennec

f3nn3cUs z3rd4

M300A a écrit :

Dflash passe sans soucis:
https://huggingface.co/deepseek-ai/ [...] /tree/main

GLM 5.2 en IQ4_XS, mais avec un paquet d'experts en CPU, mais je pense que c'est plus pour le fun qu'autre chose:
https://huggingface.co/unsloth/GLM-5.2-GGUF

---------------
Faudra que je teste un jour :o

TotalRecall

M300A a écrit :

Oui dans un contexte pro les unités ne sont pas les mêmes

Je sais bien . Mais ça reste marrant à lire, surtout dans le contexte tarifaire actuel.

the_fennec a écrit :

J'aime bien la chaîne de Token Chaser pour ça:
https://www.youtube.com/watch?v=yVqjwI37br0

TLDR: Qwen 35B est mieux

En "fine tunant" certaines parties du modèle pour réussir les benchs, ils en cassent d'autres, notamment le tool call ce qui est autrement plus gênant que foirer un bench synthétique!

Merci pour la vidéo, j'étais passé à côté ! En pauvre que je suis c'est plutôt le 9b que je compte tester que le 35 (même si avec un peu d'offload ça rentrerait aussi en q4), mais ça reste très intéressant comme comparaison.

Message édité par TotalRecall le 04-07-2026 à 22:23:16

---------------
Topic .Net - C# @ Prog

Page : 1 2 3 4 5 .. 18 19 20 21 22 23

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co	sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.045 secondes