| |||||
| Auteur | Sujet : Infra IA : aide au choix et troubleshot de LLM locaux |
|---|---|
bounty2k | Reprise du message précédent :
Message édité par bounty2k le 04-05-2026 à 16:12:35 |
the_fennec f3nn3cUs z3rd4 |
Message édité par the_fennec le 04-05-2026 à 16:26:35 --------------- Faudra que je teste un jour :o |
Tronklou ❤❤ Vrp Bambulab à mi-temps ❤❤ | Je dit pas que ca marchera pas, mais par contre quand il y a des nouveautés, c'est en général cuda first quoi qu'il arrive. --------------- Victime de girafophobie, mais se soigne. |
the_fennec f3nn3cUs z3rd4 | Le Speculative Decoding est dans le main de llama.cpp et ça marche pas top au final pour la génération de code.
--------------- Faudra que je teste un jour :o |
neo world |
|
Quich Pouet ? | Est-ce que vous avez des benchs de la perf penalty à splitter les modèles sur plusieurs GPU par rapport à une seule ? J'ai demandé à Gemini et Perplexity mais je n'ai pas eu de retours bien précis avec des exemples, ils disent que c'est moins perfs à cause des limites du lien PCI-e et du fait que le kvcache/contexte est présent sur chaque GPU (donc ça limite la vram utile par GPU) mais rien de chiffré. --------------- Feedback |
the_fennec f3nn3cUs z3rd4 |
--------------- Faudra que je teste un jour :o |
the_fennec f3nn3cUs z3rd4 | Running a 35B AI Model on 6GB VRAM, FAST (llama.cpp Guide)
--------------- Faudra que je teste un jour :o |
LibreArbitre La /root est longue |
the_fennec f3nn3cUs z3rd4 |
--------------- Faudra que je teste un jour :o |
the_fennec f3nn3cUs z3rd4 |
--------------- Faudra que je teste un jour :o |
neo world |
|
d@kn1ko |
|
neo world | vLLM sera mieux pour le multi GPU mais tu auras le temps d'y penser quand tu achèteras une deuxième carte |
d@kn1ko |
|
the_fennec f3nn3cUs z3rd4 |
--------------- Faudra que je teste un jour :o |
neo world | avec un gros gros cache alors |
Tronklou ❤❤ Vrp Bambulab à mi-temps ❤❤ | Typiquement https://vast.ai/ C'est bien aussi de tester en location des gpu équivalent a ce que tu peut/veux acheter, la désillusion peut être grande entre les attentes dignes d'un gros modèles commerciales et la réalité du local. --------------- Victime de girafophobie, mais se soigne. |
extenue1 | Merci pour l'idee !!! J'ai 200$ a bouffer chez digitalocean (merci github student) , je vais aller allumer leur vps gpu |
the_fennec f3nn3cUs z3rd4 |
Message édité par the_fennec le 05-05-2026 à 22:02:05 --------------- Faudra que je teste un jour :o |
ibuprophet |
|
Quich Pouet ? |
neo world |
|
d@kn1ko |
Message édité par d@kn1ko le 06-05-2026 à 09:09:17 |
speedboyz30 Guide Michelin :o |
|
neo world | Tu as plus de détails sur les problèmes fréquents ? Ici pas de problème avec le MCP LM Studio. J’en déduis que des openclaw and consorts devraient rouler |
neo world | Pour ceux qui utilisent Gemma ou ont renoncé en raison de la vitesse de génération de token Google a mis à jour les modèles. Jusqu’à x3 en vitesse https://huggingface.co/collections/google/gemma-4 |
speedboyz30 Guide Michelin :o | Par exemple:
Message édité par speedboyz30 le 06-05-2026 à 15:10:59 |
neo world | merci |
bounty2k |
|
the_fennec f3nn3cUs z3rd4 |
--------------- Faudra que je teste un jour :o |

| Sujets relatifs | |
|---|---|
| [Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co | sécurité de l'IA / agentique et des Devs en roue libre |
| Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux | |




