Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Sujet(s) à lire :

Mot : Pseudo : Filtrer
Page : 1 2 3 4 5 6 7 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

the_fennec

f3nn3cUs z3rd4

Reprise du message précédent :

neo world a écrit :

Pour ceux qui utilisent Gemma ou ont renoncé en raison de la vitesse de génération de token Google a mis à jour les modèles. Jusqu’à x3 en vitesse https://huggingface.co/collections/google/gemma-4

Mouaif, mon problème avec les Gemma c'est pas la vitesse, mais juste qu'ils marchent pas. J'ai jamais eu de tools qui fonctionnent, et la génération fait n'importe quoi rapidement.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

Publicité

the_fennec

f3nn3cUs z3rd4

speedboyz30 a écrit :

Préférence pour le mac studio.

Pour du coding / conversation ça ira.

Par contre pour de l'agentique, c'est mort.
Je vois partout sur reddit que c'est la merde même avec plus grosses specs [:leve le pied jeannot:4]

Quel Mac studio? Je pense qu'a partir de 48/64Go on peut commencer a avoir quelque chose de pas mal en agentique. En dessous c'est chaud.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

merci :jap:

pour les fans de Qwen grosse acceleration en vue également : https://www.reddit.com/r/LocalLLaMA [...] _using_mtp

Choix difficile, 100 tg/s en 35B ou 30 en 27B
Par contre 256k de contexte en q4 il doit plus rester grand-chose de pertinent a 50% de remplissage...

---------------
Faudra que je teste un jour :o

neo world

bounty2k a écrit :

Ou as tu vue cette information ? Je ne trouve rien dans la fiche des modèles.
Tu sais si cela concerne également les versions quantifiées en GGUF ?

Ici :https: //blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

Message cité 1 fois

neo world

the_fennec a écrit :

Mouaif, mon problème avec les Gemma c'est pas la vitesse, mais juste qu'ils marchent pas. J'ai jamais eu de tools qui fonctionnent, et la génération fait n'importe quoi rapidement.

Il gère mieux les recherches Web / Compilation d'info que ses accolytes Qwen3.6 / Nemotron 3 de même taille. Mais je préfère Qwen pour tout le reste :jap:

Message cité 1 fois
Message édité par neo world le 06-05-2026 à 22:38:10

bounty2k

neo world a écrit :

Ici :https: //blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

Merci , je comprend mieux :jap:
Il on adapté leurs models au speculative decoding en créant des model draft (assistant)
Du coup j'ai l'impression qu'aucune version GGUF ne semble encore dispo sur ce model, je vais attendre que ça se décante.
Comme pour the_fennec, Gemma 4 est plutot rapide chez moi sur llamaCPP (plus que Qwen3.5) mais ne supporte pas correctement le tooling

speedboyz30

Guide Michelin :o

the_fennec a écrit :

Quel Mac studio? Je pense qu'a partir de 48/64Go on peut commencer a avoir quelque chose de pas mal en agentique. En dessous c'est chaud.

Vu les retours reddit, même pas apparemment.

Si quelqu'un a des retours concrets aller-y :bounce:

Message cité 1 fois

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Ca dépend tu veut des retours sur quoi exactement ?

Dans mon cas d'usage le local c'est cool, mais dans les fait il me sert a faire de l'OCR essentiellement

Message cité 1 fois

---------------
Victime de girafophobie, mais se soigne.

speedboyz30

Guide Michelin :o

Tronklou a écrit :

Ca dépend tu veut des retours sur quoi exactement ?

Dans mon cas d'usage le local c'est cool, mais dans les fait il me sert a faire de l'OCR essentiellement

Le monsieur parlait d'usage agentique de local llm.
J'ai vu sur reddit que ça ne fonctionnait pas / mal.
Donc si y a des retours là dessus je prends (pas usage conversationnel / ocr).

Message cité 2 fois

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Il gère mieux les recherches Web / Compilation d'info que ses accolytes Qwen3.6 / Nemotron 3 de même taille. Mais je préfère Qwen pour tout le reste :jap:

Tu l'utilises avec quel agent?

speedboyz30 a écrit :

Vu les retours reddit, même pas apparemment.

Si quelqu'un a des retours concrets aller-y :bounce:

Pour tes posts:

1. Openclaw est codé avec le cul et s'attend a avoir un modèle top tier avec 1M de contexte. Rien que d'envoyer "hi" te colles 50k de conneries sur la personnalité de l'agent . Il n'a pas du tout été pensé pour marcher en local. Peut être qu'avec 256Go, un gros modèle et un gros context il pourrait bien marché, perso j'ai vite laissé tombé tellement le projet est bordélique.

2. Il parle de vieux modèle, gpt-oss et qwen-coder (pas next) sont des vieux tromblons.

3. ça divague et par pas de Mac studio

J'ai joué pas mal avec mon MBP 48Go, et ça marche bien avec llama.cpp et opencode, mais on a plus le droit de les utiliser pour le moment .

Message cité 1 fois

---------------
Faudra que je teste un jour :o

Publicité

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

speedboyz30 a écrit :

Le monsieur parlait d'usage agentique de local llm.
J'ai vu sur reddit que ça ne fonctionnait pas / mal.
Donc si y a des retours là dessus je prends (pas usage conversationnel / ocr).

Avec un bon harness (pi) et un model dédié il m'a sortie du code correct pour du micro python.

Maintenant oui il faut bien voir que du local c'est périlleux : tout doit être bien cadré pour compenser le fait que le model est beaucoup plus con, le harness doit être en conséquence également. Et tu va passer du temps à mettre au point les skills et les workflow.

Rien a voir avec les gros model tres intelligent qui a partir de trucs vagues vont réussir à se démerder

---------------
Victime de girafophobie, mais se soigne.

neo world

the_fennec a écrit :

Tu l'utilises avec quel agent?

J'ai pas encore reçu mon précieux (il est à la frontière allemande ! caramba je vais avoir du temps pour m'occuper des gosses ce weekend (je suis pas canadien si ça peut rassurer ). Donc je fais tout avec LM Studio, des skills aux petits oignons :love: ( https://github.com/addyosmani/agent-skills ) et des plugins (ceux de brius pour le web search + visit website donnent le plus de satisfaction pour l'instant) :jap:

Message cité 1 fois

neo world

speedboyz30 a écrit :

Le monsieur parlait d'usage agentique de local llm.
J'ai vu sur reddit que ça ne fonctionnait pas / mal.
Donc si y a des retours là dessus je prends (pas usage conversationnel / ocr).

Je t'en ferai quand j'aurai commencé à monter la stack. En attendant le Strix Halo je vais bosser avec un Claude Code dans un container pour me faire la main sur la gestion de tokens, les skills et voir là où ça bosse mieux que mon Qwen 3.6 27b boosté aux skills (normalement c'est mieux partout sauf le quota de tokens mais bref c'est mieux de l'experimenter ))

pich_mu

neo world a écrit :

Ça a l’air pas mal les agents skills :miam:

Comment tu utilise tout ça ? Tu lance LM Studio en mode server et tu couple le tout a VS Code ou équivalent ?

Message cité 1 fois

neo world

pich_mu a écrit :

Ça a l’air pas mal les agents skills :miam:

Comment tu utilise tout ça ? Tu lance LM Studio en mode server et tu couple le tout a VS Code ou équivalent ?

Je charge mon modèle dans LM studio (avec le serveur local actif + clé API - accès pour tout le réseau (laptop qui peut se balader sur un réseau non protégé)
je charge mon skill en system prompt
Studio code + plugin continue (mais tu en as d'autres genre cline que j'ai testé aussi) connecté à mon serveur LM Studio (configuré pour charger automatiquement le modèle de mon choix si j'avais oublié)

Pour avoir les skills dans VSCode automatiquement faut le rajouter dans les paramètres de chargement de ton modèle :jap:

Publicité

Page : 1 2 3 4 5 6 7

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Hardware

Actus

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
Besoin d'aide pour tour	Besoin d'aide, problème avec mon pc
AIde pour config 4K	Besoin d'aide pour config rapport/qualité prix
Choix disspateur NVMe	Ajout de RAM , meilleur choix ? DDR4 2400
Aide pour config Graphiste 2D/3D	Besoin d'aide sur projet config fanless linux mint
Conseil choix 2 configs avant achat	Choix GPU - Jeux sur 49" 5120X1440p
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.053 secondes