Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
3234 connectés 

 

Sujet(s) à lire :
 

Avez-vous déjà pris du matos pour faire tourner des modèles LLM gérés par vous même ? ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-06-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7
Page Suivante
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°11476968
the_fennec
f3nn3cUs z3rd4
Posté le 06-05-2026 à 22:18:11  profilanswer
 

Reprise du message précédent :

neo world a écrit :

Pour ceux qui utilisent Gemma ou ont renoncé en raison de la vitesse de génération de token Google a mis à jour les modèles. Jusqu’à x3 en vitesse https://huggingface.co/collections/google/gemma-4


 
Mouaif, mon problème avec les Gemma c'est pas la vitesse, mais juste qu'ils marchent pas. J'ai jamais eu de tools qui fonctionnent, et la génération fait n'importe quoi rapidement.


---------------
Faudra que je teste un jour :o
mood
Publicité
Posté le 06-05-2026 à 22:18:11  profilanswer
 

n°11476969
the_fennec
f3nn3cUs z3rd4
Posté le 06-05-2026 à 22:20:56  profilanswer
 

speedboyz30 a écrit :


 
Préférence pour le mac studio.
 
Pour du coding / conversation ça ira.
 
Par contre pour de l'agentique, c'est mort.
Je vois partout sur reddit que c'est la merde même avec plus grosses specs  [:leve le pied jeannot:4]


 
Quel Mac studio? Je pense qu'a partir de 48/64Go on peut commencer a avoir quelque chose de pas mal en agentique. En dessous c'est chaud.


---------------
Faudra que je teste un jour :o
n°11476971
the_fennec
f3nn3cUs z3rd4
Posté le 06-05-2026 à 22:27:14  profilanswer
 

neo world a écrit :

merci :jap:
 
pour les fans de Qwen grosse acceleration en vue également : https://www.reddit.com/r/LocalLLaMA [...] _using_mtp


 
Choix difficile, 100 tg/s en 35B ou 30 en 27B :o
Par contre 256k de contexte en q4 il doit plus rester grand-chose de pertinent a 50% de remplissage...


---------------
Faudra que je teste un jour :o
n°11476974
neo world
Posté le 06-05-2026 à 22:35:11  profilanswer
 

bounty2k a écrit :


Ou as tu vue cette information ? Je ne trouve rien dans la fiche des modèles.
Tu sais si cela concerne également les versions quantifiées en GGUF ?


Ici :https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

n°11476975
neo world
Posté le 06-05-2026 à 22:37:15  profilanswer
 

the_fennec a écrit :


 
Mouaif, mon problème avec les Gemma c'est pas la vitesse, mais juste qu'ils marchent pas. J'ai jamais eu de tools qui fonctionnent, et la génération fait n'importe quoi rapidement.


Il gère mieux les recherches Web / Compilation d'info que ses accolytes Qwen3.6 / Nemotron 3 de même taille. Mais je préfère Qwen pour tout le reste :jap:

Message cité 1 fois
Message édité par neo world le 06-05-2026 à 22:38:10
n°11476993
bounty2k
Posté le 07-05-2026 à 08:43:04  profilanswer
 

neo world a écrit :


Ici :https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/


Merci , je comprend mieux :jap:  
Il on adapté leurs models au speculative decoding en créant des model draft (assistant)
Du coup j'ai l'impression qu'aucune version GGUF ne semble encore dispo sur ce model, je vais attendre que ça se décante.
Comme pour the_fennec, Gemma 4 est plutot rapide chez moi sur llamaCPP (plus que Qwen3.5) mais ne supporte pas correctement le tooling

n°11477007
speedboyz3​0
Guide Michelin :o
Posté le 07-05-2026 à 10:22:15  profilanswer
 

the_fennec a écrit :


 
Quel Mac studio? Je pense qu'a partir de 48/64Go on peut commencer a avoir quelque chose de pas mal en agentique. En dessous c'est chaud.


 
Vu les retours reddit, même pas apparemment.
 
Si quelqu'un a des retours concrets aller-y  :bounce:

n°11477012
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 07-05-2026 à 10:49:45  profilanswer
 

Ca dépend tu veut des retours sur quoi exactement ?  
 
Dans mon cas d'usage le local c'est cool, mais dans les fait il me sert a faire de l'OCR essentiellement


---------------
Victime de girafophobie, mais se soigne.
n°11477015
speedboyz3​0
Guide Michelin :o
Posté le 07-05-2026 à 11:06:09  profilanswer
 

Tronklou a écrit :

Ca dépend tu veut des retours sur quoi exactement ?  
 
Dans mon cas d'usage le local c'est cool, mais dans les fait il me sert a faire de l'OCR essentiellement


 
Le monsieur parlait d'usage agentique de local llm.
J'ai vu sur reddit que ça ne fonctionnait pas / mal.
Donc si y a des retours là dessus je prends (pas usage conversationnel / ocr).

n°11477016
the_fennec
f3nn3cUs z3rd4
Posté le 07-05-2026 à 11:07:57  profilanswer
 

neo world a écrit :

Il gère mieux les recherches Web / Compilation d'info que ses accolytes Qwen3.6 / Nemotron 3 de même taille. Mais je préfère Qwen pour tout le reste :jap:


Tu l'utilises avec quel agent?
 

speedboyz30 a écrit :

Vu les retours reddit, même pas apparemment.
 
Si quelqu'un a des retours concrets aller-y  :bounce:


 
Pour tes posts:
 
1. Openclaw est codé avec le cul et s'attend a avoir un modèle top tier avec 1M de contexte. Rien que d'envoyer "hi" te colles 50k de conneries sur la personnalité de l'agent :o. Il n'a pas du tout été pensé pour marcher en local. Peut être qu'avec 256Go, un gros modèle et un gros context il pourrait bien marché, perso j'ai vite laissé tombé tellement le projet est bordélique.
 
2. Il parle de vieux modèle, gpt-oss et qwen-coder (pas next) sont des vieux tromblons.
 
3. ça divague et par pas de Mac studio
 
 
J'ai joué pas mal avec mon MBP 48Go, et ça marche bien avec llama.cpp et opencode, mais on a plus le droit de les utiliser pour le moment :(.


---------------
Faudra que je teste un jour :o
mood
Publicité
Posté le 07-05-2026 à 11:07:57  profilanswer
 

n°11477019
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 07-05-2026 à 11:30:24  profilanswer
 

speedboyz30 a écrit :

 

Le monsieur parlait d'usage agentique de local llm.
J'ai vu sur reddit que ça ne fonctionnait pas / mal.
Donc si y a des retours là dessus je prends (pas usage conversationnel / ocr).

 

Avec un bon harness (pi) et un model dédié il m'a sortie du code correct pour du micro python.

 

Maintenant oui il faut bien voir que du local c'est périlleux : tout doit être bien cadré pour compenser le fait que le model est beaucoup plus con, le harness doit être en conséquence également. Et tu va passer du temps à mettre au point les skills et les workflow.

 

Rien a voir avec les gros model tres intelligent qui a partir de trucs vagues vont réussir à se démerder


---------------
Victime de girafophobie, mais se soigne.
n°11477031
neo world
Posté le 07-05-2026 à 14:24:48  profilanswer
 

the_fennec a écrit :


Tu l'utilises avec quel agent?
 


J'ai pas encore reçu mon précieux (il est à la frontière allemande ! caramba je vais avoir du temps pour m'occuper des gosses ce weekend (je suis pas canadien si ça peut rassurer :o ). Donc je fais tout avec LM Studio, des skills aux petits oignons  :love: ( https://github.com/addyosmani/agent-skills ) et des plugins (ceux de brius pour le web search + visit website donnent le plus de satisfaction pour l'instant) :jap:

n°11477033
neo world
Posté le 07-05-2026 à 14:27:07  profilanswer
 

speedboyz30 a écrit :


 
Le monsieur parlait d'usage agentique de local llm.
J'ai vu sur reddit que ça ne fonctionnait pas / mal.
Donc si y a des retours là dessus je prends (pas usage conversationnel / ocr).


Je t'en ferai quand j'aurai commencé à monter la stack. En attendant le Strix Halo je vais bosser avec un Claude Code dans un container pour me faire la main sur la gestion de tokens, les skills et voir là où ça bosse mieux que mon Qwen 3.6 27b boosté aux skills (normalement c'est mieux partout sauf le quota de tokens mais bref c'est mieux de l'experimenter :o ))

n°11477040
pich_mu
Posté le 07-05-2026 à 15:45:46  profilanswer
 

neo world a écrit :


J'ai pas encore reçu mon précieux (il est à la frontière allemande ! caramba je vais avoir du temps pour m'occuper des gosses ce weekend (je suis pas canadien si ça peut rassurer :o ). Donc je fais tout avec LM Studio, des skills aux petits oignons  :love: ( https://github.com/addyosmani/agent-skills ) et des plugins (ceux de brius pour le web search + visit website donnent le plus de satisfaction pour l'instant) :jap:


 
Ça a l’air pas mal les agents skills  :miam:  
 
Comment tu utilise tout ça ? Tu lance LM Studio en mode server et tu couple le tout a VS Code ou équivalent ?

n°11477042
neo world
Posté le 07-05-2026 à 15:52:18  profilanswer
 

pich_mu a écrit :


 
Ça a l’air pas mal les agents skills  :miam:  
 
Comment tu utilise tout ça ? Tu lance LM Studio en mode server et tu couple le tout a VS Code ou équivalent ?


Je charge mon modèle dans LM studio (avec le serveur local actif + clé API - accès pour tout le réseau (laptop qui peut se balader sur un réseau non protégé)
je charge mon skill en system prompt
Studio code + plugin continue (mais tu en as d'autres genre cline que j'ai testé aussi) connecté à mon serveur LM Studio (configuré pour charger automatiquement le modèle de mon choix si j'avais oublié)
 
Pour avoir les skills dans VSCode automatiquement faut le rajouter dans les paramètres de chargement de ton modèle :jap:

mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7
Page Suivante

Aller à :
Ajouter une réponse
 

Sujets relatifs
Besoin d'aide pour tourBesoin d'aide, problème avec mon pc
AIde pour config 4KBesoin d'aide pour config rapport/qualité prix
Choix disspateur NVMeAjout de RAM , meilleur choix ? DDR4 2400
Aide pour config Graphiste 2D/3DBesoin d'aide sur projet config fanless linux mint
Conseil choix 2 configs avant achatChoix GPU - Jeux sur 49" 5120X1440p
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)