Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
3337 connectés 

 

Sujet(s) à lire :
 

Avez-vous déjà pris du matos pour faire tourner des modèles LLM gérés par vous même ? ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-06-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7  8  9
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°11476968
the_fennec
f3nn3cUs z3rd4
Posté le 06-05-2026 à 22:18:11  profilanswer
 

Reprise du message précédent :

neo world a écrit :

Pour ceux qui utilisent Gemma ou ont renoncé en raison de la vitesse de génération de token Google a mis à jour les modèles. Jusqu’à x3 en vitesse https://huggingface.co/collections/google/gemma-4


 
Mouaif, mon problème avec les Gemma c'est pas la vitesse, mais juste qu'ils marchent pas. J'ai jamais eu de tools qui fonctionnent, et la génération fait n'importe quoi rapidement.


---------------
Faudra que je teste un jour :o
mood
Publicité
Posté le 06-05-2026 à 22:18:11  profilanswer
 

n°11476969
the_fennec
f3nn3cUs z3rd4
Posté le 06-05-2026 à 22:20:56  profilanswer
 

speedboyz30 a écrit :


 
Préférence pour le mac studio.
 
Pour du coding / conversation ça ira.
 
Par contre pour de l'agentique, c'est mort.
Je vois partout sur reddit que c'est la merde même avec plus grosses specs  [:leve le pied jeannot:4]


 
Quel Mac studio? Je pense qu'a partir de 48/64Go on peut commencer a avoir quelque chose de pas mal en agentique. En dessous c'est chaud.


---------------
Faudra que je teste un jour :o
n°11476971
the_fennec
f3nn3cUs z3rd4
Posté le 06-05-2026 à 22:27:14  profilanswer
 

neo world a écrit :

merci :jap:
 
pour les fans de Qwen grosse acceleration en vue également : https://www.reddit.com/r/LocalLLaMA [...] _using_mtp


 
Choix difficile, 100 tg/s en 35B ou 30 en 27B :o
Par contre 256k de contexte en q4 il doit plus rester grand-chose de pertinent a 50% de remplissage...


---------------
Faudra que je teste un jour :o
n°11476974
neo world
Posté le 06-05-2026 à 22:35:11  profilanswer
 

bounty2k a écrit :


Ou as tu vue cette information ? Je ne trouve rien dans la fiche des modèles.
Tu sais si cela concerne également les versions quantifiées en GGUF ?


Ici :https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

n°11476975
neo world
Posté le 06-05-2026 à 22:37:15  profilanswer
 

the_fennec a écrit :


 
Mouaif, mon problème avec les Gemma c'est pas la vitesse, mais juste qu'ils marchent pas. J'ai jamais eu de tools qui fonctionnent, et la génération fait n'importe quoi rapidement.


Il gère mieux les recherches Web / Compilation d'info que ses accolytes Qwen3.6 / Nemotron 3 de même taille. Mais je préfère Qwen pour tout le reste :jap:

Message cité 1 fois
Message édité par neo world le 06-05-2026 à 22:38:10
n°11476993
bounty2k
Posté le 07-05-2026 à 08:43:04  profilanswer
 

neo world a écrit :


Ici :https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/


Merci , je comprend mieux :jap:  
Il on adapté leurs models au speculative decoding en créant des model draft (assistant)
Du coup j'ai l'impression qu'aucune version GGUF ne semble encore dispo sur ce model, je vais attendre que ça se décante.
Comme pour the_fennec, Gemma 4 est plutot rapide chez moi sur llamaCPP (plus que Qwen3.5) mais ne supporte pas correctement le tooling

n°11477007
speedboyz3​0
Guide Michelin :o
Posté le 07-05-2026 à 10:22:15  profilanswer
 

the_fennec a écrit :


 
Quel Mac studio? Je pense qu'a partir de 48/64Go on peut commencer a avoir quelque chose de pas mal en agentique. En dessous c'est chaud.


 
Vu les retours reddit, même pas apparemment.
 
Si quelqu'un a des retours concrets aller-y  :bounce:

n°11477012
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 07-05-2026 à 10:49:45  profilanswer
 

Ca dépend tu veut des retours sur quoi exactement ?  
 
Dans mon cas d'usage le local c'est cool, mais dans les fait il me sert a faire de l'OCR essentiellement


---------------
Victime de girafophobie, mais se soigne.
n°11477015
speedboyz3​0
Guide Michelin :o
Posté le 07-05-2026 à 11:06:09  profilanswer
 

Tronklou a écrit :

Ca dépend tu veut des retours sur quoi exactement ?  
 
Dans mon cas d'usage le local c'est cool, mais dans les fait il me sert a faire de l'OCR essentiellement


 
Le monsieur parlait d'usage agentique de local llm.
J'ai vu sur reddit que ça ne fonctionnait pas / mal.
Donc si y a des retours là dessus je prends (pas usage conversationnel / ocr).

n°11477016
the_fennec
f3nn3cUs z3rd4
Posté le 07-05-2026 à 11:07:57  profilanswer
 

neo world a écrit :

Il gère mieux les recherches Web / Compilation d'info que ses accolytes Qwen3.6 / Nemotron 3 de même taille. Mais je préfère Qwen pour tout le reste :jap:


Tu l'utilises avec quel agent?
 

speedboyz30 a écrit :

Vu les retours reddit, même pas apparemment.
 
Si quelqu'un a des retours concrets aller-y  :bounce:


 
Pour tes posts:
 
1. Openclaw est codé avec le cul et s'attend a avoir un modèle top tier avec 1M de contexte. Rien que d'envoyer "hi" te colles 50k de conneries sur la personnalité de l'agent :o. Il n'a pas du tout été pensé pour marcher en local. Peut être qu'avec 256Go, un gros modèle et un gros context il pourrait bien marché, perso j'ai vite laissé tombé tellement le projet est bordélique.
 
2. Il parle de vieux modèle, gpt-oss et qwen-coder (pas next) sont des vieux tromblons.
 
3. ça divague et par pas de Mac studio
 
 
J'ai joué pas mal avec mon MBP 48Go, et ça marche bien avec llama.cpp et opencode, mais on a plus le droit de les utiliser pour le moment :(.


---------------
Faudra que je teste un jour :o
mood
Publicité
Posté le 07-05-2026 à 11:07:57  profilanswer
 

n°11477019
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 07-05-2026 à 11:30:24  profilanswer
 

speedboyz30 a écrit :

 

Le monsieur parlait d'usage agentique de local llm.
J'ai vu sur reddit que ça ne fonctionnait pas / mal.
Donc si y a des retours là dessus je prends (pas usage conversationnel / ocr).

 

Avec un bon harness (pi) et un model dédié il m'a sortie du code correct pour du micro python.

 

Maintenant oui il faut bien voir que du local c'est périlleux : tout doit être bien cadré pour compenser le fait que le model est beaucoup plus con, le harness doit être en conséquence également. Et tu va passer du temps à mettre au point les skills et les workflow.

 

Rien a voir avec les gros model tres intelligent qui a partir de trucs vagues vont réussir à se démerder


---------------
Victime de girafophobie, mais se soigne.
n°11477031
neo world
Posté le 07-05-2026 à 14:24:48  profilanswer
 

the_fennec a écrit :


Tu l'utilises avec quel agent?
 


J'ai pas encore reçu mon précieux (il est à la frontière allemande ! caramba je vais avoir du temps pour m'occuper des gosses ce weekend (je suis pas canadien si ça peut rassurer :o ). Donc je fais tout avec LM Studio, des skills aux petits oignons  :love: ( https://github.com/addyosmani/agent-skills ) et des plugins (ceux de brius pour le web search + visit website donnent le plus de satisfaction pour l'instant) :jap:

n°11477033
neo world
Posté le 07-05-2026 à 14:27:07  profilanswer
 

speedboyz30 a écrit :


 
Le monsieur parlait d'usage agentique de local llm.
J'ai vu sur reddit que ça ne fonctionnait pas / mal.
Donc si y a des retours là dessus je prends (pas usage conversationnel / ocr).


Je t'en ferai quand j'aurai commencé à monter la stack. En attendant le Strix Halo je vais bosser avec un Claude Code dans un container pour me faire la main sur la gestion de tokens, les skills et voir là où ça bosse mieux que mon Qwen 3.6 27b boosté aux skills (normalement c'est mieux partout sauf le quota de tokens mais bref c'est mieux de l'experimenter :o ))

n°11477040
pich_mu
Posté le 07-05-2026 à 15:45:46  profilanswer
 

neo world a écrit :


J'ai pas encore reçu mon précieux (il est à la frontière allemande ! caramba je vais avoir du temps pour m'occuper des gosses ce weekend (je suis pas canadien si ça peut rassurer :o ). Donc je fais tout avec LM Studio, des skills aux petits oignons  :love: ( https://github.com/addyosmani/agent-skills ) et des plugins (ceux de brius pour le web search + visit website donnent le plus de satisfaction pour l'instant) :jap:


 
Ça a l’air pas mal les agents skills  :miam:  
 
Comment tu utilise tout ça ? Tu lance LM Studio en mode server et tu couple le tout a VS Code ou équivalent ?

n°11477042
neo world
Posté le 07-05-2026 à 15:52:18  profilanswer
 

pich_mu a écrit :


 
Ça a l’air pas mal les agents skills  :miam:  
 
Comment tu utilise tout ça ? Tu lance LM Studio en mode server et tu couple le tout a VS Code ou équivalent ?


Je charge mon modèle dans LM studio (avec le serveur local actif + clé API - accès pour tout le réseau (laptop qui peut se balader sur un réseau non protégé)
je charge mon skill en system prompt (tu peux naviguer entre templates en un clic dans le chat)
Studio code + plugin continue (mais tu en as d'autres genre cline que j'ai testé aussi) connecté à mon serveur LM Studio (configuré pour charger automatiquement le modèle de mon choix si j'avais oublié)
 
Pour avoir ces skills dans VSCode via l'extention continue j'ai fait générer un script à claude (attention je l'ai fait sur Mac d'où le homebrew au départ pour avoir un bash version 5)

Code :
  1. #!/opt/homebrew/bin/bash
  2. SKILLS_DIR=<path vers ton git clone du repo des skills>/agent-skills/skills
  3. CONFIG=<path vers les fichiers de config de continue. la homedir dans le cas de MacOS>/.continue/config.yaml
  4. add_prompt() {
  5.   local CMD="$1"
  6.   local SKILL="$2"
  7.   local SKILL_FILE="$SKILLS_DIR/$SKILL/SKILL.md"
  8.   local CONTENT
  9.   CONTENT=$(awk 'BEGIN{skip=0} /^---/{if(NR==1){skip=1;next} if(skip==1){skip=0;next}} !skip' "$SKILL_FILE";)
  10.   local INDENTED
  11.   INDENTED=$(echo "$CONTENT" | sed 's/^/      /')
  12.   cat >> "$CONFIG" << EOF
  13.   - name: $CMD
  14.     description: agent-skills/$SKILL
  15.     prompt: |
  16. $INDENTED
  17. EOF
  18.   echo "✓ Added /$CMD"
  19. }
  20. if ! grep -q "^prompts:" "$CONFIG"; then
  21.   echo "" >> "$CONFIG"
  22.   echo "prompts:" >> "$CONFIG"
  23. fi
  24. add_prompt "spec"     "spec-driven-development"
  25. add_prompt "plan"     "planning-and-task-breakdown"
  26. add_prompt "build"    "incremental-implementation"
  27. add_prompt "test"     "test-driven-development"
  28. add_prompt "review"   "code-review-and-quality"
  29. add_prompt "simplify" "code-simplification"
  30. add_prompt "ship"     "shipping-and-launch"


vaut mieux faire une sauvegarde du fichier config.yaml avant (commande cp avec le même nom de fichier fini par .bak-datedujour) et c'est marre :o

Message cité 1 fois
Message édité par neo world le 08-05-2026 à 01:39:09
n°11477086
the_fennec
f3nn3cUs z3rd4
Posté le 08-05-2026 à 12:58:42  profilanswer
 

This Local LLM Looked Smart Until I Saw What It Made Up
https://www.youtube.com/watch?v=zBYfzecY5ww
 
Pas mal comme bench!
 
Il link cette chaine très intéressante aussi: https://www.youtube.com/@Protorikis


---------------
Faudra que je teste un jour :o
n°11477089
pich_mu
Posté le 08-05-2026 à 14:15:13  profilanswer
 

neo world a écrit :


Je charge mon modèle dans LM studio (avec le serveur local actif + clé API - accès pour tout le réseau (laptop qui peut se balader sur un réseau non protégé)
je charge mon skill en system prompt (tu peux naviguer entre templates en un clic dans le chat)
Studio code + plugin continue (mais tu en as d'autres genre cline que j'ai testé aussi) connecté à mon serveur LM Studio (configuré pour charger automatiquement le modèle de mon choix si j'avais oublié)
 
Pour avoir ces skills dans VSCode via l'extention continue j'ai fait générer un script à claude (attention je l'ai fait sur Mac d'où le homebrew au départ pour avoir un bash version 5)

Code :
  1. #!/opt/homebrew/bin/bash
  2. SKILLS_DIR=<path vers ton git clone du repo des skills>/agent-skills/skills
  3. CONFIG=<path vers les fichiers de config de continue. la homedir dans le cas de MacOS>/.continue/config.yaml
  4. add_prompt() {
  5.   local CMD="$1"
  6.   local SKILL="$2"
  7.   local SKILL_FILE="$SKILLS_DIR/$SKILL/SKILL.md"
  8.   local CONTENT
  9.   CONTENT=$(awk 'BEGIN{skip=0} /^---/{if(NR==1){skip=1;next} if(skip==1){skip=0;next}} !skip' "$SKILL_FILE";)
  10.   local INDENTED
  11.   INDENTED=$(echo "$CONTENT" | sed 's/^/      /')
  12.   cat >> "$CONFIG" << EOF
  13.   - name: $CMD
  14.     description: agent-skills/$SKILL
  15.     prompt: |
  16. $INDENTED
  17. EOF
  18.   echo "✓ Added /$CMD"
  19. }
  20. if ! grep -q "^prompts:" "$CONFIG"; then
  21.   echo "" >> "$CONFIG"
  22.   echo "prompts:" >> "$CONFIG"
  23. fi
  24. add_prompt "spec"     "spec-driven-development"
  25. add_prompt "plan"     "planning-and-task-breakdown"
  26. add_prompt "build"    "incremental-implementation"
  27. add_prompt "test"     "test-driven-development"
  28. add_prompt "review"   "code-review-and-quality"
  29. add_prompt "simplify" "code-simplification"
  30. add_prompt "ship"     "shipping-and-launch"


vaut mieux faire une sauvegarde du fichier config.yaml avant (commande cp avec le même nom de fichier fini par .bak-datedujour) et c'est marre :o


 
 :jap:  
Merci je vais regarder tout ça  :)  
 
J’utilisais RooCode avec VSCode mais il n’est plus maintenu :( je vais tester Cline.

n°11477159
neo world
Posté le 09-05-2026 à 18:47:14  profilanswer
 

Cline c’était très bien. Je suis passé à continue parce qu’il etait recommandé plus souvent sur Reddit. Au final ça marche donc j’ai gardé mais c’était pas très structuré comme choix :o
 
Sinon … j’ai reçu l’AMD strix halo AI 395+ (ils ont pris le gars du marketing qui bossait avant sur les figurines power rangers :o )
 
Pas encore fait de l’IA dessus. Faut que j’attende que les momes soient couchés mais je vais faire tourner un minimax 2.7 xxs (80GB le xxs quand même :o ) ce soir [:sir_knumskull]


Message édité par neo world le 09-05-2026 à 18:48:03
n°11477160
ibuprophet
Posté le 09-05-2026 à 19:02:45  profilanswer
 

C'est vraiment utilisable ces miniPC IA ? Ok ça a plein de RAM unifiée mais niveau perf prompt fill et token generation ça doit bien tirer la langue non ?

n°11477161
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 09-05-2026 à 19:04:06  profilanswer
 

https://kyuz0.github.io/amd-strix-halo-toolboxes/


---------------
Victime de girafophobie, mais se soigne.
n°11477167
Olivie
SUUUUUUUUUUUUUU
Posté le 09-05-2026 à 21:43:28  profilanswer
 

Deepseek V4 Flash
 

Citation :

@garrytan
Downloading now... 1M token context window with supposedly usable coding agent capability all on a 128GB Macbook Pro is  
 
https://pbs.twimg.com/media/HH21gfsXwAMPtiX?format=jpg&name=small


https://github.com/antirez/ds4


---------------

n°11477168
ibuprophet
Posté le 09-05-2026 à 21:45:01  profilanswer
 

Merci

n°11477170
neo world
Posté le 09-05-2026 à 23:56:18  profilanswer
 

the_fennec a écrit :

J'ai mis ce nouveau projet d'agent a tourner pendant la nuit (en mode yolo):
https://github.com/mlhher/late
 
J'aime bien la philosophie du truc!


Comment je vais le retourner dans les prochaines jours  :love: Merci !

n°11477171
neo world
Posté le 10-05-2026 à 00:03:47  profilanswer
 

Neji Hyuga a écrit :


 
L'un de mes clients a reçu le sien il y a quelques semaines, pour l'instant il est très content.
 
Je suis curieux de voir combien de tokens/s ça débite avec Qwen3.5 122B sur ollama par rapport à "mon" GB10.


Q4 ou autre ?  
 
Pour l'instant avec zero tweak en dehors d'installer un OS avec les drivers AMD (qui incluent Vulkan) j'ai 33 tokens par secondes en IQ3_XXS avec minimax 2.6 GGUF. Suffisant pour bien jouer  [:cerveau lent]

n°11477172
neo world
Posté le 10-05-2026 à 00:07:51  profilanswer
 

Olivie a écrit :

Deepseek V4 Flash
 

Citation :

@garrytan
Downloading now... 1M token context window with supposedly usable coding agent capability all on a 128GB Macbook Pro is  
 
https://pbs.twimg.com/media/HH21gfs [...] name=small


https://github.com/antirez/ds4


modèle de l’élite  [:moonzoid:5]  avec en entrée de gamme un Max 128GB et si on veut vraiment jouer y'a l'ultra 512GB vendu d'occaz 30k€ sur ebay  [:fl0odaj_progressiv:9]

n°11477173
extenue1
Posté le 10-05-2026 à 01:28:51  profilanswer
 

neo world a écrit :


Q4 ou autre ?

 

Pour l'instant avec zero tweak en dehors d'installer un OS avec les drivers AMD (qui incluent Vulkan) j'ai 33 tokens par secondes en IQ3_XXS avec minimax 2.6 GGUF. Suffisant pour bien jouer  [:cerveau lent]

 

Ahhhh vivement la suite !!

n°11477245
neo world
Posté le 10-05-2026 à 23:19:13  profilanswer
 

Pour ceux qui hésiteraient entre Cline, Roo ou Continue : évitez continue. tous les modèles que j'ai testé (minimax comme Qwen, Gemma, minimax ou Nemotron) galèrent à créer / modifier les fichiers. Au départ j'ai cru à des hallucinations mais des posts le mentionnent sur reddit. Passez plutôt côté Kilo (plus de contrôle et assez mature) ou cline (plus facile out of the box en particulier question skills mais YOLO la context window / token processing et pas possible d'overider la limite à30 secondes de timeout. Ca peut arriver avec une context window obèse genre 50k+ tokens  :pt1cable:  [:setlel] )
 
J'ai aussi un peu laché Lemonade qui me donne l'impression de revenir 10 ans en arrière en terme d'UI et fonctionnalités (ça marche mais c'est roots face à LMStudio notamment tout ce qui est gestion des modèles et conversations) je suis repassé à LMStudio comme de toute façon les drivers Vulkan sont plus stables que ROCM (mais ça se rattrape heureusement via un peu de paramètrage) et ROCM n'est pas spécialement plus performant sur du mono GPU / Noeud) :D


Message édité par neo world le 11-05-2026 à 12:20:03
n°11477328
neo world
Posté le 12-05-2026 à 01:29:35  profilanswer
 

beaucoup d'allers-retours cette nuit et aujourd'hui entre Cline et Kilo code mais globalement :
=> Cline fait plus envie sur le papier (convertisseur token/dollars qui rappel les économies du local et rollback à n'importe quel point précis du chat et des fichiers super pratiques notamment) mais avec des LLM locaux il y a un hard stop à 30 secondes hors serveur Ollama  :pt1cable: Passer à Ollama fonctionne mais c'est franchement loin du confort de l'UI de LM Studio (logs debug en un clic, ajout de l'accès à internet au modèle, chat assez avancé, mise à jour des drivers et frameworks en un clic)
=> Kilo a une bonne manière de présenter le workflow (timeframe des étapes avec code couleur) n'a pas de timeout stupides avec les connecteurs, a une sorte de mécanisme de snapshot (mais qui permet de revenir à l'étape où tu écris une des instructions. Merci snapshot de faire perdre potentiellement des heures de boulot :o). Par contre il a des marketplaces de MCP et globalement il est plus simple à configurer que cline si on a pas une config straightforward (remote LM Studio, usage d'API keys etc.)
 
Bon par contre à force de faire des essais et cliquer partout avec des gosses dans les pattes j'ai donné les droits à la ligne de commande sans filtre : au départ ça allait tranquillou sur du démarrage de serveur web minimaliste  [:kidou] mais rapidement ça a installé des packages dans tous les sens pour le dev MCP chrome  [:hide]  (alors qu'il était sensé être bien actif dans l'extension déjà) avant de killer le serveur en web en mode "je kill tous les process qui ont http dans leur nom [:omgwtf]  
 
bref réinstallation et restauration du mac + docker desktop + vscode devcontainer pour garder tout ça sous contrôle (et loin de mes données) :D
 
Autrement le bosgame se porte à merveille. Ca chauffe bien, c'est pas du tout une machine que j'aimerais sur mon bureau pendant de longues sessions d'inférence niveau bruit de ventilation (mais à mes pieds ce serai très supportable) mais tout va bien de l'allocation de 110GO+ à la VRAM sans préallocation à la stabilité des modèles sur des contexte de 60k+ tokens : ça roule parfaitement avec Vulkan. Rocm c'est plus l'aventure donc j'attendrai des updates avant de retester en profondeur mais la différence de perf ne le justifie pas vraiment à ce stade :jap:

n°11477337
the_fennec
f3nn3cUs z3rd4
Posté le 12-05-2026 à 08:35:36  profilanswer
 

Merci pour le retour! Kilo t'as salopé ton Mac au point de devoir le reinstaller ??  [:what has been seen]
 
Après c'est pour ça que j'ai une VM pour les trucs locaux, OSEF si elle est pourrie.


---------------
Faudra que je teste un jour :o
n°11477338
neo world
Posté le 12-05-2026 à 09:26:19  profilanswer
 

Mon modèle (Qwen 3.6) l’a fait. J’accuse le cerveau. Pas le messager :o
 
Mais sinon non le mac est pas tellement salopé mais il a fait tourner des NPM / brew, plein de curl et relancé chrome avec plein de paramètres de debug que je ne connais pas. Je préfère le factory reset a avant hier histoire de le remettre sur une base que je connais plutôt que découvrir dans 3 mois que j’ai des hackeurs russes sur la machine qui relisent mes prompts à deux balles en rigolant :o


Message édité par neo world le 12-05-2026 à 09:27:25
n°11477343
the_fennec
f3nn3cUs z3rd4
Posté le 12-05-2026 à 10:47:14  profilanswer
 

NPM c'est le mal de toute manière :o
 
Au moins tu n'as pas mis Openclaw :D


---------------
Faudra que je teste un jour :o
n°11477345
the_fennec
f3nn3cUs z3rd4
Posté le 12-05-2026 à 11:03:08  profilanswer
 

Running a 35B AI Model on 6GB VRAM, FAST (llama.cpp Guide)
https://www.youtube.com/watch?v=8F_5pdcD3HY
 

Citation :


Hardware used:
NVIDIA GTX 1060 6GB VRAM
• Intel i3-8100
• 24GB RAM


 
J'étais persuadé de l'avoir déjà postée, c'est chose faite maintenant!
 
Ça prouve bien qu'on peut faire des choses intéressantes avec pas grand-chose! J'ai même appris un truc :o comment économiser 27Go de RAM !!!
 
J'utilisais jamais --no-mmap: le mmap c'est bien, tu charges un fichier virtuellement en RAM, l'OS se débrouille de charger/décharger ce qu'il a besoin uniquement, je comprenais pas pourquoi certains l'utilisent pas. (c'est un truc que j'ai utilisé beaucoup avec Lucene et qui est aussi utilisé par Elasticsearch).
 
Mais ça ne marche QUE en RAM, pas en VRAM! Donc quand je charge un modèle de 27GB, llama.cpp le charge virtuellement en RAM, et le copie en VRAM totalement (ou partiellement), mais il est lu en entier au final. Une fois chargé, llama.cpp doit garder une référence dessus, donc j'ai mon modèle a la fois en VRAM et en RAM. Donc en jouant avec le --n-cpu-moe je devrais pouvoir charger des modèles beaucoup plus gros, genre 50/55GB.
 
[:atsuko]

Message cité 2 fois
Message édité par the_fennec le 12-05-2026 à 11:03:52

---------------
Faudra que je teste un jour :o
n°11477349
niko123456
Posté le 12-05-2026 à 11:51:55  profilanswer
 

Salut,
 
J'ai beaucoup aimé roo code, depuis l'annonce de l'abandon (visiblement ce sera tout de même maintenu) je suis passé sur PI.dev.
Beaucoup plus léger pas mal d'extensions, skills dispo via la communauté. C'est sympas.
Endpoint sur un fork de llama.cpp (https://github.com/TheTom/llama-cpp-turboquant) qui permet le turbo quant.
Je lance avec ~/src/llama.cpp-turboquant/build-cuda/bin/llama-server \
  -m /mnt/nvme/models/qwen36-27b-UD-Q6_K_XL/Qwen3.6-27B-UD-Q6_K_XL.gguf \
  --host 0.0.0.0 \
  --port 8000 \
  --alias qwen36-27b-q6k \
  -ngl 999 \
  --parallel 1 \
  --ctx-size 262144 \
  --flash-attn on \
  --cache-type-k q8_0 \
  --cache-type-v turbo4 \
  --no-mmap \
  --mlock \
  --jinja \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 20 \
  --batch-size 2048 \
  --ubatch-size 512
 
De cette manière je consomme 31.5 VRAM sur mes 32 et je suis à ~55t/s, aucun OOM en une semaine.  
Sur 172/225 test cases du bench d'Aider Polyglot j'ai pour l'instant un score de 74,4% en deuxième passe, c'est de très loin mon meilleur score (testé gemma4, minimax qwen-code).
Un bémol Qwen3.6 27B se perd parfois dans sa réflexion, je pense rajouter en paramètre --reasoning-budget 65536 et --n-predict 81920 pour éviter de le voir s'envoler avec des 200k token en réflexion, je referais un bench pour comparer.
 
Je pense avoir trouvé mon 'sweet spot' du moment, je vais tester ça sur mes activités pro sur une semaine voir si ça tiens la route mais pour l'instant sur deux jours d'utilisation je suis bluffé.

n°11477354
the_fennec
f3nn3cUs z3rd4
Posté le 12-05-2026 à 14:01:04  profilanswer
 

Belle perf, c'est quoi ta config?


---------------
Faudra que je teste un jour :o
n°11477357
niko123456
Posté le 12-05-2026 à 14:50:24  profilanswer
 

Ca tourne sous rtx 5090, core U9 et 128 ram.

n°11477360
neo world
Posté le 12-05-2026 à 15:00:40  profilanswer
 

niko123456 a écrit :

Salut,
 
J'ai beaucoup aimé roo code, depuis l'annonce de l'abandon (visiblement ce sera tout de même maintenu) je suis passé sur PI.dev.
Beaucoup plus léger pas mal d'extensions, skills dispo via la communauté. C'est sympas.
Endpoint sur un fork de llama.cpp (https://github.com/TheTom/llama-cpp-turboquant) qui permet le turbo quant.
Je lance avec ~/src/llama.cpp-turboquant/build-cuda/bin/llama-server  
  -m /mnt/nvme/models/qwen36-27b-UD-Q6_K_XL/Qwen3.6-27B-UD-Q6_K_XL.gguf  
  --host 0.0.0.0  
  --port 8000  
  --alias qwen36-27b-q6k  
  -ngl 999  
  --parallel 1  
  --ctx-size 262144  
  --flash-attn on  
  --cache-type-k q8_0  
  --cache-type-v turbo4  
  --no-mmap  
  --mlock  
  --jinja  
  --temp 0.6  
  --top-p 0.95  
  --top-k 20  
  --batch-size 2048  
  --ubatch-size 512
 
De cette manière je consomme 31.5 VRAM sur mes 32 et je suis à ~55t/s, aucun OOM en une semaine.  
Sur 172/225 test cases du bench d'Aider Polyglot j'ai pour l'instant un score de 74,4% en deuxième passe, c'est de très loin mon meilleur score (testé gemma4, minimax qwen-code).
Un bémol Qwen3.6 27B se perd parfois dans sa réflexion, je pense rajouter en paramètre --reasoning-budget 65536 et --n-predict 81920 pour éviter de le voir s'envoler avec des 200k token en réflexion, je referais un bench pour comparer.
 
Je pense avoir trouvé mon 'sweet spot' du moment, je vais tester ça sur mes activités pro sur une semaine voir si ça tiens la route mais pour l'instant sur deux jours d'utilisation je suis bluffé.


propre  :love:

n°11477361
neo world
Posté le 12-05-2026 à 15:04:42  profilanswer
 

the_fennec a écrit :

Running a 35B AI Model on 6GB VRAM, FAST (llama.cpp Guide)
[:atsuko]


merci c'est en FP :D

n°11477364
the_fennec
f3nn3cUs z3rd4
Posté le 12-05-2026 à 16:13:03  profilanswer
 

niko123456 a écrit :

Ca tourne sous rtx 5090, core U9 et 128 ram.


 
Ha ouais, il fallait bien une 5090 pour faire du 55tg/s avec 27B :jap:


---------------
Faudra que je teste un jour :o
n°11477367
neo world
Posté le 12-05-2026 à 16:39:14  profilanswer
 

y'avait une très belle affaire sur achat / vente avec une 5090 + la config complète qui allait avec quasi neuve pour 3k€ même si il y 'avait quelques heures de route pour la récupérer
 
J'ai pas mal hésité avec l'AMD Strix Halo. Faut le dire  :whistle: :o

n°11477376
the_fennec
f3nn3cUs z3rd4
Posté le 12-05-2026 à 18:31:33  profilanswer
 

:lol: j'ai réussi a charger MiniMax-M2.7-UD-IQ1_M
 
3.7 tg/s :o
 
Le flappy bird de circonstance:
https://toasty-durian-vkqf.pagedrop.io/
 
Pour la science [:portal_smileys]


---------------
Faudra que je teste un jour :o
n°11477413
neo world
Posté le 13-05-2026 à 10:55:28  profilanswer
 

C'est une tradition  :whistle: ? Y'a un léger bug pour passer les tubes :o
 
Ici j'ai refait ma stack :
backend IA toujours sur Strix Halo (étonnant :o )  
VS Code Devcontainer (Docker Desktop sur Mac)
Cline en mode connexion compatible open AI (sinon cet idiot refuse de mettre une clé d'API [:zzanna:1] )
Plan avec Minimax-m2.7 3qbits XXS
Code avec Qwen3 coder Next Q8
 
Je lui ait fait faire un flappy bee (qui a demandé quelques corrections que coder-next a géré seul)
https://crimson-ilene-59.tiiny.site/
 
enjoy  :whistle:

mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7  8  9

Aller à :
Ajouter une réponse
 

Sujets relatifs
Besoin d'aide pour tourBesoin d'aide, problème avec mon pc
AIde pour config 4KBesoin d'aide pour config rapport/qualité prix
Choix disspateur NVMeAjout de RAM , meilleur choix ? DDR4 2400
Aide pour config Graphiste 2D/3DBesoin d'aide sur projet config fanless linux mint
Conseil choix 2 configs avant achatChoix GPU - Jeux sur 49" 5120X1440p
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)