Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
9340 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  10  11  12  ..  18  19  20  21  22  23
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°29958
the_fennec
f3nn3cUs z3rd4
Posté le 28-05-2026 à 16:36:19  profilanswer
 

Reprise du message précédent :

neo world a écrit :


A priori 'est pour continuer le projet tel quel mais je comprend l'envie de changer. Tu peux faire le summary / Compaction ailleurs (cloud rapide) pour dépasser le problème de timeout ?


 
Je cherche un combo qui peut tourner h24 sans s’arrêter, je m'en fous d'être a 2 tgs, ou qu'une compaction prenne 10 minutes. A terme je voudrais laisser l'agent tourner avec un but précis, genre "reverse engineering" complet d'un firmware jusqu`à ce que les sources compilée donnent le même binaire.


---------------
Faudra que je teste un jour :o
n°35471
neo world
Posté le 28-05-2026 à 19:08:22  profilanswer
 

the_fennec a écrit :


 
Je cherche un combo qui peut tourner h24 sans s’arrêter, je m'en fous d'être a 2 tgs, ou qu'une compaction prenne 10 minutes. A terme je voudrais laisser l'agent tourner avec un but précis, genre "reverse engineering" complet d'un firmware jusqu`à ce que les sources compilée donnent le même binaire.


le code hexa donne quelque chose ? Ca peut donner un bon point de départ.
 
Sinon j'ai pas d'idée pour la compaction. A ta place je regarderai comment rallonger le temps avant timeout (sur Continue j'avais un hard limit à 30 secondes sur chaque requète mais en passant à Cline j'ai plus ce problème débile avec LM Studio :D ).

n°35472
the_fennec
f3nn3cUs z3rd4
Posté le 28-05-2026 à 19:12:57  profilanswer
 

neo world a écrit :


le code hexa donne quelque chose ? Ca peut donner un bon point de départ.
 
Sinon j'ai pas d'idée pour la compaction. A ta place je regarderai comment rallonger le temps avant timeout (sur Continue j'avais un hard limit à 30 secondes sur chaque requète mais en passant à Cline j'ai plus ce problème débile avec LM Studio :D ).


 
Sur pi.dev il y a un réglage "unlimited" mais ça fait rien. Je suis repassé sur Opencode qui marchait pas si mal au final.
 
Pour le reverse engineering, je pense que je devrais passer sur des modèles décensurés, donc ça sera pour plus tard.


---------------
Faudra que je teste un jour :o
n°35473
neo world
Posté le 28-05-2026 à 19:15:56  profilanswer
 

Ca marche plutôt bien mais selon les méthodes de décensure il peut y avoir des baisses de performances (minime dans les tests que j'ai fait avec des modèles de 27 milliard à 120 milliard e paramètres :D )

n°35476
the_fennec
f3nn3cUs z3rd4
Posté le 28-05-2026 à 19:35:30  profilanswer
 

c'est heretic qui s'en sort le mieux il me semble


---------------
Faudra que je teste un jour :o
n°35477
neo world
Posté le 28-05-2026 à 19:37:16  profilanswer
 

Les modèles les plus téléchargés ont ça en tag sur hugging face entre autres tags :jap:

n°35530
hardcorsai​re
Posté le 29-05-2026 à 14:09:29  profilanswer
 

extenue1 a écrit :

Test du Nvidia DGX Spark (Dell) : le mini PC IA à 128 Go de RAM
 
https://www.frandroid.com/marques/3 [...] -go-de-ram
 
A 3k je prends, 6k non :)


 
Quel est l'intérêt de cette machine alors qu'on on a le DGX Spark officiel pour moins cher ?  [:pingouino dei]

n°35533
neo world
Posté le 29-05-2026 à 14:42:54  profilanswer
 

Pour toi pas grand-chose (sauf peut être en période de soldes) mais pour une entreprise qui travaille avec Dell / HP / Lenovo ou via des centrales d’achats c’est très utile :jap:

n°35542
the_fennec
f3nn3cUs z3rd4
Posté le 29-05-2026 à 16:36:21  profilanswer
 

J'étais repartis sur Opencode, pour finir par me rappeler qu'il finissait par "soft boucler" et n’avançait plus vraiment.
 
J'ai donné sa chance a codex pour voir... C'est un vrai bordel a configurer, comme d'hab' avec les trucs vibe codés, les docs sont imbitables et pas a jour.  
Mais le résultat est pas mal!
La il tourne depuis 25h non-stop avec 60k de contexte et ça avance toujours. Bon, on y est pas encore pour boot Linux sur l'Amiga, mais il progresse!
 
https://i.imgur.com/COUEyFk.png
 
Codex a des tonnes d'options, il faut que je creuse:
https://developers.openai.com/codex/config-sample
 
Un truc intéressant est qu'il a des fichiers de specs sur les modèles:
https://github.com/openai/codex/blo [...] odels.json
 
Ça serait pas mal d'en faire un special pour Qwen. Au début le CLI était pas content de ne pas connaitre le modèle, et qu'il ferait par défaut.
Je vois aussi ça dans les logs de llama.cpp:

Code :
  1. srv  server_chat_: unsupported Responses tool type 'web_search' skipped


 
Je sais pas si c'est coté codex, llama ou modèle, a voir.  
Dernier point, le MTP ... je sais pas trop, d'un coté je suis toujours 50 tg/s après 26h, mais de l'autre je dois être en Q5M au lieu de Q6 :/


---------------
Faudra que je teste un jour :o
n°35543
Plam
Bear Metal
Posté le 29-05-2026 à 16:56:39  profilanswer
 

Ah cool, j'ai pas pensé à tester Codex :jap:
 
L'impression générale par rapport à OpenCode ?


---------------
Spécialiste du bear metal
n°35546
the_fennec
f3nn3cUs z3rd4
Posté le 29-05-2026 à 17:07:26  profilanswer
 

Plam a écrit :

Ah cool, j'ai pas pensé à tester Codex :jap:
 
L'impression générale par rapport à OpenCode ?


 
Je trouve que c'est mieux au niveau progrès sur le projet, j'ai l'impression que les prompt systèmes sont meilleurs.
Pas de soucis au niveau du tooling ou de la gestion de process.
J'ai pas trop creuser les commandes et options, si il tourne encore bien après le WE, j'investirais un peu plus de temps.
J'aime bien le plugin web d'Opencode, a voir si on peut faire pareil avec codex.
 
Par contre la config est compliquée, a la moindre erreur il te rebascule sur OpenAI et te demande de te connecter. Le risque étant de bouffer tes quotas OpenAI au cas ou tu ais une merde sur ta config locale.


---------------
Faudra que je teste un jour :o
n°35547
Plam
Bear Metal
Posté le 29-05-2026 à 17:13:23  profilanswer
 

Super merci, je testerai ça ce we sur mon qwen 3.6 27b :jap:


---------------
Spécialiste du bear metal
n°35548
the_fennec
f3nn3cUs z3rd4
Posté le 29-05-2026 à 17:19:53  profilanswer
 

Pour info ma config:
~/.codex/config.toml

Code :
  1. model = "default"
  2. model_provider = "llama"
  3. # Optional, only if you want the window explicitly documented in your config.
  4. # If omitted, Codex uses the model default.
  5. model_context_window = 65000
  6. # Trigger auto-compaction earlier instead of waiting near the end.
  7. model_auto_compact_token_limit = 64000
  8. [model_providers.llama]
  9. name = "llama"
  10. base_url = "http://llama:8080/v1"
  11. wire_api = "responses"
  12. timeout_ms = 50000000
  13. refresh_interval_ms = 300000


 
Mon llama.cpp a un contexte de 65536.
 
Ma config llama.cpp (Windows):

Code :
  1. set model=-m Qwen3.6-35B-A3B-UD-Q5_K_S_MTP.gguf
  2. set tuning=--ctx-size 65536 --temp 0.6 --top-p 0.95 --min-p 0.0 --top-k 20 --presence-penalty 0.0 --repeat_penalty 1.0
  3. set layers=-ngl 99 -ts 20,20 --n-cpu-moe 0 -ctk q8_0 -ctv q8_0
  4. set mtp=--spec-type draft-mtp --spec-draft-n-max 3
  5. set think=--chat-template-kwargs "{\"preserve_thinking\": true}" --reasoning on --reasoning-budget 2048 --reasoning-budget-message ". Reasoning completed, implement it."
  6. llama-server -lv 4 --no-mmap --mlock --flash-attn on --metrics --alias default --host 0.0.0.0 --rpc bc250:50000 --port 8080 --jinja %model% %layers% %tuning% %think% %mtp%


---------------
Faudra que je teste un jour :o
n°35639
the_fennec
f3nn3cUs z3rd4
Posté le 30-05-2026 à 21:04:30  profilanswer
 

Bon, codex ça tourne pas mal, mais au bout d'un moment j'ai des erreurs 500 de llama.cpp, codex me dit "on a une charge élevée" :o. Je déteste ça quand les services/apps essayent de cacher la merde sous le tapis.
Dans la console de llama, je vois bien l'erreur 500, et un problème de parsing JSON. Je pense que c'est a cause de MTP qui se fait dessus ou Q5M. J'ai enlevé MTP et je suis repassé en Q6 pour voir si c'est mieux.


---------------
Faudra que je teste un jour :o
n°35645
the_fennec
f3nn3cUs z3rd4
Posté le 30-05-2026 à 22:09:41  profilanswer
 

Bon, pas mieux, même pire vu que ça arrive plus vite, erreur 500 :(
 

Code :
  1. {"error":{"code":500,"message":"Failed to parse tool call arguments as JSON: [json.exception.parse_error.101] parse error at line 1, column 96865: syntax error while parsing value - invalid string: missing closing quote; last read: '\"python3 -c \\\"\\nimport struct\\n\\nwith ope...


---------------
Faudra que je teste un jour :o
n°35708
the_fennec
f3nn3cUs z3rd4
Posté le 01-06-2026 à 08:58:47  profilanswer
 

:lol: codex a fini par régler le problème de lui même, il a effacé presque tout le projet de lui même, allez, hop, poubelle!


---------------
Faudra que je teste un jour :o
n°35709
Plam
Bear Metal
Posté le 01-06-2026 à 08:59:23  profilanswer
 

Pas de projet, pas de problème :o


---------------
Spécialiste du bear metal
n°35712
XaTriX
Posté le 01-06-2026 à 09:23:35  profilanswer
 

:D


---------------
[:dawa]
n°35750
the_fennec
f3nn3cUs z3rd4
Posté le 01-06-2026 à 14:36:03  profilanswer
 

Stop One-Shotting MoE Models - Why They Fail and What Works
https://www.youtube.com/watch?v=0enQ2yRY18g
 
Une vidéo intéressante sur les MoE, comment ils marchent, quel problèmes ils engendrent et comment les régler.
 


---------------
Faudra que je teste un jour :o
n°35758
the_fennec
f3nn3cUs z3rd4
Posté le 01-06-2026 à 16:32:52  profilanswer
 

Je suis repassé su pi.dev pour voir, il y a un plugin llama.cpp je me disais que ça serait mieux :o
Je suis surpris de pas voir beaucoup d'issues ouvertes, et je trouve un bug qui m'affecte:
https://github.com/earendil-works/pi/issues/3612
 

Citation :

This issue was auto-closed. All issues from new contributors are auto-closed by default.


 
 :lol: le vibe-coding c'est l'ère du David Goodenough  
[:amonchakai:1]


---------------
Faudra que je teste un jour :o
n°35760
Amonchakai
Posté le 01-06-2026 à 16:44:01  profilanswer
 

the_fennec a écrit :

Stop One-Shotting MoE Models - Why They Fail and What Works
https://www.youtube.com/watch?v=0enQ2yRY18g
 
Une vidéo intéressante sur les MoE, comment ils marchent, quel problèmes ils engendrent et comment les régler.
 


C'est intéressant. Après par principe, je fais souvent la décomposition en sous tache, pas de façon réfléchie comme il le dit, mais pour suivre l'avancement et que je me retrouve pas avec une tonne de truc a reviewer a la fin.  
 
Sinon en méthode full agentique, on me disait aussi de passer par claude code superpowers pour faire plan et ensuite laisser les modèles locaux ou a moindre cout faire le taff.  
Ça reviendrai un peu a ce qu'il décrit


Message édité par Amonchakai le 01-06-2026 à 16:45:36
n°35861
the_fennec
f3nn3cUs z3rd4
Posté le 02-06-2026 à 21:23:04  profilanswer
 

On trouve des 3080 20 GB en chine, dans les 500€:
https://www.reddit.com/r/LocalLLaMA [...] reddit_and
 
Il s'agit d'un PCB custom avec le double de VRAM.


---------------
Faudra que je teste un jour :o
n°35874
Quich
Pouet ?
Posté le 02-06-2026 à 22:56:56  profilanswer
 

the_fennec a écrit :

On trouve des 3080 20 GB en chine, dans les 500€:
https://www.reddit.com/r/LocalLLaMA [...] reddit_and

 

Il s'agit d'un PCB custom avec le double de VRAM.


Ça parle de 650$ avec livraison et taxes.
Pour de l'inférence, c'est vraiment mieux qu'une 7900XT 20GB qu'on trouve autour de 500-550€ d'occaz par chez nous ?


---------------
Feedback
n°35879
M300A
Posté le 02-06-2026 à 23:26:56  profilanswer
 

De mon expérience AMD sous Linux pour n'importe quoi tu te barres en courant. Rien que pour le compute il doit y avoir trois framework différents, plus ou moins compatibles selon les cartes, les modèles, les "serveur de modèle".
Moi j'y toucherai pas même avec un bâton.

Message cité 1 fois
Message édité par M300A le 02-06-2026 à 23:27:09

---------------
:wq
n°37480
the_fennec
f3nn3cUs z3rd4
Posté le 03-06-2026 à 09:55:49  profilanswer
 

Quich a écrit :


Ça parle de 650$ avec livraison et taxes.
Pour de l'inférence, c'est vraiment mieux qu'une 7900XT 20GB qu'on trouve autour de 500-550€ d'occaz par chez nous ?


 
J'en ai vu une sur ebay hier a 499 euros, mais elle est partie. Il y en a des tonnes sur Alibaba dans les 400, mais faut négo les FDP, je sais pas combien ça donne au final.
Après si on veut pas se prendre la tête Nvidia c'est le plus simple et le plus perf.
 
Je recommande pas la 3080 20GB, c'est juste une curiosité, un peu comme les 4090 48GB.


---------------
Faudra que je teste un jour :o
n°37491
ionik
Posté le 03-06-2026 à 11:29:45  profilanswer
 

the_fennec a écrit :


 
J'en ai vu une sur ebay hier a 499 euros, mais elle est partie. Il y en a des tonnes sur Alibaba dans les 400, mais faut négo les FDP, je sais pas combien ça donne au final.
Après si on veut pas se prendre la tête Nvidia c'est le plus simple et le plus perf.
 
Je recommande pas la 3080 20GB, c'est juste une curiosité, un peu comme les 4090 48GB.


Tu recommandes quoi alors ?


---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR
n°37492
LibreArbit​re
La /root est longue
Posté le 03-06-2026 à 11:34:35  profilanswer
 

ionik a écrit :

Tu recommandes quoi alors ?


Une 5090 32 Go [:shimay:1]


---------------
Pharyo | Cinépite | Capvirage
n°37496
the_fennec
f3nn3cUs z3rd4
Posté le 03-06-2026 à 12:10:40  profilanswer
 

ionik a écrit :


Tu recommandes quoi alors ?


 
Ça dépends beaucoup du budget et de ce que tu as déjà. Je trouve que la BC250 marche bien sous Linux, Vulkan et llama.cpp semblent bien aller, ROCm par contre ça à l'air un peu le bordel.
 


---------------
Faudra que je teste un jour :o
n°37497
the_fennec
f3nn3cUs z3rd4
Posté le 03-06-2026 à 12:11:40  profilanswer
 

LibreArbitre a écrit :


Une 5090 32 Go [:shimay:1]


 
RTX PRO 6000 96Go c'est mieux :o


---------------
Faudra que je teste un jour :o
n°37500
gilou
Modosaurus Rex
Posté le 03-06-2026 à 12:24:02  profilanswer
 

the_fennec a écrit :


 
RTX PRO 6000 96Go c'est mieux :o

Il y en a en stock chez LDLC  [:ooinverse]  
 
A+,


---------------
There's more than what can be linked! --  Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Les paroles s'envolent, les APIs REST -- Hacker vaillant rien d'impossible -- (╯°□°)╯︵ ┻━┻
n°37503
Plam
Bear Metal
Posté le 03-06-2026 à 13:08:04  profilanswer
 

the_fennec a écrit :

 

RTX PRO 6000 96Go c'est mieux :o

 

En vrai, très bon GPU, beaucoup de vRAM pour les modèles, chauffe pas trop, plutôt rapide. Par contre pour un particulier, je reconnais que c'est quand même pas à la portée de tous… Ceci étant dit, tu en fais ton assistant perso pour tout au quotidien, ça peut être un bon invest' :o


Message édité par Plam le 03-06-2026 à 13:08:13

---------------
Spécialiste du bear metal
n°37508
hardcorsai​re
Posté le 03-06-2026 à 14:00:20  profilanswer
 

M300A a écrit :

De mon expérience AMD sous Linux pour n'importe quoi tu te barres en courant. Rien que pour le compute il doit y avoir trois framework différents, plus ou moins compatibles selon les cartes, les modèles, les "serveur de modèle".
Moi j'y toucherai pas même avec un bâton.


 
Mais ça fait pas genre +de 15 ans qu'on a OpenCL qui unifie tout ça ?  
 
Ou alors on ne parle pas de la même chose ?

n°37509
ionik
Posté le 03-06-2026 à 14:02:21  profilanswer
 

LibreArbitre a écrit :


Une 5090 32 Go [:shimay:1]


 

the_fennec a écrit :


 
Ça dépends beaucoup du budget et de ce que tu as déjà. Je trouve que la BC250 marche bien sous Linux, Vulkan et llama.cpp semblent bien aller, ROCm par contre ça à l'air un peu le bordel.
 


 
Je parle surtout afin d'avoir du multi GPU pour de gros modèle (mais pour le pauvre :o)


---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR
n°37511
the_fennec
f3nn3cUs z3rd4
Posté le 03-06-2026 à 14:32:48  profilanswer
 

hardcorsaire a écrit :


 
Mais ça fait pas genre +de 15 ans qu'on a OpenCL qui unifie tout ça ?  
 
Ou alors on ne parle pas de la même chose ?


 
Non, OpenCL c'est mort, personne ne l'utilise saut peut être des trucs IoT spécifiques.
En gros:
NVidia = CUDA, AMD = ROCm/Vulkan, Intel = OpenVINO/Vulkan, Apple = Metal/MoltenVK


---------------
Faudra que je teste un jour :o
n°37512
the_fennec
f3nn3cUs z3rd4
Posté le 03-06-2026 à 14:41:43  profilanswer
 

ionik a écrit :

Je parle surtout afin d'avoir du multi GPU pour de gros modèle (mais pour le pauvre :o)


 
Si les prix était normaux, je dirais une paire de RTX 5060Ti 16GB, mais c'est une carte qui devrait valoir 400 euros, pas 550. Peut être une paire de Radeon RX 9060 XT 16GB a 400?
Je pense qu'il faut viser 32GB de VRAM pour être à l'aise.
 
Après si t'as une alim qui tiens le coup, la paire de 3090 en occase est un méga bon plan si le prix est correct.
 
Pour les joueurs, il y a les chinoiseries genre la 3080 20GB si le prix est bon, les BC250, une paire de V100 SXM2, les Radeon Instinct.
 
Moi je cherche une deuxième 4060Ti 16GB mais je trouve pas :o

Message cité 1 fois
Message édité par the_fennec le 03-06-2026 à 14:42:30

---------------
Faudra que je teste un jour :o
n°37517
the_fennec
f3nn3cUs z3rd4
Posté le 03-06-2026 à 15:44:57  profilanswer
 

De mon coté je teste nanocoder qui a l'air pas mal.  
J'ai laissé tombé MTP, le gain en tg/s est bon, mais il utilise beaucoup plus de VRAM, les modèles sont plus gros ET font des OOMs plus facilement. Je dois passer en Q5 au lieu de Q6 ou Q8.
Le principal problème de MTP pour moi et qu'il n'y a pas de gain en prompt processing, et c'est ce qui prends le plus de temps au final pour moi, spécialement les compactions.
 
Je suis en train de tester Qwen3.6-27B-Q8_0 qui passe large en fait.


---------------
Faudra que je teste un jour :o
n°37519
ionik
Posté le 03-06-2026 à 16:05:27  profilanswer
 

the_fennec a écrit :


 
Si les prix était normaux, je dirais une paire de RTX 5060Ti 16GB, mais c'est une carte qui devrait valoir 400 euros, pas 550. Peut être une paire de Radeon RX 9060 XT 16GB a 400?
Je pense qu'il faut viser 32GB de VRAM pour être à l'aise.
 
Après si t'as une alim qui tiens le coup, la paire de 3090 en occase est un méga bon plan si le prix est correct.
 
Pour les joueurs, il y a les chinoiseries genre la 3080 20GB si le prix est bon, les BC250, une paire de V100 SXM2, les Radeon Instinct.
 
Moi je cherche une deuxième 4060Ti 16GB mais je trouve pas :o


J'ai pas encore fini mon installation complète car je n'ai pas le temps mais j'ai :  
 
Dans le serveur qui ne tourne plus pour le moment (mais pas eu le temps de tester depuis un moment les nouveau modèle)
2 x P40 (mais c'est de la bricole je trouve) (mais j'en ai une en rab)
1 X RTX A4000
Dans mon PC
1 X 3090


Message édité par ionik le 03-06-2026 à 16:11:35

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR
n°37523
the_fennec
f3nn3cUs z3rd4
Posté le 03-06-2026 à 16:23:32  profilanswer
 

50GB de VRAM dans ton server! T'as moyen de faire des trucs!
J'ai une 1650 Super, Pascal comme tes P40 et ça marchait pas mal! Le seul problème c'est le FP16, mais il suffit de mettre des modèles Q8.
 
Bon ya aussi la conso idle ou pas qui doit pas être jojo.
 
Limite tu mets tes 3 P40 dans le server pour 48Go de VRAM et les deux RTX dans ton PC.


---------------
Faudra que je teste un jour :o
n°37525
ionik
Posté le 03-06-2026 à 16:49:37  profilanswer
 

the_fennec a écrit :

50GB de VRAM dans ton server! T'as moyen de faire des trucs!
J'ai une 1650 Super, Pascal comme tes P40 et ça marchait pas mal! Le seul problème c'est le FP16, mais il suffit de mettre des modèles Q8.
 
Bon ya aussi la conso idle ou pas qui doit pas être jojo.
 
Limite tu mets tes 3 P40 dans le server pour 48Go de VRAM et les deux RTX dans ton PC.


2* P40 48 Go + A4000 16 Go, on est plus a 64 Go de VRM et 88 Go si je monte la 3eme P40.
 
Mais il faut au moins 100+ pour faire quelque chose de pas trop mal comme le Ryzen AI est pas mal mais en communication réseau on doit pas pouvoir les mapper ensemble xD
 
Je me demande si un MAC mini 256+ ça tourne pas mal (en vitesse je parle)


---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR
n°37527
the_fennec
f3nn3cUs z3rd4
Posté le 03-06-2026 à 17:10:22  profilanswer
 

ionik a écrit :


2* P40 48 Go + A4000 16 Go, on est plus a 64 Go de VRM et 88 Go si je monte la 3eme P40.
 
Mais il faut au moins 100+ pour faire quelque chose de pas trop mal comme le Ryzen AI est pas mal mais en communication réseau on doit pas pouvoir les mapper ensemble xD
 
Je me demande si un MAC mini 256+ ça tourne pas mal (en vitesse je parle)


 
Tu mets llama.cpp en mode server RPC d'un coté et llama.cpp server de l'autre et tu peux adresser tes 5 cartes pour 112GB de VRAM.
Par défaut le tensor split est par layers, c'est séquentiel, il y a un mode tensor qui est en parallel, mais ça marche pas chez moi, soit a cause du RPC ou de Vulkan ou des deux.
 
On peut aussi allouer des tensors a une carte en particulier en utilisant:

Code :
  1. --override-tensor "output.weight=CUDA0"


 
Donc tu peux charger un gros MOE, et bouger les experts sur des cartes faibles et les gros layers sur tes RTX. Tu devrais obtenir de très bonne perf tu restes majoritairement sur tes RTX.
J'ai pas trop creusé le truc pour le moment, mais c'est sur ma liste.
 
Je pense que tu as largement de quoi t'amuser et de faire de belles choses avec tes cartes :D. Si t'en veux pas je suis intéressé :o.
 
J'ai pas beaucoup joué avec mon MBP m4 et llama.cpp (pas le droit), mais du peux que j'ai vu, la perf était moyenne.


---------------
Faudra que je teste un jour :o
n°37528
ionik
Posté le 03-06-2026 à 17:15:45  profilanswer
 

J'ai aussi sur la CM du serveur 192 GO de ram me semble, et il peut monter a 1To de ram avec la bonne ram, mais j'ai peur d'avoir une perf dégelasse sur un Full CPU.
 
Par contre je me demandais si avec une conf avec 72 Go de VRAM ou 88Go de VRAM + 500Go a 1To de ram ça aurait pu charger une gros modèle et donc pouvoir (même si ça prend du temps) faire pas mal de chose en tache de fond et c'est dans cet optique la que je l'ai pris au moment ou je l'ai fait, mais je n'ai malheureusement pas encore eu le temps de faire ce que je voulais avec.


---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR
 Page :   1  2  3  4  5  ..  10  11  12  ..  18  19  20  21  22  23

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)