Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2144 connectés 

 


Quel est votre usage principal de l'IA local ?
Sondage à 2 choix possibles.
Ce sondage expirera le 01-08-2026 à 10:00




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  18  19  20  21  22  23
Auteur Sujet :

Infra IA : aide au choix et troubleshot de LLM locaux

n°40038
croustx
Modoadorateur
Posté le 22-06-2026 à 11:20:00  profilanswer
 

Reprise du message précédent :

the_fennec a écrit :

Bon, c'est en place:
https://i.imgur.com/Euz9D08.jpeg
 
Mais j'ai mis les deux cartes sur la même alim 12V ... on sait jamais sur un malentendu :o mais non, dès que je monte en charge les deux cartes reboot.
C'est pas surprenant, l'alim est donnée pour 360W max et c'est pas un truc de super qualité, mais a 17 euros, elle fait le taf.
 
J'ai commandé une autre alim, un autre ventilo et un meilleur cable 8pins tant qu'a faire.
 


 
J'avais cru comprendre que mettre plusieurs BC250 en réseau ne donnait pas un très bon résultat ?

n°40043
the_fennec
f3nn3cUs z3rd4
Posté le 22-06-2026 à 12:22:50  profilanswer
 

croustx a écrit :

J'avais cru comprendre que mettre plusieurs BC250 en réseau ne donnait pas un très bon résultat ?


 
Pour l'instant j'ai une 4060Ti 16GB et une BC250 en réseau RPC, j'en suis content. C'est sur qu'avoir tout en local serait plus performant avec un layer-split=tensor, mais c'est mieux que rien.
Avec la deuxième BC250 je pourrais charger du Qwen 3.6 en Q8 MTP, 27B et même 35B! A voir ce que ça donne en perf...
 
J'ai même trouvé un MiniMax-M2.7-REAP-139B-A10B-Q3_K_M de 65GB, mais ça sera pour le LOL, je pense pas que ça sera utilisable.


---------------
Faudra que je teste un jour :o
n°40133
Pipould's
Posté le 23-06-2026 à 07:26:15  profilanswer
 

the_fennec a écrit :

 

Pour l'instant j'ai une 4060Ti 16GB et une BC250 en réseau RPC, j'en suis content. C'est sur qu'avoir tout en local serait plus performant avec un layer-split=tensor, mais c'est mieux que rien.
Avec la deuxième BC250 je pourrais charger du Qwen 3.6 en Q8 MTP, 27B et même 35B! A voir ce que ça donne en perf...

 

J'ai même trouvé un MiniMax-M2.7-REAP-139B-A10B-Q3_K_M de 65GB, mais ça sera pour le LOL, je pense pas que ça sera utilisable.

 

En parlant de layer split, on dirait que le split tensors avec MTP ne fonctionne pas et rebalance Les couches mtp Sur le cpu. Vous confirmez ? Pour qwen 3.6 27b

 

J'en en tout cas ce que j'ai sur ma configuration (3090/3090ti).

n°40144
neo world
Posté le 23-06-2026 à 08:59:19  profilanswer
 

Partage la ligne de commande que tu utilises :)
 
Moi ca passe en vram mais d’autres verront peut être des soucis

n°40148
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 09:29:54  profilanswer
 

Pipould's a écrit :

En parlant de layer split, on dirait que le split tensors avec MTP ne fonctionne pas et rebalance Les couches mtp Sur le cpu. Vous confirmez ? Pour qwen 3.6 27b
 
J'en en tout cas ce que j'ai sur ma configuration (3090/3090ti).


 
Le split tensors ne marche pas en RPC donc je peux pas tester. Mais en layer c'est sur GPU chez moi. T'es sur que tout passe en VRAM? Le MTP ajoute 3GB d'utilisation en plus sur un seul layer. Essaye "-ngl all" si tu l'as pas déjà.

Message cité 1 fois
Message édité par the_fennec le 23-06-2026 à 09:30:22

---------------
Faudra que je teste un jour :o
n°40154
Pipould's
Posté le 23-06-2026 à 10:14:38  profilanswer
 

the_fennec a écrit :


 
Le split tensors ne marche pas en RPC donc je peux pas tester. Mais en layer c'est sur GPU chez moi. T'es sur que tout passe en VRAM? Le MTP ajoute 3GB d'utilisation en plus sur un seul layer. Essaye "-ngl all" si tu l'as pas déjà.


 
J'essaie ca depuis hier soir. Je suis repasse en split layer, mon PP a fait un bon de 250. Mais ma generation a baisse j'ai l'impression. A voir si j'ai des OOM systeme du coup.

n°40156
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 10:23:05  profilanswer
 

Pipould's a écrit :


 
J'essaie ca depuis hier soir. Je suis repasse en split layer, mon PP a fait un bon de 250. Mais ma generation a baisse j'ai l'impression. A voir si j'ai des OOM systeme du coup.


 
T'es sur un GPU AMD? Beaucoup de ne trucs marchent (bien) que sur CUDA.


---------------
Faudra que je teste un jour :o
n°40158
b-tzu
Geek a toute heure...
Posté le 23-06-2026 à 10:35:47  profilanswer
 

[:lardoncru:1]
 
Je vais faire des tests avec OpenVino sur mon cpu lunar lake (ultra 7 258V)
Je ne sais pas m'attendre à quoi au final, sûrement un modèle 3B, vu que j'ai que 32Go de ram unifiée, peut être un petit chat privé ou un agent de code simple pour des petits projets perso à côté

Message cité 1 fois
Message édité par b-tzu le 23-06-2026 à 10:37:24

---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)
n°40159
Pipould's
Posté le 23-06-2026 à 10:37:39  profilanswer
 

the_fennec a écrit :


 
T'es sur un GPU AMD? Beaucoup de ne trucs marchent (bien) que sur CUDA.


 
La pour le coup c'est sur un Dual 3090 Ti / 3090. J'ai ca et un Strix Halo (qui me pose pas mal de soucis de timeout HTTP tellement ca prend longtemps a remonter des contextes)

Message cité 2 fois
Message édité par Pipould's le 23-06-2026 à 10:59:15
n°40161
neo world
Posté le 23-06-2026 à 11:04:37  profilanswer
 

Pipould's a écrit :


 
La pour le coup c'est sur un Dual 3090 Ti / 3090. J'ai ca et un Strix Halo (qui me pose pas mal de soucis de timeout HTTP tellement ca prend longtemps a remonter des contextes)


copain de strix halo !
 
tu as quel modèle (version / constructeur / vram) de strix halo et avec quel modèle tu as eu le problème (quel moteur d'inférence, OS, modèle et quantization) ? Jamais eu de soucis de timeout http même sur des modèles de plus de 110GB (donc 120 en comptant le contexte  :pt1cable: ). Le seul problème que j'ai pu avoir c'est avec LM Studio et un plugin VS Code qui laissait 30 secondes max au modèle pour former toute sa réponse (pre processing + token gen) avant de droper au milieu des tokens générés  :pt1cable:

n°40162
Pipould's
Posté le 23-06-2026 à 11:21:03  profilanswer
 

neo world a écrit :


copain de strix halo !
 
tu as quel modèle (version / constructeur / vram) de strix halo et avec quel modèle tu as eu le problème (quel moteur d'inférence, OS, modèle et quantization) ? Jamais eu de soucis de timeout http même sur des modèles de plus de 110GB (donc 120 en comptant le contexte  :pt1cable: ). Le seul problème que j'ai pu avoir c'est avec LM Studio et un plugin VS Code qui laissait 30 secondes max au modèle pour former toute sa réponse (pre processing + token gen) avant de droper au milieu des tokens générés  :pt1cable:


 
J'ai un bosgame M5 dans un chassis 3d printed.
 
Oui c'est ca que je veux dire.... J'utilise lemonade (mais n'importe, ca change rien), t'as le model qui process ou pond ses tokens et au milieu t'as le HTTP timeout de la facade qui arrive... Et ca pourri mon cline en sortie...  
 
Pour dire la j'ai:
 
Strix (lemonade)  -------\
                                     ----- Olla disptacher [SSH TUNEL] --- VPS [NGINX / API key proof / domaine public]
Dual 3090 (lemonade)--/

n°40163
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 11:31:00  profilanswer
 

b-tzu a écrit :

[:lardoncru:1]
 
Je vais faire des tests avec OpenVino sur mon cpu lunar lake (ultra 7 258V)
Je ne sais pas m'attendre à quoi au final, sûrement un modèle 3B, vu que j'ai que 32Go de ram unifiée, peut être un petit chat privé ou un agent de code simple pour des petits projets perso à côté


 

b-tzu a écrit :


Ah bah merci. Je vais regarder llama.cpp.  
Ollama je ne connaissais pas et ça ne m'a pas trop inspiré par contre lm studio ça avait l'air bien, et ça permet en un click de partager sur le réseau local pour continue.dev dans vs code.  
Tu utilise quelle ia pour te conseille sur l'ia locale ?


 
 
Ollama et LM Studio sont bien si tu as une config standard et que tu veux/peux pas bidouiller. C'est peut être possible de faire les faire marcher, mais je pense que llama.cpp est plus indiqué pour tenter le coup avec un NPU.  
Tu peux peut essayer Gemma 4B qat:
https://huggingface.co/unsloth/gemma-4-E4B-it-qat-GGUF
 
voire 12B si t'es joueur:
https://huggingface.co/unsloth/gemma-4-12B-it-qat-GGUF
 
autrement Qwen 3.5 4B en Q4_K_M:
https://huggingface.co/unsloth/Qwen3.5-4B-GGUF


---------------
Faudra que je teste un jour :o
n°40164
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 11:35:19  profilanswer
 

Pipould's a écrit :

La pour le coup c'est sur un Dual 3090 Ti / 3090. J'ai ca et un Strix Halo (qui me pose pas mal de soucis de timeout HTTP tellement ca prend longtemps a remonter des contextes)


 
En cluster RCP ou deux instances séparées? Quel model?
Si t'es en RPC, passe le coté NVidia en Vulkan, je trouve que ça marche beaucoup mieux, mais split layer obligatoire (et --direct-io aussi).
 
Comme indiqué par neo world, donne ta command line.


---------------
Faudra que je teste un jour :o
n°40165
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 11:37:51  profilanswer
 

Pipould's a écrit :


 
J'ai un bosgame M5 dans un chassis 3d printed.
 
Oui c'est ca que je veux dire.... J'utilise lemonade (mais n'importe, ca change rien), t'as le model qui process ou pond ses tokens et au milieu t'as le HTTP timeout de la facade qui arrive... Et ca pourri mon cline en sortie...  
 
Pour dire la j'ai:
 
Strix (lemonade)  -------\
                                     ----- Olla disptacher [SSH TUNEL] --- VPS [NGINX / API key proof / domaine public]
Dual 3090 (lemonade)--/


 
Ha, lemonade je connais pas.


---------------
Faudra que je teste un jour :o
n°40167
Pipould's
Posté le 23-06-2026 à 11:39:33  profilanswer
 

the_fennec a écrit :


 
Ha, lemonade je connais pas.


 
Lemonade c'est la vie. je suis en lien avec les devs sur discord, ca bouge ultra rapidement....

n°40169
Pipould's
Posté le 23-06-2026 à 11:44:04  profilanswer
 

the_fennec a écrit :


 
En cluster RCP ou deux instances séparées? Quel model?
Si t'es en RPC, passe le coté NVidia en Vulkan, je trouve que ça marche beaucoup mieux, mais split layer obligatoire (et --direct-io aussi).
 
Comme indiqué par neo world, donne ta command line.


 
Le strix est separe du dual de 3090, completement. J'ai un PC (7700, B850, 32GB 6000) avec les 2 3090 dessus, et le strix.  
 
Est-ce qu'il y aurait un interet a coupler tout ca avec du llama-rpc ? Franchement je vois pas, les 3090 sont tellement plus rapide que le strix des que le modele et context fit la vram...  
 
J'utilise plutot le strix en mode agentic ai / gros modele / test. Et le dual 3090 pour "ma prod".
 
Quel est ton setup / gain avec RPC d'active ?

n°40171
neo world
Posté le 23-06-2026 à 12:00:05  profilanswer
 

Pipould's a écrit :


 
J'ai un bosgame M5 dans un chassis 3d printed.
 
Oui c'est ca que je veux dire.... J'utilise lemonade (mais n'importe, ca change rien), t'as le model qui process ou pond ses tokens et au milieu t'as le HTTP timeout de la facade qui arrive... Et ca pourri mon cline en sortie...  
 
Pour dire la j'ai:
 
Strix (lemonade)  -------\
                                     ----- Olla disptacher [SSH TUNEL] --- VPS [NGINX / API key proof / domaine public]
Dual 3090 (lemonade)--/


faut laisser tomber cline ou passer quelques paramètres à la mano :
https://github.com/cline/cline/issues/9182  
{
  "requestTimeoutMs": 300000,
  ...
}
 
dans globalstate.json. Là c'est reglé pour 5 minutes :)

n°40172
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 12:03:10  profilanswer
 

Pipould's a écrit :

Lemonade c'est la vie. je suis en lien avec les devs sur discord, ca bouge ultra rapidement....


Faudra que je regarde, mais ça fait beaucoup de trucs mélangés :o
 

Pipould's a écrit :


 
Le strix est separe du dual de 3090, completement. J'ai un PC (7700, B850, 32GB 6000) avec les 2 3090 dessus, et le strix.  
 
Est-ce qu'il y aurait un interet a coupler tout ca avec du llama-rpc ? Franchement je vois pas, les 3090 sont tellement plus rapide que le strix des que le modele et context fit la vram...  
 
J'utilise plutot le strix en mode agentic ai / gros modele / test. Et le dual 3090 pour "ma prod".
 
Quel est ton setup / gain avec RPC d'active ?


 
Tu pourrais mettre un gros MoE avec les layers d'attention sur la paire de 3090 et les experts sur le Strix et viser des modèles a plus de 150GB :love:  
 
Mon setup c'est 4060Ti 16GB + 2x BC250, mais j'attends ma deuxième alim, donc une BC250 pour le moment.
 
Mon gain c'est uniquement en VRAM, en vitesse, je suis pas sur de gagner tant que ça. En (très) gros avec 128K de contexte je suis a 100pp/10tg sur Qwen 27B Q5 MTP ou 300pp/30tg sur 35B Q5 MTP. (avec contexte remplis, quand il est vide ça va beaucoup plus vite :o).


---------------
Faudra que je teste un jour :o
n°40173
neo world
Posté le 23-06-2026 à 12:04:58  profilanswer
 

the_fennec a écrit :


 
Ha, lemonade je connais pas.


c'est un bon front à vulkan / Rocm / gestion des modèles mais attention c'est pas aussi mature que d'autres alternatives (lmstudio en premier). L'interface web est quand même bien pratique :D

n°40174
Pipould's
Posté le 23-06-2026 à 12:19:08  profilanswer
 

neo world a écrit :


faut laisser tomber cline ou passer quelques paramètres à la mano :
https://github.com/cline/cline/issues/9182  
{
  "requestTimeoutMs": 300000,
  ...
}
 
dans globalstate.json. Là c'est reglé pour 5 minutes :)


 
Exact... Mais du coup t'es bon pour passer la journee a prompt un truc qui te prendrai 1h a la mano...  :(


Message édité par Pipould's le 23-06-2026 à 12:21:35
n°40176
Pipould's
Posté le 23-06-2026 à 12:20:09  profilanswer
 

the_fennec a écrit :


 
Tu pourrais mettre un gros MoE avec les layers d'attention sur la paire de 3090 et les experts sur le Strix et viser des modèles a plus de 150GB :love:  
 
Mon setup c'est 4060Ti 16GB + 2x BC250, mais j'attends ma deuxième alim, donc une BC250 pour le moment.
 
Mon gain c'est uniquement en VRAM, en vitesse, je suis pas sur de gagner tant que ça. En (très) gros avec 128K de contexte je suis a 100pp/10tg sur Qwen 27B Q5 MTP ou 300pp/30tg sur 35B Q5 MTP. (avec contexte remplis, quand il est vide ça va beaucoup plus vite :o).


 
 
Le tout en llama rpc ? C'est pas con en fait... Tu peux assigner comme ca ?

n°40177
Pipould's
Posté le 23-06-2026 à 12:21:15  profilanswer
 

neo world a écrit :


c'est un bon front à vulkan / Rocm / gestion des modèles mais attention c'est pas aussi mature que d'autres alternatives (lmstudio en premier). L'interface web est quand même bien pratique :D


 
C'est plus un overlay de llamacpp / vllm / mlx / etc... Avec les backends cite... Que un outil all-in-one ou tu prompte aussi.
 
Je l'avais pris pour le load/unload dynamique des modeles a l'epoque.

n°40179
neo world
Posté le 23-06-2026 à 12:51:02  profilanswer
 

pour fêter ce jour de canicule : nouveau sondage et hardware hall of fame en FP.
 
Si je vous ait oublié ( :jap: ) pingez vos configs ! :D

n°40183
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 15:16:39  profilanswer
 

Pipould's a écrit :

Le tout en llama rpc ? C'est pas con en fait... Tu peux assigner comme ca ?


 
Oui tu lances rpc-server sur un host "slave" et sur le "master" avec -ts rpc,local :

Code :
  1. --rpc slave:50000 -ngl all --split-mode layer -ts 20,20 --n-cpu-moe 0


 
(tu peux mettre plus de rpc avec --rpc slave1:50000, slave1:50000 et le -ts slave1,slave2,local)
 
Pour la répartition des layers, voila la syntaxe:

Code :
  1. --override-tensor "output.weight=Vulkan0" \
  2. --override-tensor "token\_embd.weight=Vulkan0" \
  3. --override-tensor "blk.12.ffn\_down.weight=Vulkan0" \
  4. --override-tensor "blk.13.ffn\_down.weight=Vulkan0"
  5. ...


 
On peut mettre des regex:
https://github.com/ggml-org/llama.cpp/discussions/13154
 
Mais j'en suis pas encore la :o


---------------
Faudra que je teste un jour :o
n°40184
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 15:19:24  profilanswer
 

@neo world, pour la FP, j'ai aussi un MBP m4 48GB pour le taf (et Bedrock aussi :o)


---------------
Faudra que je teste un jour :o
n°40185
b-tzu
Geek a toute heure...
Posté le 23-06-2026 à 15:22:19  profilanswer
 

bon, cest bien compliqué a conf llama pour openvino. deja telecharger les bonnes dll openvino cest pas la folie, puis le lancer bien... et avoir des perfs deguelasse de 1 token seconde, meme sur des modeles 1.5B. gemini (toujours lui) me dit que le gguf nest peut etre pas adapté au npu, et qu'il faudrait une version spécifique du modele avec des fichiers xml et bin, quantification int4. je teste au fur et a mesure


---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)
n°40186
neo world
Posté le 23-06-2026 à 15:34:26  profilanswer
 

the_fennec a écrit :

@neo world, pour la FP, j'ai aussi un MBP m4 48GB pour le taf (et Bedrock aussi :o)


j'ai failli mettre ∞ pour bedrock mais ici c'est de l'infra locale uniquement !  :whistle:  
 
Même employé AWS ça compte pas sauf à avoir son bedrock dans son batiment ou à la rigueur s'appeler Jeff ou un de ses N-1 / N-2 grand-grand max :o

Message cité 1 fois
Message édité par neo world le 23-06-2026 à 15:36:20
n°40189
morcok
Posté le 23-06-2026 à 16:07:39  profilanswer
 

Vous utilisez quoi comme model pour opencode sur une carte 12go ?

n°40191
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 16:15:28  profilanswer
 

b-tzu a écrit :

bon, cest bien compliqué a conf llama pour openvino. deja telecharger les bonnes dll openvino cest pas la folie, puis le lancer bien... et avoir des perfs deguelasse de 1 token seconde, meme sur des modeles 1.5B. gemini (toujours lui) me dit que le gguf nest peut etre pas adapté au npu, et qu'il faudrait une version spécifique du modele avec des fichiers xml et bin, quantification int4. je teste au fur et a mesure


 
Donnes un peu plus d'info... quel OS, modèle, ligne de commande. C'est plustot le NPU qui n'est pas adapté à l'IA, c'est juste un gimmick, mais si tu peux l'utiliser ça sera avec llama.cpp je pense.
 

neo world a écrit :


j'ai failli mettre ∞ pour bedrock mais ici c'est de l'infra locale uniquement !  :whistle:  
 
Même employé AWS ça compte pas sauf à avoir son bedrock dans son batiment ou à la rigueur s'appeler Jeff ou un de ses N-1 / N-2 grand-grand max :o


 
:lol: oui tu as raison!
 

morcok a écrit :

Vous utilisez quoi comme model pour opencode sur une carte 12go ?


 
Une 3060? Quel CPU/RAM/OS?
Tu pourrais commencé par un Gemma 4 12B QAT, ça devrait passer. Si t'es joueur et patient Qwen 3.6 35B avec les experts en RAM.


---------------
Faudra que je teste un jour :o
n°40192
morcok
Posté le 23-06-2026 à 16:22:15  profilanswer
 

 
the_fennec a écrit :

 

Une 3060? Quel CPU/RAM/OS?
Tu pourrais commencé par un Gemma 4 12B QAT, ça devrait passer. Si t'es joueur et patient Qwen 3.6 35B avec les experts en RAM.

 

Intel i9 je sais plus quoi, 64go de ram et 3060 12go en effet.

 

Pour l'instant je suis sur qwen 3.6 35B effectivement. C'est pas mal mais c'est lent.
Je vais essayer gemma 4 12b, merci pour ta réponse :)

n°40193
b-tzu
Geek a toute heure...
Posté le 23-06-2026 à 16:23:48  profilanswer
 

the_fennec a écrit :


 
Donnes un peu plus d'info... quel OS, modèle, ligne de commande. C'est plustot le NPU qui n'est pas adapté à l'IA, c'est juste un gimmick, mais si tu peux l'utiliser ça sera avec llama.cpp je pense.
 


 

the_fennec a écrit :


 
:lol: oui tu as raison!
 


 

the_fennec a écrit :


 
Une 3060? Quel CPU/RAM/OS?
Tu pourrais commencé par un Gemma 4 12B QAT, ça devrait passer. Si t'es joueur et patient Qwen 3.6 35B avec les experts en RAM.


Windows 11, qwen 3 coder 7B et 1.5B.  
J'ai bien configuré llama.cpp, avec openvino.


---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)
n°40199
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 16:49:03  profilanswer
 

morcok a écrit :


Intel i9 je sais plus quoi, 64go de ram et 3060 12go en effet.
 
Pour l'instant je suis sur qwen 3.6 35B effectivement. C'est pas mal mais c'est lent.
Je vais essayer gemma 4 12b, merci pour ta réponse :)


 
Lent comment? Tu utilises quoi pour l'inférence, quel quants?
 

b-tzu a écrit :

Windows 11, qwen 3 coder 7B et 1.5B.  
J'ai bien configuré llama.cpp, avec openvino.


 
Ça donne quoi dans le task manager? Est-ce que le NPU est utilisé?


---------------
Faudra que je teste un jour :o
n°40200
b-tzu
Geek a toute heure...
Posté le 23-06-2026 à 16:51:38  profilanswer
 

le npu est bien a 100% dusage oui


---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)
n°40202
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 17:05:03  profilanswer
 

b-tzu a écrit :

le npu est bien a 100% dusage oui


 
Bon, ben voila, a moins de choisir un autre modèle plus petit, ça n'ira pas plus vite :(.
Peut être Gemma 4 QAT, comme il est plus récent, mais bon ça reste un NPU.


---------------
Faudra que je teste un jour :o
n°40205
b-tzu
Geek a toute heure...
Posté le 23-06-2026 à 17:26:45  profilanswer
 

et lhistoire de format ? oublier gguf pour xml/bat,  comme ici : https://huggingface.co/OpenVINO/Qwe [...] ct-int4-ov


---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)
n°40233
the_fennec
f3nn3cUs z3rd4
Posté le 23-06-2026 à 20:45:48  profilanswer
 

Non je pense pas que ça va aider. Tu as essayé quel quants? Quelle taille fait le modèle?
T'as essayé le iGPU plutôt que le NPU?
 
Essaye un truc tout petit, genre ça en Q4_K_M:
https://huggingface.co/unsloth/Qwen3.5-2B-GGUF
 
Post un screen de ton taskmanager, ta ligne de commande et les logs de llama.cpp.


Message édité par the_fennec le 23-06-2026 à 20:46:24

---------------
Faudra que je teste un jour :o
n°40250
bounty2k
Posté le 24-06-2026 à 07:21:15  profilanswer
 

D'ailleurs pour l'anecdote j'ai testé LlamaCPP et Ollama sur un PC a base d'Ultra 5 235U eh bien sur ollama l'inférence se fait sur le CPU alors que llamaCPP utilise le GPU.
Par contre je n'ai pas réussi a utiliser le NPU, trop compliqué même avec la version spécifique llamaCPP.
Mais j'ai vue sur une chaine YT qui est déja passé sur le topic que le NPU était moins performant que le GPU mais plus efficient, donc l'intérêt est très relatif. Il montrait d'ailleur que llamaCPP était plus rapide en Vulkan que l'environnement OpenVINO d'Intel  :lol:  

n°40253
Olivie
SUUUUUUUUUUUUUU
Posté le 24-06-2026 à 08:07:08  profilanswer
 

Version 1 bit
 

Citation :

@UnslothAI
1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5
 
We gave 3 models the same prompt and compared one-shot outputs.
 
The 1-bit GLM-5.2 GGUF ran locally on a Mac Studio M3 Ultra with 256GB RAM at ~21.6 tok/s.
 
Which output do you like best?
GGUF: https://huggingface.co/unsloth/GLM-5.2-GGUF


---------------

n°40255
b-tzu
Geek a toute heure...
Posté le 24-06-2026 à 09:02:58  profilanswer
 

jai essayé le igpu, avec un modele 8B qwen 3 jetais a 8 token seconde, ca passe encore.  
la je teste le tiens, je ne sais pas pourquoi il ne genere rien. le serveur tourne, mais je nai rien sur linterface quand je fais un prompt. mais j'ai deja essayé un tout petit, un 1.5B.


---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)
n°40256
b-tzu
Geek a toute heure...
Posté le 24-06-2026 à 09:04:23  profilanswer
 

Olivie a écrit :

Version 1 bit
 

Citation :

@UnslothAI
1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5
 
We gave 3 models the same prompt and compared one-shot outputs.
 
The 1-bit GLM-5.2 GGUF ran locally on a Mac Studio M3 Ultra with 256GB RAM at ~21.6 tok/s.
 
Which output do you like best?
GGUF: https://huggingface.co/unsloth/GLM-5.2-GGUF



256 Go de RAM  :ouch:


---------------
Topic Ventes || Topic Jeux Vidéos || Topic Téléphonie (Rien pour le moment)
n°40257
neo world
Posté le 24-06-2026 à 09:20:43  profilanswer
 

et avec une grosse bande passante (de tête 800GO/s) en M3 Ultra. c'est une machine de guerre mais même là ça plafonne à 20 tokens / seconde :D
 
Avec la crise de la RAM ça va être compliqué de faire tourner ce type de modèle avec un budget 3000€ ou moins (on doit pas être loin des 10k€ avec deux DGX spark ou 5k€ avec deux strix halo) ou alors faut taper les 10 BC250 en promotion pour 2600 balles mais ça fait beaucoup de temps perdu en réseau :D

 Page :   1  2  3  4  5  ..  18  19  20  21  22  23

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & cosécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)