the_fennec f3nn3cUs z3rd4 | Tronklou a écrit :
C'est pas mal du tout
Tu monte a combien de token second sur un qwen 3.5 9B en 4b ?
|
Voila en 9B Q4:
Code :
- build/bin/llama-server --alias default --host 0.0.0.0 --port 8080 -hf unsloth/Qwen3.5-9B-GGUF:Q4_K_M --ctx-size 16000
- prompt eval time = 265.48 ms / 19 tokens ( 13.97 ms per token, 71.57 tokens per second)
- eval time = 86665.70 ms / 2766 tokens ( 31.33 ms per token, 31.92 tokens per second)
- total time = 86931.18 ms / 2785 tokens
|
J'essaye de charger Mistral-Small-4-119B-2603-IQ1_S.gguf pour le fun, mais le server rpc plante, j'imagine que -1.8GB de free c'est pas bon
Code :
- llama_params_fit_impl: - RPC0 (lain:50000) : 16012 total, 17858 used, -1864 free vs. target of 1024
- llama_params_fit_impl: - CUDA0 (NVIDIA GeForce RTX 4060 Ti): 16379 total, 11296 used, 2290 free vs. target of 1024
|
Code :
- [ 1090.163002] oom-kill:constraint=CONSTRAINT_NONE,nodemask=(null),cpuset=/,mems_allowed=0,global_oom,task_memcg=/user.slice/user-1000.slice/session-1.scope,task=rpc-server,pid=1726,uid=1000
- [ 1090.163020] Out of memory: Killed process 1726 (rpc-server) total-vm:1544280kB, anon-rss:40kB, file-rss:0kB, shmem-rss:0kB, UID:1000 pgtables:2744kB oom_score_adj:0
|
J'ai pas eu de soucis avec Qwen3.5-35B-A3B-UD-Q4_K_L, je dois juste avoir une limite de travers. ---------------
Faudra que je teste un jour :o
|