the_fennec a écrit :
T'as pris quel model? C'est quoi ta ligne de commande? T'as quoi d'autre qui tourne?
|
J'ai tenté a peu pret tout ce qui était possible, du plus simple au plus compliqué (toujours avec mmap d'activé) , même avec un context de 4096 ça ne passait pas (je partais avec 0 appli ouverte à coté) .
Parmis les tests :
--jinja -c 4096 --port 8080 -ngl 99 --mmap
--jinja -c 4096 --port 8080 -ngl 99 --mmap --swa-full -fa on --reasoning off
--jinja -c 4096 --port 8080 -ngl 99 --mmap --swa-full --reasoning off
--jinja -c 4096 --port 8080
Tronklou a écrit :
Sur du metal il y a des optimisations intéressantes, maintenant oui un 16gb quoi que tu fasse ça va rester très limité
|
Il faudrait que je teste cette piste en effet
, a priori il y a des gains substantiels à la clé, au moins en tg/s
EDIT : j'ai réussi à lancer la version Q2 XXS, mais on voit que l'allocation de la RAM fait le yoyo, c'est le seul model qui me fait ça.
Et même en Q2 le model est trop imprécis ex :
Prompt : Combien de R y a t-il dans le mot "fraise"
Réponse : Il y a 0 lettre "R" dans le mot "fraise".
Prompt : En es-tu sur ?
Réponse : Oui, je suis certain. Si tu regardes bien le mot fraise, il est composé des lettres : F - A - I - S - E. Il n'y a aucune lettre "R".
Message édité par bounty2k le 23-04-2026 à 18:51:54