Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1982 connectés 

 


 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  21  22  23  24  25  26
Page Suivante
Auteur Sujet :

[Topic unique] Développement via IA

n°2522771
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 23-04-2026 à 17:13:20  profilanswer
 

Reprise du message précédent :
Même constat de mon côté, plus le fait d'avoir une configuration boiteuse qui exige beaucoup de test pour peu de gain... Je suis repassé sur llama officiel et basta  :D


---------------
Victime de girafophobie, mais se soigne.
mood
Publicité
Posté le 23-04-2026 à 17:13:20  profilanswer
 

n°2522774
bounty2k
Posté le 23-04-2026 à 17:33:51  profilanswer
 

J'ai tout tenté pour faire tourner Qwen3.6 sur mon M4 avec 16 go de RAM et j'ai enfin réussi .... avec la version 35B en Q1  :lol: , toutes les autres versions plantaient systématiquement au démarrage quelque soit le paramétrage, y compris les models en Q2.
 
J'ai fait le test de lui faire générer flappybird et le résultat est plutot bon graphiquement (identique à la version de the_fennec) mais les tubes sont systématiquement mal placés et ne permette pas d'y jouer  (il n'y a pas l'espace pour faire passer l'oiseau), surement inhérent à la version Q1. Par contre le model à l'air vraiment très très bon et rapide, dommage de ne pas pouvoir le lancer une version Q3 ou Q4.
J'en ai également profité pour tester le même prompt (flappybird) avec Gemma 4 en 9B, qui lui, a généré un flappybird parfaitement jouable mais graphiquement ultra basique (un rond et des rectangles)

n°2522775
the_fennec
f3nn3cUs z3rd4
Posté le 23-04-2026 à 17:50:25  profilanswer
 

T'as pris quel model?  
C'est quoi ta ligne de commande?
T'as quoi d'autre qui tourne?

Message cité 1 fois
Message édité par the_fennec le 23-04-2026 à 17:56:08

---------------
Faudra que je teste un jour :o
n°2522776
Tronklou
❤❤ Vrp Bambulab à mi-temps ❤❤
Posté le 23-04-2026 à 17:53:08  profilanswer
 

Sur du metal il y a des optimisations intéressantes, maintenant oui un 16gb quoi que tu fasse ça va rester très limité


---------------
Victime de girafophobie, mais se soigne.
n°2522777
the_fennec
f3nn3cUs z3rd4
Posté le 23-04-2026 à 17:57:57  profilanswer
 

Faudrait que je teste sur le m1 de ma femme, mais je vois pas pourquoi on pourrait pas charger un modèle de 12GB comme le Qwen3.6-27B-UD-IQ3_XXS.


---------------
Faudra que je teste un jour :o
n°2522779
bounty2k
Posté le 23-04-2026 à 18:37:11  profilanswer
 

the_fennec a écrit :

T'as pris quel model?
C'est quoi ta ligne de commande?
T'as quoi d'autre qui tourne?


J'ai tenté a peu pret tout ce qui était possible, du plus simple au plus compliqué (toujours avec mmap d'activé) , même avec un context de 4096 ça ne passait pas (je partais avec 0 appli ouverte à coté) .
Parmis les tests :
--jinja -c 4096 --port 8080 -ngl 99 --mmap
--jinja -c 4096 --port 8080 -ngl 99 --mmap --swa-full -fa on --reasoning off
--jinja -c 4096 --port 8080 -ngl 99 --mmap --swa-full --reasoning off
--jinja -c 4096 --port 8080

 
Tronklou a écrit :

Sur du metal il y a des optimisations intéressantes, maintenant oui un 16gb quoi que tu fasse ça va rester très limité


Il faudrait que je teste cette piste en effet  :jap: , a priori il y a des gains substantiels à la clé, au moins en tg/s

 


EDIT : j'ai réussi à lancer la version Q2 XXS, mais on voit que l'allocation de la RAM fait le yoyo, c'est le seul model qui me fait ça.
Et même en Q2 le model est trop imprécis ex  :
Prompt : Combien de R y a t-il dans le mot "fraise"
Réponse : Il y a 0 lettre "R" dans le mot "fraise".
Prompt : En es-tu sur ?
Réponse : Oui, je suis certain. Si tu regardes bien le mot fraise, il est composé des lettres : F - A - I - S - E. Il n'y a aucune lettre "R".


Message édité par bounty2k le 23-04-2026 à 18:51:54
n°2522781
the_fennec
f3nn3cUs z3rd4
Posté le 23-04-2026 à 19:32:32  profilanswer
 

N'utilises pas -ngl 99, ça force a charger tout le modèle en mémoire. mmap est actif par défaut. Utilise --ctk q4_0 --ctv q4_0 pour compresser le contexte (a mort :o).
 
T'as essayé ça?

Code :
  1. sudo sysctl iogpu.unified_memory_limit_mtl=15360


 
Laisse tomber les tests de logique, surtout en français, ça n'a aucun intérêt technique. Un LLM c'est que des stats.
 
T'as d'autres trucs qui tournent en plus?


---------------
Faudra que je teste un jour :o
n°2522782
bounty2k
Posté le 23-04-2026 à 19:53:38  profilanswer
 

the_fennec a écrit :

N'utilises pas -ngl 99, ça force a charger tout le modèle en mémoire. mmap est actif par défaut. Utilise --ctk q4_0 --ctv q4_0 pour compresser le contexte (a mort :o).
 
T'as essayé ça?

Code :
  1. sudo sysctl iogpu.unified_memory_limit_mtl=15360


 
Laisse tomber les tests de logique, surtout en français, ça n'a aucun intérêt technique. Un LLM c'est que des stats.
 
T'as d'autres trucs qui tournent en plus?


J'avais essayé sans le ngl et avec les ctk q4_0 et ctv q4_o, sans que cela change quoique ce soit.
Je n'ai pas encore testé ta commande sysctl cependant, je regarderais ça demain  :jap:  
Rien d'autre qui tourne, même pas de navigateur web.
 
Pour le test de logique linguistique, Qwen 3.6 Plus le passe sans problème, je suspecte que c'est la quantification excessive qui rend le model local un peu bête.

n°2522785
neo world
Posté le 23-04-2026 à 20:00:14  profilanswer
 

Merci pour vos réponses et retours d’expérience :D

n°2522786
the_fennec
f3nn3cUs z3rd4
Posté le 23-04-2026 à 20:01:08  profilanswer
 

Sinon pour Qwen 3.6, je pense qu'il y a des petits soucis, je pensais que c'était le speculative decoding, mais non, 27B et 35B semblent s'arrêter tout seuls au bout de quelques heures, ensuite il faut souvent relancer llama.cpp.
 


---------------
Faudra que je teste un jour :o
mood
Publicité
Posté le 23-04-2026 à 20:01:08  profilanswer
 

n°2522787
the_fennec
f3nn3cUs z3rd4
Posté le 23-04-2026 à 20:02:35  profilanswer
 

bounty2k a écrit :


J'avais essayé sans le ngl et avec les ctk q4_0 et ctv q4_o, sans que cela change quoique ce soit.
Je n'ai pas encore testé ta commande sysctl cependant, je regarderais ça demain  :jap:  
Rien d'autre qui tourne, même pas de navigateur web.
 
Pour le test de logique linguistique, Qwen 3.6 Plus le passe sans problème, je suspecte que c'est la quantification excessive qui rend le model local un peu bête.


 
Qwen 3.6 Plus doit faire 500GB et tourner sur 10xA100, c'est pas comparable ...


---------------
Faudra que je teste un jour :o
n°2522790
neo world
Posté le 23-04-2026 à 21:45:38  profilanswer
 

J’ai pas remarqué de soucis de mon côté sur Mac avec LM Studio. J’ai fait une session de 61k tokens au total avec Qwen 3.6 plus 35B A3B Q8. Les performances ce sont dégradées progressivement (les premiers messages tournaient à 49 tokens / seconde mais les derniers plafonnent à 36,14 tokens par seconde avec un Time to first token régulièrement supérieur à 30 secondes. Ce weekend je m’occupe enfin de la partie CI/CD et je vais le faire cravacher sur des apps K8s :D


Message édité par neo world le 23-04-2026 à 21:52:12
n°2522791
bulldozer_​fusion
rip Mekthoub & Marc
Posté le 23-04-2026 à 21:45:51  profilanswer
 
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  21  22  23  24  25  26
Page Suivante

Aller à :
Ajouter une réponse
 

Sujets relatifs
Un assistant IA m’a pondu un script Bash… et une blague en bonus ![React] Comment changer le state de manière unique dans une map
Macros MS Publisher 2007 (Topic Unique ?)Environnement de développement modulaire basé sur node.js avec docker
Les truc indispensable sur du gros développementIA
MonoGame 3.8 - Le topic Unique[Développement Web] Votre parcours en tant que développeur web
[POSTGRESQL] WTF création unique impossibeondage sur votre expérience en développement web (dette technique)
Plus de sujets relatifs à : [Topic unique] Développement via IA


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)