[Topic unique] Développement via IA

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 25 26 27 .. 31 32 33 34 35 36 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic unique] Développement via IA

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Reprise du message précédent :
Même constat de mon côté, plus le fait d'avoir une configuration boiteuse qui exige beaucoup de test pour peu de gain... Je suis repassé sur llama officiel et basta

---------------
Victime de girafophobie, mais se soigne.

Publicité

bounty2k

J'ai tout tenté pour faire tourner Qwen3.6 sur mon M4 avec 16 go de RAM et j'ai enfin réussi .... avec la version 35B en Q1 :lol: , toutes les autres versions plantaient systématiquement au démarrage quelque soit le paramétrage, y compris les models en Q2.

J'ai fait le test de lui faire générer flappybird et le résultat est plutot bon graphiquement (identique à la version de the_fennec) mais les tubes sont systématiquement mal placés et ne permette pas d'y jouer (il n'y a pas l'espace pour faire passer l'oiseau), surement inhérent à la version Q1. Par contre le model à l'air vraiment très très bon et rapide, dommage de ne pas pouvoir le lancer une version Q3 ou Q4.
J'en ai également profité pour tester le même prompt (flappybird) avec Gemma 4 en 9B, qui lui, a généré un flappybird parfaitement jouable mais graphiquement ultra basique (un rond et des rectangles)

the_fennec

f3nn3cUs z3rd4

T'as pris quel model?
C'est quoi ta ligne de commande?
T'as quoi d'autre qui tourne?

Message cité 1 fois
Message édité par the_fennec le 23-04-2026 à 17:56:08

---------------
Faudra que je teste un jour :o

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Sur du metal il y a des optimisations intéressantes, maintenant oui un 16gb quoi que tu fasse ça va rester très limité

Message cité 1 fois

---------------
Victime de girafophobie, mais se soigne.

the_fennec

f3nn3cUs z3rd4

Faudrait que je teste sur le m1 de ma femme, mais je vois pas pourquoi on pourrait pas charger un modèle de 12GB comme le Qwen3.6-27B-UD-IQ3_XXS.

---------------
Faudra que je teste un jour :o

bounty2k

the_fennec a écrit :

T'as pris quel model?
C'est quoi ta ligne de commande?
T'as quoi d'autre qui tourne?

J'ai tenté a peu pret tout ce qui était possible, du plus simple au plus compliqué (toujours avec mmap d'activé) , même avec un context de 4096 ça ne passait pas (je partais avec 0 appli ouverte à coté) .
Parmis les tests :
--jinja -c 4096 --port 8080 -ngl 99 --mmap
--jinja -c 4096 --port 8080 -ngl 99 --mmap --swa-full -fa on --reasoning off
--jinja -c 4096 --port 8080 -ngl 99 --mmap --swa-full --reasoning off
--jinja -c 4096 --port 8080

Tronklou a écrit :

Sur du metal il y a des optimisations intéressantes, maintenant oui un 16gb quoi que tu fasse ça va rester très limité

Il faudrait que je teste cette piste en effet :jap: , a priori il y a des gains substantiels à la clé, au moins en tg/s

EDIT : j'ai réussi à lancer la version Q2 XXS, mais on voit que l'allocation de la RAM fait le yoyo, c'est le seul model qui me fait ça.
Et même en Q2 le model est trop imprécis ex :
Prompt : Combien de R y a t-il dans le mot "fraise"
Réponse : Il y a 0 lettre "R" dans le mot "fraise".
Prompt : En es-tu sur ?
Réponse : Oui, je suis certain. Si tu regardes bien le mot fraise, il est composé des lettres : F - A - I - S - E. Il n'y a aucune lettre "R".

Message édité par bounty2k le 23-04-2026 à 18:51:54

the_fennec

f3nn3cUs z3rd4

N'utilises pas -ngl 99, ça force a charger tout le modèle en mémoire. mmap est actif par défaut. Utilise --ctk q4_0 --ctv q4_0 pour compresser le contexte (a mort ).

T'as essayé ça?

Code :

sudo sysctl iogpu.unified_memory_limit_mtl=15360

Laisse tomber les tests de logique, surtout en français, ça n'a aucun intérêt technique. Un LLM c'est que des stats.

T'as d'autres trucs qui tournent en plus?

Message cité 1 fois

---------------
Faudra que je teste un jour :o

bounty2k

the_fennec a écrit :

N'utilises pas -ngl 99, ça force a charger tout le modèle en mémoire. mmap est actif par défaut. Utilise --ctk q4_0 --ctv q4_0 pour compresser le contexte (a mort ).

T'as essayé ça?

Code :

sudo sysctl iogpu.unified_memory_limit_mtl=15360

Laisse tomber les tests de logique, surtout en français, ça n'a aucun intérêt technique. Un LLM c'est que des stats.

T'as d'autres trucs qui tournent en plus?

J'avais essayé sans le ngl et avec les ctk q4_0 et ctv q4_o, sans que cela change quoique ce soit.
Je n'ai pas encore testé ta commande sysctl cependant, je regarderais ça demain :jap:
Rien d'autre qui tourne, même pas de navigateur web.

Pour le test de logique linguistique, Qwen 3.6 Plus le passe sans problème, je suspecte que c'est la quantification excessive qui rend le model local un peu bête.

Message cité 1 fois

neo world

Merci pour vos réponses et retours d’expérience

the_fennec

f3nn3cUs z3rd4

Sinon pour Qwen 3.6, je pense qu'il y a des petits soucis, je pensais que c'était le speculative decoding, mais non, 27B et 35B semblent s'arrêter tout seuls au bout de quelques heures, ensuite il faut souvent relancer llama.cpp.

---------------
Faudra que je teste un jour :o

Publicité

the_fennec

f3nn3cUs z3rd4

bounty2k a écrit :

Qwen 3.6 Plus doit faire 500GB et tourner sur 10xA100, c'est pas comparable ...

---------------
Faudra que je teste un jour :o

neo world

J’ai pas remarqué de soucis de mon côté sur Mac avec LM Studio. J’ai fait une session de 61k tokens au total avec Qwen 3.6 plus 35B A3B Q8. Les performances ce sont dégradées progressivement (les premiers messages tournaient à 49 tokens / seconde mais les derniers plafonnent à 36,14 tokens par seconde avec un Time to first token régulièrement supérieur à 30 secondes. Ce weekend je m’occupe enfin de la partie CI/CD et je vais le faire cravacher sur des apps K8s

Message cité 1 fois
Message édité par neo world le 23-04-2026 à 21:52:12

bulldozer_fusion

rip Mekthoub & Marc

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Tant que tu n'as pas remplis ton contexte et compacté au moins une fois, je trouve qu'on a pas des perf stables, on commence vite et ça descends un peu puis ça se stabilise.

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Bon je repasse sur Qwen3-coder-next, je veux voir si mes soucis de perf/halt sont dus a Qwen 3.6.

La j'étais sur 35B et tombé a 3 tgs au lieu de 35 au bout de 12h de code.

Message cité 1 fois

---------------
Faudra que je teste un jour :o

bulldozer_fusion

rip Mekthoub & Marc

Message cité 1 fois

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

neo world

the_fennec a écrit :

Bon je repasse sur Qwen3-coder-next, je veux voir si mes soucis de perf/halt sont dus a Qwen 3.6.

La j'étais sur 35B et tombé a 3 tgs au lieu de 35 au bout de 12h de code.

Je pensais que tu avais un gros cluster de GPU ? Pas d’intérêt pour switcher sur le dernier truc trendy mais obèse en VRAM (je pense à Kimi 2.6) ?

Pour faire deux scripts dans un coin c’est overkill je note mais si tes modèles tournent 12h d’affilée à priori c’est pas pour sortir un nouveau flappy bird

Message cité 1 fois
Message édité par neo world le 24-04-2026 à 23:19:59

bulldozer_fusion

rip Mekthoub & Marc

Citation :

DeepSeek-V4-Flash is now available to run on Ollama's cloud using the latest NVIDIA Blackwell hardware.

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

ionik

bulldozer_fusion a écrit :

https://rehost.diberie.com/Picture/Get/f/509005

Si quelqu'un test le pro et flash je veux bien un retour même si 5 euros ça pourrait être rentable a tester sur un mois

Message cité 1 fois

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

XaTriX

J'échange parfois les messages/sorties entre Claude et Codex. Il me faut vraiment une façon de les faire communiquer dans ce cadre

Des idées ?

Message cité 1 fois

---------------
Proxytaf ? non rien

ionik

Tu peux demander a l'un ou a l'autre d'utiliser la commande par exemple claude -p qui fait directement un echo et sortie de la réponse que peu récupérer codex non ? après ça reste du one shot comme demande pas de la communication en temps réelle

Message cité 1 fois

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Mon "cluster" c'est une RTX 4060Ti 16GB et un carte BC-250 16GB, c'est tout. Le plus gros modèle que j'arrive a charger c'est Qwen3-Coder-Next-UD-IQ3_S.gguf qui fait 29GB et j'ai un contexte de 64k. Impossible de charger Kimi.

Il tourne depuis plus d'une semaine a porter le Kernel Linux 7.x sur Amiga 500 (avec quelques arrêts pour test/crash/swap). Ça sert strictement a rien, mais c'est fun et ça me permet de jouer avec llama et apprendre un peu comment ça marche. J'ai accès à Kiro/Cursor pour le taf, mais j'aime bien le fait d'avoir un truc en local pour faire des expériences.

L'étape d'après c'est de faire tourner le kernel dans un émulateur que j'ai modifié avec la même config pour ajouter une API REST pour que le LLM puisse bidouille. Ensuite si tout marche bien, sur mon Amiga 500 .

Si tout ça marche, ensuite j'aimerais tester de bidouiller ReactOS...

Message cité 2 fois

---------------
Faudra que je teste un jour :o

XaTriX

ionik a écrit :

Je vois pas trop comment ça peut s'intégrer dans le worfklow là [:transparency]

---------------
Proxytaf ? non rien

XaTriX

P'tet un skill avec inotify et partage d'un dossier tmp avec fichiers codex_0001.tmp et claude_0001.tmp ?

---------------
Proxytaf ? non rien

ionik

Non tu lui dit de demande a claude en tant que skill il lance claude -p 'PROMPT' et voir le retour tout simplement, il me semble que le cli codex a le même paramètre

Edit : même sans skill ça doit fonctionner, en lui demandant de lancer la commande, test tu verras.

Message édité par ionik le 25-04-2026 à 10:10:41

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

XaTriX

Tu vois pas mon screen :??:

Message cité 1 fois

---------------
Proxytaf ? non rien

neo world

the_fennec a écrit :

:jap:

On va finir par se cotiser sur le topic pour prendre 8H100 et jouer avec les derniers modèles à la mode hfrstyle

Quelqu’un a déjà monté des RAG (ou équivalent) sur ses repos git hub ou sur des documents (drive ou local) ?

Message cité 2 fois

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

J'ai écouté la voie de la raison : j'ai mis une debian sur la bc250. Moins performant que mon ancienne installation fedora, mais tellement plus stable :love:

Il faut encore que je règle le souci de montée en fréquence du gpu qui se traîne beaucoup trop avec le governor et éventuellement tester le custom kernel proposé sur le wiki.

Par contre impossible de passer sous les 32w en idle

EDIT :

Un petit watchdog sur le slot utilisé par llama, dès que l'inférence se lance ca boost a 2ghz le gpu, le gain est massif :sol:

# BC-250 + llama.cpp : +42% token/s avec GPU DPM Watchdog
## Le problème
Le GPU BC-250 (Cyan Skillfish) bloque à ~1200 MHz en DPM auto pendant l'inférence,
au lieu des 2000 MHz possibles.
## Le fix : watchdog D-Bus vers le governor SMU
Le driver amdgpu ne permet pas de forcer le DPM manuellement sur cette carte.
Mais le cyan-skillfish-governor-smu expose une API D-Bus pour forcer la fréquence.

### 1. Config du governor (`/etc/cyan-skillfish-governor-smu/config.toml`)

Code :

```toml
[[safe-points]]
frequency = 350
voltage = 700
[[safe-points]]
frequency = 1000
voltage = 800
[[safe-points]]
frequency = 1500
voltage = 900
[[safe-points]]
frequency = 1800
voltage = 950
[[safe-points]]
frequency = 2000
voltage = 1000
[dbus]
enabled = true
[load-target]
lower = 70
upper = 95

2. Policy D-Bus (/etc/dbus-1/system.d/cyan-skillfish-governor.conf)

Code :

<!DOCTYPE busconfig PUBLIC "-//freedesktop//DTD D-BUS Bus Configuration 1.0//EN"
"http://www.freedesktop.org/standards/dbus/1.0/busconfig.dtd">
<busconfig>
<policy user="root">
<allow own="com.cyan.SkillFishGovernor"/>
<allow send_destination="com.cyan.SkillFishGovernor"/>
</policy>
<policy context="default">
<allow send_destination="com.cyan.SkillFishGovernor"/>
</policy>
</busconfig>

3. Watchdog (/usr/local/bin/gpu-dpm-watchdog.sh)

Code :

#!/bin/bash
# Monitor llama-server /slots, force GPU 2000 MHz via SMU D-Bus during inference
SLOTS_URL="http://localhost:8080/slots"
CHECK_INTERVAL=0.3
COOLDOWN_SEC=2
current_state="auto"
set_high() {
[ "$current_state" = "high" ] && return
busctl --system call com.cyan.SkillFishGovernor \
/com/cyan/SkillFishGovernor \
com.cyan.SkillFishGovernor.PerformanceMode \
SetFixedFrequency u 2000 >/dev/null 2>&1
current_state="high"
}
set_auto() {
[ "$current_state" = "auto" ] && return
busctl --system call com.cyan.SkillFishGovernor \
/com/cyan/SkillFishGovernor \
com.cyan.SkillFishGovernor.PerformanceMode \
Disable >/dev/null 2>&1
current_state="auto"
}
idle_since=0
while true; do
slots=$(curl -s --max-time 2 "$SLOTS_URL" 2>/dev/null)
[ -z "$slots" ] && { set_auto; sleep "$COOLDOWN_SEC"; continue; }
if echo "$slots" | grep -qE '"is_processing":[[:space:]]*true|"state":[[:space:]]*[1-9]'; then
set_high; idle_since=0
else
[ "$idle_since" -eq 0 ] && idle_since=$(date +%s)
[ $(( $(date +%s) - idle_since )) -ge "$COOLDOWN_SEC" ] && set_auto
fi
sleep "$CHECK_INTERVAL"
done

4. Service systemd (/etc/systemd/system/gpu-dpm-watchdog.service)

Code :

[Unit]
Description=GPU DPM Watchdog for llama-server
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/bin/gpu-dpm-watchdog.sh
Restart=on-failure
RestartSec=5
[Install]
WantedBy=multi-user.target

5. Activation

chmod +x /usr/local/bin/gpu-dpm-watchdog.sh
systemctl restart cyan-skillfish-governor-smu
systemctl daemon-reload
systemctl enable --now gpu-dpm-watchdog

Message cité 1 fois
Message édité par Tronklou le 25-04-2026 à 11:13:38

---------------
Victime de girafophobie, mais se soigne.

ionik

XaTriX a écrit :

Tu vois pas mon screen :??:

Si mais je ne sais pas comment tu pourrais faire soit via un MCP soit via un répertoire partagé qui verifie régulièrement le contenu avec un repertoire pour chaque, mais il me semble avoir lu quelque part que certain l'avait fait.

Sinon demande leur directement comment faire ^^

---------------
Recette cookeo | Recette de cuisine | Extension chrome HFR

bulldozer_fusion

rip Mekthoub & Marc

ionik a écrit :

Si quelqu'un test le pro et flash je veux bien un retour même si 5 euros ça pourrait être rentable a tester sur un mois

:jap:

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

bounty2k

neo world a écrit :

Je teste Anything LLM en ce moment qui a pas mal de possibilités agentiques et de RAG, très simple d'utilisation, il a sa propre base vectorielle, s'adapte à toute sorte de LLM. Il a des connecteurs Github, Confluence etc ...

Message cité 1 fois

XaTriX

Je vais devoir prendre un 2eme abo codex :lol:

Heuresement que j'ai des prix parce que sinon.. entre le team premium chez Anthropic (125$ normalement) et les Biz chez OpenAI à 21€ et tout ça hors TVA

Après si Anthropic avait pas chié dans la colle avec opus lô le Max20 serait une super offre, même à 200$ je parle pour les autres bien sur

---------------
Proxytaf ? non rien

Winpoks

21€ avec un gros quota ?

XaTriX

bah classique non ? c'est le prix avant réduc je veux dire
pas de compte premium dispo pour moi sur openai, faut que j'enchaine les comptes
sinon c'est paiement au token LOL

Message cité 1 fois

---------------
Proxytaf ? non rien

neo world

bounty2k a écrit :

Merci :jap:

bulldozer_fusion

rip Mekthoub & Marc

XaTriX a écrit :

bah classique non ? c'est le prix avant réduc je veux dire
pas de compte premium dispo pour moi sur openai, faut que j'enchaine les comptes
sinon c'est paiement au token LOL

Tu envoies la facture à ldlc :whistle:

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

bulldozer_fusion

rip Mekthoub & Marc

Cross topic

Citation :

I Xiaomi’s MiMo V2.5 Pro has landed at 54 in the Artificial Analysis Intelligence Index, tied with Moonshot’s Kimi K2.6 - the current top open weights model. MiMo V2.5 Pro’s weights are expected to be released soon, which would make MiMo V2.5 Pro the first equal open weights model - slightly ahead of DeepSeek V4 Pro

@Xiaomi’s MiMo V2.5 Pro shows an impressive improvement over MiMo V2 Pro (49), the previous generation of Xiaomi's flagship model family, which was released just over a month ago on March 19, 2026.

Key takeaways:

➤ MiMo V2.5 Pro is on the pareto frontier of our Intelligence Index vs Cost to Run Intelligence Index chart. It was slightly cheaper to run than GLM-5.1, and slightly more intelligent. It was significantly cheaper to run than Kimi K2.6, driven by using just over half the number of output tokens.

➤ MiMo V2.5 Pro will be the leading open weights model in GDPval-AA, our agentic real-world work tasks benchmark. It scores 1578, ahead of DeepSeek V4 Pro (1554), GLM-5.1 (1535), MiniMax-M2.7 (1514), and Kimi K2.6 (1484).

Citation :

Priced at $1.00/$3.00 per million input/output tokens on Xiaomi’s first-party API, MiMo V2.5 Pro is relatively cost-efficient for its intelligence tier. It costs only $462 to run the Artificial Analysis Intelligence Index, compared to $948 for Kimi K2.6 and $544 for GLM 5.1.

Xiaomi sorti de nul part qui est le meilleur rapport qualité prix perf avec cette nouvelle version v2. 5 pro à venir [:shaft_d0:2]

https://x.com/i/status/2047799218828665093

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

neo world

les modèles chinois en train de refaire tout leur retard sur les modèles ricains ! y'a d'autres projets en Europe à suivre ou tout est chez Mistral et Albert ( ) ?

Message cité 2 fois
Message édité par neo world le 25-04-2026 à 15:04:51

bulldozer_fusion

rip Mekthoub & Marc

neo world a écrit :

les modèles chinois en train de refaire tout leur retard sur les modèles ricains ! y'a d'autres projets en Europe à suivre ou tout est chez Mistral et Albert ( ) ?

A part Mistral et h company on est largué

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

neo world

deux boîtes françaises. On est pas dans la merde sur le vieux continent

Message cité 1 fois

speedboyz30

Guide Michelin :o

XaTriX a écrit :

https://i.imgur.com/YJ6ctxDl.png

J'échange parfois les messages/sorties entre Claude et Codex. Il me faut vraiment une façon de les faire communiquer dans ce cadre

Des idées ?

.md files ?

Publicité

Page : 1 2 3 4 5 .. 25 26 27 .. 31 32 33 34 35 36

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Programmation

Divers

[Topic unique] Développement via IA

Sujets relatifs
Un assistant IA m’a pondu un script Bash… et une blague en bonus !	[React] Comment changer le state de manière unique dans une map
Macros MS Publisher 2007 (Topic Unique ?)	Environnement de développement modulaire basé sur node.js avec docker
Les truc indispensable sur du gros développement	IA
MonoGame 3.8 - Le topic Unique	[Développement Web] Votre parcours en tant que développeur web
[POSTGRESQL] WTF création unique impossibe	ondage sur votre expérience en développement web (dette technique)
Plus de sujets relatifs à : [Topic unique] Développement via IA

Page générée en 0.108 secondes