[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 368 369 370 .. 412 413 414 415 416 417 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co

falkon1000

Reprise du message précédent :
Deepseek V4 je l'ai fait bosser ce soir, ça marche, mais il crame énormément de token de réflexion donc tout prend du temps. Pour une simple demande il sort un roman. GLM 5.1 me semblait pas mal, même codex disait que ce qu'il faisait était correct même si jamais optimal alors qu'il considère claude comme un bon junior ^^

falkon1000

Je viens de refaire un essai : demander à Deepseek V4 Pro de changer la taille d'un élément sur un site : il sort deux romans de réflexion, remplis de "Oh wait! I see" puis fait le truc, 4 minutes

GPT 5.4 mini low : réalisé à l'identique en 5 secondes

Par contre Deepseek est très, très peu couteux... mais comme il est très lent à produire, en entreprise ça doit surement revenir plus cher que GPT..

Message édité par falkon1000 le 27-04-2026 à 22:04:20

bulldozer_fusion

rip Mekthoub & Marc

LibreArbitre a écrit :

Je partage le même constat et j'ai eu tous les abos : Claude Pro, ChatGPT Plus (pour Codex 5.4), Gemini AI Pro (AlibabaCloud, OpenCode Go et Ollama Cloud Pro pour les modèles open source). J'ai beaucoup utilisé Opus à l'époque d'Antigravity mais mon favori c'est de loin GLM-5.1. Faut que je creuse Kimi K2.6 et DeepSeek V4 Pro. Minimax M2.7 ne m'a pas convaincu et les Qwen* non-plus...

Kimi Kimi

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

bulldozer_fusion

rip Mekthoub & Marc

falkon1000 a écrit :

Ah oui c'est vrai, merci ! Openrouteur on sait pas si c'est distillé par contre ?

Tronklou a écrit :

Très content de GLM 5.1 et des quotas proposé par ollama cloud, si je devais garder qu'un seul abo ce serais lui :jap:

Ah voilà

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Par contre j'ai renté kimi aujourd’hui, c'est mort. Dès que ca rentre dans le dur elle fait de la merde.

---------------
Victime de girafophobie, mais se soigne.

Olivie

SUUUUUUUUUUUUUU

Xatrix tu testes sur tes PR app RedFace ?

---------------

Olivie

SUUUUUUUUUUUUUU

Qui a assez de ram pour tester ?

https://huggingface.co/collections/XiaomiMiMo/mimo-v25

---------------

bulldozer_fusion

rip Mekthoub & Marc

Olivie a écrit :

Qui a assez de ram pour tester ?

https://img3.super-h.fr/images/2026 [...] fcdd71.jpg

https://huggingface.co/collections/XiaomiMiMo/mimo-v25

Sophia

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

falkon1000

J'ai laissé tourner deepseek sur une modif demandée hier. Ce matin, je vois qu'il a cramé 200 000 tokens sur une demande simple et a fini par restaurer complètement un fichier depuis git, a créé un programme python pour éditer un fichier PHP et a finalement modifié 5 lignes dedans.
C'est bien fait, mais quelle énergie pour juste ça !

EDIT : il aura mis 30 minutes
Pour comparer, j'annule les changements, je demande à 5.3 codex low de faire la modification (même prompt) : 10 secondes, modif ciblée.

Je vois mal comment on peut réellement se servir de deepseek dans un environnement pro où c'est bien plus le coût des salaires qui est important que le coût au token. En plus de ça, le coût au token est un mauvais indicateur car ici il a utilisé 100 fois plus de token que Codex...

Message édité par falkon1000 le 28-04-2026 à 08:32:56

Olivie

SUUUUUUUUUUUUUU

---------------

bulldozer_fusion

rip Mekthoub & Marc

Olivie a écrit :

https://img3.super-h.fr/images/2026 [...] 211272.jpg

C'est sorti depuis 1 semaine au moins

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

Olivie

SUUUUUUUUUUUUUU

bulldozer_fusion a écrit :

C'est sorti depuis 1 semaine au moins

J’arrive pas à suivre avec les modèles chinois

---------------

falkon1000

Je commence à sérieusement penser que les bench... c'est devenu du flan.

Quand je vois les scores de Deepseek alors qu'il met des plombes à faire quelque chose, qu'il passe par X, Y et Z pour aller de A à B, qu'il est parfois à coté de la plaque en compréhension des prompts alors qu'il est classé dans les top modèles actuels, ça fait réfléchir. Pendant ce temps, les 5.4 mini ou Gemini 3.1 flash sont largement plus performants, rapides et économes en token et sont moins bien classés.

On devrait inventer un benchmark d'efficacité machine + temps homme sur des tâches réelles, ça changerait complètement la donne.

Olivie

SUUUUUUUUUUUUUU

falkon1000 a écrit :

Je commence à sérieusement penser que les bench... c'est devenu du flan.

Ca fait plus d’un an que les modèles sont tous entraînés pour les benchs. Perso je les regarde même pas [:michel_cymerde:7]

---------------

falkon1000

Ca dépend des bench. Il y en a qui sont quasi impossibles à falsifier, par exemple le SWE Pro ou les ARC AGI. Je pense plutot que les benchs ne mesurent pas forcément tout ce qui compte réellement dans un usage pro.

LibreArbitre

La /root est longue

C'est pas nouveau ça

---------------
Pharyo | Cinépite | Capvirage

Big Blue

Live/Psn/Nid legeantbleu

Je ne connaissais pas deepseek, j’adore son franc parlé

Citation :

OK, je ne touche pas à l'ESS. Je vais juste annuler ma modif MQTT pourrie. Ensuite on trouve la bonne approche ensemble.

Bon par contre il est très sur de lui et impose ses solutions

Message édité par Big Blue le 28-04-2026 à 14:02:18

falkon1000

Avant les GPT parlaient comme ça aussi dans codex ou l’API au tout début
J’ai déjà eu des « tu as raison, je n’aurais pas dû faire un gros replace bien degueulasse », « c’est vrai que c’est crade » ou « Ah - HA ! J’ai trouvé le bug ! »

Mais il est bcp plus sérieux depuis les 4.x

bulldozer_fusion

rip Mekthoub & Marc

Faut le vendre aux entreprises dont c'est normal

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

Winpoks

bulldozer_fusion a écrit :

Faut le vendre aux entreprises dont c'est normal

J’ai plus Minimax mais il me sortait souvent "j’ai fait de la merde" .

bulldozer_fusion

rip Mekthoub & Marc

Winpoks a écrit :

J’ai plus Minimax mais il me sortait souvent "j’ai fait de la merde" .

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

docmaboul

falkon1000 a écrit :

Loi de Goodhart [:spamafote]

the_fennec

f3nn3cUs z3rd4

falkon1000 a écrit :

Les benchs ont toujours étés mauvais et en plus les modèles sont entraînés directement dessus. Déjà beaucoup sont des tests synthétiques complètement décorrélés de la réalité, genre "fais moi une suite de Fibonacci en C" le truc qui n'a jamais servis a rien en prod. En plus il suffit de distiller un peu un modèle pour gagner 30% dans un bench: https://huggingface.co/FINAL-Bench/Darwin-36B-Opus

C'est pourtant très simple de faire de bon benchs pour le code. Tu prends des issues/PR Github et tu fais bosser les modèles dessus et tu compares les résultats. Le problème c'est que ça prends 1000 ans de mettre les envs en place, autant de temps pour faire tourner tous les modèles tout ça pour avoir des scores pourris...

---------------
Faudra que je teste un jour :o

falkon1000

Tu as regardé comment fonctionne SWE Pro ?

Olivie

SUUUUUUUUUUUUUU

Citation :

@MistralAI
Today, we're releasing the public preview of Workflows, the orchestration layer for enterprise AI.

Enterprise teams have capable models. What they don't have is a way to run them reliably in production. That's the gap Workflows fills. It takes AI-powered business processes from prototype to production, with the durability, observability, and fault tolerance that production actually requires.

Leading organisations like ASML, ABANCA, CMA-CGM, France Travail, La Banque Postale, Moeve, and many others are already using Workflows to automate critical processes.

---------------

bulldozer_fusion

rip Mekthoub & Marc

Olivie a écrit :

Citation :

@MistralAI
Today, we're releasing the public preview of Workflows, the orchestration layer for enterprise AI.

Enterprise teams have capable models. What they don't have is a way to run them reliably in production. That's the gap Workflows fills. It takes AI-powered business processes from prototype to production, with the durability, observability, and fault tolerance that production actually requires.

Leading organisations like ASML, ABANCA, CMA-CGM, France Travail, La Banque Postale, Moeve, and many others are already using Workflows to automate critical processes.

C'est pour les grosses boîtes, pour nous pauvres quidam ça va pas nous servir grandement, je me trompe?

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

the_fennec

f3nn3cUs z3rd4

falkon1000 a écrit :

Tu as regardé comment fonctionne SWE Pro ?

Oui, c'est pas très clair. J'ai pas trouvé les tests, donc difficile de savoir quelle issues il utilisent, mais j'ai regardé le papier:
https://static.scale.com/uploads/65 [...] %20(9).pdf

Citation :

Limited Language Coverage.
Although SWE-BENCH PRO includes multiple programming languages (Python,
JavaScript, TypeScript, Go), the distribution is not uniform, and some widely-used languages like Java, C++, and
Rust are underrepresented. This may limit the benchmark’s ability to assess agent performance across the full
spectrum of modern software development.

C'est censé être basé la dessus:
https://github.com/SWE-bench/SWE-be [...] ch/collect

12 repos, 90% de Python ....

edit, je pense que les tests publiques sont la:
https://huggingface.co/datasets/Sca [...] Pro/viewer

731 tests, 0 test Java, 1 test avec un peu de c, 2 avec du cpp, beaucoup de tests ont des fix de quelques lignes.

Message édité par the_fennec le 28-04-2026 à 17:50:01

---------------
Faudra que je teste un jour :o

falkon1000

Tous les autres bench de codage ont minimum 90% de python

Et la plupart des modèles sont surentrainés en Python, un peu moins sur d'autres langages.

Un des effets troublants, c'est que Gemini 3.1 est pas hyper bien classé dans les bench bien que ce soit un des meilleurs modèles pour le PHP, juste par ce que ce n'est pas le meilleur en python.

Quoi qu'il en soit il est quasi impossible de "benchmax" un SWE pro comme le disent les américains sur Reddit. Les cas sont trop variés et son renouvelés. Le seul moyen d'avoir un bon score c'est d'avoir un modèle très entrainé sur la résolution de conflits en python

Si on faisait un bench qui évaluent les perfs en assembleur, en PHP, en C, etc. le classement serait très différent des classements actuels, surtout pour les modèles open

Message édité par falkon1000 le 28-04-2026 à 18:21:54

klins

falkon1000 a écrit :

T'as put tester la V4?

J'ai toujours la V3 même après une mise à jour, il me dit que le déploiement de la V4 se fera progressivement.

Je trouve ça chelou, comment ça se fait que ça ne passe pas à la V4 d'un coup pour tous les utilisateurs?

LibreArbitre

La /root est longue

J'ai ma V4 sur Ollama Cloud et sur OpenCode Go de mon côté. Par contre ça timeout trop souvent, il va falloir attendre que la hype redescende un peu...

---------------
Pharyo | Cinépite | Capvirage

falkon1000

klins a écrit :

Oui V4, je passe en direct par Deepseek en API via open code

duckjerry

Vous arrivez à des résultats similaires pour vos usages entre codex, claude code et GLM / MiMo / Kimi / Deepseek ( / autre ?) ?
Si oui quelle façon de travailler est-ce que vous recommanderiez ? Un abo via opencode go par exemple ?
Je ne fais pas de pur dev mais de l'infra as code et de l'archi cloud / devops
:jap:

Message édité par duckjerry le 28-04-2026 à 19:46:16

---------------
Mon Flickr - "Oh, people can come up with statistics to prove anything, Kent. 40% of people know that." (Homer J. Simpson)

XaTriX

ah ça c'est moi mais je fais plus trop de cloud
codex & claude code seront tes amis, j'ai pas vraiment testé le reste mais déjà sonnet/opus/gpt5.4/gpt5.5 te seront plus qu'utile.

---------------
[:dawa]

bulldozer_fusion

rip Mekthoub & Marc

XaTriX a écrit :

ah ça c'est moi mais je fais plus trop de cloud
codex & claude code seront tes amis, j'ai pas vraiment testé le reste mais déjà sonnet/opus/gpt5.4/gpt5.5 te seront plus qu'utile.

[:teh coli:3]

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

XaTriX

quoi

---------------
[:dawa]

bulldozer_fusion

rip Mekthoub & Marc

Citation :

Le fondateur de PocketOS a publié un message sur les réseaux sociaux pour mettre en garde le public contre les « défaillances systémiques » des principaux fournisseurs de services numériques et d’IA. Jer Crane a décidé de publier une réponse publique après qu’un agent de codage IA a supprimé l’intégralité de la base de données de production de son entreprise. Les défaillances de l’agent IA ont ensuite été considérablement amplifiées par l’API d’un fournisseur d’infrastructure cloud qui a effacé toutes les sauvegardes après la destruction de la base de données principale. Cette combinaison de problèmes numériques a anéanti des mois de données clients essentielles aux activités de l’entreprise et de ses clients.

Citation :

When Crane confronted the AI about the destructive move, it confessed verbatim: “NEVER F**KING GUESS! — and that's exactly what I did. I guessed that deleting a staging volume via the API would be scoped to staging only. I didn't verify. I didn't check if the volume ID was shared across environments. I didn't read Railway's documentation on how volumes work across environments before running a destructive command.”

[:tibo2002]
https://www.tomshardware.com/tech-i [...] goes-rogue

Message édité par bulldozer_fusion le 28-04-2026 à 20:13:41

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

duckjerry

XaTriX a écrit :

ah ça c'est moi mais je fais plus trop de cloud
codex & claude code seront tes amis, j'ai pas vraiment testé le reste mais déjà sonnet/opus/gpt5.4/gpt5.5 te seront plus qu'utile.

Ma question était peut-être pas très claire, j'utilise en effet beaucoup codex et/ou claude code. Je cherche à savoir si les résultats obtenus avec les modèles cités (chinois open-source il me semble) sont "similaires", à défaut d'un meilleur terme de benchmark

---------------
Mon Flickr - "Oh, people can come up with statistics to prove anything, Kent. 40% of people know that." (Homer J. Simpson)

XaTriX

le mec se fait surtout une pub pour le nom de truc

---------------
[:dawa]

klins

falkon1000 a écrit :

Oui V4, je passe en direct par Deepseek en API via open code

Ok merci, donc tu passe par la version payante?

the_fennec

f3nn3cUs z3rd4

falkon1000 a écrit :

De mémoire c'est un pool glissant de 1800 PR diverses qui est demandé à chaque modèle, et ils mesurent le taux de succès en one shot, sur plusieurs langages mais effectivement avec une majorité de python.
Le multi lingual est plus varié.

Tous les autres bench de codage ont minimum 90% de python

Et la plupart des modèles sont surentrainés en Python, un peu moins sur d'autres langages.

Un des effets troublants, c'est que Gemini 3.1 est pas hyper bien classé dans les bench bien que ce soit un des meilleurs modèles pour le PHP, juste par ce que ce n'est pas le meilleur en python.

Quoi qu'il en soit il est quasi impossible de "benchmax" un SWE pro comme le disent les américains sur Reddit. Les cas sont trop variés et son renouvelés. Le seul moyen d'avoir un bon score c'est d'avoir un modèle très entrainé sur la résolution de conflits en python

Si on faisait un bench qui évaluent les perfs en assembleur, en PHP, en C, etc. le classement serait très différent des classements actuels, surtout pour les modèles open

Je trouve les benchs intéressant pour comparer des modèles d'un même éditeur entre eux, mais j'y prêtre pas plus attention que ça. Dans toutes les industries c'est toujours bidonné dés qu'un bench devient populaire.
Le fait qu'ils soient majoritairement en Python retire le peu d’intérêt qu'ils ont.

---------------
Faudra que je teste un jour :o

duckjerry

bulldozer_fusion a écrit :

Citation :

[:tibo2002]
https://www.tomshardware.com/tech-i [...] goes-rogue

C'est là qu'on voit que c'est puissant car c'est très proche de ce qu'il peut se passer avec un ingé humain, le volume "staging" et l'ID qui est le même sur plusieurs envs... [:tinostar]

---------------
Mon Flickr - "Oh, people can come up with statistics to prove anything, Kent. 40% of people know that." (Homer J. Simpson)

Page : 1 2 3 4 5 .. 368 369 370 .. 412 413 414 415 416 417

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co

Sujets relatifs
sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : [Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co

Page générée en 0.075 secondes