[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 108 109 110 111 112 113 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co

Funky Max

And then, I woke up.

Reprise du message précédent :
Preneur aussi de tout ce qui permet de "mieux" utiliser les IA !

Message cité 1 fois

Publicité

gagaches

Funky Max a écrit :

Preneur aussi de tout ce qui permet de "mieux" utiliser les IA !

C'est tellement vaste en fait comme question.

1/ Veille techno : identifier les personnes intéressantes qui parlent de trucs concrets et pas de bullshit technique.

Philippe dont je parlais avant est bien, il est de Microsoft donc forcément, vous verrez principalement du chatGPT/copilot.
sa playlist sur la GenIA sur sa chaine youtube
https://www.youtube.com/watch?v=2rO [...] fEBcsLcRUo

Son linkedin pour suivre ses publications :
https://www.linkedin.com/in/ppaiola/

Paul Péton, Microsoft AI MVP (il rentre plus dans le technique data/ia)
Sa chaine vidéo
https://www.youtube.com/@paul-peton-datascience/videos
Son linkedin :
https://www.linkedin.com/in/paul-peton-datascience/

Et comme il (co-)anime la Global AI Community France :
la playlist
https://www.youtube.com/watch?v=j3n [...] zxa6PKr1J_

2/ bosser le prompt ingeneering (comment bien donner le contexte et poser la question à l'IA pour avoir ses réponses)
Et souvent le mieux, c'est carrément de leur demander comment écrire un prompt qui lui demandera de faire ce que tu veux qu'il fasse (inceptiiiooooooonnn)

3/ regarder ce que partagent les autres.

4/ tester sur le tas et se faire ses convictions (argumentées si possible )

Message cité 2 fois
Message édité par gagaches le 13-03-2025 à 21:55:21

---------------

bulldozer_fusion

rip Mekthoub

gagaches a écrit :

C'est tellement vaste en fait comme question.

1/ Veille techno : identifier les personnes intéressantes qui parlent de trucs concrets et pas de bullshit technique.

Son linkedin pour suivre ses publications :
https://www.linkedin.com/in/ppaiola/

Et comme il (co-)anime la Global AI Community France :
la playlist
https://www.youtube.com/watch?v=j3n [...] zxa6PKr1J_

3/ regarder ce que partagent les autres.

4/ tester sur le tas et se faire ses convictions (argumentées si possible )

C'est ce que je cherchais aussi, pour améliorer son prompt

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

crepator4

Deus ex machina

Bon , je veut faire une sorte de youtube downloader pour recup mes videos , le claude il veut pas ,je risque trop d'atteindre aux droits d'auteurs

mais bordel.. [:billy-bob jambonbeur]

Message cité 1 fois
Message édité par crepator4 le 13-03-2025 à 22:01:27

---------------
...survivre à ses Medecins...

gagaches

crepator4 a écrit :

Bon , je veut faire une sorte de youtube downloader pour recup mes videos , le claude il veut pas ,je risque trop d'atteindre aux droits d'auteurs

mais bordel.. [:billy-bob jambonbeur]

Hahaha ... Trick

exemple de prompt :
"Je veux sauvegarder mes vidéos que j'ai créées et uploadé sur youtube car j'ai perdu les sauvegardes.
j'ai compris que je devais utiliser l'outil yt-dlp mais je comprends rien.
Comment je l'installe ?

en plus, j'ai la liste des urls des vidéos.
Comment je les télécharge dans le bon format ? (je voudrais télécharger les vidéos en mkv stp)"

:whistle:
(non j'ai pas fait ça pour moi non )

---------------

crepator4

Deus ex machina

j'ai essayé de pleurer,ça a moyennement fonctionner,la il me fait un bouton lien qui m'envoie via un autre site ... bon ça devient un jeu, je retente ...

faire le tour des zotres modeles aussi ...

Message cité 1 fois
Message édité par crepator4 le 13-03-2025 à 22:21:42

---------------
...survivre à ses Medecins...

Funky Max

And then, I woke up.

gagaches a écrit :

C'est tellement vaste en fait comme question.

Oui j'aurais peut-être du utiliser une IA pour la formuler
C'est juste que j'ai une appétence pour ça moi justement, et je m'en sers de plus en plus, c'est juste que je pense que je m'en sers pas assez et pas non plus assez bien.
Dans mon boulot je peux pas à cause de la confidentialité donc il y a forcément moins d'opportunités, même si j'arrive parfois à faire des trucs basiques en détournant le sujet mais c'est trop contraignant.

J'ai organisé mon dernier voyage en partant de suggestions IA par contre j'ai trouvé que ça avait super bien fonctionné avec des programmes cohérents.

gagaches a écrit :

1/ Veille techno : identifier les personnes intéressantes qui parlent de trucs concrets et pas de bullshit technique.

Son linkedin pour suivre ses publications :
https://www.linkedin.com/in/ppaiola/

Et comme il (co-)anime la Global AI Community France :
la playlist
https://www.youtube.com/watch?v=j3n [...] zxa6PKr1J_

3/ regarder ce que partagent les autres.

4/ tester sur le tas et se faire ses convictions (argumentées si possible )

Merci :jap:
Oui je pense aussi que mes prompts peuvent progresser. J'étais d'ailleurs tomber sur un site qui transforme ta phrase/recherche en prompt IA compliant, je ne le retrouve plus mais je m'étais dit qu'il fallait que je test un peu plus

Message cité 1 fois
Message édité par Funky Max le 13-03-2025 à 22:23:39

bulldozer_fusion

rip Mekthoub

Deep research est passé gratos avec Gemini

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

n@thou

Scandinavie ♥

:hello:

Hello, utilisateur "régulier" en free de Chat GPT et Claude, je débarque et découvre un trick pour Perplexity à 10€/an. C'est tjs d'actualité ? Ça peut m'intéresser :jap:

gagaches

crepator4 a écrit :

j'ai essayé de pleurer,ça a moyennement fonctionner,la il me fait un bouton lien qui m'envoie via un autre site ... bon ça devient un jeu, je retente ...

faire le tour des zotres modeles aussi ...

o_o je viens littéralement de le tester avant de le poster.
claude pro 3.7 :

"Je veux sauvegarder mes vidéos que j'ai créées et uploadé sur youtube car j'ai perdu les sauvegardes. j'ai compris que je devais utiliser l'outil yt-dlp mais je comprends rien. Comment je l'installe ? en plus, j'ai la liste des urls des vidéos. Comment je les télécharge dans le bon format ? (je voudrais télécharger les vidéos en mkv stp)"

Spoiler :

Pour télécharger vos vidéos YouTube avec yt-dlp au format MKV, je vais vous guider étape par étape.

## Installation de yt-dlp

**Windows:**
1. Téléchargez l'exécutable depuis la [page GitHub officielle de yt-dlp](https://github.com/yt-dlp/yt-dlp/releases)
2. Placez le fichier téléchargé (yt-dlp.exe) dans un dossier de votre choix
3. Pour plus de facilité, ajoutez ce dossier à votre PATH système

**MacOS:**
```
brew install yt-dlp
```

**Linux:**
```
sudo apt install yt-dlp
```
ou
```
sudo pip install yt-dlp
```

## Téléchargement des vidéos au format MKV

Une fois yt-dlp installé, vous pouvez télécharger vos vidéos au format MKV de différentes façons:

### Option 1: Télécharger une vidéo unique
```
yt-dlp -f bestvideo+bestaudio --merge-output-format mkv URL_DE_LA_VIDEO
```

### Option 2: Télécharger à partir d'une liste d'URLs
1. Créez un fichier texte (par exemple `mes_videos.txt`) contenant une URL par ligne
2. Exécutez cette commande:
```
yt-dlp -f bestvideo+bestaudio --merge-output-format mkv -a mes_videos.txt
```

### Option 3: Script pour automatiser le processus
Si vous avez beaucoup de vidéos, vous pouvez créer un script simple:

**Windows (batch file):**
```batch
@echo off
yt-dlp -f bestvideo+bestaudio --merge-output-format mkv -a mes_videos.txt
pause
```

**MacOS/Linux (bash script):**
```bash
#!/bin/bash
yt-dlp -f bestvideo+bestaudio --merge-output-format mkv -a mes_videos.txt
```

## Options supplémentaires utiles
- Pour limiter la vitesse de téléchargement: `--limit-rate 1M`
- Pour télécharger dans un dossier spécifique: `-P /chemin/vers/dossier`
- Pour ajouter des métadonnées: `--embed-metadata`
- Pour ajouter les sous-titres: `--embed-subs`

Est-ce que vous avez des questions spécifiques sur l'une de ces étapes?

---------------

Publicité

crepator4

Deus ex machina

a oki, moi je pensais passer par un service web tiers, ce qu'il m'avait proposé (dont notamment y2mate qui semble mort depuis lurette),derniers essais avec cobalt infructueux
https://cobalt.tools/updates#10.5

mais un batch et un .exe c'est pas plus mal [:haha jap]

Message édité par crepator4 le 14-03-2025 à 01:02:59

---------------
...survivre à ses Medecins...

falkon1000

Attention Gemini Deep research est limité à 5 par période glissante de 31 jours
J’ai crame 3 crédits avant de le savoir

C’est bien, ca fait appel à bien plus de sources que ChatGPt DR mais la réponse est beaucoup moins détaillée

En termes de qualité ce n’est, à mon sens, pas comparable

Message cité 2 fois

---------------
https://www.instagram.com/crustobsession

gagaches

Funky Max a écrit :

Dans mon boulot je peux pas à cause de la confidentialité donc il y a forcément moins d'opportunités, même si j'arrive parfois à faire des trucs basiques en détournant le sujet mais c'est trop contraignant.

A l'heure actuelle, Claude dans sa version PRO s'engage sur la confidentialité des données.

Et si tu as un pc avec une bonne carte graphique à dispo, ollama + modèle qui te convient (et que tu peux faire tourner).
L'install directe est vraiment enfantine (et pour l'install avec docker, j'ai un collègue qui prépare un article tech ^^).

Le plus long, c'est installer l'interface web et exposer le service.

Et du coup, tu peux avoir chez toi :
- ton pc de bureau
- ton instance d'IA locale qui sert tes besoins en confidentialité complète.

Message cité 1 fois

---------------

falkon1000

Quel équivalent en perf des modèles commerciaux tu peux faire tourner en local sur un pc normal avec un gpu grand public ?

ChatGPT team aussi s’engage sur la confidentialité

Message cité 2 fois

---------------
https://www.instagram.com/crustobsession

gagaches

falkon1000 a écrit :

Quel équivalent en perf des modèles commerciaux tu peux faire tourner en local sur un pc normal avec un gpu grand public ?

ChatGPT team aussi s’engage sur la confidentialité

A mon niveau, c'est compliqué de mesurer car je suis pas expert et j'ai une cg 3060 avec 12go de ram, c'est un truc correct mais pas une HDG.
Et je fais tourner des LLM en 7b de taille :
https://ollama.com/library

Mais du coup, les modèles sont optimisés pour ça.
cf. https://ollama.com/library/deepseek-r1
Par exemple :
"Distilled models

DeepSeek team has demonstrated that the reasoning patterns of larger models can be distilled into smaller models, resulting in better performance compared to the reasoning patterns discovered through RL on small models.

Below are the models created via fine-tuning against several dense models widely used in the research community using reasoning data generated by DeepSeek-R1. The evaluation results demonstrate that the distilled smaller dense models perform exceptionally well on benchmarks."

Pour mes tests persos, je dirais :
claude 3.7 > llama3.2 & deepseek-r1 > mistral lechat.

Ce qui va être gamechanger (mais faut que je poc ça) c'est un crewai avec plusieurs agents qui prend l'automatisation de tâches.
Et là, on passe en facturation à l'appel api et donc une facture non déterministe et qui peut s'envoler.

Du coup, faire tourner ça en local sur une infra dédiée (au hasard un ex-rig de minage ) ça donnerait un cluster IA à <5k€.

Message édité par gagaches le 14-03-2025 à 08:37:39

---------------

falkon1000

Intéressant. Pour l'instant ça requiert des connaissances qui dépassent celles de 90% des gens (j'y mets tout employé possible) mais on peut imaginer qu'on aura rapidement des LLM locaux assez corrects et hyper simple à utiliser. Si j'ai bien compris c'est ce que vise Apple avec Apple Intelligence et ses puces silicon très efficaces.

Ensuite le mobile avec des micro LLM locaux.

S'en est à se demander comment les grands modèles commerciaux vont resister à terme

Message cité 3 fois

---------------
https://www.instagram.com/crustobsession

bulldozer_fusion

rip Mekthoub

falkon1000 a écrit :

Attention Gemini Deep research est limité à 5 par période glissante de 31 jours
J’ai crame 3 crédits avant de le savoir

C’est bien, ca fait appel à bien plus de sources que ChatGPt DR mais la réponse est beaucoup moins détaillée

En termes de qualité ce n’est, à mon sens, pas comparable

Il faut bien différencier par rapport à ceux qui payent, ça ne me choque pas :jap:

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

bulldozer_fusion

rip Mekthoub

falkon1000 a écrit :

Ensuite le mobile avec des micro LLM locaux.

S'en est à se demander comment les grands modèles commerciaux vont resister à terme

Il y en aura pour tout le monde, pour des secteurs professionnels il faudra toujours des gros modèles

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas

rz1

Profil supprimé

falkon1000 a écrit :

Intéressant. Pour l'instant ça requiert des connaissances qui dépassent celles de 90% des gens (j'y mets tout employé possible) mais on peut imaginer qu'on aura rapidement des LLM locaux assez corrects et hyper simple à utiliser. Si j'ai bien compris c'est ce que vise Apple avec Apple Intelligence et ses puces silicon très efficaces.

Ensuite le mobile avec des micro LLM locaux.

S'en est à se demander comment les grands modèles commerciaux vont resister à terme

non, c'est aussi simple que d'installer n'importe quelle application. Anything LLM, GPT4All , ... permettent sans difficulté de faire tourner une IA en local, si la conf matérielle le permet.

Message cité 3 fois
Message édité par rz1 le 14-03-2025 à 11:00:03

---------------
Message édité par rz1 le <INVALID FIELD TYPE> à <INVALID FIELD TYPE> - Message cité <INVALID VALUE> fois

gagaches

rz1 a écrit :

non, c'est aussi simple que d'installer n'importe quelle application. Anything LLM, GPT4All , ... permette sans difficulté de faire tourner une IA en local, si la conf matérielle le permet.

:jap:
L'intégration en local sur poste est très simple.
La mise en réseau un peu moins triviale si on veut faire propre mais bon.

Message cité 1 fois

---------------

gremi

Vieux con des neiges d'antan

LMStudio est très accessible également ...

(Les nouveaux Gemma3 fraichement arrivés semblent tourner plutôt au passage ...)

Message cité 1 fois

---------------
In aligot we trust.

CoyoteErable

Dorée et Colorée

falkon1000 a écrit :

Ensuite le mobile avec des micro LLM locaux.

S'en est à se demander comment les grands modèles commerciaux vont resister à terme

Deux Mac studio M3 Ultra à 512GB reliés en Tb5 donne, par exemple, Deepseek R1 en 8 bits à 11 tokens/s. Quelques optimisations encore possibles j'imagine.

https://x.com/alexocheema/status/1899735281781411907

Tu entraînes via fine-tuning ta propre version de cette LLM en cloud (OVH pour resté français et maître de ses données) et tu joues l'inférence + RAG/agents localement comme sur l'exemple.

D'ici 1 ou 2 ans, on aura sûrement du hardware spécialisé encore plus performant et de bons logiciels pour dev des agents. On articulera plus facilement les besoins entre petites LLM et modèles plus volumineux pour les tâches qui nécessitent de la précision et de la réflexion.

Message cité 2 fois

---------------
"Je prononce à regret cette fatale vérité...mais Louis doit mourir parce qu'il faut que la patrie vive."

falkon1000

rz1 a écrit :

non, c'est aussi simple que d'installer n'importe quelle application. Anything LLM, GPT4All , ... permettent sans difficulté de faire tourner une IA en local, si la conf matérielle le permet.

Je ne connaissais pas ollama mais ce que je voulais dire c'est que si c'est une install comme n'importe quel logiciel, j'imagine qu'il faut quand meme des connaissances hors de portée de 90% des gens actuellement : ce qu'est un modèle, comment on choisit le bon, savoir la config qu'on a, avoir un PC avec un sacré GPU et une bonne quantité de RAM, etc.

Quand je parle des gens, je mets à la fois la brute de l'IA mais aussi Gérard de la compta qui ne sait pas quelle version de Windows il y a sur son PC.

Non ?

En tout cas je vais essayer ce midi sur mon MBA M3 pour voir ce que ça donne. Une reco de modèle pour ce CPU sachant que j'ai 16 Go de RAM ?

Merci

Message cité 1 fois

---------------
https://www.instagram.com/crustobsession

XaTriX

CoyoteErable a écrit :

L'avantage des grands modèles, c'est qu'ils sont moins propices à halluciner et qu'ils raisonnent mieux sur des tâches nécessitant beaucoup d'informations, surtout s'ils sont fine-tunés. Perso, je vois l'intérêt même en SHS.

Deux Mac studio M3 Ultra à 512GB reliés en Tb5 donne, par exemple, Deepseek R1 en 8 bits à 11 tokens/s. Quelques optimisations encore possibles j'imagine.

https://x.com/alexocheema/status/1899735281781411907

Tu entraînes via fine-tuning ta propre version de cette LLM en cloud (OVH pour resté français et maître de ses données) et tu joues l'inférence + RAG/agents localement comme sur l'exemple.

D'ici 1 ou 2 ans, on aura sûrement du hardware spécialisé encore plus performant et de bons logiciels pour dev des agents. On articulera plus facilement les besoins entre petites LLM et modèles plus volumineux pour les tâches qui nécessitent de la précision et de la réflexion.

Tin c'est exactement ce que j'aurai voulu faire (mais bon ça doit coûter 12k€) quand j'ai la sortie des nouveaux studios.

Message cité 1 fois

---------------
"Xat le punk à chien facho raciste. C'est complexe comme personnage." caudacien 05/10/2020

CoyoteErable

Dorée et Colorée

XaTriX a écrit :

Tin c'est exactement ce que j'aurai voulu faire (mais bon ça doit coûter 12k€) quand j'ai la sortie des nouveaux studios.

Deux c'est plutôt 20K hahaha

---------------
"Je prononce à regret cette fatale vérité...mais Louis doit mourir parce qu'il faut que la patrie vive."

XaTriX

Ah non j'ai du confondre avec le calcul que j'avais fait pour 5 mac mini à fond de ram aussi. Ici c'est plutôt 12.4k€ PAR Macstudio 512 (et 2To de disque)

---------------
"Xat le punk à chien facho raciste. C'est complexe comme personnage." caudacien 05/10/2020

gagaches

falkon1000 a écrit :

Il faut un geek, sans qu'il soit pro de l'IT.
quelqu'un capable de suivre une procédure et de comprendre un peu ce qu'il fait.

Tu peux essayer anythingLLM si ollama est trop "root".

@XaTriX et @CoyoteErable : comment les proc M des Mac studio gèrent la mémoire vive vs mémoire de la gpu ?
il faut une gpu avec bcp de mémoire aussi ?

---------------

XaTriX

C'est de la mémoire "unifiée", donc partagée avec le GPU. Après il y'a les histoires de bus mémoire mais sur sur M3 Ultra ça doit être assez bon.

Message cité 1 fois

---------------
"Xat le punk à chien facho raciste. C'est complexe comme personnage." caudacien 05/10/2020

LibreArbitre

La /root est longue

falkon1000 a écrit :

Attention Gemini Deep research est limité à 5 par période glissante de 31 jours
J’ai crame 3 crédits avant de le savoir

T'es en offre gratuite ? J'ai l'offre payante et je ne trouve pas la limite...

---------------
Hebergement d'images | Le topic de la VR standalone

falkon1000

Oui sur Gemini je suis en gratuit. Jusqu'à la sortie de Gemini 2.0 j'avais toujours trouvé les modèles Google complètement à la ramasse et ne parlons même pas de Bard.

Mais depuis le 2.0 flash / 2.0 flash thinking je trouve que la qualité a fait un bond en avant. Et maintenant on peut créer et utiliser des Gems même en mode gratuit.

Et d'ailleurs suite à vos messages j'ai installé Gemma3 sur mon MBA M3 16Go en 4B et je suis très surpris par la vitesse de réponse. Merci par ce que je ne pensais pas du tout qu'on pouvait faire tourner un modèle performant dans de si bonnes conditions sur un simple ordi portable.
Je n'ai pas testé de choses très poussées mais au moins sur les demandes linguistiques ça semble bien performant.
Le 12B tourne aussi mais plus lentement car la RAM est saturée (le modèle seul consomme 17 Go).

Tout évolue à une vitesse tellement dingue..

Message cité 1 fois

---------------
https://www.instagram.com/crustobsession

CoyoteErable

Dorée et Colorée

XaTriX a écrit :

C'est de la mémoire "unifiée", donc partagée avec le GPU. Après il y'a les histoires de bus mémoire mais sur sur M3 Ultra ça doit être assez bon.

Plus de 800gb/s par Mac Studio M3 Ultra 512gb.

Une RTX 3090 (la référence mémoire/prix en occas' pour l'inférence) c'est 930gb/s, la 4090 1,3 Tb/s et la 5090 c'est 1,7 Tb/s. Avec 24gb/32gb par GPU en fonction de la gen.

Là, dans l'exemple donné, on a plus d'1Tb à 800gb/s donc plus que parfait pour de l'inférence, sachant que le GPU du M3 Ultra n'est pas à la ramasse sans être un foudre de guerre. C'est plutôt parfait pour des modèles type Mixture Of Experts comme DS R1 qui n'utilisent qu'une partie des paramètres pour l'inférence.

Message cité 1 fois

---------------
"Je prononce à regret cette fatale vérité...mais Louis doit mourir parce qu'il faut que la patrie vive."

Rasthor

falkon1000 a écrit :

Oui sur Gemini je suis en gratuit. Jusqu'à la sortie de Gemini 2.0 j'avais toujours trouvé les modèles Google complètement à la ramasse et ne parlons même pas de Bard.

Mais depuis le 2.0 flash / 2.0 flash thinking je trouve que la qualité a fait un bond en avant. Et maintenant on peut créer et utiliser des Gems même en mode gratuit.

Et d'ailleurs suite à vos messages j'ai installé Gemma3 sur mon MBA M3 16Go en 4B et je suis très surpris par la vitesse de réponse. Merci par ce que je ne pensais pas du tout qu'on pouvait faire tourner un modèle performant dans de si bonnes conditions sur un simple ordi portable.
Je n'ai pas testé de choses très poussées mais au moins sur les demandes linguistiques ça semble bien performant.
Le 12B tourne aussi mais plus lentement car la RAM est saturée (le modèle seul consomme 17 Go).

Tout évolue à une vitesse tellement dingue..

Peut-être parce que Gemma3 fait spécifiquement usage de l'Apple Neural Engine (ANE) ? :??:

XaTriX

CoyoteErable a écrit :

Plus de 800gb/s par Mac Studio M3 Ultra 512gb.

Une RTX 3090 (la référence mémoire/prix en occas' pour l'inférence) c'est 930gb/s, la 4090 1,3 Tb/s et la 5090 c'est 1,7 Tb/s. Avec 24gb/32gb par GPU en fonction de la gen.

Là, dans l'exemple donné, on a plus d'1Tb à 800gb/s donc plus que parfait pour de l'inférence, sachant que le GPU du M3 Ultra n'est pas à la ramasse sans être un foudre de guerre. C'est plutôt parfait pour des modèles type Mixture Of Experts comme DS R1 qui n'utilisent qu'une partie des paramètres pour l'inférence.

Nope puisque relié via TB5

Message cité 1 fois

---------------
"Xat le punk à chien facho raciste. C'est complexe comme personnage." caudacien 05/10/2020

crepator4

Deus ex machina

Alors claude m'a semblé differends niveau qualité de sorti et la ça parle de variation(changement de modele) selon la charge ...
https://youtu.be/LiN9y_Ta7bU?t=2300

Message cité 1 fois

---------------
...survivre à ses Medecins...

CoyoteErable

Dorée et Colorée

XaTriX a écrit :

Nope puisque relié via TB5

Tant que le modèle est chargé à travers les deux Mac, ces derniers n'échangent qu'une fraction des données nécessaires au calcul sur le GPU à chaque requête. La bande passante du TB5 n'est pas si limitante que ça.

Ça peut l'être pour le fine tuning par contre

Message cité 1 fois

---------------
"Je prononce à regret cette fatale vérité...mais Louis doit mourir parce qu'il faut que la patrie vive."

CoyoteErable

Dorée et Colorée

crepator4 a écrit :

Alors claude m'a semblé differends niveau qualité de sorti et la ça parle de variation(changement de modele) selon la charge ...
https://youtu.be/LiN9y_Ta7bU?t=2300

Je pense que tous les services utilisent un système dynamique de variation de la quantification/modèle en fonction de la charge, de la demande, du profil utilisateur etc... Sinon ça ne tiendrait pas.

---------------
"Je prononce à regret cette fatale vérité...mais Louis doit mourir parce qu'il faut que la patrie vive."

XaTriX

CoyoteErable a écrit :

Ça peut l'être pour le fine tuning par contre

Je veux bien de la documentation pour regarder ça
Si le modèle dépasse 512go par contre ça semble compliqué non?

Message cité 1 fois

---------------
"Xat le punk à chien facho raciste. C'est complexe comme personnage." caudacien 05/10/2020

CoyoteErable

Dorée et Colorée

XaTriX a écrit :

Je veux bien de la documentation pour regarder ça
Si le modèle dépasse 512go par contre ça semble compliqué non?

Dans le cas présent c'est du pipeline parallel.

https://github.com/exo-explore/exo/ [...] ls.py#L108

J'imagine que c'est différent avec du tensor parallel. J'avoue que ça dépasse mes compétences à ce stade haha.

Mais oui, si ça dépasse, faut utiliser une version q6. Ou même une version dynamique comme celle de Unsloth si on manque vraiment beaucoup de place (mais qui fonctionne très bien apparemment).

Message édité par CoyoteErable le 14-03-2025 à 16:34:11

---------------
"Je prononce à regret cette fatale vérité...mais Louis doit mourir parce qu'il faut que la patrie vive."

XaTriX

Oui mais plus on prend du quantizied ou je sais pas et plus le modèle va halluciner je suppose ou faire de la merde

Message cité 1 fois

---------------
"Xat le punk à chien facho raciste. C'est complexe comme personnage." caudacien 05/10/2020

CoyoteErable

Dorée et Colorée

XaTriX a écrit :

Oui mais plus on prend du quantizied ou je sais pas et plus le modèle va halluciner je suppose ou faire de la merde

Généralement c'est le cas. Dans la pratique, ça dépend.

Par exemple, j'ai cité Unsloth qui propose une solution dynamique avec certaines couches à 1,5 bits et d'autres à 4 ou 6 bits. Ça permet de réduire grandement le poids du modèle (mieux vaut avoir un modèle qui tient dans la VRAM qu'un modèle qui ne tient pas et tourne à 0,5 tokens/s).

https://unsloth.ai/blog/deepseekr1-dynamic

Ça dépendra des usages, du nombre de paramètres, de l'architecture (MoE), du fine-tuning etc...

Ça permet aussi de libérer de la place pour du contexte. Faire tenir le modèle c'est bien, envoyer plusieurs fichiers et/ou échanger plus de 3 messages, c'est mieux.

---------------
"Je prononce à regret cette fatale vérité...mais Louis doit mourir parce qu'il faut que la patrie vive."

XaTriX

Ca consomme beaucoup le contexte ?

Sinon tu bosses sur le sujet ou c'est juste une occupation/passion ?

Message cité 1 fois

---------------
"Xat le punk à chien facho raciste. C'est complexe comme personnage." caudacien 05/10/2020

Publicité

Page : 1 2 3 4 5 .. 108 109 110 111 112 113

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Discussions

Actualité

[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co

Sujets relatifs
THE GAME -S01Q86 - MDJ : MIZA, Histoire d'amour et de comptable	Nombre de réponses par page par défaut
Jeu du Dico : POPOLL Vainqueur de la S3 - RDV sur le topic de la S4	Notification des réponses
mails d'avertissements des réponses sur hfr	[Questions sans réponses] Timidité, rejet, décès
(voiture) casi achat, besoin de réponses	[Le topic de toutes les réponses]
Je voudrais avoir vos réponses pour mes questions	APL petite question sans réponses
Plus de sujets relatifs à : [Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co

Page générée en 0.121 secondes