Infra IA : aide au choix et troubleshot de LLM locaux

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 6 7 .. 17 18 19 20 21 22 Page Suivante Page Précédente Bas de page
Auteur	Sujet : Infra IA : aide au choix et troubleshot de LLM locaux

bounty2k

Reprise du message précédent :

the_fennec a écrit :

C'est bien dommage d'ailleurs qu'il n'y ait pas de devs chez Intel pour faire une API qui marche, une paire d'A770 pour 32GB a 600 balles ça l'aurait bien fait... Mais ils laissent visiblement tombé le marché du GPU pour se concentrer sur leurs grilles pains de 15 ième génération

Sisi, il y a bien OpenVINO qui existe, mais bon c'est pas idéal.
A priori on peu également recompiler llamacpp pour le rendre compatible avec les NPU ou GPU Intel, car pas natif .

Message édité par bounty2k le 04-05-2026 à 16:12:35

the_fennec

f3nn3cUs z3rd4

bounty2k a écrit :

Sisi, il y a bien OpenVINO qui existe, mais bon c'est pas idéal.
A priori on peu également recompiler llamacpp pour le rendre compatible avec les NPU ou GPU Intel, car pas natif .

Oui je sais, mais openvino a plein de limitations, c'est un peu la 12 ième roue du carrosse
Le support llama.cpp est fait par des bénévoles, Intel pourrait aider quand même

J'avais un peu creusé la question avant de prendre la BC250, mais j'ai préféré pas prendre de risque. La BC250 marche au top pour ce que j'en fais.

Message édité par the_fennec le 04-05-2026 à 16:26:35

---------------
Faudra que je teste un jour :o

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

C'est clair que si tu veut le meilleur support, et surtout être toujours au premières loges pour les nouveautés et optimisation, rien ne vaut du nvidia !
AMD ça finis par arriver car mine de rien la communautés grandie, Intel on est encore looooooins derrière

---------------
Victime de girafophobie, mais se soigne.

the_fennec

f3nn3cUs z3rd4

Perso je vois pas vraiment de diff entre le support CUDA/Win et Vulkan/AMD/Linux dans mon cas, ce qui marche sur l'un marche sur l'autre.

---------------
Faudra que je teste un jour :o

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Je dit pas que ca marchera pas, mais par contre quand il y a des nouveautés, c'est en général cuda first quoi qu'il arrive.

Typiquement les derniers :
https://github.com/z-lab/dflash
https://github.com/QwenLM/FlashQLA
https://github.com/0xSero/turboquant

Bah si t'a pas de Cuda tu peut aller te brosser

---------------
Victime de girafophobie, mais se soigne.

the_fennec

f3nn3cUs z3rd4

Le Speculative Decoding est dans le main de llama.cpp et ça marche pas top au final pour la génération de code.
Il y a une PR DFLash pour llama.cpp:
https://github.com/ggml-org/llama.cpp/pull/22105
Une personne dit que ça marche mais lent sur Vulkan et une autre pas.

FlashQLA je connais pas, mais ya une issue qui dit que ça marche pas sur Blackwell.

Les Turboquants marchent pas vraiment pour le moment je trouve, même sur CUDA. Ce que j'ai testé se casse la gueule sur des vrais modèles (Qwen 3.5 et coder) assez rapidement. Tous les tests que j'ai vu passé sont sur des modèle tout petits et des benchs, pas du vrai prompting.

Après pour des PoC, c'est sur que CUDA est la première cible, mais pour de la prod j'ai l'impression que Vulkan est pas mal quand même. ROCm par contre bof bof.

---------------
Faudra que je teste un jour :o

neo world

the_fennec a écrit :

Perso je vois pas vraiment de diff entre le support CUDA/Win et Vulkan/AMD/Linux dans mon cas, ce qui marche sur l'un marche sur l'autre.

Y'a deux principaux problème :
=> le support des anciennes cartes par AMD (c'est vraiment par vague qu'ils s'en occupent et là où tu vas prendre la première carte Nvidia qui supporte CUDA et l'utiliser sans problème avec ton projet c'est plus l'aventure côté AMD d'une carte à une autre (beaucoup de taffe de la communauté heureusement. Suffit de voir les wiki et les repos focalisés sur AMD 396. Sans eux j'achetais pas)
=> les perfs (honorables mais côté gros cluster HPC dans le top 100 il n'y en a que 16 qui ont pris de l'AMD instinct contre 69 équipés en Nvidia :pt1cable: ) donc AMD investit par vagues distinctes (depuis 2022 pour la dernière) avant d'éteindre la lumière au premier signe d'accalmie des projets là où nvidia agis en rouleau compresseur avec des projets à plus savoir qu'en faire et du support de vieux matos (le V100 indéboulonnable ) comme les nouvelles cartes qui sortent.

On peut espérer qu'AMD va changer son fusil d'épaule sur le sujet des drivers / frameworks / API mais so far y'a du boulot

Quich

Pouet ?

Est-ce que vous avez des benchs de la perf penalty à splitter les modèles sur plusieurs GPU par rapport à une seule ?

J'ai demandé à Gemini et Perplexity mais je n'ai pas eu de retours bien précis avec des exemples, ils disent que c'est moins perfs à cause des limites du lien PCI-e et du fait que le kvcache/contexte est présent sur chaque GPU (donc ça limite la vram utile par GPU) mais rien de chiffré.
Par exemple 2x Mi50 16GB vs 1x MI50 32GB (l'avantage étant que c'est la même chose en dehors de la quantité de vram, pour les autres cartes en général la quantité de vram dépend du GPU donc il y a d'autres éléments qui changent).

---------------
Feedback

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Oui c'est clair qu'AMD est a la ramasse par rapport a NV mais ça reste jouable. Après, a prix plus ou moins égal, je touche pas a AMD .

Quich a écrit :

Est-ce que vous avez des benchs de la perf penalty à splitter les modèles sur plusieurs GPU par rapport à une seule ?

J'ai demandé à Gemini et Perplexity mais je n'ai pas eu de retours bien précis avec des exemples, ils disent que c'est moins perfs à cause des limites du lien PCI-e et du fait que le kvcache/contexte est présent sur chaque GPU (donc ça limite la vram utile par GPU) mais rien de chiffré.
Par exemple 2x Mi50 16GB vs 1x MI50 32GB (l'avantage étant que c'est la même chose en dehors de la quantité de vram, pour les autres cartes en général la quantité de vram dépend du GPU donc il y a d'autres éléments qui changent).

Ca va dépendre du moteur d'inférence, genre llama.cpp vs vllm. Une fois le modèle chargé en mémoire, il n'y a plus tant que ça de données qui passent par le bus, les tokens c'est quelques ko/s, les layers restent dans leur VRAM respectives. J'ai un llama.cpp split par le réseau (1GBs) entre une 4060Ti 16GB et une BC250 avec 14GB utiles, j'arrive rarement a saturer la BC250, probablement a cause de la BP passante de la 4060. Ce qui prends du temps c'est de charger le modèle, mais c'est une ou deux minutes, max.

Je pense que tu peux voir 2x Mi50 16GB comme 1x MI50 32GB, il ne devrait pas y avoir une différence de perf énorme. J'ai vu que les 32GB étaient hors de prix sur Ali, ça peut être intéressant si t'as un bon plan pour 2x16GB. D'un autre coté, si tu prends une 32GB tu pourras en rajouter une autre plus tard [:billy-bob jambonbeur]

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

J'en ait marre d'utiliser des agents de dev qui font pas ce que je veux. Alors je suis en train de faire le mien, en 100% local avec Qwen 3.6 35B prévu pour marcher avec llama.cpp bien sur.
C'est du Java+HTML pur. On verra bien ce que ça donne :lol: .

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

Running a 35B AI Model on 6GB VRAM, FAST (llama.cpp Guide)
https://www.youtube.com/watch?v=8F_5pdcD3HY

Pas mal comme setup, 17 tg/s (je suis a 35/40) sur une GTX 1060 6GB et 24GB RAM avec un i3 et 256k de contexte (TQ ). Par contre il donne pas le quant utilisé, peut être UD-Q5_K_XL qui fait 27GB.
Je trouve qu'il explique bien et je vais tester de bouger les moe sur le CPU, et mlock aussi. Je pense que mlock pourrait régler me PB de perf au bout de quelques jours, j'espère juste que ça laissera tourner les autres trucs sur mon server.

Ce qui est bien c'est qu'il a mis la commande dans un commentaire, pas besoin de se taper la vidéo si on veut juste voir ce qu'il propose.

Code :

The full Docker command, copy-paste ready:
docker run --rm -it \
--gpus all \
--cap-add=IPC_LOCK \
-v /path/to/models:/models \
ghcr.io/thetom/llama-cpp-turboquant:latest \
llama-server \
-m /models/qwen3.6-35b-a3b.gguf \
-ngl 999 \
--n-cpu-moe 36 \
--no-mmap \
--mlock \
--cache-type-k turbo4 \
--cache-type-v turbo3 \
--ctx-size 262144

---------------
Faudra que je teste un jour :o

neo world

Bordel l'accent bien appuyé :love: les 3 cm de poussière dans sa machine :lol: . Je me suis abonné [:billy-bob jambonbeur] merci du partage

Sinon dans les commentaires il est mentionné que c'est du Q3 (mais par un simple commentateur) et dans la vidéo le cache est passé dans une moulinette qui mélange turbo quant 3 & 4 pour sauver de l'espace et des perfs. Je sais pas dire si c'est intéressant d'avoir les poids / paramètres à un Q plus élevé ?

J'ai regardé attentivement la vidéo mais comme j'ai que des machines avec RAM / VRAM unifiée ça va pas beaucoup m'aider . Mais si je veux faire un revive de de ma première machine à inférence (Dell XPS 15 avec une 1050 4GB / 16GB de RAM. Elle me servait de plateforme de démo à CUDA et YOLO V2 en temps réel avec la caméra de mon tel pour capter en live ) ou si je décommissionne les jeux vidéos mon laptop actuel (dernière machine Windows de la maison avec 32GB de RAM un 3070TI et 8GB de VRAM)

the_fennec

f3nn3cUs z3rd4

Oui il explique que c'est un vieux tromblon sa machine, mais c'est cool justement que tu peux faire des trucs avec une vieille config. J'aime bien aussi qu'il décrive ce qui n'a pas marché.

Pour TQ tu peux compresser les valeurs a mort, ça n'a que peu d'incidence sur la qualité, pour les clés par contre c'est pas le cas. J'ai lu que pour les modèles Qwen il y a plus de clés que de valeurs, je comprends pas trop comment c'est possible. Peut être que la valeur est nulle qu'on a besoin que de la clé, genre savoir qu'un "mot" est la, mais OSEF du contexte.

Il dit que sa prochaine vidéo c'est 27B, je serais sur le cul si il arrive a quoi que ce soit avec sa config! Perso j'arrive tout juste a 10 tg/s avec le vent dans le dos.

Message édité par the_fennec le 05-05-2026 à 14:23:20

---------------
Faudra que je teste un jour :o

d@kn1ko

Hello
j'arrive comme un cheveux sur la soupe
J'ai une vielle config à base de I7 4770k + 16go de ram
Je voudrais donc la dédier à de l'ia locale.

Je pensais rajouter :
- 16go pour monter à 32 de ram
- acheter une rtx avec 16go de vram pour commencer et peut être un second plus tard

J'ai un ssd de 500go dispo . je suis large ou pas du tout ?

Mes cas d'usages déjà définis :
- fenetre de chat classic
- n8n donc noeud llm en local
- opencode/claudecode

Est ce que c'est réaliste ? surtout si je veux monter à 2 gpu par la suite.

LibreArbitre

La /root est longue

:lol:

Désolé mais il va te falloir un moins un GPU avec 16 Go de VRAM (j'ai pas dit de RAM mais bien de VRAM) si tu veux quelque chose d'exploitable [:zedlefou:1]

Message édité par LibreArbitre le 05-05-2026 à 15:15:04

---------------
Pharyo | Cinépite | Capvirage

the_fennec

f3nn3cUs z3rd4

d@kn1ko a écrit :

Oui tu as moyen de commencer a t'amuser avec ça. Tu peux voir la vidéo que j'ai posté un peu plus haut.
Avec un SSD de 500Go t'es large, tu pourras pas charger de très gros modèles de toute manière.

Idéalement tu mets un Linux headless pour sauver autant de VRAM que possible. Llama.cpp power

C'est quoi ton budget pour le GPU? Il faut au moins viser une RTX 5060Ti 16Go (ou 4060).

Par contre il faut pas s'attendre a rivaliser avec les modèles en ligne. Claudecode va te pourrir ton contexte avec toutes ses instructions. Opencode c'est mieux. J'ai testé pi.dev qui est pas mal aussi pour du local.

---------------
Faudra que je teste un jour :o

the_fennec

f3nn3cUs z3rd4

LibreArbitre a écrit :

:lol:

Désolé mais il va te falloir un moins un GPU avec 16 Go de VRAM (j'ai pas dit de RAM mais bien de VRAM) si tu veux quelque chose d'exploitable [:zedlefou:1]

Il a bien mis vouloir prendre un GPU dans son post

---------------
Faudra que je teste un jour :o

neo world

d@kn1ko a écrit :

+1 avec Fennec y'aura largement de quoi faire
Si à un moment tu vois des tarifs intéressants pour le GPU / La RAM ou si tu veux qu'on regarde des alternatives potentiellement intéressantes (BC 250 / AMD Strix Halo) n'hésites pas à demander :jap:

d@kn1ko

the_fennec a écrit :

oui la RTX 5060Ti 16G c'est ce que j'avais vu.
Est ce que le multi gpu est bien géré par Llama.cpp? J'ai l'impression qu'il n 'y a que ca qui gere bien le multi gpu.
j'ai vu le lien pour la video. :jap:
ok pour claudecode
ok pour le ssd donc 256go je serai large

neo world

vLLM sera mieux pour le multi GPU mais tu auras le temps d'y penser quand tu achèteras une deuxième carte

d@kn1ko

neo world a écrit :

vLLM sera mieux pour le multi GPU mais tu auras le temps d'y penser quand tu achèteras une deuxième carte

:jap:

the_fennec

f3nn3cUs z3rd4

d@kn1ko a écrit :

Perso j'ai pas encore testé vllm, mais on peut faire plein de chose avec llama.cpp (beaucoup plus qu'avec Ollama et LMStudio).

256Go ça passe, mais si tu as envie de patouiller avec plusieurs modèles ça peut vite se remplir.
Si t'as un disque mécanique qui traîne ça doit faire l'affaire aussi, charger un modèle c'est juste un accès séquentiel donc un HDD classique ça doit marcher.

---------------
Faudra que je teste un jour :o

neo world

avec un gros gros cache alors [:the geddons] sinon il en a bien pour 3 à 5 minutes de chargement pour un modèle de 20GO (je sais, il a pas assez de vRAM pour le charger de toute façon. Vous pinaillez [:kaola] )

the_fennec

f3nn3cUs z3rd4

OSEF, ça me fait ça pour mon cluster RPC. C'est chiant quand tu bidouilles, mais une fois que tu as trouvé le bon modèle 5 minutes c'est rien si tu le laisses tourner pendant des jours.

---------------
Faudra que je teste un jour :o

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

LLama.ccp surtout ca se lance en une seule ligne, tu peut le mettre en mode server et créé tes config par model avec un fichier de conf... C'est ultra simple et en même temps totalement configurable et performant, , vraiment top !

Clairement pour le cache, une fois que t'a trouvé ton model qui va bien pour ton workflow tu change plus tous les 4 matins.

---------------
Victime de girafophobie, mais se soigne.

extenue1

Y'a pas des startups qui se sont montes ou des clubs ou des associations ou des solutions pour permettre de mutualiser un meme HW a partager en privé avec ses potes ?

Je pose l'idee : on se cotise pour louer un VPS a plusieurs ou on s'heberge chez neo world pour faire de l'IA "locale" dans le sens ou tout ce que fait chaque individu est 100% private

Bon sinon : pour 3000€ faut s'acheter quoi ? Si possible sans trop consommer de l'elec ...

Tronklou

❤❤ Vrp Bambulab à mi-temps ❤❤

Typiquement https://vast.ai/
Pas rentable de le faire soit même je pense.

C'est bien aussi de tester en location des gpu équivalent a ce que tu peut/veux acheter, la désillusion peut être grande entre les attentes dignes d'un gros modèles commerciales et la réalité du local.

---------------
Victime de girafophobie, mais se soigne.

extenue1

Merci pour l'idee !!!

J'ai 200$ a bouffer chez digitalocean (merci github student) , je vais aller allumer leur vps gpu

the_fennec

f3nn3cUs z3rd4

extenue1 a écrit :

Bon sinon : pour 3000€ faut s'acheter quoi ? Si possible sans trop consommer de l'elec ...

Un Mac Studio et de la patience
Ou un AMD Strix Halo

Message édité par the_fennec le 05-05-2026 à 22:02:05

---------------
Faudra que je teste un jour :o

ibuprophet

Quich a écrit :

J'ai demandé à Claude de faire le test pour comparer 1x vs 2x 9070XT avec ollama-rocm

Modèle Disk Layers Context Mono-GPU gen Multi-GPU gen Δ gen Mono prompt Multi prompt Δ prompt
gemma4:e4b 9.6 GB 43 65K 81.71 t/s 60.99 t/s -25.4 % 3131 t/s 2805 t/s -10.4 %
qwen3:8b 5.2 GB 37 65K 80.21 t/s 66.95 t/s -16.5 % 3229 t/s 2716 t/s -15.9 %
phi4:14b 9.1 GB 41 65K 55.44 t/s 48.60 t/s -12.3 % 2215 t/s 2034 t/s -8.2 %
gpt-oss:20b 13 GB 25 8K 99.16 t/s 79.66 t/s -19.7 % 6686 t/s 6445 t/s -3.6 %

Quich

Pouet ?

Merci :jap:
Tu as deux 9070xt sous la main, sur la même machine ?

---------------
Feedback

neo world

extenue1 a écrit :

Y'a pas des startups qui se sont montes ou des clubs ou des associations ou des solutions pour permettre de mutualiser un meme HW a partager en privé avec ses potes ?

Je pose l'idee : on se cotise pour louer un VPS a plusieurs ou on s'heberge chez neo world pour faire de l'IA "locale" dans le sens ou tout ce que fait chaque individu est 100% private

Bon sinon : pour 3000€ faut s'acheter quoi ? Si possible sans trop consommer de l'elec ...

ça me dérange pas qu'on se cotise pour acheter un ou trois ou sept petits frères à mon Strix Halo (je m'occupe de la partie chiante de l'administration du cluster / création du réseau très basse latence / load balancers pour assurer un minimum de tokens / seconde par rapport à l'investissement de départ de chacun / payer l'elec du bordel) mais il faudrait :
- se mettre d'accord sur les modèles qu'on veut y héberger dans le quota de RAM dispo des machines au total
- accepter le côté non professionnel du truc (si je suis en vacances à l'autre bout de la France et que l'accès distant est aux choux pour une raison quelconque ben c'est la vie :pt1cable: )
- surtout il faudra faire une croix à l'avantage principal d'héberger son modèle soit même : quelqu'un que vous ne connaissez pas vraiment jettera un oeil à l'activité des machines (pour le support/maintenance), va filtrer les accès réseau pour empêcher aux petits malins de me faire blacklister partout sur internet et je ne peux pas désactiver les journaux de transcription des conversations (what if on a un pédophile / terroriste / pirate dans le groupe qui détourne les machines de leur objet ? )

Sinon à ta place je ferai :
- soit du cloud (facile à mettre en œuvre. Tu peux taper des infras complètement dingues dans un budget raisonnable si c'est pour des TP de quelques heures)
- ou alors j’achèterai deux BC-250 pour apprendre la partie infra (si c'est utile à tes études) tout en ayant un truc sérieux si tu es frugal en quantité de VRAM disponible par noeud et raisonnable sur tes attentes de Tokens / seconde via le réseau Ethernet standard le tout sans y mettre un rein
- ou encore je prendrai une machine de guerre d'occaz de la section achat et vente (petit Doom après l'effort ? )

Le strix halo et le mac studio sont de très bonnes suggestions mais ça fait pas mal de pognon bazardé si en fait non tu voulais juste jouer à Doom et profiter des soirée étudiantes jusqu'à la remise des diplômes

d@kn1ko

the_fennec a écrit :

Je risque pas d'utiliser un dd. les seuls qui me restent c est du backup/nas
C'est juste que j'ai quelques ssd 2.5 en stock donc je veux mettre la bonne capacité au bon endroit on va dire

Message édité par d@kn1ko le 06-05-2026 à 09:09:17

speedboyz30

Guide Michelin :o

the_fennec a écrit :

Un Mac Studio et de la patience
Ou un AMD Strix Halo

Préférence pour le mac studio.

Pour du coding / conversation ça ira.

Par contre pour de l'agentique, c'est mort.
Je vois partout sur reddit que c'est la merde même avec plus grosses specs [:leve le pied jeannot:4]

neo world

Tu as plus de détails sur les problèmes fréquents ? Ici pas de problème avec le MCP LM Studio. J’en déduis que des openclaw and consorts devraient rouler

neo world

Pour ceux qui utilisent Gemma ou ont renoncé en raison de la vitesse de génération de token Google a mis à jour les modèles. Jusqu’à x3 en vitesse https://huggingface.co/collections/google/gemma-4

speedboyz30

Guide Michelin :o

T'as énormément de contexte, l’utilisation d'outil ajoute beaucoup de complexité et chaque aller-retour entre l'agent et les outils demande beaucoup de tokens.

Donc t'arrive à un résultat vraiment inutilisable / complètement bête

speedboyz30

Guide Michelin :o

Par exemple:

https://www.reddit.com/r/openclaw/c [...] local_llm/

Citation :

Long answer: There is no single model that can be run on reasonably priced (and sized) hardware that will provide precise results through agentic workflows. Agentic workflows are very based on context, the model has to keep and understand context for a long time for longer workflows. Anything under 100B parameters just won't cut it (and parameters aren't the only factor, too)

You can use local models for things like memory embeddings, analysis of documents or ie emails, low-complexity tasks and simple questions etc. But it will never, as an example, be able to configure itself (OpenClaw) properly or use skills precisely.

Either you trust a cloud provider, or you don't enter any personal data (which will make it just another chat bot), or you don't use it.

https://www.reddit.com/r/LocalLLM/c [...] t/oiclj04/

Citation :

i think the framing here misses that 'agents' and 'coding help' have totally different hardware curves. coding is forgiving, a 32b qwen-coder on a single 24gb card chews through multi-file refactors fine. agentic loops where the model has to plan, call tools, recover from a failed selector, and not retry the same grep three times are where local falls apart, and it's not really a vram problem. i ran qwen3-coder and gpt-oss-120b through the same browser-control task on a 64gb mac and what kills you is tool-call schema drift plus the model hallucinating element ids, both of which scale with reasoning quality, not vram. for daily use i'd put money into one decent gpu for the coder and keep the autonomous-loop stuff on a frontier api until local reasoning gets another generation better.

https://www.reddit.com/r/LocalLLM/c [...] t/oi9ltqb/

Citation :

’d separate “local LLM hobby/lab” from “daily agentic coding” before buying hardware.

For local agents, the bottleneck usually isn’t just raw VRAM. It’s context length, tool latency, edit/test loops, and how much supervision you still need. A 4090/5090 box can be great for running smaller/local models, experiments, embeddings, rerankers, and private workloads, but it still won’t magically feel like a top hosted coding model on big multi-file refactors.

My bias would be:

keep the 4070 Super for learning the workflow first

test with a hosted coding model for serious multi-repo work

use local models for helper roles: summarization, search/RAG, code review passes, log digestion, smaller scoped edits

only go multi-GPU once you know exactly which model/context target you’re buying for

If speed is your top priority, renting/VPS or hosted APIs for the “main coder” plus local support models is often a better first architecture than spending thousands upfront. The painful part of agents is usually orchestration and guardrails, not just the GPU.

Message édité par speedboyz30 le 06-05-2026 à 15:10:59

neo world

merci :jap:

pour les fans de Qwen grosse acceleration en vue également : https://www.reddit.com/r/LocalLLaMA [...] _using_mtp

bounty2k

neo world a écrit :

Ou as tu vue cette information ? Je ne trouve rien dans la fiche des modèles.
Tu sais si cela concerne également les versions quantifiées en GGUF ?

the_fennec

f3nn3cUs z3rd4

neo world a écrit :

Mouaif, mon problème avec les Gemma c'est pas la vitesse, mais juste qu'ils marchent pas. J'ai jamais eu de tools qui fonctionnent, et la génération fait n'importe quoi rapidement.

---------------
Faudra que je teste un jour :o

Page : 1 2 3 4 5 6 7 .. 17 18 19 20 21 22

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

Infra IA : aide au choix et troubleshot de LLM locaux

Sujets relatifs
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co	sécurité de l'IA / agentique et des Devs en roue libre
Plus de sujets relatifs à : Infra IA : aide au choix et troubleshot de LLM locaux

Page générée en 0.077 secondes