Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2676 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  128  129  130  131  132  133
Page Suivante
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5292052
mystiko
Posté le 13-02-2024 à 14:48:40  profilanswer
 

Reprise du message précédent :

MTiger a écrit :

j'ai une question bete [:794]  
 
j'entraine mon rn sur des données et j'obtiens des résultats corrects sur le set d'entrainement
 
puis j'essaie de faire un predict sur des sous échantillons des données d'entrainement et ca donne des erreurs bien supérieures aux résultats juste au dessus
 
comment c'est possible ? parce que à priori j'applique les mêmes poids aux mêmes inputs?
 
 
doit y avoir une feinte qq part mais je capte vraiment pas  [:psywalk]


 
welcome dans la problématique n°1 d'un DS et qui apportera un algo naze en prod  :D  
Overfitting à gérer
et/ou
analyse des predictions (avec shap par exemple) pour voir pourquoi il fait de la merde sur les predictions

mood
Publicité
Posté le 13-02-2024 à 14:48:40  profilanswer
 

n°5292079
NotComplia​nt
Posté le 13-02-2024 à 16:05:14  profilanswer
 

Non c'est pas de l'overfitting je pense ?

 

Il comprends pas pk il a des bons resultats en evaluant son training set mais des mauvais resultats sur ces meme elements isoles du training set

 

Ptet la distribution de ton training set avec certains elements qui surperforment et biaisent les resultats vers le haut quand t'evalues le set dans son ensemble

 

Ou ptet un bug dans ton code et dans ta logique d'evaluation (genre oublie de model.eval() en pytorch jsp)

Message cité 1 fois
Message édité par NotCompliant le 13-02-2024 à 16:05:57
n°5292167
MTiger
Posté le 13-02-2024 à 18:32:50  profilanswer
 

NotCompliant a écrit :

Non c'est pas de l'overfitting je pense ?

 

Il comprends pas pk il a des bons resultats en evaluant son training set mais des mauvais resultats sur ces meme elements isoles du training set

 

Ptet la distribution de ton training set avec certains elements qui surperforment et biaisent les resultats vers le haut quand t'evalues le set dans son ensemble

 

Ou ptet un bug dans ton code et dans ta logique d'evaluation (genre oublie de model.eval() en pytorch jsp)

 


non mais on est d'accord qu'une fois le modèle entrainé les poids sont fixés et donc quand je fais du predict sur un sous ensemble du traning, les memes poids appliqués aux memes inputs devraient donner les memes résultats ?

 

ca serait de l'overftting si j'étais sur un ensemble différent de mon training

  

ptet un bug mais je vois pas lequel  [:delarue3]

 

je fais juste du
x= x1,x2
y = y1,y2
xtrain,xtest,ytrain,ytest = train_test_split(x,y)

 

nn.fit(xtrain,ytrain)
nn.predict(x1)

 

et les erreurs du predict sont bien plus grandes que sous le fit (et c'est valable pour les erreurs  sur le traning ou le test set.....)
et je vois pas comment c'est possible

 


Message cité 3 fois
Message édité par MTiger le 14-02-2024 à 13:37:11
n°5292194
Trefledepi​que_W
Posté le 13-02-2024 à 19:26:21  profilanswer
 

mystiko a écrit :


 
welcome dans la problématique n°1 d'un DS et qui apportera un algo naze en prod  :D  
Overfitting à gérer
et/ou
analyse des predictions (avec shap par exemple) pour voir pourquoi il fait de la merde sur les predictions


 
Soyons raisonnables, l'approche la plus commune c'est d'investir du temps dans un bon powerpoint et la démo live qui donne des résultats incroyables pour que le client accepte l'algo tel quel :o

n°5292201
fazero
Posté le 13-02-2024 à 19:38:17  profilanswer
 

MTiger a écrit :

 


non mais on est d'accord qu'une fois le modèle entrainé les poids sont fixés et donc quand je fais du predict sur un sous ensemble du traning, les memes poids appliqués aux memes inputs devraient donner les memes résultats ?

 

ca serait de l'overftting si j'étais sur un ensemble différent de mon training

  

ptet un bug mais je vois pas lequel [:delarue3]

 

je fais juste du
x= x1,x2
y = y1,y2
xtrain,xtest,ytrain,ytest = train_test_split(x,y)

 

nn.fit(xtrain,xtest)
nn.predict(x1)

 

et les erreurs du predict sont bien plus grandes que sous le fit (et c'est valable pour les erreurs sur le traning ou le test set.....)
et je vois pas comment c'est possible

 




Non pour plusieurs raisons. Notamment parce que souvent l'entraînement se fait avec du dropout

n°5292202
Tidom
Posté le 13-02-2024 à 19:45:00  profilanswer
 

MTiger a écrit :


 
 
non mais on est d'accord qu'une fois le modèle entrainé les poids sont fixés et donc quand je fais du predict sur un sous ensemble du traning, les memes poids appliqués aux memes inputs devraient donner les memes résultats ?
 
ca serait de l'overftting si j'étais sur un ensemble différent de mon training
 
 
 
ptet un bug mais je vois pas lequel  [:delarue3]  
 
je fais juste du
x= x1,x2
y = y1,y2
xtrain,xtest,ytrain,ytest = train_test_split(x,y)
 
nn.fit(xtrain,xtest)
nn.predict(x1)
 
et les erreurs du predict sont bien plus grandes que sous le fit (et c'est valable pour les erreurs  sur le traning ou le test set.....)
et je vois pas comment c'est possible
 
 


 
Mais les paramètres de ton fit ne semblent pas bons.
Ça devrait être dans ton cas xtrain,ytrain
https://scikit-learn.org/stable/tut [...] orial.html
 
 
 

n°5292205
fazero
Posté le 13-02-2024 à 19:56:03  profilanswer
 

Ah oui wtf y a deux fois du x dans le train là :o

n°5292326
NotComplia​nt
Posté le 14-02-2024 à 03:30:36  profilanswer
 

MTiger a écrit :

 


non mais on est d'accord qu'une fois le modèle entrainé les poids sont fixés et donc quand je fais du predict sur un sous ensemble du traning, les memes poids appliqués aux memes inputs devraient donner les memes résultats ?

 

ca serait de l'overftting si j'étais sur un ensemble différent de mon training

  

ptet un bug mais je vois pas lequel  [:delarue3]

 

je fais juste du
x= x1,x2
y = y1,y2
xtrain,xtest,ytrain,ytest = train_test_split(x,y)

 

nn.fit(xtrain,xtest)
nn.predict(x1)

 

et les erreurs du predict sont bien plus grandes que sous le fit (et c'est valable pour les erreurs  sur le traning ou le test set.....)
et je vois pas comment c'est possible

 



 

Ta premiere phrase est pas claire en vraie et jsp ce que tu cherches a faire

 

Si tu fais model.eval(training test) et que t'obtiens une accuracy de 95% ca veut pas dire que model.eval(premiers 200 exemples du training test) te donneras aussi 95%

 

Si tu iteres comme ca par paquet de 200 et que tu stores les paires predictions / GT et que tu computes manuellement tes metriques normalement tu devrais retomber sur tes pieds oue, si c'est pas le cas y'a un bug qq part

 

Si t'es surpris du fait que model.eval(premiers 200 exemples du training test) te donnes une accuracy degueulasse, t'as ptet un jeu de donnee IMBALANCED (KEYWORD HERE) et que ton modele a juste appris a predire la classe dominante etc

 

Vu ton code jpense t'as surtout pas fait correctement ton split de donnees, y'a pas de garanties que x1 soit entierement dans xtrain, pour ca que nn.predict(x1) te donne pas une erreur similaire a nn.predict(xtrain)

 

BITEEEEEEEEEEEEE

Message cité 1 fois
Message édité par NotCompliant le 14-02-2024 à 03:33:26
n°5292522
MTiger
Posté le 14-02-2024 à 13:31:01  profilanswer
 

Tidom a écrit :

 

Mais les paramètres de ton fit ne semblent pas bons.
Ça devrait être dans ton cas xtrain,ytrain
https://scikit-learn.org/stable/tut [...] orial.html

  


 


j'ai pas fait du copier/collé de mon code j'ai tapé à l'arrache et c'est une coquille :D
corrected :o


Message édité par MTiger le 14-02-2024 à 13:36:51
n°5292526
MTiger
Posté le 14-02-2024 à 13:34:54  profilanswer
 

NotCompliant a écrit :

 

Ta premiere phrase est pas claire en vraie et jsp ce que tu cherches a faire

 

Si tu fais model.eval(training test) et que t'obtiens une accuracy de 95% ca veut pas dire que model.eval(premiers 200 exemples du training test) te donneras aussi 95%

 

Si tu iteres comme ca par paquet de 200 et que tu stores les paires predictions / GT et que tu computes manuellement tes metriques normalement tu devrais retomber sur tes pieds oue, si c'est pas le cas y'a un bug qq part

 

Si t'es surpris du fait que model.eval(premiers 200 exemples du training test) te donnes une accuracy degueulasse, t'as ptet un jeu de donnee IMBALANCED (KEYWORD HERE) et que ton modele a juste appris a predire la classe dominante etc

 

Vu ton code jpense t'as surtout pas fait correctement ton split de donnees, y'a pas de garanties que x1 soit entierement dans xtrain, pour ca que nn.predict(x1) te donne pas une erreur similaire a nn.predict(xtrain)

 

BITEEEEEEEEEEEEE

 

c'est pas une classification, j'essaie de prédire une variable continue ou l'erreur est continue donc
 si je calcule l'erreur maximale (ie l'erreur la plus haute obtenue sur l'ensemble des données xtrain ET xtest), mettons que j'obtiens une erreur e
maintenant si je calcule l'erreur maximale lors du predict avec x2, l'erreur maximale obtenue est e2 avec e2>>>> e
donc ya une couille dans le patée
meme avec des données imbalanced, je devrais pas avoir une erreur maximale supérieure sur un sous ensemble des données

 

en très gros si j'affiche le predict avec xtrain et sur xtest et que je compare avec ytrain et ytest, j'obtiens une erreur maximale e
et si je faisd un predict x1 j'obtiens une erreur maximale e2 >>>>e
ce qui me parait dafuk

 

x= x1,x2
y = y1,y2
xtrain,xtest,ytrain,ytest = train_test_split(x,y)

 

nn.fit(xtrain,ytrain)
e = max(nn.predict(xtrain) - ytrain, nn.predict(xtest) - ytest)
e2= max(nn.predict(x1)- y1)

 

e2>e

 

au passage c'est pas juste un maximum, globalement les erreurs sont en général un bon cran supérieures sur le nn.predict(x1)- y1 que sur les deux autres predict de xtrain et xtest
globalement l'erreur e est acceptable et on se dit que le réseau marche au moins sur les données d'entrainement alors qu'e2 est juste dégueulasse ....
plus clair comme ça ? [:ma muse]

 


Message édité par MTiger le 14-02-2024 à 14:10:44
mood
Publicité
Posté le 14-02-2024 à 13:34:54  profilanswer
 

n°5292527
MTiger
Posté le 14-02-2024 à 13:51:18  profilanswer
 

fazero a écrit :


Non pour plusieurs raisons. Notamment parce que souvent l'entraînement se fait avec du dropout


 
 
les quelques dropouts ca peut vraiment faire changer les résultats comme ça ?
ok je vais vérifier

n°5292679
NotComplia​nt
Posté le 14-02-2024 à 17:23:21  profilanswer
 

En faisant comme ca
 
x= x1,x2
y = y1,y2
xtrain,xtest,ytrain,ytest = train_test_split(x,y)
 
Tu controles pas quel % de x1 est dans ton jeu d'entrainement et dans ton test (c'est un split aleatoire)

n°5292727
MTiger
Posté le 14-02-2024 à 21:14:21  profilanswer
 

NotCompliant a écrit :

En faisant comme ca

 

x= x1,x2
y = y1,y2
xtrain,xtest,ytrain,ytest = train_test_split(x,y)

 

Tu controles pas quel % de x1 est dans ton jeu d'entrainement et dans ton test (c'est un split aleatoire)

 


oui je sais MAIS je compare l'erreur de x1 avec le max de l'erreur d'à la fois du jeu d'entrainement ET du jeu test

 

donc je vois pas pourquoi ce serait important quel % de x1 se retrouve dans le train ou le test puisque je prends l'erreur max des deux et donc le max de l'erreur de x1 forcément incluse dans l'un de ces deux éléments : e = max(nn.predict(xtrain) - ytrain, nn.predict(xtest) - ytest)

 


Message édité par MTiger le 14-02-2024 à 21:28:09
n°5292731
mystiko
Posté le 14-02-2024 à 21:25:08  profilanswer
 

Ton X1 il est choisi comment?
Si tu mets une valeur absolue sur ton erreur, tu enlèves ce probleme ou pas?

n°5292732
MTiger
Posté le 14-02-2024 à 21:34:04  profilanswer
 

mystiko a écrit :

Ton X1 il est choisi comment?
Si tu mets une valeur absolue sur ton erreur, tu enlèves ce probleme ou pas?


c'est ce que je cherche à modéliser
en gros  c'est une suite de processus similaires obtenus dans des conditions différentes, dans le code j'ai x1,x2,.....,xn, j'ai simplifié en x1,x2 pour le forum
c'est pour ça, je cherche à voir si ca marche pour prédire ce qu'il se passe lors d'un truc particulier
a terme, faudra passer en lstm car c'est un processus temporel mais déjà je commence par un nn classique
non la valeur absolue change rieng


Message édité par MTiger le 14-02-2024 à 21:34:52
n°5294878
NotComplia​nt
Posté le 21-02-2024 à 03:39:14  profilanswer
 

Plop

 

Quelqu'un ici a de l'exp positive avec du semi-supervise pour des videos ? Mon setup c'est le plus simple qui soit, une variable continue a predire (qui peut s'estimer visuellement par un expert donc a priori faisable par un reseau, experiences preliminaires en full supervised qui vont dans ce sens), des tas de videos de bonne qualite sans annotations, quelques milliers avec les bonnes annotations

 

J'ai un peu fouille paperswithcode mais rien trouve de fou / qui a l'air simple a implementer

 

Des conseils ?


Message édité par NotCompliant le 21-02-2024 à 03:39:54
n°5314108
MassiveAtt​ack
Posté le 10-04-2024 à 15:34:40  profilanswer
 

Bonjour à tous,
 
J'ai posté épisodiquement sur ce feed il y a quelques temps suite à ma réorientation en data science, et j'ai de nouveau besoin de vos services / conseils :) .
 
Suis data manager depuis un peu plus de deux ans maintenant, et je suis complètement passé à côté de certaines innovations depuis la fin de mon master (novembre 2019), notamment tout ce qui gravite autour des LLM / IA generative. La faute à mon job actuel (très orientés sur des cas d'usage d'analyse business / data viz qui n'ont rien à voir avec ce domaine) et par manque de temps.
 
Est-ce que vous auriez des références de mooc / cours / docs / projets kaggle pour que je puisse potasser un peu le sujet ?  
 
Merci à vous  
 

n°5314269
fazero
Posté le 10-04-2024 à 20:07:06  profilanswer
 

deeplearning.ai fait des trucs sympas et pas très longs

n°5314364
NotComplia​nt
Posté le 11-04-2024 à 05:47:32  profilanswer
 

Karpathy a des cours avec code en live etc sur ce sujet : https://youtu.be/zduSFxRajkE
 
3Bleu1Marron a de bonnes videos pour l'aspect maths : https://youtu.be/eMlx5fFNoYc

n°5314614
MassiveAtt​ack
Posté le 11-04-2024 à 15:42:04  profilanswer
 

Merci beaucoup je vais regarder ça !
Une amie m'a notamment conseillé "Generative AI for Everyone" sur deeplearning.ai

n°5315429
mcrak
1er, 2ème & 3eme top player.
Posté le 15-04-2024 à 20:18:54  profilanswer
 

NotCompliant a écrit :


3Bleu1Marron a de bonnes videos pour l'aspect maths : https://youtu.be/eMlx5fFNoYc


 
Vous connaissez d’autres chaînes d’une qualité comparable à celle-ci?
C’est une vraie mine d’or j’adore ses vidéos, merci pour le partage!


---------------
Se Queda.
n°5318293
NotComplia​nt
Posté le 26-04-2024 à 04:17:48  profilanswer
 

Petit quizz, qui peut me dire ce que ce modele fait et si c'est une bonne idee d'implementation. Je donne pas de contexte pour pas biaiser, je poste mon analyse apres pour discussion

 
Spoiler :

https://image.noelshack.com/fichiers/2024/17/5/1714097814-bb8f5c53-3295-45c7-9794-c01eeedc5e72.jpg

Message cité 1 fois
Message édité par NotCompliant le 26-04-2024 à 05:34:13
n°5318321
mrproton
Posté le 26-04-2024 à 10:34:42  profilanswer
 

Désolé j'utilise par tensorflow le boomer :o

n°5318324
fazero
Posté le 26-04-2024 à 10:48:56  profilanswer
 

Vous faites des trucs compliqués :o

 

De mon côté maintenant 80% du boulot c'est de faire des requêtes à openAI :o

n°5318349
NotComplia​nt
Posté le 26-04-2024 à 11:43:24  profilanswer
 

C'est cense etre un UNET + LSTM fait par ma ((((collegue))) pour traiter des videos

 

Ca prends une sequence de 16 images, applique un conv+lstm dessus pour apprendre les features temporelles et spatiales et... elle detruit tout directement en appliquant un maxpooling hyper aggressif sur l'axe temporel (donc 16 images -> 1 image)

 

Ensuite elle applique unet pour faire la segmentation

 

Elle s'etonne que ca marche aussi bien et tout le monde la felicite, ui ca marche bien car tu fais juste de la segmentation classique avec une sorte de regularisation cheloue au debut mais y'a 0 apprentissage temporel

 

Le model doit probablement juste apprendre a mettre les pixels les plus brilliants sur la frame du milieu (celle qui colle au masque ground truth) et basta

 

gnieeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee


Message édité par NotCompliant le 26-04-2024 à 11:54:05
n°5318351
NotComplia​nt
Posté le 26-04-2024 à 11:43:57  profilanswer
 

fazero a écrit :

Vous faites des trucs compliqués :o
 
De mon côté maintenant 80% du boulot c'est de faire des requêtes à openAI :o


 
T'as pas de syndrome imposteur / anxiete ? Si c'est vraiment ca ton taf c'est finito non ?

n°5318377
LibreArbit​re
RIP mon Orion
Posté le 26-04-2024 à 12:19:07  profilanswer
 

NotCompliant a écrit :

Petit quizz, qui peut me dire ce que ce modele fait et si c'est une bonne idee d'implementation. Je donne pas de contexte pour pas biaiser, je poste mon analyse apres pour discussion  
 



https://i.imgur.com/SMEOeXV.png

Citation :

Implementation Assessment
 
Whether this model is a good implementation idea depends on the specific task and data at hand. ConvLSTM2D layers are generally good for tasks that involve both spatial and temporal dimensions, such as video classification or weather prediction with spatially distributed data over time. However, without more context about the data and the problem being solved, it's difficult to assess the effectiveness of this model architecture.
 
It's also worth noting that there are some commented-out lines in the code, which might indicate that the model is still under development or that different configurations are being tested.


 
https://i.imgur.com/rqG5uM3.png

Citation :

Quant à savoir s'il s'agit d'une bonne idée de mise en œuvre, cela dépend de la tâche spécifique et des données en question. Les couches ConvLSTM2D sont généralement bonnes pour les tâches qui impliquent à la fois des dimensions spatiales et temporelles, comme la classification vidéo ou la prévision météorologique avec des données réparties spatialement au fil du temps. Cependant, sans plus de contexte sur les données et le problème à résoudre, il est difficile d'évaluer l'efficacité de cette architecture de modèle.
 
Il convient également de noter qu'il y a quelques lignes commentées dans le code.


De rien :o
 
Edit : Je ne suis pas DS donc je serais intéressé de savoir si la réponse faite est pertinente ou pas :jap:


Message édité par LibreArbitre le 26-04-2024 à 12:24:08

---------------
Hebergement d'images | Le topic de la VR standalone
n°5318379
NotComplia​nt
Posté le 26-04-2024 à 12:26:15  profilanswer
 

C'est une reponse superficielle, ca dit pas grand chose, il explique juste chaque couche et leur agencement mais fait pas de conclusion quant a la pertinence du modele
 
Chatgpt4 est pas mal et allait dans mon sens, j'ai un pote DS qui est aussi d'accord
 
Jpense que mon intuition est correcte mais feel free to correct me

n°5318437
MTiger
Posté le 26-04-2024 à 15:28:27  profilanswer
 

bonjour :hello:
 
est ce qu'il y a une commande python pour avoir accès a sa feature list pour un réseau de neurones sklearn sauvegardé avec pickle?
 
je vous remercie [:augie]

n°5318460
LibreArbit​re
RIP mon Orion
Posté le 26-04-2024 à 16:47:54  profilanswer
 

A priori non mais : https://you.com/search?q=est+ce+qu% [...] bm=youchat

 
Spoiler :

mais comme d'habitude ça doit être de la merde :)


Message édité par LibreArbitre le 26-04-2024 à 16:50:12

---------------
Hebergement d'images | Le topic de la VR standalone
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  128  129  130  131  132  133
Page Suivante

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR