Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1158 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  122  123  124  ..  128  129  130  131  132  133
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5200294
NotComplia​nt
Posté le 10-11-2022 à 17:04:16  profilanswer
 

Reprise du message précédent :

Lecook a écrit :

Hello,
 
Data science pour ma part aussi, un salaire fixe brut à 60k à Paris, sans autres avantages (si on compte pas les obligations légales) dans une PME ça vous parait comment ? Pour 3 ans d'XP je précise.
 
Au niveau du marché ça se situe comment ?


 
T'as quel background et quelles responsabilites ? Ca me parait etre +/- dans la norme vis a vis de mes camarades de promo

mood
Publicité
Posté le 10-11-2022 à 17:04:16  profilanswer
 

n°5200295
Lecook
Posté le 10-11-2022 à 17:12:00  profilanswer
 

NotCompliant a écrit :


 
T'as quel background et quelles responsabilites ? Ca me parait etre +/- dans la norme vis a vis de mes camarades de promo


 
Qu'est-ce que t'entends par background ?
Et responsabilités, si on parle de management, rien du tout ('fin peut être un stagiaire mais sans plus pour l'instant).

n°5200299
NotComplia​nt
Posté le 10-11-2022 à 17:28:19  profilanswer
 

En France le nom du diplôme joue beaucoup sur la négociation salariale et la trajectoire de ta carrière

n°5200300
Lecook
Posté le 10-11-2022 à 17:29:22  profilanswer
 

NotCompliant a écrit :

En France le nom du diplôme joue beaucoup sur la négociation salariale et la trajectoire de ta carrière


 
ça serait quoi du coup ton classement ?

n°5200301
LibreArbit​re
RIP mon Orion
Posté le 10-11-2022 à 17:32:29  profilanswer
 

École de groupe A/A+ et/ou master MVA+thèse je suppose...


Message édité par LibreArbitre le 10-11-2022 à 17:34:22

---------------
Hebergement d'images | Le topic de la VR standalone
n°5200303
NotComplia​nt
Posté le 10-11-2022 à 17:42:04  profilanswer
 

Lecook a écrit :


 
ça serait quoi du coup ton classement ?


 
Je parle pas de classement. Tu nous demande si 60k 3 ans d'xp DS c'est bien par rapport au marché ou pas. Tu conviendras que X-MVA c'est différent de formation continue avec des MOOC

n°5200312
Lecook
Posté le 10-11-2022 à 19:47:28  profilanswer
 

NotCompliant a écrit :


 
Je parle pas de classement. Tu nous demande si 60k 3 ans d'xp DS c'est bien par rapport au marché ou pas. Tu conviendras que X-MVA c'est différent de formation continue avec des MOOC


 
Oui mais comment tu catégorises les écoles, je doute que t'aies un échelle de salaire en fonction de chaque école. Si la question c'est X versus le reste, je suis dans le reste.

n°5200327
-Meringue-
Posté le 11-11-2022 à 00:28:50  profilanswer
 

NotCompliant a écrit :

Quand j'ai été embauché, le head of data science gagnait 9.5k + 20k de bonus performance et sûrement d'autres trucs. Au final il s'est fait virer et c'est moi qui ait fait tout le deep leurning FDA validated etc  
 
La nouvelle est à 200k de package, mon autre collègue doit être à 8k environ


 
Ça me parait assez fou cette différence de salaire.  
Un x2, ok, un x7  :whistle:  
 

NotCompliant a écrit :


Jme fais pas trop respecter en fait, on a sorti un papier dans Nature, y'a pas mon nom alors que j'ai fait 99% de l'IA sous-jacente [:bobibob333]
 
Bon apres j'ai pas non plus redige ni rien mais BON [:bobibob333]


 
J’avais eu le coup inverse. Des collègues faisaient toute la partie physique et simu numérique, moi la partie deep. Finalement pas eu le temps pour rédiger un papier ensemble, ils ont mis un encart sur mes travaux et ont ajouté mon nom  :whistle:  
 
 

Lecook a écrit :

Hello,
 
Data science pour ma part aussi, un salaire fixe brut à 60k à Paris, sans autres avantages (si on compte pas les obligations légales) dans une PME ça vous parait comment ? Pour 3 ans d'XP je précise.
 
Au niveau du marché ça se situe comment ?


 
Comme dit, ça dépend de ta formation, de ce que tu as fait pendant ces 3 années, de la fiche de poste, etc. Toutefois c’est dans la norme positive.  
Si t’as un master lambda en fac, dans un domaine qui n’a rien à voir, et simplement suivi un MOOC, c’est excellent. Si par contre t’as fait le MVA en double diplôme, avec une super première expérience, tu peux viser sûrement au-dessus  :o  
 

n°5200372
NotComplia​nt
Posté le 11-11-2022 à 12:19:40  profilanswer
 

Accord de principe du N+1 pour une augmentation debut annee pro [:bobibob333]

n°5200395
Rontgen
Posté le 11-11-2022 à 15:53:13  profilanswer
 

NotCompliant a écrit :

Accord de principe du N+1 pour une augmentation debut annee pro [:bobibob333]


Combien? :o

mood
Publicité
Posté le 11-11-2022 à 15:53:13  profilanswer
 

n°5200397
Tidom
Posté le 11-11-2022 à 17:21:44  profilanswer
 

NC de retour.  [:jean-michel platini:3]  
 
On va enfin pouvoir rigoler un peu dans ce monde qui déconne :o

n°5200398
NotComplia​nt
Posté le 11-11-2022 à 18:08:10  profilanswer
 


 
Jsp j'espère 2k/mois comme en avril [:bobibob333]

n°5200402
neo world
Posté le 11-11-2022 à 20:32:08  profilanswer
 

NotCompliant a écrit :

 

Jsp j'espère 2k/mois comme en avril [:bobibob333]


 Belle remontada  [:implosion du tibia]

n°5200567
NotComplia​nt
Posté le 14-11-2022 à 13:05:18  profilanswer
 

Messieurs,
 
Petite question maths-info [:raviren183:1]  
 
J'essaie de segmenter un truc ~ rond (une veine), le modele marche tres bien dans 99% des cas mais des fois le masque est un peu degueu et pas vraiment rond. Une idee d'algo pour identifier les masques qui s'eloignent trop d'un cercle ?
 

Spoiler :

https://i.imgur.com/BImP2B6.png


Message édité par NotCompliant le 14-11-2022 à 13:23:19
n°5200584
Tidom
Posté le 14-11-2022 à 14:22:10  profilanswer
 

(x - x_c)^2 + (y - y_c)^2 = r^2 l'équation d'un cercle de centre (x_c, y_c) et de rayon r.
Tu cherches les x_c, y_c et r pour minimiser une distance entre le cercle et ta veine bizarre et tu vires celles qui dépassent un certain seuil
Aka système D :o

 

Oui ce n'est pas un masque

Message cité 1 fois
Message édité par Tidom le 14-11-2022 à 14:22:43
n°5200638
NotComplia​nt
Posté le 14-11-2022 à 15:57:54  profilanswer
 

Tidom a écrit :

(x - x_c)^2 + (y - y_c)^2 = r^2 l'équation d'un cercle de centre (x_c, y_c) et de rayon r.
Tu cherches les x_c, y_c et r pour minimiser une distance entre le cercle et ta veine bizarre et tu vires celles qui dépassent un certain seuil
Aka système D :o
 
Oui ce n'est pas un masque


 
En termes Tiktok ça donne quoi ? [:raviren183:1]

n°5200647
Tidom
Posté le 14-11-2022 à 16:21:58  profilanswer
 

Pour une veine V_i :
Trouve le cercle C_i qui "match" le mieux avec V_i
Soit d_i la distance entre C_i et V_i
Si d_i > seuil appris au pifomètre alors perdu "V_i pas veine"
Sinon gagné "V_i est veine"
Abonnez-vous à ma chaîne :o

n°5200652
Tidom
Posté le 14-11-2022 à 16:27:00  profilanswer
 

C'était la première idée qui me passait par la tête.
Sinon "plus évolué" : on peut transformer une image (enfin son contour aka outline) en "time series" (un vecteur de réel).
https://izbicki.me/blog/converting- [...] ining.html
 
Du coup on peut ensuite utiliser plein d'algo de classification pour les time series
 
Si tu ne t'abonnes pas à ma chaîne tiktok, tu peux faire un don d'un pourcentage de ta future augmentation :o

n°5200656
NotComplia​nt
Posté le 14-11-2022 à 16:34:07  profilanswer
 

Tidom a écrit :

C'était la première idée qui me passait par la tête.
Sinon "plus évolué" : on peut transformer une image (enfin son contour aka outline) en "time series" (un vecteur de réel).
https://izbicki.me/blog/converting- [...] ining.html
 
Du coup on peut ensuite utiliser plein d'algo de classification pour les time series
 
Si tu ne t'abonnes pas à ma chaîne tiktok, tu peux faire un don d'un pourcentage de ta future augmentation :o


 
On a du code qui calcul le convex hull du masque, jui sur on doit avoir du code pour faire ce que je veux faudrait que je regarde. Merci pour le lien ca a l'air interessant en effet
 
Et oui a chaque entretien trimestriel je remercie HFR  :jap:

n°5200824
LibreArbit​re
RIP mon Orion
Posté le 15-11-2022 à 15:05:40  profilanswer
 

Tidom a écrit :

Pour une veine V_i :
Trouve le cercle C_i qui "match" le mieux avec V_i
Soit d_i la distance entre C_i et V_i
Si d_i > seuil appris au pifomètre alors perdu "V_i pas veine"
Sinon gagné "V_i est veine"
Abonnez-vous à ma chaîne :o

Tidom a écrit :

C'était la première idée qui me passait par la tête.
Sinon "plus évolué" : on peut transformer une image (enfin son contour aka outline) en "time series" (un vecteur de réel).
https://izbicki.me/blog/converting- [...] ining.html
 
Du coup on peut ensuite utiliser plein d'algo de classification pour les time series
 
Si tu ne t'abonnes pas à ma chaîne tiktok, tu peux faire un don d'un pourcentage de ta future augmentation :o


Merci, c'est très intéressant (pour un profane) :jap:


---------------
Hebergement d'images | Le topic de la VR standalone
n°5201223
NotComplia​nt
Posté le 18-11-2022 à 14:17:42  profilanswer
 

Tjrs bloqué sur de la classification d'images [:bobibob333:6]

 

J'y arrive pas, y'a trop de classes et y'en a la seule différence c'est la position d'un curseur [:bobibob333:6]

 

Si pas de solution lundi c'est RSA + parents [:bobibob333:6]  

 

Bouteille à la mer :

 

Images médicales qu'on peut décomposer en deux, une partie image normale, une partie signal. On a comme info la famille du signal et sinon l'image en elle-meme. Les classes sont tres imbalance (nombre d'images et aussi importances, certaines classes on osef un peu) et on a noisy labels (annotations humaines + qq bugs)

Spoiler :

(ex si on devait classifier differentes races de chiens / chats on sait à 100% par avance si c'est un chien ou un chat, mais pour trouver la race faut classifier visuellement)

 

Les images ressemblent à ca :

Spoiler :

https://i.imgur.com/PzJUp4z.png

 

Ce que j'ai fait pour l'instant :

 

1) Decoupe image du haut (img1) et image du bas (img2)

 

2) Resize img1 -> efficientnet -> features1 & Resize img2 -> mobilenet -> features2

 

3) Concatenate features1 et features1 = features

 

4) Features envoyes au classifier correspondant a la famille (3 classifiers differents car 3 familles)

 

Avis ?  :jap:  :jap:  :jap:

Message cité 1 fois
Message édité par NotCompliant le 18-11-2022 à 14:19:32
n°5201287
Rontgen
Posté le 18-11-2022 à 23:03:42  profilanswer
 

NotCompliant a écrit :

Tjrs bloqué sur de la classification d'images [:bobibob333:6]

 

J'y arrive pas, y'a trop de classes et y'en a la seule différence c'est la position d'un curseur [:bobibob333:6]

 

Avis ? :jap: :jap: :jap:


Ben détecte le curseur wesh :o

 

C'est quoi ces images en deux parties, de l'échographie ?

n°5201288
NotComplia​nt
Posté le 18-11-2022 à 23:39:13  profilanswer
 

Rontgen a écrit :


Ben détecte le curseur wesh :o
 
C'est quoi ces images en deux parties, de l'échographie ?


 
Yes !
 
Jvois pas comment, sachant que j'ai pas d'annotations pour ça spécifiquement

n°5201289
Rontgen
Posté le 19-11-2022 à 00:03:50  profilanswer
 

NotCompliant a écrit :

 

Yes !

 

Jvois pas comment, sachant que j'ai pas d'annotations pour ça spécifiquement


Tu peux pas annoter toi même et bootstrapper?

 

Malheureusement oui l'échographie c'est très dur comme modalité, une des plus difficiles selon mon expérience

n°5201290
NotComplia​nt
Posté le 19-11-2022 à 00:39:08  profilanswer
 

T'en ferais quoi de ces infos ? Genre t'ajoutes le masque du curseur comme données d'entrées avec 3 branches ?
 
C'est un problème compliqué en soi et les attentes sont élevés vu qu'on a des vraies données client (donc ça correspond pas au jeu d'entraînement + qualité merdique :o)

n°5201305
mrproton
Posté le 19-11-2022 à 11:41:48  profilanswer
 

Tu as moyen de mesurer la performance de tes encoders (en 2) ) ? Est-ce que les features obtenue sont assez représentatives de tes données ?
 
Les modèles (deux encoders + 3 classifiers) sont-ils bien dimensionnés ? T'as essayé plus gros ?
 
Les classifiers c'est quel type de modèle / architecture ? T'as essayé d'y mettre de l'attention, éventuellement cross-attention entre les différentes modalités à la perceiver ?
 
Sinon autre idée (mais je pense pas possible) : t'as pas moyen de "simplifier les labels" en les regroupant en sous-catégories ? Ex les labels cancer de x regroupés juste en cancer. :o
Ca réduirait la complexité de la tâche dans un premier temps, et si t'as de bons résultats (top accuracy) avec ça tu peux te baser dessus pour re-complexifier le modèle / architecture après.
Mais ça nécessiterai de définir les catégories à la main

n°5201310
NotComplia​nt
Posté le 19-11-2022 à 11:55:44  profilanswer
 

mrproton a écrit :


 
Tu as moyen de mesurer la performance de tes encoders (en 2) ) ? J'ai essaye de classifier individuellement, cad utiliser seulement l'encodeur 2 et les signaux, j'arrivais a 95+% accuracy entre les differentes familles de signaux, jcrois "l'image du bas" est facile a differencier, le truc dur c'est l'image du haut, qui depends de la structure echographiee mais aussi de la position des curseurs etc
 
Est-ce que les features obtenue sont assez représentatives de tes données ? Comment tu peux savoir ca ?
 
Les modèles (deux encoders + 3 classifiers) sont-ils bien dimensionnés ? La aussi, comment tu peux savoir ca ? Y'a une heuristique acceptee pour la taille du reseau dependemment du nbr d'images / leurs tailles ?
 
T'as essayé plus gros ? Non, mais j'ai peur que plus gros le modele capture encore plus les noisy labels et fasse de la merde en prod
 
Les classifiers c'est quel type de modèle / architecture ?   Encodeur images du dessus = EfficientNetB4, Encodeur images du dessous = MobileNet, les deux branches concatenent leurs features qui sont fed a 1 couche linaire selon la famille du signal que je connais  
 
T'as essayé d'y mettre de l'attention, éventuellement cross-attention entre les différentes modalités à la perceiver ? Non, faudrait que je regarde ca  
 
Sinon autre idée (mais je pense pas possible) : t'as pas moyen de "simplifier les labels" en les regroupant en sous-catégories ? Ex les labels cancer de x regroupés juste en cancer. :o
Ca réduirait la complexité de la tâche dans un premier temps, et si t'as de bons résultats (top accuracy) avec ça tu peux te baser dessus pour re-complexifier le modèle / architecture après.
Mais ça nécessiterai de définir les catégories à la main Oui c'est ce qu'on fait pour notre autre classifier, pour celui la on a besoin de classes assez granulaires car fait de la segmentation etc dessus donc pas possible de juste les grouper en paquet
 
 


 
Merci de ta reponse :jap:

n°5201334
Rontgen
Posté le 19-11-2022 à 14:02:51  profilanswer
 

NotCompliant a écrit :

T'en ferais quoi de ces infos ? Genre t'ajoutes le masque du curseur comme données d'entrées avec 3 branches ?

 

C'est un problème compliqué en soi et les attentes sont élevés vu qu'on a des vraies données client (donc ça correspond pas au jeu d'entraînement + qualité merdique :o)


Difficile de répondre de façon super pertinente sans connaître les données et le problème en particulier.
Contrairement au post précédent, je doute que tester une architecture différente soit très prometteur.

 

T'es curseurs, c'est des annotations que les cliniciens ont mis à la main et qui se retrouvent dans ton image parce que c'est juste une capture d'écran de l'échographe, c'est ça ?
Je me demanderais d'abord si leur position est vraiment reliée par causalité ou juste par corrélation avec la classe que tu cherches a reconnaître. Malheureusement pour ça il faut souvent discuter avec les cliniciens, ou en tout cas avec tes clients.
Si c'est le cas, dans ce cas là tu peux envisager de rajouter une branche de sortie et prédire une heatmap de leur position. Ça pourrait encourager le réseau a utiliser cette info pour l'autre branche.
Sinon, je serais plutôt préoccupé par l'influence néfaste potentielle de ces curseurs (et par exemple un écroulement du réseau sur des images qui n'ont pas ces curseurs, ou si ceux ci changent de forme/taille) et j'aurai tendance à les effacer par inpainting avant de donner les images au réseau.
Malheureusement c'est assez chiant de travailler avec des données échographiques non brutes..

 

Dernier truc: ça m'est déjà arrivé de devoir attendre assez longtemps pour qu'un réseau apprenne à différencier deux classes très similaires. Même après que le réseau a l'air d'avoir convergé, tu devrais le laisser entraîner longtemps; peut-être qu'il y aura un déclic au bout d'un moment (ça semble bizarre mais je l'ai vu en pratique sur un de mes réseaux)

n°5201336
NotComplia​nt
Posté le 19-11-2022 à 14:57:20  profilanswer
 

Merci de ta reponse complete  :jap:  
 

Rontgen a écrit :


Difficile de répondre de façon super pertinente sans connaître les données et le problème en particulier.
Contrairement au post précédent, je doute que tester une architecture différente soit très prometteur.


 
J'ai aussi tendance a penser qu'en general l'archicture a pas trop d'influence vs les donnees (quantite, qualite et information intrinseque), en general les meilleurs boosts de perfs c'est de nettoyer le jeu de donnees ou d'en trouver de nouvelles. (Sous reserve d'utiliser une archi assez moderne et battle tested genre ResNet)
 

Rontgen a écrit :

Tes curseurs, c'est des annotations que les cliniciens ont mis à la main et qui se retrouvent dans ton image parce que c'est juste une capture d'écran de l'échographe, c'est ça ?
Je me demanderais d'abord si leur position est vraiment reliée par causalité ou juste par corrélation avec la classe que tu cherches a reconnaître. Malheureusement pour ça il faut souvent discuter avec les cliniciens, ou en tout cas avec tes clients.
Si c'est le cas, dans ce cas là tu peux envisager de rajouter une branche de sortie et prédire une heatmap de leur position. Ça pourrait encourager le réseau a utiliser cette info pour l'autre branche.
Sinon, je serais plutôt préoccupé par l'influence néfaste potentielle de ces curseurs (et par exemple un écroulement du réseau sur des images qui n'ont pas ces curseurs, ou si ceux ci changent de forme/taille) et j'aurai tendance à les effacer par inpainting avant de donner les images au réseau.
Malheureusement c'est assez chiant de travailler avec des données échographiques non brutes..


 
Pas sur d'avoir bien compris mais en gros t'as une structure echographiee ("l'image du haut", un rein au pif  :o ) donc faut que le reseau identifie que c'est un rein, ensuite superpose t'as la position du curseur qui indique ou le signal pulse a ete envoye, dependemment de la ou le signal est envoye ca donne un graphe different ("l'image du bas", different tissus etc donc differente velocites selon la position du curseur), vu qu'on fait des mesures automatiques sur ces graphes faut qu'on sache exactement la classe
 
Si on efface les infos d'acquisition superposees par inpainting alors on aura des images quasi identiques et impossible (mm pour un humain expert) de differencier je pense
 
 

Rontgen a écrit :

Dernier truc: ça m'est déjà arrivé de devoir attendre assez longtemps pour qu'un réseau apprenne à différencier deux classes très similaires. Même après que le réseau a l'air d'avoir convergé, tu devrais le laisser entraîner longtemps; peut-être qu'il y aura un déclic au bout d'un moment (ça semble bizarre mais je l'ai vu en pratique sur un de mes réseaux)


 
Tres interessant, merci du partage. T'as pas peur que le reseau overfit (surtout avec des noisy labels) ?

n°5201341
mrproton
Posté le 19-11-2022 à 17:20:22  profilanswer
 

C'est clair qu'avec des labels noisy la tache est vraiment pas facile. Garbage in, garbage out
Comme t'as peu de temps devant toi je réfléchissais à comment avoir d'éventuels boosts rapides, ou au moins debug et trouver des points d'amélioration (et prier pour le boost), sans toucher aux données.
 
Pour mesurer la qualité de features (debug), tu peux faire du t-SNE, et checker à la main que les features ont des positions cohérentes. L'objectif est de checker si rien cloche dans les encoders.
 
Pour la taille des modèles, je connais pas de loi dime modèle / taille dataset, mais y'a quelques travaux qui traitent le sujet et peuvent donner des indications. Genre ça, il doit aussi y en voir côté CV aussi (désolé je donne des conseils depuis le début mais je bosse uniquement sur du NLP)
TLDR la question c'était plus est-ce que t'as test avec des variations plus petites et plus grandes pour voir si tu pouvais avoir un gain. (just stack more layers...)
 
Justement tes classifiers, t'as essayé un peu plus gros ? Un layer linear me parait léger, mais je peux me tromper j'ai jamais fait quelque chose de similaire.
Et comment t'entraine le tout ? Car 3 classifiers = 3 losses. Les encoders sont frozen pour l'entrainement des classifiers ? T'entraine les classifiers en parallèle (en additionnant les losses ou à tour de rôle) ou chacun leur tour totalement ?
 

n°5201343
-Meringue-
Posté le 19-11-2022 à 17:49:49  profilanswer
 

Rontgen a écrit :


Dernier truc: ça m'est déjà arrivé de devoir attendre assez longtemps pour qu'un réseau apprenne à différencier deux classes très similaires. Même après que le réseau a l'air d'avoir convergé, tu devrais le laisser entraîner longtemps; peut-être qu'il y aura un déclic au bout d'un moment (ça semble bizarre mais je l'ai vu en pratique sur un de mes réseaux)


 
Phénomène qu’on remarque aussi chez nous.  
D’où la nécessité d’avoir un bon jeu de validation, des métriques adaptées, et de quoi tracker le tout convenablement.  

n°5201352
Rontgen
Posté le 20-11-2022 à 00:14:27  profilanswer
 


NotCompliant a écrit :

 

Pas sur d'avoir bien compris mais en gros t'as une structure echographiee ("l'image du haut", un rein au pif :o ) donc faut que le reseau identifie que c'est un rein, ensuite superpose t'as la position du curseur qui indique ou le signal pulse a ete envoye, dependemment de la ou le signal est envoye ca donne un graphe different ("l'image du bas", different tissus etc donc differente velocites selon la position du curseur), vu qu'on fait des mesures automatiques sur ces graphes faut qu'on sache exactement la classe

 

Si on efface les infos d'acquisition superposees par inpainting alors on aura des images quasi identiques et impossible (mm pour un humain expert) de differencier je pense

 


 

Ah ok, je pensais a un autre type de curseur, je vois ce que tu veux dire maintenant.
Par contre j'ai toujours un peu de mal a comprendre pourquoi la position du curseur est la seule variable de différentiation entre tes deux classes, mais j'imagine c'est difficile de rentrer dans les détails sans dévoiler l'application entière

 


NotCompliant a écrit :


Tres interessant, merci du partage. T'as pas peur que le reseau overfit (surtout avec des noisy labels) ?


J'avais pas de Noisy labels dans mon cas, mais c'était plutôt de l'underfitting avant (même sur l'ensemble de training il avait du mal a différencier les deux classes)

n°5201482
NotComplia​nt
Posté le 21-11-2022 à 11:22:48  profilanswer
 

Honnetement Tiktok / youtube shorts / Instagram reels ca m'a bousillé le cerveau mais merci de vos réponses, j'ai entretien avec le CEO dans 30 min jvais lui dire qu'un comité d'experts a tranché : ce projet est impossible [:bobibob333:6]
 
 

mrproton a écrit :

C'est clair qu'avec des labels noisy la tache est vraiment pas facile. Garbage in, garbage out  
Comme t'as peu de temps devant toi je réfléchissais à comment avoir d'éventuels boosts rapides, ou au moins debug et trouver des points d'amélioration (et prier pour le boost), sans toucher aux données.
 
Pour mesurer la qualité de features (debug), tu peux faire du t-SNE, et checker à la main que les features ont des positions cohérentes. L'objectif est de checker si rien cloche dans les encoders. Ouaip, je vois donc prendre des images representatives de chauqe classe, extraire les features, plot ces features avec t-SNE et regarder si ca forme des clusters coherents, je vois merci
 
Pour la taille des modèles, je connais pas de loi dime modèle / taille dataset, mais y'a quelques travaux qui traitent le sujet et peuvent donner des indications. Genre ça, il doit aussi y en voir côté CV aussi (désolé je donne des conseils depuis le début mais je bosse uniquement sur du NLP)
TLDR la question c'était plus est-ce que t'as test avec des variations plus petites et plus grandes pour voir si tu pouvais avoir un gain. (just stack more layers...) On est aussi contraints sur la taille / inference speed, sinon ca serait pas drole  :o
 
Justement tes classifiers, t'as essayé un peu plus gros ? Un layer linear me parait léger, mais je peux me tromper j'ai jamais fait quelque chose de similaire. C'est assez classique en CV, l'API Keras / Tensorflow c'est toujours pareil, backbone -> average pooling -> dense layer
Et comment t'entraine le tout ? Car 3 classifiers = 3 losses. Les encoders sont frozen pour l'entrainement des classifiers ? T'entraine les classifiers en parallèle (en additionnant les losses ou à tour de rôle) ou chacun leur tour totalement ? C'est un peu funky mais les deux branches vont produires 2 features apres features pooling, que je concatene, ensuite j'ai une layer custom qui va mask out les 2 layers dense qui sont pas concernes (multiplie par 0), ensuite j'additionne les resultats des 3 layers donc concretement y'a qu'1 seul output et 1 seule loss par image
 


 

-Meringue- a écrit :


 
Phénomène qu’on remarque aussi chez nous.  
D’où la nécessité d’avoir un bon jeu de validation, des métriques adaptées, et de quoi tracker le tout convenablement.  


 
 :jap:  
 

Rontgen a écrit :


 
 
Ah ok, je pensais a un autre type de curseur, je vois ce que tu veux dire maintenant.
Par contre j'ai toujours un peu de mal a comprendre pourquoi la position du curseur est la seule variable de différentiation entre tes deux classes, mais j'imagine c'est difficile de rentrer dans les détails sans dévoiler l'application entière Il y a plein de classes qui ne se ressemblent pas et qui sont faciles a differencier (differentes structures etc), pour certaines par contre le signal est tres proche (un expert pourrait pas vraiment repondre juste en regardant le signal), donc il faut regarder l'image du haut qui montre ou le curseur est focus donc c'est la seule feature qui vraiment les differencient. Si j'entraine un mobilenet seulement sur les signaux et seulement sur ces classes dures j'ai environ ~80% accuracy, donc mieux que random et ptet mieux qu'un humain mais pas assez pour se passer de l'image du haut
 
 
 
J'avais pas de Noisy labels dans mon cas, mais c'était plutôt de l'underfitting avant (même sur l'ensemble de training il avait du mal a différencier les deux classes)


 

n°5202017
NotComplia​nt
Posté le 24-11-2022 à 11:58:21  profilanswer
 

C'est bien, le probleme originel c'etait (entre autre) que les images etaient trop downsamplees donc on perdait des infos visuelles et qu'on avait des misclassification en prod. Je clean les donnees d'entrainement (enleve les donnees pourries ou avec label errones), j'utilise de plus grande images et le modele fait pire que la baseline. On se sent expert deep learning [:alexandre_alabenne:1]

n°5202052
Rontgen
Posté le 24-11-2022 à 13:43:57  profilanswer
 

NotCompliant a écrit :

C'est bien, le probleme originel c'etait (entre autre) que les images etaient trop downsamplees donc on perdait des infos visuelles et qu'on avait des misclassification en prod. Je clean les donnees d'entrainement (enleve les donnees pourries ou avec label errones), j'utilise de plus grande images et le modele fait pire que la baseline. On se sent expert deep learning [:alexandre_alabenne:1]


Ah ben donc peut être que la baseline mérite vraiment ses 200k alors :o

n°5202055
NotComplia​nt
Posté le 24-11-2022 à 13:52:31  profilanswer
 

Rontgen a écrit :


Ah ben donc peut être que la baseline mérite vraiment ses 200k alors :o


 
C'etait fait par un stagios sous-payé, notre experte deep learning 200k son job c'est d'ajouter des pooling layers [:keeplooking:4]  
 

Spoiler :

En vrai elle est vraiment smart, c'est une bonne recrue, si jme fais virer elle aura aucun mal a take over [:odeur de pieds]

n°5202803
LibreArbit​re
RIP mon Orion
Posté le 30-11-2022 à 16:39:24  profilanswer
 

Hello l'élite, vous auriez des articles de référence sur l'apprentissage distribué ? Quelqu'un en a parlé sur le topic dédié aux images générées par IA et ça m'interroge... Après, si on a pu faire du calcul distribué via des projets comme BOINC pas de raison que ça ne soit pas applicable au ML (ou pas) :o


---------------
Hebergement d'images | Le topic de la VR standalone
n°5202815
Rontgen
Posté le 30-11-2022 à 19:02:40  profilanswer
 

LibreArbitre a écrit :

Hello l'élite, vous auriez des articles de référence sur l'apprentissage distribué ? Quelqu'un en a parlé sur le topic dédié aux images générées par IA et ça m'interroge... Après, si on a pu faire du calcul distribué via des projets comme BOINC pas de raison que ça ne soit pas applicable au ML (ou pas) :o


Ça dépend de pourquoi tu veux distribuer l'apprentissage : est ce que c'est pour des raisons de confidentialité (tu veux pas envoyer tes données d'apprentissage à un serveur central), ou juste pour des raisons de temps de calcul.
Si c'est le premier, le mot clé c'est federated learning et c'est pas mal poussé par les applications médicales en ce moment.

n°5202823
fnacide
Posté le 30-11-2022 à 20:59:20  profilanswer
 

Hello,
Je travaille actuellement en finance (corporate) et je souhaite faire une reconversion en data science via une formation RNCP (et demander un congé de formation).  
J'ai regardé pas mal de formation et celle d'openclassroom a l'air assez complete . Vous savez si elle vos le coup?
 
==> https://openclassrooms.com/fr/paths/164-data-scientist

n°5202829
LibreArbit​re
RIP mon Orion
Posté le 30-11-2022 à 23:01:14  profilanswer
 

Rontgen a écrit :

Ça dépend de pourquoi tu veux distribuer l'apprentissage : est ce que c'est pour des raisons de confidentialité (tu veux pas envoyer tes données d'apprentissage à un serveur central), ou juste pour des raisons de temps de calcul.
Si c'est le premier, le mot clé c'est federated learning et c'est pas mal poussé par les applications médicales en ce moment.


Merci pour ta réponse rapide et c'est pour la distribution du temps de calcul :jap:

Message cité 1 fois
Message édité par LibreArbitre le 30-11-2022 à 23:01:50

---------------
Hebergement d'images | Le topic de la VR standalone
n°5202840
NotComplia​nt
Posté le 01-12-2022 à 03:41:03  profilanswer
 

fnacide a écrit :

Hello,
Je travaille actuellement en finance (corporate) et je souhaite faire une reconversion en data science via une formation RNCP (et demander un congé de formation).  
J'ai regardé pas mal de formation et celle d'openclassroom a l'air assez complete . Vous savez si elle vos le coup?
 
==> https://openclassrooms.com/fr/paths/164-data-scientist


 
Intellectuellement ou au niveau employbilite ?  
 
Le marche est plus ou moins bouche -> faut des competences de plus en plus niche pour sortir du lot etc
 

LibreArbitre a écrit :


Merci pour ta réponse rapide et c'est pour la distribution du temps de calcul :jap:


 
Ca se fait en ML en effet : https://bigscience.huggingface.co/b [...] ters-model

mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  122  123  124  ..  128  129  130  131  132  133

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR