Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1489 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  51  52  53  ..  129  130  131  132  133  134
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5084149
Tidom
Posté le 04-02-2019 à 13:10:58  profilanswer
 

Reprise du message précédent :

 


il n'y a rien de philosophique ! les variables continues prennent leurs valeurs dans un ensemble ordonné. Les variables catégorielles, pas forcément. on a bien 3 > 1 mais pas rouge > bleu. Il y a bien des transformations (one-hot, ordinal, ...) pour passer du numérique au catégoriel mais selon moi elles sont plus bancales les unes que les autres.

 


Sinon, pour les p-values, c'est moins grave : dans quelques années ça risque d'être abandonné :

Citation :


Time for a Change: a Tutorial for Comparing Multiple Classifiers Through Bayesian Analysis (Benavoli et al. 2017)
www.jmlr.org/papers/volume18/16-305/16-305.pdf

 

...
This spread the understanding that the observed results require statistical validation.
On the other hand, NHST so on proved inadequate for many reasons (Demsar, 2008). Noteworthy, the American Statistical Association has recently made a statement against p-values (Wasserstein and Lazar, 2016). NHST nowadays it is also falling out of favour in other fields of science (Trafimow and Marks, 2015). We believe that the field of machine learning is ripe for a change as well.


 

Du coup faut quand même savoir ce que c'est pendant encore quelques années :o

Message cité 2 fois
Message édité par Tidom le 04-02-2019 à 13:11:55
mood
Publicité
Posté le 04-02-2019 à 13:10:58  profilanswer
 

n°5084150
SodeKa
Posté le 04-02-2019 à 13:13:05  profilanswer
 

[:simchevelu]  
 
Je recherche un stage en Data Analyst / Statistiques dans la région parisienne. Vous connaissez des boîtes qui recrutent des Bac+3 ? Malgré un CV bien rempli dont une première expérience consultant Data je sais pas trop vers qui me tourner
Si vous avez des idées je suis preneur  :jap:

n°5084154
SodeKa
Posté le 04-02-2019 à 13:32:30  profilanswer
 


 
Pour 4 mois max, de Mai à début Septembre
Tiens justement  on a vu les pvalue en début d'année  [:ocolor]

n°5084155
Rontgen
Posté le 04-02-2019 à 13:50:36  profilanswer
 

Tidom a écrit :


Sinon, pour les p-values, c'est moins grave : dans quelques années ça risque d'être abandonné :
Time for a Change: a Tutorial for Comparing Multiple Classifiers Through Bayesian Analysis (Benavoli et al. 2017)
www.jmlr.org/papers/volume18/16-305/16-305.pdf


Oui enfin on est d'accord que si un candidat me répond ca, bien évidemment que c'est un bon point
Mais ca me semble être une situation théorique: quelqu'un qui ne sait pas ce qu'est une p-value, il ne pourra pas vraiment comprendre cet article ni ne saura argumenter sur pourquoi il y aurait de meilleurs méthodes :o
 
Mais si tu veux, je peux remplacer la question par une formulation bien plus pratique
"quand je fais des expérience avec deux réseaux de neurones, comment je m'assure qu'il y en a un qui est vraiment meilleur que l'autre ?"

Message cité 2 fois
Message édité par Rontgen le 04-02-2019 à 13:52:11
n°5084156
mathsdauph
Posté le 04-02-2019 à 13:56:58  profilanswer
 


 
Des petites questions qui peuvent tomber:
 
Comment on fit un réseau de neurones simple (sur papier) : par exemple un perceptron avec fonction d'activation au choix ?
C'est quoi la backpropagation?
Comment régler le taux d'apprentissage pour la descente de gradient?
Avantage de la descente de gradient stochastique?
Cites moi un cas dans lequel tu as besoin d'augmenter tes données? Comment on peut s'y prendre?  
Quelle différence il y a au niveau de la dernière couche d'un réseau de neurones qui cherche à prédire:
a)des classes exclusives ( par exemple des chiffres à prédire de 1 à 9)
b)des classes non exclusives  (par exemple pour des espèces :  reptile ou non - lézard ou non)

Message cité 1 fois
Message édité par mathsdauph le 04-02-2019 à 13:59:33

---------------
Licence Maths-> ENSAE -> ??
n°5084158
Tidom
Posté le 04-02-2019 à 14:04:21  profilanswer
 


 
 
Pardon je ne me suis pas expliqué : la raison principale qui fait que le one-hot est populaire, c'est qu'en général, les variables catégorielles ont peu de valeurs (petit domaine de définition), donc ça génère peu de nouvelles variables : dans ce cas c'est ok. Toutefois, dans beaucoup de cas réels, les variables catégorielles prennent leurs valeurs dans un grand domaine de définition, ce qui génère beaucoup de nouvelles variables et complexifie la tâche d'apprentissage qui suit. Pour faire face à ça, une solution "simple et populaire" et de faire du binary encoding, i.e., une partition en deux groupes de valeurs (donc deux variables générées). En fait, il y a un monde entre ces deux extrêmes, (comme en discrétisation supervisée, il y a de la place entre une valeur par intervalle et deux intervalles seulement), on peut explorer l'espace des partitionnements des valeurs d'une variable catégorielle, en gros faire de la catégorisation supervisée de valeurs en tant que pré-traitement.
 
D'une manière générale, j'adhère à la vision de D. hand qui dit que : "the large gains in predictive accuracy in classification are won using relatively simple models at the start of the process". En gros, après une belle phase de pré-traitement, ton xNN (ou un autre classifieur/régresseur) ne s'en portera que mieux. D'ailleurs pour le vérifier (et on devrait le vérifier dans chaque cas d'application), un bon protocole expérimental avec tests statistiques (ou bientôt des tests Bayésiens) pour vérifier les différentes combinaisons preprocessing+classif, est le bienvenu... ça évite de vendre un xNN à 110 couches* si un simple arbre de décision est plus performant :o
 
*

Spoiler :


non mais ok en apprentissage perceptuel, faut faire du xNN, on est d'accord :o

n°5084159
Voxinat
High Frequency Trolling
Posté le 04-02-2019 à 14:06:11  profilanswer
 

Tidom a écrit :


 
il n'y a rien de philosophique ! les variables continues prennent leurs valeurs dans un ensemble ordonné. Les variables catégorielles, pas forcément. on a bien 3 > 1 mais pas rouge > bleu. Il y a bien des transformations (one-hot, ordinal, ...) pour passer du numérique au catégoriel mais selon moi elles sont plus bancales les unes que les autres.
 
 
Sinon, pour les p-values, c'est moins grave : dans quelques années ça risque d'être abandonné :

Citation :


Time for a Change: a Tutorial for Comparing Multiple Classifiers Through Bayesian Analysis (Benavoli et al. 2017)
www.jmlr.org/papers/volume18/16-305/16-305.pdf
 
...
This spread the understanding that the observed results require statistical validation.
On the other hand, NHST so on proved inadequate for many reasons (Demsar, 2008). Noteworthy, the American Statistical Association has recently made a statement against p-values (Wasserstein and Lazar, 2016). NHST nowadays it is also falling out of favour in other fields of science (Trafimow and Marks, 2015). We believe that the field of machine learning is ripe for a change as well.



 
Du coup faut quand même savoir ce que c'est pendant encore quelques années :o


 
Encore des gars qui publient en faisant du p-hacking et qui décident donc de dire que la p-value ne sert  à rien  [:alexandre_alabenne:1]


---------------
Sah Quel Plaisir
n°5084161
Tidom
Posté le 04-02-2019 à 14:10:06  profilanswer
 

Rontgen a écrit :


Mais si tu veux, je peux remplacer la question par une formulation bien plus pratique
"quand je fais des expérience avec deux réseaux de neurones, comment je m'assure qu'il y en a un qui est vraiment meilleur que l'autre ?"


 
Oui, à mon avis aussi, c'est aussi important que la connaissance du fonctionnement interne de divers algorithmes de machine learning.

n°5084162
Tidom
Posté le 04-02-2019 à 14:14:18  profilanswer
 

Voxinat a écrit :


 
Encore des gars qui publient en faisant du p-hacking et qui décident donc de dire que la p-value ne sert  à rien  [:alexandre_alabenne:1]


 

Spoiler :


Notons aussi que parmi les co-auteurs, il y a l'auteur qui a fait la promotion des "statistical tests" pour l'évaluation de performance dans la communauté ML pendant 10 ans : http://www.jmlr.org/papers/v7/demsar06a.html
 
C'est cocace :o

n°5084164
Rontgen
Posté le 04-02-2019 à 14:19:25  profilanswer
 


Ben d'accord mais comment tu fais ca ?
Ton réseau A a une accuracy de 97,3% sur un ensemble de validation et ton réseau B a une accuracy de 97,6%  
Est-ce que tu peux me dire si B est vraiment meilleur que A ?

mood
Publicité
Posté le 04-02-2019 à 14:19:25  profilanswer
 

n°5084165
Voxinat
High Frequency Trolling
Posté le 04-02-2019 à 14:20:44  profilanswer
 

Rontgen a écrit :


Ben d'accord mais comment tu fais ca ?
Ton réseau A a une accuracy de 97,3% sur un ensemble de validation et ton réseau B a une accuracy de 97,6%  
Est-ce que tu peux me dire si B est vraiment meilleur que A ?


 
Facile
 
T'utilises le R²
 
 [:creeping_death:3]


---------------
Sah Quel Plaisir
n°5084167
Rontgen
Posté le 04-02-2019 à 14:23:54  profilanswer
 

Tidom a écrit :


 
Oui, à mon avis aussi, c'est aussi important que la connaissance du fonctionnement interne de divers algorithmes de machine learning.


:jap:
 
Comparer deux expériences, c'est la base de n'importe quelle démarche scientifique
Un mec qui essaye plein d'idées et qui avance pas parce qu'il ne sait pas reconnaitre celles qui sont réellement utiles, ben c'est lui qui est inutile :o

n°5084172
mathsdauph
Posté le 04-02-2019 à 14:39:41  profilanswer
 

Rontgen a écrit :


Ben d'accord mais comment tu fais ca ?
Ton réseau A a une accuracy de 97,3% sur un ensemble de validation et ton réseau B a une accuracy de 97,6%  
Est-ce que tu peux me dire si B est vraiment meilleur que A ?


 
Pas du tout, si jamais ton ensemble de validation est déséquilibré par exemple avec 90% de oui, un algo qui renvoit toujours 'oui' aura 90% de précision
Après y'a la matrice de confusion , et on peut aussi regarder la taille du jeu de validation

Message cité 1 fois
Message édité par mathsdauph le 04-02-2019 à 14:40:38

---------------
Licence Maths-> ENSAE -> ??
n°5084173
o_BlastaaM​oof_o
Posté le 04-02-2019 à 14:40:32  profilanswer
 

Rontgen a écrit :


Ben d'accord mais comment tu fais ca ?
Ton réseau A a une accuracy de 97,3% sur un ensemble de validation et ton réseau B a une accuracy de 97,6%  
Est-ce que tu peux me dire si B est vraiment meilleur que A ?


Et ca veut dire quoi, "vraiment meilleur" au juste ?

n°5084176
Rontgen
Posté le 04-02-2019 à 15:04:45  profilanswer
 

mathsdauph a écrit :


Pas du tout, si jamais ton ensemble de validation est déséquilibré par exemple avec 90% de oui, un algo qui renvoit toujours 'oui' aura 90% de précision
Après y'a la matrice de confusion , et on peut aussi regarder la taille du jeu de validation


Non mais d'accord, si ton validation set a pas la même distribution que le training set, ton expérience est à jeter de toute facon...

n°5084179
bogoss91
Posté le 04-02-2019 à 15:29:26  profilanswer
 

Vous croyez que ca compte tout ca ?
Le plus important c'est comment en mettre plein la vue aux investisseurs pour qu'ils lachent x0 milions dans votre start-up de 7 personnes.  [:ge haussmann:1]

n°5084185
Rontgen
Posté le 04-02-2019 à 16:06:00  profilanswer
 

bogoss91 a écrit :

Vous croyez que ca compte tout ca ?
Le plus important c'est comment en mettre plein la vue aux investisseurs pour qu'ils lachent x0 milions dans votre start-up de 7 personnes.  [:ge haussmann:1]


Certains de mes clients sont justement ces start-ups qui doivent délivrer les résultats qu'elles ont promis :o
Du coup, indirectement, je prends les thunes des investisseurs sans le risque  [:cosmoschtroumpf]

n°5084188
Voxinat
High Frequency Trolling
Posté le 04-02-2019 à 16:24:20  profilanswer
 

bogoss91 a écrit :

Vous croyez que ca compte tout ca ?
Le plus important c'est comment en mettre plein la vue aux investisseurs pour qu'ils lachent x0 milions dans votre start-up de 7 personnes.  [:ge haussmann:1]


+1 Putain  [:atom1ck]  
 
Les vrais ML ENGINEERS utilisent le même set pour le train et le forecast bordel [:vidadoe:7]  
 
Et pendant ce temps-là les néandertaliens en COGIP te vendent ces INNOVATIONS DISRUPTIVES à 200M€ comme étant "structurant pour l'entreprise"  [:catalonix:10]
 
De toute façon c'est pas Frédéric Oudéa qui viendra foutre le nez dans ton code  [:somberlain24:8]


Message édité par Voxinat le 04-02-2019 à 16:25:04

---------------
Sah Quel Plaisir
n°5084191
Tidom
Posté le 04-02-2019 à 17:11:16  profilanswer
 

bogoss91 a écrit :

Vous croyez que ca compte tout ca ?
Le plus important c'est comment en mettre plein la vue aux investisseurs pour qu'ils lachent x0 milions dans votre start-up de 7 personnes.  [:ge haussmann:1]


 
Oué ben c'est pour ça que ça avance pas dans le bon sens :o

Spoiler :

putain y a de la thune à se faire là non ?!  [:atom1ck]  

n°5084197
Rasthor
Posté le 04-02-2019 à 19:49:09  profilanswer
 

Rontgen a écrit :


Ben d'accord mais comment tu fais ca ?
Ton réseau A a une accuracy de 97,3% sur un ensemble de validation et ton réseau B a une accuracy de 97,6%  
Est-ce que tu peux me dire si B est vraiment meilleur que A ?


Ce ne serait pas l'occasion d'utiliser de faire des "ROC curve" et de calculer les "Matthews correlation coefficient"?

n°5084219
Bébé Yoda
Posté le 05-02-2019 à 12:17:38  profilanswer
 

Bonne chance :)
Tiens nous au courant

n°5084723
nefast
Posté le 11-02-2019 à 13:26:43  profilanswer
 


Je suis entrain de découvrir le deep learning pour essayer de remplacer des algos maisons de détection de défauts (saleté/rayure) par des choses plus répétables et performantes.
Au début je ne pensais même pas m'intéresser au machine learning mais j'ai vu des solutions commerciales (chères) proposer ça.
Est-ce le bon topic pour en parler ? Certains on de l'expérience avec ces softs de vision (Cognex, Halcon, etc.), ont-elles réellement un avantage par rapport aux SDK open-source ?


Message édité par nefast le 11-05-2019 à 10:39:05
n°5084724
haowanr
Posté le 11-02-2019 à 13:30:41  profilanswer
 

après midi sur les mathématiques de l'intelligence artificielle :  
https://www.math.u-psud.fr/Maths-IA/

n°5084728
Rasthor
Posté le 11-02-2019 à 14:06:26  profilanswer
 

Open Machine Learning Course mlcourse.ai:
https://mlcourse.ai/
 
 

n°5085506
mathsdauph
Posté le 18-02-2019 à 21:55:16  profilanswer
 

Salut, est-ce que quelqu'un ici connaitrait les languages de programmation utilisés dans les 3 masters principaux de Data Science ( Disons MVA, StatML et DS Paris Saclay). C'est plutôt python ou R pour ces masters?


Message édité par mathsdauph le 18-02-2019 à 21:55:35

---------------
Licence Maths-> ENSAE -> ??
n°5085508
mathsdauph
Posté le 18-02-2019 à 21:58:17  profilanswer
 

T'es où j'ai la flemme de scroll ? :)


---------------
Licence Maths-> ENSAE -> ??
n°5085510
mathsdauph
Posté le 18-02-2019 à 22:04:29  profilanswer
 

Python <3, j'attends les réponses pour les autres :)


---------------
Licence Maths-> ENSAE -> ??
n°5085515
Alicanto
アリカント
Posté le 18-02-2019 à 22:41:02  profilanswer
 

Pour le MVA, c'est full python, bien souvent des notebooks (que je commence à détester, tous les dms sont des notebooks...)

 

On a même une matière où on doit faire du machine learning mais on a le droit à aucun autre package que numpy :o

 

Des connaissances en R ou MATLAB peuvent être utiles dans certains, mais en ce qui me concerne, j'en ai pas eu besoin.

mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  51  52  53  ..  129  130  131  132  133  134

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR