Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
3005 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  11  12  13  ..  128  129  130  131  132  133
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5001236
Rontgen
Posté le 18-07-2017 à 10:09:12  profilanswer
 

Reprise du message précédent :
Nouveau sondage  [:hurle]

mood
Publicité
Posté le 18-07-2017 à 10:09:12  profilanswer
 

n°5001237
Tidom
Posté le 18-07-2017 à 10:10:37  profilanswer
 

Le topic Macron vous a recommandé  
Je viens voir ... Et direct ca parle de NIPS et ICML ... Nomeho faut se calmer :o
 
Bonjour :)

n°5001239
Rontgen
Posté le 18-07-2017 à 10:17:03  profilanswer
 

Tidom a écrit :

Le topic Macron vous a recommandé  
Je viens voir ... Et direct ca parle de NIPS et ICML ... Nomeho faut se calmer :o
 
Bonjour :)


On est sur HFR quand même, on a un certain standing [:julm3]
 
D'ailleurs, y'a des gens ici qui vont à des confs genre NIPS cette année ?

Message cité 2 fois
Message édité par Rontgen le 18-07-2017 à 10:21:42
n°5001240
Profil sup​primé
Posté le 18-07-2017 à 10:18:29  answer
 

drap

n°5001242
Tidom
Posté le 18-07-2017 à 10:21:30  profilanswer
 

Rontgen a écrit :


On est sur HFR quand même, on a un certain standing [:julm3]


 
Sinon je ne sais pas si ca rentre dans une des catégories de ta FP, mais y a aussi au moins 2 sites de challenges data science :
Datascience.net
Kaggle.com (y a même des tuto pour manier les librairies comme scikit learn)

n°5001245
Rontgen
Posté le 18-07-2017 à 10:25:28  profilanswer
 

Tidom a écrit :


Sinon je ne sais pas si ca rentre dans une des catégories de ta FP, mais y a aussi au moins 2 sites de challenges data science :
Datascience.net
Kaggle.com (y a même des tuto pour manier les librairies comme scikit learn)


Y'avait deja Kaggle dans la section 4 mais j'ai rajouté Datascience.net, merci :jap:
Par contre j'ai l'impression que tous leurs challenges sont terminés, il est encore vivant le site ?

n°5001248
Tidom
Posté le 18-07-2017 à 10:40:31  profilanswer
 

Y a moins de challenges sur datascience effectivement (1 ou 2 par an) mais il est encore vivant oui
Et c'est français :)


Message édité par Tidom le 18-07-2017 à 10:41:09
n°5001265
Bébé Yoda
Posté le 18-07-2017 à 11:13:59  profilanswer
 

Hello,

 

Je viens de passer beaucoup (trop) de temps sur le challenge house prices sur kaggle.
Mon meilleur score est 0.125 environ.
J'arrive plus à l'améliorer, et j'ai même tellement rajouté de trucs que je score de moins en moins bien, je me demande si j'overfit pas à force de tuner les modèles ou bien si je fais pas n'importe quoi dans la préparation de mes données. Ou alors je complexifie trop les modèles. Dernièrement j'ai essayé de combiner 5 regressors mais ça n'a pas l'air d'être une bonne idée...

 

Vous l'avez déjà fait ? Vous avez des conseils ?

 

J'ai posté ma solution sur mon blog mais pas la meilleure version, je vais essayer cet après midi. Si jamais ça vous intéresse je vous donne le lien en mp.
C'est une petite vitrine pour les recruteurs et pour m'obliger à rédiger et poser mes idées (bon exercice de synthèse).

 

J'en profite pour poser une question de noob.  Supposons que le prix de vente évolue avec le carré de la surface. Quand j'utilise elasticnet il ne fait en réalité qu'une régression linéaire ? Et du coup pour améliorer le fit sur ce paramètre, est-ce que j'aurais pas intérêt à faire un preprocessing polynomial ? (i.e. je créé des colonnes en plus avec des ordres supérieurs ? )

n°5001280
Rontgen
Posté le 18-07-2017 à 11:33:14  profilanswer
 

Bébé Yoda a écrit :


Je viens de passer beaucoup (trop) de temps sur le challenge house prices sur kaggle.
Vous l'avez déjà fait ? Vous avez des conseils ?


Nope désolé

Bébé Yoda a écrit :


Dernièrement j'ai essayé de combiner 5 regressors mais ça n'a pas l'air d'être une bonne idée...


Ca veut dire quoi pas une bonne idée ? Tu as des résultats pires ou équivalents à une seule méthode ?
Généralement, "faire des ensembles" (= entrainer différents modèles et moyenner leur prédiction) ne peut faire que du bien en terme de précision.
Par contre pour que ca ait une utilité par rapport à un seul modèle, il faut que ceux-ci soient un tant soit peu décorrélés: ils deviennent alors des estimateurs un peu indépendants, et leur moyenne sera donc plus précise.
Pour décorréler des modèles, tu peux par exemple les entrainer sur des sous-ensembles d'apprentissages légèrement différents (par exemple tu tires au hasard 60% de ton ensemble complet), ou alors avec un sous-ensemble de features. C'est ce qu'on appelle faire du "bagging" (bootstrap aggregating).
 

Bébé Yoda a écrit :


J'en profite pour poser une question de noob.  Supposons que le prix de vente évolue avec le carré de la surface. Quand j'utilise elasticnet il ne fait en réalité qu'une régression linéaire ? Et du coup pour améliorer le fit sur ce paramètre, est-ce que j'aurais pas intérêt à faire un preprocessing polynomial ? (i.e. je créé des colonnes en plus avec des ordres supérieurs ? )


Tout à fait, elasticnet ne fait que du linéaire donc dans le cas que tu décris, tu devrais ajouter la surface au carré comme feature :jap:


Message édité par Rontgen le 18-07-2017 à 11:34:07
n°5001303
Bébé Yoda
Posté le 18-07-2017 à 12:19:06  profilanswer
 

Merci :)
Quand je dis mauvaise idée c'est que le score est moins bon, mais je m'y suis mal pris j'ai pas bien noté du coup c'est peut-être juste mon pre processing des données qui est pas bon (j'ai changé pas mal de trucs, testé du boxcox etc) je me suis mêlé les pinceaux je pense.

 

Je vais regarder pour ma sélection de modèles. Par exemple j'ai mélangé un adaboost et un gboost, j'imagine qu'ils font un peu la même chose et que c'est pas la peine.
Pour la sélection de paramètres, j'ai éliminé des trucs manuellement (genre si j'ai 95% de missing values), pour le reste j'ai essayé de faire d'abord un lasso avec un alpha pas trop élevé puis d'injecter les paramètres qu'il a conservé dans les autres modèles. J'ai gagné un peu mais pas énormément, je me demande si efficace ou juste dû au hasard.
Ma procédure consiste bien à faire une moyenne de prédilections.

mood
Publicité
Posté le 18-07-2017 à 12:19:06  profilanswer
 

n°5001314
Tidom
Posté le 18-07-2017 à 13:05:27  profilanswer
 

Bébé Yoda a écrit :

Merci :)
Quand je dis mauvaise idée c'est que le score est moins bon, mais je m'y suis mal pris j'ai pas bien noté du coup c'est peut-être juste mon pre processing des données qui est pas bon (j'ai changé pas mal de trucs, testé du boxcox etc) je me suis mêlé les pinceaux je pense.

 

Je vais regarder pour ma sélection de modèles. Par exemple j'ai mélangé un adaboost et un gboost, j'imagine qu'ils font un peu la même chose et que c'est pas la peine.
Pour la sélection de paramètres, j'ai éliminé des trucs manuellement (genre si j'ai 95% de missing values), pour le reste j'ai essayé de faire d'abord un lasso avec un alpha pas trop élevé puis d'injecter les paramètres qu'il a conservé dans les autres modèles. J'ai gagné un peu mais pas énormément, je me demande si efficace ou juste dû au hasard.
Ma procédure consiste bien à faire une moyenne de prédilections.

 

Pour les pré-traitements des valeurs manquantes, il y a aussi les possibilités suivantes :
Pour les variables catégorielles (genre : bleu, vert, rouge) : on peut considérer la valeur manquante comme une nouvelle catégorie, ainsi on a bleu, vert, rouge et manquante.
Pour les variables numériques (e.g., dans R) : on peut considérer la valeur manquante comme un extremum (+/- inf ou la plus/moins grande valeur du domaine de définition de la variable)
Ainsi, on n'élimine pas d'office ces variables, des fois qu'il y aurait un peu d'information prédictive dedans (même avec 95% de MV), l'algo de classification supervisée ou de régression ou de sélection de variables s'en chargera. Et puis ça permet de faire des pré-traitements classiques du type discrétisation / groupement de valeurs selon le type de variables sans que le problème de valeurs manquantes se pose.

 

D'une manière générale, une des difficultés des challenges Kaggle (outre le fait que ça se joue au pouillème comme face à des poulpes coréens sur Starcraft), c'est le "data shift" :
En effet, il arrive souvent que la distribution des données (variables) en apprentissage (là où tu crées ton modèle) et en test (pour ton classement au leaderboard) soit significativement différente.
Ce qu'il est bon de faire c'est de détecter ces variables qui vont dégrader la performance de ton modèle en test (alors que tu ne le vois pas en apprentissage ... et pourtant ce n'est pas exactement du sur-apprentissage mais passons).
Une méthode pour détecter ces variables est par exemple la suivante :
Tu prends tes deux bases, apprentissage (bdtrain) et test (bdtest).
Tu enlèves la variable à prédire (classe ou numérique si régression) de la base d'apprentissage. Tu as donc deux bases sans variable à prédire.
Tu étiquettes chaque objet de la bdtrain avec un label de classe disons t1, tu étiquettes chaque objet de la bdtest avec un label de classe disons t2.
Tu n'en fais qu'une seule BD. Tu as donc une seule BD à deux classes (T={t1, t2}). C'est comme un problème de classification supervisée classique.
Tu fais une étude univariée supervisée de ce nouveau problème. En gros tu regardes avec ta méthode/indice préférés la corrélation entre chaque variable et la nouvelle variable classe T.
Si elles existent, ces variables Vbad qui présentent une "forte corrélation" avec T sont "dangereuses" pour le problème de départ puisqu'elles présentent un "shift" entre la BDtrain et la BDtest. Souvent une élimination brutale des variables Vbad permet déjà de gagner quelques pouillèmes dans le leaderboard. S'il est possible de pondérer les variables dans l'algo de classif/régression qu'on utilise alors on peut pondérer les Vbad en conséquence... Bien sûr il est possible de faire cette même étude en version multivariée pour détecter des groupes de variables à éviter d'utiliser ensemble, ou encore d'adapter la prodécure à l'ago de classif/régression sous-jacent ... mais souvent la complexité nous guette :/

 

Si tu es intéressé je peux t'envoyer en MP un doc qui décrit ce procédé sur un challenge (pas Kaggle mais c'est pareil)

Message cité 3 fois
Message édité par Tidom le 18-07-2017 à 13:09:14
n°5001320
Rontgen
Posté le 18-07-2017 à 13:56:34  profilanswer
 

Tidom a écrit :


Une méthode pour détecter ces variables est par exemple la suivante :  
[...]


Intéressant comme test, mais si j'ai bien compris, ca me parait quand meme dangereux [:transparency]
Il me semble que l'expérience que tu proposes vise essentiellement à vérifier que les ensembles d'apprentissage et de test sont bien de la même distribution globalement. Or ce qui est vraiment important, c'est de savoir s'ils sont de la même distribution, conditionné par la variable à apprendre.
Fondamentalement, c'est pas top mais c'est pas si grave que ca que des features n'aient pas exactement la même distribution, tant qu'ils ont le même effet par rapport à la variable à apprendre (alors certes, si tu multiplies la valeur d'une feature par 100 entre les deux ensembles et que tu utilises un modèle linéaire, ca va péter, mais bon là c'est juste que tes données sont pourries).
En fait, je ne vois pas pourquoi le fait qu'une feature corrèle avec ta variable T signifie qu'elle est nocive pour le problème à résoudre.
 
Enfin ca reste quand même utile à faire comme test, mais je pense qu'il faut faire attention avec les conclusions qu'on en tire :jap:

Message cité 1 fois
Message édité par Rontgen le 18-07-2017 à 13:56:44
n°5001326
Tidom
Posté le 18-07-2017 à 14:23:44  profilanswer
 

Rontgen a écrit :


Intéressant comme test, mais si j'ai bien compris, ca me parait quand meme dangereux [:transparency]
Il me semble que l'expérience que tu proposes vise essentiellement à vérifier que les ensembles d'apprentissage et de test sont bien de la même distribution globalement. Or ce qui est vraiment important, c'est de savoir s'ils sont de la même distribution, conditionné par la variable à apprendre.
Fondamentalement, c'est pas top mais c'est pas si grave que ca que des features n'aient pas exactement la même distribution, tant qu'ils ont le même effet par rapport à la variable à apprendre (alors certes, si tu multiplies la valeur d'une feature par 100 entre les deux ensembles et que tu utilises un modèle linéaire, ca va péter, mais bon là c'est juste que tes données sont pourries).


 
Oui, désolé, j'ai écrit d'un trait ... :o
C'est bien sûr conditionnellement à la variable à apprendre.
 

Rontgen a écrit :


En fait, je ne vois pas pourquoi le fait qu'une feature corrèle avec ta variable T signifie qu'elle est nocive pour le problème à résoudre.

Enfin ca reste quand même utile à faire comme test, mais je pense qu'il faut faire attention avec les conclusions qu'on en tire :jap:


 
 
L'idée dans la procédure est de dire que si, dans le problème formulé avec T={t1,t2}, une variable X est "fortement" corrélée avec T alors c'est comme si on pouvait faire de la "bonne prédiction" de T avec X. Comme T n'a que deux valeurs (t1, t2 qui correspondent en fait à l'identification/appartenance des objets à bdtrain et bdtest), ça veut dire que les valeurs t1 et t2 sont bien caractérisées ("discriminées", prédites) par les valeurs de X, donc que X a des valeurs significativement différentes selon si on est dans bdtrain ou bdtest : du coup il faut faire attention à leur utilisation dans un modèle prédictif qu'on apprend sur bdtrain puisque lorsque l'on testera sur bdtest, les valeurs de X ne seront pas issues de la "même distribution".
 
Mais j'explique mieux quand j'ai un tableau devant moi promis  [:laroa]  
 
Désolé pour le Frenglish (je ne sais pas parler français dans ce domaine :o)

n°5001329
Bébé Yoda
Posté le 18-07-2017 à 14:30:35  profilanswer
 

J'étais tombé sur un article hier qui parlait de ce problème par là : http://bit.ly/2uEdyZJ
J'ai pas encore eu le temps de le creuser, je vais essayer de regarder tout ça.
Je me demande même s'ils ne font pas exprès sur Kaggle ;)
 
Sinon, ça vous semble pertinent comme moyen d'apprendre le job, de faire ce genre d'exercice ? Ou bien je devrais retourner sur du mooc ? (les deux ?)

n°5001330
blixow
Posté le 18-07-2017 à 14:31:18  profilanswer
 

Tidom a écrit :


 
Oui, désolé, j'ai écrit d'un trait ... :o
C'est bien sûr conditionnellement à la variable à apprendre.
 


 

Tidom a écrit :


 
 
L'idée dans la procédure est de dire que si, dans le problème formulé avec T={t1,t2}, une variable X est "fortement" corrélée avec T alors c'est comme si on pouvait faire de la "bonne prédiction" de T avec X. Comme T n'a que deux valeurs (t1, t2 qui correspondent en fait à l'identification/appartenance des objets à bdtrain et bdtest), ça veut dire que les valeurs t1 et t2 sont bien caractérisées ("discriminées", prédites) par les valeurs de X, donc que X a des valeurs significativement différentes selon si on est dans bdtrain ou bdtest : du coup il faut faire attention à leur utilisation dans un modèle prédictif qu'on apprend sur bdtrain puisque lorsque l'on testera sur bdtest, les valeurs de X ne seront pas issues de la "même distribution".
 
Mais j'explique mieux quand j'ai un tableau devant moi promis  [:laroa]  
 
Désolé pour le Frenglish (je ne sais pas parler français dans ce domaine :o)


 
 
T'es prof ?

n°5001332
Tidom
Posté le 18-07-2017 à 14:33:32  profilanswer
 

Ce cas de shift arrive par exemple dans les problèmes de scoring clients (e.g., détection de churn dans les télécoms) : ou on apprend sur un mois m1 pour prédire au mois m2 (où les données présentent souvent un léger shift)

n°5001338
Tidom
Posté le 18-07-2017 à 14:41:45  profilanswer
 

Bébé Yoda a écrit :

J'étais tombé sur un article hier qui parlait de ce problème par là : http://bit.ly/2uEdyZJ
J'ai pas encore eu le temps de le creuser, je vais essayer de regarder tout ça.
Je me demande même s'ils ne font pas exprès sur Kaggle ;)
 
Sinon, ça vous semble pertinent comme moyen d'apprendre le job, de faire ce genre d'exercice ? Ou bien je devrais retourner sur du mooc ? (les deux ?)


 
Ah ben voilà c'est tout de suite plus clair avec des dessins (en plus ça parle des différents types de shift)
 
Sinon pour le job : ça dépend lequel tu vises ?
 

blixow a écrit :


 
 
T'es prof ?


 
Je ne répondrai pas à cette question :o
Disons que c'est mon domaine de recherche (pas le data shift mais d'autres parties du data mining)

n°5001347
Bébé Yoda
Posté le 18-07-2017 à 15:16:46  profilanswer
 

Tidom a écrit :


 
Ah ben voilà c'est tout de suite plus clair avec des dessins (en plus ça parle des différents types de shift)
 
Sinon pour le job : ça dépend lequel tu vises ?
 


En fait je viserais bien un job dans lequel j'ai une chance d'être embauché à vrai dire :D
 
A la base je suis physicien, plutôt expérimental/instrumentation j'ai fait pas mal d'analyses de données bien entendu (quotidiennement je dirais) pendant presque 15 ans. Pas mal de simulation, et du code scientifique (mais il y a très longtemps).
Niveau maths, comme je suis resté un moment sans vraiment pratiquer, je suis plus vraiment au niveau. Par exemple, si je dois faire de zéro un modèle à implémenter tout seul je vais vraiment galérer (à la limite s'il s'agit d'implémenter un truc vu dans un papier c'est peut-être jouable mais pas facile).
Du coup je sais pas vraiment où me situer, vu que je connais mal le milieu.
Je m'amuse bien sur mes compétitions kaggle, je peux passer des journées entières à tester des modèles et essayer d'améliorer mon code, mon score mais j'utilise uniquement les librairies toutes prêtes chez scikit-learn.
 
Bref, même si ça fait plus d'un an que j'ai commencé à bosser sérieusement tout ça, ça reste assez nouveau pour moi et donc je reste intéressé par n'importe quoi :)
Pour démarrer, data scientist """standard""" ça m'irait bien le temps de finir de monter en compétences, mais ça fait peur aux recruteurs :/

n°5001348
coucourist​e
Posté le 18-07-2017 à 15:18:09  profilanswer
 

drap

n°5001357
o_BlastaaM​oof_o
Posté le 18-07-2017 à 16:32:01  profilanswer
 

Bébé Yoda a écrit :


En fait je viserais bien un job dans lequel j'ai une chance d'être embauché à vrai dire :D
 
A la base je suis physicien, plutôt expérimental/instrumentation j'ai fait pas mal d'analyses de données bien entendu (quotidiennement je dirais) pendant presque 15 ans. Pas mal de simulation, et du code scientifique (mais il y a très longtemps).
Niveau maths, comme je suis resté un moment sans vraiment pratiquer, je suis plus vraiment au niveau. Par exemple, si je dois faire de zéro un modèle à implémenter tout seul je vais vraiment galérer (à la limite s'il s'agit d'implémenter un truc vu dans un papier c'est peut-être jouable mais pas facile).
Du coup je sais pas vraiment où me situer, vu que je connais mal le milieu.
Je m'amuse bien sur mes compétitions kaggle, je peux passer des journées entières à tester des modèles et essayer d'améliorer mon code, mon score mais j'utilise uniquement les librairies toutes prêtes chez scikit-learn.
 
Bref, même si ça fait plus d'un an que j'ai commencé à bosser sérieusement tout ça, ça reste assez nouveau pour moi et donc je reste intéressé par n'importe quoi :)
Pour démarrer, data scientist """standard""" ça m'irait bien le temps de finir de monter en compétences, mais ça fait peur aux recruteurs :/


Personne n'implémente ses propres modèles...

n°5001358
Darmstadti​um
Pipoteur grotesque
Posté le 18-07-2017 à 16:56:56  profilanswer
 

o_BlastaaMoof_o a écrit :


Personne n'implémente ses propres modèles...


Pas en data science non, mais en R&D et notamment en start-up ca se fait


---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets
n°5001372
Bébé Yoda
Posté le 18-07-2017 à 17:38:01  profilanswer
 

Darmstadtium a écrit :


Pas en data science non, mais en R&D et notamment en start-up ca se fait

 

Ça m'irait bien de pas avoir à en faire, j'ai pas un doctorat dans le domaine à vrai dire :)

n°5001374
Rontgen
Posté le 18-07-2017 à 17:55:24  profilanswer
 

C'est surtout qu'il y a une différence entre être capable de réimplémenter un modèle et le faire réellement.
Peu de personnes le font effectivement (sauf dans des contextes très innovants genre labo R&D), mais maitriser les maths qu'il y a derrière (et en particulier savoir théoriquement le réimplémenter) me parait très important pour comprendre et utiliser le mieux possible un outil disponible.

n°5001376
Bébé Yoda
Posté le 18-07-2017 à 18:10:56  profilanswer
 

A chaque entretien que j'ai passé j'ai posé la question, on m'a invariablement répondu la même chose : à savoir qu'ils utilisent des librairies toutes prêtes (scikit learn en général) mais que de temps en temps pour certains problèmes ils ont besoin d'implémenter des trucs eux-mêmes (mais peut-être qu'ils se font mousser un peu et qu'ils le font en réalité jamais)

n°5001387
fusion_sad​am
:D
Posté le 18-07-2017 à 18:50:33  profilanswer
 

Bébé Yoda a écrit :

A chaque entretien que j'ai passé j'ai posé la question, on m'a invariablement répondu la même chose : à savoir qu'ils utilisent des librairies toutes prêtes (scikit learn en général) mais que de temps en temps pour certains problèmes ils ont besoin d'implémenter des trucs eux-mêmes (mais peut-être qu'ils se font mousser un peu et qu'ils le font en réalité jamais)


 
:hello:  
Faut voir aussi qu'une librairie comme SciKit est relativement récente, et qu'il y'a pas si longtemps des outils style pipeline, crossvalidation, preprocessing  étaient vraiment à la traîne ou inexistant.  Et sur les algo il manquait des fonctionnalités basique genre une prédiction en proba... Mais devoir toucher au coeur de l'algo ou implémenter un algo c'est vraiment du très spécifique (matériel exotique, grosse contrainte mémoire/vitesse ...)
 

Darmstadtium a écrit :


Pas en data science non, mais en R&D et notamment en start-up ca se fait


 
Oui mais c'est juste pour toucher les subventions, ça passe pas en prod :o :o
 


---------------
On sait pas trop quoi dire dans des circonstances pareilles...
n°5001407
Tidom
Posté le 18-07-2017 à 20:00:30  profilanswer
 

Bébé Yoda a écrit :

A chaque entretien que j'ai passé j'ai posé la question, on m'a invariablement répondu la même chose : à savoir qu'ils utilisent des librairies toutes prêtes (scikit learn en général) mais que de temps en temps pour certains problèmes ils ont besoin d'implémenter des trucs eux-mêmes (mais peut-être qu'ils se font mousser un peu et qu'ils le font en réalité jamais)

 

Si tu ne bosses pas en ce moment, Une autre solution serait peut être de trouver un master en alternance ?
Bien-sûr faut trouver l'entreprise d'abord et la convaincre ... Apres la fac associée sera convaincue
Ça peut être un bon plan si tu es en réorientation : tu aurais la formation et l'expérience pro en même temps et un peu de sous aussi


Message édité par Tidom le 18-07-2017 à 20:01:14
n°5001436
hiken91
Posté le 18-07-2017 à 23:26:44  profilanswer
 

Bonsoir,
 
J'ai validé mon L2 math et je suis pris à supelec et à l'isup.  
 
Pour devenir data scientist, vous me conseilleriez quoi pleas?  
 
Supelec +éventuellement un double diplôme peut-être galère à choper vue que j'ai pas fais de physique il est clair que je vais râmer un peu.  
Ou Isup filière actuaire + une petite formation en plus pour acquérir d'éventuelles compétences non acquises avat car inutiles pour un actuaire.  
 
Dans les précédent message j'ai vu (à l'instant) que les supelec s'en sortent bien, mais savez-vous quelle majeure ont-ils suivis ou quel DD svp?  
 
 
Cordialement,

n°5001438
-Meringue-
Posté le 18-07-2017 à 23:39:52  profilanswer
 

Tidom a écrit :


Si tu es intéressé je peux t'envoyer en MP un doc qui décrit ce procédé sur un challenge (pas Kaggle mais c'est pareil)


 
Intéressé par le doc en MP si possible  :jap:  

n°5001443
marioto
Posté le 19-07-2017 à 00:19:43  profilanswer
 

Quid de la formation de Telecom SudParis ? Vous avez un avis sur leur master TRIED qui s'effectue à l'Université Paris Saclay ? https://www.universite-paris-saclay [...] ntation-m2
 
Et le master mash de dauphine n'est-il pas trop orienté finance/économie ?

n°5001445
Bébé Yoda
Posté le 19-07-2017 à 01:33:16  profilanswer
 

Tidom a écrit :

 

Pour les pré-traitements des valeurs manquantes, il y a aussi les possibilités suivantes :
Pour les variables catégorielles (genre : bleu, vert, rouge) : on peut considérer la valeur manquante comme une nouvelle catégorie, ainsi on a bleu, vert, rouge et manquante.
Pour les variables numériques (e.g., dans R) : on peut considérer la valeur manquante comme un extremum (+/- inf ou la plus/moins grande valeur du domaine de définition de la variable)
Ainsi, on n'élimine pas d'office ces variables, des fois qu'il y aurait un peu d'information prédictive dedans (même avec 95% de MV), l'algo de classification supervisée ou de régression ou de sélection de variables s'en chargera. Et puis ça permet de faire des pré-traitements classiques du type discrétisation / groupement de valeurs selon le type de variables sans que le problème de valeurs manquantes se pose.

 

D'une manière générale, une des difficultés des challenges Kaggle (outre le fait que ça se joue au pouillème comme face à des poulpes coréens sur Starcraft), c'est le "data shift" :
En effet, il arrive souvent que la distribution des données (variables) en apprentissage (là où tu crées ton modèle) et en test (pour ton classement au leaderboard) soit significativement différente.
Ce qu'il est bon de faire c'est de détecter ces variables qui vont dégrader la performance de ton modèle en test (alors que tu ne le vois pas en apprentissage ... et pourtant ce n'est pas exactement du sur-apprentissage mais passons).
Une méthode pour détecter ces variables est par exemple la suivante :
Tu prends tes deux bases, apprentissage (bdtrain) et test (bdtest).
Tu enlèves la variable à prédire (classe ou numérique si régression) de la base d'apprentissage. Tu as donc deux bases sans variable à prédire.
Tu étiquettes chaque objet de la bdtrain avec un label de classe disons t1, tu étiquettes chaque objet de la bdtest avec un label de classe disons t2.
Tu n'en fais qu'une seule BD. Tu as donc une seule BD à deux classes (T={t1, t2}). C'est comme un problème de classification supervisée classique.
Tu fais une étude univariée supervisée de ce nouveau problème. En gros tu regardes avec ta méthode/indice préférés la corrélation entre chaque variable et la nouvelle variable classe T.
Si elles existent, ces variables Vbad qui présentent une "forte corrélation" avec T sont "dangereuses" pour le problème de départ puisqu'elles présentent un "shift" entre la BDtrain et la BDtest. Souvent une élimination brutale des variables Vbad permet déjà de gagner quelques pouillèmes dans le leaderboard. S'il est possible de pondérer les variables dans l'algo de classif/régression qu'on utilise alors on peut pondérer les Vbad en conséquence... Bien sûr il est possible de faire cette même étude en version multivariée pour détecter des groupes de variables à éviter d'utiliser ensemble, ou encore d'adapter la prodécure à l'ago de classif/régression sous-jacent ... mais souvent la complexité nous guette :/

 

Si tu es intéressé je peux t'envoyer en MP un doc qui décrit ce procédé sur un challenge (pas Kaggle mais c'est pareil)

 

Sinon j'ai oublié mais je veux bien le document ;)

n°5001446
Darmstadti​um
Pipoteur grotesque
Posté le 19-07-2017 à 01:46:27  profilanswer
 

Le doc m'intéresse aussi :jap:


---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets
n°5001447
Darmstadti​um
Pipoteur grotesque
Posté le 19-07-2017 à 01:53:31  profilanswer
 

Rontgen a écrit :

D'ailleurs, y'a des gens ici qui vont à des confs genre NIPS cette année ?


Ça dépend si on me paye l'inscription et le voyage :o Donc en gros de quand je commence ma thèse :D

fusion_sadam a écrit :

Oui mais c'est juste pour toucher les subventions, ça passe pas en prod :o :o


Oui et non :o Si ton équipe de R&D développe un truc tout neuf (encore mieux : avec certaines contraintes) elle fournira d'abord un prototype qui sera ensuite implémenté de manière robuste etc en production. Dans beaucoup de cas des lib existantes vont intervenir pour au moins une étape, mais par exemple là où je suis actuellement le modèle au coeur du produit a été implémenté avec rien de plus à la base que BLAS/CUBLAS :o Pas de contrainte matérielle spéciale, mais une volonté d'avoir le code le plus rapide possible et d'utiliser un algo d'optimisation pas répandu (une variante d'un truc connu en fait).


---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets
n°5001486
o_BlastaaM​oof_o
Posté le 19-07-2017 à 11:00:28  profilanswer
 

Bébé Yoda a écrit :

A chaque entretien que j'ai passé j'ai posé la question, on m'a invariablement répondu la même chose : à savoir qu'ils utilisent des librairies toutes prêtes (scikit learn en général) mais que de temps en temps pour certains problèmes ils ont besoin d'implémenter des trucs eux-mêmes (mais peut-être qu'ils se font mousser un peu et qu'ils le font en réalité jamais)


Bullshit. Tout le monde implémente des "trucs" mais jamais un modèle complet. Personne ne va se coltiner l'implémentation d'un algo de RF ou de réseau de neurones par exemple. Et heureusement ! Si un data scientist me sort ça en entretien, ce sera clairement défavorable pour lui. J'ai besoin de data scientists qui font avancer des sujets concrets, pas de types qui réinventent la roue pour la beauté du geste.

n°5001490
o_BlastaaM​oof_o
Posté le 19-07-2017 à 11:05:05  profilanswer
 

Darmstadtium a écrit :


Oui et non :o Si ton équipe de R&D développe un truc tout neuf (encore mieux : avec certaines contraintes) elle fournira d'abord un prototype qui sera ensuite implémenté de manière robuste etc en production. Dans beaucoup de cas des lib existantes vont intervenir pour au moins une étape, mais par exemple là où je suis actuellement le modèle au coeur du produit a été implémenté avec rien de plus à la base que BLAS/CUBLAS :o Pas de contrainte matérielle spéciale, mais une volonté d'avoir le code le plus rapide possible et d'utiliser un algo d'optimisation pas répandu (une variante d'un truc connu en fait).


Je veux bien croire que le côté innovant de la chose nécessite une implémentation spécifique mais là il y a probablement un problème d'outil. Avec un MATLAB typiquement, j'ai du mal à croire qu'il faille aller aussi loin dans les couches basses de l'algorithme et de son implémentation.

n°5001497
Rontgen
Posté le 19-07-2017 à 11:20:35  profilanswer
 

o_BlastaaMoof_o a écrit :


Bullshit. Tout le monde implémente des "trucs" mais jamais un modèle complet. Personne ne va se coltiner l'implémentation d'un algo de RF ou de réseau de neurones par exemple. Et heureusement ! Si un data scientist me sort ça en entretien, ce sera clairement défavorable pour lui. J'ai besoin de data scientists qui font avancer des sujets concrets, pas de types qui réinventent la roue pour la beauté du geste.


Personne n'a parlé de réimplémenter juste pour la beauté du geste, je ne vois pas pourquoi tu dis ca, et je comprends encore moins pourquoi c'est un point négatif pour toi.
Il y a tout simplement des cas ou ce qui est open-source ne suffit pas soit en terme d'interface, de fonctionnalités ou tout simplement d'efficacité.  
 
Mais si tu refuses d'embaucher les gens qui savent faire réimplémenter des algos en cas de nécessite, n'hésite pas à me les envoyer, je te les échange contre les candidats qui "font avancer les choses" en ayant fait un MOOC et deux tutos Python  :o

n°5001512
o_BlastaaM​oof_o
Posté le 19-07-2017 à 11:40:50  profilanswer
 

Rontgen a écrit :


Personne n'a parlé de réimplémenter juste pour la beauté du geste, je ne vois pas pourquoi tu dis ca, et je comprends encore moins pourquoi c'est un point négatif pour toi.
Il y a tout simplement des cas ou ce qui est open-source ne suffit pas soit en terme d'interface, de fonctionnalités ou tout simplement d'efficacité.  
 
Mais si tu refuses d'embaucher les gens qui savent faire réimplémenter des algos en cas de nécessite, n'hésite pas à me les envoyer, je te les échange contre les candidats qui "font avancer les choses" en ayant fait un MOOC et deux tutos Python  :o


Compte tenu de la diversité de l'offre, en open source ou non, je demande vraiment à voir un cas ne pouvant pas être traité par un algorithme "sur étagère".  
Quant à l'efficacité, la grande majorité des data scientists que j'ai rencontrés est tout simplement incapable de produire des implémentations plus efficaces que ce qui existe déjà.

n°5001526
Rontgen
Posté le 19-07-2017 à 11:59:43  profilanswer
 

o_BlastaaMoof_o a écrit :


Compte tenu de la diversité de l'offre, en open source ou non, je demande vraiment à voir un cas ne pouvant pas être traité par un algorithme "sur étagère".  
Quant à l'efficacité, la grande majorité des data scientists que j'ai rencontrés est tout simplement incapable de produire des implémentations plus efficaces que ce qui existe déjà.


Tu as raison dans le sens ou c'est effectivement de plus en plus rare car le nombre de librairies open source a explosé ces derniers temps, mais il y a à peine quelques années, elles étaient beaucoup moins nombreuses et moins bien maintenues.  
 
Mais même aujourd'hui il reste toujours des problèmes (les librairies qui viennent avec 36 dépendances, ou alors qui sont Linux-only). Par exemple, si tu filtres les librairies open source dispo qui doivent etre facilement intégrables en C++, cross-platformes, et optimisées pour pouvoir tourner en temps réel sur des petits CPU, ben il en reste pas des masses :o


Message édité par Rontgen le 19-07-2017 à 12:00:06
n°5001534
Bébé Yoda
Posté le 19-07-2017 à 12:09:59  profilanswer
 

o_BlastaaMoof_o a écrit :


Compte tenu de la diversité de l'offre, en open source ou non, je demande vraiment à voir un cas ne pouvant pas être traité par un algorithme "sur étagère".  
Quant à l'efficacité, la grande majorité des data scientists que j'ai rencontrés est tout simplement incapable de produire des implémentations plus efficaces que ce qui existe déjà.


Bon en fait ça me rassure un peu de lire ça, vu mon niveau, je pense que je suis pas loin de pouvoir bosser quelque part.
 

Citation :

Mais si tu refuses d'embaucher les gens qui savent faire réimplémenter des algos en cas de nécessite, n'hésite pas à me les envoyer, je te les échange contre les candidats qui "font avancer les choses" en ayant fait un MOOC et deux tutos Python  :o
 


Hey, j'ai fait des moocs et des tutos python et je suis sûr que je suis pas si pipo que ça :o

n°5001537
bogoss91
Posté le 19-07-2017 à 12:21:01  profilanswer
 

o_BlastaaMoof_o a écrit :


Bullshit. Tout le monde implémente des "trucs" mais jamais un modèle complet. Personne ne va se coltiner l'implémentation d'un algo de RF ou de réseau de neurones par exemple. Et heureusement ! Si un data scientist me sort ça en entretien, ce sera clairement défavorable pour lui. J'ai besoin de data scientists qui font avancer des sujets concrets, pas de types qui réinventent la roue pour la beauté du geste.


Bah par exemple j'avais du implementer des lookup tables, CTC et NCE en CUDA car il y avait pas de code open source valable pour ca a l'epoque. Et ok de nos jours il y a assez de librairies qui font des reseaux de neurones car c'est un outil commun de nos jours, mais pour la plupart des idees recentes t'as pas de source code disponible.  [:poutrella]

n°5001577
marioto
Posté le 19-07-2017 à 15:12:10  profilanswer
 

marioto a écrit :

Quid de la formation en machine learning de Telecom SudParis ? Vous avez un avis sur leur master TRIED qui s'effectue à l'Université Paris Saclay ? https://www.universite-paris-saclay [...] ntation-m2
 
Et le master mash de dauphine n'est-il pas trop orienté finance/économie ?


 
Ce bide... :'(
C'est sûrement moins intéressant que votre discussion mais quand même :(

n°5001596
Darmstadti​um
Pipoteur grotesque
Posté le 19-07-2017 à 16:12:49  profilanswer
 

Je pense que personne ne connait en fait [:klemton]


---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  11  12  13  ..  128  129  130  131  132  133

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR