[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 11 12 13 .. 128 129 130 131 132 133 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Rontgen

Reprise du message précédent :
Nouveau sondage [:hurle]

Publicité

Tidom

Le topic Macron vous a recommandé
Je viens voir ... Et direct ca parle de NIPS et ICML ... Nomeho faut se calmer

Bonjour

Message cité 1 fois

Rontgen

Tidom a écrit :

Le topic Macron vous a recommandé
Je viens voir ... Et direct ca parle de NIPS et ICML ... Nomeho faut se calmer

Bonjour

On est sur HFR quand même, on a un certain standing [:julm3]

D'ailleurs, y'a des gens ici qui vont à des confs genre NIPS cette année ?

Message cité 2 fois
Message édité par Rontgen le 18-07-2017 à 10:21:42

Profil supprimé

drap

Tidom

Rontgen a écrit :

On est sur HFR quand même, on a un certain standing [:julm3]

Sinon je ne sais pas si ca rentre dans une des catégories de ta FP, mais y a aussi au moins 2 sites de challenges data science :
Datascience.net
Kaggle.com (y a même des tuto pour manier les librairies comme scikit learn)

Message cité 1 fois

Rontgen

Tidom a écrit :

Y'avait deja Kaggle dans la section 4 mais j'ai rajouté Datascience.net, merci :jap:
Par contre j'ai l'impression que tous leurs challenges sont terminés, il est encore vivant le site ?

Tidom

Y a moins de challenges sur datascience effectivement (1 ou 2 par an) mais il est encore vivant oui
Et c'est français

Message édité par Tidom le 18-07-2017 à 10:41:09

Bébé Yoda

Hello,

Je viens de passer beaucoup (trop) de temps sur le challenge house prices sur kaggle.
Mon meilleur score est 0.125 environ.
J'arrive plus à l'améliorer, et j'ai même tellement rajouté de trucs que je score de moins en moins bien, je me demande si j'overfit pas à force de tuner les modèles ou bien si je fais pas n'importe quoi dans la préparation de mes données. Ou alors je complexifie trop les modèles. Dernièrement j'ai essayé de combiner 5 regressors mais ça n'a pas l'air d'être une bonne idée...

Vous l'avez déjà fait ? Vous avez des conseils ?

J'ai posté ma solution sur mon blog mais pas la meilleure version, je vais essayer cet après midi. Si jamais ça vous intéresse je vous donne le lien en mp.
C'est une petite vitrine pour les recruteurs et pour m'obliger à rédiger et poser mes idées (bon exercice de synthèse).

J'en profite pour poser une question de noob. Supposons que le prix de vente évolue avec le carré de la surface. Quand j'utilise elasticnet il ne fait en réalité qu'une régression linéaire ? Et du coup pour améliorer le fit sur ce paramètre, est-ce que j'aurais pas intérêt à faire un preprocessing polynomial ? (i.e. je créé des colonnes en plus avec des ordres supérieurs ? )

Message cité 1 fois

Rontgen

Bébé Yoda a écrit :

Je viens de passer beaucoup (trop) de temps sur le challenge house prices sur kaggle.
Vous l'avez déjà fait ? Vous avez des conseils ?

Nope désolé

Bébé Yoda a écrit :

Dernièrement j'ai essayé de combiner 5 regressors mais ça n'a pas l'air d'être une bonne idée...

Ca veut dire quoi pas une bonne idée ? Tu as des résultats pires ou équivalents à une seule méthode ?
Généralement, "faire des ensembles" (= entrainer différents modèles et moyenner leur prédiction) ne peut faire que du bien en terme de précision.
Par contre pour que ca ait une utilité par rapport à un seul modèle, il faut que ceux-ci soient un tant soit peu décorrélés: ils deviennent alors des estimateurs un peu indépendants, et leur moyenne sera donc plus précise.
Pour décorréler des modèles, tu peux par exemple les entrainer sur des sous-ensembles d'apprentissages légèrement différents (par exemple tu tires au hasard 60% de ton ensemble complet), ou alors avec un sous-ensemble de features. C'est ce qu'on appelle faire du "bagging" (bootstrap aggregating).

Bébé Yoda a écrit :

Tout à fait, elasticnet ne fait que du linéaire donc dans le cas que tu décris, tu devrais ajouter la surface au carré comme feature :jap:

Message édité par Rontgen le 18-07-2017 à 11:34:07

Bébé Yoda

Merci
Quand je dis mauvaise idée c'est que le score est moins bon, mais je m'y suis mal pris j'ai pas bien noté du coup c'est peut-être juste mon pre processing des données qui est pas bon (j'ai changé pas mal de trucs, testé du boxcox etc) je me suis mêlé les pinceaux je pense.

Je vais regarder pour ma sélection de modèles. Par exemple j'ai mélangé un adaboost et un gboost, j'imagine qu'ils font un peu la même chose et que c'est pas la peine.
Pour la sélection de paramètres, j'ai éliminé des trucs manuellement (genre si j'ai 95% de missing values), pour le reste j'ai essayé de faire d'abord un lasso avec un alpha pas trop élevé puis d'injecter les paramètres qu'il a conservé dans les autres modèles. J'ai gagné un peu mais pas énormément, je me demande si efficace ou juste dû au hasard.
Ma procédure consiste bien à faire une moyenne de prédilections.

Message cité 1 fois

Publicité

Tidom

Bébé Yoda a écrit :

Pour les pré-traitements des valeurs manquantes, il y a aussi les possibilités suivantes :
Pour les variables catégorielles (genre : bleu, vert, rouge) : on peut considérer la valeur manquante comme une nouvelle catégorie, ainsi on a bleu, vert, rouge et manquante.
Pour les variables numériques (e.g., dans R) : on peut considérer la valeur manquante comme un extremum (+/- inf ou la plus/moins grande valeur du domaine de définition de la variable)
Ainsi, on n'élimine pas d'office ces variables, des fois qu'il y aurait un peu d'information prédictive dedans (même avec 95% de MV), l'algo de classification supervisée ou de régression ou de sélection de variables s'en chargera. Et puis ça permet de faire des pré-traitements classiques du type discrétisation / groupement de valeurs selon le type de variables sans que le problème de valeurs manquantes se pose.

D'une manière générale, une des difficultés des challenges Kaggle (outre le fait que ça se joue au pouillème comme face à des poulpes coréens sur Starcraft), c'est le "data shift" :
En effet, il arrive souvent que la distribution des données (variables) en apprentissage (là où tu crées ton modèle) et en test (pour ton classement au leaderboard) soit significativement différente.
Ce qu'il est bon de faire c'est de détecter ces variables qui vont dégrader la performance de ton modèle en test (alors que tu ne le vois pas en apprentissage ... et pourtant ce n'est pas exactement du sur-apprentissage mais passons).
Une méthode pour détecter ces variables est par exemple la suivante :
Tu prends tes deux bases, apprentissage (bdtrain) et test (bdtest).
Tu enlèves la variable à prédire (classe ou numérique si régression) de la base d'apprentissage. Tu as donc deux bases sans variable à prédire.
Tu étiquettes chaque objet de la bdtrain avec un label de classe disons t1, tu étiquettes chaque objet de la bdtest avec un label de classe disons t2.
Tu n'en fais qu'une seule BD. Tu as donc une seule BD à deux classes (T={t1, t2}). C'est comme un problème de classification supervisée classique.
Tu fais une étude univariée supervisée de ce nouveau problème. En gros tu regardes avec ta méthode/indice préférés la corrélation entre chaque variable et la nouvelle variable classe T.
Si elles existent, ces variables Vbad qui présentent une "forte corrélation" avec T sont "dangereuses" pour le problème de départ puisqu'elles présentent un "shift" entre la BDtrain et la BDtest. Souvent une élimination brutale des variables Vbad permet déjà de gagner quelques pouillèmes dans le leaderboard. S'il est possible de pondérer les variables dans l'algo de classif/régression qu'on utilise alors on peut pondérer les Vbad en conséquence... Bien sûr il est possible de faire cette même étude en version multivariée pour détecter des groupes de variables à éviter d'utiliser ensemble, ou encore d'adapter la prodécure à l'ago de classif/régression sous-jacent ... mais souvent la complexité nous guette

Si tu es intéressé je peux t'envoyer en MP un doc qui décrit ce procédé sur un challenge (pas Kaggle mais c'est pareil)

Message cité 3 fois
Message édité par Tidom le 18-07-2017 à 13:09:14

Rontgen

Tidom a écrit :

Une méthode pour détecter ces variables est par exemple la suivante :
[...]

Intéressant comme test, mais si j'ai bien compris, ca me parait quand meme dangereux [:transparency]
Il me semble que l'expérience que tu proposes vise essentiellement à vérifier que les ensembles d'apprentissage et de test sont bien de la même distribution globalement. Or ce qui est vraiment important, c'est de savoir s'ils sont de la même distribution, conditionné par la variable à apprendre.
Fondamentalement, c'est pas top mais c'est pas si grave que ca que des features n'aient pas exactement la même distribution, tant qu'ils ont le même effet par rapport à la variable à apprendre (alors certes, si tu multiplies la valeur d'une feature par 100 entre les deux ensembles et que tu utilises un modèle linéaire, ca va péter, mais bon là c'est juste que tes données sont pourries).
En fait, je ne vois pas pourquoi le fait qu'une feature corrèle avec ta variable T signifie qu'elle est nocive pour le problème à résoudre.

Enfin ca reste quand même utile à faire comme test, mais je pense qu'il faut faire attention avec les conclusions qu'on en tire :jap:

Message cité 1 fois
Message édité par Rontgen le 18-07-2017 à 13:56:44

Tidom

Rontgen a écrit :

Oui, désolé, j'ai écrit d'un trait ...
C'est bien sûr conditionnellement à la variable à apprendre.

Rontgen a écrit :

En fait, je ne vois pas pourquoi le fait qu'une feature corrèle avec ta variable T signifie qu'elle est nocive pour le problème à résoudre.

Enfin ca reste quand même utile à faire comme test, mais je pense qu'il faut faire attention avec les conclusions qu'on en tire :jap:

L'idée dans la procédure est de dire que si, dans le problème formulé avec T={t1,t2}, une variable X est "fortement" corrélée avec T alors c'est comme si on pouvait faire de la "bonne prédiction" de T avec X. Comme T n'a que deux valeurs (t1, t2 qui correspondent en fait à l'identification/appartenance des objets à bdtrain et bdtest), ça veut dire que les valeurs t1 et t2 sont bien caractérisées ("discriminées", prédites) par les valeurs de X, donc que X a des valeurs significativement différentes selon si on est dans bdtrain ou bdtest : du coup il faut faire attention à leur utilisation dans un modèle prédictif qu'on apprend sur bdtrain puisque lorsque l'on testera sur bdtest, les valeurs de X ne seront pas issues de la "même distribution".

Mais j'explique mieux quand j'ai un tableau devant moi promis [:laroa]

Désolé pour le Frenglish (je ne sais pas parler français dans ce domaine )

Message cité 1 fois

Bébé Yoda

J'étais tombé sur un article hier qui parlait de ce problème par là : http://bit.ly/2uEdyZJ
J'ai pas encore eu le temps de le creuser, je vais essayer de regarder tout ça.
Je me demande même s'ils ne font pas exprès sur Kaggle

Sinon, ça vous semble pertinent comme moyen d'apprendre le job, de faire ce genre d'exercice ? Ou bien je devrais retourner sur du mooc ? (les deux ?)

Message cité 1 fois

blixow

Tidom a écrit :

Oui, désolé, j'ai écrit d'un trait ...
C'est bien sûr conditionnellement à la variable à apprendre.

Tidom a écrit :

T'es prof ?

Message cité 1 fois

Tidom

Ce cas de shift arrive par exemple dans les problèmes de scoring clients (e.g., détection de churn dans les télécoms) : ou on apprend sur un mois m1 pour prédire au mois m2 (où les données présentent souvent un léger shift)

Tidom

Bébé Yoda a écrit :

Ah ben voilà c'est tout de suite plus clair avec des dessins (en plus ça parle des différents types de shift)

Sinon pour le job : ça dépend lequel tu vises ?

blixow a écrit :

T'es prof ?

Je ne répondrai pas à cette question
Disons que c'est mon domaine de recherche (pas le data shift mais d'autres parties du data mining)

Message cité 1 fois

Bébé Yoda

Tidom a écrit :

Ah ben voilà c'est tout de suite plus clair avec des dessins (en plus ça parle des différents types de shift)

Sinon pour le job : ça dépend lequel tu vises ?

En fait je viserais bien un job dans lequel j'ai une chance d'être embauché à vrai dire

A la base je suis physicien, plutôt expérimental/instrumentation j'ai fait pas mal d'analyses de données bien entendu (quotidiennement je dirais) pendant presque 15 ans. Pas mal de simulation, et du code scientifique (mais il y a très longtemps).
Niveau maths, comme je suis resté un moment sans vraiment pratiquer, je suis plus vraiment au niveau. Par exemple, si je dois faire de zéro un modèle à implémenter tout seul je vais vraiment galérer (à la limite s'il s'agit d'implémenter un truc vu dans un papier c'est peut-être jouable mais pas facile).
Du coup je sais pas vraiment où me situer, vu que je connais mal le milieu.
Je m'amuse bien sur mes compétitions kaggle, je peux passer des journées entières à tester des modèles et essayer d'améliorer mon code, mon score mais j'utilise uniquement les librairies toutes prêtes chez scikit-learn.

Bref, même si ça fait plus d'un an que j'ai commencé à bosser sérieusement tout ça, ça reste assez nouveau pour moi et donc je reste intéressé par n'importe quoi
Pour démarrer, data scientist """standard""" ça m'irait bien le temps de finir de monter en compétences, mais ça fait peur aux recruteurs

Message cité 1 fois

coucouriste

drap

o_BlastaaMoof_o

Bébé Yoda a écrit :

Personne n'implémente ses propres modèles...

Message cité 1 fois

Darmstadtium

Pipoteur grotesque

o_BlastaaMoof_o a écrit :

Personne n'implémente ses propres modèles...

Pas en data science non, mais en R&D et notamment en start-up ca se fait

Message cité 2 fois

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

Bébé Yoda

Darmstadtium a écrit :

Pas en data science non, mais en R&D et notamment en start-up ca se fait

Ça m'irait bien de pas avoir à en faire, j'ai pas un doctorat dans le domaine à vrai dire

Rontgen

C'est surtout qu'il y a une différence entre être capable de réimplémenter un modèle et le faire réellement.
Peu de personnes le font effectivement (sauf dans des contextes très innovants genre labo R&D), mais maitriser les maths qu'il y a derrière (et en particulier savoir théoriquement le réimplémenter) me parait très important pour comprendre et utiliser le mieux possible un outil disponible.

Bébé Yoda

A chaque entretien que j'ai passé j'ai posé la question, on m'a invariablement répondu la même chose : à savoir qu'ils utilisent des librairies toutes prêtes (scikit learn en général) mais que de temps en temps pour certains problèmes ils ont besoin d'implémenter des trucs eux-mêmes (mais peut-être qu'ils se font mousser un peu et qu'ils le font en réalité jamais)

Message cité 3 fois

fusion_sadam

Bébé Yoda a écrit :

:hello:
Faut voir aussi qu'une librairie comme SciKit est relativement récente, et qu'il y'a pas si longtemps des outils style pipeline, crossvalidation, preprocessing étaient vraiment à la traîne ou inexistant. Et sur les algo il manquait des fonctionnalités basique genre une prédiction en proba... Mais devoir toucher au coeur de l'algo ou implémenter un algo c'est vraiment du très spécifique (matériel exotique, grosse contrainte mémoire/vitesse ...)

Darmstadtium a écrit :

Pas en data science non, mais en R&D et notamment en start-up ca se fait

Oui mais c'est juste pour toucher les subventions, ça passe pas en prod

Message cité 1 fois

---------------
On sait pas trop quoi dire dans des circonstances pareilles...

Tidom

Bébé Yoda a écrit :

Si tu ne bosses pas en ce moment, Une autre solution serait peut être de trouver un master en alternance ?
Bien-sûr faut trouver l'entreprise d'abord et la convaincre ... Apres la fac associée sera convaincue
Ça peut être un bon plan si tu es en réorientation : tu aurais la formation et l'expérience pro en même temps et un peu de sous aussi

Message édité par Tidom le 18-07-2017 à 20:01:14

hiken91

Bonsoir,

J'ai validé mon L2 math et je suis pris à supelec et à l'isup.

Pour devenir data scientist, vous me conseilleriez quoi pleas?

Supelec +éventuellement un double diplôme peut-être galère à choper vue que j'ai pas fais de physique il est clair que je vais râmer un peu.
Ou Isup filière actuaire + une petite formation en plus pour acquérir d'éventuelles compétences non acquises avat car inutiles pour un actuaire.

Dans les précédent message j'ai vu (à l'instant) que les supelec s'en sortent bien, mais savez-vous quelle majeure ont-ils suivis ou quel DD svp?

Cordialement,

-Meringue-

Tidom a écrit :

Si tu es intéressé je peux t'envoyer en MP un doc qui décrit ce procédé sur un challenge (pas Kaggle mais c'est pareil)

Intéressé par le doc en MP si possible :jap:

marioto

Quid de la formation de Telecom SudParis ? Vous avez un avis sur leur master TRIED qui s'effectue à l'Université Paris Saclay ? https://www.universite-paris-saclay [...] ntation-m2

Et le master mash de dauphine n'est-il pas trop orienté finance/économie ?

Message cité 1 fois

Bébé Yoda

Tidom a écrit :

Si tu es intéressé je peux t'envoyer en MP un doc qui décrit ce procédé sur un challenge (pas Kaggle mais c'est pareil)

Sinon j'ai oublié mais je veux bien le document

Darmstadtium

Pipoteur grotesque

Le doc m'intéresse aussi :jap:

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

Darmstadtium

Pipoteur grotesque

Rontgen a écrit :

D'ailleurs, y'a des gens ici qui vont à des confs genre NIPS cette année ?

Ça dépend si on me paye l'inscription et le voyage Donc en gros de quand je commence ma thèse

fusion_sadam a écrit :

Oui mais c'est juste pour toucher les subventions, ça passe pas en prod

Oui et non Si ton équipe de R&D développe un truc tout neuf (encore mieux : avec certaines contraintes) elle fournira d'abord un prototype qui sera ensuite implémenté de manière robuste etc en production. Dans beaucoup de cas des lib existantes vont intervenir pour au moins une étape, mais par exemple là où je suis actuellement le modèle au coeur du produit a été implémenté avec rien de plus à la base que BLAS/CUBLAS Pas de contrainte matérielle spéciale, mais une volonté d'avoir le code le plus rapide possible et d'utiliser un algo d'optimisation pas répandu (une variante d'un truc connu en fait).

Message cité 1 fois

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

o_BlastaaMoof_o

Bébé Yoda a écrit :

Bullshit. Tout le monde implémente des "trucs" mais jamais un modèle complet. Personne ne va se coltiner l'implémentation d'un algo de RF ou de réseau de neurones par exemple. Et heureusement ! Si un data scientist me sort ça en entretien, ce sera clairement défavorable pour lui. J'ai besoin de data scientists qui font avancer des sujets concrets, pas de types qui réinventent la roue pour la beauté du geste.

Message cité 2 fois

o_BlastaaMoof_o

Darmstadtium a écrit :

Je veux bien croire que le côté innovant de la chose nécessite une implémentation spécifique mais là il y a probablement un problème d'outil. Avec un MATLAB typiquement, j'ai du mal à croire qu'il faille aller aussi loin dans les couches basses de l'algorithme et de son implémentation.

Rontgen

o_BlastaaMoof_o a écrit :

Personne n'a parlé de réimplémenter juste pour la beauté du geste, je ne vois pas pourquoi tu dis ca, et je comprends encore moins pourquoi c'est un point négatif pour toi.
Il y a tout simplement des cas ou ce qui est open-source ne suffit pas soit en terme d'interface, de fonctionnalités ou tout simplement d'efficacité.

Mais si tu refuses d'embaucher les gens qui savent faire réimplémenter des algos en cas de nécessite, n'hésite pas à me les envoyer, je te les échange contre les candidats qui "font avancer les choses" en ayant fait un MOOC et deux tutos Python

Message cité 1 fois

o_BlastaaMoof_o

Rontgen a écrit :

Compte tenu de la diversité de l'offre, en open source ou non, je demande vraiment à voir un cas ne pouvant pas être traité par un algorithme "sur étagère".
Quant à l'efficacité, la grande majorité des data scientists que j'ai rencontrés est tout simplement incapable de produire des implémentations plus efficaces que ce qui existe déjà.

Message cité 2 fois

Rontgen

o_BlastaaMoof_o a écrit :

Tu as raison dans le sens ou c'est effectivement de plus en plus rare car le nombre de librairies open source a explosé ces derniers temps, mais il y a à peine quelques années, elles étaient beaucoup moins nombreuses et moins bien maintenues.

Mais même aujourd'hui il reste toujours des problèmes (les librairies qui viennent avec 36 dépendances, ou alors qui sont Linux-only). Par exemple, si tu filtres les librairies open source dispo qui doivent etre facilement intégrables en C++, cross-platformes, et optimisées pour pouvoir tourner en temps réel sur des petits CPU, ben il en reste pas des masses

Message édité par Rontgen le 19-07-2017 à 12:00:06

Bébé Yoda

o_BlastaaMoof_o a écrit :

Bon en fait ça me rassure un peu de lire ça, vu mon niveau, je pense que je suis pas loin de pouvoir bosser quelque part.

Citation :

Mais si tu refuses d'embaucher les gens qui savent faire réimplémenter des algos en cas de nécessite, n'hésite pas à me les envoyer, je te les échange contre les candidats qui "font avancer les choses" en ayant fait un MOOC et deux tutos Python

Hey, j'ai fait des moocs et des tutos python et je suis sûr que je suis pas si pipo que ça

bogoss91

o_BlastaaMoof_o a écrit :

Bah par exemple j'avais du implementer des lookup tables, CTC et NCE en CUDA car il y avait pas de code open source valable pour ca a l'epoque. Et ok de nos jours il y a assez de librairies qui font des reseaux de neurones car c'est un outil commun de nos jours, mais pour la plupart des idees recentes t'as pas de source code disponible. [:poutrella]

marioto

marioto a écrit :

Quid de la formation en machine learning de Telecom SudParis ? Vous avez un avis sur leur master TRIED qui s'effectue à l'Université Paris Saclay ? https://www.universite-paris-saclay [...] ntation-m2

Et le master mash de dauphine n'est-il pas trop orienté finance/économie ?

Ce bide... :'(
C'est sûrement moins intéressant que votre discussion mais quand même

Message cité 1 fois

Darmstadtium

Pipoteur grotesque

Je pense que personne ne connait en fait [:klemton]

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

Publicité

Page : 1 2 3 4 5 .. 11 12 13 .. 128 129 130 131 132 133

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.131 secondes