[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 22 23 24 .. 128 129 130 131 132 133 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Bébé Yoda

Reprise du message précédent :
Après il y a bien plus de postes que de diplômes de ces deux masters.
Même avec un diplôme moins prestigieux il y aura moyen...

Sinon en interne dans ta boîte ?

Publicité

Bébé Yoda

J'ai une question sur l'évaluation d'un modèle. C'est pour une classification binaire : je dois prédire "0" ou "1".

J'ai 59 variables au départ :
1/ En prétraitement, j'ai fait une sélection de variables avec ExtraTreesClassifier
2/ Comme je veux faire une simple régression logistique, je binarize ou 1-hot encode le tout
3/ Ca me donne à nouveau dans les 300 variables, donc j'applique une PCA pour réduire.

Ensuite j'applique mon logit, et c'est là que j'ai des questions.
Pour les scores (rocauc ou f1), je trouve toujours le même ordre de grandeur quels que soient les paramètres et ça me turlupine

Par exemple, j'ai deux prédictions qui donnent :
1/ 7% de "1" : rocauc=0.6158 / f1=0.098
2/ 40% de "1":rocauc=0.6155 / f1=0.090

Sachant que les données contiennent 97% de 0 et 3% de 1 j'ai du mal à comprendre.
Le modèle qui prédit 40% devrait être complètement dans les choux par rapport à l'autre, puisque sur 100 prédictions je vais donner 37 "1" de trop.
J'ai pensé que vu les valeurs que j'obtiens pour les deux scores, en réalité mes deux modèles sont aussi pourris l'un que l'autre et c'est pour ça qu'il n'y a aucune différence ?
Sinon je vois pas trop :??:

Message cité 1 fois

Footmax

C'est ce que je préfèrerais éviter... :lol:
Mais merci pour vos réponses. En tout cas, ça coûte rien (ou pas grand-chose) de postuler à ces M2 (et à d'autres moins cotés évidemment) et de voir ce que ça donne.
Le M2 de l'X est vraiment top-niveau sur la base de retours d'ex-étudiants et c'est surtout par rapport à son brandname ? Car j'en entends moins parler que le MVA par ex.
Pas de possibilités en interne. Et de toute façon, si je fais bien un M2, je pense y faire un stage en labo de recherche pour voir si la recherche me conviendrait mieux que l'entreprise. Ce serait pas trop possible en interne.

Message édité par Footmax le 10-12-2017 à 12:06:00

Rontgen

C'est lequel le M2 de l'X dont vous parlez ?

Après il faut aussi voir que chaque M2 a sa spécialité aussi, ce qui est important quand on choisit : certains sont plutôt orientés finance, d'autres plutôt traitement du signal/image, il y en a aussi des spécialisés dans le big data, etc.

Profil supprimé

Sinon tu as également le master ESA à Orléans qui a ouvert beaucoup de cours de machine learning. Ceux qui le souhaitent peuvent également obtenir un DU "data scientist", il suffira de valider trois cours en plus parmi 25 à la carte.
Si vous voulez plus d'informations rdv sur ce lien :
http://www.univ-orleans.fr/deg/masters/ESA/.
Le master est orienté statistiques appliquées .
Niveau théorique c'est largement moins costaud que le MVA

Message édité par Profil supprimé le 10-12-2017 à 17:09:01

Gnarlock0706

GG, je connais des gens (de télécom) qui l'ont fait et il a vraiment l'air bien, en venant d'une post-bac t'étais dans le top de la promo ?

(nonobstant certaines questions un peu triviales posées sur le topic finance )

Message cité 1 fois

Rontgen

Ah oui tiens, etonnant de voir ECE et ISEP comme partenaires officiels (enfin c'est pas pour etre mechant, c'est juste qu'il y a pas trop de post-bac d'habitude dans les gros masters)

Bébé Yoda

Bébé Yoda a écrit :

J'ai une question sur l'évaluation d'un modèle. C'est pour une classification binaire : je dois prédire "0" ou "1".

J'ai 59 variables au départ :
1/ En prétraitement, j'ai fait une sélection de variables avec ExtraTreesClassifier
2/ Comme je veux faire une simple régression logistique, je binarize ou 1-hot encode le tout
3/ Ca me donne à nouveau dans les 300 variables, donc j'applique une PCA pour réduire.

Ensuite j'applique mon logit, et c'est là que j'ai des questions.
Pour les scores (rocauc ou f1), je trouve toujours le même ordre de grandeur quels que soient les paramètres et ça me turlupine

Par exemple, j'ai deux prédictions qui donnent :
1/ 7% de "1" : rocauc=0.6158 / f1=0.098
2/ 40% de "1":rocauc=0.6155 / f1=0.090

Sachant que les données contiennent 97% de 0 et 3% de 1 j'ai du mal à comprendre.
Le modèle qui prédit 40% devrait être complètement dans les choux par rapport à l'autre, puisque sur 100 prédictions je vais donner 37 "1" de trop.
J'ai pensé que vu les valeurs que j'obtiens pour les deux scores, en réalité mes deux modèles sont aussi pourris l'un que l'autre et c'est pour ça qu'il n'y a aucune différence ?
Sinon je vois pas trop :??:

[:halp]

Message cité 1 fois

Rontgen

Bébé Yoda a écrit :

[:halp]

Je ne suis pas sûr que ta question soit bien formulée
Par exemple l'aire en dessous de la courbe ROC est calculée en considérant tous les seuils possibles de ton classifieur, donc en faisant varier le nombre de 1 predits entre 0 et 100%
Ça n'a pas de sens de dire que telle valeur de AUCROC est associée à telle pourcentage de 1 prédits

Message cité 1 fois
Message édité par Rontgen le 10-12-2017 à 21:05:52

Bébé Yoda

Rontgen a écrit :

En fait c'est ce scoring
http://scikit-learn.org/stable/mod [...] score.html

Il y a plusieurs options de calcul. Peut être que je devrais pas prendre celle par défaut pour mon calcul
Mais d'ailleurs dans l'exemple qu'ils donnent je ne vois pas bien le rapport avec la variation de seuil ...

Publicité

Rontgen

Si tu ne vois pas le rapport avec le seuil, je te conseille de lire la page Wikipédia
https://fr.m.wikipedia.org/wiki/Courbe_ROC
Elle est plutôt complète :jap:

Bébé Yoda

Alors en fait, j'ai repris tout ça au calme et j'ai compris ce que je ne comprenais pas.

Par contre, pour revenir à mes pourcentages de prédiction. Ce que je veux dire c'est que, sachant que je dois trouver dans les 3% de prédictions positives, si un modèle m'en prédit 40% c'est qu'il est complètement à l'ouest.
Et donc il devrait scorer beaucoup moins bien à priori ? Hors c'est pas vraiment le cas...

Message cité 2 fois

fusion_sadam

Bébé Yoda a écrit :

Ca depend de quelle type d'erreur tu parle.
Affiche la matrice de confusion de tes modèles, c'est bien plus parlant

---------------
On sait pas trop quoi dire dans des circonstances pareilles...

Tidom

Bébé Yoda a écrit :

Essaie de dérouler à la main un exemple de construction de courbe ROC. Tu verras que l'AUC ne dépend pas totalement du nombre de 1 que prédit ton classifieur.
Dans ce livre disponible gratuitement : http://www.dataminingbook.info/pmwiki.php chapitre 22 (classifier assessment), il y a des petits exemples de construction de la courbe ROC (et donc de l'AUC)

Ne pas oublier que l'AUC est juste un critère d'évaluation d'un classifieur. En gros il évalue ton classifieur en terme de TPR (true positive rate) et FPR (False Positive rate) pour l'ensemble des seuils de discrimination (ou positive score threshold dans le livre). Chaque point de la courbe correspond à une matrice de confusion qui découle d'un seuil.
Mais in fine, pour utiliser ton classifieur, tu devras bien fixer ce seuil.

Un exemple extrême :
1) une courbe qui passerait par les points (0,0) (0.5,0) (0.5,1) (1,1) de la forme suivante
_
_|

2) une par les points (0,0) (0,0.5) (1,0.5) (1,1) de la forme suivante

_|
|

Elles ont toutes les deux une AUC de 0.5, pourtant il sera plus facile de fixer le seuil et d'avoir de bons résultats de prédictions avec la deuxième (puisqu'on augmente le TPR en baissant le seuil, en partant du seuil = 1)

dr_zaius

Simius Mathematicus

Là comme ça j'ai l'impression que t'as vu l'essentiel. Peut-être consolide l'algèbre linéaire de L2 sur laquelle t'as pas l'air super chaud.
T'as pas fait/vu d'analyse convexe, de chaînes de Markov et de stats bayésiennes sinon ? (je pense que ça peut être abordé pour la première fois en M2 sans souci, mais si tu l'as vu avant ce sera plus simple)

edit : je suis en M1 de maths (orienté comme toi vers stats/ML) donc pas plus avancé que toi, mon avis vaut ce qu'il vaut

Message édité par dr_zaius le 14-12-2017 à 17:54:50

---------------
« Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran

Bébé Yoda

A priori tout ce qui est séries intégrales et compagnie t'as pas besoin de pousser plus loin pour le moment, ça me semble pas critique.
Tu peux essayer de faire un peu plus de python (scikit-learn) ça te servira toujours.
T'initier un peu à Hadoop/Spark ça fera pas de mal non plus (même si pas forcément utile pour l'an prochain dans le cursus ?)

Rontgen

+1 avec les commentaires précédents

Algèbre linéaire très important (des trucs genre décomposition de matrices par exemple, SVD, etc.)
Statistiques très important aussi (maîtriser la notion d'hypothèses, de tests, etc)
Analyse continue bof
Process stochastiques ça dépend beaucoup de l'application que tu cibles

Gérer Python c'est une bonne idée aussi par contre

Profil supprimé

Bonjour,

En école d'ingé, vous faites la théorie qui est derrière les algo de machine learning ou juste les Applications sur machine ?
Ce que je reproche dans le cours que j'ai fait (régression logistique, analyse discriminante , random forest ect...), c'est qu'on a surtout pianoter sur R avec les différents packages et on est très vite passé sur la théorie..

Message cité 2 fois

nesquik69

Dans mon école, des cours de ML existent à partir du début de l'année de M1.
Les premiers cours de ml sont structurés en 3 parties:

*la théorie du ML (avec les stats qui vont avec)
*des TP ou l'on implemente nous même la plupart des méthodes de ML. (regression,SVM,modèles ensemblistes....)
*un projet sur kaggle à réaliser( et c'est pas le plus facile qui est choisi )

le rythme est donc très soutenu (tout çà en 40-45 h de cours présentiels... et le travail perso c'est au moins le double)

Message édité par nesquik69 le 14-12-2017 à 23:22:00

o_BlastaaMoof_o

On pourrait avoir une opportunité pour un stage dans ma boîte. Pas forcément un stage très long, 4 ou 5 mois seraient suffisants. Il me semble difficile de tenir 6 mois sur le sujet identifié. A moins que le stagiaire ne soit un manche

Le sujet n'est pas super compliqué ou technique, je pense que du coup que ça s'adresse plutôt à des étudiants en M1 qu'en M2 mais je laisse ça à l'interprétation de chacun.

Bref, pour être concret...

Sujet : détection automatisée de données personnelles (il y a donc un petit volet règlementaire qui n'est à mon sens pas inintéressant).
Environnement technique : SQL, MATLAB ou Python (petite préférence pour MATLAB, le but étant d'intégrer les travaux du stagiaire dans une application métier).
Secteur : finance, grand groupe bancaire.
Localisation : IDF Sud (plus de détails en MP).
Rémunération : aucune idée, faut que je me renseigne

Pour les candidats : MP avec le cursus suivi + un mini CV mettant en avant les compétences techniques et scientifiques + un GitHub si vous en avez un, merci d'avance.

PS : aucun besoin de formaliser proprement, je m'en balance.

Message édité par o_BlastaaMoof_o le 19-12-2017 à 14:34:08

-Meringue-

Déjà trouvé

Bébé Yoda

Moi je cherche un stage d'un mois (voire une semaine de plus).
Entièrement gratuit pour la boîte, c'est 100% pris en charge par pôle emploi.

Rontgen

Un mois c'est court quand meme

-Meringue-

Clairement!
Déjà que pour 4 mois ça n’est pas toujours évident de trouver.

Darmstadtium

Pipoteur grotesque

Un mois en ML tu vas pas faire grand chose...

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

Bébé Yoda

Oui mais c'est gratuit

Ça permet de travailler un peu, se mettre en situation.
Sur un projet bien cadré on peut faire quelques trucs. Même si c'est juste nettoyer un peu des données c'est toujours ça.
J'ai beau travailler à la maison je commence à sérieusement m'ennuyer

Profil supprimé

C'est un peu l'explosion des salaires en ML/Big data en ce moment non?

Message cité 2 fois

Bébé Yoda

Je me contenterais déjà d'un job moi

Message cité 1 fois

shawshayk

T'en fais pas le cours de Monsieur L est pas représentatif de ce que vous aurez par la suite, il montre beaucoup de notions en allant peu dans les détails dans ce cours. Déjà au S2 vous aurez ~45h sur la régression logistique, abordée du point de vue statistique/économétrique et en M2 vous reverrez toutes les techniques d'apprentissage supervisé vues avec lui (et d'autres) en allant beaucoup plus dans le détail théorique cette fois. De toute façon ça a pas trop de sens de vous montrer les RF dès maintenant alors que le cours de bootstrap est au second semestre.

Bébé Yoda

Oui c'est un peu le soucis. J'ai pas encore regardé vraiment à l'étranger, c'est pas évident pour le boulot de ma femme.
Suisse ça serait peut-être OK. Si d'ici quelques semaines j'ai toujours rien je vais commencer à chercher par là bas je pense

o_BlastaaMoof_o

Je dirais plutôt que ça se tasse, au contraire.

Au début de la hype, à peu près n'importe quel data scientist pouvait viser sans souci du 70 voire 80k. Maintenant, avec l'arrivée des premières vagues de jeunes diplomés en data science, le fait que tout le monde se prétende data scientist sans forcément l'être réellement, les salaires baissent. Je vois énormément de data scientists (et pas les plus mauvais) émarger péniblement à 40/45k à Paris. Les SSII proposent désormais du data scientist à 600 balles la journée, l'intérêt de prendre un data scientist cher en interne se réduit donc d'autant (contrairement au risque). Sur des postes de data architect, tous les cabinets de recrutement qui m'ont contacté me disent que je suis hors marché : d'après eux, un data architect expérimenté peut difficilement émarger à plus de 80k. Bref, ça se normalise. Je souhaite d'ailleurs bon courage aux data scientists embauchés à prix d'or pour bouger sans changer de poste, or la question de savoir ce qu'on fait après de la data science est toujours ouverte dans les entreprises.

edit : vision parisienne du marché, je ne prétends pas que cela soit vrai ailleurs.

Message cité 2 fois
Message édité par o_BlastaaMoof_o le 19-12-2017 à 23:51:23

Publicité

Page : 1 2 3 4 5 .. 22 23 24 .. 128 129 130 131 132 133

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.084 secondes