Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1595 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  22  23  24  ..  128  129  130  131  132  133
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5023094
Bébé Yoda
Posté le 10-12-2017 à 09:04:20  profilanswer
 

Reprise du message précédent :
Après il y a bien plus de postes que de diplômes de ces deux masters.
Même avec un diplôme moins prestigieux il y aura moyen...

 

Sinon en interne dans ta boîte ?

mood
Publicité
Posté le 10-12-2017 à 09:04:20  profilanswer
 

n°5023104
Bébé Yoda
Posté le 10-12-2017 à 11:04:07  profilanswer
 

J'ai une question sur l'évaluation d'un modèle. C'est pour une classification binaire : je dois prédire "0" ou "1".
 
J'ai 59 variables au départ :
1/ En prétraitement, j'ai fait une sélection de variables avec ExtraTreesClassifier
2/ Comme je veux faire une simple régression logistique, je binarize ou 1-hot encode le tout
3/ Ca me donne à nouveau dans les 300 variables, donc j'applique une PCA pour réduire.
 
Ensuite j'applique mon logit, et c'est là que j'ai des questions.
Pour les scores (rocauc ou f1), je trouve toujours le même ordre de grandeur quels que soient les paramètres et ça me turlupine
 
Par exemple, j'ai deux prédictions qui donnent :  
1/ 7% de "1" : rocauc=0.6158 / f1=0.098
2/ 40% de "1":rocauc=0.6155 / f1=0.090
 
Sachant que les données contiennent 97% de 0 et 3% de 1 j'ai du mal à comprendre.
Le modèle qui prédit 40% devrait être complètement dans les choux par rapport à l'autre, puisque sur 100 prédictions je vais donner 37 "1" de trop.
J'ai pensé que vu les valeurs que j'obtiens pour les deux scores, en réalité mes deux modèles sont aussi pourris l'un que l'autre et c'est pour ça qu'il n'y a aucune différence ?
Sinon je vois pas trop  :??:

n°5023112
Footmax
Posté le 10-12-2017 à 11:54:00  profilanswer
 


 
C'est ce que je préfèrerais éviter...  :lol:  
Mais merci pour vos réponses. En tout cas, ça coûte rien (ou pas grand-chose) de postuler à ces M2 (et à d'autres moins cotés évidemment) et de voir ce que ça donne.
Le M2 de l'X est vraiment top-niveau sur la base de retours d'ex-étudiants et c'est surtout par rapport à son brandname ? Car j'en entends moins parler que le MVA par ex.
Pas de possibilités en interne. Et de toute façon, si je fais bien un M2, je pense y faire un stage en labo de recherche pour voir si la recherche me conviendrait mieux que l'entreprise. Ce serait pas trop possible en interne.


Message édité par Footmax le 10-12-2017 à 12:06:00
n°5023124
Rontgen
Posté le 10-12-2017 à 13:01:26  profilanswer
 

C'est lequel le M2 de l'X dont vous parlez ?

 

Après il faut aussi voir que chaque M2 a sa spécialité aussi, ce qui est important quand on choisit : certains sont plutôt orientés finance, d'autres plutôt traitement du signal/image, il y en a aussi des spécialisés dans le big data, etc.

n°5023125
Profil sup​primé
Posté le 10-12-2017 à 13:21:08  answer
 

Sinon tu as également le master ESA à Orléans qui a ouvert beaucoup de cours de machine learning. Ceux qui le souhaitent  peuvent également obtenir un DU "data scientist", il suffira de valider trois cours en plus parmi 25 à la carte.  
Si vous voulez plus d'informations rdv sur ce lien :
http://www.univ-orleans.fr/deg/masters/ESA/.
Le master est orienté statistiques appliquées .  
Niveau théorique c'est largement moins costaud que le MVA


Message édité par Profil supprimé le 10-12-2017 à 17:09:01
n°5023135
Gnarlock07​06
Posté le 10-12-2017 à 17:14:57  profilanswer
 

GG, je connais des gens (de télécom) qui l'ont fait et il a vraiment l'air bien, en venant d'une post-bac t'étais dans le top de la promo ?
 
(nonobstant certaines questions un peu triviales posées sur le topic finance :o :o :o)

n°5023142
Rontgen
Posté le 10-12-2017 à 18:29:29  profilanswer
 

Ah oui tiens, etonnant de voir ECE et ISEP comme partenaires officiels (enfin c'est pas pour etre mechant, c'est juste qu'il y a pas trop de post-bac d'habitude dans les gros masters)

n°5023148
Bébé Yoda
Posté le 10-12-2017 à 20:09:45  profilanswer
 

Bébé Yoda a écrit :

J'ai une question sur l'évaluation d'un modèle. C'est pour une classification binaire : je dois prédire "0" ou "1".

 

J'ai 59 variables au départ :
1/ En prétraitement, j'ai fait une sélection de variables avec ExtraTreesClassifier
2/ Comme je veux faire une simple régression logistique, je binarize ou 1-hot encode le tout
3/ Ca me donne à nouveau dans les 300 variables, donc j'applique une PCA pour réduire.

 

Ensuite j'applique mon logit, et c'est là que j'ai des questions.
Pour les scores (rocauc ou f1), je trouve toujours le même ordre de grandeur quels que soient les paramètres et ça me turlupine

 

Par exemple, j'ai deux prédictions qui donnent :
1/ 7% de "1" : rocauc=0.6158 / f1=0.098
2/ 40% de "1":rocauc=0.6155 / f1=0.090

 

Sachant que les données contiennent 97% de 0 et 3% de 1 j'ai du mal à comprendre.
Le modèle qui prédit 40% devrait être complètement dans les choux par rapport à l'autre, puisque sur 100 prédictions je vais donner 37 "1" de trop.
J'ai pensé que vu les valeurs que j'obtiens pour les deux scores, en réalité mes deux modèles sont aussi pourris l'un que l'autre et c'est pour ça qu'il n'y a aucune différence ?
Sinon je vois pas trop :??:

 

[:halp]

n°5023153
Rontgen
Posté le 10-12-2017 à 21:04:20  profilanswer
 


Je ne suis pas sûr que ta question soit bien formulée
Par exemple l'aire en dessous de la courbe ROC est calculée en considérant tous les seuils possibles de ton classifieur, donc en faisant varier le nombre de 1 predits entre 0 et 100%
Ça n'a pas de sens de dire que telle valeur de AUCROC est associée à telle pourcentage de 1 prédits

Message cité 1 fois
Message édité par Rontgen le 10-12-2017 à 21:05:52
n°5023158
Bébé Yoda
Posté le 10-12-2017 à 21:31:35  profilanswer
 

Rontgen a écrit :


Je ne suis pas sûr que ta question soit bien formulée
Par exemple l'aire en dessous de la courbe ROC est calculée en considérant tous les seuils possibles de ton classifieur, donc en faisant varier le nombre de 1 predits entre 0 et 100%
Ça n'a pas de sens de dire que telle valeur de AUCROC est associée à telle pourcentage de 1 prédits

 

En fait c'est ce scoring
http://scikit-learn.org/stable/mod [...] score.html

 

Il y a plusieurs options de calcul. Peut être que je devrais pas prendre celle par défaut pour mon calcul
Mais d'ailleurs dans l'exemple qu'ils donnent je ne vois pas bien le rapport avec la variation de seuil ...

 

mood
Publicité
Posté le 10-12-2017 à 21:31:35  profilanswer
 

n°5023160
Rontgen
Posté le 10-12-2017 à 22:07:14  profilanswer
 

Si tu ne vois pas le rapport avec le seuil, je te conseille de lire la page Wikipédia
https://fr.m.wikipedia.org/wiki/Courbe_ROC
Elle est plutôt complète :jap:

n°5023204
Bébé Yoda
Posté le 11-12-2017 à 10:19:03  profilanswer
 

Alors en fait, j'ai repris tout ça au calme et j'ai compris ce que je ne comprenais pas.
 
Par contre, pour revenir à mes pourcentages de prédiction. Ce que je veux dire c'est que, sachant que je dois trouver dans les 3% de prédictions positives, si un modèle m'en prédit 40% c'est qu'il est complètement à l'ouest.
Et donc il devrait scorer beaucoup moins bien à priori ? Hors c'est pas vraiment le cas...

n°5023378
fusion_sad​am
:D
Posté le 12-12-2017 à 15:38:51  profilanswer
 

Bébé Yoda a écrit :

Alors en fait, j'ai repris tout ça au calme et j'ai compris ce que je ne comprenais pas.
 
Par contre, pour revenir à mes pourcentages de prédiction. Ce que je veux dire c'est que, sachant que je dois trouver dans les 3% de prédictions positives, si un modèle m'en prédit 40% c'est qu'il est complètement à l'ouest.
Et donc il devrait scorer beaucoup moins bien à priori ? Hors c'est pas vraiment le cas...


 
Ca depend de quelle type d'erreur tu parle.
Affiche la matrice de confusion de tes modèles, c'est bien plus parlant


---------------
On sait pas trop quoi dire dans des circonstances pareilles...
n°5023424
Tidom
Posté le 13-12-2017 à 06:34:38  profilanswer
 

Bébé Yoda a écrit :

Alors en fait, j'ai repris tout ça au calme et j'ai compris ce que je ne comprenais pas.
 
Par contre, pour revenir à mes pourcentages de prédiction. Ce que je veux dire c'est que, sachant que je dois trouver dans les 3% de prédictions positives, si un modèle m'en prédit 40% c'est qu'il est complètement à l'ouest.
Et donc il devrait scorer beaucoup moins bien à priori ? Hors c'est pas vraiment le cas...


 
 
Essaie de dérouler à la main un exemple de construction de courbe ROC. Tu verras que l'AUC ne dépend pas totalement du nombre de 1 que prédit ton classifieur.
Dans ce livre disponible gratuitement : http://www.dataminingbook.info/pmwiki.php chapitre 22 (classifier assessment), il y a des petits exemples de construction de la courbe ROC (et donc de l'AUC)
 
Ne pas oublier que l'AUC est juste un critère d'évaluation d'un classifieur. En gros il évalue ton classifieur en terme de TPR (true positive rate) et FPR (False Positive rate) pour l'ensemble des seuils de discrimination (ou positive score threshold dans le livre). Chaque point de la courbe correspond à une matrice de confusion qui découle d'un seuil.
Mais in fine, pour utiliser ton classifieur, tu devras bien fixer ce seuil.
 
Un exemple extrême :
1) une courbe qui passerait par les points (0,0) (0.5,0) (0.5,1) (1,1) de la forme suivante
       _
    _|
 
 
2) une par les points (0,0) (0,0.5) (1,0.5) (1,1) de la forme suivante
 
    _|
   |
 
Elles ont toutes les deux une AUC de 0.5, pourtant il sera plus facile de fixer le seuil et d'avoir de bons résultats de prédictions avec la deuxième (puisqu'on augmente le TPR en baissant le seuil, en partant du seuil = 1)

n°5023680
dr_zaius
Simius Mathematicus
Posté le 14-12-2017 à 17:53:32  profilanswer
 

 

Là comme ça j'ai l'impression que t'as vu l'essentiel. Peut-être consolide l'algèbre linéaire de L2 sur laquelle t'as pas l'air super chaud.
T'as pas fait/vu d'analyse convexe, de chaînes de Markov et de stats bayésiennes sinon ? (je pense que ça peut être abordé pour la première fois en M2 sans souci, mais si tu l'as vu avant ce sera plus simple)

 

edit : je suis en M1 de maths (orienté comme toi vers stats/ML) donc pas plus avancé que toi, mon avis vaut ce qu'il vaut :o


Message édité par dr_zaius le 14-12-2017 à 17:54:50

---------------
« Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran
n°5023682
Bébé Yoda
Posté le 14-12-2017 à 18:08:52  profilanswer
 

A priori tout ce qui est séries intégrales et compagnie t'as pas besoin de pousser plus loin pour le moment, ça me semble pas critique.
Tu peux essayer de faire un peu plus de python (scikit-learn) ça te servira toujours.
T'initier un peu à Hadoop/Spark ça fera pas de mal non plus (même si pas forcément utile pour l'an prochain dans le cursus ?)

n°5023708
Rontgen
Posté le 14-12-2017 à 21:33:38  profilanswer
 

+1 avec les commentaires précédents

 

Algèbre linéaire très important (des trucs genre décomposition de matrices par exemple, SVD, etc.)
Statistiques très important aussi (maîtriser la notion d'hypothèses, de tests, etc)
Analyse continue bof
Process stochastiques ça dépend beaucoup de l'application que tu cibles

 

Gérer Python c'est une bonne idée aussi par contre

n°5023716
Profil sup​primé
Posté le 14-12-2017 à 23:11:46  answer
 

Bonjour,
 
En école d'ingé, vous faites la théorie qui est derrière les algo de machine learning ou juste les Applications sur machine ?
Ce que je reproche dans le cours que j'ai fait (régression logistique, analyse discriminante , random forest ect...), c'est qu'on a surtout pianoter sur R avec les différents packages et on est très vite passé sur la théorie..

n°5023717
nesquik69
Posté le 14-12-2017 à 23:19:43  profilanswer
 


 
Dans mon école, des cours de ML existent à partir du début de l'année de M1.  
Les premiers cours de ml sont structurés en 3 parties:  
 
*la théorie du ML (avec les stats qui vont avec)
*des TP ou l'on implemente nous même la plupart des méthodes de ML. (regression,SVM,modèles ensemblistes....)
*un projet sur kaggle à réaliser( et c'est pas le plus facile qui est choisi :D )
 
le rythme est donc très soutenu (tout çà en 40-45 h de cours présentiels... et le travail perso c'est au moins le double)


Message édité par nesquik69 le 14-12-2017 à 23:22:00
n°5024175
o_BlastaaM​oof_o
Posté le 19-12-2017 à 14:30:59  profilanswer
 

On pourrait avoir une opportunité pour un stage dans ma boîte. Pas forcément un stage très long, 4 ou 5 mois seraient suffisants. Il me semble difficile de tenir 6 mois sur le sujet identifié. A moins que le stagiaire ne soit un manche :o

 

Le sujet n'est pas super compliqué ou technique, je pense que du coup que ça s'adresse plutôt à des étudiants en M1 qu'en M2 mais je laisse ça à l'interprétation de chacun.

 

Bref, pour être concret...

 

Sujet : détection automatisée de données personnelles (il y a donc un petit volet règlementaire qui n'est à mon sens pas inintéressant).
Environnement technique : SQL, MATLAB ou Python (petite préférence pour MATLAB, le but étant d'intégrer les travaux du stagiaire dans une application métier).
Secteur : finance, grand groupe bancaire.
Localisation : IDF Sud (plus de détails en MP).
Rémunération : aucune idée, faut que je me renseigne :o

 

Pour les candidats : MP avec le cursus suivi + un mini CV mettant en avant les compétences techniques et scientifiques + un GitHub si vous en avez un, merci d'avance.

 

PS : aucun besoin de formaliser proprement, je m'en balance.


Message édité par o_BlastaaMoof_o le 19-12-2017 à 14:34:08
n°5024176
-Meringue-
Posté le 19-12-2017 à 14:35:15  profilanswer
 


 
Déjà trouvé  :o

n°5024178
Bébé Yoda
Posté le 19-12-2017 à 15:09:04  profilanswer
 

Moi je cherche un stage d'un mois (voire une semaine de plus).
Entièrement gratuit pour la boîte, c'est 100% pris en charge par pôle emploi.

n°5024180
Rontgen
Posté le 19-12-2017 à 15:15:10  profilanswer
 

Un mois c'est court quand meme :/

n°5024181
-Meringue-
Posté le 19-12-2017 à 15:23:55  profilanswer
 

Clairement!
Déjà que pour 4 mois ça n’est pas toujours évident de trouver. :/

n°5024183
Darmstadti​um
Pipoteur grotesque
Posté le 19-12-2017 à 15:36:54  profilanswer
 

Un mois en ML tu vas pas faire grand chose...


---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets
n°5024184
Bébé Yoda
Posté le 19-12-2017 à 15:39:43  profilanswer
 

Oui mais c'est gratuit :o

 

Ça permet de travailler un peu, se mettre en situation.
Sur un projet bien cadré on peut faire quelques trucs. Même si c'est juste nettoyer un peu des données c'est toujours ça.
J'ai beau travailler à la maison je commence à sérieusement m'ennuyer

n°5024207
Profil sup​primé
Posté le 19-12-2017 à 18:26:33  answer
 

C'est un peu l'explosion des salaires en ML/Big data en ce moment non?

n°5024209
Bébé Yoda
Posté le 19-12-2017 à 18:33:42  profilanswer
 

Je me contenterais déjà d'un job moi :/

n°5024211
shawshayk
Posté le 19-12-2017 à 18:53:17  profilanswer
 


 
T'en fais pas le cours de Monsieur L est pas représentatif de ce que vous aurez par la suite, il montre beaucoup de notions en allant peu dans les détails dans ce cours. Déjà au S2 vous aurez ~45h sur la régression logistique, abordée du point de vue statistique/économétrique et en M2 vous reverrez toutes les techniques d'apprentissage supervisé vues avec lui (et d'autres) en allant beaucoup plus dans le détail théorique cette fois. De toute façon ça a pas trop de sens de vous montrer les RF dès maintenant alors que le cours de bootstrap est au second semestre.

n°5024213
Bébé Yoda
Posté le 19-12-2017 à 18:57:52  profilanswer
 

Oui c'est un peu le soucis. J'ai pas encore regardé vraiment à l'étranger, c'est pas évident pour le boulot de ma femme.
Suisse ça serait peut-être OK. Si d'ici quelques semaines j'ai toujours rien je vais commencer à chercher par là bas je pense

n°5024229
o_BlastaaM​oof_o
Posté le 19-12-2017 à 23:50:41  profilanswer
 


Je dirais plutôt que ça se tasse, au contraire.

 

Au début de la hype, à peu près n'importe quel data scientist pouvait viser sans souci du 70 voire 80k. Maintenant, avec l'arrivée des premières vagues de jeunes diplomés en data science, le fait que tout le monde se prétende data scientist sans forcément l'être réellement, les salaires baissent. Je vois énormément de data scientists (et pas les plus mauvais) émarger péniblement à 40/45k à Paris. Les SSII proposent désormais du data scientist à 600 balles la journée, l'intérêt de prendre un data scientist cher en interne se réduit donc d'autant (contrairement au risque). Sur des postes de data architect, tous les cabinets de recrutement qui m'ont contacté me disent que je suis hors marché : d'après eux, un data architect expérimenté peut difficilement émarger à plus de 80k. Bref, ça se normalise. Je souhaite d'ailleurs bon courage aux data scientists embauchés à prix d'or pour bouger sans changer de poste, or la question de savoir ce qu'on fait après de la data science est toujours ouverte dans les entreprises.

 

edit : vision parisienne du marché, je ne prétends pas que cela soit vrai ailleurs.

Message cité 2 fois
Message édité par o_BlastaaMoof_o le 19-12-2017 à 23:51:23
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  22  23  24  ..  128  129  130  131  132  133

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR