Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1659 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  34  35  36  ..  128  129  130  131  132  133
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5051642
Bébé Yoda
Posté le 07-05-2018 à 14:04:24  profilanswer
 

Reprise du message précédent :
Aujourd'hui c'est lundredi :D

mood
Publicité
Posté le 07-05-2018 à 14:04:24  profilanswer
 

n°5051669
sinbadlema​rin
Posté le 07-05-2018 à 14:51:46  profilanswer
 

J'ai un bac S et une formation d'ingénieur :o

n°5051671
Bébé Yoda
Posté le 07-05-2018 à 15:00:07  profilanswer
 

C'est déjà un bon début.
Hésite pas à en dire plus sur tes objectifs

n°5051672
Rontgen
Posté le 07-05-2018 à 15:02:15  profilanswer
 

sinbadlemarin a écrit :

J'ai un bac S et une formation d'ingénieur :o


En maths ? Info ?
Quel est ton niveau en programmation ?

 

Aussi, combien de temps tu veux y consacrer ?
Reprendre des études à temps plein, ou bosser 30min par soir ?


Message édité par Rontgen le 07-05-2018 à 15:03:55
n°5051673
Bébé Yoda
Posté le 07-05-2018 à 15:05:21  profilanswer
 

Ne lis pas les derniers posts de Blastaa sinon tu vas te décourager :o

n°5051677
Tidom
Posté le 07-05-2018 à 15:23:23  profilanswer
 

Bébé Yoda a écrit :

Ne lis pas les derniers posts de Blastaa sinon tu vas te décourager :o


 
Je citerais même Saint-François d'Assise :

Citation :

Commence par faire le nécessaire, puis fait ce qu'il est possible de faire et tu réaliseras l'impossible sans t'en apercevoir


 
Oui lundredi n'est pas encore fini (et demain c'est férié :o )

n°5051687
rokhlan
Posté le 07-05-2018 à 15:49:52  profilanswer
 

sinbadlemarin a écrit :

J'ai un bac S et une formation d'ingénieur :o


Si t’as pas fait le MVA, laisse tomber. Tu ne sera qu’une merde [:nonoo_:3]

n°5051707
o_BlastaaM​oof_o
Posté le 07-05-2018 à 16:42:16  profilanswer
 

rokhlan a écrit :


Si t’as pas fait le MVA, laisse tomber. Tu ne sera qu’une merde [:nonoo_:3]


On a justement un stagiaire MVA qui vient de débuter son stage, assez curieux de voir ce qu’il a dans le ventre...

n°5051736
o_BlastaaM​oof_o
Posté le 07-05-2018 à 20:22:18  profilanswer
 


X

n°5052187
draculax
Posté le 10-05-2018 à 14:20:04  profilanswer
 

Des insight de comment ça se passe en stage chez FAIR / Google Brain / NVidia en IA ?

mood
Publicité
Posté le 10-05-2018 à 14:20:04  profilanswer
 

n°5052533
Profil sup​primé
Posté le 11-05-2018 à 19:49:47  answer
 

[:sharliecheen:4]

n°5052593
phosphoryl​ase
Posté le 11-05-2018 à 22:42:50  profilanswer
 

Bonsoir :o ,  
 
J'y connais pas grand chose au machine learning, data science and so on mais je crois que ça peut s'appliquer plus ou moins à mon cas :o  
 
 
J'ai un set de vecteurs dans un espace de dimension n=30  
 
J'espère pouvoir faire de l'apprentissage non supervisé. J'attends de l'algorithmes qu'il essaie de faire des groupes/clusters par similarité et qu'ensuite en lui donnant un vecteur à n coordonnées, il puisse me dire que ce vecteur appartient à cette catégorie là.  
 
Je cherche pas vraiment une méthode, ni un tuto mais comme c'est pour monter une étude, je voulais juste avoir un ordre d'idée du nombre de vecteurs dont il fallait pouvoir disposer pour commencer à travailler sérieusement.  
J'imagine que ça dépend de la précision que je veux, et de la méthode employé.  
 
A vrai dire je cherche plutôt un ordre de grandeur général : 1000 vecteurs ? 10 0000 ou 1M ?
 
Si vous avez de quoi me renseigner je suis preneur :o

n°5052596
Rontgen
Posté le 11-05-2018 à 23:42:05  profilanswer
 

Ce que tu cherches à faire semble bien correspondre à de l'apprentissage non supervisé
C'est un domaine qui est bien moins maîtrisé que l'apprentissage supervisé, donc difficile de donner des guidelines, a part the renvoyer vers les algos classiques
Peut être on pourrait plus t'aider si on savait le but ultime de ta démarche : pourquoi tu veux trouver le cluster auquel appartient un nouvel exemple ?
Concernant le nombre d'exemples c'est pareil, je pense pas qu'on puisse te donner un nombre car ça dépend beaucoup de la distribution de tes données mais aussi du nombre de clusters que tu veux estimer

n°5052599
Rasthor
Posté le 12-05-2018 à 00:54:08  profilanswer
 

Exactement! C'est extremement dur de trouver la bonne methode avec les bons parametres. C'est presque de la magie noire.
 
Par contre, tu peux deja regarder ces pages web:
 
http://scikit-learn.org/stable/index.html
 
http://scikit-learn.org/stable/mod [...] clustering
 

n°5052601
cassiopell​a
Posté le 12-05-2018 à 02:36:21  profilanswer
 

phosphorylase a écrit :


J'ai un set de vecteurs dans un espace de dimension n=30  


Est-ce que ces vecteurs sont
1) des observations des événements quelconques et peuvent être définies en tant que les variables aléatoires?  
2) ou ce sont les vecteurs "fabriqués"/"pré-définit" (p.ex. le résultat des gros calculs/modèle etc.)?
Si c'est le cas 2, à mon avis il ne faut pas utiliser l'apprentissage automatique parce que cela n'a pas de sens. Sauf si on étudie le processus de "fabrication" de ses vecteurs qui est au moins en partie aléatoire.
Si c'est le cas 1, il faut trouver un modèle statistique et une méthode pertinente d'évaluer les relations entre les données. Que représente ce vecteur? Que veux tu étudier? De façon générale il n'y a pas de modèle idéal, mais il y a des modèles complétement inutiles et/ou qui conduisent à faire des conclusions erronées. Certes, on peut essayer tous les modèles et choisir le/les meilleur(s), mais c'est quoi un bon modèle? Je suis d'accord avec Rasthor, si on fait pas attention, on aura une boite noire sans comprendre ce qui se passe à l'intérieur.
 

Citation :


J'espère pouvoir faire de l'apprentissage non supervisé. J'attends de l'algorithme qu'il essaie de faire des groupes/clusters par similarité et qu'ensuite en lui donnant un vecteur à n coordonnées, il puisse me dire que ce vecteur appartient à cette catégorie là.  


Il faut définir ce que représente cette similarité.
 

Citation :

Je cherche pas vraiment une méthode, ni un tuto mais comme c'est pour monter une étude, je voulais juste avoir un ordre d'idée du nombre de vecteurs dont il fallait pouvoir disposer pour commencer à travailler sérieusement.  
J'imagine que ça dépend de la précision que je veux, et de la méthode employé.  
 
A vrai dire je cherche plutôt un ordre de grandeur général : 1000 vecteurs ? 10 0000 ou 1M ?
 
Si vous avez de quoi me renseigner je suis preneur :o


Le nombre d'observations de ton échantillon dépendra de la taille de la population, de la méthode utilisée, si tu as besoin d'avoir plusieurs jeux des données (p.ex. un pour calibrer, un pour tester la méthode) et le niveau du risque/d'erreur acceptable.
P.ex. pour étudier la population française, l'échantillon de 2000 personnes permet d'obtenir une analyse suffisamment précise.
 
Est-ce que l'étude, que tu veux lancée, aura un gros budget? Si oui, il faut la montée avec le spécialiste du data science qui comprend ce qu'on peut faire et ce qu'on ne peut pas faire. Sinon tu risque de trouver avec une étude irréalisable.

n°5052604
Profil sup​primé
Posté le 12-05-2018 à 09:28:53  answer
 

Je vais être un peu plus pragmatique que les collegues. Quelques idées:
 
- Moins de 10,000 observations/exemples: K-Means avec une recherche sur le nombre de clusters (analyse type elbow). Tu peux essayer d'ajouter avant un algo de compression type PCA.
- plus de 10,000 observations: un (stacked)autoencoder suivi d'un K-means sur l'avant dernière layer de ton reseau
 
Pas besoin de data scientist ou d'expert pour essayer l'une des deux méthodes et avoir une première idée de la performance

n°5052605
Rasthor
Posté le 12-05-2018 à 09:44:02  profilanswer
 

Tu fais comment l'autoencoder ? T'as un lien tuto pour ca ?
 
Une alternative a K-means+elbow, c'est DBSCAN.

n°5052608
Rasthor
Posté le 12-05-2018 à 09:58:46  profilanswer
 

Nickel, merci!

n°5052624
phosphoryl​ase
Posté le 12-05-2018 à 14:48:23  profilanswer
 

Merci à tous pour vos réponses aidantes ! :o
C'est difficile pour moi de donner trop de détails mais je vais tenter de vous répondre le plus précisément possible.
Pour vous donner un thème général, il s'agit ici de médecine humaine, pour faire de l'adaptation de traitement sur mesure. En GROS.

 
Rontgen a écrit :

Ce que tu cherches à faire semble bien correspondre à de l'apprentissage non supervisé
C'est un domaine qui est bien moins maîtrisé que l'apprentissage supervisé, donc difficile de donner des guidelines, a part the renvoyer vers les algos classiques
Peut être on pourrait plus t'aider si on savait le but ultime de ta démarche : pourquoi tu veux trouver le cluster auquel appartient un nouvel exemple ?
Concernant le nombre d'exemples c'est pareil, je pense pas qu'on puisse te donner un nombre car ça dépend beaucoup de la distribution de tes données mais aussi du nombre de clusters que tu veux estimer

 

Je comprends le problème du manque de guidelines.
Le but ultime c'est de la faire la recommendation à partir du cluster.

 

X,Y,Z sont trois vecteurs appartenant au cluster A.
Si phi appartient à A, alors la recommendation associé au cluster A sera faite.

 

C'est à peu de choses près la même chose que Amazon "You should read this" or "This item is also recommended for you".

 

Recommendation sur critères de similarité.  

  
Rasthor a écrit :

Exactement! C'est extremement dur de trouver la bonne methode avec les bons parametres. C'est presque de la magie noire.

 

Par contre, tu peux deja regarder ces pages web:

 

http://scikit-learn.org/stable/index.html

 

http://scikit-learn.org/stable/mod [...] clustering

 


 

Oui je connais ces librairies et j'avais commencé à faire quelques recherches là dedans. Merci :o
Python ne me pose plus trop de problèmes à comprendre, mais soyons honnête je n'ai pas forcément la compréhension des mécanismes, donc ça ferait un peu boîte noir, et je pense que ça peut mener à faire de fausses conclusions comme dit Cassio   :(
Tous les gens que je vois faire du "ML" autour du moi et qui font qu'appliquer des fonction sci-kit .... un peu ridicule cette affaire  :lol:

 


cassiopella a écrit :


Est-ce que ces vecteurs sont
1) des observations des événements quelconques et peuvent être définies en tant que les variables aléatoires?
2) ou ce sont les vecteurs "fabriqués"/"pré-définit" (p.ex. le résultat des gros calculs/modèle etc.)?
Si c'est le cas 2, à mon avis il ne faut pas utiliser l'apprentissage automatique parce que cela n'a pas de sens. Sauf si on étudie le processus de "fabrication" de ses vecteurs qui est au moins en partie aléatoire.
Si c'est le cas 1, il faut trouver un modèle statistique et une méthode pertinente d'évaluer les relations entre les données. Que représente ce vecteur? Que veux tu étudier? De façon générale il n'y a pas de modèle idéal, mais il y a des modèles complétement inutiles et/ou qui conduisent à faire des conclusions erronées. Certes, on peut essayer tous les modèles et choisir le/les meilleur(s), mais c'est quoi un bon modèle? Je suis d'accord avec Rasthor, si on fait pas attention, on aura une boite noire sans comprendre ce qui se passe à l'intérieur.

 
Citation :


J'espère pouvoir faire de l'apprentissage non supervisé. J'attends de l'algorithme qu'il essaie de faire des groupes/clusters par similarité et qu'ensuite en lui donnant un vecteur à n coordonnées, il puisse me dire que ce vecteur appartient à cette catégorie là.


Il faut définir ce que représente cette similarité.

 
Citation :

Je cherche pas vraiment une méthode, ni un tuto mais comme c'est pour monter une étude, je voulais juste avoir un ordre d'idée du nombre de vecteurs dont il fallait pouvoir disposer pour commencer à travailler sérieusement.
J'imagine que ça dépend de la précision que je veux, et de la méthode employé.

 

A vrai dire je cherche plutôt un ordre de grandeur général : 1000 vecteurs ? 10 0000 ou 1M ?

 

Si vous avez de quoi me renseigner je suis preneur :o


Le nombre d'observations de ton échantillon dépendra de la taille de la population, de la méthode utilisée, si tu as besoin d'avoir plusieurs jeux des données (p.ex. un pour calibrer, un pour tester la méthode) et le niveau du risque/d'erreur acceptable.
P.ex. pour étudier la population française, l'échantillon de 2000 personnes permet d'obtenir une analyse suffisamment précise.

 

Est-ce que l'étude, que tu veux lancée, aura un gros budget? Si oui, il faut la montée avec le spécialiste du data science qui comprend ce qu'on peut faire et ce qu'on ne peut pas faire. Sinon tu risque de trouver avec une étude irréalisable.

 

Le vecteur est constitué de données/score issue de la clinique.
Par exemple, une femme (0) de moins de 50 ans (1) avec une pathologie X dont le score clinique est de 5/9 (5) diagnostiqué il y a moins de 2 ans (1) non récidivante (0) et confirmé par des examens histologiques (1) avec un IMC de 19 (19) et dont le besoin énergétique a été déterminé à 1230kcal / jour et qui a été traité avec le médicament 28 (28)  pendant 20 jours (20) avec une amélioration de 30% de l'état clinique  (0.3)
Ca fait un vecteur : 0,1,5,1,0,1, 19,1230,28,20,0.2

 


Pour la notion de similarité, je pensais à faire de la "proximité des profils" ... un truc du genre. Distance euclidienne ? Je ne sais pas à vrai dire.
Un peu de la même façon qu'Amazon est capable de dire que deux clients se ressemblent et que sur cette base, on peut recommender X.

 

Je pense qu'on peut considérer que c'est des variables aléatoires mais je suis pas certain.
Le traitement et sa durée sont pas des variables aléatoire. Il y a eu de la décision là dedans. Donc je ne sais pas trop répondre à ta question :o

 

Tu dis "le" spécialiste ? Tu dis le spécialiste data relatif au domaine ?

 

Pour ce qui est du budget, ça dépend justement de ce qu'on peut faire des datas.

 


Pour en dire un peu plus, on dispose déjà d'un outil d'aides à la décision clinique, au suivi des patients. C'était très straightforward, y'avait un input clinique et y'avait un output d'aide à la décision. On se demande si on peut pas récupérer les données de chaque input/output pour changer la manière dont on aide à la décision. Actuellement, on aide à la décision sur une base "scientifique", "from the book" avec ce qu'on sait des maladies, des publications scientifiques, mais on voudrait voir si on peut pas exploiter le résultat de ces donnés, pour essayer de l'aide à la décision "statistique".

 

C'est peut être une vraie connerie :o

 

Pour mettre au point une telle affaire, si on doit prévoir large et faire un travailler un DScientist, il faudrait compter combien ? 100 000 euros d'honoraires ?
L'argent n'est pas forcément un problème. :o

  


Merci pour cette estimation. Je vais garder ce chiffre de 10 000 en tête :o

Message cité 1 fois
Message édité par phosphorylase le 12-05-2018 à 14:51:19
n°5052627
Profil sup​primé
Posté le 12-05-2018 à 15:29:32  answer
 

Je sais pas si c'est l'endroit le plus adapté mais est ce qu'il y a des personnes qui sont calés en SAS et en séries temporelles ici ?
 
J'aurais besoin d'aide pour programmer un test de dickey fuller augmenté (retrouver les valeurs critiques a différents seuils de risque à l'aide de méthode de monte carlo)  
 
SI ca dit quelqu'un qu'il hésite pas à se manifester  :bounce:


Message édité par Profil supprimé le 12-05-2018 à 15:30:11
n°5052637
o_BlastaaM​oof_o
Posté le 12-05-2018 à 17:19:33  profilanswer
 

phosphorylase a écrit :

Merci à tous pour vos réponses aidantes ! :o  
C'est difficile pour moi de donner trop de détails mais je vais tenter de vous répondre le plus précisément possible.  
Pour vous donner un thème général, il s'agit ici de médecine humaine, pour faire de l'adaptation de traitement sur mesure. En GROS.  
 


 

phosphorylase a écrit :


 
Je comprends le problème du manque de guidelines.
Le but ultime c'est de la faire la recommendation à partir du cluster.  
 
X,Y,Z sont trois vecteurs appartenant au cluster A.  
Si phi appartient à A, alors la recommendation associé au cluster A sera faite.  
 
C'est à peu de choses près la même chose que Amazon "You should read this" or "This item is also recommended for you".  
 
Recommendation sur critères de similarité.    
 
 
 


 

phosphorylase a écrit :


 
Oui je connais ces librairies et j'avais commencé à faire quelques recherches là dedans. Merci :o  
Python ne me pose plus trop de problèmes à comprendre, mais soyons honnête je n'ai pas forcément la compréhension des mécanismes, donc ça ferait un peu boîte noir, et je pense que ça peut mener à faire de fausses conclusions comme dit Cassio   :(  
Tous les gens que je vois faire du "ML" autour du moi et qui font qu'appliquer des fonction sci-kit .... un peu ridicule cette affaire  :lol:  
 
 


 

phosphorylase a écrit :


 
Le vecteur est constitué de données/score issue de la clinique.  
Par exemple, une femme (0) de moins de 50 ans (1) avec une pathologie X dont le score clinique est de 5/9 (5) diagnostiqué il y a moins de 2 ans (1) non récidivante (0) et confirmé par des examens histologiques (1) avec un IMC de 19 (19) et dont le besoin énergétique a été déterminé à 1230kcal / jour et qui a été traité avec le médicament 28 (28)  pendant 20 jours (20) avec une amélioration de 30% de l'état clinique  (0.3)  
Ca fait un vecteur : 0,1,5,1,0,1, 19,1230,28,20,0.2
 
 
Pour la notion de similarité, je pensais à faire de la "proximité des profils" ... un truc du genre. Distance euclidienne ? Je ne sais pas à vrai dire.  
Un peu de la même façon qu'Amazon est capable de dire que deux clients se ressemblent et que sur cette base, on peut recommender X.  
 
Je pense qu'on peut considérer que c'est des variables aléatoires mais je suis pas certain.  
Le traitement et sa durée sont pas des variables aléatoire. Il y a eu de la décision là dedans. Donc je ne sais pas trop répondre à ta question :o  
 
Tu dis "le" spécialiste ? Tu dis le spécialiste data relatif au domaine ?  
 
Pour ce qui est du budget, ça dépend justement de ce qu'on peut faire des datas.  
 
 
Pour en dire un peu plus, on dispose déjà d'un outil d'aides à la décision clinique, au suivi des patients. C'était très straightforward, y'avait un input clinique et y'avait un output d'aide à la décision. On se demande si on peut pas récupérer les données de chaque input/output pour changer la manière dont on aide à la décision. Actuellement, on aide à la décision sur une base "scientifique", "from the book" avec ce qu'on sait des maladies, des publications scientifiques, mais on voudrait voir si on peut pas exploiter le résultat de ces donnés, pour essayer de l'aide à la décision "statistique".  
 
C'est peut être une vraie connerie :o  
 
Pour mettre au point une telle affaire, si on doit prévoir large et faire un travailler un DScientist, il faudrait compter combien ? 100 000 euros d'honoraires ?  
L'argent n'est pas forcément un problème. :o  
 
 


 

phosphorylase a écrit :


 
Merci pour cette estimation. Je vais garder ce chiffre de 10 000 en tête :o


Ton truc, c’est juste du clustering bête et méchant. Inutile de se faire chier avec des techniques archi sophistiquées ou des pseudo-experts de mon cul. Tu prends le premier algo de clustering non supervisé qui passe, tu normalises tes données comme ça a été dit plus haut, tu lances le bidule avec le nombre de clusters souhaité (ou tu testes plusieurs valeurs pour voir ce qui est le plus pertinent), un peu de visu pour confirmer le résultat et hop fin de l’histoire.

n°5052639
Bébé Yoda
Posté le 12-05-2018 à 17:25:24  profilanswer
 

La voix de la raison

n°5052645
Rontgen
Posté le 12-05-2018 à 17:50:33  profilanswer
 

Non mais c'est toujours pareil, avec 20% d'effort, tu obtiens 80% des résultats, et vice versa.
Ce qu'il dit, c'est effectivement la première étape, à la portée de n'importe qui, et je suis sur que tous les intervenants ici feraient ça.
La partie difficile, c'est l'analyse des résultats et comment les améliorer pour que ce soit effectivement utile en prod.

n°5052651
cassiopell​a
Posté le 12-05-2018 à 18:37:47  profilanswer
 


Compte tenu de données que phosphorylase a, pas de PCA. Les relations ne sont pas linéaires. PCA n'a pas de sens.

n°5052654
cassiopell​a
Posté le 12-05-2018 à 19:26:55  profilanswer
 

phosphorylase, pas la peine d'utiliser les modèles poussées de ML sauf si vous avez beaucoup des données et les approches classiques donnent les résultats non satisfaisant. Je travaille dans le secteur plus au moins proche (comportements/préférences des gens, secteurs énergie). Si jamais vous faites une offre d'emploi,  éviter d'utiliser les mots à la mode (machine learning, big data, apprentissage automatique, data scientist etc.). Les professionnels comprendront et vous éliminerez les gens sans expérience qui ont réagit aux buzzwords.
 
Il faut voir du côté de la microéconométrie (modèles qualitatifs) et statistiques appliquées à la médecine. C'est un vaste champs de recherche avec beaucoup de choses déjà faites. Vos données sont spécifiques et on utilisent les modèles appropriés. Les plus banales sont :
- Logit multinomial. Pas la peine de faire Probit sauf si vous avez besoin de jouer avec la matrice de variance-covariance des erreurs. Les résultats seront les mêmes avec le temps de calcul beaucoup plus grand.
- Modèles avec les données censurées (tobit)
- Modèles ordonnés ou séquentiels.  
- Classes latentes.
A mon avis vous trouverai facilement en France un PhD ou postdoc qui travaille sur ces sujets là et connait les modèles récents.  
 
Très peu utilisés en France, mais beaucoup à l'étranger. Il y a tout un champs d'application en médecine: discrete choice models, discret choice experiment. Cela couvre le tout : comment monter l'enquête, comment choisir les patients, quel questionnaires proposer et de quelle façon, comment récolter les données. Concernant l'estimation et la classification des données, c'est assez proche des modèles qualitatifs que j'ai cité plus haut.  
Avantages: il y a des modèles plus intéressant avec des résultats plus facilement interprétables.  
Désavantages : les modèles peuvent être très lourds qui n'arrivent pas à gérer 5000-10000 observations. Il faut savoir programmer, optimiser l'estimation etc.
Une équipe à EPFL ont fait pas mal de scripts sous python: http://biogeme.epfl.ch/
Ils proposent aussi les cours : http://transp-or.epfl.ch/dca/
Ce n'est pas mentionné, mais il y a 1/3 des participants au cours viennent du secteur hospitalier/firme pharmaceutique.
Il y a une autre équipe à l'université de Leeds en UK, une autre à Danemark, Allemagne, Pays Bas.  
 
Pour la classification, les liens données plus haut peuvent aider. Mais attention, vous avez des relations non linéaires!
 
Pour réduire les données: analyse en correspondance multiple au lieu de PCA.

n°5052655
cassiopell​a
Posté le 12-05-2018 à 19:29:38  profilanswer
 


Ou ça.  :jap: Bon, il y a pas mal de méthodes.

n°5052669
Bébé Yoda
Posté le 12-05-2018 à 23:54:13  profilanswer
 

Je suis pas sûr de bien comprendre pourquoi PCA n'aurait pas de sens en fait

n°5052674
o_BlastaaM​oof_o
Posté le 13-05-2018 à 00:26:06  profilanswer
 

Bébé Yoda a écrit :

Je suis pas sûr de bien comprendre pourquoi PCA n'aurait pas de sens en fait


En effet, il serait bon de revoir la théorie associée, aucun rapport entre PCA et linéarité ou non linéarité.
La PCA, ce n’est ni plus ni moins un changement de base.
 
Ce qui peut poser problème en revanche :
- la PCA s’applique à des données quantitatives, ce n’est pas le cas ici ;
- comme toute technique de réduction de dimension, il faut avoir des dimensions à réduire (sans déconner), or il n’y en a que 10 ici.
 
Bref, je maintiens, un bon vieux k-means et basta.

n°5052792
phosphoryl​ase
Posté le 13-05-2018 à 19:23:47  profilanswer
 

Merci à tous pour vos réponses.
:o

 

Je retiens toutes les idées proposées, notamment sur la notion de "clustering" bête et méchant qui d'après les PPT que je viens de me taper correspond plus à mon projet.
C'est vrai que les k-means me paraissaient être accessibles à ma compréhension et répondaient intuitivement à ma notion de de similarité.
Je vais regarder par là.

 

Pour les modèles d'aspirations économétriques, j'ai commencé à regarder certains cours de l'EPFL comme le suggérait Cassiopapela. Je te remercie d'ailleurs pour ta réponse détaillée.
Néanmoins j'ai du mal à saisir en quoi ça s'applique à ma situation dans la mesure où les discret model ont l'air d'être utilisé pour comprendre les causes qui entraînent un choix. Je ne cherche pas à analyser (même si je pense que ça peut être intéressant) les raisons du choix. Je cherche à trouver le meilleur choix. Sur une décision du médicament, la raison du choix n'est pas toujours uniquement objective. Elle peut être basée sur une intuition du clinicien.
Pas évidemment de démêler tout ça. Je pense que je vais aller voir le Pr à l'EPFL et lui demander si ça s'applique à la situation.
J'ai plus l'impression que le discret model choices répond à la question : sur quelles critères le choix a-t-il été établi alors que je cherche à répondre à la question : quel est le meilleur choix ?
Je suis néanmoins d'accord que la première réponse aide à répondre à la seconde question mais le détour me semble un effort trop exigeant.

 

Quoiqu'il en soit, il faut que je demande à quelqu'un de travailler là dessus.

 

J'ai prévu 80 000 euros de budget (Paris) pour avoir un conseil de qualité dans ce domaine. Embaucher quelqu'un me parait un peu prématuré sans voir où ça peut aller déjà :o
 Le marché des data scientists est dur à analyser. Pas mal de filous là dedans j'ai l'impression :o
Ca semble raisonnable pour commencer à construire un projet ?

 

Je sais que je n'aurais pas la réponse mais construire une étude sans connaître le nombre de péquins adaptés, c'est désagréable et c'est assez dur à défendre auprès d'investisseurs. Je vais quand même partir sur l'idée de 10 0000 :o

  


Message édité par phosphorylase le 13-05-2018 à 19:26:08
n°5052796
o_BlastaaM​oof_o
Posté le 13-05-2018 à 20:22:33  profilanswer
 

Contacte Quantmetry ou Octo qui font partie des boîtes valables dans le secteur.
Pour Quantmetry, si tu dis en plus que tu viens de ma part, ça les fera filer droit :o

n°5052800
Profil sup​primé
Posté le 13-05-2018 à 20:39:29  answer
 

Les discrete choice model peuvent également te permettre de réaliser de la classification.(binaire ou multinomial)
Et comme tu l'as souligné, dans ce type de modèle il est plus facile d'interpreter l'effet de chacune de tes variables.
Après avoir lu rapidement ton objectif, je pense qu'une telle modélisation est tout à fait adaptée (de meme que les K-means), surtout qu'elle est sans doute moins boite noite que cette dernière.
 
 
Par ailleurs, les spécialistes de la data vous avez un avis sur les MS data science de Telecom paris et de l'ENSAE ?


Message édité par Profil supprimé le 13-05-2018 à 20:44:10
n°5052808
o_BlastaaM​oof_o
Posté le 13-05-2018 à 21:03:29  profilanswer
 

En formation initiale ou continue?

n°5052855
Profil sup​primé
Posté le 14-05-2018 à 04:04:01  answer
 

o_BlastaaMoof_o a écrit :

En formation initiale ou continue?


 
Initiale, ca serait pour completer un Master d'économetrie ou on fait que du SAS ahah

n°5052929
o_BlastaaM​oof_o
Posté le 14-05-2018 à 10:55:14  profilanswer
 


Pour avoir fait le tour récemment des principaux masters, voici mon avis sur la question.
 
ENSAE : ce sera le plus facile à appréhender pour toi au vu de ton profil. En revanche, c'est à mon sens l'un des masters les moins complets du marché : 100% R (et pas de Python), fait l'impasse sur des points méthodologiques importants, volet modélisation à mon sens survolé.
Telecom ParisTech : trop orienté Big Data et technologies associées à mon sens. A la rentrée, il devrait y avoir une nouvelle offre de formation moins portée sur ces aspects et plus proche de ce que proposent les autres écoles.
 
De mon point de vue, le meilleur master de la place est celui de l'X. Le programme est complet, bien structuré et l'équipe pédagogique est vraiment top.

n°5052958
Profil sup​primé
Posté le 14-05-2018 à 11:55:59  answer
 

o_BlastaaMoof_o a écrit :


Pour avoir fait le tour récemment des principaux masters, voici mon avis sur la question.
 
ENSAE : ce sera le plus facile à appréhender pour toi au vu de ton profil. En revanche, c'est à mon sens l'un des masters les moins complets du marché : 100% R (et pas de Python), fait l'impasse sur des points méthodologiques importants, volet modélisation à mon sens survolé.
Telecom ParisTech : trop orienté Big Data et technologies associées à mon sens. A la rentrée, il devrait y avoir une nouvelle offre de formation moins portée sur ces aspects et plus proche de ce que proposent les autres écoles.
 
De mon point de vue, le meilleur master de la place est celui de l'X. Le programme est complet, bien structuré et l'équipe pédagogique est vraiment top.


 
Merci de ta réponse.  
En effet, en regardant le programme de l'ENSAE il y a beaucoup de similitude avec ce que je fais actuellement.  
Après celui de l'X doit être énormément sélectif non ?  
De plus, je ne viens pas d'un cursus non plus ultra matheux (MASE/Éco gestion) çela ne risque pas de me poser problème ?
 
PS: quand tu parles du master de l'X, ce'st bien de celui ci dont il s'agit ?
https://datascience-x-master-paris-saclay.fr/


Message édité par Profil supprimé le 14-05-2018 à 11:59:50
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  34  35  36  ..  128  129  130  131  132  133

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR