[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 34 35 36 .. 128 129 130 131 132 133 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Bébé Yoda

Reprise du message précédent :
Aujourd'hui c'est lundredi

Publicité

sinbadlemarin

J'ai un bac S et une formation d'ingénieur

Message cité 3 fois

Bébé Yoda

C'est déjà un bon début.
Hésite pas à en dire plus sur tes objectifs

Rontgen

sinbadlemarin a écrit :

J'ai un bac S et une formation d'ingénieur

En maths ? Info ?
Quel est ton niveau en programmation ?

Aussi, combien de temps tu veux y consacrer ?
Reprendre des études à temps plein, ou bosser 30min par soir ?

Message édité par Rontgen le 07-05-2018 à 15:03:55

Bébé Yoda

Ne lis pas les derniers posts de Blastaa sinon tu vas te décourager

Message cité 1 fois

Tidom

Bébé Yoda a écrit :

Ne lis pas les derniers posts de Blastaa sinon tu vas te décourager

Je citerais même Saint-François d'Assise :

Citation :

Commence par faire le nécessaire, puis fait ce qu'il est possible de faire et tu réaliseras l'impossible sans t'en apercevoir

Oui lundredi n'est pas encore fini (et demain c'est férié )

rokhlan

sinbadlemarin a écrit :

J'ai un bac S et une formation d'ingénieur

Si t’as pas fait le MVA, laisse tomber. Tu ne sera qu’une merde [:nonoo_:3]

Message cité 1 fois

o_BlastaaMoof_o

rokhlan a écrit :

Si t’as pas fait le MVA, laisse tomber. Tu ne sera qu’une merde [:nonoo_:3]

On a justement un stagiaire MVA qui vient de débuter son stage, assez curieux de voir ce qu’il a dans le ventre...

Message cité 1 fois

o_BlastaaMoof_o

draculax

Des insight de comment ça se passe en stage chez FAIR / Google Brain / NVidia en IA ?

Publicité

Profil supprimé

[:sharliecheen:4]

phosphorylase

Bonsoir ,

J'y connais pas grand chose au machine learning, data science and so on mais je crois que ça peut s'appliquer plus ou moins à mon cas

J'ai un set de vecteurs dans un espace de dimension n=30

J'espère pouvoir faire de l'apprentissage non supervisé. J'attends de l'algorithmes qu'il essaie de faire des groupes/clusters par similarité et qu'ensuite en lui donnant un vecteur à n coordonnées, il puisse me dire que ce vecteur appartient à cette catégorie là.

Je cherche pas vraiment une méthode, ni un tuto mais comme c'est pour monter une étude, je voulais juste avoir un ordre d'idée du nombre de vecteurs dont il fallait pouvoir disposer pour commencer à travailler sérieusement.
J'imagine que ça dépend de la précision que je veux, et de la méthode employé.

A vrai dire je cherche plutôt un ordre de grandeur général : 1000 vecteurs ? 10 0000 ou 1M ?

Si vous avez de quoi me renseigner je suis preneur

Message cité 1 fois

Rontgen

Ce que tu cherches à faire semble bien correspondre à de l'apprentissage non supervisé
C'est un domaine qui est bien moins maîtrisé que l'apprentissage supervisé, donc difficile de donner des guidelines, a part the renvoyer vers les algos classiques
Peut être on pourrait plus t'aider si on savait le but ultime de ta démarche : pourquoi tu veux trouver le cluster auquel appartient un nouvel exemple ?
Concernant le nombre d'exemples c'est pareil, je pense pas qu'on puisse te donner un nombre car ça dépend beaucoup de la distribution de tes données mais aussi du nombre de clusters que tu veux estimer

Message cité 1 fois

Rasthor

Exactement! C'est extremement dur de trouver la bonne methode avec les bons parametres. C'est presque de la magie noire.

Par contre, tu peux deja regarder ces pages web:

http://scikit-learn.org/stable/index.html

http://scikit-learn.org/stable/mod [...] clustering

Message cité 1 fois

cassiopella

phosphorylase a écrit :

J'ai un set de vecteurs dans un espace de dimension n=30

Est-ce que ces vecteurs sont
1) des observations des événements quelconques et peuvent être définies en tant que les variables aléatoires?
2) ou ce sont les vecteurs "fabriqués"/"pré-définit" (p.ex. le résultat des gros calculs/modèle etc.)?
Si c'est le cas 2, à mon avis il ne faut pas utiliser l'apprentissage automatique parce que cela n'a pas de sens. Sauf si on étudie le processus de "fabrication" de ses vecteurs qui est au moins en partie aléatoire.
Si c'est le cas 1, il faut trouver un modèle statistique et une méthode pertinente d'évaluer les relations entre les données. Que représente ce vecteur? Que veux tu étudier? De façon générale il n'y a pas de modèle idéal, mais il y a des modèles complétement inutiles et/ou qui conduisent à faire des conclusions erronées. Certes, on peut essayer tous les modèles et choisir le/les meilleur(s), mais c'est quoi un bon modèle? Je suis d'accord avec Rasthor, si on fait pas attention, on aura une boite noire sans comprendre ce qui se passe à l'intérieur.

Citation :

J'espère pouvoir faire de l'apprentissage non supervisé. J'attends de l'algorithme qu'il essaie de faire des groupes/clusters par similarité et qu'ensuite en lui donnant un vecteur à n coordonnées, il puisse me dire que ce vecteur appartient à cette catégorie là.

Il faut définir ce que représente cette similarité.

Citation :

Je cherche pas vraiment une méthode, ni un tuto mais comme c'est pour monter une étude, je voulais juste avoir un ordre d'idée du nombre de vecteurs dont il fallait pouvoir disposer pour commencer à travailler sérieusement.
J'imagine que ça dépend de la précision que je veux, et de la méthode employé.

A vrai dire je cherche plutôt un ordre de grandeur général : 1000 vecteurs ? 10 0000 ou 1M ?

Si vous avez de quoi me renseigner je suis preneur

Le nombre d'observations de ton échantillon dépendra de la taille de la population, de la méthode utilisée, si tu as besoin d'avoir plusieurs jeux des données (p.ex. un pour calibrer, un pour tester la méthode) et le niveau du risque/d'erreur acceptable.
P.ex. pour étudier la population française, l'échantillon de 2000 personnes permet d'obtenir une analyse suffisamment précise.

Est-ce que l'étude, que tu veux lancée, aura un gros budget? Si oui, il faut la montée avec le spécialiste du data science qui comprend ce qu'on peut faire et ce qu'on ne peut pas faire. Sinon tu risque de trouver avec une étude irréalisable.

Message cité 1 fois

Profil supprimé

Je vais être un peu plus pragmatique que les collegues. Quelques idées:

- Moins de 10,000 observations/exemples: K-Means avec une recherche sur le nombre de clusters (analyse type elbow). Tu peux essayer d'ajouter avant un algo de compression type PCA.
- plus de 10,000 observations: un (stacked)autoencoder suivi d'un K-means sur l'avant dernière layer de ton reseau

Pas besoin de data scientist ou d'expert pour essayer l'une des deux méthodes et avoir une première idée de la performance

Message cité 2 fois

Rasthor

Tu fais comment l'autoencoder ? T'as un lien tuto pour ca ?

Une alternative a K-means+elbow, c'est DBSCAN.

Message cité 1 fois

Rasthor

Nickel, merci!

phosphorylase

Merci à tous pour vos réponses aidantes !
C'est difficile pour moi de donner trop de détails mais je vais tenter de vous répondre le plus précisément possible.
Pour vous donner un thème général, il s'agit ici de médecine humaine, pour faire de l'adaptation de traitement sur mesure. En GROS.

Rontgen a écrit :

Je comprends le problème du manque de guidelines.
Le but ultime c'est de la faire la recommendation à partir du cluster.

X,Y,Z sont trois vecteurs appartenant au cluster A.
Si phi appartient à A, alors la recommendation associé au cluster A sera faite.

C'est à peu de choses près la même chose que Amazon "You should read this" or "This item is also recommended for you".

Recommendation sur critères de similarité.

Rasthor a écrit :

Exactement! C'est extremement dur de trouver la bonne methode avec les bons parametres. C'est presque de la magie noire.

Par contre, tu peux deja regarder ces pages web:

http://scikit-learn.org/stable/index.html

http://scikit-learn.org/stable/mod [...] clustering

Oui je connais ces librairies et j'avais commencé à faire quelques recherches là dedans. Merci
Python ne me pose plus trop de problèmes à comprendre, mais soyons honnête je n'ai pas forcément la compréhension des mécanismes, donc ça ferait un peu boîte noir, et je pense que ça peut mener à faire de fausses conclusions comme dit Cassio
Tous les gens que je vois faire du "ML" autour du moi et qui font qu'appliquer des fonction sci-kit .... un peu ridicule cette affaire :lol:

cassiopella a écrit :

Citation :

Il faut définir ce que représente cette similarité.

Citation :

A vrai dire je cherche plutôt un ordre de grandeur général : 1000 vecteurs ? 10 0000 ou 1M ?

Si vous avez de quoi me renseigner je suis preneur

Est-ce que l'étude, que tu veux lancée, aura un gros budget? Si oui, il faut la montée avec le spécialiste du data science qui comprend ce qu'on peut faire et ce qu'on ne peut pas faire. Sinon tu risque de trouver avec une étude irréalisable.

Pour la notion de similarité, je pensais à faire de la "proximité des profils" ... un truc du genre. Distance euclidienne ? Je ne sais pas à vrai dire.
Un peu de la même façon qu'Amazon est capable de dire que deux clients se ressemblent et que sur cette base, on peut recommender X.

Je pense qu'on peut considérer que c'est des variables aléatoires mais je suis pas certain.
Le traitement et sa durée sont pas des variables aléatoire. Il y a eu de la décision là dedans. Donc je ne sais pas trop répondre à ta question

Tu dis "le" spécialiste ? Tu dis le spécialiste data relatif au domaine ?

Pour ce qui est du budget, ça dépend justement de ce qu'on peut faire des datas.

Pour en dire un peu plus, on dispose déjà d'un outil d'aides à la décision clinique, au suivi des patients. C'était très straightforward, y'avait un input clinique et y'avait un output d'aide à la décision. On se demande si on peut pas récupérer les données de chaque input/output pour changer la manière dont on aide à la décision. Actuellement, on aide à la décision sur une base "scientifique", "from the book" avec ce qu'on sait des maladies, des publications scientifiques, mais on voudrait voir si on peut pas exploiter le résultat de ces donnés, pour essayer de l'aide à la décision "statistique".

C'est peut être une vraie connerie

Pour mettre au point une telle affaire, si on doit prévoir large et faire un travailler un DScientist, il faudrait compter combien ? 100 000 euros d'honoraires ?
L'argent n'est pas forcément un problème.

Merci pour cette estimation. Je vais garder ce chiffre de 10 000 en tête

Message cité 1 fois
Message édité par phosphorylase le 12-05-2018 à 14:51:19

Profil supprimé

Je sais pas si c'est l'endroit le plus adapté mais est ce qu'il y a des personnes qui sont calés en SAS et en séries temporelles ici ?

J'aurais besoin d'aide pour programmer un test de dickey fuller augmenté (retrouver les valeurs critiques a différents seuils de risque à l'aide de méthode de monte carlo)

SI ca dit quelqu'un qu'il hésite pas à se manifester :bounce:

Message édité par Profil supprimé le 12-05-2018 à 15:30:11

o_BlastaaMoof_o

phosphorylase a écrit :

Je comprends le problème du manque de guidelines.
Le but ultime c'est de la faire la recommendation à partir du cluster.

X,Y,Z sont trois vecteurs appartenant au cluster A.
Si phi appartient à A, alors la recommendation associé au cluster A sera faite.

C'est à peu de choses près la même chose que Amazon "You should read this" or "This item is also recommended for you".

Recommendation sur critères de similarité.

phosphorylase a écrit :

Le vecteur est constitué de données/score issue de la clinique.
Par exemple, une femme (0) de moins de 50 ans (1) avec une pathologie X dont le score clinique est de 5/9 (5) diagnostiqué il y a moins de 2 ans (1) non récidivante (0) et confirmé par des examens histologiques (1) avec un IMC de 19 (19) et dont le besoin énergétique a été déterminé à 1230kcal / jour et qui a été traité avec le médicament 28 (28) pendant 20 jours (20) avec une amélioration de 30% de l'état clinique (0.3)
Ca fait un vecteur : 0,1,5,1,0,1, 19,1230,28,20,0.2

Pour la notion de similarité, je pensais à faire de la "proximité des profils" ... un truc du genre. Distance euclidienne ? Je ne sais pas à vrai dire.
Un peu de la même façon qu'Amazon est capable de dire que deux clients se ressemblent et que sur cette base, on peut recommender X.

Je pense qu'on peut considérer que c'est des variables aléatoires mais je suis pas certain.
Le traitement et sa durée sont pas des variables aléatoire. Il y a eu de la décision là dedans. Donc je ne sais pas trop répondre à ta question

Tu dis "le" spécialiste ? Tu dis le spécialiste data relatif au domaine ?

Pour ce qui est du budget, ça dépend justement de ce qu'on peut faire des datas.

Pour en dire un peu plus, on dispose déjà d'un outil d'aides à la décision clinique, au suivi des patients. C'était très straightforward, y'avait un input clinique et y'avait un output d'aide à la décision. On se demande si on peut pas récupérer les données de chaque input/output pour changer la manière dont on aide à la décision. Actuellement, on aide à la décision sur une base "scientifique", "from the book" avec ce qu'on sait des maladies, des publications scientifiques, mais on voudrait voir si on peut pas exploiter le résultat de ces donnés, pour essayer de l'aide à la décision "statistique".

C'est peut être une vraie connerie

Pour mettre au point une telle affaire, si on doit prévoir large et faire un travailler un DScientist, il faudrait compter combien ? 100 000 euros d'honoraires ?
L'argent n'est pas forcément un problème.

phosphorylase a écrit :

Merci pour cette estimation. Je vais garder ce chiffre de 10 000 en tête

Ton truc, c’est juste du clustering bête et méchant. Inutile de se faire chier avec des techniques archi sophistiquées ou des pseudo-experts de mon cul. Tu prends le premier algo de clustering non supervisé qui passe, tu normalises tes données comme ça a été dit plus haut, tu lances le bidule avec le nombre de clusters souhaité (ou tu testes plusieurs valeurs pour voir ce qui est le plus pertinent), un peu de visu pour confirmer le résultat et hop fin de l’histoire.

Bébé Yoda

La voix de la raison

Rontgen

Non mais c'est toujours pareil, avec 20% d'effort, tu obtiens 80% des résultats, et vice versa.
Ce qu'il dit, c'est effectivement la première étape, à la portée de n'importe qui, et je suis sur que tous les intervenants ici feraient ça.
La partie difficile, c'est l'analyse des résultats et comment les améliorer pour que ce soit effectivement utile en prod.

cassiopella

Compte tenu de données que phosphorylase a, pas de PCA. Les relations ne sont pas linéaires. PCA n'a pas de sens.

cassiopella

phosphorylase, pas la peine d'utiliser les modèles poussées de ML sauf si vous avez beaucoup des données et les approches classiques donnent les résultats non satisfaisant. Je travaille dans le secteur plus au moins proche (comportements/préférences des gens, secteurs énergie). Si jamais vous faites une offre d'emploi, éviter d'utiliser les mots à la mode (machine learning, big data, apprentissage automatique, data scientist etc.). Les professionnels comprendront et vous éliminerez les gens sans expérience qui ont réagit aux buzzwords.

Il faut voir du côté de la microéconométrie (modèles qualitatifs) et statistiques appliquées à la médecine. C'est un vaste champs de recherche avec beaucoup de choses déjà faites. Vos données sont spécifiques et on utilisent les modèles appropriés. Les plus banales sont :
- Logit multinomial. Pas la peine de faire Probit sauf si vous avez besoin de jouer avec la matrice de variance-covariance des erreurs. Les résultats seront les mêmes avec le temps de calcul beaucoup plus grand.
- Modèles avec les données censurées (tobit)
- Modèles ordonnés ou séquentiels.
- Classes latentes.
A mon avis vous trouverai facilement en France un PhD ou postdoc qui travaille sur ces sujets là et connait les modèles récents.

Très peu utilisés en France, mais beaucoup à l'étranger. Il y a tout un champs d'application en médecine: discrete choice models, discret choice experiment. Cela couvre le tout : comment monter l'enquête, comment choisir les patients, quel questionnaires proposer et de quelle façon, comment récolter les données. Concernant l'estimation et la classification des données, c'est assez proche des modèles qualitatifs que j'ai cité plus haut.
Avantages: il y a des modèles plus intéressant avec des résultats plus facilement interprétables.
Désavantages : les modèles peuvent être très lourds qui n'arrivent pas à gérer 5000-10000 observations. Il faut savoir programmer, optimiser l'estimation etc.
Une équipe à EPFL ont fait pas mal de scripts sous python: http://biogeme.epfl.ch/
Ils proposent aussi les cours : http://transp-or.epfl.ch/dca/
Ce n'est pas mentionné, mais il y a 1/3 des participants au cours viennent du secteur hospitalier/firme pharmaceutique.
Il y a une autre équipe à l'université de Leeds en UK, une autre à Danemark, Allemagne, Pays Bas.

Pour la classification, les liens données plus haut peuvent aider. Mais attention, vous avez des relations non linéaires!

Pour réduire les données: analyse en correspondance multiple au lieu de PCA.

cassiopella

Ou ça. :jap: Bon, il y a pas mal de méthodes.

Bébé Yoda

Je suis pas sûr de bien comprendre pourquoi PCA n'aurait pas de sens en fait

Message cité 1 fois

o_BlastaaMoof_o

Bébé Yoda a écrit :

Je suis pas sûr de bien comprendre pourquoi PCA n'aurait pas de sens en fait

En effet, il serait bon de revoir la théorie associée, aucun rapport entre PCA et linéarité ou non linéarité.
La PCA, ce n’est ni plus ni moins un changement de base.

Ce qui peut poser problème en revanche :
- la PCA s’applique à des données quantitatives, ce n’est pas le cas ici ;
- comme toute technique de réduction de dimension, il faut avoir des dimensions à réduire (sans déconner), or il n’y en a que 10 ici.

Bref, je maintiens, un bon vieux k-means et basta.

phosphorylase

Merci à tous pour vos réponses.

Je retiens toutes les idées proposées, notamment sur la notion de "clustering" bête et méchant qui d'après les PPT que je viens de me taper correspond plus à mon projet.
C'est vrai que les k-means me paraissaient être accessibles à ma compréhension et répondaient intuitivement à ma notion de de similarité.
Je vais regarder par là.

Pour les modèles d'aspirations économétriques, j'ai commencé à regarder certains cours de l'EPFL comme le suggérait Cassiopapela. Je te remercie d'ailleurs pour ta réponse détaillée.
Néanmoins j'ai du mal à saisir en quoi ça s'applique à ma situation dans la mesure où les discret model ont l'air d'être utilisé pour comprendre les causes qui entraînent un choix. Je ne cherche pas à analyser (même si je pense que ça peut être intéressant) les raisons du choix. Je cherche à trouver le meilleur choix. Sur une décision du médicament, la raison du choix n'est pas toujours uniquement objective. Elle peut être basée sur une intuition du clinicien.
Pas évidemment de démêler tout ça. Je pense que je vais aller voir le Pr à l'EPFL et lui demander si ça s'applique à la situation.
J'ai plus l'impression que le discret model choices répond à la question : sur quelles critères le choix a-t-il été établi alors que je cherche à répondre à la question : quel est le meilleur choix ?
Je suis néanmoins d'accord que la première réponse aide à répondre à la seconde question mais le détour me semble un effort trop exigeant.

Quoiqu'il en soit, il faut que je demande à quelqu'un de travailler là dessus.

J'ai prévu 80 000 euros de budget (Paris) pour avoir un conseil de qualité dans ce domaine. Embaucher quelqu'un me parait un peu prématuré sans voir où ça peut aller déjà
Le marché des data scientists est dur à analyser. Pas mal de filous là dedans j'ai l'impression
Ca semble raisonnable pour commencer à construire un projet ?

Je sais que je n'aurais pas la réponse mais construire une étude sans connaître le nombre de péquins adaptés, c'est désagréable et c'est assez dur à défendre auprès d'investisseurs. Je vais quand même partir sur l'idée de 10 0000

Message édité par phosphorylase le 13-05-2018 à 19:26:08

o_BlastaaMoof_o

Contacte Quantmetry ou Octo qui font partie des boîtes valables dans le secteur.
Pour Quantmetry, si tu dis en plus que tu viens de ma part, ça les fera filer droit

Profil supprimé

Les discrete choice model peuvent également te permettre de réaliser de la classification.(binaire ou multinomial)
Et comme tu l'as souligné, dans ce type de modèle il est plus facile d'interpreter l'effet de chacune de tes variables.
Après avoir lu rapidement ton objectif, je pense qu'une telle modélisation est tout à fait adaptée (de meme que les K-means), surtout qu'elle est sans doute moins boite noite que cette dernière.

Par ailleurs, les spécialistes de la data vous avez un avis sur les MS data science de Telecom paris et de l'ENSAE ?

Message édité par Profil supprimé le 13-05-2018 à 20:44:10

o_BlastaaMoof_o

En formation initiale ou continue?

Message cité 1 fois

Profil supprimé

o_BlastaaMoof_o a écrit :

En formation initiale ou continue?

Initiale, ca serait pour completer un Master d'économetrie ou on fait que du SAS ahah

Message cité 1 fois

o_BlastaaMoof_o

Pour avoir fait le tour récemment des principaux masters, voici mon avis sur la question.

ENSAE : ce sera le plus facile à appréhender pour toi au vu de ton profil. En revanche, c'est à mon sens l'un des masters les moins complets du marché : 100% R (et pas de Python), fait l'impasse sur des points méthodologiques importants, volet modélisation à mon sens survolé.
Telecom ParisTech : trop orienté Big Data et technologies associées à mon sens. A la rentrée, il devrait y avoir une nouvelle offre de formation moins portée sur ces aspects et plus proche de ce que proposent les autres écoles.

De mon point de vue, le meilleur master de la place est celui de l'X. Le programme est complet, bien structuré et l'équipe pédagogique est vraiment top.

Message cité 3 fois

Profil supprimé

o_BlastaaMoof_o a écrit :

Merci de ta réponse.
En effet, en regardant le programme de l'ENSAE il y a beaucoup de similitude avec ce que je fais actuellement.
Après celui de l'X doit être énormément sélectif non ?
De plus, je ne viens pas d'un cursus non plus ultra matheux (MASE/Éco gestion) çela ne risque pas de me poser problème ?

PS: quand tu parles du master de l'X, ce'st bien de celui ci dont il s'agit ?
https://datascience-x-master-paris-saclay.fr/

Message édité par Profil supprimé le 14-05-2018 à 11:59:50

Publicité

Page : 1 2 3 4 5 .. 34 35 36 .. 128 129 130 131 132 133

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.156 secondes