Forum |  HardWare.fr | News | Articles | PC | Prix | S'identifier | S'inscrire | Aide | Shop Recherche
929 connectés 

 



Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  35  36  37  38  39  40  41  42  43
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5053035
NonComplia​nt
Posté le 14-05-2018 à 14:14:47  profilanswer
 

Reprise du message précédent :
Yes c'est celui là. Il y a un nombre de crédits à valider au cours de l'année, les cours sont à la carte. Libre à toi d'orienter ton parcours comme tu le souhaites

mood
Publicité
Posté le 14-05-2018 à 14:14:47  profilanswer
 

n°5053055
sinbadlema​rin
Posté le 14-05-2018 à 15:20:13  profilanswer
 

Y à des formations diplomantes à distance? :o

n°5053097
rokhlan
Posté le 14-05-2018 à 16:01:03  profilanswer
 

https://openclassrooms.com/paths?t=1455-Data
 
C'est en partenariat avec L'ENSAE-ENSAI pour celui de Data Analyst et CentraleSupélec pour Data Architect et Scientist.
 
Par contre, je ne sais absolument pas ce qu'ils valent.

n°5053147
sinbadlema​rin
Posté le 14-05-2018 à 17:56:09  profilanswer
 

500£/mois  [:mistersid3]

n°5053150
Dooley-
Posté le 14-05-2018 à 18:03:42  profilanswer
 

 

C'est pas énorme... Ça fait seulement 5k par an

n°5053189
cassiopell​a
Posté le 14-05-2018 à 19:58:09  profilanswer
 

o_BlastaaMoof_o a écrit :


ENSAE : ce sera le plus facile à appréhender pour toi au vu de ton profil. En revanche, c'est à mon sens l'un des masters les moins complets du marché : 100% R (et pas de Python), fait l'impasse sur des points méthodologiques importants, volet modélisation à mon sens survolé.


Je viens de regarder le programme. Franchement... je le trouve inintéressant. A mon avis ce master spécialisé s'adresse aux ingénieurs qui n'ont pas fait de stats ou quasiment pas. Il a une jolie étiquette: Data science (quelle blague!) + ENSAE. Mais je pense que les entreprises ne sont pas dupes.

 

L'ensemble du bloc d'intégration = L3/M1 d'une fac d'éco qui se respecte un minimum.

 

Bloc de spécialisation : j'ai vu la moité de ce bloc en M1 (économie appliqué, Nanterre), bases des données - SQL fait en L2.

 

Bloc d'approfondissement : données de panel et modèles qualitatifs "avancé". Si rien n'est changé depuis 3 ans, il s'agit des cours basiques M1, rien de spéciale (j'ai vu les PPT des cours).

 

Si on veut des connaissance pour devenir Data scientiste, à mon avis il faut chercher ailleurs.

Message cité 2 fois
Message édité par cassiopella le 14-05-2018 à 19:58:40
n°5053205
hugobine
Posté le 14-05-2018 à 21:06:01  profilanswer
 

cassiopella a écrit :


Je viens de regarder le programme. Franchement... je le trouve inintéressant. A mon avis ce master spécialisé s'adresse aux ingénieurs qui n'ont pas fait de stats ou quasiment pas. Il a une jolie étiquette: Data science (quelle blague!) + ENSAE. Mais je pense que les entreprises ne sont pas dupes.
 
L'ensemble du bloc d'intégration = L3/M1 d'une fac d'éco qui se respecte un minimum.
 
Bloc de spécialisation : j'ai vu la moité de ce bloc en M1 (économie appliqué, Nanterre), bases des données - SQL fait en L2.
 
Bloc d'approfondissement : données de panel et modèles qualitatifs "avancé". Si rien n'est changé depuis 3 ans, il s'agit des cours basiques M1, rien de spéciale (j'ai vu les PPT des cours).
 
Si on veut des connaissance pour devenir Data scientiste, à mon avis il faut chercher ailleurs.


 
Merci de ton avis,
 
Pour info je suis en M1 ESA, voila le programme du M2 http://www.univ-orleans.fr/deg/mas [...] /esa2.html
Le soucis c'est que le master de l'X meme en majorant le M2 m'étonnerait que j'ai mes chances de l'intégrer ... :/

n°5053223
o_BlastaaM​oof_o
Numéricien devenu
Posté le 14-05-2018 à 22:59:54  profilanswer
 

cassiopella a écrit :


Je viens de regarder le programme. Franchement... je le trouve inintéressant. A mon avis ce master spécialisé s'adresse aux ingénieurs qui n'ont pas fait de stats ou quasiment pas. Il a une jolie étiquette: Data science (quelle blague!) + ENSAE. Mais je pense que les entreprises ne sont pas dupes.
 
L'ensemble du bloc d'intégration = L3/M1 d'une fac d'éco qui se respecte un minimum.
 
Bloc de spécialisation : j'ai vu la moité de ce bloc en M1 (économie appliqué, Nanterre), bases des données - SQL fait en L2.
 
Bloc d'approfondissement : données de panel et modèles qualitatifs "avancé". Si rien n'est changé depuis 3 ans, il s'agit des cours basiques M1, rien de spéciale (j'ai vu les PPT des cours).
 
Si on veut des connaissance pour devenir Data scientiste, à mon avis il faut chercher ailleurs.


Nous sommes donc d'accord :o

n°5053711
phosphoryl​ase
Posté le 16-05-2018 à 17:39:52  profilanswer
 

Question à mes data scientists sûrs :

 

Deux stratégies relatifs au projet présentés plus haut :

 

1. Récupérer très vite une très grande quantité de données dont la fiabilité est incertaine. L'incertitude est inquantifiable.
2. Récupérer très lentement (100 fois plus lentement que 1) la même quantité d'information avec une fiabilité sur laquelle l'incertitude est très faible.

 


1 ou 2 :o ?

 

La raison donne 2 :o
Il semble que l'expérience donne 1 :o

 

Je me trompe ?


Message édité par phosphorylase le 16-05-2018 à 17:41:05
n°5053715
Rontgen
Posté le 16-05-2018 à 18:09:52  profilanswer
 

Encore une fois c'est difficile de répondre, parce que ca dépend de la qualité des données rapides par rapport à la difficulté du problème.
 
Perso j'aurais tendance à privilégier la solution 2 car ca m'est déjà arrivé de bosser sur un projet ou la qualité des données nous a fait passer de "ca ne marche pas du tout" à "en fait c'est possible". Cela dit, il y a plein de cas ou la solution 1 marcherait déjà bien si le problème est pas très compliqué.
En tout cas, si tu choisis la solution 2 et que c'est possible, je te conseille de bien réfléchir à la variabilité des rares données que tu vas avoir. N'oublie pas que les stats, c'est de l'interpolation, pas de l'extrapolation; donc il vaut mieux couvrir au maximum l'espace de tes données, quitte à avoir une densité faible.
 
Après, selon l'algo que tu utilises, une solution hybride est de collecter beaucoup de données bof pour commencer à entrainer ton algo et se servir du résultat comme initialisation (ou régularisation) plus tard quand tu raffineras sur un jeu de données plus petit mais plus fiable.

mood
Publicité
Posté le 16-05-2018 à 18:09:52  profilanswer
 

n°5053780
Dooley-
Posté le 16-05-2018 à 21:15:39  profilanswer
 

Bon , 2 pistes bien avancées pour un nouveau poste.

 

Option 1 très gros site de e-commerce pour faire du NLP et projets à priori très intéressants. Pas d'augmentation de salaire mais ville sympa et sujet qui m'interesse. Option 2 data scientist pour un des gros cabinets de conseil en strats. Missions pas forcément toujours aussi intéressantes, mais très bon salaire. Vos avis? De l'experience des cabinets MBB?

 

pas de quote svp


Message édité par Dooley- le 16-05-2018 à 21:27:01
n°5053785
Rasthor
Liberté et Patrie
Posté le 16-05-2018 à 22:20:50  profilanswer
 

L'option 1, tu dois demenager ? La ville est moins chere que celle ou tu es maintenant ?
L'option 2, c'est dans une ville chere ?  
 
C"est quoi la diff de salaire en % ? Tu peux sûrement grappiller quelques % sur l'option 1. Apres, si le salaire de l'option 1 est deja tres correct, pourquoi pas. Ne pas oublier que tu vas passer un max de temps au boulot. L'argent c'est bien, mais ca ne fait pas tout. L'ambiance au boulot, c'est important aussi.

n°5053787
Darmstadti​um
Pipoteur grotesque
Posté le 16-05-2018 à 22:27:10  profilanswer
 

C'est chez γ (Γ) l'offre 2 ? Ou QB chez M ?


---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets
n°5053788
o_BlastaaM​oof_o
Numéricien devenu
Posté le 16-05-2018 à 22:42:48  profilanswer
 

Perso, les cabinets de conseil en strat, pour rien au monde j’y fous les pieds.
Je côtoie régulièrement leurs consultants, leur job a l’air tellement chiant...

n°5053806
Rasthor
Liberté et Patrie
Posté le 17-05-2018 à 00:40:25  profilanswer
 

Ca consiste en quoi le job de "conseiller en strat"? :o

Message cité 1 fois
Message édité par Rasthor le 17-05-2018 à 00:40:44
n°5053809
o_BlastaaM​oof_o
Numéricien devenu
Posté le 17-05-2018 à 01:01:49  profilanswer
 

Rasthor a écrit :

Ca consiste en quoi le job de "conseiller en strat"? :o


Faire des slides.

n°5054291
zuf
AMD Fanboy
Posté le 18-05-2018 à 12:45:16  profilanswer
 

L'option 1 ressemble à des postes que j'ai vu passer à Bordoï chez un célèbre site de vente en ligne :o

n°5054304
phosphoryl​ase
Posté le 18-05-2018 à 14:34:31  profilanswer
 

Rontgen a écrit :

Encore une fois c'est difficile de répondre, parce que ca dépend de la qualité des données rapides par rapport à la difficulté du problème.
 
Perso j'aurais tendance à privilégier la solution 2 car ca m'est déjà arrivé de bosser sur un projet ou la qualité des données nous a fait passer de "ca ne marche pas du tout" à "en fait c'est possible". Cela dit, il y a plein de cas ou la solution 1 marcherait déjà bien si le problème est pas très compliqué.
En tout cas, si tu choisis la solution 2 et que c'est possible, je te conseille de bien réfléchir à la variabilité des rares données que tu vas avoir. N'oublie pas que les stats, c'est de l'interpolation, pas de l'extrapolation; donc il vaut mieux couvrir au maximum l'espace de tes données, quitte à avoir une densité faible.
 
Après, selon l'algo que tu utilises, une solution hybride est de collecter beaucoup de données bof pour commencer à entrainer ton algo et se servir du résultat comme initialisation (ou régularisation) plus tard quand tu raffineras sur un jeu de données plus petit mais plus fiable.


 
Merci Rontgen :o  
 
C'est noté ;)

n°5054539
KevinTran
Photographe
Posté le 20-05-2018 à 15:43:20  profilanswer
 

@Douley
Si c'est pour venir à Brdx chez un gros acteur e-commerce, viens, la ville t'accueillera avec plaisir. Par contre l'entreprise a assez mauvaise réputation en terme de culture avec un turn-over important...
Peut-être que leur équipe data est mieux considérée mais j'émet quelques doutes :o


---------------
http://www.kevintran.fr
n°5054562
Dooley-
Posté le 20-05-2018 à 19:16:48  profilanswer
 

KevinTran a écrit :

@Douley
Si c'est pour venir à Brdx chez un gros acteur e-commerce, viens, la ville t'accueillera avec plaisir. Par contre l'entreprise a assez mauvaise réputation en terme de culture avec un turn-over important...
Peut-être que leur équipe data est mieux considérée mais j'émet quelques doutes :o


 
Rien à voir avec Bordeaux, c'est une capitale Européenne hors France.  :o

n°5054755
Herazor
Posté le 21-05-2018 à 22:10:14  profilanswer
 

o_BlastaaMoof_o a écrit :


 En revanche, c'est à mon sens l'un des masters les moins complets du marché : 100% R (et pas de Python)

 

Il n'y a pas de cours en tant que tel mais dire qu'il n'y a "pas de python" est un mensonge (les projets son faisables dans le langage que tu veux :o)

 

Ps : pour le descriptif de tous les cours des 3A peu importe les voies : http://www.ensae.fr/wp-content/upl [...] que_3A.pdf
Ps 2 : Pour ceux qui veulent s'orienter vers la recherche il y a aussi le M2 Stat-ML qui correspond plus ou moins au Data Sciences avec une orientation plus théorique/stat, l'effectif est aussi très réduit  (20 étudiants) et le suivi est assez solide (https://master-statml-paris-saclay.math.u-psud.fr/)

Message cité 2 fois
Message édité par Herazor le 21-05-2018 à 22:11:05
n°5054808
Dr_Zaius
Simius Mathematicus
Posté le 22-05-2018 à 10:57:43  profilanswer
 

Herazor a écrit :


 
Il n'y a pas de cours en tant que tel mais dire qu'il n'y a "pas de python" est un mensonge (les projets son faisables dans le langage que tu veux :o)
 
Ps : pour le descriptif de tous les cours des 3A peu importe les voies : http://www.ensae.fr/wp-content/upl [...] que_3A.pdf
Ps 2 : Pour ceux qui veulent s'orienter vers la recherche il y a aussi le M2 Stat-ML qui correspond plus ou moins au Data Sciences avec une orientation plus théorique/stat, l'effectif est aussi très réduit  (20 étudiants) et le suivi est assez solide (https://master-statml-paris-saclay.math.u-psud.fr/)


 
20 étudiants, c'est pas la guerre pour l'obtenir ce master ?


---------------
« Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran
n°5054850
hugobine
Posté le 22-05-2018 à 13:14:47  profilanswer
 

Herazor a écrit :


 
Il n'y a pas de cours en tant que tel mais dire qu'il n'y a "pas de python" est un mensonge (les projets son faisables dans le langage que tu veux :o)
 
Ps : pour le descriptif de tous les cours des 3A peu importe les voies : http://www.ensae.fr/wp-content/upl [...] que_3A.pdf
Ps 2 : Pour ceux qui veulent s'orienter vers la recherche il y a aussi le M2 Stat-ML qui correspond plus ou moins au Data Sciences avec une orientation plus théorique/stat, l'effectif est aussi très réduit  (20 étudiants) et le suivi est assez solide (https://master-statml-paris-saclay.math.u-psud.fr/)


 
Les étudiants du MS data science sont avec les 3A voie data science ?

n°5054856
Herazor
Posté le 22-05-2018 à 13:57:25  profilanswer
 

Oui la seule différence c'est qu'à la fin tu as pas le diplôme d'ingénieur (c'est le cas pour toutes les 3A/MS). Ca explique aussi pourquoi il n'y a pas de cours de code en python : on est à peu près tous capable de se débrouiller quand on y arrive :)

 


@Zaius : Je sais pas trop, j'y ai été pris sans avoir non plus un dossier de dingue (a ma connaissance on a étéque 2 a l'ENSAE en première session) mais en tout cas la population est en générale assez balaise (X, ENS Maths,M1 Orsay et Agrégés)


Message édité par Herazor le 22-05-2018 à 14:03:44
n°5054866
NonComplia​nt
Posté le 22-05-2018 à 15:08:40  profilanswer
 

Salut tout le monde  :hello:  
 
J'essaye d'entraîner un autoencoder pour réduire les dimensions d'un set d'images et donc mieux les visualiser et m'en servir pour faire de l'apprentissage supervisé.  
 
 
Bref, avec le data set MNIST, ça marchait super bien (en même temps qu'est-ce qui ne marche pas avec le MNIST ? :o ) et j'obtenais ça : https://image.noelshack.com/fichier [...] ist-2d.png et ça https://image.noelshack.com/fichier [...] uction.png
 
 
Maintenant mon pb c'est d'appliquer cette approche à un data set de visages, celui là (lfw) : http://scikit-learn.org/stable/mod [...] eople.html  
 
(J'ai bien sûr normalisé les données (X/255), histoire d'avoir des valeurs entre 0 et 1)
 
 
Mon data set ressemble à ça :  https://image.noelshack.com/fichier [...] ta-set.png  https://image.noelshack.com/fichier [...] a-set2.png
 
Pas moyen d'obtenir des résultats cohérents, voici à quoi ressemble mon réseau et ce que j'obtiens : https://image.noelshack.com/fichier [...] reseau.png  https://image.noelshack.com/fichier [...] che-po.png
 
 
Voici ce que j'ai essayé de faire so far pour régler le pb :
 
Vu qu'avec le MNIST j'ai entraîné mon réseau avec 60 000 images, j'ai augmenté artificiellement mon data set de cette façon :  
 
https://image.noelshack.com/fichier [...] e-code.png
 
https://image.noelshack.com/fichier [...] ations.png
 
J'ai essayé de rajouter/enlever des couches, changer les fonctions d'activations (mais apparemment Relu serait la meilleure : http://cs231n.github.io/neural-networks-1/#actfun )  
 
 
Bref, je suis un peu coincé. Des idées ?  :jap:
 
PS : J'ai aussi mis les images sur imgur, apparemment noelshack merde en ce moment : https://imgur.com/a/7GSDgNI  
 
Jpeux donner mon notebook en MP ou des bouts de code au besoin
 
Merci :jap:


Message édité par NonCompliant le 22-05-2018 à 15:12:56
n°5054871
Rontgen
Posté le 22-05-2018 à 15:29:35  profilanswer
 

Ca a l'air d'etre de l'underfitting, ton reseau arrive a reconstruire des images petites et simples comme MNIST mais pas des visages humains
 
Mais en fait, ton architecture à base de Dense layers me semble très bizarre; pour des réseaux agissant sur des images, il vaut mieux utiliser des layers à base de Convolution2D/Pooling2D pour obtenir une invariance par translation  
Je pense que c'est là le problème principal, je n'ai jamais vu quelqu'un utiliser juste des layers Dense sur des images


Message édité par Rontgen le 22-05-2018 à 15:31:17
n°5054874
NonComplia​nt
Posté le 22-05-2018 à 15:36:36  profilanswer
 

Ouaip c'est très clairement de l'underfitting. Maintenant pourquoi l'erreur est aussi basse si c'est underfit ? (dernière itération loss: 0.0181 - val_loss: 0.0178) et pourquoi avec les layers dense ça marche sur les images MNIST ?  :??:  
 
Pour l'architecture, je me suis basé sur ce post : https://stats.stackexchange.com/que [...] pca/292516
 
Je pense avoir une piste sur le pourquoi ça marche aussi bien sur MNIST et pas sur mon dataset : les images c'est en gros un fond noir et une image blanche donc grosso modo soit un pixel mort = 0 soit un pixel vivant = 1 d'où la fonction d'activation sigmoid sur la dernière couche... mais ça, ça ne marchera pas sur mon dataset...  
 
Merci pour ta réponse, jvais regarder de ce côté  :jap:


Message édité par NonCompliant le 22-05-2018 à 15:37:30
n°5054875
uuuugh
Posté le 22-05-2018 à 15:39:08  profilanswer
 

avec un autoencoder aussi basique tu vas pas pouvoir aller beaucoup plus loin que MNIST
 
déjà à partir du moment où tu travailles sur des images plus compliquées que MNIST il vaut mieux utiliser des couches convolutionelles
ensuite tu vas avoir besoin de plus de dimensions pour représenter les images de ton 2ème dataset que pour MNIST (pour mnist par exemple en gros tu pourrais avoir : le label, l'angle de rotation, l'épaisseur du trait et quelques autres données qui te permettent de representer ton image, ce sera beaucoup plus complexe pour la tête d'une personnes)
 
edit : j'avais pas vu la réponse de rontgen :o


Message édité par uuuugh le 22-05-2018 à 15:40:08
n°5054877
NonComplia​nt
Posté le 22-05-2018 à 15:45:52  profilanswer
 

Merci pour ta réponse :jap:
 
Effectivement, jvais passer sur des couches convolutionnelles...  
 
 
Par contre je n'ai pas bien compris ton "tu vas avoir besoin de plus de dimensions pour représenter les images de ton 2ème dataset", l'idée (de ce que j'ai compris) c'est de passer de 1850 dimensions (50*37 pixels) à 2 (pour pouvoir plot les clusters s'il y en a comme pour le MNIST) puis reconstruire l'input (donc 1850 - ... - 2 - ... - 1850 )... du coup tu entends quoi par ça ?  :??:  
 

n°5054879
uuuugh
Posté le 22-05-2018 à 15:57:21  profilanswer
 

demande toi comment tu pourrais representer le visage d'une personne avec 2 données, est-ce que cela te semble possible?
 
imagine que je te regarde une image de MNIST, et je te dis "c'est un 3, un peu incliné sur la droite"(je te donne 2 informations, 2 dimensions pour représenter la donnée). tu vas pouvoir redessiner l'image un peu près correctement, donc ça semble +- cohérent de réduire la dimension de ton dataset à 2.
 
maintenant avec 2 données est ce que tu penses être capable de capter la spécificité d'un visage ?

n°5054880
Rontgen
Posté le 22-05-2018 à 16:01:44  profilanswer
 

Je suis d'accord complètement avec uuuugh, j'avais pas fait gaffe mais la couche bottleneck avec une dimension 2, ca risque de pas être suffisant et c'est peut etre même la raison principale des résultats actuels (c'est clairement un facteur d'underfitting)
 
Rien ne t'empeche d'augmenter la dimension à 10 par exemple, mais de ne visualiser que 2 ou 3 components à la fois.

n°5054881
NonComplia​nt
Posté le 22-05-2018 à 16:08:17  profilanswer
 

Très bien donc la couche du milieu doit avoir une dimensionnalité suffisante et il est donc impossible de plot le dataset en 2D pour y identifier de potentiels groupements comme pour le MNIST ( genre ça : https://image.noelshack.com/fichier [...] ist-2d.png )... ça marche, merci de l'aide :jap:

n°5054980
Rasthor
Liberté et Patrie
Posté le 22-05-2018 à 21:36:53  profilanswer
 

http://www.bbc.co.uk/news/technology-44208455
 
Samsung AI centre to be based at Cambridge
 

Citation :

"In the US, PhD qualified experts can command packages of $300,000 [£223,000]. And in the UK, whilst not yet at that level, salaries are spiralling," said Mike Drew, head of technology at the headhunting company.
 
A distinguished academic in the AI field confirmed this to me - he said anyone who had done post-graduate research in machine learning could "name their price".  
 
He suspected that Samsung was already struggling to find the people it needed.

n°5054992
o_BlastaaM​oof_o
Numéricien devenu
Posté le 22-05-2018 à 22:14:53  profilanswer
 

Oui oui :o

n°5055039
NonComplia​nt
Posté le 23-05-2018 à 08:51:10  profilanswer
 

Pourquoi on se fait chier avec des méthodes super chiadées alors que PCA ça marche mieux dans la plupart des cas ? Vous avez un use case réel où un autoencoder serait préféré à un PCA ?
 

n°5055043
Rontgen
Posté le 23-05-2018 à 09:21:55  profilanswer
 

NonCompliant a écrit :

Pourquoi on se fait chier avec des méthodes super chiadées alors que PCA ça marche mieux dans la plupart des cas ? Vous avez un use case réel où un autoencoder serait préféré à un PCA ?


On se fait chier parce que les méthodes chiadées, c'est intéressant et sexy :D
Si on avait présenté le ML comme des régressions linéaires, y'aurait pas une telle hype :o
 
Si tu as des images, du son ou du texte, enfin bref des données très structurées, les réseaux de neurones ca défonce tout
Pour le reste (probablement le cas de la majorité des boites) ou tu as juste n features sous forme de colonnes, des méthodes basiques peuvent être suffisantes :jap:

n°5055045
TiDom
Posté le 23-05-2018 à 09:41:14  profilanswer
 

Rontgen a écrit :


On se fait chier parce que les méthodes chiadées, c'est intéressant et sexy :D
Si on avait présenté le ML comme des régressions linéaires, y'aurait pas une telle hype :o
 
Si tu as des images, du son ou du texte, enfin bref des données très structurées, les réseaux de neurones ca défonce tout
Pour le reste (probablement le cas de la majorité des boites) ou tu as juste n features sous forme de colonnes, des méthodes basiques peuvent être suffisantes :jap:


 
Notons que les réseaux de neurones font partie des méthodes basiques :o

n°5055053
Rontgen
Posté le 23-05-2018 à 10:04:23  profilanswer
 

Si tu appelles "basiques" les méthodes qui sont l'état de l'art... :o
 
Enfin peut-être j'aurais du préciser réseaux de neurones convolutionnels :jap:

n°5055061
NonComplia​nt
Posté le 23-05-2018 à 10:34:49  profilanswer
 

Rontgen a écrit :


On se fait chier parce que les méthodes chiadées, c'est intéressant et sexy :D
Si on avait présenté le ML comme des régressions linéaires, y'aurait pas une telle hype :o
 
Si tu as des images, du son ou du texte, enfin bref des données très structurées, les réseaux de neurones ca défonce tout
Pour le reste (probablement le cas de la majorité des boites) ou tu as juste n features sous forme de colonnes, des méthodes basiques peuvent être suffisantes :jap:


 
Effectivement, l'important c'est de se sentir DATA SCIENTIST [:risin''sun:1]  
 
Plus sérieusement, j'ai travaillé un peu sur les techniques de "Manifold learning" où le but était de découvrir des structures locales/non linéaires etc. http://scikit-learn.org/stable/modules/manifold.html et j'étais tombé sur un papier expliquant que ces techniques marchaient moins bien qu'un bête PCA sur un vrai data set (ie : pas un data set généré artificiellement genre MNIST)...  
 
M'enfin bon, en tout cas c'est assez intéressant et ça me permet de pratiquer  :jap:

n°5055070
Rasthor
Liberté et Patrie
Posté le 23-05-2018 à 10:58:06  profilanswer
 

Rontgen a écrit :


On se fait chier parce que les méthodes chiadées, c'est intéressant et sexy :D
Si on avait présenté le ML comme des régressions linéaires, y'aurait pas une telle hype :o
 
Si tu as des images, du son ou du texte, enfin bref des données très structurées, les réseaux de neurones ca défonce tout
Pour le reste (probablement le cas de la majorité des boites) ou tu as juste n features sous forme de colonnes, des méthodes basiques peuvent être suffisantes :jap:


Gradient boosting, and nothing else. :o

n°5055088
NonComplia​nt
Posté le 23-05-2018 à 11:49:55  profilanswer
 

Bon, du coup grâce à vos conseils je me suis penché sur les Convolutional Auto-Encoders et j'ai 2 questions :  
 
La couche "convolutionnelle" se présente comme ceci :

Code :
  1. Conv2D(32, (3, 3), activation='relu', padding='same')


 
Pour la fonction d'activation, si j'en crois le lien que j'ai posté plus haut, relu est la meilleure donc je vais la garder. Maintenant j'ai une question sur les 2 autres paramètres, d'après ce que j'ai compris le (3,3) représente la taille du kernel, en gros la taille de la matrice que l'on va faire glisser sur notre image pour en extraire les "patterns", le 32 représente "l'épaisseur" de notre espace (On passe de 28*28*1 à 28*28*32...puis on utilise une couche pour "downsampler" -> 14*14*32 etc jusqu'à obtenir une représentation suffisamment "petite et épaisse" )
 
J'ai un peu de mal à comprendre le pourquoi de ces chiffres, par exemple mes images sont des 50*37(*1, c'est en gris), il y a une règle pour choisir la taille du kernel ou celle des filtres ? Ou bien c'est un peu boite noire, je test plusieurs trucs jusqu'à ce que ça marche ( :o ) ... Bref si vous avez des conseils je suis preneur :jap:
 
 
Pour ma deuxième question, l'idée c'est de passer de 60 000 images à 784 dimensions (par ex), ce qui implique de longs temps de calculs pour un algo de classification classique à 60 000 images à 150 dimensions (que j'ai obtenu via PCA par ex), ce qui allège considérablement le temps de calcul tout en gardant une précision/f&-score tout à fait raisonnable.
 
Est-il possible de faire la même chose avec l'autoencoder convolutionnel ? Càd récupérer la représentation de mes données compressées (7*7*128 par exemple) et l'utiliser à des fins de classification.  
 
Je sais que pour un autoencoder avec des couches "Dense" c'est possible, j'ai fait 784-512-120-512-784 et j'ai utilisé la représentation en 120 dimensions pour classifier mes images, ce qui a plutôt bien marché. Maintenant j'ai un doute de la faisabilité du truc avec le réseau convolutionnel vu que la représentation est "petite et épaisse"...
 
 
Merci  :jap:
 
 
EDIT : Je sais que le post est un peu confus, c'est juste que c'est pas encore limpide pour moi [:inick:3]

Message cité 2 fois
Message édité par NonCompliant le 23-05-2018 à 12:01:40
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  35  36  37  38  39  40  41  42  43

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2018 Hardware.fr SARL (Signaler un contenu illicite) / Groupe LDLC / Shop HFR