Data Science is the new sexy !
Pourtant, il n'y a pas de topic dédié sur HFR ! Voilà qui est chose faite
Bienvenue donc à tous les manipulateurs de données, les statisticiens, et tous ceux qui ont la flemme d'écrire des algos eux-mêmes
1) Informations générales
* Buzzword 1 : Machine Learning
TL;DR - Le machine learning, c'est des méthodes statistiques qui permettent à l'ordinateur \"d'apprendre une tache\" à partir de plein d'examples, plutot que d'exécuter un algorithme qui aurait du être concu spécialement pour ca par un expert (cf applications dans la section suivante).
Par exemple, pour trouver ce que représente une image, c'est plus pratique de donner à l'ordi un ensemble de photos en lui disant \"ca c'est un chien, ca c'est une maison\" plutot que d'écrire un algorithme qui reconnait un chien, un autre qui reconnait une maison, etc
* Buzzword 2 : Deep Learning
TL;DR - Sous-ensemble de méthodes de machine learning qui essayent de modéliser quelque chose de compliqué à partir de représentations très simples (qu'il s'agit estimer). Terme typiquement employé dans le contexte des réseaux de neurones. C'est un petit peu le contraire du feature engineering, qui consiste à combiner à la main des variables pour essayer de construire des statistiques de plus haut niveau, et qui demande souvent une expertise dans le domaine du problème à résoudre.
* Buzzword 3 : Big Data
TL;DR - Ensemble de techniques permettant de manipuler et traiter de très gros volumes de données, qui typiquement ne rentrent pas dans la mémoire d'un seul ordi.
2) Applications
Le machine learning est la nouvelle hype du moment, et de nombreuses entreprises s'y mettent. On retrouve donc des applications pour tous les gouts:
- Traitement d'image :
* Depuis un certain temps déjà, des algos de ML sont capables de lire des chiffres http://yann.lecun.com/exdb/lenet/index.html
* Recherche avec mots clés parmi les photos http://googleresearch.blogspot.it/ [...] cross.html
* Plus récemment, les Google Cars incoporent aussi du ML pour se déplacer de facon autonome
- Traitement du son
* Plus besoin de présenter Shazam, qui reconnait automatiquement et en quelques secondes n'importe quelle musique http://coding-geek.com/how-shazam-works/
* Les assistants vocaux sur les smartphones sont également de plus en plus fonctionnels grace au ML http://googleresearch.blogspot.it/ [...] -more.html
- Santé et médecine :
* Le ML permet d'automatiser l'analyse d'images médicales comme détecter des organes ( https://www.youtube.com/watch?v=7vtpWbrVdDY ) ou prédire l'évolution d'une maladie ( http://news.mit.edu/2015/predictin [...] brain-1006 )
* Aide au diagnostique pour les médecins https://www.youtube.com/watch?v=A4Uk88-DOBA
- Loisirs :
* La Kinect reconnait les parties de votre corps grace à du ML http://research.microsoft.com/pubs [...] nition.pdf
* Le programme Watson créé par IBM gagne à Jeopardy https://www.youtube.com/watch?v=WFR3lOm_xhE
* AlphaGo, réalisé par Google, vient de battre un joueur professionnel de Go http://deepmind.com/alpha-go.html
- Finance / Assurance :
* Discussion sur le sujet https://www.quora.com/How-do-financ [...] e-learning
- Imagerie satellitaire :
* Des start-ups se lancent dans l'analyse d'images satellite pour des applications variées: http://www.technologyreview.com/ne [...] te-images/
http://www.santafenewmexican.com/n [...] e9033.html
- Linguistique :
* Word2Vec permet de réaliser des opérations vectorielles sur des mots, par exemple \"Madrid - Espagne + France = Paris\" http://byterot.blogspot.de/2015/06 [...] ensim.html
* Apprendre à générer du Shakespeare, ou des articles scientifiques: http://karpathy.github.io/2015/05/ [...] ctiveness/
- Marketing/Publicite :
* Obligatoire de mentioner l'acteur principal Google, qui décrit pas mal de ses recherches ici http://googleresearch.blogspot.it
* Criteo personnalise les pubs sur les sites internets http://labs.criteo.com/2015/08/lar [...] at-criteo/
- et surement plein d'autres que j'oublie/je ne connais pas !
3) Se former
Les profils recherchés sont en général un mix entre mathématiques (en particulier statistiques) et informatique.
La plupart des écoles d'ingénieurs généralistes (ainsi que l'ENSAE/ENSAI) proposent les connaissances de base, mais même pour les HFRiens, une spécialisation est souvent utile, que ce soit par un Master ou des formations en ligne.
- Principaux Masters
* MVA (ENS Cachan) http://www.math.ens-cachan.fr/vers [...] aster-mva/
* Master Data Science (Université Paris Saclay) http://datascience-x-master.paris-saclay.fr/
* Data Science & Business Analytics (ECP / ESSEC) http://www.ecp.fr/home/Formations/ [...] _Analytics
* Apprentissage Information et Contenu (Paris-Sud) http://www.universite-paris-saclay [...] nd-content
* Master MASH (Paris Sciences et Lettres) http://www.di.ens.fr/~aspremon/MASH/
* Master Mathématiques & Applications - Filière Big Data (Paris VI) https://www.ljll.math.upmc.fr/FilBigData/index.php
* Master Industrial and Applied Mathematics - Parcours Data Science (ENSIMAG/UJF) http://msiam.imag.fr/
- Masteres Spécialisés
* MS Big Data (Telecom ParisTech) http://www.telecom-paristech.fr/fo [...] forts.html
* MS Data Science (ENSAE ParisTech) - http://www.ensae.fr/formations-nav [...] s-451.html
- Lectures de référence
* An Introduction to Statistical Learning, James/Witten/Hastie/Tibshirani http://www-bcf.usc.edu/~gareth/ISL/
Non seulement il est vraiment bien fait mais en plus il est gratuit
* Unsupervised Feature Learning and Deep Learning: http://deeplearning.stanford.edu/w [...] L_Tutorial
* Blog de Christopher Olah avec des articles très détaillés: http://colah.github.io/
- Videos intéressantes
* Deep learning vs Signal processing: Peut-on tout apprendre, la modélisation est-elle morte ?
https://www.youtube.com/watch?v=LZnAFO5gkOQ
- Cours en ligne
Coursera:
* Machine Learning (Ng)
C'est le plus connu des cours en ligne, les matheux trouveront que ca n'avance parfois pas très vite mais c'est une bonne facon d'acquérir les bases théoriques.
Udacity:
* Introduction to Machine Learning (Thrun/Malone)
Collège de France - Cours de Yann LeCun sur le deep learning
http://www.college-de-france.fr/si [...] 5-2016.htm
4) Pratiquer le machine learning
- Librairies Open-Source
* Python: Pandas / Scikit-learn
* Deep Learning: PyTorch / TensorFlow / CNTK / Caffe / Theano
Keras (API au-dessus de TensorFlow, CNTK, Theano)
* Java: Weka
- Intéressé par la compétition ? l'argent ? ou simplement la gloire ?
Kaggle permet de te mesurer aux autres sur des problèmes réels proposés par des entreprises ou des instituts de recherche.
DataScience propose aussi des challenges
- Bases de données publiques
Liste disponible ici: https://github.com/caesar0301/awesome-public-datasets
- Q&A
* Stack Exchange Cross Validated http://stats.stackexchange.com/
* Stack Exchange Data Science http://datascience.stackexchange.com/
* Reddit Machine Learning https://www.reddit.com/r/MachineLearning/
- Autres ressources en ligne
* http://www.datascienceweekly.org : Newsletter qui parait tous les Jeudi et qui recense des articles de blogs, videos, etc.
* https://twitter.com/kdnuggets : Compte twitter du site kdnuggets.com, à la base un vieux site de data mining (1997
) qui a migré vers le bigdata/datascience, mise à jour plusieurs fois par jour.
5) Comment travailler dans le domaine ?
- Portails de recrutement:
http://www.datasama.com/
- Meet-ups:
http://www.meetup.com/fr/Paris-Mac [...] ons-group/
http://www.meetup.com/fr/BigDataSmartData/
http://www.meetup.com/fr/Paris_LearningGeeks/
http://www.meetup.com/fr/Deep-Learning-Paris-Meetup/
6) Divertissement
* Overfitting Thriller! https://www.youtube.com/watch?v=DQWI1kvmwRg
Enfin, une petite citation (ref) pour conclure
Citation :
Big data is like teenage sex:
Everybody talks about it,
Nobody really knows how to do it,
Everyone thinks everyone else is doing it, so everyone claims they are doing it
|
7) Anciens sondages
