|
Auteur | Sujet : [Topic Unique] Machine Learning & Data Science |
---|
o_BlastaaMoof_o | Reprise du message précédent : |
Publicité | Posté le 21-09-2017 à 15:33:28 |
Darmstadtium Pipoteur grotesque | Personnellement je suis pas fan de R passé l'étape d'exploration de données et prototypage.
--------------- Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets |
Darmstadtium Pipoteur grotesque | Sinon je suis intéressé par la team Kaggle aussi mais je sais pas si j'aurai le temps de beaucoup m'investir. Niveau : XP pro en data science et R&D en ML + je commence un doctorat en ML Message édité par Darmstadtium le 21-09-2017 à 16:12:10 --------------- Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets |
Bébé Yoda | EN fait si tu boucles de manière aléatoire à chaque fois, tu ne pourras jamais avoir fait le training sur l'ensemble de tes données. |
Tidom | Comme disait Rontgen, la K-folds cross validation permet d'obtenir une estimation de la performance future d'un classifieur/regresseur.
|
Rontgen | Alors en fait, vous avez pas tort, mais c'est quand même un peu plus complexe que ca
Message cité 1 fois Message édité par Rontgen le 21-09-2017 à 20:44:44 |
Publicité | Posté le 21-09-2017 à 20:44:02 |
Rasthor |
|
o_BlastaaMoof_o | Pourquoi implémenter ça soi-même au fait ? |
Bébé Yoda | Pour mieux comprendre comment ça marche je suppose. |
Tidom | Ce que propose BlastaaMoof, la validation croisée "stratifiée", est adaptée aux problèmes de classification supervisée : en gros, dans chaque fold, on essaie de garder la même distribution de classes que dans la base d'apprentissage. Selon, les expériences et la conclusion de R. Kohavi : Par contre le problème de non-compliant est un problème de régression. La validation croisée stratifiée ne peut être utilisée comme telle. Je n'arrive pas à retrouver une réf sur le sujet mais l'idée est de construire des folds avec la même moyenne de la variable à prédire. Message édité par Tidom le 22-09-2017 à 13:08:58 |
Tidom | @non-compliant : Message cité 1 fois Message édité par Tidom le 22-09-2017 à 13:26:26 |
blacksad |
Pour nuancer un peu le propos :
|
o_BlastaaMoof_o | Du PySpark... Y a-t-il au moins une réelle problématique Big Data ? Parce que sinon, on a aussi vite fait de faire du bon vieux SQL avec un bon vieux SGBD relationnel.
|
Tidom |
|
Rasthor | A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs)
|
zairo | je voudrais attaquer un premier vrai projet de datascience avec des potes En gros on a prévu d'utiliser python, pour s'initier au langage, mais je me demandais quel était la meilleur manière de stocker/structurer mes données ?
bref je connais pas python Message cité 1 fois Message édité par zairo le 01-10-2017 à 12:18:24 |
zairo | A la louche je dirais que j'aurais 500 mo de données (j'ai pas finis l'extraction)
|
zairo | ok pour pandas, je vais voir de ce côté là
|
Bébé Yoda |
À mon avis ça doit pouvoir se faire tranquillement oui. |
Rasthor | Y'avait d'ailleurs un article pour comment gerer des centaines de Mo dans Pandas: Message édité par Rasthor le 02-10-2017 à 00:47:25 |
Publicité | Posté le |