|
Auteur | Sujet : [Topic Unique] Machine Learning & Data Science |
---|
Tidom | Reprise du message précédent :
Quelque chose qui marche bien pour la classification de séries temporelles (pour la régression aussi), c'est les transformations de tes séries brutes de départ. A l'University of East-Anglia, : http://timeseriesclassification.com/ , ils ont développé quelques approches (open-source) dans ce sens. Anthony Bagnall, Luke M. Davis, Jon Hills, Jason Lines: Anthony Bagnall, Jason Lines, Aaron Bostrom, James Large, Eamonn J. Keogh: Sur ce même site, tu trouveras également un répertoire de +80 bases de données de séries temporelles : http://timeseriesclassification.com/dataset.php Les algos utilisés dans les comparaisons de performance : http://timeseriesclassification.com/algorithm.php Et pour faire plaisir à Rontgen : le dernier sorti (2016) à base de CNN (oui ils ont du se mettre à la mode aussi ...) Mais si tu n'es pas spécialiste du domaine, tu peux commencer par les transformations de séries, c'est plus facile à comprendre Message édité par Tidom le 28-11-2017 à 04:52:31 |
Publicité | Posté le 28-11-2017 à 04:50:46 |
Tidom | Je crois avoir vu passer le lien vers le blog Data Analytics Post sur ce topic : https://dataanalyticspost.com/
|
Bébé Yoda | Hello, il y a des gens qui savent utiliser tensorflow par ici ? Je deviens un peu fou avec un modèle |
Tidom |
|
Rontgen |
|
Rontgen |
|
Bébé Yoda |
Message édité par Bébé Yoda le 28-11-2017 à 20:24:25 |
Bébé Yoda | Bon voilà mon code, j'espère que c'est lisible
Message édité par Bébé Yoda le 28-11-2017 à 20:49:45 |
Pina Colada |
|
Publicité | Posté le 28-11-2017 à 20:54:12 |
cequelsar | Le contenu de ce message a été effacé par son auteur |
rogermajax | scale tes variables de manière différente, ça fera pareil qu'un lambda par variable. Je te laisse ecrire la fonction d'erreur régularisé pour t'en rendre compte. Édit: en relisant ton message, tu veux pondérer les exemples différemment en fait, non? Ma réponse du dessus est si tu voulais avoir un lambda par variable. Pour la régression pondéré, si elle n'est pas implémenté déjà dans ta framework tu peux l'emuler en multipliant par wi les xi et les yi si tu n'as pas d'intercept. Si tu veux un intercept a ton modele c'est plus compliqué, il faudra aussi le multiplier (il faut pouvoir le manipuler, c'est pas forcément possible si tu n'as acces qu'à des fonctions haut niveau). Message édité par rogermajax le 01-12-2017 à 02:02:42 |
Rontgen | +1 à rogermajax Si vraiment l'idée c'est de faire en sorte que certains samples contribuent moins à la régularisation que d'autres, peut être que ça peut être simulé en les dupliquant (ils auront alors plus d'importance dans la partie "attache aux données" ) Message édité par Rontgen le 01-12-2017 à 08:50:58 |
Bébé Yoda | Hello
|
Profil supprimé | Posté le 01-12-2017 à 20:09:54 Le PCA va projeter tes donnes sur x dimensions, x dimensions étant les dimensions contenant le plus de variabilité su ton set de données. Ça permet de réduire ton nombre de variables sans trop perdre d'information |
-Meringue- | Ça peut te permettre également de passer de variables catégorielles à des variables numériques. Ce qui est parfois bien utile. |
rogermajax | Ces x dimensions étant des combinaisons linéaires des variables d'entrées. Faudrait que je révise mais de mémoire, tu diagonalises la matrice de covariance et la matrice de changement de base va être ta matrice te donnant les composantes principales. Comme elle diagonalise la covariance, tes composantes vont être decorellé et la variance de chaque composante correspond à la valeur propre de ta diagonalisation. Tu peux ordonner ses valeurs, et garder les composantes de plus grandes variance. Je me souviens qu'il y a une autre interprétation plus éclairante, où l'ACP est la solution d'un pb de minimisation d'écart quadratique entre (données d'origine) et (données changé de base, "gardage de n composantes" puis "déchangement de base" ). Faudra que je remette la main dessus. Le nombre de composantes que tu gardes, c'est à toi de voir. L'ACP te donne les transformations optimales pour chaque n que tu pourrais choisir et te donne la perte d'info associée. Message édité par rogermajax le 01-12-2017 à 22:01:27 |
rogermajax |
|
Bébé Yoda | Donc au niveau "feature selection", c'est très différent d'un lasso qui sélectionne les features "seules" et permet donc une interprétation directe de la sélection.
|
rogermajax | Oui c'est très différent d'un LASSO. En ACP, seuls les x sont traités ainsi les composantes que tu gardes sont pas forcément utiles pour prédire y. Dans les autres défauts, l'ACP est sensible au scaling des x (comme LASSO d'ailleurs). On ne sait pas quelles variables participent aux combinaisons (a priori, toutes participent). Après ça a quand même du sens, cf le pb de minimisation dont je parle. De plus, l'ACP c'est pas propre au ML, ça peut permettre de débruiter des signaux. LASSO, c'est une régression linéaire régularisé dont la résolution amene à mettre certains coeffs à zero. Les variables dont le coef est nul ne seront pas utilisées. Message édité par rogermajax le 01-12-2017 à 23:31:27 |
-Meringue- |
Profil supprimé | Posté le 02-12-2017 à 09:08:19
Tu sais à quoi ça correspond: les axes de projection sont les vecteurs propres de ton set de données dans l'ordre des valeurs propres. Tu peux aussi regarder du côté du LDA linear discriminant analysis, qui est l'équivalent supervise du PCA. Le LDA effectue une décomposition qui explique le maximum de variance de ton objectif. Message édité par Profil supprimé le 02-12-2017 à 09:08:48 |
shalazyr | Petit coucou |
Bébé Yoda |
|
shalazyr |
|
cequelsar | Le contenu de ce message a été effacé par son auteur |
Bébé Yoda | J'ai eu un petit soucis pour faire un modèle de classification binaire.
Message édité par Bébé Yoda le 04-12-2017 à 20:32:57 |
Rontgen | La base de toute la théorie du ML, c'est que les données de training et de validation sont censées provenir de la même distribution Ce que tu as fait a du sens aussi bien sûr, mais je pense que c'est sous optimal Message édité par Rontgen le 04-12-2017 à 20:47:01 |
Bébé Yoda | Hmm je vois.
|
rogermajax | Juste comme ça, tu utilises le meme codage pour ton training set et ton validation set ? Normalement, sur la base du training set, tu décides quelle variable binaire encode quelle valeur catégorielle. Une fois ta "table de correspondance" construite à partir de ton TS, tu l'applique sur ton VS. Et si jamais, dans ton VS, tu tombes sur une valeur catégorielle nouvelle, ben toutes tes variables binaires sont à zero. Il n'y a pas de raison d'ajouter des variables binaires sur le VS. Après pour rejoindre la remarque de Rontgen, t'as des façons d'equilibrer tes ensembles d'apprentissage. Tapes "validation croisée stratifiée" ou l'équivalent anglais et tu devrais trouver des trucs. Message édité par rogermajax le 05-12-2017 à 02:04:10 |
Tidom | Je ne connaissais pas le terme 1-hot coding : en fait c'est le codage en disjonctif complet. Message cité 1 fois Message édité par Tidom le 05-12-2017 à 05:36:30 |
Oceanborn | Yo,
|
Bébé Yoda |
|
andrewwiles | Bonjour,
|
Tidom |
|
Bébé Yoda | Pfff oui en fait c'est logique. Et comme un bourrin, j'ai appliqué la même transformation pour les deux méthodes sans réfléchir...
|
Bébé Yoda |
|
Rasthor | Si jamais dans Pandas, il y a un fonction pour avoir du 1-hot:
|
Tidom | De ce que j'ai pu lire sur ce topic, les master data science de X et MVA sont difficiles d'accès et de top niveau.
|
Bébé Yoda | Après il y a bien plus de postes que de diplômes de ces deux masters. Sinon en interne dans ta boîte ? |
Publicité | Posté le |
Sujets relatifs | |
---|---|
Recherche d'emploi | [Topik Unique] Les girls de la section E&E |
Avez vous des problèmatiques sur le Big Data ? | Master Finance et Stratégie de Science Po après des études de droit ? |
Je veux travailler dans les Big DATA | Orientation pour Data Science & Recherche Opérationnelle |
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes | [Topic Unique] EIVP |
[Topic Unique] L'Aylite !!! | |
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science |