[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 51 52 53 .. 129 130 131 132 133 134 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Tidom

Reprise du message précédent :

il n'y a rien de philosophique ! les variables continues prennent leurs valeurs dans un ensemble ordonné. Les variables catégorielles, pas forcément. on a bien 3 > 1 mais pas rouge > bleu. Il y a bien des transformations (one-hot, ordinal, ...) pour passer du numérique au catégoriel mais selon moi elles sont plus bancales les unes que les autres.

Sinon, pour les p-values, c'est moins grave : dans quelques années ça risque d'être abandonné :

Citation :

Time for a Change: a Tutorial for Comparing Multiple Classifiers Through Bayesian Analysis (Benavoli et al. 2017)
www.jmlr.org/papers/volume18/16-305/16-305.pdf

...
This spread the understanding that the observed results require statistical validation.
On the other hand, NHST so on proved inadequate for many reasons (Demsar, 2008). Noteworthy, the American Statistical Association has recently made a statement against p-values (Wasserstein and Lazar, 2016). NHST nowadays it is also falling out of favour in other fields of science (Trafimow and Marks, 2015). We believe that the field of machine learning is ripe for a change as well.

Du coup faut quand même savoir ce que c'est pendant encore quelques années

Message cité 2 fois
Message édité par Tidom le 04-02-2019 à 13:11:55

Publicité

SodeKa

[:simchevelu]

Je recherche un stage en Data Analyst / Statistiques dans la région parisienne. Vous connaissez des boîtes qui recrutent des Bac+3 ? Malgré un CV bien rempli dont une première expérience consultant Data je sais pas trop vers qui me tourner
Si vous avez des idées je suis preneur :jap:

Message cité 1 fois

SodeKa

Pour 4 mois max, de Mai à début Septembre
Tiens justement on a vu les pvalue en début d'année [:ocolor]

Rontgen

Tidom a écrit :

Sinon, pour les p-values, c'est moins grave : dans quelques années ça risque d'être abandonné :
Time for a Change: a Tutorial for Comparing Multiple Classifiers Through Bayesian Analysis (Benavoli et al. 2017)
www.jmlr.org/papers/volume18/16-305/16-305.pdf

Oui enfin on est d'accord que si un candidat me répond ca, bien évidemment que c'est un bon point
Mais ca me semble être une situation théorique: quelqu'un qui ne sait pas ce qu'est une p-value, il ne pourra pas vraiment comprendre cet article ni ne saura argumenter sur pourquoi il y aurait de meilleurs méthodes

Mais si tu veux, je peux remplacer la question par une formulation bien plus pratique
"quand je fais des expérience avec deux réseaux de neurones, comment je m'assure qu'il y en a un qui est vraiment meilleur que l'autre ?"

Message cité 2 fois
Message édité par Rontgen le 04-02-2019 à 13:52:11

mathsdauph

Des petites questions qui peuvent tomber:

Comment on fit un réseau de neurones simple (sur papier) : par exemple un perceptron avec fonction d'activation au choix ?
C'est quoi la backpropagation?
Comment régler le taux d'apprentissage pour la descente de gradient?
Avantage de la descente de gradient stochastique?
Cites moi un cas dans lequel tu as besoin d'augmenter tes données? Comment on peut s'y prendre?
Quelle différence il y a au niveau de la dernière couche d'un réseau de neurones qui cherche à prédire:
a)des classes exclusives ( par exemple des chiffres à prédire de 1 à 9)
b)des classes non exclusives (par exemple pour des espèces : reptile ou non - lézard ou non)

Message cité 1 fois
Message édité par mathsdauph le 04-02-2019 à 13:59:33

---------------
Licence Maths-> ENSAE -> ??

Tidom

Pardon je ne me suis pas expliqué : la raison principale qui fait que le one-hot est populaire, c'est qu'en général, les variables catégorielles ont peu de valeurs (petit domaine de définition), donc ça génère peu de nouvelles variables : dans ce cas c'est ok. Toutefois, dans beaucoup de cas réels, les variables catégorielles prennent leurs valeurs dans un grand domaine de définition, ce qui génère beaucoup de nouvelles variables et complexifie la tâche d'apprentissage qui suit. Pour faire face à ça, une solution "simple et populaire" et de faire du binary encoding, i.e., une partition en deux groupes de valeurs (donc deux variables générées). En fait, il y a un monde entre ces deux extrêmes, (comme en discrétisation supervisée, il y a de la place entre une valeur par intervalle et deux intervalles seulement), on peut explorer l'espace des partitionnements des valeurs d'une variable catégorielle, en gros faire de la catégorisation supervisée de valeurs en tant que pré-traitement.

D'une manière générale, j'adhère à la vision de D. hand qui dit que : "the large gains in predictive accuracy in classification are won using relatively simple models at the start of the process". En gros, après une belle phase de pré-traitement, ton xNN (ou un autre classifieur/régresseur) ne s'en portera que mieux. D'ailleurs pour le vérifier (et on devrait le vérifier dans chaque cas d'application), un bon protocole expérimental avec tests statistiques (ou bientôt des tests Bayésiens) pour vérifier les différentes combinaisons preprocessing+classif, est le bienvenu... ça évite de vendre un xNN à 110 couches* si un simple arbre de décision est plus performant

*

Spoiler :

non mais ok en apprentissage perceptuel, faut faire du xNN, on est d'accord

Voxinat

High Frequency Trolling

Tidom a écrit :

Citation :

Time for a Change: a Tutorial for Comparing Multiple Classifiers Through Bayesian Analysis (Benavoli et al. 2017)
www.jmlr.org/papers/volume18/16-305/16-305.pdf

...
This spread the understanding that the observed results require statistical validation.
On the other hand, NHST so on proved inadequate for many reasons (Demsar, 2008). Noteworthy, the American Statistical Association has recently made a statement against p-values (Wasserstein and Lazar, 2016). NHST nowadays it is also falling out of favour in other fields of science (Trafimow and Marks, 2015). We believe that the field of machine learning is ripe for a change as well.

Du coup faut quand même savoir ce que c'est pendant encore quelques années

Encore des gars qui publient en faisant du p-hacking et qui décident donc de dire que la p-value ne sert à rien [:alexandre_alabenne:1]

Message cité 1 fois

---------------
Sah Quel Plaisir

Tidom

Rontgen a écrit :

Mais si tu veux, je peux remplacer la question par une formulation bien plus pratique
"quand je fais des expérience avec deux réseaux de neurones, comment je m'assure qu'il y en a un qui est vraiment meilleur que l'autre ?"

Oui, à mon avis aussi, c'est aussi important que la connaissance du fonctionnement interne de divers algorithmes de machine learning.

Message cité 1 fois

Tidom

Voxinat a écrit :

Encore des gars qui publient en faisant du p-hacking et qui décident donc de dire que la p-value ne sert à rien [:alexandre_alabenne:1]

Spoiler :

Notons aussi que parmi les co-auteurs, il y a l'auteur qui a fait la promotion des "statistical tests" pour l'évaluation de performance dans la communauté ML pendant 10 ans : http://www.jmlr.org/papers/v7/demsar06a.html

C'est cocace

Rontgen

Ben d'accord mais comment tu fais ca ?
Ton réseau A a une accuracy de 97,3% sur un ensemble de validation et ton réseau B a une accuracy de 97,6%
Est-ce que tu peux me dire si B est vraiment meilleur que A ?

Message cité 5 fois

Publicité

Voxinat

High Frequency Trolling

Rontgen a écrit :

Facile

T'utilises le R²

[:creeping_death:3]

---------------
Sah Quel Plaisir

Rontgen

Tidom a écrit :

Oui, à mon avis aussi, c'est aussi important que la connaissance du fonctionnement interne de divers algorithmes de machine learning.

:jap:

Comparer deux expériences, c'est la base de n'importe quelle démarche scientifique
Un mec qui essaye plein d'idées et qui avance pas parce qu'il ne sait pas reconnaitre celles qui sont réellement utiles, ben c'est lui qui est inutile

mathsdauph

Rontgen a écrit :

Pas du tout, si jamais ton ensemble de validation est déséquilibré par exemple avec 90% de oui, un algo qui renvoit toujours 'oui' aura 90% de précision
Après y'a la matrice de confusion , et on peut aussi regarder la taille du jeu de validation

Message cité 1 fois
Message édité par mathsdauph le 04-02-2019 à 14:40:38

---------------
Licence Maths-> ENSAE -> ??

o_BlastaaMoof_o

Rontgen a écrit :

Et ca veut dire quoi, "vraiment meilleur" au juste ?

Message cité 1 fois

Rontgen

mathsdauph a écrit :

Non mais d'accord, si ton validation set a pas la même distribution que le training set, ton expérience est à jeter de toute facon...

bogoss91

Vous croyez que ca compte tout ca ?
Le plus important c'est comment en mettre plein la vue aux investisseurs pour qu'ils lachent x0 milions dans votre start-up de 7 personnes. [:ge haussmann:1]

Message cité 3 fois

Rontgen

bogoss91 a écrit :

Vous croyez que ca compte tout ca ?
Le plus important c'est comment en mettre plein la vue aux investisseurs pour qu'ils lachent x0 milions dans votre start-up de 7 personnes. [:ge haussmann:1]

Certains de mes clients sont justement ces start-ups qui doivent délivrer les résultats qu'elles ont promis
Du coup, indirectement, je prends les thunes des investisseurs sans le risque [:cosmoschtroumpf]

Voxinat

High Frequency Trolling

bogoss91 a écrit :

Vous croyez que ca compte tout ca ?
Le plus important c'est comment en mettre plein la vue aux investisseurs pour qu'ils lachent x0 milions dans votre start-up de 7 personnes. [:ge haussmann:1]

+1 Putain [:atom1ck]

Les vrais ML ENGINEERS utilisent le même set pour le train et le forecast bordel [:vidadoe:7]

Et pendant ce temps-là les néandertaliens en COGIP te vendent ces INNOVATIONS DISRUPTIVES à 200M€ comme étant "structurant pour l'entreprise" [:catalonix:10]

De toute façon c'est pas Frédéric Oudéa qui viendra foutre le nez dans ton code [:somberlain24:8]

Message édité par Voxinat le 04-02-2019 à 16:25:04

---------------
Sah Quel Plaisir

Tidom

bogoss91 a écrit :

Vous croyez que ca compte tout ca ?
Le plus important c'est comment en mettre plein la vue aux investisseurs pour qu'ils lachent x0 milions dans votre start-up de 7 personnes. [:ge haussmann:1]

Oué ben c'est pour ça que ça avance pas dans le bon sens

Spoiler :

putain y a de la thune à se faire là non ?! [:atom1ck]

Rasthor

Rontgen a écrit :

Ce ne serait pas l'occasion d'utiliser de faire des "ROC curve" et de calculer les "Matthews correlation coefficient"?

Bébé Yoda

Bonne chance
Tiens nous au courant

nefast

Je suis entrain de découvrir le deep learning pour essayer de remplacer des algos maisons de détection de défauts (saleté/rayure) par des choses plus répétables et performantes.
Au début je ne pensais même pas m'intéresser au machine learning mais j'ai vu des solutions commerciales (chères) proposer ça.
Est-ce le bon topic pour en parler ? Certains on de l'expérience avec ces softs de vision (Cognex, Halcon, etc.), ont-elles réellement un avantage par rapport aux SDK open-source ?

Message édité par nefast le 11-05-2019 à 10:39:05

haowanr

après midi sur les mathématiques de l'intelligence artificielle :
https://www.math.u-psud.fr/Maths-IA/

Rasthor

Open Machine Learning Course mlcourse.ai:
https://mlcourse.ai/

mathsdauph

Salut, est-ce que quelqu'un ici connaitrait les languages de programmation utilisés dans les 3 masters principaux de Data Science ( Disons MVA, StatML et DS Paris Saclay). C'est plutôt python ou R pour ces masters?

Message édité par mathsdauph le 18-02-2019 à 21:55:35

---------------
Licence Maths-> ENSAE -> ??

mathsdauph

T'es où j'ai la flemme de scroll ?

---------------
Licence Maths-> ENSAE -> ??

mathsdauph

Python <3, j'attends les réponses pour les autres

---------------
Licence Maths-> ENSAE -> ??

Alicanto

アリカント

Pour le MVA, c'est full python, bien souvent des notebooks (que je commence à détester, tous les dms sont des notebooks...)

On a même une matière où on doit faire du machine learning mais on a le droit à aucun autre package que numpy

Des connaissances en R ou MATLAB peuvent être utiles dans certains, mais en ce qui me concerne, j'en ai pas eu besoin.

Publicité

Page : 1 2 3 4 5 .. 51 52 53 .. 129 130 131 132 133 134

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.076 secondes