Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2835 connectés 

 


 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7  8
Auteur Sujet :

[Topic Unique] Statistiques descriptives, inférentielles & dataviz

n°4920798
Rasthor
Posté le 16-09-2016 à 16:17:03  profilanswer
 

Reprise du message précédent :
Personne pour mon problème ci-dessus ? :O

mood
Publicité
Posté le 16-09-2016 à 16:17:03  profilanswer
 

n°4920846
fusion_sad​am
:D
Posté le 16-09-2016 à 18:08:12  profilanswer
 

Alors de mémoire il me semble que le test exact de Fisher c'est utile si les effectif théorique sont très faible.
Dans ton cas, utilise plutôt un test du khi deux et pas de souci pour une table 2x3.
 
Avec un khi deux l’hypothèse est H0 : les variables X et Y sont indépendantes
 
Mais ça te dira pas explicitement si la différence observé est du à une modalité en particulier.
Je suppose que l’intérêt de la procédure que tu décrit est de faire des tests deux à deux pour voir si une modalité est significativement différente de toute les autres.
(du coup multiplication des tests -> augmentation du risque alpha -> correction de Bonferroni )
 


---------------
On sait pas trop quoi dire dans des circonstances pareilles...
n°4920883
Rasthor
Posté le 16-09-2016 à 20:04:45  profilanswer
 

Oui, je pourrais aussi mettre un Khi2. Je l'ai d'ailleurs teste, les resultats sont vraiment tres proches.
 
Mais ca a un nom particulier la procédure que j'ai fait ? :??:

n°4921163
lefilpourp​re
Michel
Posté le 19-09-2016 à 04:50:43  profilanswer
 

Drap ici le nouveau Dioscur.


---------------
Miraisin
n°4921173
Profil sup​primé
Posté le 19-09-2016 à 09:51:21  answer
 

:hello:

n°4921650
lefilpourp​re
Michel
Posté le 21-09-2016 à 17:09:28  profilanswer
 

#compétition entre différents modèles

 

http://media.rtl.fr/online/image/2012/0805/7751437611_usain-bolt-seul-au-monde-sur-le-100-m-des-jo-de-londres-2012.jpg

 

Alors ... j'ai une question assez pointue (je m'adresse en particulier à Magic Panda, Heisenberg et CobbDouglas) à propos des instruments de mesure de la performance d'un modèle prédictif.

 

DONC : Je souhaite faire une compétition entre les trois modèles uni-variés (VAR, ARIMA, MCE) destinés à prédire la grandeur exogène "Valeur ajoutée brute du secteur de la construction en France" ... à partir de ses valeurs passées. Pour ce faire. Je souhaite prendre comme critère la précision (la somme des erreurs la plus réduite ndlr) des trois fits que j'ai effectués avec ces modèles axés sur le passé.

 

Je souhaite m'inspirer de la méthodologie de Box et Jenkins (qui sont les auteurs les plus célèbres du champ d'analyse des séries temporelles avec leur méthode des années 70 si populaire qui sert à fitter un ARIMA sur une courbe auto-corrélée saisonalisée et non-stationnaire).

 

https://en.wikipedia.org/wiki/Box%E [...] g_approach

 

Nota : Pourquoi ne pas prendre un ARCH ? Les modèles ARCH sont spécialisés dans le fit de séries hétéroskedastiques ... c'est à dire (techniquement) des séries dont les variabilités changent drastiquement au cours du temps ... c'est à dire que dans la réalité ils ont été conçus pr des séries financières.

 

Précisions : ces dernières sont volatiles pour des raisons à la fois irrationnelles (micro-paniques généralisées type Brexit) et rationnelles (les résultats des grands groupes boursiers sont transmis annuellement par les DAF de ces grosses entités ce qui fait que leurs cours boursiers sont régulièrement victimes de brusques variations).

 

/Nota.

 

Or moi j'utilise des VAR, MCE et ARIMA car ce sont des grandeurs économiques. C'est à dire qu'elles sont ancrées dans la réalité d'une société qui change, certes, mais de façon lente.

 

Maintenant. J'ai une question très précise. La méthode de Box et Jenkins est associée à la sélection des paramètres (p,d,q) d'une seul instrument ARIMA (séries non-stationaires) avec le AIC et le BIC.

 

https://fr.wikipedia.org/wiki/Crit% [...] d%27Akaike
https://fr.wikipedia.org/wiki/Crit% [...] %C3%A9sien

 

Je souhaite reprendre ce fonctionnement en mesurant la performance avec des formules (dans l'idée c'est proche d'un R² ou de AICs ou BICs) dites :

 

- RMSE (le plus populaire et fréquemment utilisé)
- MdRAE (le plus efficace sur des petits échantillons)
- MdAPE (le plus efficace sur des grands échantillons)

 

http://faculty.weatherhead.case.ed [...] asures.pdf

 

Mais sur mes trois instruments différents (MCE, VAR, ARIMA). Mais d'après ma lecture de ce post ...

 

http://forums.cirad.fr/logiciel-R/ [...] f=11&t=221 (post 11 sept 2006 15:25)

 

... Et des sources sur le forum francophone du CIRAD : *ils* utilisent tous ces critères AIC pour la comparaison de modèles non-nichés de régressions.

 

https://perso.univ-rennes1.fr/berna [...] %A9s%22%22

 

Dans leur langage ... "les instruments type AIC et BIC sont limités à l'analyse d'une même distribution". Par extension je pense que c'est le cas pour mes trois formules (RMSE, PdRAE, MdAPE) ... mais dans les articles que j'ai lus les textes répètent cette phrase ("exclusivement efficace pour une même distribution" ) sans que je ne puisse en percer le sens exact :

 

=> Quand je lis que ces outils (RMSE, MdRAE, MdAPE) ne servent que de comparaison pour l'analyse "d'une même distribution " ... ils désignent un type de distribution ?! (Gauss, Khi² ...) ou alors ils désignent exactement la série analysée ?! (ici la grandeur "valeur ajoutée de la construction en France " ) ou alors ils parlent de la distribution probabiliste utilisée par l'instrument (VAR, ARIMA, MCE) pour calculer les paramètres ?!

 

Indice : vu que ce sont des formules extrêmement intelligentes assises sur l'idée de la somme des erreurs entre la grandeur et les points de la courbe construite par l'instrument ... je pense que ça ne change rien à rien qu'on change d'instrument vu que c'est bien l'équation de la courbe qui est visée et que par conséquent je peux comparer les résultats ... mais au vu de la gravité potentielle de cette erreur de raisonnement je souhaite vérifier. :o

 

(avant que les grands décideurs de l'hexagone ne réalisent que je suis une sorte de tanche en stats  [:le petit tiburce:1] )

Message cité 1 fois
Message édité par lefilpourpre le 21-09-2016 à 19:35:02
n°4921904
lefilpourp​re
Michel
Posté le 22-09-2016 à 15:04:15  profilanswer
 

Rasthor a écrit :

Dites-voir, j'aurais besoin d'une opinion.

 

1) Qu'est-ce que vous pensez ?
2) C'est erroné de faire comme ca ?
3) Si c'est juste, ca porte un nom cette procédure ?
4) Y'aurait une autre facon plus elegante de faire ca ?

 



 

1) je pense qu'il existe forcément une procédure documentée pour un machin aussi peu complexe
2) j'ai pas tout pigé mais je pense pas, c'est juste que ça fait des noeuds dans la tête pour rien
3) j'invente jamais rien en stats, je cherche des protocoles existants puis je planche dessus
4) forcément, fais des recherches

Message cité 1 fois
Message édité par lefilpourpre le 22-09-2016 à 15:05:20
n°4921906
Kaffeine
Noisette
Posté le 22-09-2016 à 15:07:43  profilanswer
 
n°4921910
Kaffeine
Noisette
Posté le 22-09-2016 à 15:16:44  profilanswer
 

Pour les mecs avec les différents type de modélisation et comparaison de la performance entre les modèles: les méthodes ont la même fonction de vraisemblance? si non => négatif


Message édité par Kaffeine le 22-09-2016 à 15:24:27
n°4921912
HeisenberG​75
www.savewalterwhite.com
Posté le 22-09-2016 à 15:23:07  profilanswer
 

lefilpourpre a écrit :

#compétition entre différents modèles

 

http://media.rtl.fr/online/image/2 [...] s-2012.jpg

 

Alors ... j'ai une question assez pointue (je m'adresse en particulier à Magic Panda, Heisenberg et CobbDouglas) à propos des instruments de mesure de la performance d'un modèle prédictif.

 

DONC : Je souhaite faire une compétition entre les trois modèles uni-variés (VAR, ARIMA, MCE) destinés à prédire la grandeur exogène "Valeur ajoutée brute du secteur de la construction en France" ... à partir de ses valeurs passées. Pour ce faire. Je souhaite prendre comme critère la précision (la somme des erreurs la plus réduite ndlr) des trois fits que j'ai effectués avec ces modèles axés sur le passé.

 

Je souhaite m'inspirer de la méthodologie de Box et Jenkins (qui sont les auteurs les plus célèbres du champ d'analyse des séries temporelles avec leur méthode des années 70 si populaire qui sert à fitter un ARIMA sur une courbe auto-corrélée saisonalisée et non-stationnaire).

 

https://en.wikipedia.org/wiki/Box%E [...] g_approach

 

Nota : Pourquoi ne pas prendre un ARCH ? Les modèles ARCH sont spécialisés dans le fit de séries hétéroskedastiques ... c'est à dire (techniquement) des séries dont les variabilités changent drastiquement au cours du temps ... c'est à dire que dans la réalité ils ont été conçus pr des séries financières.

 

Précisions : ces dernières sont volatiles pour des raisons à la fois irrationnelles (micro-paniques généralisées type Brexit) et rationnelles (les résultats des grands groupes boursiers sont transmis annuellement par les DAF de ces grosses entités ce qui fait que leurs cours boursiers sont régulièrement victimes de brusques variations).

 

/Nota.

 

Or moi j'utilise des VAR, MCE et ARIMA car ce sont des grandeurs économiques. C'est à dire qu'elles sont ancrées dans la réalité d'une société qui change, certes, mais de façon lente.

 

Maintenant. J'ai une question très précise. La méthode de Box et Jenkins est associée à la sélection des paramètres (p,d,q) d'une seul instrument ARIMA (séries non-stationaires) avec le AIC et le BIC.

 

https://fr.wikipedia.org/wiki/Crit% [...] d%27Akaike
https://fr.wikipedia.org/wiki/Crit% [...] %C3%A9sien

 

Je souhaite reprendre ce fonctionnement en mesurant la performance avec des formules (dans l'idée c'est proche d'un R² ou de AICs ou BICs) dites :

 

- RMSE (le plus populaire et fréquemment utilisé)
- MdRAE (le plus efficace sur des petits échantillons)
- MdAPE (le plus efficace sur des grands échantillons)

 

http://faculty.weatherhead.case.ed [...] asures.pdf

 

Mais sur mes trois instruments différents (MCE, VAR, ARIMA). Mais d'après ma lecture de ce post ...

 

http://forums.cirad.fr/logiciel-R/ [...] f=11&t=221 (post 11 sept 2006 15:25)

 

... Et des sources sur le forum francophone du CIRAD : *ils* utilisent tous ces critères AIC pour la comparaison de modèles non-nichés de régressions.

 

https://perso.univ-rennes1.fr/berna [...] %A9s%22%22

 

Dans leur langage ... "les instruments type AIC et BIC sont limités à l'analyse d'une même distribution". Par extension je pense que c'est le cas pour mes trois formules (RMSE, PdRAE, MdAPE) ... mais dans les articles que j'ai lus les textes répètent cette phrase ("exclusivement efficace pour une même distribution" ) sans que je ne puisse en percer le sens exact :

 

=> Quand je lis que ces outils (RMSE, MdRAE, MdAPE) ne servent que de comparaison pour l'analyse "d'une même distribution " ... ils désignent un type de distribution ?! (Gauss, Khi² ...) ou alors ils désignent exactement la série analysée ?! (ici la grandeur "valeur ajoutée de la construction en France " ) ou alors ils parlent de la distribution probabiliste utilisée par l'instrument (VAR, ARIMA, MCE) pour calculer les paramètres ?!

 

Indice : vu que ce sont des formules extrêmement intelligentes assises sur l'idée de la somme des erreurs entre la grandeur et les points de la courbe construite par l'instrument ... je pense que ça ne change rien à rien qu'on change d'instrument vu que c'est bien l'équation de la courbe qui est visée et que par conséquent je peux comparer les résultats ... mais au vu de la gravité potentielle de cette erreur de raisonnement je souhaite vérifier. :o

 

(avant que les grands décideurs de l'hexagone ne réalisent que je suis une sorte de tanche en stats [:le petit tiburce:1] )

 

:jap:

 

Tu connais un moyen graphique de comparer de  modèles ? (Que ce soit chacun sur son graph ou les 3 modèles sur le même graph)
Un truc style courbe ROC (modèles de classification) adapté aux series temp ?

 

Car la je vais sortir pour chacun de mes modèles le rmse, mape, mae.. et prendre le celui qui est le plus performant mais un graphique peut-être sympa aussi

 

Ps : souvent utilisé aussi  il y a le coefficient de theil pour mesurer la qualité de prédiction

mood
Publicité
Posté le 22-09-2016 à 15:23:07  profilanswer
 

n°4921923
lefilpourp​re
Michel
Posté le 22-09-2016 à 15:45:58  profilanswer
 

Merci pr les infos [:underlined]


Message édité par lefilpourpre le 22-09-2016 à 15:46:39
n°4922002
Rasthor
Posté le 22-09-2016 à 18:56:14  profilanswer
 

lefilpourpre a écrit :


 
1) je pense qu'il existe forcément une procédure documentée pour un machin aussi peu complexe
2) j'ai pas tout pigé mais je pense pas, c'est juste que ça fait des noeuds dans la tête pour rien  
3) j'invente jamais rien en stats, je cherche des protocoles existants puis je planche dessus  
4) forcément, fais des recherches

Tu penses bien que j'ai fait des recherches, mais rien de trouve de concret pour le moment. Peut-etre que je n'utilise pas les bons mot-cles. C'est pour ca que j'ai ecrit ici, dans l'espoir que quelqu'un aurait deja rencontre ce genre de problème.
 

Merci. Mais j'ai l'impression que les tests qu'ils proposent ne donne qu'une unique p-value pour l'ensemble du tableau. Or je voudrais une p-value par cellule.
 
 
Je continue de chercher et si je trouve quelque chose, je vous fait signe.  :hello:

n°4922194
lefilpourp​re
Michel
Posté le 23-09-2016 à 12:37:28  profilanswer
 

R²et RMSE  
 
Est-ce forcément utile de tenter de sur-passer la modélisation de la directrice des études de l'INSEE alors qu'elle a un R² à 0,77 (ça je peux l'augmenter je pense) mais surtout un RMSE à 0,7%.  
 
R² : c'est la quantité de variation de la série économique expliquée (FCBF-Construction) par les séries choisies (taux immobiliers, taux de chômage ...)
 
-> ça répond à la question : ais-je bien intégré toutes les données du problème ou dois-je re-collecter de l'information pour la mettre dans ma machine.
 
RMSE : c'est la quantité d'erreurs entre l'équation déterminée grâce à la méthode (MCE) et les séries choisies (voir au dessus) et les points de données issus de la réalité.  
 
-> mon équation (une virtualité du réel qui a l'avantage d'être mis en équation et de pouvoir être prolongée dans le futur) est-elle bien au contact du réel ?  
 
En d'autres termes : est-ce réellement utile de tenter de surpasser un RMSE à 0,7% ? N'est-ce pas déjà infinitésimal ? entre quelle valeur et quelle valeur vos RMSE varient-t-ils généralement ?

Message cité 1 fois
Message édité par lefilpourpre le 23-09-2016 à 12:39:25
n°4923192
Profil sup​primé
Posté le 26-09-2016 à 18:54:44  answer
 

drapal

n°4931997
Profil sup​primé
Posté le 05-11-2016 à 22:53:25  answer
 

Existe-t-il des MOO francophones concernant une remise à niveau en maths, stats proba niveau terminale ou L2 en sciences eco svp?

n°4932019
radioactif
Mighty mighty man
Posté le 06-11-2016 à 09:02:42  profilanswer
 


T'as ce truc qui s'adresse à des biologistes : https://perso.univ-rennes1.fr/denis [...] PHOBES.pdf
C'est en langue très vernaculaire mais ça fait le taf pour qui ne veut pas trop creuser l'aspect probas derrière :o


---------------
"La physique, c'est les mathématiques du branleur curieux"© | "Les gens ont tellement peur d'avoir un futur pourri qu'ils se font facilement a l'idee d'avoir un present de merde, en somme"©
n°4932558
Profil sup​primé
Posté le 08-11-2016 à 17:52:16  answer
 

radioactif a écrit :


T'as ce truc qui s'adresse à des biologistes : https://perso.univ-rennes1.fr/denis [...] PHOBES.pdf
C'est en langue très vernaculaire mais ça fait le taf pour qui ne veut pas trop creuser l'aspect probas derrière :o


140 pages
 
Merci mais c'est également utilisé en finance?

n°4940941
Rasthor
Posté le 06-12-2016 à 20:23:04  profilanswer
 

Bonjour,

 

J'ai une petite question:

 

J'ai une matrice de 500 observations (lignes) et 40 features (colonnes).

 

Je n'ai aucune idée si mes observations peuvent se grouper ou pas.

 

J'ai fait un clustering, d'abord en estimant le nombre de clusters avec la methode Affinity Propagation:
http://scikit-learn.org/stable/aut [...] agation-py

 

J'obtiens 20 clusters, que je passe ensuite dans K-means.

 

(J'ai aussi manuellement réduit a 3, 5 ou 10, ca a l'air de bien marcher).

 


J'aimerais maintenant savoir si parmi mes 40 features, il y en a qui sont redondantes. Je pensais utiliser un PCA, mais je n'ai pas de groupes associes a mes observations.
Quelle méthode je pourrais utiliser pour réduire le nombre de colonnes de mon tableau ?

  



Message édité par Rasthor le 06-12-2016 à 20:23:49
n°4940982
Darmstadti​um
Pipoteur grotesque
Posté le 06-12-2016 à 22:52:05  profilanswer
 

PCA est justement un algorithme de réduction de dimension non supervisé, donc que tu n'aies pas de groupe n'est pas un problème (ça le serait pour LDA par contre).
 
Commencer par PCA et voir la part de variance expliquée par chaque composante principale est une bonne idée. Si tes observations sont significativement corrompues par du bruit/des outliers, ça va être un soucis par contre et il faudra utiliser des techniques plus robustes. Attention après à ne pas confondre les composantes principales que PCA te donne avec tes features originales.
 
Un truc que je fais parfois dans ton cas c'est représenter les données en 2 ou 3D via PCA et regarder un peu si des clusters évidents apparaissent. Mais attention ce n'est pas fiable, des données bien séparées en dimension n peuvent se recouvrir beaucoup en dimension inférieure.


---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets
n°4941027
fusion_sad​am
:D
Posté le 07-12-2016 à 10:00:47  profilanswer
 

Et pour la PCA attention, elle est très sensible à la grandeur des données, il faut centrer/réduire tes données avant.
Il n'est pas non plus nécessaire de faire le clustering sur tout les axes factoriels, mais seulement par exemple ceux qui représentent 80~90% de l'info.


---------------
On sait pas trop quoi dire dans des circonstances pareilles...
n°4948520
Rasthor
Posté le 05-01-2017 à 12:06:08  profilanswer
 

Bonjour,

 

J'ai une petite question.

 

J'utilise une methode de normalisation pour voir si mes donnees sont enrichies/depletees quelques part:

 

Imaginons le jeu de donne suivant (columns A/B/C and rows 1/2/3):

   A B C
1  1 2 3
2  4 5 6
3  7 8 9

 

1) J'obtiens la somme par colum:

A   B  C
12 15 18

 

Je divise les valeurs de chaque colonne par la somme obtenue:

      A    B    C
1  0.08 0.13 0.17
2  0.33 0.33 0.33
3  0.58 0.53 0.50


La somme de chaque colonne étant maintenant de 1.

 

J'obtiens ensuite la moyenne de chaque ligne:

1 0.13
2 0.33
3 0.54

 

Et je divise les valeurs de chaque ligne par la moyenne obtenue:
0.65 1.04 1.30
1.00 1.00 1.00
1.08 0.99 0.93

      A    B    C
1  0.65 1.04 1.30
2  1.00 1.00 1.00
3  1.08 0.99 0.93

 

La moyenne globale de la matrix étant maintenant de 1.

 

On peut voir directement que pour la colonne C, elle est enrichie dans la ligne 1 par rapport aux autres colonnes.

 


1) Un avis sur cette façon de faire ?
2) Ca a un nom précis ? Je n'arrive pas a trouver ca, pourtant je suis sur que c'est quelque chose de basique.


Message édité par Rasthor le 05-01-2017 à 12:06:33
n°4948686
rd350
Posté le 05-01-2017 à 15:37:05  profilanswer
 

Un khi2 n'est pas voisin de cette chose ?

n°4948688
rd350
Posté le 05-01-2017 à 15:37:52  profilanswer
 

(sur table de contingence)

n°4948727
Rasthor
Posté le 05-01-2017 à 16:40:13  profilanswer
 

rd350 a écrit :

Un khi2 n'est pas voisin de cette chose ?


rd350 a écrit :

(sur table de contingence)


 
Oui, ça rapproche très fortement ! Merci!  [:cerveau charlest]  
 
Si ma matrix de départ est "mat_obs", ca donne:
 
g, p, dof, mat_exp = scipy.stats.chi2_contingency(mat_obs)
result = mat_obs/mat_exp
 
Deux lignes de code au lieu de quatre. :D

n°4984372
Bébé Yoda
Posté le 30-04-2017 à 23:03:06  profilanswer
 

Rasthor a écrit :

Comment débuter dans la Data Science ?
 
http://jereze.com/fr/blog/debuter-data-science
 
Becoming a Data Scientist – Curriculum via Metromap
 
 
http://reho.st/self/560a24dcf25f71e1b2de92daa92758d12a3fbb6c.png


Hello, je profite de drap ce topic en citant ce post.
Pour ceux qui ne m'ont pas vu sur le topic ML/Data, je suis en reconversion vers la data (après un doctorat en physique, puis une dizaine d'années de boulot en labo puis R&D industrie derrière).
Bref, je vois cette map très intéressante mais un peu flippante. J'ai pas mal bossé et appris beaucoup de choses mais il me manque une grosse partie des points ... j'espère que c'est à titre indicatif et qu'on peut piocher selon les postes visés, sinon je suis pas près de changer moi :)

n°4984374
Rasthor
Posté le 30-04-2017 à 23:09:02  profilanswer
 

Bébé Yoda a écrit :


Hello, je profite de drap ce topic en citant ce post.
Pour ceux qui ne m'ont pas vu sur le topic ML/Data, je suis en reconversion vers la data (après un doctorat en physique, puis une dizaine d'années de boulot en labo puis R&D industrie derrière).
Bref, je vois cette map très intéressante mais un peu flippante. J'ai pas mal bossé et appris beaucoup de choses mais il me manque une grosse partie des points ... j'espère que c'est à titre indicatif et qu'on peut piocher selon les postes visés, sinon je suis pas près de changer moi :)


Je te conseillerais de regarder les annonces pour des postes, tu verras ce qu'ils demandent. ;)

n°4984446
Bébé Yoda
Posté le 01-05-2017 à 11:25:53  profilanswer
 

Oui ça me semble plus logique. Je suis sur secteur Grenoblois, le seul soucis c'est que ça manque d'offres en ce moment, mais je ne suis pas pressé pendant ce temps je continue à me former tranquille

n°4984447
Rasthor
Posté le 01-05-2017 à 11:27:37  profilanswer
 

Bébé Yoda a écrit :

Oui ça me semble plus logique. Je suis sur secteur Grenoblois, le seul soucis c'est que ça manque d'offres en ce moment, mais je ne suis pas pressé pendant ce temps je continue à me former tranquille


Regarde au niveau national, voir même international (UK). Tu trouveras bien plus d'annonce, et ca permettra de mieux t'orienter sur les connaissances requises.


Message édité par Rasthor le 01-05-2017 à 11:28:08
n°4984448
Bébé Yoda
Posté le 01-05-2017 à 11:30:15  profilanswer
 

Salut les statisticiens,
 
Je cherchais un restaurant hier midi sur tripadvisor, les deux plus proches de moi étaient notés : 4/5 (21 avis) et 3.5/5 (82 avis). Comme je suis en pleine période de révisions, je me suis demandé quel test me mettrait de vraiment trancher entre les deux.
J'imagine qu'un chi² serait approprié, mais comment vous y prendriez vous ?
 
Supposons que je puisse collecter toutes les notes, est-ce que je dois créer un array comptabilisant le nombre de notes pour chaque valeur possible ? Une autre technique ?
Sorti des exemples de base, j'ai du mal à voir comment appliquer ce que j'ai appris sur des cas réels (outre que mon idée est peut-être un peu con).
 
Merci pour vos avis

n°4984458
Rasthor
Posté le 01-05-2017 à 12:57:20  profilanswer
 

Bébé Yoda a écrit :

Salut les statisticiens,
 
Je cherchais un restaurant hier midi sur tripadvisor, les deux plus proches de moi étaient notés : 4/5 (21 avis) et 3.5/5 (82 avis). Comme je suis en pleine période de révisions, je me suis demandé quel test me mettrait de vraiment trancher entre les deux.
J'imagine qu'un chi² serait approprié, mais comment vous y prendriez vous ?


 
Non, je ne ferais pas un chi2. Le Chi2 est utilise pour comparer des valeurs observées, donc des comptages. Ici tu as deux populations de notes (allant de 0 a 5) avec deux échantillons de taille différentes. Tu veux essayer de comparer des moyennes, donc T-test ou Wilcoxon.
 
Un problème dans ton cas est que tu n'as que la moyenne. Tu ne connais pas la variance (dispersion) et encore moins si les distributions sont normales ou pas, ou pire unimodale ou bimodales. Par exemple, tu peux avoir beaucoup de notes autour de 3.5 (unimodale), ou alors beaucoup de notes autour de 2 et beaucoup autour de 5 (bimodale).
 
Une page bien foutue:
https://www.mathsisfun.com/data/sta [...] ution.html
 
Les distributions de tes échantillons vont te dire quel test utiliser.  Cf plus bas.
 

Citation :

Supposons que je puisse collecter toutes les notes, est-ce que je dois créer un array comptabilisant le nombre de notes pour chaque valeur possible ? Une autre technique ?
Sorti des exemples de base, j'ai du mal à voir comment appliquer ce que j'ai appris sur des cas réels (outre que mon idée est peut-être un peu con).


Donc si tu arrives a collecter les notes réelles, un Student's t-test sera le plus approprie si les distributions sont normales:
https://docs.scipy.org/doc/scipy/re [...] stats.html
 
Et sinon, il faudra utiliser un test non-parametrique, comme le Wilcoxon rank-sum:
https://docs.scipy.org/doc/scipy-0. [...] ksums.html
 
Ou alors le Mann-Whitney rank test:
https://docs.scipy.org/doc/scipy-0. [...] tneyu.html
 
 
 
Un exemple, si on admet que les distributions de tes échantillons sont normales:
 


import scipy
import scipy.stats
import numpy as np
 
 
# Les donnees pour le 1er resto et le 2 eme resto:
 
mean1, mean2 = 4, 3.5
nobs1, nobs2 = 21, 82
 
# On peut recalculer les deviations standards, si on part du principe que la distribution est normale ((probablement faux par rapport aux donnees reelles):
std1 = np.sqrt(abs((mean1*(1-mean1))/nobs1))
std2 = np.sqrt(abs((mean2*(1-mean2))/nobs2))
 
# On peut maintenant utiliser le Welch’s t-test, en ne donnant que les statistiques:
scipy.stats.ttest_ind_from_stats(mean1, std1, nobs1, mean2, std2, nobs2, equal_var=False)


 
 
Maintenant, si tu peux avoir les valeures reelles, tu vas creer deux arrays pour chaque echantillons, un de taille 21 et l'autre de taille 82. Et utiliser ces deux pour les tests.
Comme on n'a pas les vraies valeurs, on peut essayer de les re-creer en admettant que les standard deviations sont juste:


array1 = np.random.normal(mean1, std1, nobs1)
abs(mean1 - np.mean(array1)) < 0.01
abs(std1 - np.std(array1, ddof=1)) < 0.01
 
array2 = np.random.normal(mean2, std2, nobs2)
abs(mean2 - np.mean(array2)) < 0.01
abs(std2 - np.std(array2, ddof=1)) < 0.01
 
 
scipy.stats.ranksums(array1, array2)
 
scipy.stats.mannwhitneyu(array1, array2)
 


Message édité par Rasthor le 01-05-2017 à 16:02:23
n°4984539
cassiopell​a
Posté le 01-05-2017 à 17:55:08  profilanswer
 

Pourquoi il n'y plus de lien vers les masters?

Bébé Yoda a écrit :

Oui ça me semble plus logique. Je suis sur secteur Grenoblois, le seul soucis c'est que ça manque d'offres en ce moment, mais je ne suis pas pressé pendant ce temps je continue à me former tranquille


Si si si, il y a plein d'offre. Le 11/05 il y a le forum docteurs où la majorité d'offre est data scientist.
 

Citation :

=> la programmation en R (le langage gratuit le plus populaire et surtout le plus puissant actuellement !)


Non, mais quelle blague!  :lol: Dans 99% des cas ce n'est pas la programmation. Ne mettez jamais "je sais programmer en R", cela signifie que vous savez pas programmer. Un peu comme "la régression multilinéaire". Ce n'est pas faux, mais cela montre que vous connaissez tellement peu le sujet et ne comprenez pas que summary(base$toto) n'est pas une programmation et que ce n'est pas la peine mettre "multilinéaire".

n°4984634
Bébé Yoda
Posté le 01-05-2017 à 20:46:22  profilanswer
 

cassiopella a écrit :

Pourquoi il n'y plus de lien vers les masters?


cassiopella a écrit :


Si si si, il y a plein d'offre. Le 11/05 il y a le forum docteurs où la majorité d'offre est data scientist.
 


Citation :

=> la programmation en R (le langage gratuit le plus populaire et surtout le plus puissant actuellement !) Non, mais quelle blague!  :lol: Dans 99% des cas ce n'est pas la programmation. Ne mettez jamais "je sais programmer en R", cela signifie que vous savez pas programmer. Un peu comme "la régression multilinéaire". Ce n'est pas faux, mais cela montre que vous connaissez tellement peu le sujet et ne comprenez pas que summary(base$toto) n'est pas une programmation et que ce n'est pas la peine mettre "multilinéaire".


Je suppose que c'est ce forum là ?  
http://www.pole-emploi.fr/region/a [...] ?id=451370
 
Je pense que je vais devoir y aller :)
 
Par contre, je ne comprends pas pourquoi il ne faut pas dire qu'on sait programmer dans un langage, j'ai pas bien saisi ton propos.

n°4984639
Rasthor
Posté le 01-05-2017 à 20:52:02  profilanswer
 

Bébé Yoda a écrit :

Par contre, je ne comprends pas pourquoi il ne faut pas dire qu'on sait programmer dans un langage, j'ai pas bien saisi ton propos.


C'est du pignolage en fait.
 
R a toute les fonctions d'un vrai langage de programmation. Mais il est beaucoup plus limite par rapport a un langage de scripting comme Python, Perl ou Ruby. Et la syntaxe R est horrible quand meme. :D
 
 
Maintenant, j'essaie de faire toutes mes stats dans Python. Le truc est d'ouvrir un notebook Jupyter et de charger la bibilotheque Pandas, qui permet l’accès aux dataframes comme dans R. Tres puissant manipuler des donnes, avec des fonctions comme merge, join, append, etc, etc... Apres avec Scipy, on peut faire plein de test statistique. Et Scikit-learn s'il faut du machine-learning. Et pour les graphiques, Matplotlib avec la surcouche Seaborn.

n°4984645
cassiopell​a
Posté le 01-05-2017 à 21:06:48  profilanswer
 

Bébé Yoda a écrit :


Citation :

=> la programmation en R (le langage gratuit le plus populaire et surtout le plus puissant actuellement !) Non, mais quelle blague!  :lol: Dans 99% des cas ce n'est pas la programmation. Ne mettez jamais "je sais programmer en R", cela signifie que vous savez pas programmer. Un peu comme "la régression multilinéaire". Ce n'est pas faux, mais cela montre que vous connaissez tellement peu le sujet et ne comprenez pas que summary(base$toto) n'est pas une programmation et que ce n'est pas la peine mettre "multilinéaire".


Je suppose que c'est ce forum là ?
http://www.pole-emploi.fr/region/a [...] ?id=451370

 

Je pense que je vais devoir y aller :)

 

Par contre, je ne comprends pas pourquoi il ne faut pas dire qu'on sait programmer dans un langage, j'ai pas bien saisi ton propos.


Parce que dans les 99 % des cas il s'agit d'utiliser les commandes déjà créés au lieu de les coder. Et c'est une grosse différence et pas vraiment la programmation. Cela ne montre pas que tu sait ou non coder et écrire un programme. Alors que pour certains postes il est vraiment nécessaire de savoir le faire.

Message cité 1 fois
Message édité par cassiopella le 01-05-2017 à 21:08:52
n°4984699
Bébé Yoda
Posté le 01-05-2017 à 21:54:35  profilanswer
 

cassiopella a écrit :


Parce que dans les 99 % des cas il s'agit d'utiliser les commandes déjà créés au lieu de les coder. Et c'est une grosse différence et pas vraiment la programmation. Cela ne montre pas que tu sait ou non coder et écrire un programme. Alors que pour certains postes il est vraiment nécessaire de savoir le faire.


OK je vois, il y a en effet une vraie différence ;)


Message édité par Bébé Yoda le 01-05-2017 à 23:16:44
n°4984705
Bébé Yoda
Posté le 01-05-2017 à 21:57:08  profilanswer
 

Rasthor a écrit :


C'est du pignolage en fait.
 
R a toute les fonctions d'un vrai langage de programmation. Mais il est beaucoup plus limite par rapport a un langage de scripting comme Python, Perl ou Ruby. Et la syntaxe R est horrible quand meme. :D
 
 
Maintenant, j'essaie de faire toutes mes stats dans Python. Le truc est d'ouvrir un notebook Jupyter et de charger la bibilotheque Pandas, qui permet l’accès aux dataframes comme dans R. Tres puissant manipuler des donnes, avec des fonctions comme merge, join, append, etc, etc... Apres avec Scipy, on peut faire plein de test statistique. Et Scikit-learn s'il faut du machine-learning. Et pour les graphiques, Matplotlib avec la surcouche Seaborn.


A vrai dire je n'ai jamais touché à R, j'ai commencé avec python il y a 2 ans pour mes calculs scientifiques et ça me convient bien.
J'utilise les mêmes bibliothèques, surtout Pandas et numpy (j'avais fait presque 15 ans de matlab avant, les similitudes étaient les bienvenues pour démarrer).  
Le seul problème avec Pandas et numpy, c'est que je m'y suis tellement habitué que je ne sais plus trop manipuler les structures basiques de python :D

n°4984769
Bébé Yoda
Posté le 01-05-2017 à 23:41:04  profilanswer
 

Bon, j'ai fait mon petit exercice, j'ai collecté les notes sur tripadvisor qui me donne la distribution suivante :  
 
http://reho.st/self/8987f6118ebe7e6762c425033f3846bf6e841ebc.png
 
Les moyennes sont 4 et 3.4
Median : 4 et 4
Std : 1.15 et 1.47
 
Rien qu'avec ça, je peux dire que le premier est meilleur que le second.  
J'ai lancé les tests dont tu m'as parlé :
 

Code :
  1. sp.stats.mannwhitneyu(notes_1,notes_2)
  2. >> MannwhitneyuResult(statistic=648.0, pvalue=0.048715948349914266)
  3. sp.stats.ranksums(notes_1,notes_2)
  4. >> RanksumsResult(statistic=1.6067086248109883, pvalue=0.10811830074643212)


Pas sûr de savoir comment interpréter ça d'ailleurs.
 
Je me demande si je suis pas en train de m’emmêler les pinceaux. Mon problème est peut-être de savoir si j'ai assez de notes sur le resto n°1 (seulement 21) pour vraiment affirmer qu'il est meilleur que le n°2.

n°4984778
Rasthor
Posté le 01-05-2017 à 23:59:39  profilanswer
 

Il faut utiliser le two-sided test en premier, qui est le Wilcoxon rank-sum (ranksums):
http://stats.idre.ucla.edu/other/m [...] led-tests/
 
=> tu obtiens une p-value de 0.10811, qui supérieur au seuil habituel de 0.05.
=> Conclusion: tu observes bien une différences entre les notes, mais tu ne peux pas rejeter l’hypothèse nulle H0 qui est que les notes soient identiques.

n°4984813
Oceanborn
Posté le 02-05-2017 à 09:46:26  profilanswer
 

[:lardoncru:1]
Je connaissais pas ce topic. :love:

n°4984831
Bébé Yoda
Posté le 02-05-2017 à 10:25:32  profilanswer
 

Rasthor a écrit :

Il faut utiliser le two-sided test en premier, qui est le Wilcoxon rank-sum (ranksums):
http://stats.idre.ucla.edu/other/m [...] led-tests/
 
=> tu obtiens une p-value de 0.10811, qui supérieur au seuil habituel de 0.05.
=> Conclusion: tu observes bien une différences entre les notes, mais tu ne peux pas rejeter l’hypothèse nulle H0 qui est que les notes soient identiques.


C'est sympa de m'aider :)
 
Désolé, c'est encore très confus dans mon esprit.
Donc si je comprends bien, la conclusion du test (p=0.108) me dit que je ne peux pas dire lequel est le meilleur ?
 
Mon avis, hors analyse poussée, serait de dire qu'il y a trop de 1 pour que le restaurant soit vraiment bon, et j'aurais tendance à l'éviter.
 
Du coup, la question suivante est pourquoi je ne peux pas le dire ? Est-ce à cause :  
- D'un échantillon trop faible  
- D'un écart type pas assez différent d'un jeu de notes à l'autre
- De notes finalement assez proches et donc c'est logique.
- Autre chose ?

n°4984926
Rasthor
Posté le 02-05-2017 à 12:35:52  profilanswer
 

Bébé Yoda a écrit :


C'est sympa de m'aider :)
 
Désolé, c'est encore très confus dans mon esprit.
Donc si je comprends bien, la conclusion du test (p=0.108) me dit que je ne peux pas dire lequel est le meilleur ?


C'est bien ca!
 
Ton test de comparaison entre deux moyennes, que ce soit le paramétrique Student's test, le Student's test paired ou le non-paramétrique Wilcoxon, cherche a dire si les distributions de tes deux échantillons viennent de la source (donc même moyenne, écart-type, etc, etc...).
 
Hypothèse nulle H0: les deux échantillons viennent de la meme source d'echantillonage.
Hypothèse alternative H1: les deux échantillons ne viennent pas de la même source d'echantillonage, et sont donc different.
 
Comme ta p-value est de 0.10 (et non pas < 0.05), on ne peut pas rejeter l’hypothèse nulle, et on doit admettre qu'ils sont statistiquement similaires.
 
http://www.cons-dev.org/elearning/stat/St2a.html
 
 
 

Citation :

Mon avis, hors analyse poussée, serait de dire qu'il y a trop de 1 pour que le restaurant soit vraiment bon, et j'aurais tendance à l'éviter.

C'est une facon de voir les choses. Mais il y aussi beaucoup de gens très satisfait! Est-ce un bien un biais?
 
 

Citation :

Du coup, la question suivante est pourquoi je ne peux pas le dire ? Est-ce à cause :  
- D'un échantillon trop faible  
- D'un écart type pas assez différent d'un jeu de notes à l'autre
- De notes finalement assez proches et donc c'est logique.
- Autre chose ?

Des notes assez proches je dirais, et l'ecart-type entre notes pas assez different entre les deux restaurants.


Message édité par Rasthor le 02-05-2017 à 12:36:29
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7  8

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic Unique] Licence LEA (Langues Etrangères Appliquées)[ Topic unique ] Stage à l'étranger
[Topic unique] Bac 2k13 - 2k14 ===[Topic Unique] Concours A/A+ (Rejoignez la clownance !)
Master économétrie et statistiques appliquées[Topic Unique] Magistère Banque Finance - Université Panthéon-Assas
[Topic Unique] Master Économétrie et Statistiques Appliquées - Orléans[Topic Unique]Bloquer son année universitaire
[Topic Unique] ROUEN BUSINESS SCHOOL MASTERE Spécialisé FINANCE 
Plus de sujets relatifs à : [Topic Unique] Statistiques descriptives, inférentielles & dataviz


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR