Forum |  HardWare.fr | News | Articles | PC | Prix | S'identifier | S'inscrire | Aide | Shop Recherche
1422 connectés 

 


 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7  8
Page Suivante
Auteur Sujet :

[Topic Unique] Statistiques descriptives, inférentielles & dataviz

n°4984926
Rasthor
Liberté et Patrie
Posté le 02-05-2017 à 12:35:52  profilanswer
 

Reprise du message précédent :

zuf a écrit :


C'est sympa de m'aider :)
 
Désolé, c'est encore très confus dans mon esprit.
Donc si je comprends bien, la conclusion du test (p=0.108) me dit que je ne peux pas dire lequel est le meilleur ?


C'est bien ca!
 
Ton test de comparaison entre deux moyennes, que ce soit le paramétrique Student's test, le Student's test paired ou le non-paramétrique Wilcoxon, cherche a dire si les distributions de tes deux échantillons viennent de la source (donc même moyenne, écart-type, etc, etc...).
 
Hypothèse nulle H0: les deux échantillons viennent de la meme source d'echantillonage.
Hypothèse alternative H1: les deux échantillons ne viennent pas de la même source d'echantillonage, et sont donc different.
 
Comme ta p-value est de 0.10 (et non pas < 0.05), on ne peut pas rejeter l’hypothèse nulle, et on doit admettre qu'ils sont statistiquement similaires.
 
http://www.cons-dev.org/elearning/stat/St2a.html
 
 
 

Citation :

Mon avis, hors analyse poussée, serait de dire qu'il y a trop de 1 pour que le restaurant soit vraiment bon, et j'aurais tendance à l'éviter.

C'est une facon de voir les choses. Mais il y aussi beaucoup de gens très satisfait! Est-ce un bien un biais?
 
 

Citation :

Du coup, la question suivante est pourquoi je ne peux pas le dire ? Est-ce à cause :  
- D'un échantillon trop faible  
- D'un écart type pas assez différent d'un jeu de notes à l'autre
- De notes finalement assez proches et donc c'est logique.
- Autre chose ?

Des notes assez proches je dirais, et l'ecart-type entre notes pas assez different entre les deux restaurants.


Message édité par Rasthor le 02-05-2017 à 12:36:29
mood
Publicité
Posté le 02-05-2017 à 12:35:52  profilanswer
 

n°4985051
fusion_sad​am
:D
Posté le 02-05-2017 à 18:18:28  profilanswer
 

zuf a écrit :


C'est sympa de m'aider :)
 
Désolé, c'est encore très confus dans mon esprit.
Donc si je comprends bien, la conclusion du test (p=0.108) me dit que je ne peux pas dire lequel est le meilleur ?
 
Mon avis, hors analyse poussée, serait de dire qu'il y a trop de 1 pour que le restaurant soit vraiment bon, et j'aurais tendance à l'éviter.
 
Du coup, la question suivante est pourquoi je ne peux pas le dire ? Est-ce à cause :  
- D'un échantillon trop faible  
- D'un écart type pas assez différent d'un jeu de notes à l'autre
- De notes finalement assez proches et donc c'est logique.
- Autre chose ?


 
 
 
 
Mon avis :
Un échantillon de 20 est effectivement faible et du coup comparer sa distribution avec quoique ce soit sera certainement non significatif.
 
exemple:
Si je double la taille de notes_1, on obtient une p-value <5%
Si je double la taille de notes_2 on reste > 5%
(attention j'utilise des liste python pas des numpy array)

Code :
  1. sp.stats.ranksums(notes_1*2, notes_2)
  2. >>> RanksumsResult(statistic=2.0691865795634032, pvalue=0.038528581588771746)
  3. sp.stats.ranksums(notes_1, notes_2*2)
  4. >>> RanksumsResult(statistic=1.7010477886520017, pvalue=0.088934013866706518)


 
A cela s'ajoute effectivement une assez grande variance du deuxième échantillon, et pour cause, tu as bien observé la tête de ta distribution ?
pour moi elle est bi modal, on aime ou on aime pas, et dans ce genre de distribution est-ce que cela à vraiment du sens d'utiliser une simple moyenne pour résumer des avis qui sont divergents ?
 
Personnellement  j'aurais attaquer le problème sous un autre angle, contrairement à Rasthor j'aurais utiliser un khi deux en recodant mes notes (qui sont une variable continue) en variable discrète.
note 1 et 2 -> pas satisfait  
note 4 et 5 > satisfait  
note 3 ('neutre') on les vire :o  en socio ou dans un questionnaire il est souvent conseiller d'avoir un nombre impaire de modalité pour forcer le répondant à prendre partie, car la valeur central signifie bien souvent "j'en ai rien à branler"
 
L’hypothèse serait alors : est-ce que ma proportion de satisfait est la même pour les deux restau ? (je te laisse faire le calcul pour l'entrainement, mais vu la taille de l'effectif tu va retomber sur la même conclusion)
 
 
Tout ça pour dire qu'en statistique il n'a pas qu'une seule solution, car il n'y a pas de traduction mathématique à "Quel est le meilleur restaurant ?"
c'est celui qui à la moyenne la plus haute ? c'est celui dont le plus de gens sont content ?
le plus important est d'avoir une démarche cohérente, de bien poser sa problématique, de choisir à l'avance sa démarche, récupérer les données, de faire les calculs et de conclure.
 
Quand on part des données et qu'on cherche quelque chose d’intéressant dedans, on sort un peu du domaine statistique on appel plutôt ça du data mining ;)  
 
 


---------------
wow, so crypto : D5w4VovHg91orqXQvBknrQjZ2n6hv6QUQy
n°4985055
zuf
Posté le 02-05-2017 à 18:33:57  profilanswer
 

fusion_sadam a écrit :


 
 
 
 
Mon avis :
Un échantillon de 20 est effectivement faible et du coup comparer sa distribution avec quoique ce soit sera certainement non significatif.
 
exemple:
Si je double la taille de notes_1, on obtient une p-value <5%
Si je double la taille de notes_2 on reste > 5%
(attention j'utilise des liste python pas des numpy array)


Code :
  1. sp.stats.ranksums(notes_1*2, notes_2)
  2. >>> RanksumsResult(statistic=2.0691865795634032, pvalue=0.038528581588771746)
  3. sp.stats.ranksums(notes_1, notes_2*2)
  4. >>> RanksumsResult(statistic=1.7010477886520017, pvalue=0.088934013866706518)


A cela s'ajoute effectivement une assez grande variance du deuxième échantillon, et pour cause, tu as bien observé la tête de ta distribution ?
pour moi elle est bi modal, on aime ou on aime pas, et dans ce genre de distribution est-ce que cela à vraiment du sens d'utiliser une simple moyenne pour résumer des avis qui sont divergents ?
 
Personnellement  j'aurais attaquer le problème sous un autre angle, contrairement à Rasthor j'aurais utiliser un khi deux en recodant mes notes (qui sont une variable continue) en variable discrète.
note 1 et 2 -> pas satisfait  
note 4 et 5 > satisfait  
note 3 ('neutre') on les vire :o  en socio ou dans un questionnaire il est souvent conseiller d'avoir un nombre impaire de modalité pour forcer le répondant à prendre partie, car la valeur central signifie bien souvent "j'en ai rien à branler"
 
L’hypothèse serait alors : est-ce que ma proportion de satisfait est la même pour les deux restau ? (je te laisse faire le calcul pour l'entrainement, mais vu la taille de l'effectif tu va retomber sur la même conclusion)
 
 
Tout ça pour dire qu'en statistique il n'a pas qu'une seule solution, car il n'y a pas de traduction mathématique à "Quel est le meilleur restaurant ?"
c'est celui qui à la moyenne la plus haute ? c'est celui dont le plus de gens sont content ?
le plus important est d'avoir une démarche cohérente, de bien poser sa problématique, de choisir à l'avance sa démarche, récupérer les données, de faire les calculs et de conclure.
 
Quand on part des données et qu'on cherche quelque chose d’intéressant dedans, on sort un peu du domaine statistique on appel plutôt ça du data mining ;)  
 
 
Hello,
 
Merci pour ton avis. En fait, j'avais hésité à utiliser ta méthode (ignorer les notes = 3) que j'avais déjà employé pour un problème de classification en machine learning. Mais je n'étais pas certain que c'était vraiment pertinent dans ce cas.
 
A priori on est d'accord pour dire que 21 notes, c'est pas assez en tout cas, ce que montre ton calcul.
 
Sur ta dernière remarque, on est en effet plutôt dans le data mining, et je me demande si c'est pas ce que je préfère dans l'histoire ;)

n°4985242
fusion_sad​am
:D
Posté le 03-05-2017 à 11:59:14  profilanswer
 

zuf a écrit :

Merci pour ton avis. En fait, j'avais hésité à utiliser ta méthode (ignorer les notes = 3) que j'avais déjà employé pour un problème de classification en machine learning. Mais je n'étais pas certain que c'était vraiment pertinent dans ce cas.


C'est moyennement pertinent, car est on pas dans l'administration d'un questionnaire où l'utilisateur veut en finir au plus vite, on est dans un cas où l'utilisateur donne son avis par soit même, donc cette note à réellement du sens. C'est également un peu stupide de supprimer des données quand on en a déjà peu.
Mais c'est un parti pris qui permet de poser une problématique bien définie.
 
 

zuf a écrit :

Sur ta dernière remarque, on est en effet plutôt dans le data mining, et je me demande si c'est pas ce que je préfère dans l'histoire ;)


 
C'est parce que tu as ptet par encore pris conscience des limites induit par la qualités des données :o
 
Prenons un peu de recul...
Dans un cadre expérimental tu construit le questionnaire, en s'assurant que la question est bien comprise par tous, que l’échelle veut dire la même chose pour tout le monde, que les personnes interrogés sont représentative de la population, et tu pourra t'exprimer haut et fort "Oui monsieur,  les français on exprimé leur choix dans le restaurant A!"   [:zyx] car tu as confiance dans tes données.
 
Maintenant dans une approche 'data mining' (c'est à dire au sens où tu ne maîtrise pas la provenance des données). Soit pessimiste et pose toi les bonnes questions :
D'où viennent mes données ? Quel est ma population ?
celle de trip TripAdvisor : des gens qui ont internet, qui sont à l'aise avec la technologie, qui vont souvent au restaurant ou en voyage et habite en ville et aime prendre des photos de leur tartare avec leur iphone8 (je caricature, hein).
 
Est-ce que les restaurants sont de même nature, est-ce que la population de ces restaurant est comparable ?
En quoi la note 5 d'un kebab est réellement meilleur que la note 1 d'un gastro, sachant que ce n'est pas la même population qui va dans un kebab ou un gastro, est-ce que leur avis peuvent refléter celle d'une population plus globale ?
 
Ensuite regarde de plus près tes données, quelle période elle couvrent. Et si l'avis de ma population avait changer au cours du temps ? Ça expliquerait peut être la distribution bimodal, la note aurai monté ou baisser, le propio à changé ?
Qu'-est ce qui te garantie que tu n'est pas en train d'étudier des données obsolète ?
 
Donc on voit bien que sans une maîtrise des données tu ne pourra pas extrapoler ta conclusion à un cadre plus large, tu sera confiner à un cadre de plus en plus strict à chaque fois tu te soulève un biais. Et il te sera impossible de détenir la vérité vraie jalousement gardé par ce héro le statisticien :o
 
Mais c'est vrai que les découvertes peuvent être aussi passionnante, tu vas peut être découvrir des notes positive seulement en été, et qu'il y'a une super terrasse avec de la bonne bière. Alors tu aura trouvé un bon endroit pour décompresser quand le stagiaire du client t'aura appeler la veille de la livraison pour te dire : Au fait le système de notation à changé mais on sait pas trop quand c'est pas documenté, et en plus les valeur null on été remplacé par des zéro ...
 
Conclusion : ta p-value tu te la met sagement derrière l'oreille :o mais ça reste un bon exercice ;)
 
http://www.kdnuggets.com/wp-content/uploads/expectation_vs_reality.png
 
 
 
 
 
 
 
 


---------------
wow, so crypto : D5w4VovHg91orqXQvBknrQjZ2n6hv6QUQy
n°4986132
zuf
Posté le 05-05-2017 à 10:48:12  profilanswer
 

Merci pour les précisions, mon petit exercice n'avait pas la prétention d'être vraiment aussi bon, mais j'apprécie ces explications qui mettent en perspective ces problèmes.
 
J'en profite pour poser une petite question : En anglais on a les termes de "Accuracy" (% de vraies réponses vraies) et "Precision" (#vraipositif/(#vraipositif+#fauxpositif)
Ca se traduit comment en français ? J'ai l'impression qu'on peut utiliser précision pour les deux termes, d'où une confusion possible.

n°4987418
Voxinat
Posté le 08-05-2017 à 18:59:52  profilanswer
 

Bonjour les spécialistes,
 
Je suis étudiant en économie et ingénierie financière (je passe en M2). A la fin de l'année, je voudrai candidater à un master de Stat et Finance (mention du master math app de Paris-Saclay). Le truc c'est que j'ai pas un gros niveau en stat (j'ai fait des stat de base/tests/économétrie mais bien sûr je ne me souviens de rien) et que j'aimerai bien m'auto-former pour pouvoir faire valoir ma motivation. Sans acquérir un niveau de major de M1 Stat, je pense qu'un solide niveau de L3 serait une bonne chose. Vous auriez des livres/poly/cours en ligne pour y parvenir? Il faudrait que je reprenne de l'algèbre/analyse ou les connaissances de bases sur les matrices/étude de fonction suffisent? (sachant que j'ai tout l'été et toute l'année pour y parvenir)
 
Merci d'avance!


---------------
Roses are red, Violets are blue, I'm using my hand, But thinking 'bout you.
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7  8
Page Suivante

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic Unique] Licence LEA (Langues Etrangères Appliquées)[ Topic unique ] Stage à l'étranger
[Topic unique] Bac 2k13 - 2k14 ===[Topic Unique] Concours A/A+ (Rejoignez la clownance !)
Master économétrie et statistiques appliquées[Topic Unique] Magistère Banque Finance - Université Panthéon-Assas
[Topic Unique] Master Économétrie et Statistiques Appliquées - Orléans[Topic Unique]Bloquer son année universitaire
[Topic Unique] ROUEN BUSINESS SCHOOL MASTERE Spécialisé FINANCE 
Plus de sujets relatifs à : [Topic Unique] Statistiques descriptives, inférentielles & dataviz



Copyright © 1997-2016 Hardware.fr SARL (Signaler un contenu illicite) / Groupe LDLC / Shop HFR