Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1625 connectés 

 


 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7  8
Page Suivante
Auteur Sujet :

[Topic Unique] Statistiques descriptives, inférentielles & dataviz

n°4984926
Rasthor
Posté le 02-05-2017 à 12:35:52  profilanswer
 

Reprise du message précédent :

Bébé Yoda a écrit :


C'est sympa de m'aider :)
 
Désolé, c'est encore très confus dans mon esprit.
Donc si je comprends bien, la conclusion du test (p=0.108) me dit que je ne peux pas dire lequel est le meilleur ?


C'est bien ca!
 
Ton test de comparaison entre deux moyennes, que ce soit le paramétrique Student's test, le Student's test paired ou le non-paramétrique Wilcoxon, cherche a dire si les distributions de tes deux échantillons viennent de la source (donc même moyenne, écart-type, etc, etc...).
 
Hypothèse nulle H0: les deux échantillons viennent de la meme source d'echantillonage.
Hypothèse alternative H1: les deux échantillons ne viennent pas de la même source d'echantillonage, et sont donc different.
 
Comme ta p-value est de 0.10 (et non pas < 0.05), on ne peut pas rejeter l’hypothèse nulle, et on doit admettre qu'ils sont statistiquement similaires.
 
http://www.cons-dev.org/elearning/stat/St2a.html
 
 
 

Citation :

Mon avis, hors analyse poussée, serait de dire qu'il y a trop de 1 pour que le restaurant soit vraiment bon, et j'aurais tendance à l'éviter.

C'est une facon de voir les choses. Mais il y aussi beaucoup de gens très satisfait! Est-ce un bien un biais?
 
 

Citation :

Du coup, la question suivante est pourquoi je ne peux pas le dire ? Est-ce à cause :  
- D'un échantillon trop faible  
- D'un écart type pas assez différent d'un jeu de notes à l'autre
- De notes finalement assez proches et donc c'est logique.
- Autre chose ?

Des notes assez proches je dirais, et l'ecart-type entre notes pas assez different entre les deux restaurants.


Message édité par Rasthor le 02-05-2017 à 12:36:29
mood
Publicité
Posté le 02-05-2017 à 12:35:52  profilanswer
 

n°4985051
fusion_sad​am
:D
Posté le 02-05-2017 à 18:18:28  profilanswer
 

Bébé Yoda a écrit :


C'est sympa de m'aider :)
 
Désolé, c'est encore très confus dans mon esprit.
Donc si je comprends bien, la conclusion du test (p=0.108) me dit que je ne peux pas dire lequel est le meilleur ?
 
Mon avis, hors analyse poussée, serait de dire qu'il y a trop de 1 pour que le restaurant soit vraiment bon, et j'aurais tendance à l'éviter.
 
Du coup, la question suivante est pourquoi je ne peux pas le dire ? Est-ce à cause :  
- D'un échantillon trop faible  
- D'un écart type pas assez différent d'un jeu de notes à l'autre
- De notes finalement assez proches et donc c'est logique.
- Autre chose ?


 
 
 
 
Mon avis :
Un échantillon de 20 est effectivement faible et du coup comparer sa distribution avec quoique ce soit sera certainement non significatif.
 
exemple:
Si je double la taille de notes_1, on obtient une p-value <5%
Si je double la taille de notes_2 on reste > 5%
(attention j'utilise des liste python pas des numpy array)

Code :
  1. sp.stats.ranksums(notes_1*2, notes_2)
  2. >>> RanksumsResult(statistic=2.0691865795634032, pvalue=0.038528581588771746)
  3. sp.stats.ranksums(notes_1, notes_2*2)
  4. >>> RanksumsResult(statistic=1.7010477886520017, pvalue=0.088934013866706518)


 
A cela s'ajoute effectivement une assez grande variance du deuxième échantillon, et pour cause, tu as bien observé la tête de ta distribution ?
pour moi elle est bi modal, on aime ou on aime pas, et dans ce genre de distribution est-ce que cela à vraiment du sens d'utiliser une simple moyenne pour résumer des avis qui sont divergents ?
 
Personnellement  j'aurais attaquer le problème sous un autre angle, contrairement à Rasthor j'aurais utiliser un khi deux en recodant mes notes (qui sont une variable continue) en variable discrète.
note 1 et 2 -> pas satisfait  
note 4 et 5 > satisfait  
note 3 ('neutre') on les vire :o  en socio ou dans un questionnaire il est souvent conseiller d'avoir un nombre impaire de modalité pour forcer le répondant à prendre partie, car la valeur central signifie bien souvent "j'en ai rien à branler"
 
L’hypothèse serait alors : est-ce que ma proportion de satisfait est la même pour les deux restau ? (je te laisse faire le calcul pour l'entrainement, mais vu la taille de l'effectif tu va retomber sur la même conclusion)
 
 
Tout ça pour dire qu'en statistique il n'a pas qu'une seule solution, car il n'y a pas de traduction mathématique à "Quel est le meilleur restaurant ?"
c'est celui qui à la moyenne la plus haute ? c'est celui dont le plus de gens sont content ?
le plus important est d'avoir une démarche cohérente, de bien poser sa problématique, de choisir à l'avance sa démarche, récupérer les données, de faire les calculs et de conclure.
 
Quand on part des données et qu'on cherche quelque chose d’intéressant dedans, on sort un peu du domaine statistique on appel plutôt ça du data mining ;)  
 
 


---------------
On sait pas trop quoi dire dans des circonstances pareilles...
n°4985055
Bébé Yoda
Posté le 02-05-2017 à 18:33:57  profilanswer
 

fusion_sadam a écrit :


 
 
 
 
Mon avis :
Un échantillon de 20 est effectivement faible et du coup comparer sa distribution avec quoique ce soit sera certainement non significatif.
 
exemple:
Si je double la taille de notes_1, on obtient une p-value <5%
Si je double la taille de notes_2 on reste > 5%
(attention j'utilise des liste python pas des numpy array)


Code :
  1. sp.stats.ranksums(notes_1*2, notes_2)
  2. >>> RanksumsResult(statistic=2.0691865795634032, pvalue=0.038528581588771746)
  3. sp.stats.ranksums(notes_1, notes_2*2)
  4. >>> RanksumsResult(statistic=1.7010477886520017, pvalue=0.088934013866706518)


A cela s'ajoute effectivement une assez grande variance du deuxième échantillon, et pour cause, tu as bien observé la tête de ta distribution ?
pour moi elle est bi modal, on aime ou on aime pas, et dans ce genre de distribution est-ce que cela à vraiment du sens d'utiliser une simple moyenne pour résumer des avis qui sont divergents ?
 
Personnellement  j'aurais attaquer le problème sous un autre angle, contrairement à Rasthor j'aurais utiliser un khi deux en recodant mes notes (qui sont une variable continue) en variable discrète.
note 1 et 2 -> pas satisfait  
note 4 et 5 > satisfait  
note 3 ('neutre') on les vire :o  en socio ou dans un questionnaire il est souvent conseiller d'avoir un nombre impaire de modalité pour forcer le répondant à prendre partie, car la valeur central signifie bien souvent "j'en ai rien à branler"
 
L’hypothèse serait alors : est-ce que ma proportion de satisfait est la même pour les deux restau ? (je te laisse faire le calcul pour l'entrainement, mais vu la taille de l'effectif tu va retomber sur la même conclusion)
 
 
Tout ça pour dire qu'en statistique il n'a pas qu'une seule solution, car il n'y a pas de traduction mathématique à "Quel est le meilleur restaurant ?"
c'est celui qui à la moyenne la plus haute ? c'est celui dont le plus de gens sont content ?
le plus important est d'avoir une démarche cohérente, de bien poser sa problématique, de choisir à l'avance sa démarche, récupérer les données, de faire les calculs et de conclure.
 
Quand on part des données et qu'on cherche quelque chose d’intéressant dedans, on sort un peu du domaine statistique on appel plutôt ça du data mining ;)  
 
 
Hello,
 
Merci pour ton avis. En fait, j'avais hésité à utiliser ta méthode (ignorer les notes = 3) que j'avais déjà employé pour un problème de classification en machine learning. Mais je n'étais pas certain que c'était vraiment pertinent dans ce cas.
 
A priori on est d'accord pour dire que 21 notes, c'est pas assez en tout cas, ce que montre ton calcul.
 
Sur ta dernière remarque, on est en effet plutôt dans le data mining, et je me demande si c'est pas ce que je préfère dans l'histoire ;)

n°4985242
fusion_sad​am
:D
Posté le 03-05-2017 à 11:59:14  profilanswer
 

Bébé Yoda a écrit :

Merci pour ton avis. En fait, j'avais hésité à utiliser ta méthode (ignorer les notes = 3) que j'avais déjà employé pour un problème de classification en machine learning. Mais je n'étais pas certain que c'était vraiment pertinent dans ce cas.


C'est moyennement pertinent, car est on pas dans l'administration d'un questionnaire où l'utilisateur veut en finir au plus vite, on est dans un cas où l'utilisateur donne son avis par soit même, donc cette note à réellement du sens. C'est également un peu stupide de supprimer des données quand on en a déjà peu.
Mais c'est un parti pris qui permet de poser une problématique bien définie.
 
 

Bébé Yoda a écrit :

Sur ta dernière remarque, on est en effet plutôt dans le data mining, et je me demande si c'est pas ce que je préfère dans l'histoire ;)


 
C'est parce que tu as ptet par encore pris conscience des limites induit par la qualités des données :o
 
Prenons un peu de recul...
Dans un cadre expérimental tu construit le questionnaire, en s'assurant que la question est bien comprise par tous, que l’échelle veut dire la même chose pour tout le monde, que les personnes interrogés sont représentative de la population, et tu pourra t'exprimer haut et fort "Oui monsieur,  les français on exprimé leur choix dans le restaurant A!"   [:zyx] car tu as confiance dans tes données.
 
Maintenant dans une approche 'data mining' (c'est à dire au sens où tu ne maîtrise pas la provenance des données). Soit pessimiste et pose toi les bonnes questions :
D'où viennent mes données ? Quel est ma population ?
celle de trip TripAdvisor : des gens qui ont internet, qui sont à l'aise avec la technologie, qui vont souvent au restaurant ou en voyage et habite en ville et aime prendre des photos de leur tartare avec leur iphone8 (je caricature, hein).
 
Est-ce que les restaurants sont de même nature, est-ce que la population de ces restaurant est comparable ?
En quoi la note 5 d'un kebab est réellement meilleur que la note 1 d'un gastro, sachant que ce n'est pas la même population qui va dans un kebab ou un gastro, est-ce que leur avis peuvent refléter celle d'une population plus globale ?
 
Ensuite regarde de plus près tes données, quelle période elle couvrent. Et si l'avis de ma population avait changer au cours du temps ? Ça expliquerait peut être la distribution bimodal, la note aurai monté ou baisser, le propio à changé ?
Qu'-est ce qui te garantie que tu n'est pas en train d'étudier des données obsolète ?
 
Donc on voit bien que sans une maîtrise des données tu ne pourra pas extrapoler ta conclusion à un cadre plus large, tu sera confiner à un cadre de plus en plus strict à chaque fois tu te soulève un biais. Et il te sera impossible de détenir la vérité vraie jalousement gardé par ce héro le statisticien :o
 
Mais c'est vrai que les découvertes peuvent être aussi passionnante, tu vas peut être découvrir des notes positive seulement en été, et qu'il y'a une super terrasse avec de la bonne bière. Alors tu aura trouvé un bon endroit pour décompresser quand le stagiaire du client t'aura appeler la veille de la livraison pour te dire : Au fait le système de notation à changé mais on sait pas trop quand c'est pas documenté, et en plus les valeur null on été remplacé par des zéro ...
 
Conclusion : ta p-value tu te la met sagement derrière l'oreille :o mais ça reste un bon exercice ;)
 
http://www.kdnuggets.com/wp-content/uploads/expectation_vs_reality.png
 
 
 
 
 
 
 
 


---------------
On sait pas trop quoi dire dans des circonstances pareilles...
n°4986132
Bébé Yoda
Posté le 05-05-2017 à 10:48:12  profilanswer
 

Merci pour les précisions, mon petit exercice n'avait pas la prétention d'être vraiment aussi bon, mais j'apprécie ces explications qui mettent en perspective ces problèmes.
 
J'en profite pour poser une petite question : En anglais on a les termes de "Accuracy" (% de vraies réponses vraies) et "Precision" (#vraipositif/(#vraipositif+#fauxpositif)
Ca se traduit comment en français ? J'ai l'impression qu'on peut utiliser précision pour les deux termes, d'où une confusion possible.

n°4987418
Voxinat
High Frequency Trolling
Posté le 08-05-2017 à 18:59:52  profilanswer
 

Bonjour les spécialistes,
 
Je suis étudiant en économie et ingénierie financière (je passe en M2). A la fin de l'année, je voudrai candidater à un master de Stat et Finance (mention du master math app de Paris-Saclay). Le truc c'est que j'ai pas un gros niveau en stat (j'ai fait des stat de base/tests/économétrie mais bien sûr je ne me souviens de rien) et que j'aimerai bien m'auto-former pour pouvoir faire valoir ma motivation. Sans acquérir un niveau de major de M1 Stat, je pense qu'un solide niveau de L3 serait une bonne chose. Vous auriez des livres/poly/cours en ligne pour y parvenir? Il faudrait que je reprenne de l'algèbre/analyse ou les connaissances de bases sur les matrices/étude de fonction suffisent? (sachant que j'ai tout l'été et toute l'année pour y parvenir)
 
Merci d'avance!


---------------
Sah Quel Plaisir
n°4992078
Rucsoid
Farte
Posté le 30-05-2017 à 02:04:14  profilanswer
 

Voxinat a écrit :

Bonjour les spécialistes,

 

Je suis étudiant en économie et ingénierie financière (je passe en M2). A la fin de l'année, je voudrai candidater à un master de Stat et Finance (mention du master math app de Paris-Saclay). Le truc c'est que j'ai pas un gros niveau en stat (j'ai fait des stat de base/tests/économétrie mais bien sûr je ne me souviens de rien) et que j'aimerai bien m'auto-former pour pouvoir faire valoir ma motivation. Sans acquérir un niveau de major de M1 Stat, je pense qu'un solide niveau de L3 serait une bonne chose. Vous auriez des livres/poly/cours en ligne pour y parvenir? Il faudrait que je reprenne de l'algèbre/analyse ou les connaissances de bases sur les matrices/étude de fonction suffisent? (sachant que j'ai tout l'été et toute l'année pour y parvenir)

 

Merci d'avance!

 

Le Guajarati est un passage obligé. Tu ne passeras en revue que les regression linéaires uni et multi-variées plus quelques autres.

 

Mais le livre est repoussant et va dans le détail, ce qui n'est pas nécessaire.

 

Tu peux en dire plus sur ce qu'est la finance quantitative (à quoi ça sert, entre qui et qui tu bosses etc) ? Ça nous servira pour notre culture à tous et à moi pour t'orienter.

 

Edit. ici je me sers des stats pour faire de la macroeconomie / évaluation de l'effet des politiques fiscales et économiques dans l'Eurozone. Tu vois que les stats ça a des applications larges alors si je cerne ton sujet je serais plus efficace sur tes orientations.

 

Te fais pas chier avec l'algèbre linéaire etc. Un cours de fondamentaux en statistiques inférentielles te fournira une intro efficace.


Message édité par Rucsoid le 30-05-2017 à 02:28:27
n°4992079
Rucsoid
Farte
Posté le 30-05-2017 à 02:08:21  profilanswer
 

+ econometrics academy sur youtube, sorte de MOOC hyper pointu où tu passeras en revue une dizaine de modèles

 

Ha et n'oublie pas de chercher quels softs tu devras utiliser, histoire de pas t'initier à Python alors que tu devrais (a priori) bosser sur SAS ou consorts

n°4992100
Profil sup​primé
Posté le 30-05-2017 à 08:48:19  answer
 

Que devient "filpourpre svp"?

n°4993881
lefilpourp​re
Michel
Posté le 07-06-2017 à 20:48:19  profilanswer
 

Il cherche un nouveau projet de statistiques : quel type de modèle essayer et sur quelles données, après le Modèles à Correction d'Erreurs utilisé pour prédire le prix de l'immobilier en France et Century21 ?

 

Je n'ai pas la possibilité de faire une réelle formation universitaire en économétrie alors j'étudie chaque type de modèle théoriquement (wikipedia puis manuels sur internet ; que je trouve sur des syllabus en ligne) puis je vais chercher des données en networkant avec des pros pour m'exercer avec des données réelles et rajouter des lignes à mon CV.

 

Peut-être que je vais faire une prédiction du cours d'action avec des Garch et étudier la place du matheux dans la définition de la stratégie de trading d'un fonds puis essayer de vendre un prédiction à des traders ... j'ai des contacts avec le journal Investir et ils ont des séries longues de cours d'actions.

Message cité 1 fois
Message édité par lefilpourpre le 07-06-2017 à 20:53:10

---------------
Miraisin
mood
Publicité
Posté le 07-06-2017 à 20:48:19  profilanswer
 

n°4993887
HeisenberG​75
www.savewalterwhite.com
Posté le 07-06-2017 à 21:16:17  profilanswer
 

lefilpourpre a écrit :

Il cherche un nouveau projet de statistiques : quel type de modèle essayer et sur quelles données, après le Modèles à Correction d'Erreurs utilisé pour prédire le prix de l'immobilier en France et Century21 ?
 
Je n'ai pas la possibilité de faire une réelle formation universitaire en économétrie alors j'étudie chaque type de modèle théoriquement (wikipedia puis manuels sur internet ; que je trouve sur des syllabus en ligne) puis je vais chercher des données en networkant avec des pros pour m'exercer avec des données réelles et rajouter des lignes à mon CV.
 
Peut-être que je vais faire une prédiction du cours d'action avec des Garch et étudier la place du matheux dans la définition de la stratégie de trading d'un fonds puis essayer de vendre un prédiction à des traders ... j'ai des contacts avec le journal Investir et ils ont des séries longues de cours d'actions.


 
avec garch tu modélises la vol pas le cours de l'action ;)

n°4993982
lefilpourp​re
Michel
Posté le 08-06-2017 à 12:14:03  profilanswer
 

je l'savais, tu penses bien  [:romano21:2]


---------------
Miraisin
n°4994110
royjones
Posté le 08-06-2017 à 22:34:53  profilanswer
 

Bien le bonsoir :hello:  
 
Vous savez où je peux trouver la moins pire des estimations pour le taux de chômage français depuis 1880?

n°4994231
lefilpourp​re
Michel
Posté le 09-06-2017 à 15:22:55  profilanswer
 

Désolé, mis à part que :

 
  • En théorie, le chômage structurel est une "invention moderne" (lié à l'apparition d'un salaire minimum qui supprime la demande d'emplois situés sous le seuil de productivité horaire) ... donc son taux devrait être de 0,0% avant la mise en place du SMIG en 1950.  
  • Pour les sources numérisées : les instituts de statistiques modernes (BIT/INSEE) sont nés après-guerre (ce que tu dois déjà savoir) ... et même entre ces périodes sa définition a changé plusieurs fois (tu vas certainement devoir faire des redressements très chiants)
  • En ce qui concerne l'indicateur : les banques centrales remplacent progressivement le "taux de chômage" par le "taux d'activité" comme proxy (plus proche de la réalité car il prend en compte ceux qui ne sont plus inscrits sur les listes ... d'ailleurs les comparaisons entre les Etats-unis et la France sont intéressantes)


... je suis sec sur le sujet.

 


Après (on se jamais), deux-trois choses pourraient t'inspirer pour tes recherches :

 
  • J'avais trouvé des estimations des taux de croissance pour l'Europe continentale depuis ~1800, mais seulement sous la forme de graphiques :/ , dans un vieux grimoire d'histoire économique poussiéreux. Il était issu des archives de l'université (j'avais directement demandé aux archivistes de la bilbi). -> Peut-être qu'en suivant cette piste et en compulsant les catalogues en ligne de grosses bibliothèques universitaires tu pourras trouver ton bonheur (version papier) ?
  • Pour son ouvrage "le capital au XXe siècle" et "les revenus en France au XXe siècle"  Piketty a réussi à aspirer les données exactes issues des archives du fisc depuis ~1900 et même avant (mais si je me souviens bien ils ont du faire bcp de saisie à la main ...) -> En t’inspirant de sa démarche, tu peux peut-être envoyer des mails aux chargés d'étude de l'Assedic/ACCOSS/URSSAF pour savoir si ils ont gardé les archives papier de leur ancêtre d'avant-guerre ?
  • Après, il faut savoir que ta recherche se situe dans une épistémologie ( ~ histoire et statistiques) non-seulement passée de mode ... mais en plus prussienne ; avec comme chef de file Adolph ( :o ) Wagner, mort en 1917 ; ce qui fait que peu de gens / laboratoires (peut-être l'Afhe ?) vont pouvoir t'aiguiller en France, je pense.

Message cité 2 fois
Message édité par lefilpourpre le 09-06-2017 à 15:37:09

---------------
Miraisin
n°4994232
lefilpourp​re
Michel
Posté le 09-06-2017 à 15:35:12  profilanswer
 

Post sur les mathématiques financières et plus particulièrement le CAPM : Capital Asset Princing Method.

 

-> méthode utilisée par les créateurs de portefeuilles d'actions pour diluer au maximum le risque spécifique afférent à chaque produit à travers le calcul de sa volatilité
https://en.wikipedia.org/wiki/Capit [...] cing_model
http://www.investopedia.com/articles/06/capm.asp

 

Témoignage " on becoming a quant ". http://www.markjoshi.com/downloads/advice.pdf

 

HG75 : Dans un CAPM , le beta est calculé avec un modèle arch c'est bien ça ?
https://en.wikipedia.org/wiki/Autor [...] edasticity

 


Message cité 1 fois
Message édité par lefilpourpre le 09-06-2017 à 16:12:35

---------------
Miraisin
n°4994271
HeisenberG​75
www.savewalterwhite.com
Posté le 09-06-2017 à 18:31:54  profilanswer
 

Je vois pas le rapport avec arch
Tu fais pas dépendre ton indice de lui même décalé dans le temps
Tu fais dépendre ton indices d'actions, une simple régression suffit

 

Si tu veux des modèles plus récent de gestion de portefeuille je te conseil black litterman où tu incorpores des scénarios macroéconomiques prospectifs

n°4994322
royjones
Posté le 09-06-2017 à 22:48:03  profilanswer
 

lefilpourpre a écrit :

Désolé, mis à part que :  
 

  • En théorie, le chômage structurel est une "invention moderne" (lié à l'apparition d'un salaire minimum qui supprime la demande d'emplois situés sous le seuil de productivité horaire) ... donc son taux devrait être de 0,0% avant la mise en place du SMIG en 1950.  
  • Pour les sources numérisées : les instituts de statistiques modernes (BIT/INSEE) sont nés après-guerre (ce que tu dois déjà savoir) ... et même entre ces périodes sa définition a changé plusieurs fois (tu vas certainement devoir faire des redressements très chiants)  
  • En ce qui concerne l'indicateur : les banques centrales remplacent progressivement le "taux de chômage" par le "taux d'activité" comme proxy (plus proche de la réalité car il prend en compte ceux qui ne sont plus inscrits sur les listes ... d'ailleurs les comparaisons entre les Etats-unis et la France sont intéressantes)  


... je suis sec sur le sujet.
 
 
Après (on se jamais), deux-trois choses pourraient t'inspirer pour tes recherches :  
 

  • J'avais trouvé des estimations des taux de croissance pour l'Europe continentale depuis ~1800, mais seulement sous la forme de graphiques :/ , dans un vieux grimoire d'histoire économique poussiéreux. Il était issu des archives de l'université (j'avais directement demandé aux archivistes de la bilbi). -> Peut-être qu'en suivant cette piste et en compulsant les catalogues en ligne de grosses bibliothèques universitaires tu pourras trouver ton bonheur (version papier) ?  
  • Pour son ouvrage "le capital au XXe siècle" et "les revenus en France au XXe siècle"  Piketty a réussi à aspirer les données exactes issues des archives du fisc depuis ~1900 et même avant (mais si je me souviens bien ils ont du faire bcp de saisie à la main ...) -> En t’inspirant de sa démarche, tu peux peut-être envoyer des mails aux chargés d'étude de l'Assedic/ACCOSS/URSSAF pour savoir si ils ont gardé les archives papier de leur ancêtre d'avant-guerre ?
  • Après, il faut savoir que ta recherche se situe dans une épistémologie ( ~ histoire et statistiques) non-seulement passée de mode ... mais en plus prussienne ; avec comme chef de file Adolph ( :o ) Wagner, mort en 1917 ; ce qui fait que peu de gens / laboratoires (peut-être l'Afhe ?) vont pouvoir t'aiguiller en France, je pense.  



 
merci pour l'idée de Afhe!  
 
(sinon je vais faire mon lourdeau mais épistémologie ne veut rien dire dans ce contexte :p)
 

n°4994343
lefilpourp​re
Michel
Posté le 10-06-2017 à 08:12:48  profilanswer
 

Methode Black-Liktterman (1992). Une solution aux limites des techniques de Sharpe (1964) et Markowitz (1952)

 


Les pré-requis (Jussieu, 2017) : http://www.master-finance.proba.jussieu.fr/index2.php

 

-> CAPM (Sharpe, 1964)
Prez' : https://fr.wikipedia.org/wiki/Mod%C [...] financiers
Papier : http://e-m-h.org/Shar64.pdf

 

-> Optimisation (Markowitz, 1952)
Prez' : https://en.wikipedia.org/wiki/Markov_decision_process
Papier https://www.math.ust.hk/~maykwok/co [...] itz_JF.pdf

 

-> analyse en composantes principales (Hotelling, 1930)
Prez' : https://fr.wikipedia.org/wiki/Analy [...] rincipales
howto : https://sites.google.com/site/econo [...] t-analysis

 

-> régression linéaire (Bošković, 1755) :
Prez' : https://fr.wikipedia.org/wiki/R%C3% [...] %C3%A9aire
howto : https://sites.google.com/site/econo [...] regression

Message cité 2 fois
Message édité par lefilpourpre le 14-06-2017 à 10:37:30

---------------
Miraisin
n°5013582
Profil sup​primé
Posté le 04-10-2017 à 16:50:48  answer
 

lefilpourpre a écrit :

Methode Black-Liktterman (1992). Une solution aux limites des techniques de Sharpe (1964) et Markowitz (1952)
 


Les pré-requis (Jussieu, 2017) : http://www.master-finance.proba.jussieu.fr/index2.php
 
-> CAPM (Sharpe, 1964)
Prez' : https://fr.wikipedia.org/wiki/Mod%C [...] financiers
Papier : http://e-m-h.org/Shar64.pdf
 
-> Optimisation (Markowitz, 1952)  
Prez' : https://en.wikipedia.org/wiki/Markov_decision_process
Papier https://www.math.ust.hk/~maykwok/co [...] itz_JF.pdf
 
-> analyse en composantes principales (Hotelling, 1930)
Prez' : https://fr.wikipedia.org/wiki/Analy [...] rincipales
howto : https://sites.google.com/site/econo [...] t-analysis
 
-> régression linéaire (Bošković, 1755) :
Prez' : https://fr.wikipedia.org/wiki/R%C3% [...] %C3%A9aire
howto : https://sites.google.com/site/econo [...] regression


 
ça fait un bail que je ne t'avais pas croisé!
 
Colletis vient-il de sortir un bouquin?

n°5014341
lefilpourp​re
Michel
Posté le 10-10-2017 à 16:24:59  profilanswer
 

Je bosse plus avec Colletis.

 

Mais je vais publier un billet sur de la cartographie bizarroïde avec excel/R cette semaine.

 

Si qqn est calé en Oracle aussi ...

Message cité 1 fois
Message édité par lefilpourpre le 10-10-2017 à 16:25:34

---------------
Miraisin
n°5028800
Rasthor
Posté le 23-01-2018 à 21:44:37  profilanswer
 

Fundamentals of Data Visualization
http://serialmentor.com/dataviz/index.html
 
 
Ca peut etre utile pour faire vos graphs (indépendamment du langage utilisé).  [:doc_prodigy]

n°5029050
francois_b​aucher
Kaiser hispano-allemand #5
Posté le 25-01-2018 à 20:09:18  profilanswer
 

Pas mal. Merci pour ça.

n°5037553
Orhan_Pamu​k
Voyageur décontracté
Posté le 13-03-2018 à 09:54:10  profilanswer
 

lefilpourpre a écrit :

R²et RMSE

 

Est-ce forcément utile de tenter de sur-passer la modélisation de la directrice des études de l'INSEE alors qu'elle a un R² à 0,77 (ça je peux l'augmenter je pense) mais surtout un RMSE à 0,7%.

 

R² : c'est la quantité de variation de la série économique expliquée (FCBF-Construction) par les séries choisies (taux immobiliers, taux de chômage ...)

 

-> ça répond à la question : ais-je bien intégré toutes les données du problème ou dois-je re-collecter de l'information pour la mettre dans ma machine.

 

RMSE : c'est la quantité d'erreurs entre l'équation déterminée grâce à la méthode (MCE) et les séries choisies (voir au dessus) et les points de données issus de la réalité.

 

-> mon équation (une virtualité du réel qui a l'avantage d'être mis en équation et de pouvoir être prolongée dans le futur) est-elle bien au contact du réel ?

 

En d'autres termes : est-ce réellement utile de tenter de surpasser un RMSE à 0,7% ? N'est-ce pas déjà infinitésimal ? entre quelle valeur et quelle valeur vos RMSE varient-t-ils généralement ?

 

...en fait j'ai fini par répondre à ma question en décidant d'effectuer des modélisations prédictives régionalisées. J'm'osef un peu de la dépasser sur le national (c'est pas nécessaire je pense avec un RMSE à 0,77%) mais je peux changer l’échelon de prédiction pour mes mécènes qui sont des gens qui bossent à la façon de fédérations régionales. (comme les grandes fédérations de coopératives bancaires universelles fr ... huhuhuhu)

 

Ce qui est bizarre dans cette histoire c'est que les privés sont friands de modèles régionalisés et/ou par industries alors que les grands conjoncturistes et structuralistes (OFCE/INSEE) n'en ont strictement rien à foutre ... alors que les dynamiques (aspects de spécialisations industrielles et/ou résidentielles) et les démographies (TPEs attaquées en Basse-Normandie ou grandes firmes tayloristes de Rhone-Alpes) ont des trajectoires opposées ...

 

Je pense que j'ai besoin d'inventer une nouvelle discipline : la méso-économétrie en NUTS2 (cad du meta-infra-INSEE avec 23 gouvernails au lieu d'un seul en fait)  [:jean-guitou]  


Message édité par Orhan_Pamuk le 13-03-2018 à 10:37:07
n°5037928
Axel57000
Posté le 14-03-2018 à 12:54:10  profilanswer
 

Bonjour à toutes et à tous,
Dans le cadre de mes études, j'apprends à faire de l'analyse multivariée à partir du logiciel SPAD7.
Le problème est que ce logiciel est introuvable et payant, donc j'aimerais savoir si je peux me procurer ce logiciel par le fait que je sois étudiant ? Mon université ne propose pas des licences éducatives pour les étudiants.
Ou dans le cas échéant, s'il existe des logiciels libres pour faire des statistiques multivariées ?
Merci d'avance.

n°5038087
Rasthor
Posté le 14-03-2018 à 20:30:09  profilanswer
 

Axel57000 a écrit :

Bonjour à toutes et à tous,
Dans le cadre de mes études, j'apprends à faire de l'analyse multivariée à partir du logiciel SPAD7.
Le problème est que ce logiciel est introuvable et payant, donc j'aimerais savoir si je peux me procurer ce logiciel par le fait que je sois étudiant ? Mon université ne propose pas des licences éducatives pour les étudiants.
Ou dans le cas échéant, s'il existe des logiciels libres pour faire des statistiques multivariées ?
Merci d'avance.


 
(copie depuis l'autre topic)
 
- R: https://www.r-project.org/
=> https://little-book-of-r-for-multiv [...] en/latest/
 
- Python, avec les bibliotheques scipy et scikit-learn: https://docs.scipy.org/doc/scipy/reference/stats.html and http://scikit-learn.org/stable/index.html
=> https://python-for-multivariate-ana [...] hedocs.io/
 
C'est deux langages de programmation qui sont obligatoires sur un CV de Data Scientists.
 
Tu as besoin de quel tests statistiques en particulier ?
 
 
Edit: je ne comprend pas qu'on n'utilise pas des logiciels libres pour la formation. Mais j'imagine qu'il y a un historique derriere, vu que c'est un logiciel francais:
https://www.coheris.com/produits/an [...] ta-mining/
 
Edit2 : si tu pars sur Python, il faut aussi utiliser Pandas (https://pandas.pydata.org/) et Jupyter notebook (https://jupyter.org/).

n°5074122
Profil sup​primé
Posté le 13-10-2018 à 02:16:56  answer
 

lefilpourpre a écrit :

Methode Black-Liktterman (1992). Une solution aux limites des techniques de Sharpe (1964) et Markowitz (1952)
 


Les pré-requis (Jussieu, 2017) : http://www.master-finance.proba.jussieu.fr/index2.php
 
-> CAPM (Sharpe, 1964)
Prez' : https://fr.wikipedia.org/wiki/Mod%C [...] financiers
Papier : http://e-m-h.org/Shar64.pdf
 
-> Optimisation (Markowitz, 1952)  
Prez' : https://en.wikipedia.org/wiki/Markov_decision_process
Papier https://www.math.ust.hk/~maykwok/co [...] itz_JF.pdf
 
-> analyse en composantes principales (Hotelling, 1930)
Prez' : https://fr.wikipedia.org/wiki/Analy [...] rincipales
howto : https://sites.google.com/site/econo [...] t-analysis
 
-> régression linéaire (Bošković, 1755) :
Prez' : https://fr.wikipedia.org/wiki/R%C3% [...] %C3%A9aire
howto : https://sites.google.com/site/econo [...] regression


 

lefilpourpre a écrit :

Je bosse plus avec Colletis.
 
Mais je vais publier un billet sur de la cartographie bizarroïde avec excel/R cette semaine.
 
Si qqn est calé en Oracle aussi ...


 

Rasthor a écrit :

Fundamentals of Data Visualization
http://serialmentor.com/dataviz/index.html
 
Ca peut etre utile pour faire vos graphs (indépendamment du langage utilisé).  [:doc_prodigy]


 
@Filpourpre:as-tu sorti cette étude?
Colletis a sorti un petit livre récemment aux édition UPPR. Mais sinon j'aimerais ien ête au fait de ses réents travaux.

n°5074123
Profil sup​primé
Posté le 13-10-2018 à 02:18:32  answer
 

lefilpourpre a écrit :

Désolé, mis à part que :  
 

  • En théorie, le chômage structurel est une "invention moderne" (lié à l'apparition d'un salaire minimum qui supprime la demande d'emplois situés sous le seuil de productivité horaire) ... donc son taux devrait être de 0,0% avant la mise en place du SMIG en 1950.  
  • Pour les sources numérisées : les instituts de statistiques modernes (BIT/INSEE) sont nés après-guerre (ce que tu dois déjà savoir) ... et même entre ces périodes sa définition a changé plusieurs fois (tu vas certainement devoir faire des redressements très chiants)  
  • En ce qui concerne l'indicateur : les banques centrales remplacent progressivement le "taux de chômage" par le "taux d'activité" comme proxy (plus proche de la réalité car il prend en compte ceux qui ne sont plus inscrits sur les listes ... d'ailleurs les comparaisons entre les Etats-unis et la France sont intéressantes)  


... je suis sec sur le sujet.
 
 
Après (on se jamais), deux-trois choses pourraient t'inspirer pour tes recherches :  
 

  • J'avais trouvé des estimations des taux de croissance pour l'Europe continentale depuis ~1800, mais seulement sous la forme de graphiques :/ , dans un vieux grimoire d'histoire économique poussiéreux. Il était issu des archives de l'université (j'avais directement demandé aux archivistes de la bilbi). -> Peut-être qu'en suivant cette piste et en compulsant les catalogues en ligne de grosses bibliothèques universitaires tu pourras trouver ton bonheur (version papier) ?  
  • Pour son ouvrage "le capital au XXe siècle" et "les revenus en France au XXe siècle"  Piketty a réussi à aspirer les données exactes issues des archives du fisc depuis ~1900 et même avant (mais si je me souviens bien ils ont du faire bcp de saisie à la main ...) -> En t’inspirant de sa démarche, tu peux peut-être envoyer des mails aux chargés d'étude de l'Assedic/ACCOSS/URSSAF pour savoir si ils ont gardé les archives papier de leur ancêtre d'avant-guerre ?
  • Après, il faut savoir que ta recherche se situe dans une épistémologie ( ~ histoire et statistiques) non-seulement passée de mode ... mais en plus prussienne ; avec comme chef de file Adolph ( :o ) Wagner, mort en 1917 ; ce qui fait que peu de gens / laboratoires (peut-être l'Afhe ?) vont pouvoir t'aiguiller en France, je pense.  



 

lefilpourpre a écrit :

Post sur les mathématiques financières et plus particulièrement le CAPM : Capital Asset Princing Method.
 
-> méthode utilisée par les créateurs de portefeuilles d'actions pour diluer au maximum le risque spécifique afférent à chaque produit à travers le calcul de sa volatilité  
https://en.wikipedia.org/wiki/Capit [...] cing_model
http://www.investopedia.com/articles/06/capm.asp
 
Témoignage " on becoming a quant ". http://www.markjoshi.com/downloads/advice.pdf
 
HG75 : Dans un CAPM , le beta est calculé avec un modèle arch c'est bien ça ?
https://en.wikipedia.org/wiki/Autor [...] edasticity
 
 


 
Merci  :jap:  

mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7  8
Page Suivante

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic Unique] Licence LEA (Langues Etrangères Appliquées)[ Topic unique ] Stage à l'étranger
[Topic unique] Bac 2k13 - 2k14 ===[Topic Unique] Concours A/A+ (Rejoignez la clownance !)
Master économétrie et statistiques appliquées[Topic Unique] Magistère Banque Finance - Université Panthéon-Assas
[Topic Unique] Master Économétrie et Statistiques Appliquées - Orléans[Topic Unique]Bloquer son année universitaire
[Topic Unique] ROUEN BUSINESS SCHOOL MASTERE Spécialisé FINANCE 
Plus de sujets relatifs à : [Topic Unique] Statistiques descriptives, inférentielles & dataviz


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR