[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 121 122 123 .. 128 129 130 131 132 133 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

LibreArbitre

RIP mon Orion

Reprise du message précédent :
C'est quoi le souci avec Hadoop ? Pourquoi les projets de Data Lake ont foiré ?

Message cité 2 fois

---------------
Hebergement d'images | Le topic de la VR standalone

Publicité

cassiopella

Depuis 6 mois la boite essaye d'organiser la chose... en ayant mit dessus un Data Scientist sans expérience dans les bases des données. On a toujours pas accès. Il semble qu'il y a une version test avec databriks... Je me demande: est-ce si difficile d'organiser la chose? IL faut coûte que coût passer par databriks? J'en ai aucune idée, mais c'est tellement leeeent....

DooMIII a écrit :

Non je suis actuaire donc pas mal de SAS/SQL (outil performant mais dépassé hors bancassurance), de data analyse ; un peu de DS (économétrie, stat...) mais c'est 5% de mon taf.

Impossible que je sois recruté comme senior data scientist pour l'instant mais après formation peut-être comme junior..

Je peux dans ce cas expliquer c'est quoi la différence entre économétrie + stats et data science... En tout cas au début je ne comprennais pas pourquoi il y a autant de bruit autour alors que les modèles sont sensés être les mêmes.

Bon, les modèles et les maths derrières c'est la même chose. La différence vient de l'utilisation. En économétrie on a besoin de maîtriser le modèle, d'être sur que les hypothèses sont vérifiés pour appliquer les tests et expliquer les résultats. En DS l'objectif global est de faire un produit/service applicable plusieurs millier de fois. Donc trois gros points:
1) On se fiche des tests et des hypothèses. On a besoin d'être le plus près de la réalité. Concernant les tests et les hypothèses: on ne s'y intéresse pas parce que à chaque fois il faut un analyse post-estimatoire fair par l'humaine pour interpréter les résultats. Grosso modo en économétrie on va faire utiliser le modèle probit au lieu de logit parce que on aimerait avoir l'accès aux écart-types et covariances de l'erreur qu'on peut interpréter et corriger. En DS, m'est avis, personne n'utilise probit parce que cela donne les mêmes résultats que logit, mais l'estimation prend plus de temps.
2) Savoir bien coder est vitale, savoir utiliser git et cie.
3) Savoir travailler avec autres types et natures des données. Bref, les données qu'un économètre ne voit pas.
Bon c'est un résumé court A chaque point il y a des exceptions.

Pour finir, je trouve que c'est un plus d'être statisticien/économètre. Pour chaque méthode et modèle on connait en général ce qu'on peut faire avec ou pas en s'appuyant sur la formulation mathématique. Cela aide beaucoup et évite des erreurs que font certains parce qu'ils ne sont juste les utilisateurs de ces modèles. En formation DS j'étais avec 12 autres personnes dont 10 n'ont jamais faits les stats. Ils avaient un certain mal à aller au delà de la simple utilisation "je fit le modèle, je regarde le résultat". Un truc tout bête que j'ai observé des nombreuses fois: encoder les catégories dans la variable qualitatif de 0 à n alors qu'il n'y a aucun ordre dans les catégories :pt1cable: Ou faire de la ACP pour réduire le nombre des variables en conservant les N premiers axes qui expliquent 80%-90% de variation dans les données... sans se rendre compte ce que cela implique.

Message cité 3 fois
Message édité par cassiopella le 20-08-2022 à 00:00:19

neo world

LibreArbitre a écrit :

C'est quoi le souci avec Hadoop ? Pourquoi les projets de Data Lake ont foiré ?

Pas tous mais c'est vrai que beaucoup de boîtes de sont cassé les dents dans ce domaine. Parmi ce que j'ai vu :
=>Zéro nettoyage de données. C'est un gros foutoir et ça fini limite en stockage de masse car trop difficile de qualifier ce qui a été mis dedans
=>Zéro catalogage des données. C'est un gros foutoir bis dont personne n'a la cartographie
=> On a demandé à l'éditeur ou une personne qui s'y connait de mettre en place le cluster hadoop / le datalake : plus personne ne sait comment ça marche et les nœuds/le stockage tombe petit à petit. La distribution vieilli mal en plus et est remplie de trous de sécurité
=> On a choisi une solution de niche. Elle a été rachetée/abandonnée et la migration est un vrai problème
=> On avait besoin d'un datawarehouse mais Jean-Michel voulait un datalake comme c'était à la mode. Ça a mal fini

Après je connais des boîtes qui ont bien conçu leur datalake / mis en place des clusters hadoop et en sont très contents. Mais c'est pas la majorité et c'est plutôt des boîtes très dépendantes de leurs activités dans le numérique (et qui se sont donné les moyens tout le long du projet) :whistle:

neo world

Salut Cassiopella,

Ça commence a être un beau cas d'usage :jap:

Tu as une idée du volume que ça représente ? En fait je ne pense pas que le problème soit databricks. Vous pourriez faire ça aussi bien avec d'autres technologies (prometheus ? Toutes les solutions citées là https://towardsdatascience.com/the- [...] cd7f7ee64d + les solutions natives cloud)

Par contre ça me paraît fou d'y mettre quelqu'un sans expérience vous n'auriez pas le budget pour louer les services d'un dataengineer ou d'une ESN spécialisée dans les données (j'ai deux trois noms en MP si besoin) ?

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science