| |||||
| Auteur | Sujet : [Topic Unique] Machine Learning & Data Science |
|---|---|
giorno_gio75 | Reprise du message précédent :
|
Dr_Zaius Simius Mathematicus | I --------------- « Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran |
Dr_Zaius Simius Mathematicus | W --------------- « Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran |
Dr_Zaius Simius Mathematicus | H --------------- « Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran |
rokhlan | La centième |
ShoTo ... fuck ... mother fucker ... |
--------------- The king stays the king. D'Angelo Barksdale |
Filob | Dataquest si comme moi tu peux pas piffrer les vidéos a tout bout de champs --------------- Ma capacité de concentration est si courte que... Oh, regarde, un pigeon! |
Rontgen | T'as qu'à versioner les données dans un repo git lfs |
Rasthor |
|
Rontgen |
|
Rasthor |
|
o_BlastaaMoof_o |
edit : De manière globale, il faut bien comprendre le contenu des règlementations que tu mentionnes. Aucune d'entre elles n'interdit quoi que ce soit, elle demande en revanche à ce que les accès aux données soient tracés et qu'il existe un mécanisme de déclaration, gestion et revue des habilitations. Message édité par o_BlastaaMoof_o le 19-11-2020 à 11:09:45 |
Rasthor |
|
Rontgen |
|
o_BlastaaMoof_o |
|
MassiveAttack |
|
LibreArbitre La /root est longue |
Message édité par LibreArbitre le 20-11-2020 à 11:10:08 --------------- Pharyo | Cinépite | Capvirage |
Rasthor |
|
fusion_sadam :D |
--------------- On sait pas trop quoi dire dans des circonstances pareilles... |
Trefledepique_W |
|
giorno_gio75 | C'était un vrai sondage naif pour voir les réponses, perso j'utilise Spark et je vais à une vitesse interdimensionnelle |
Profil supprimé | Posté le 22-11-2020 à 04:11:54 ![]() Jcroyais que le big data ça avait été débunké depuis longtemps ?
|
o_BlastaaMoof_o |
En matière de frameworks in-memory distribués (puisque cela semble être ta question), je ne vois que Spark en open source (qui est le standard de facto) et MATLAB ou SAS Viya en propriétaire. Sur le fond, je suis toutefois assez circonspect face au besoin réel de ce genre de framework. À une époque où l'on peut disposer facilement et à moindre coût de 64 coeurs physiques et de 1 To de mémoire vive dans une station de travail et les exploiter à partir d'un langage aussi facile d'accès que Python (qui n'est pas moins performant que Spark s'il est bien utilisé), quel intérêt y a-t-il encore à utiliser des moteurs distribués tels que Spark et consorts ? L'utilisation de solutions en cluster induit une charge de maintenance considérable, mieux vaut s'en passer s'il existe d'autres solutions techniques à mon sens. En règle générale, on fait du scale-up avant de faire du scale-out.
Je veux bien entendre qu'elle soit valide dans des cas d'usage basiques en data science tel que le feature engineering mais de manière générale, il est désormais établi que cette démarche est la mauvaise. Message édité par o_BlastaaMoof_o le 22-11-2020 à 17:08:56 |
giorno_gio75 |
J'ai dit framework mais en effet j'aurais pu demander juste quelle méthode, que cela implique ou pas un framework spécifique, comme le fait de monter la RAM. C'était vraiment purement naif et évidemment je sais que Spark n'est pas le meilleur truc sur le marché. Pour ta question sur pourquoi on a besoin de ce genre de framework ? Bah je dirais que malheuresement à cause des spécificités de ton entreprise. Perso je suis dans une multi nationale absolument gigantesque, y'a pas la flexibilité pour demander à Roger de l'IT que j'ai besoin d'une station avec plus de RAM ou de coeurs, et meme si par chance j'arrivais à l'avoir, y'a les questions de sécurité après, le fait de pas pouvoir avoir de données sur ton poste de travail par exemple ... Enfin pour répondre à la maintenance en cluster, des solutions comme Azure sont excellentes et j'en ai beaucoup parlé ici mais Databricks est une petite perle dans le contexte dans lequel je suis, je dis pas que c'est le meilleur mais en 2 clics je lance n'importe quel cluster et j'peux travailler sur mes 50to de data sans soucis. Et pour conclure, mon but dans mon sondage est pas de dire quelle est la meilleure solution ou autres, c'était à pur but informatif et avoir des feedbacks plus personnels que des posts sur des blogs de data science. Message édité par giorno_gio75 le 22-11-2020 à 20:22:45 |
Rasthor |
Tu ne peux avoir un Docker bien dimensionné pour avoir accès a votre cluster et vos donnes ? |
Trefledepique_W |
|
o_BlastaaMoof_o |
|
giorno_gio75 |
|
giorno_gio75 |
|
Trefledepique_W |
|
o_BlastaaMoof_o |
|
Profil supprimé | Posté le 23-11-2020 à 09:54:09 ![]()
|
o_BlastaaMoof_o | Et ne venez pas me parler de docker.
|
Profil supprimé | Posté le 23-11-2020 à 10:35:31 ![]()
|
o_BlastaaMoof_o |
|
neo world |
Je partage une partie de ton expérience des équipes IT de grosses boîtes (même si WTF les mini clusters Spark dédiés alors qu'en mutualisant un minimum tout le monde y gagnerait Quand j'étais en banque on se débrouillait pour avoir un contact privilégié par équipe difficile (ça se décide entre N+2 et ça redescend ensuite dans les équipes) pour gagner en réactivité. C'était pas toujours parfait mais nos demandes ne finissaient plus en "closed - unresolved" et si on serrait les fesses pendant les congés du SPOC (single point of contact Ça demande aussi un peu de sponsor des métiers (et donc d'être bien vu d'eux) pour évacuer les risques de bras de fer avec les équipes IT ou la remise en cause des services "premium" quand la relation est apaisée. Chez un célèbre gazier ils avaient carrément résolu la question à coups d'agilité et de devops : une équipe IT suit les réunions projets / nouveaux besoins très en amont et du coup il peut amener les bonnes pratiques et faire les demandes de changements nécessaires bien en amont. C'était hyper efficace avec en plus un coach agile dédié pour suivre ces réunions et remettre de la méthode et de la bienveillance quand c'était nécessaire |

| Sujets relatifs | |
|---|---|
| [Topic unique] Veille IA - Actu, lectures, podcasts & documentaires | [Topic Unique] Claude by Anthropic |
| [Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co | |
| Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science | |




