| Jubijub |
hephaestos a écrit :
L'idée avec Excel c'est qu'on passe graduellement de tout faire à la main => utiliser des fonctions avancées => enregistrer des macros => écrire des scripts VBA. Le résultat est moins bon, mais le chemin est plus gratifiant, chaque étape apporte une couche d'abstraction supplémentaire avec des gains correspondants. Je dis pas que R c'est pas bien, seulement Excel a de sérieux avantages. En plus, la communauté R elle doit être marginalement moins mauvaise que la communauté Excel. Je sais pas ce serait quoi le langage de choix pour rester entre gens de bonne compagnie quand on fait du traitement de données ?
|
Le monde de la finance/audit est resté très attaché à Excel, le reste est sur R/Python/Scala. Par contre je pense sincèrement que ce serait un conseil effroyable de proposer a qqn comme ma nièce qui bosse sur des sujets scientifiques d'automatiser ses workflows avec Excel, pour plusieurs raisons : - tout n'est pas du csv/xslx : R et Python supportent plein de formats out of the box qu'excel ne supportera pas, et qui sont courants en open data. Tu as parfois des plugins Excel, souvent payant, souvent buggués - t'as moins de contrôle sur l'ouverture des fichiers (Excel te donne le choix du separateur et c'est a peu près tout)' et des limites reloues (Excel cappe a ~1M lignes en import) ce qui te donnera plus de boulot pour rendre tes fichiers utilisables. - VBA est super limité, et pas vraiment expressif. Si tu veux utiliser d'autres langages c'est une API payante, ou faut visual studio - la Doc Excel pour le VBA est très succinte, et le rapport signal / bruit sur le web est dégueulasse avec toutes les pages pourries avec 120 pubs et pas a jour sur le sujet (vu l'âge d'excel), alors que n'importe quel problème R ou Python a sa page Stackoverflow avec un snippet immédiatement utilisable. - graphs : excel n'arrive pas a la cheville d'une lib grammar of graphics genre ggplot2 ou matplotlib/seaborn. Cet argument est suffisant a lui seul :D - la manipulation par index/series (lignes/colonnes), le filtrage par masque booléen sont bien plus simple qu'avec le modèle A1, ou même L1C1 - l'équivalent Microsoft du Tidyverse / pandas est super lourd a utiliser (PowerQuery) Mes data points : - j'ai bossé des années en ayant que Excel (laptop dont j'étais pas admin), donc crois moi je connais très bien l'outil. Et pour des petites analyses, c'est parfait. - j'étais directeur de l'équipe de data science chez Nestlé, 100% des postulants avaient R ou Python dans leur CV. - chez Google je bosse quotidiennement avec une équipe de data science et je les aide pour le recrutement, même remarque. Tous les modèles de cette équipe sont en R ou en Python - le monde académique est très marqué R (case in point le cours qu'a eu ma nièce était en R, regarde Coursera ou autre et c'est beaucoup de R et Python) - regarde ce que les gens utilisent sous Kaggle par exemple R est très marqué statistique, je pense que ça parle aux gens qui ont un gros background scientifique. C'est assez etrange si t'as un background de dev parce que ça mixe tous les paradigmes (tu vas faire trim(string) au lieu de string.trim(), gros focus sur la prog fonctionnelle, etc...) Python est un langage généraliste, Pandas emule assez bien ce qu'on trouve en R niveau Dataframe / Datatable /Tidyverse. Si t'as un background de dev c'est plus simple. J'ai utilisé les 2 je préfère python pour l'expressivité.
|