|
Auteur | Sujet : [Topic Unique] Machine Learning & Data Science |
---|
Publicité | Posté le 10-01-2018 à 09:11:54 |
guigui84b |
Message cité 1 fois Message édité par guigui84b le 10-01-2018 à 11:11:44 |
Tidom |
|
Bébé Yoda |
|
o_BlastaaMoof_o | Pour se marrer en ce dimanche après-midi et lancer le débat sur l'afflux massif de "data scientists" sur le marché et leur présumé niveau de (in)compétence, je vous propose un petit exemple rencontré au boulot.
Message cité 3 fois Message édité par o_BlastaaMoof_o le 21-01-2018 à 16:48:04 |
o_BlastaaMoof_o | Sérieusement ? |
o_BlastaaMoof_o | En MATLAB, ça va ressembler à la chose suivante :
Message édité par o_BlastaaMoof_o le 21-01-2018 à 19:13:09 |
Bébé Yoda | Tiens si tu veux j'ai écrit un petit article sur le sujet :
|
Rasthor |
|
Publicité | Posté le 21-01-2018 à 19:18:41 |
o_BlastaaMoof_o | En fait je crois que je vais m'en servir comme question d'entretien
|
Bébé Yoda |
Message cité 1 fois Message édité par Bébé Yoda le 21-01-2018 à 19:28:51 |
o_BlastaaMoof_o |
Rasthor |
Non, bien au contraire!
|
o_BlastaaMoof_o |
|
Rasthor |
|
Bébé Yoda | C'est vrai, surtout quand on maîtrise pas du tout C et compagnie comme moi Après comme dit plus haut, à performances égales un code plus compact est pas forcément plus "utile" au final. |
Profil supprimé | Posté le 21-01-2018 à 22:55:20 Tu prends ta liste de départ, tu divises en x sous listes avec x tin nombre de threads. Tu écris une fonction qui compte les Autre solution: pandas avec un group by sum. 2 lignes de code en comptant l'import Message édité par Profil supprimé le 21-01-2018 à 23:03:53 |
o_BlastaaMoof_o | En MATLAB, tu avais juste à remplacer ton deuxième for par un parfor et c'était torché.
|
Profil supprimé | Posté le 21-01-2018 à 23:14:55 Donc j'ai réussi a écrire ma fonction pour compter les ABCD:
Message cité 1 fois Message édité par Profil supprimé le 21-01-2018 à 23:27:33 |
Profil supprimé | Posté le 22-01-2018 à 07:28:55 Ta fonction va donner un nombre de vote égal pour chaque candidat, égal à la taille de ta sous liste... Après regarde les exemples pour pool sur python une fois ta fonction écrite c'est juste une ligne de code que tu peux récupérer directement |
Rasthor | Fundamentals of Data Visualization
|
Plix | Affreux ce code d'"anonymisation" Il faudrait qu'il passe un peu de temps à parcourir l'api de pandas et numpy pour progresser... Par curiosité c'est quel type de profil ? |
nawker vent d'est | Si même linkedin me dit que je dois postuler à des tafs machine learning et data science dans la nouvelle cogip de démo
--------------- "genre il voulait 2 coktail avec du cidre qui valait 2€, y'en avait plus mais il restait un coktail avec du "vin" au même prix, le mec voulait pas de ce cocktail...j'ai réussi à lui faire accepter en lui donnant en plus un morceau de camembert" Gypssix |
Rontgen | C'est pas déconnant, il y a énormément de physiciens qui se reconvertissent dans la data science ou le ML |
Bébé Yoda |
J'ai passé un entretien hier pour rejoindre une équipe de 13 gars avec des profils variés. 2 physiciens, 1 biologiste, 1 financier. On trouve de tout |
blacksad | Question sans doute un brin HS, mais parmi les topics que je connais c'est sans doute le plus approprié.
|
Rontgen | Perso je suis plutot d'accord avec la solution B
|
Rasthor | J'ai un petit probleme: J'ai 10 echantillons, annote de A a J.
Donc on est clairement dans un cadre regression lineaire multiple. Maintenant, parmis mes 10'000 variables, certaines seront utiles pour le modele, et d'autres non. Comment pourrais-je sortir les variables utiles pour avoir un modèle optimale ? Je pense partir sur un bête test de corrélation Spearman, pour sortir les variables qui sont le plus correlees, et base mon modele la-dessus. Un avis ? Message édité par Rasthor le 24-01-2018 à 18:10:38 |
Rontgen | Tu es dans le cas d'une régression, mais pas forcément linéaire, c'est toi qui décide du modèle Ce que tu proposes a du sens mais est un peu manuel alors que tu peux directement estimer ce genre de choses lors du fitting du modèle Si tu entraines un modèle linéaire avec des variables non corrélées avec ta valeur cible, normalement elles auront naturellement un coefficient nul (enfin peut être pas avec 10 échantillons) Ah oui et sinon, 10k mesures par échantillon c'est beaucoup Je ne sais pas quel langage tu utilises mais toutes ces méthodes sont en général disponibles facilement Message édité par Rontgen le 24-01-2018 à 19:10:38 |
Publicité | Posté le |
Sujets relatifs | |
---|---|
Recherche d'emploi | [Topik Unique] Les girls de la section E&E |
Avez vous des problèmatiques sur le Big Data ? | Master Finance et Stratégie de Science Po après des études de droit ? |
Je veux travailler dans les Big DATA | Orientation pour Data Science & Recherche Opérationnelle |
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes | [Topic Unique] EIVP |
[Topic Unique] L'Aylite !!! | |
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science |