Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1427 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  6  7  8  ..  128  129  130  131  132  133
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°4971034
zairo
Posté le 18-03-2017 à 14:30:23  profilanswer
 

Reprise du message précédent :

Rontgen a écrit :

Perso j'utilisais un peu MATLAB en thèse mais plus du tout depuis que je bosse en entreprise
J'utilise des librairies open source de ML au quotidien et je n'ai aucun problème
Bon je fais du C++ principalement mais quand j'ai besoin de plus haut niveau, je fais du Python
Franchement je ne vois de moins en moins l'intérêt de payer une licence MATLAB aussi chère, et c'est pareil pour tous ceux à que je connais, donc coup de "la communauté entière qui est à côté de la plaque", ça me paraît un peu exagéré :o


 
Tu oublies que matlab permet de travailler sur bien d'autres domaines que la Data science ( qui n'est pas une science  :o )

mood
Publicité
Posté le 18-03-2017 à 14:30:23  profilanswer
 

n°4971037
Rontgen
Posté le 18-03-2017 à 14:35:04  profilanswer
 

zairo a écrit :


Tu oublies que matlab permet de travailler sur bien d'autres domaines que la Data science ( qui n'est pas une science :o )


Ouais mais bon, je m'en fiche de pouvoir faire du Simulink :o

n°4971058
zairo
Posté le 18-03-2017 à 15:44:13  profilanswer
 

Comme si "autres domaines" se résumait à simulink :o


Message édité par zairo le 18-03-2017 à 15:44:24
n°4971061
Bébé Yoda
Posté le 18-03-2017 à 15:48:18  profilanswer
 

Le problème c'est que pour chaque domaine il te faut prendre un module, à la fin la facture est salée.
J'ai beaucoup bossé avec MATLAB (pendant mes études puis en thèse et postdoc... OMG ca doit faire une quinzaine d'années).
Puis dans ma boîte, s'est posée la question des investissements en soft. On a fait des chiffrages et vu le coût de MATLAB on nous a gentiment fait comprendre qu'on aurait besoin de se former en python :)
Au final je ne regrette pas, j'aime vraiment la manière de programmer en python. Et ces compétences étant plus recherchées que MATLAB ça m'a fait gagner en employabilité.
Par contre j'aimais bien le côté facile de MATLAB, surtout en visualisation, mais j'apprends à faire sans.

n°4971130
zairo
Posté le 18-03-2017 à 19:39:54  profilanswer
 

Je vois :jap:

n°4971155
Rasthor
Posté le 18-03-2017 à 20:19:37  profilanswer
 

Bébé Yoda a écrit :

Le problème c'est que pour chaque domaine il te faut prendre un module, à la fin la facture est salée.
J'ai beaucoup bossé avec MATLAB (pendant mes études puis en thèse et postdoc... OMG ca doit faire une quinzaine d'années).
Puis dans ma boîte, s'est posée la question des investissements en soft. On a fait des chiffrages et vu le coût de MATLAB on nous a gentiment fait comprendre qu'on aurait besoin de se former en python :)
Au final je ne regrette pas, j'aime vraiment la manière de programmer en python. Et ces compétences étant plus recherchées que MATLAB ça m'a fait gagner en employabilité.
Par contre j'aimais bien le côté facile de MATLAB, surtout en visualisation, mais j'apprends à faire sans.


Python n'a peut-etre pas d'interface aussi poussee, mais si tu combines Jupyter+matplotlib+seaborn, il y a deja de quoi faire des trucs sympas. :)

n°4971162
Bébé Yoda
Posté le 18-03-2017 à 20:28:45  profilanswer
 

Rasthor a écrit :


Python n'a peut-etre pas d'interface aussi poussee, mais si tu combines Jupyter+matplotlib+seaborn, il y a deja de quoi faire des trucs sympas. :)


Oui c'est vrai, mais le truc pratique en MATLAB c'est l'interactivité des graphes. Juste en deux clic tu peux faire un truc, c'était pratique (mais je préfère le look seaborn)

n°4971188
o_BlastaaM​oof_o
Posté le 18-03-2017 à 21:44:01  profilanswer
 

Bébé Yoda a écrit :


 
Tu peux détailler un peu sur les problèmes de l'open source en entreprise ?


 
Ils sont nombreux... Pour resituer un peu le contexte, j'occupe un poste Data Architect et mes problématiques principales au quotidien sont le déploiement et l'industrialisation d'algorithmes de data science au sens large.
 
Tout commence avec l'installation des outils. Sur le PC d'un collaborateur ça ne pose en général pas de problème (encore que). En revanche, lorsqu'il s'agit de faire installer un R ou un Python sur un système de production, bonjour les emmerdes. D'une part parce que R ou Python doivent nécessairement être complétés de packages qu'il faut pour certains ajouter un par un. Et puis ça paraît con mais, sur un système de production, y a pas d'accès Internet... En général, l'exploitant informatique aime bien avoir ses repositories internes, ce qui est tout à fait possible avec une distribution Linux mais beaucoup plus compliqué avec un outil tel que R, notamment du fait de la difficulté à identifier les dépendances.
 
Mais le plus gros problème, c'est les montées de version. Avec des outils propriétaires, développés par un éditeur, on a généralement un cycle de vie sans rupture brutale. Les changement se font en douceur, ce qui permet aux entreprises de suivre le rythme. Avec l'open source, c'est tout l'inverse, c'est un bordel innommable. Rien que Python par exemple... Même des upgrades mineures introduisent des changements de nature à rendre un programme non fonctionnel (3.4 vers 3.5 par exemple). Et je ne parle même pas des packages individuellement dont une bonne partie est en version 0.x, ce qui donne vachement confiance en passant. Mais mon exemple préféré, c'est Spark. Le passage de la 1.6 à la 2.0.1 introduit tellement de changements que, en pratique, plus rien ne fonctionne. Je vous laisse imaginer le bazar quand on veut faire une montée de version sur un SI de production avec des dizaines de projets qui ne fonctionnent plus en environnement de recette et qu'il faut corriger un par un... Le coût pour l'entreprise est faramineux.
 
Le dernier point, c'est le contrôle des utilisateurs. Quand une entreprise met à disposition un soft propriétaire, il y a en général un plan de déploiement bien défini pour que tout le monde travaille avec la même version. Avec l'open source, chacun installe ce qu'il veut, tout le monde bosse avec des versions différentes... Je veux bien croire que ça peut passer dans une start-up qui a un SI très agile, dans une grande entreprise c'est ingérable en revanche.
 

Rontgen a écrit :

Perso j'utilisais un peu MATLAB en thèse mais plus du tout depuis que je bosse en entreprise
J'utilise des librairies open source de ML au quotidien et je n'ai aucun problème
Bon je fais du C++ principalement mais quand j'ai besoin de plus haut niveau, je fais du Python
Franchement je ne vois de moins en moins l'intérêt de payer une licence MATLAB aussi chère, et c'est pareil pour tous ceux à que je connais, donc coup de "la communauté entière qui est à côté de la plaque", ça me paraît un peu exagéré :o


 
Soyons clairs, en termes de langage pur et dur, pour moi R, Python et MATLAB c'est kif-kif. Tous ont plus ou moins les mêmes fonctionnalités et les syntaxes sont similaires (je dirais que MATLAB est le plus facile à appréhender et Python le plus compliqué mais tout cela reste relatif).
 
Le coût de MATLAB, c'est une LU. MATLAB c'est 2 k€ par an et par utilisateur grosso modo, c'est un soft bon marché (par rapport à SAS notamment).
 
Tu peux en dire plus sur le choix de C++ ? Vu le temps de développement bien supérieur, je me dis qu'il faut avoir de sacrées bonnes raisons d'utiliser un langage tel que C++. Pour ma part, je ne le recommande que lorsque les langages interprétés sont confrontés à de gros soucis de gestion de la mémoire.
 

Darmstadtium a écrit :

Matlab n'est d'après moi pas adapté à la data science au sens où en data science, on passe beaucoup de temps à :

  • Pull des données depuis des bases de données souvent diverses (Mongo DB, SQL etc.)
  • Les nettoyer
  • Manipuler des données non numériques, genre du texte

Et je trouve que tout ça est horriblement pénible avec Matlab qui n'est pas fait pour ça mais pour du calcul numérique.
 
En revanche, pour développer de nouveaux algorithmes de ML avec la masse d'algèbre linéaire, et juste du calcul numérique et de la visualisation, j'aime beaucoup Matlab (même s'il y a des faiblesses, genre les tenseurs sont mal gérés).
 
Ceci dit, la stack scientifique Python est également bien adaptée au développement d'algos numériques et beaucoup de lib open source sortent avec des bindings Pythons (genre tensorflow).


 
Ta vision de MATLAB est un peu datée. MATLAB peut se connecter à toutes les sources de données que tu cites et dispose maintenant de structures de données adaptées à la data science (les strings notamment, il était temps).

n°4971200
KevinTran
Photographe
Posté le 18-03-2017 à 22:46:42  profilanswer
 

C'est marrant, venant du monde académique ou l'open source est privilégié je dois reconnaitre que l'on a une vision des choses et une expérience assez divergente :)
Et quand on a des soucis de versions, on prend/exploite un stagiaire pour remettre de l'ordre dans tout ça :o


---------------
http://www.kevintran.fr
n°4971393
shalazyr
Posté le 19-03-2017 à 15:59:34  profilanswer
 

Yo
Désolée de repasser que mnt
Bon les cours sur edf sont pas mal du tout mais j ai du lâcher le morceau pour cause de temps
Par contre ma cogip me payent une formation sur 3semaines pleines en ML & co
Donc finalement  [:xp1700]

mood
Publicité
Posté le 19-03-2017 à 15:59:34  profilanswer
 

n°4971409
Millsap
Posté le 19-03-2017 à 17:10:01  profilanswer
 

Bébé Yoda a écrit :


Oui c'est vrai, mais le truc pratique en MATLAB c'est l'interactivité des graphes. Juste en deux clic tu peux faire un truc, c'était pratique (mais je préfère le look seaborn)


 
Disons qu'avec matplotlib et seaborn, c'est suffisant quand tu fais la cuisine et la partie exploration dans ton coin. Si apres tu as besoin de faire un dashboard avec des graphs  [:apges:5] , tu passes via HighCharts ou D3

n°4971415
Bébé Yoda
Posté le 19-03-2017 à 17:49:35  profilanswer
 

Millsap a écrit :

 

Disons qu'avec matplotlib et seaborn, c'est suffisant quand tu fais la cuisine et la partie exploration dans ton coin. Si apres tu as besoin de faire un dashboard avec des graphs [:apges:5] , tu passes via HighCharts ou D3


D'ailleurs, j'ai commencé à bosser D3. J'en suis encore au début et je ne trouve pas beaucoup d'aide et de tutos.
Tu aurais des liens vers de bons tutos?

n°4971459
Pina Colad​a
Posté le 19-03-2017 à 20:31:22  profilanswer
 

o_BlastaaMoof_o a écrit :


 
Le dernier point, c'est le contrôle des utilisateurs. Quand une entreprise met à disposition un soft propriétaire, il y a en général un plan de déploiement bien défini pour que tout le monde travaille avec la même version. Avec l'open source, chacun installe ce qu'il veut, tout le monde bosse avec des versions différentes... Je veux bien croire que ça peut passer dans une start-up qui a un SI très agile, dans une grande entreprise c'est ingérable en revanche.
 


 
Ton expérience est intéressante vu qu'elle va à l'encontre de ce qui est dit en général. Pour le problème quoté en particulier, est- ce que tu as regardé du côté de docker et si oui pourquoi tu ne l'as pas retenu ?
 

o_BlastaaMoof_o a écrit :


 
Soyons clairs, en termes de langage pur et dur, pour moi R, Python et MATLAB c'est kif-kif. Tous ont plus ou moins les mêmes fonctionnalités et les syntaxes sont similaires (je dirais que MATLAB est le plus facile à appréhender et Python le plus compliqué mais tout cela reste relatif).
 
Le coût de MATLAB, c'est une LU. MATLAB c'est 2 k€ par an et par utilisateur grosso modo, c'est un soft bon marché (par rapport à SAS notamment).
 
Tu peux en dire plus sur le choix de C++ ? Vu le temps de développement bien supérieur, je me dis qu'il faut avoir de sacrées bonnes raisons d'utiliser un langage tel que C++. Pour ma part, je ne le recommande que lorsque les langages interprétés sont confrontés à de gros soucis de gestion de la mémoire.
 


 
Pour process des images ou faire des calculs en temps réel sur application mobile, chez moi on fait des librairies en C++ par exemple.
 

o_BlastaaMoof_o a écrit :


 
Ta vision de MATLAB est un peu datée. MATLAB peut se connecter à toutes les sources de données que tu cites et dispose maintenant de structures de données adaptées à la data science (les strings notamment, il était temps).


 
De mon expérience manipuler une grande quantité de fichiers textes, images etc c'est beaucoup plus simple en python avec les list comprehension. Une dizaine de lignes de code en matlab se résume en 1 ligne avec python sur certains trucs. Mais c'est mon expérience  :o  
Sur d'autres trucs genre deep learning là ils sont clairement à la traine. Je viens de voir qu'ils viennent à peine de mettre à jour pour pouvoir entrainer les algos sur AWS...
 
 

n°4971464
o_BlastaaM​oof_o
Posté le 19-03-2017 à 21:00:09  profilanswer
 

Pina Colada a écrit :


 
Ton expérience est intéressante vu qu'elle va à l'encontre de ce qui est dit en général. Pour le problème quoté en particulier, est- ce que tu as regardé du côté de docker et si oui pourquoi tu ne l'as pas retenu ?
 


 
Qu'est-il dit en général ?
 
Pour ce qui est de Docker, je connais et je ne l'ai pas retenu parce que ces choix-là ne m'appartiennent pas. Je dois composer avec l'environnement mis à disposition par notre exploitant informatique et donc avec ses limites. Mais de toute façon, Docker n'apporterait pas grand chose dans notre contexte.
 

Pina Colada a écrit :


 
Pour process des images ou faire des calculs en temps réel sur application mobile, chez moi on fait des librairies en C++ par exemple.
 


 
Dans ce contexte-là c'est tout à fait adapté, en effet :jap:
 

Pina Colada a écrit :


 
De mon expérience manipuler une grande quantité de fichiers textes, images etc c'est beaucoup plus simple en python avec les list comprehension. Une dizaine de lignes de code en matlab se résume en 1 ligne avec python sur certains trucs. Mais c'est mon expérience  :o  
Sur d'autres trucs genre deep learning là ils sont clairement à la traine. Je viens de voir qu'ils viennent à peine de mettre à jour pour pouvoir entrainer les algos sur AWS...
 


 
Les list comprehension, c'est généralement traité par de l'indexation logique sous MATLAB.
Pour ce qui est des collections de fichiers, MATLAB a introduit en 2014 le concept de datastore que je trouve particulièrement puissant.
 
Le deep learning, c'est clairement le pré carré de Python. Et pour ce qui est de l'entraîment sur AWS, tu aurais de toute façon un problème de licence avec MATLAB.  

n°4971465
Millsap
Posté le 19-03-2017 à 21:04:17  profilanswer
 

Bébé Yoda a écrit :


D'ailleurs, j'ai commencé à bosser D3. J'en suis encore au début et je ne trouve pas beaucoup d'aide et de tutos.
Tu aurais des liens vers de bons tutos?


 
Nope désolé.
Dans la majorité des cas HighCharts me suffit, je me sers de D3 juste quand je veux vraiment du custom (ou faire mumuse). Et la un coup de Google + stackoverflow et en avant simone :D

n°4971476
Bébé Yoda
Posté le 19-03-2017 à 21:42:45  profilanswer
 

Ça à l'air pas mal highcharts, dommage que ça soit payant :(
Je vais continuer à tester D3. Pour l'instant j'ai juste compris comment faire un bargraph

n°4971477
Pina Colad​a
Posté le 19-03-2017 à 21:50:08  profilanswer
 

o_BlastaaMoof_o a écrit :


 
Qu'est-il dit en général ?
 
Pour ce qui est de Docker, je connais et je ne l'ai pas retenu parce que ces choix-là ne m'appartiennent pas. Je dois composer avec l'environnement mis à disposition par notre exploitant informatique et donc avec ses limites. Mais de toute façon, Docker n'apporterait pas grand chose dans notre contexte.
 


Bin que matlab ça devient un peu dépassé et que beaucoup se tournent vers l'open source et en particulier python pour le data science en général.
Pour docker, j'ai peut etre pas saisi tout le contexte mais maintenir une image avec des versions spécifiques de package open source ça marche plutot bien.

n°4971486
o_BlastaaM​oof_o
Posté le 19-03-2017 à 22:20:06  profilanswer
 

Pina Colada a écrit :


Bin que matlab ça devient un peu dépassé et que beaucoup se tournent vers l'open source et en particulier python pour le data science en général.
Pour docker, j'ai peut etre pas saisi tout le contexte mais maintenir une image avec des versions spécifiques de package open source ça marche plutot bien.


 
De temps en temps, il faut sortir de la position dogmatique et des "on dit" pour se renseigner et tester par soi-même :)
Pour ma part, je trouve que MATLAB est un bel outil, qui fonctionne bien et qui nous simplifie la vie sur bien des points pour un coût très raisonnable. Mais à côté de ça, on travaille également avec Python. La seule plateforme qu'on a demandé à éviter, c'est R parce que c'est mission impossible niveau industrialisation - du moins dans notre contexte, mais vu qu'on est pas les seuls...

n°4971610
Millsap
Posté le 20-03-2017 à 11:29:27  profilanswer
 

Bébé Yoda a écrit :

Ça à l'air pas mal highcharts, dommage que ça soit payant :(
Je vais continuer à tester D3. Pour l'instant j'ai juste compris comment faire un bargraph


 
Tu peux utiliser gratuitement highcharts / map etc avec la licence non commercial
 

Citation :

When can I use the Non-commercial License?
 
You can use our software for free under the Non-commercial License if you are:  
- A student;  
- Working on a project for a university or a public school, or;  
- A non-profit organization
Governmental organizations do not fall under the non-commercial license and will require a commercial license  

n°4971628
Bébé Yoda
Posté le 20-03-2017 à 11:53:21  profilanswer
 

Par contre, pour revenir à Matlab, c'est pas une LU le coût.
Je peux pas sortir les offres de prix que j'avais reçu l'an dernier de Mathworks (j'ai pas gardé les documents en quittant le taf), mais c'était vraiment pas donné (c'est d'ailleurs pour ça qu'on l'a pas acheté.)
Matlab de base, dans les 2k€, il fallait rajouter 2/3 toolboxes et on arrivait à plus de 5k€ par poste. Et pour des licences flottantes, avec jetons, c'était encore plus cher.

n°4971629
Bébé Yoda
Posté le 20-03-2017 à 11:54:04  profilanswer
 

Millsap a écrit :


 
Tu peux utiliser gratuitement highcharts / map etc avec la licence non commercial
 


Citation :

When can I use the Non-commercial License?
 
You can use our software for free under the Non-commercial License if you are:  
- A student;  
- Working on a project for a university or a public school, or;  
- A non-profit organization
Governmental organizations do not fall under the non-commercial license and will require a commercial license  


Ah c'est pas mal ça, j'y jetterai un coup d'oeil à l'occasion.
Après, je n'y passerai pas trop de temps, si je me retrouve dans une boîte qui ne l'utilise pas ça ne me servira pas trop.

n°4971677
o_BlastaaM​oof_o
Posté le 20-03-2017 à 13:33:03  profilanswer
 

Bébé Yoda a écrit :

Par contre, pour revenir à Matlab, c'est pas une LU le coût.
Je peux pas sortir les offres de prix que j'avais reçu l'an dernier de Mathworks (j'ai pas gardé les documents en quittant le taf), mais c'était vraiment pas donné (c'est d'ailleurs pour ça qu'on l'a pas acheté.)
Matlab de base, dans les 2k€, il fallait rajouter 2/3 toolboxes et on arrivait à plus de 5k€ par poste. Et pour des licences flottantes, avec jetons, c'était encore plus cher.


 
En licence perpétuelle, c'est 2 k€ la licence + 1 k€ par toolbox. Il faut généralement 2 ou 3 toolboxes par utilisateur, soit 5 k€ par utilisateur au total.
En location, c'est 40% de ce tarif par an (soit 2 k€ par utilisateur et par an).
 
Les licences flottantes sont effectivement très chères mais elles n'ont de sens que dans de grosses équipes.

n°4971683
Bébé Yoda
Posté le 20-03-2017 à 13:43:53  profilanswer
 

Rien que pour 3/4 utilisateurs on arrive vite à >15k€ ça fait cher pour une petite équipe comme celle que j'avais.
Mais il faut admettre que ça reste un prix raisonnable comparé à d'autres softs, comme Comsol par exemple (où j'étais vite à >20k€ pour une seule licence)

n°4972073
Bébé Yoda
Posté le 21-03-2017 à 11:22:57  profilanswer
 

C'est le bon topic pour poser des questions techniques ? Je tente au cas où.
Si l'un d'entre vous utilise scikit-learn, j'ai un comportement étrange avec le RandomForestClassifier.
En gros mon calcul est beaucoup plus rapide avec 1 seul job plutôt qu'en essayant de paralléliser.
J'ai posé la question proprement là : http://stats.stackexchange.com/que [...] -increases

n°4972079
korial
Posté le 21-03-2017 à 11:37:31  profilanswer
 

Je crois que j'ai déjà vu un bug comme ça en cherchant une erreur de joblib
Je crois que ça vient de Windows  
 [:aslan117]  
Il me semble que le -1 bug sur Windows
Désolé de pas être plus précis :/

n°4972080
o_BlastaaM​oof_o
Posté le 21-03-2017 à 11:38:46  profilanswer
 

Bébé Yoda a écrit :

C'est le bon topic pour poser des questions techniques ? Je tente au cas où.
Si l'un d'entre vous utilise scikit-learn, j'ai un comportement étrange avec le RandomForestClassifier.
En gros mon calcul est beaucoup plus rapide avec 1 seul job plutôt qu'en essayant de paralléliser.
J'ai posé la question proprement là : http://stats.stackexchange.com/que [...] -increases


Paralléliser un calcul d'une seconde...

n°4972081
Rontgen
Posté le 21-03-2017 à 11:38:58  profilanswer
 

C'est le bon topic oui :jap:
 
Tu as combien d'arbres dans la foret ?
Que se passe-t-il si tu remplaces le -1 par le vrai nombre de cores ?

n°4972111
Oceanborn
Posté le 21-03-2017 à 13:59:50  profilanswer
 

Ca vient peut être de la génération de thread.
T'as essayé avec des calculs beaucoup plus lourds voir si ça se comportait de la même façon ? Si tu plot le temps d'exécution(nb de thread) c'est linéaire ?

n°4972113
Bébé Yoda
Posté le 21-03-2017 à 14:04:30  profilanswer
 

o_BlastaaMoof_o a écrit :


Paralléliser un calcul d'une seconde...

 

C'est juste un exemple pour tester rapidement les options, je me doute bien que c'est pas nécessaire :)

n°4972114
Bébé Yoda
Posté le 21-03-2017 à 14:05:17  profilanswer
 

Rontgen a écrit :

C'est le bon topic oui :jap:

 

Tu as combien d'arbres dans la foret ?
Que se passe-t-il si tu remplaces le -1 par le vrai nombre de cores ?


J'ai essayé toutes les valeurs: -1, 1, 2 , etc jusqu'à 16 et c'est toujours pareil.

 

Vous avez le même bug chez vous ?

n°4972122
dynaq
Posté le 21-03-2017 à 14:26:41  profilanswer
 

Bébé Yoda a écrit :


J'ai essayé toutes les valeurs: -1, 1, 2 , etc jusqu'à 16 et c'est toujours pareil.
 
Vous avez le même bug chez vous ?


 
Sous windows, le multithread de scikit learn ne fonctionne pas (de mon expérience en tout cas).

n°4972142
Bébé Yoda
Posté le 21-03-2017 à 14:56:49  profilanswer
 

dynaq a écrit :


 
Sous windows, le multithread de scikit learn ne fonctionne pas (de mon expérience en tout cas).


La lose :/
 
Bon je vais essayer avec un calcul plus long. Comme l'a suggéré Oceanborn c'est peut-être juste un problème d'appel de thread. Le calcul est tellement rapide que le multithread est finalement plus long.
 
Faut juste que je trouve des données adaptées à mon test...

n°4972153
Oceanborn
Posté le 21-03-2017 à 15:07:09  profilanswer
 

C'est coûteux de multithreader en python, faut que ça en vaille le coup. :jap:

 

Pour les données, repete la data frame un millier de fois, ça devrait suffire. :o


Message édité par Oceanborn le 21-03-2017 à 15:07:58
n°4972185
Millsap
Posté le 21-03-2017 à 15:58:11  profilanswer
 

Et puis faire du python sous windows...  

Spoiler :

[:raph0ux]

n°4972198
Bébé Yoda
Posté le 21-03-2017 à 16:53:52  profilanswer
 

Bon OK, c'était juste ça en fait.
J'ai pris un jeu de donné, et passé la taille de 3000 à 1e6 lignes.
Et là, je vois une énorme différence en fonction du nombre de jobs.
 
Pour un seul core : 168 secondes, sur les 8 cores : 40 secondes.
 
C'était bien le coût du multithread qui ne valait pas le coup pour un calcul aussi rapide.  
J'ai fait quelques essais rapides, en dessous de 2/3 secondes ça ne sert pas à grand chose.
 
J'me sens un peu con mais merci pour votre participation ;)

n°4972477
MEI
|DarthPingoo(tm)|
Posté le 22-03-2017 à 12:04:34  profilanswer
 

Darmstadtium a écrit :

Matlab n'est d'après moi pas adapté à la data science au sens où en data science, on passe beaucoup de temps à :

  • Pull des données depuis des bases de données souvent diverses (Mongo DB, SQL etc.)
  • Les nettoyer
  • Manipuler des données non numériques, genre du texte

Et je trouve que tout ça est horriblement pénible avec Matlab qui n'est pas fait pour ça mais pour du calcul numérique.
 
En revanche, pour développer de nouveaux algorithmes de ML avec la masse d'algèbre linéaire, et juste du calcul numérique et de la visualisation, j'aime beaucoup Matlab (même s'il y a des faiblesses, genre les tenseurs sont mal gérés).
 
Ceci dit, la stack scientifique Python est également bien adaptée au développement d'algos numériques et beaucoup de lib open source sortent avec des bindings Pythons (genre tensorflow).


Sauf que si tu fait ça "dans les règles de l'art" (et je sais bien que Data Science et règle de l'art ça fait un peu deux), t'aura tout un approvisionnement de données en amont qui récupérera les différents canaux d'alimentation, transformera et normalisera les données avant de t'offrir une seul et unique source de données de travail (un peu comme en BI en fait).
 
Penser Data Science en se limitant a R/Python/Hadoop c'est une erreur. Faut pas oublier toutes la partie en amont (ETL/SOA/DQM & co) et en aval (Dataviz par ex).


---------------
| AMD Ryzen 7 7700X 8C/16T @ 4.5-5.4GHz - 64GB DDR5-6000 30-40-40 1T - AMD Radeon RX 7900 XTX 24GB @ 2680MHz/20Gbps |
n°4972481
MEI
|DarthPingoo(tm)|
Posté le 22-03-2017 à 12:08:27  profilanswer
 

Bébé Yoda a écrit :

Par contre, pour revenir à Matlab, c'est pas une LU le coût.
Je peux pas sortir les offres de prix que j'avais reçu l'an dernier de Mathworks (j'ai pas gardé les documents en quittant le taf), mais c'était vraiment pas donné (c'est d'ailleurs pour ça qu'on l'a pas acheté.)
Matlab de base, dans les 2k€, il fallait rajouter 2/3 toolboxes et on arrivait à plus de 5k€ par poste. Et pour des licences flottantes, avec jetons, c'était encore plus cher.


C'est cher, mais quand tu vois le prix du matos pour faire tourner les algos...
 
En plus bon par ex on a des dev. NET qui ont des licences MSDN Premium @ 2K€ par an et pourtant le .NET ça marche y compris vs Java ou PHP hein... :o Si l'outil est adapté, le prix est un faux problème quand même...


---------------
| AMD Ryzen 7 7700X 8C/16T @ 4.5-5.4GHz - 64GB DDR5-6000 30-40-40 1T - AMD Radeon RX 7900 XTX 24GB @ 2680MHz/20Gbps |
n°4972490
Kaffeine
Noisette
Posté le 22-03-2017 à 12:33:31  profilanswer
 

Enfin,  pas sans infini, d'où la migration de SAS des grosses kojip qui coute coute réellement une blinde

n°4972939
xasyl
Posté le 23-03-2017 à 16:08:32  profilanswer
 

[:lardoncru:2]


---------------
Qui pense peu, se trompe beaucoup (De Vinci)
n°4973660
stradiv
Posté le 26-03-2017 à 17:06:59  profilanswer
 

Bonjour à tou(te)s,
 
J'aimerai vos avis sur les moyens d'une reconversion professionnelle.
Cela fait 6 ans que je suis quant dans une grande banque Fr et depuis quelques temps je cherche à changer de secteur pour aller vers les métiers de l'AI, ML, Big Data, etc.
J'ai une formation en Maths App mais plutôt finance bien sur. Je code un peu mais je ne suis pas un professionnel du code (par exemple je connais un peu Python mais je ne pratique pas dans mon job).
Je n'ai pas de formation en AI, ML, etc.
 
A votre avis faudrait il mieux que :
- je demande une année sabatique et que je fasse un Master type MVA, Paris saclay, etc.
- je fasse une formation a distance diplomante, genre CNAM (j'avais pensé à ça: http://formation.cnam.fr/master-sc [...] F=motrech)
- je fasse des cours en ligne pour me former (coursera & cie)
- pas besoin de faire de formation additionnelle un bon discours en potassant un peu les entretiens ca peut passer?
- autre?
 
L'avantage de faire des formations à distance/le soir/en ligne c'est que j'ai toujours mon salaire pour payer mon loyer :) ma question était plutôt : est ce que ça vaut le coup de faire ces Masters reconnus (et perdre 1 an) ou alors vu mon expérience c'est pas nécessaire.
 
Merci d'avance pour vos éclaircissements

n°4973687
Bébé Yoda
Posté le 26-03-2017 à 18:06:48  profilanswer
 

stradiv a écrit :

Bonjour à tou(te)s,

 

J'aimerai vos avis sur les moyens d'une reconversion professionnelle.
Cela fait 6 ans que je suis quant dans une grande banque Fr et depuis quelques temps je cherche à changer de secteur pour aller vers les métiers de l'AI, ML, Big Data, etc.
J'ai une formation en Maths App mais plutôt finance bien sur. Je code un peu mais je ne suis pas un professionnel du code (par exemple je connais un peu Python mais je ne pratique pas dans mon job).
Je n'ai pas de formation en AI, ML, etc.

 

A votre avis faudrait il mieux que :
- je demande une année sabatique et que je fasse un Master type MVA, Paris saclay, etc.
- je fasse une formation a distance diplomante, genre CNAM (j'avais pensé à ça: http://formation.cnam.fr/master-sc [...] F=motrech)
- je fasse des cours en ligne pour me former (coursera & cie)
- pas besoin de faire de formation additionnelle un bon discours en potassant un peu les entretiens ca peut passer?
- autre?

 

L'avantage de faire des formations à distance/le soir/en ligne c'est que j'ai toujours mon salaire pour payer mon loyer :) ma question était plutôt : est ce que ça vaut le coup de faire ces Masters reconnus (et perdre 1 an) ou alors vu mon expérience c'est pas nécessaire.

 

Merci d'avance pour vos éclaircissements

 

Je ne suis pas le mieux placé pour te répondre. Perso j'ai opté pour la formule : quitter mon job, et me former tout seul (coursera dans un premier temps et d'autres à venir).

 

Une piste à explorer serait de voir en interne si des postes équivalents existent afin de te faire former entièrement par ta boîte (quitte à partir plus tard). Tu peux même essayer de les convaincre qu'une expertise ML/Big data serait un plus

mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7  8  ..  128  129  130  131  132  133

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR