[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 49 50 51 .. 128 129 130 131 132 133 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

zywiec

Reprise du message précédent :

Rasthor a écrit :

Le machine learning, c'est Python et/ou R. Et rien d'autres.

=> C++, Java, Fortran, trop complique a mettre en place pour de l'analyse de donnée.
=> Julia, Golang, trop jeunes et personne n'utilise de maniere pro.
=> PERL, Ruby => joker.

Tu as oublié c# dans la première catégorie

D'ailleurs vous pensez quoi de ML.NET de Microsoft ?
Venant du monde Microsoft, ça m'attire mais pas sur que ça soit des masses utilisé.

Message cité 1 fois

Publicité

Rasthor

zywiec a écrit :

Tu as oublié c# dans la première catégorie

D'ailleurs vous pensez quoi de ML.NET de Microsoft ?
Venant du monde Microsoft, ça m'attire mais pas sur que ça soit des masses utilisé.

Jamais vu ça dans les offres d'emploi.

Ca repond a ta question ?

Darmstadtium

Pipoteur grotesque

Rasthor a écrit :

Le machine learning, c'est Python et/ou R. Et rien d'autres.

=> C++, Java, Fortran, trop complique a mettre en place pour de l'analyse de donnée.
=> Julia, Golang, trop jeunes et personne n'utilise de maniere pro.
=> PERL, Ruby => joker.

C'est pas vrai, ça dépend du domaine d'application et aussi de l'infrastructure et du niveau d'abstraction vis à vis du hardware.

C++ : quiconque fait du ML sur des systèmes embarqués va l'utiliser, c'est aussi la base de pas mal de libs et c'est un passage obligatoire pour écrire des opérations customs sur CPU ou GPU pour étendre les fonctionnalités de libs comme tensorflow ou pytorch. Les gens qui bossent près du matériel genre chez nvidia l'utilisent aussi beaucoup, les développeurs de bibliothèques de ML aussi. Très utile si besoin de faire de l'inférence en temps réel. Je parle par expérience pour les opérations customs et l'inférence.

Scala : comme Java mais avantage d'être fonctionnel pour écrire du code distribué (plus facile d'être sûr d'écrire des pure functions par exemple).

Fortran : certains packages R sont écrits en Fortran.

Go : "personne ne l'utilise professionnellement", je crois qu'il y a une petite entreprise no-name qui l'utilise, "Google" ou un truc du genre, paraît qu'ils ont inventé ce langage pour répondre à leurs besoins [:klemton]

Julia : très jeune en effet, commence à se faire un nom dans certaines communautés académiques. Offre une alternative crédible à Matlab pour du code ad-hoc d'algèbre linéaire, comme on en fait en optimisation, traitement d'images (factorisations de matrices et tenseurs avec des solveurs type admm au hasard, c'est du ML non supervisé ) etc.

Ruby : effectivement devenu un langage niche utilisé presque exclusivement en développement web avec rails, mais certains l'aiment bien pour le traitement de texte. Pas vu de ML à proprement parler.

Perl : populaire en bioinformatique pour le traitement de textes et séquences. Pas vu de ML à proprement parler.

Message cité 1 fois
Message édité par Darmstadtium le 30-11-2018 à 20:07:38

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

Rasthor

Darmstadtium a écrit :

C'est pas vrai, ça dépend du domaine d'application et aussi de l'infrastructure et du niveau d'abstraction vis à vis du hardware.

Citation :

Oui. Mais tant C++ que Java seront utilise cote developeur, production, et pas trop comme analyse de donnee ou recherche.

Citation :

Scala : comme Java mais avantage d'être fonctionnel pour écrire du code distribué (plus facile d'être sûr d'écrire des pure functions par exemple).

Citation :

Fortran : certains packages R sont écrits en Fortran.

Du coup c'est cote developeur, pas utilisateur.

Citation :

Google ? Connait pas.

Citation :

A voir dans le futur comment ca donne. L'avantage est qu'il est rapide.

Citation :

Voila, pas de ML. :jap:

Citation :

Perl : populaire en bioinformatique pour le traitement de textes et séquences. Pas vu de ML à proprement parler.

Plus personne ne l'utilise en bioinfo, sauf pour des raisons historique (pipeline de l'epoque).

Message cité 1 fois

Darmstadtium

Pipoteur grotesque

Rasthor a écrit :

Java : utilisé par certaines entreprises pour écrire des grosses data pipelines, le typage statique offre un avantage sur python pour certaines choses. Le cutting edge de la recherche en ML se fait en Python et C++ mais java n'est pas un mauvais choix pour une business app.[/quote]
Oui. Mais tant C++ que Java seront utilise cote developeur, production, et pas trop comme analyse de donnee ou recherche.

Pas du tout d'accord avec ça, désolé.

Recherche : j'écris des opérations tensorflow en C++ pour faire des trucs que TF fait pas de base pour mes modèles, et je suis loin d'être le seul. Des libs expérimentales ont souvent des bouts codés en C++, j'en vois très régulièrement.

Analyse de données : si la pipeline d'analyse de données de la boîte est en Java, un data scientist va écrire du Java. T'as aussi des cas où Java et/ou C++ servent pour faire de l'analyse de données massives avec MapReduce ou similaire.

Et il n'y a pas toujours de distinction forte production vs analyse de données en entreprise. C'est même rare dans la majorité des boîtes qu'une team de data scientists fasse uniquement du prototypage et qu'une team de software engineers soit en charge de mettre ça en production dans un autre langage. Pour la plupart des boîtes c'est une perte de temps, et ré-implémenter un truc de ML dans un autre langage demande souvent des compétences de ML pour contrôler l'implémentation.

Les data scientists écrivent du code de production, tout comme les quants en finance écrivent du code de production.

Message cité 1 fois
Message édité par Darmstadtium le 30-11-2018 à 20:44:36

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

Darmstadtium

Pipoteur grotesque

Aussi la recherche en ML n'a rien à voir avec le côté "utilisateur".

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

Bébé Yoda

Quels sont les avantages fournis par le typage statique ?
#noobpresent

Message cité 2 fois

Tidom

Bébé Yoda a écrit :

Quels sont les avantages fournis par le typage statique ?
#noobpresent

Le typage dynamique c'est pour les noobs
C'est pour ça que j'en fais de plus en plus
Sinon c'est bien expliqué ici : https://fr.m.wikipedia.org/wiki/Typage_dynamique

Rasthor

Bébé Yoda a écrit :

Quels sont les avantages fournis par le typage statique ?
#noobpresent

1) Ca prend moins de place en mémoire.
2) Tu es sur que les données sont correctes (le programme plante si ce n'est pas le cas).

Un article que j'aime beaucoup:

Using pandas with large data
Tips for reducing memory usage by up to 90%
https://www.dataquest.io/blog/pandas-big-data/

Message cité 1 fois

o_BlastaaMoof_o

Rasthor a écrit :

1) Ca prend moins de place en mémoire.
2) Tu es sur que les données sont correctes (le programme plante si ce n'est pas le cas).

Non.

Rasthor a écrit :

Un article que j'aime beaucoup:

Using pandas with large data
Tips for reducing memory usage by up to 90%
https://www.dataquest.io/blog/pandas-big-data/

Très bon article en effet, je le relaie régulièrement :jap:

Message cité 1 fois

Publicité

o_BlastaaMoof_o

Darmstadtium a écrit :

Pas du tout d'accord avec ça, désolé.

Recherche : j'écris des opérations tensorflow en C++ pour faire des trucs que TF fait pas de base pour mes modèles, et je suis loin d'être le seul. Des libs expérimentales ont souvent des bouts codés en C++, j'en vois très régulièrement.

Analyse de données : si la pipeline d'analyse de données de la boîte est en Java, un data scientist va écrire du Java. T'as aussi des cas où Java et/ou C++ servent pour faire de l'analyse de données massives avec MapReduce ou similaire.

Et il n'y a pas toujours de distinction forte production vs analyse de données en entreprise. C'est même rare dans la majorité des boîtes qu'une team de data scientists fasse uniquement du prototypage et qu'une team de software engineers soit en charge de mettre ça en production dans un autre langage. Pour la plupart des boîtes c'est une perte de temps, et ré-implémenter un truc de ML dans un autre langage demande souvent des compétences de ML pour contrôler l'implémentation.

Les data scientists écrivent du code de production, tout comme les quants en finance écrivent du code de production.

Les bons... 95% de ceux que je connais sont incapables de le faire :jap:

Rasthor

o_BlastaaMoof_o a écrit :

Non.

Ah si, clairement!

En tout cas pour Python et MySQL, si tu forces les données en CHAR(32) ou INT(5) par exemple.

o_BlastaaMoof_o a écrit :

Très bon article en effet, je le relaie régulièrement :jap:

Tu devrais le relire.

https://www.dataquest.io/blog/pandas-big-data/

Citation :

In this post, we'll learn about memory usage with pandas, how to reduce a dataframe's memory footprint by almost 90%, simply by selecting the appropriate data types for columns.

Message cité 1 fois

Bébé Yoda

Merci pour les précisions.

Vous auriez un équivalent pour les dataframes Pyspark ? Je suis sûr que je peux optimiser énormément modèles aussi.

Après je me pose quelques questions.
J'ai de gros dataframes avec des entiers codés en float. A priori il vaut mieux utiliser des entiers. Sauf que l'opération de cast float -> entier n'est pas gratuite.
Du coup je me demande ce qui est le plus intéressant.
Je ne peux pas agir sur les données en amont, elles arrivent comme ça et personne ne le changera.

Quand je dis gros, ça peut monter à 500 colonnes 10 milliards de lignes assez facilement...

Message cité 1 fois

o_BlastaaMoof_o

Rasthor a écrit :

Ah si, clairement!

En tout cas pour Python et MySQL, si tu forces les données en CHAR(32) ou INT(5) par exemple.

Rasthor a écrit :

Tu devrais le relire.

https://www.dataquest.io/blog/pandas-big-data/

Citation :

In this post, we'll learn about memory usage with pandas, how to reduce a dataframe's memory footprint by almost 90%, simply by selecting the appropriate data types for columns.

Ce que tu évoques n’a rien à voir avec du tapage statique ou dynamique.
Pour les techniques de réduction de l’empreinte mémoire, je les utilise tout le temps avec MATLAB qui est un langage dans lequel le typage est dynamique.

Le gros intérêt du typage statique sur le volet performances est à chercher du côté du compilateur qui va pouvoir effectuer plus d’optimisations lorsque le type d’une variable est connu à l’avance.

o_BlastaaMoof_o

Bébé Yoda a écrit :

Merci pour les précisions.

Vous auriez un équivalent pour les dataframes Pyspark ? Je suis sûr que je peux optimiser énormément modèles aussi.

Après je me pose quelques questions.
J'ai de gros dataframes avec des entiers codés en float. A priori il vaut mieux utiliser des entiers. Sauf que l'opération de cast float -> entier n'est pas gratuite.
Du coup je me demande ce qui est le plus intéressant.
Je ne peux pas agir sur les données en amont, elles arrivent comme ça et personne ne le changera.

Quand je dis gros, ça peut monter à 500 colonnes 10 milliards de lignes assez facilement...

Attention avec les entiers...

Les entiers, ça a l’air joli comme ça mais :
- il faut se méfier de l’overflow lorsqu’on effectue des opérations arithmétiques
- et surtout, surtout, il n’y a pas de valeur NaN dans les entiers, ce qui pose la question de la valeur utilisée pour représenter des données manquantes.

Commencer par du flottant simple précision est déjà un bon début, on ne peut de toute façon plus gagner grand chose en réduisant encore la précision.

o_BlastaaMoof_o

Après, 10 milliards de lignes et 500 colonnes, ça fait au minimum entre 5 et 20 To en mémoire vive. A moins de disposer d’un supercalculateur, je te recommande donc d’envisager un traitement par lot

Message cité 1 fois

Bébé Yoda

o_BlastaaMoof_o a écrit :

Oui c'est parfois très très gros. Bon là j'ai donné le cas extrême, ça dépend de mes sources de données.
Les basiques c'est plus généralement 50 colonnes 100 millions de lignes grand max.
Mais les autres oui c'est colossal et je suis obligé de travailler avec des lots de quelques semaines d'historique à peine.
Ça pose d'ailleurs la question de la pertinence de collecter autant de données. J'ai l'impression que quelqu'un en haut lieu s'est dit que Big data c'était cool et que plus c'est gros mieux c'est, sans réfléchir

gattacca

gattacca a écrit :

On peut se faire aider rapidement sur un exercice MATLAB du cours de ML de Andrew ng sur ce topic?

J'ai une question sur le deuxième exercise du même programme

J'ai passé quelques heures dessus et je bloque à la dernière partie, sur la régularisation de la logistic cost function.

Voici mon code Matlab:

Code :

function [J, grad] = costFunctionReg(theta, X, y, lambda)
%COSTFUNCTIONREG Compute cost and gradient for logistic regression with regularization
% J = COSTFUNCTIONREG(theta, X, y, lambda) computes the cost of using
% theta as the parameter for regularized logistic regression and the
% gradient of the cost w.r.t. to the parameters.
% Initialize some useful values
m = length(y); % number of training examples
% You need to return the following variables correctly
J = 0;
grad = zeros(size(theta));
% ====================== YOUR CODE HERE ======================
% Instructions: Compute the cost of a particular choice of theta.
% You should set J to the cost.
% Compute the partial derivatives and set grad to the partial
% derivatives of the cost w.r.t. each parameter in theta
J = (1/m)*sum(-y.*log(sigmoid(X*theta))-(1-y).*log(1-sigmoid(X*theta))) + lambda/(2*m)*sum(theta(2:end).*theta(2:end));
grad = (1/m)*sum((sigmoid(X*theta)-y).*X) + lambda/m*sum(theta(2:end));
% =============================================================
end

Apres avoir épluché le forum sur coursera et essayé les tests cases, Je pense que mon erreur vient de la partie en gras, regularisation du gradient descent.

Pourtant je ne vois pas comment changer cette partie du code :kaola:

Si quelqu'un pouvait m'aider :jap:

Merci !

Rontgen

Il faut virer la somme dans ta partie en gras, là tu réduis tout a un seul scalaire au lieu d'un vecteur (regarde la taille que grad doit avoir d'après son initialisation)
Le gradient de la régularisation de theta_i ne dépend que de theta_i et pas des autres

Aussi, la régularisation n'affecte pas theta_1 mais il faut quand même définir son gradient (en l'occurrence 0)
Là, même sans la sum, ton terme en gras aura comme dimension (n-1) x 1 au lieu de n x 1
Donc il faut faire un truc du genre
grad = grad du premier terme
grad(2:theta) = grad(2:theta) + grad de la régularisation comme tu l'as défini

Message édité par Rontgen le 06-12-2018 à 20:50:07

gattacca

J'ai modifié le programme et je me retrouve avec un gradient de taille 4*4 au lieu de 4*1 avec les bons termes en diagonale (g11, g22, g33, g44) qui doivent donner le vecteur 4*1 de g.

Code :

J = (1/m)*sum(-y.*log(sigmoid(X*theta))-(1-y).*log(1-sigmoid(X*theta))) + lambda/(2*m)*sum(theta(2:end).*theta(2:end));
grad = (1/m)*sum((sigmoid(X*theta)-y).*X);
temp = theta;
temp(1) = 0;
grad = grad + (lambda/m)*temp;

En essayant avec ta méthode j'arrive a une matrice 1*4 mais pas avec les bons résultats...

Message cité 1 fois

gattacca

gattacca a écrit :

J'ai modifié le programme et je me retrouve avec un gradient de taille 4*4 au lieu de 4*1 avec les bons termes en diagonale (g11, g22, g33, g44) qui doivent donner le vecteur 4*1 de g.

Code :

J = (1/m)*sum(-y.*log(sigmoid(X*theta))-(1-y).*log(1-sigmoid(X*theta))) + lambda/(2*m)*sum(theta(2:end).*theta(2:end));
grad = (1/m)*sum((sigmoid(X*theta)-y).*X);
temp = theta;
temp(1) = 0;
grad = grad + (lambda/m)*temp;

En essayant avec ta méthode j'arrive a une matrice 1*4 mais pas avec les bons résultats...

J'ai trouvé la réponse, j'ai viré le sum de la premiere partie du gradient en utilisant les matrices transposées.

Code :

J = (1/m)*sum(-y.*log(sigmoid(X*theta))-(1-y).*log(1-sigmoid(X*theta))) + lambda/(2*m)*sum(theta(2:end).*theta(2:end));
grad = (1/m)*((sigmoid(X*theta)-y)'*X)';
temp = theta;
temp(1)=0;
grad = grad + lambda/m*temp;

Voxinat

High Frequency Trolling

Bonjour à tous mes ML Engineers szurs,

J'ai une question sur l'optimisation sous contrainte pour vous. C'est pas du ML mais je pense que certains sauraient répondre.

Je cherche à optimiser un vecteur (w1,w2,...,wn). La plupart des contraintes sont classiques et facile à implémenter mais y en a une que je sais absolument pas traiter.

Je voudrais pouvoir dire à mon optimisation, wi=0 OU wi>=1%. Donc en fait, je veux pouvoir mettre une contrainte qui interdit l'ensemble ]0,0.01] à certains de mes wi

Auriez vous des librairies R qui me permettraient de faire ce genre de chose?

Merci à vous

---------------
Sah Quel Plaisir

bogoss91

Tu lances l'optim deux fois, une avec wi = 0, et une avec wi>=1%.

Message cité 1 fois

Voxinat

High Frequency Trolling

bogoss91 a écrit :

Tu lances l'optim deux fois, une avec wi = 0, et une avec wi>=1%.

Et je fais une moyenne des deux après? [:inick:3]

Message cité 1 fois

---------------
Sah Quel Plaisir

stradiv

Pour ceux/celles qui sont intéressé(e)s par une formalisation mathématiques du Deep Learning une petite vidéo de Pierre Louis Lions avant Noël

https://www.college-de-france.fr/si [...] -11h15.htm

dede_sav

Bonjour à tous,

Les entretiens individuels vont bientôt arrivés et je me demandais comment sont définit vos objectifs annuels.
Est-ce que vous avez des objectifs sur la qualité d'un modèle ? ses performances ? de nouvelles études à réaliser .... ?
Bref, comment faire pour qualifier le travail d'un data scientist ?

Merci d'avance pour vos retours.
dd

Bébé Yoda

Chez moi c'est un peu "nul", je suis en presta chez un client donc il faut qu'il soit content.
Et en général il est content si des modèles sont mis en production peu importe leur qualité (ça fait un an qu'on met des modèles en prod et on n'a encore aucune métrique pour les évaluer [:gibbonaz:5] )

Bébé Yoda

Sinon, pour les dernières nouvelles, je suis en train de changer de poste.
Je vais passer à de l'avant vente, à mi-temps pour commencer, puis temps plein au printemps.
Plutôt content de cette évolution, j'ai plus qu'à négocier mon augmentation

sinbadlemarin

Ça correspond à quoi de l'avant vente en ML?

Message cité 1 fois

Bébé Yoda

sinbadlemarin a écrit :

Ça correspond à quoi de l'avant vente en ML?

Dans mon cas, par exemple :
- accompagner les commerciaux pour discuter avec le client dans les premières phases pour comprendre le besoin et voir dans notre offre si on peut répondre.
- rédiger les parties techniques sur les réponses à appel d'offre.
- organiser des démonstrations de nos solutions de data analytics. Si le client donne quelques données on essaye de trouver un scénario pertinent, puis on présente la solution, le fonctionnement des outils etc.

Il y aura surement d'autres choses mais dans les grandes lignes c'est ça

Message cité 1 fois

sinbadlemarin

Bébé Yoda a écrit :

Il y aura surement d'autres choses mais dans les grandes lignes c'est ça

Ça a l'air intéressant. Tu bosses dans une boîte connue type ACN ou plus petit ?

Message cité 1 fois

Bébé Yoda

sinbadlemarin a écrit :

Ça a l'air intéressant. Tu bosses dans une boîte connue type ACN ou plus petit ?

C'est une petite ESN non. On est très loin des gros trucs genre CapG et autres.
On essaye de se différencier en ne faisant pas que du placement de gars à droite à gauche.
On n'est pas les meilleurs mais on s'en sort pas si mal que ça je trouve

gattacca

Pour ceux que ca intéresse, il y a un webinar d'Imperial College sur le 'Machine Learning in Finance' mardi prochain :

https://www.imperial.ac.uk/business [...] e-webinar/

SodeKa

[:cerveau drapal]

mathsdauph

Salut, j'ai un ami en 2A (qui ne connait pas le forum) et qui cherche à savoir quel est le meilleur master Data, sachant qu'il ne veut surtout pas faire de recherche plus tard (bosser en entreprise quoi) . Des avis?? Je lui transmets toutes les réponses

Message cité 1 fois
Message édité par mathsdauph le 24-01-2019 à 12:37:41

Rontgen

Il est en 2A de quoi ? Il est plutot fort en info ou en maths ?

mathsdauph

2A parcours Data Science (MonteCarlo,Stats2,ML,...) , et plutôt bon dans les deux, enfin les notes sont pas un soucis je pense pour lui.

---------------
Licence Maths-> ENSAE -> ??

mathsdauph

Je vais pas rentrer dans les détails, mais sa vision des choses c'est Chercheur=esclave , Entreprise= mâle alpha
[:mathsdauph] (y'a du vrai dans les deux je pense)

Message cité 2 fois
Message édité par mathsdauph le 24-01-2019 à 14:11:36

---------------
Licence Maths-> ENSAE -> ??

Publicité

Page : 1 2 3 4 5 .. 49 50 51 .. 128 129 130 131 132 133

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.122 secondes