[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 16 17 18 .. 132 133 134 135 136 137 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Rasthor

Reprise du message précédent :
Y'avait d'ailleurs un article pour comment gerer des centaines de Mo dans Pandas:
https://www.dataquest.io/blog/pandas-big-data/

Message édité par Rasthor le 02-10-2017 à 00:47:25

Publicité

o_BlastaaMoof_o

Une base de données, c'est pas forcément plus complexe...
Et puis ça permet de s'entraîner au SQL.

Bébé Yoda

Oui s'il veut s'entraîner ça peut être intéressant aussi

Message cité 1 fois

fusion_sadam

zairo a écrit :

Au début j'avais pas trop envie de me prendre la tête est de simplement faire un fichier texte, mais étant donnée qu'il y a beaucoup de variable je pense qu'une base de donnée type sql serait idéal mais je ne sais pas vraiment si y a de meilleur solution en python (un peu comme sqllite sur android)

Sqlite est disponible en python, et c'est effectivement très pratique pour pas se prendre la tete avec un server sql et faire un truc portable et partageable avec tes amis.

Maintenant si tu as assez de RAM charge tout, surtout si tu as un seul fichier plat et que tu n'a pas besoin d'avoir plusieurs table et de faire des jointures.

---------------
On sait pas trop quoi dire dans des circonstances pareilles...

fusion_sadam

Bébé Yoda a écrit :

Oui s'il veut s'entraîner ça peut être intéressant aussi

Je dirais que c'est encore intéressant, mais c'est de moins en moins utilisé en data science.
L'explosion de la dispo de la ram y est pour beaucoup, sur ma machine perso j'ai 16Go ce qui est déjà suffisant pour 90% des projets, nos serveur atteigne 128/256 ...
et tout tourne sur du SSD et sql ne sert que de stockage multi utilisateur.
Au dessus, c'est les architecture big data qui prennent le relais
Et pour des appli plus industrielles, des ORM comme SQLAlchemy sont de plus en plus utilisé, ça permet d'avoir une abstraction (un mapping object/table) qui est indépendant de la base de donnée.
Ça permet par exemple d'avoir un sqlite en local, un postgres sur le server de dev et un ms-sql en prod chez le client, en ayant le même code.

SQL reste indispensable à connaitre, mais pas au point de maîtriser les requête imbriqué ou récursive avec des clauses dans tout les sens.

Message cité 1 fois

---------------
On sait pas trop quoi dire dans des circonstances pareilles...

o_BlastaaMoof_o

fusion_sadam a écrit :

L'intérêt d'une base de données, c'est :
- de réaliser certaines opérations "in-database", afin d'éviter le transfert de données entre la base et le client ;
- de récupérer seulement une partie de l'information grâce à l'indexation.

Le traitement en mémoire sur le client, c'est bien, mais il faut tout de même charger le jeu de données à un moment donné, ce qui peut effacer tout le gain de performances sur le traitement lui-même.

Message cité 1 fois

TiDom

o_BlastaaMoof_o a écrit :

En lien avec la question de départ et pour compléter :
Si pour réaliser tes tâches d'analyse, tu as besoin de toutes tes données (les 500Mo), il faut aussi penser à la place en mémoire qu'elles vont prendre lorsque tu les aura mises dans des structures de données. Et ça dépend de l'algorithme d'analyse que tu utilises, vu que ça dépend des structures de données utilisées par l'algo. Tu peux essayer de déterminer la complexité en espace de ton algo ... Ou alors plus simple, do it and let's see

zairo

je connais déjà sql

je veux surtout m'entraîner sur l'aspect traitement des données
donc je cherchais juste une solution de stockage qui colle avec la taille de mes données

je vais creuser du côté de panda :jap:

Message édité par zairo le 02-10-2017 à 19:03:13

o_BlastaaMoof_o

Bah sinon MATLAB, un fichier CSV, readtable et zou terminé

Rontgen

Ah voilà, je me demandais quand est-ce que tu allais parler de MATLAB

Publicité

Pina Colada

Matlab j'y suis retourné dernièrement car un papier que je lisais était implémenté en Matlab, mais je me suis rendu compte que ça n'avait plus aucun intérêt aujourd'hui avec python, julia et octave/scilab..
ALors certes la documentation est bien faite mais bon...

o_BlastaaMoof_o

Je sais bien que je suis le seul à défendre cet outil mais, pour faire également un peu de Python par ailleurs, je suis toujours surpris de voir à quel point les gens sont prêts à se faire chier avec des outils pas pratiques

Message cité 2 fois

TiDom

o_BlastaaMoof_o a écrit :

Non tu n'es pas le seul
J'ai utilisé Matlab pendant un bon moment : ça rocks (du poney fringant)
Et puis les guerres d'outils / langages de prog / OS ... c'est vieux comme le monde
Le but c'est quand même d'être efficace quel que soit ton langage de prédilection

Bébé Yoda

o_BlastaaMoof_o a écrit :

J'ai tout appris sur MATLAB puis utilisé pendant longtemps (1998/2013) en gros. C'est un très bon outil, et même si je suis passé à python depuis quelques temps je comprends que c'est quand même moins pratique

zairo

développe ?
"c'est moins pratique" ça veut rien dire

Message cité 1 fois

Bébé Yoda

zairo a écrit :

développe ?
"c'est moins pratique" ça veut rien dire

Disons que l'interface de matlab est vraiment très bonne. Avec python on a bien spyder qui ressemble mais, n'est pas aussi "puissante".
Si tu veux importer un fichier csv avec matlab, tu peux le faire en 2 clicks puis tracer des colonnes très rapidement par exemple. Pour faire la même chose en python, c'est pas plus compliqué mais c'est bien plus long.
Idem pour éditer tes graphes, tu peux tout customiser à la volée en cliquant sur les traces ou les axes.
C'est surtout ce genre de détails qui sont confortables à l'usage.

Message cité 1 fois

Rasthor

Bébé Yoda a écrit :

Disons que l'interface de matlab est vraiment très bonne. Avec python on a bien spyder qui ressemble mais, n'est pas aussi "puissante".
Si tu veux importer un fichier csv avec matlab, tu peux le faire en 2 clicks puis tracer des colonnes très rapidement par exemple. Pour faire la même chose en python, c'est pas plus compliqué mais c'est bien plus long.
Idem pour éditer tes graphes, tu peux tout customiser à la volée en cliquant sur les traces ou les axes.
C'est surtout ce genre de détails qui sont confortables à l'usage.

Avec Pandas ?

Message cité 1 fois

Bébé Yoda

Rasthor a écrit :

Avec Pandas ?

Oui j'utilise plus que ça

deeplearning

oui c'est des métiers "historique" de la data dans lesquels il manque justement les composantes data science / machine learning... t'en feras peut être un peu ou pas du tout, si t'as le choix essaye de trouver quelque chose qui ne laisse aucune ambiguïté sur ce que tu feras

si c'est un stage entre M1 et M2 c'est pas si important, par contre si c'est ton stage de fin d'étude ça aura un impact considérable sur la suite de ta carrière

Message édité par deeplearning le 06-10-2017 à 10:55:12

Profil supprimé

Bonjour, si des personnes sont intéressées par des formations spécialisés dans le machine learning /data science.
La faculté d'Orléans ouvre une " graduate school of data science"
Ce projet regroupe une équipe de recherche mais également une formation diplômante sous la forme d'un DU.
Ce DU peut venir compléter le master économétrie et statistiques appliqués qui possède déjà plusieurs modules en data science
Plus d'infos ici :
http://www.univ-orleans.fr/icon/
http://www.univ-orleans.fr/deg/masters/ESA/

Profil supprimé

lefilpourpre a écrit :

Des anciens du master esa ? Pr savoir le niveau des débouchés (agences régionales / nationales / internationales ?) Kthxbye

En quoi consistait ce master ESA?

Message cité 1 fois

Profil supprimé

Le master ESA c'est la formation économétrie et statistiques appliqués dont je parle dans le précédent message ahah.
Une solide formation en stats et en économétrie.
Si tu veux plus d'infos ya la plaquette des cours sur ce site
http://www.univ-orleans.fr/deg/masters/ESA/

Message cité 1 fois

Rontgen

Il faut être plus précis si tu veux qu'on t'aide
À quoi ressemble la courbe de ton erreur d'apprentissage en fonction des itérations ?

Message cité 1 fois

rogermajax

Quelle méthode pour entraîner ton réseau ? Si ta méthode a des hyper paramètres, tu as essayé différents réglages?

Bébé Yoda

Ça vient pas de l'initialisation des coefs?
Le fait que ça marche aléatoirement ?

Message cité 1 fois

Rontgen

Bébé Yoda a écrit :

Ça vient pas de l'initialisation des coefs?
Le fait que ça marche aléatoirement ?

C'est fort possible oui

Par contre si ton erreur c'est celle sur l'ensemble d'apprentissage, c'est pas normal qu'elle remonte dans la figure 3, le gradient doit avoir un problème
Elle peut être bruitée si c'est un gradient stochastique mais elle ne devrait pas avoir de tendance à la hausse

Rontgen

- Attention à l'initialisation des poids, l'écart-type de la loi normale peut jouer un role important (il y a des heuristiques pour le choisir, par exemple http://philipperemy.github.io/xavier-initialization/ )
- Je te conseille de fixer la seed de ton generateur aleatoire quand tu debug, au moins tes resultats seront reproductibles
- A priori, je dirais le problème n'a pas l'air relié à la condition d'arrêt
Peut-être que ton pas d'apprentissage est trop grand par contre

Rontgen

Ca ne changerait rien si le problème était convexe (une belle courbe lisse avec un seul minimum), mais la fonction que tu minimises ne l'est pas du tout
Une descente de gradient, si elle est bien réglée, te fait converger vers un minimum local (le minimum local le plus proche); changer d'init peut donc changer le minimum local le plus proche

Bébé Yoda

Les coefs doivent être aléatoires mais aussi à la bonne échelle, sinon tu peux avoir des problèmes de convergence.
Tu peux essayer de les réduire ou les augmenter (0.001, 0.01) pour voir si ça change quelque chose.

C'est dommage je connais pas du tout R sinon j'aurais bien jeté un coup d'œil au code.

Message édité par Bébé Yoda le 16-10-2017 à 09:27:44

Rontgen

Tu as plein de ressources en ligne sur ca, je t'en ai donné une deja dans mon message précédent
Tu peux aussi lire ca:
https://stats.stackexchange.com/que [...] al-network

Bébé Yoda

Pour un exercice de classification tout simple, j'ai fait comme ça :

Code :

def initialize_parameters(n_x, n_h, n_y):
"""
Argument:
n_x -- size of the input layer
n_h -- size of the hidden layer
n_y -- size of the output layer
Returns:
parameters -- python dictionary containing your parameters:
W1 -- weight matrix of shape (n_h, n_x)
b1 -- bias vector of shape (n_h, 1)
W2 -- weight matrix of shape (n_y, n_h)
b2 -- bias vector of shape (n_y, 1)
"""
W1 = np.random.randn(n_h,n_x)*0.01
b1 = np.zeros((n_h,1))
W2 = np.random.randn(n_y,n_h)*0.01
b2 = np.zeros((n_y,1))
assert(W1.shape == (n_h, n_x))
assert(b1.shape == (n_h, 1))
assert(W2.shape == (n_y, n_h))
assert(b2.shape == (n_y, 1))
parameters = {"W1": W1,
"b1": b1,
"W2": W2,
"b2": b2}
return parameters

Ca fonctionnait bien.

Input layer/ 1 hidden layer / output layer.

W c'est les poids pour tes coefficients, b c'est tes bias vectors qui peuvent être nuls dans ce cas là.

Avec plus de couches, j'ai fait ça (désolé c'est du python)

Code :

def initialize_parameters_deep(layer_dims):
"""
Arguments:
layer_dims -- python array (list) containing the dimensions of each layer in our network
Returns:
parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
Wl -- weight matrix of shape (layer_dims[l], layer_dims[l-1])
bl -- bias vector of shape (layer_dims[l], 1)
"""
np.random.seed(3)
parameters = {}
L = len(layer_dims) # number of layers in the network
for l in range(1, L):
parameters['W' + str(l)] = np.random.randn(layer_dims[l],layer_dims[l-1])*0.01
parameters['b' + str(l)] = np.zeros((layer_dims[l],1))
assert(parameters['W' + str(l)].shape == (layer_dims[l], layer_dims[l-1]))
assert(parameters['b' + str(l)].shape == (layer_dims[l], 1))
return parameters

Message édité par Bébé Yoda le 16-10-2017 à 10:05:53

Nufeu

Salut les gars, j'essaye de coder l'algorithme Stochastic variance reduced gradient sur python, et je n'y arrive, il ne converge pas du tout ...

Code :

w = w0.copy()
w_old = w.copy()
n_samples = model.n_samples
v= w.copy()
callback(w)
for idx in range(n_iter):
w = w0.copy()
z=model.grad(w_old)
v= w.copy()
for t in range(n_samples -1):
i=idx_samples[idx]
w = w -step*(model.grad_i(i,w)-model.grad_i(i,w_old)+z)
v=w+v
w_old = (1/(n_samples))*v
if idx % n_samples == 0:
callback(w)
return w

En fait il existe un moyen de coder ça avec une seule boucle, mais je suis incapable de voir comment ...

Rontgen

Le code a pas l'air faux, par rapport a la slide; mais leur ligne avec le premier bullet point m'étonne, j'aurais plutot vu un truc genre
w_0^k <- \tilde{w}_k [:transparency]
(je connaissais pas cet algo, c'est juste que ca me parait bizarre de recommencer de w_1 à chaque fois)

Sinon, est-ce que tu as essayé de diminuer fortement la variable step ?

Message édité par Rontgen le 16-10-2017 à 14:21:02

Publicité

Page : 1 2 3 4 5 .. 16 17 18 .. 132 133 134 135 136 137

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.083 secondes