[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 26 27 28 .. 133 134 135 136 137 138 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Rontgen

Reprise du message précédent :
Tu es dans le cas d'une régression, mais pas forcément linéaire, c'est toi qui décide du modèle
Mais bon, effectivement avec seulement 10 échantillons, c'est probablement le meilleur choix

Ce que tu proposes a du sens mais est un peu manuel alors que tu peux directement estimer ce genre de choses lors du fitting du modèle

Si tu entraines un modèle linéaire avec des variables non corrélées avec ta valeur cible, normalement elles auront naturellement un coefficient nul (enfin peut être pas avec 10 échantillons)
Tu peux régulariser aussi explicitement en pénalisant la norme L2 des coeffs, ça s'appelle la ridge regression
Tu peux aussi pénaliser une norme plus robuste que la L2 (cherche Lasso regression), qui va avoir tendance à annuler les petits coeffs (donc à éliminer completement les variables pas très importantes)

Ah oui et sinon, 10k mesures par échantillon c'est beaucoup
Tu peux aussi peut être utiliser une technique de réduction de dimensions genre PCA pour visualiser tes 10 échantillons dans une base adaptée

Je ne sais pas quel langage tu utilises mais toutes ces méthodes sont en général disponibles facilement

Message édité par Rontgen le 24-01-2018 à 19:10:38

Rasthor

Merci! Je suis en python (donc scikit-learn. ).

Profil supprimé

10k variables pour 10 échantillons peut importe la méthode ou modèle je ne vois pas comment tu peux obtenir un résultat intéressant et valide d'un point de vue statistique

Rontgen

Bah il se peut tout à fait que des variables correlent fortement avec la valeur cible
Mais c'est vrai que vu la taille de l'échantillon, la confiance en ce modèle sera probablement assez limitée

Faudra l'évaluer avec un leave one out sur les 10 échantillons pour voir si d'une part le modèle stable et d'autre part vérifier que ça overfit pas

Darmstadtium

Pipoteur grotesque

Ça peut suffire si les données sont par nature de rang très faible (idéalement au plus 10 pour que le système soit au pire sur-déterminé) et qu'une bonne technique de réduction de dimensionalité est appliquée. Il peut aussi faire de la sélection de features mais avec 10 points ça sera pas fameux je pense.

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

blacksad

Rontgen a écrit :

Perso je suis plutot d'accord avec la solution B
Si tu utilises la solution A, tu auras deux valeurs différentes pour 11:00, ca peut introduire des confusions

Mais bon, c'est juste une convention donc c'est pas tres important

Vu que j'ai plus d'une valeur par seconde, j'aurais aussi deux valeurs différentes pour 11h30 si je prends la B. Ou alors j'ai pas compris ce que tu as dit [:aelenia]
Et la convention ce n'est pas très important, sauf si tu es le seul à ne pas utiliser la même que les autres Parce que si je dois dans le futur croiser mes données avec d'autres sources qui utilisent une autre convention, va falloir que je fasse un convertisseur... C'est pas la mort mais bon...

Rontgen

blacksad a écrit :

Ah oui, tu as raison [:ddr555]
Bah disons que c'est plus satisfaisant d'avoir une valeur centrée plutot que décalée
Par contre si ca va a l'encontre des autres conventions, je suis d'accord qu'il vaut mieux plutot suivre la majorité :jap:

o_BlastaaMoof_o

Plix a écrit :

Affreux ce code d'"anonymisation" :sweat: :sweat:

Il faudrait qu'il passe un peu de temps à parcourir l'api de pandas et numpy pour progresser...

Par curiosité c'est quel type de profil ?

Ecole d'ingénieur groupe B/C... en informatique :lol:

TiDom

Pour ceux que ça intéresse : https://www.lip6.fr/colloquium/
"Une approche géométrique de l’apprentissage non supervisé", une conférence "world-class" de Léon Bottou au LIP6 à Jussieu ... pour les Parisiens donc

Message édité par TiDom le 31-01-2018 à 13:27:35

Bébé Yoda

Hello, j'ai trouvé un poste de Data analyst (plutôt que scientist en fait, c'est plutôt bien pour moi vu qu'il me manque quelques compétences assez poussées en math/stat/algos.
On bosse avec un labo de recherche qui fait la partie vraiment"fondamentale" du travail et on se concentre sur l'utilisation et l'analyse.
Ça parle de maintenance prédictive, c'est exactement ce que je voulais faire je suis hyper content
On a du Spark pour regarder des Times séries et on anticipe la maintenance.
Youpi [:sebxoii]

J'ai plus qu'à passer la période d'essai maintenant [:kabouk:3]

TiDom

Bébé Yoda a écrit :

Bravo [:elwe calafalas]
La maintenance prédictive c'est "trendy" : https://fr.linkedin.com/pulse/la-ma [...] us-thierry

Et courage

Bébé Yoda

Woot je vais finir peut-être par avoir un vrai salaire HFR compliant [:sebxoii]

C'est un domaine qui m'intéresse parce que j'ai beaucoup bossé dans l'industrie (la bonne vieille qui tâche, avec des usines vieilles de 100 ans) et j'avais vu pas mal d'axes d'amélioration

Jadha

Next one's coming faster

Bébé Yoda a écrit :

Félicitations !

Je suis intriguée de savoir quelles sont les compétences que tu estimes avoir besoin d'approfondir avant de devenir Data Scientist.

Bébé Yoda

Je dirais que pour être un vrai data scientist faudrait que je comprennes plus en profondeur les algorithmes de machine/deep learning pour être capable d'en faire moi même, par exemple.
Là on est surtout utilisateurs des outils et on fait plus de développement pour la mise en production, enfin dans leur définition de analyst/scientist

Jadha

Next one's coming faster

Bébé Yoda a écrit :

Je vois. Merci de ta réponse.
Au final dans ce cas, cela veut dire que c'est presque indispensable de faire un master, non ?
Toutes les formations d'entreprises que j'ai vues restent vraiment en surface sur ce sujet.

Bébé Yoda

Difficile de répondre, ça dépend de ton parcours et de ton expérience. En auto formation j'ai réussi à apprendre suffisamment, mais j'ai un doctorat en physique comme background ça aide (même si je suis une pipe en stats et probas ), j'aurais pu faire un truc plus "scientist" je pense, en complétant sur le tas.

Après, analyst ça me va mieux. J'ai fait 15 ans de R&D, donc être sur des sujets plus pratiques, aller voir les clients, etc ça me convient plus pour changer

Profil supprimé

Félicitation zuf !

Jadha

Next one's coming faster

Tiens, j'en profite pour partager mon cours préféré sur le machine learning : Learning from Data par Y. Abu Mostafa https://www.youtube.com/playlist?li [...] 4B7615313A.

Il y a une bonne partie de théorie, et je le trouve d'une pédagogie exceptionnel. Contrairement aux MOOCs traditionnels, les cours sont directement ceux de Caltech et durent plus d'une heure chacun.

Message édité par Jadha le 31-01-2018 à 17:14:26

blacksad

Z'avez vu ?
Ya une chaire "Sciences des données" au collège de France : Leçon inaugurale - Stéphane Mallat
Et la suite des cours : https://www.college-de-france.fr/si [...] 7-2018.htm
J'ai pas regardé ; c'est sans doute un peu moins concret et appliqué que les MOOC.

Rontgen

Mallat [:cerveau love]
Un des meilleurs profs que j'ai eus pendant ma scolarité, même si effectivement c'est probablement plutot du coté théorique :jap:

nesquik69

Petit question au topic:

en terme de package/conditions de travail/evolution, il y en t'il une vraie différence entre un "data scientist"( Machine learning , stats , etc etc...) et un " data engineer"( travail avec de grand volume de données, Spark Hadoop etc etc ...) ?

tout ca dans le domaine bancaire/assurance, et pour un JD....

merci :bounce:

Message édité par nesquik69 le 05-02-2018 à 17:14:01

o_BlastaaMoof_o

Oui.

Rontgen

Dans quel sens ?

Profil supprimé

Dans le sens, qui fait le plus de fric (je suppose).

o_BlastaaMoof_o

Data scientist > Data engineer en termes de rémunération, clairement.

Profil supprimé

Exact, l'ingénieur n'étant qu'un technicien ++, le véritable ouvrier du 21ème siècle. Bedonnant, une calvitie plus ou moins prononcée, une très faible réussite avec les femmes. Bref, tout en bas de l'échelle sociale. [:kolombin:4]

En revanche, le data scientist [:vouslsavezbfm:5]

o_BlastaaMoof_o

C'est surtout que le data scientist est plus visible.

Toutes les boîtes pensent avoir besoin de data scientists, très peu ont conscience d'avoir besoin de data engineers.

Arnoldoo

o_BlastaaMoof_o a écrit :

C'est surtout que le data scientist est plus visible.

Toutes les boîtes pensent avoir besoin de data scientists, très peu ont conscience d'avoir besoin de data engineers.

+10

ndingaman

Joga Bonito!

drapal
en mode discovery

Profil supprimé

o_BlastaaMoof_o a écrit :

C'est surtout que le data scientist est plus visible.

Toutes les boîtes pensent avoir besoin de data scientists, très peu ont conscience d'avoir besoin de data engineers.

Yes perso un dat engineer experimenté et bon, qui n'est pas juste un data scientist wanabe, je pourrais payer très cher. De bon data scientist c'est bien plus facile a trouver.

ShoTo

... fuck ... mother fucker ...

J'étais vendredi à une présentation (informelle) d'un master de physique à Jussieu et le prof parlait ouvertement du big data comme débouché possible pour les diplomés. Il disait que les physiciens étaient recherchés car aguéris à l'analyse de données (j'ai direct pensé à zuf) mais que l'aspect physique était aussi utile mais je n'ai pas bien compris pourquoi

---------------
The king stays the king. D'Angelo Barksdale

Profil supprimé

Ca va faire un mois que j'essaie de me faire une config pour jouer avec du DL/Kaggle la maison... les prix des GPUs sont complètement délirants. Je n'ai qu'une hâte, que le prix des cryptocurrencies tombe à 0 pour:
a) mettre fin au gaspillage énergétique de cette connerie que sont les XXX cryptos sur le marché. Que des pigeons se fassent plumer honnêtement ca m'en touche une sans bouger l'autre mais que ca impacte l'environnementsans rien produire de valeur ca me révolte.
b) mettre fin à cette inflation sur le prix des GPU type 1070/1080...

Vaiment frustrant, pas vraiment envie de claquer 1000 balles dans un GPU

Message édité par Profil supprimé le 11-02-2018 à 12:47:45

-Meringue-

Messieurs [:cetrio:1]

Pour mon stage de fin d’études commençant dans un mois, je vais principalement bosser sur du NLP. Je suis donc à la recherche de papiers ou références littéraires sur le sujet afin de mieux appréhender la mission. Si vous avez ça sous le coude, je suis grandement preneur.

Profil supprimé

ShoTo a écrit :

La physique c'est maintenant beaucoup de calcul numérique et de simulation qui sont très proches niveau méthodes et language du machine learning.
De plus y'a un côté ''bidouille de potard'' dans le ml qui est très "physique". Par contre les physiciens codent mal

On vient de s'acheter une deuxième machine avec 4 titan Xp, je t'enverrai des photos

rogermajax

Pour les "académiques", NVIDIA peut vous envoyer une Xp gratuitement.

A vue de nez, c'est pas très sélectif, ils m'en ont envoyé une alors que je fais de la recherche très appliquée utilisant du ML.

https://developer.nvidia.com/academic_gpu_seeding

Message édité par rogermajax le 11-02-2018 à 13:58:27

Profil supprimé

Ça va on est équipé au boulot, c'est pour la maison!
A moins que "on" ne soient toi et ta moitié, auquel cas respect! [:tiwow:2]

Message édité par Profil supprimé le 11-02-2018 à 22:15:15

wadle

Bonjour à tous,

(1er post sur le thread data :jap: )

Je cherche à comprendre les différences entre Criteo et Rakuten Marketing (anciennement Nextperf) à Paris concernant des postes de Data Scientist / Data Analyst.

Je me doute que Criteo est bien plus gros. Mais laquelle des 2 boites a la plus forte croissance? Les ambiances et les rems sont-elles différentes?

Si certains ont des insights cela m'aiderait beaucoup.

See you
:hello:

Message édité par wadle le 14-02-2018 à 16:01:56

Profil supprimé

Salut tout le monde ! :hello:

C'est officiel, je suis premier de ma promo en overall et en sciences, je serai donc (sauf catastrophe ) dans le master Data de l'X... ce qui implique de futures grosses PLS en maths

Quelqu'un aurait une ref de bouquin en algèbre ? J'aimerai bien un livre qui expose tous les fondamentaux pour les data sciences, avec beaucoup d'exos corrigés et pas trop trop théorique (l'objectif étant d'avoir des bases solides...) :jap:

(Ou bien un site web... )

Merci ! :jap:

Message édité par Profil supprimé le 15-02-2018 à 13:23:42

Plix

Féloches :jap:

En réponse à ta question: Matrix Algebra: Theory, Computations and Applications in Statistics, Springer

Message édité par Plix le 15-02-2018 à 11:24:14

Bébé Yoda

GG t'as l'air d'avoir bien bossé pour gagner ta place !

Profil supprimé

Merci à vous deux :jap:

Je regarde ton livre, il a l'air très complet mais les exos sont pas corrigés, c'est dommage...

Page : 1 2 3 4 5 .. 26 27 28 .. 133 134 135 136 137 138

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
[Topic unique] Veille IA - Actu, lectures, podcasts & documentaires	[Topic Unique] Claude by Anthropic
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.060 secondes