[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 95 96 97 .. 128 129 130 131 132 133 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Rasthor

Reprise du message précédent :

Oui, ce n'est pas forcement ML, mais data au sens large.

Publicité

o_BlastaaMoof_o

joe bonanno

Bananas

En effet beaucoup d'acteurs sont attirés par la hype et les mouvements de capitaux vers le ML/DS sans vraiment y toucher - rien de nouveau

saphir59

Hello,
Voila je me presente je suis business analyst dans la finance depuis 10 ans.
Actuellement au chômage (merci le confinement) j'envisage d ème réorienter vers le métier de datasicentist via une formation en ligne d'une dizaine de semaines. J'ai une licence de math à la base et un master en économétrie.
Pensez vous que via de tel formation, je puisse facilement m'insérer dans ce domaine ?
Je vous cache pas que c'est aussi parce que c'est un domaine qui recrute pas mal apparemment , je ne suis pas un passione du big data mais disons que c'est un domaine qui peut m'intéresser.

Message cité 3 fois

saphir59

Il y a pas mal de postes en BA dans ce domaine ?

neo world

saphir59 a écrit :

C'est plutôt une bonne idée : ça recrute bien et autant des têtes bien faites (payés au lance pierre n'est ce pas ) que des profils expérimentés ou des reconversions (je trouve la tienne intéressante).

Avant ta formation commence les cours (avec exercices à la fin) sur kaggle pour te faire une première idée de ton appétence pour la fonction. En fonction des salaires auxquels tu veux prétendre il faudra probablement te mettre sur des concours (kaggle toujours) et te construire un petit github qui montre comment tu travailles.

Intéresse toi fort à Python, les structures de données, le ML, le (no)SQL, les API REST, GIT, Spark et les tests unitaires / tests d'intégration. Ça va être intense si tu étais bien payé à ton précédent boulot et que tu veux retrouver un salaire similaire mais si tu apprends bien et que tu es soigneux franchement ça devrait rouler :jap:

Filob

saphir59 a écrit :

Vise plutôt data analyst orienté métier, tu seras + crédible a mon avis.

Message cité 1 fois

---------------
Ma capacité de concentration est si courte que... Oh, regarde, un pigeon!

saphir59

Filob a écrit :

Vise plutôt data analyst orienté métier, tu seras + crédible a mon avis.

Il y a des formations particulierement adapté pour cela ?

Message cité 1 fois

giorno_gio75

saphir59 a écrit :

J'ai eu plusieurs profils dans mes collègues (avec plutot 6-7 ans d'exp) et ils ont jamais eu trop de soucis donc go mec

Filob

saphir59 a écrit :

Il y a des formations particulierement adapté pour cela ?

Les mêmes trucs en ligne il le semble genre data quest et compagnie.
Après à toi de vu ce qui peut te convenir :jap:

---------------
Ma capacité de concentration est si courte que... Oh, regarde, un pigeon!

Publicité

Rasthor

I violated a code of conduct
https://www.fast.ai/2020/10/28/code-of-conduct/

Citation :

Summary: NumFOCUS found I violated their Code of Conduct (CoC) at JupyterCon because my talk was not “kind”, because I said Joel Grus was “wrong” regarding his opinion that Jupyter Notebook is not a good software development environment. Joel (who I greatly respect, and consider an asset to the data science community) was not involved in NumFOCUS’s action, was not told about it, and did not support it. NumFOCUS did not follow their own enforcement procedure and violated their own CoC, left me hanging for over a week not even knowing what I was accused of, and did not give me an opportunity to provide input before concluding their investigation. I repeatedly told their committee that my emotional resilience was low at the moment due to medical issues, which they laughed about and ignored, as I tried (unsuccessfully) to hold back tears. The process has left me shattered, and I won’t be able to accept any speaking requests for the foreseeable future. I support the thoughtful enforcement of Code of Conducts to address sexist, racist, and harassing behavior, but that is not what happened in this case.

Curieux de lire la réponse de NumFOCUS. [:hugeq:1]

o_BlastaaMoof_o

C'est clair... Le type pond un blog post de 15 pages pour chouiner. Tout ça pour défendre les Jupyter notebooks en plus. C'est un peu comme si le type se plaignait de s'être pris un tir de LBD après une manif de soutien à Michel Fourniret.

-Meringue-

J’aime bien Jeremy Howard, mais sérieux...
Il y a vraiment des gens, à part lui, qui utilisent Jupyter pour du dev un tant soit peu sérieux? :whistle:

Message cité 2 fois

flyingchair

Du coup NC tu pars quand ? Comment ça se passe avec le reconfinement ? La France veut savoir.

Message cité 1 fois

neo world

-Meringue- a écrit :

J’aime bien Jeremy Howard, mais sérieux...
Il y a vraiment des gens, à part lui, qui utilisent Jupyter pour du dev un tant soit peu sérieux? :whistle:

C'est un gros classique maintenant pourtant.

Le problème n'étant pas de faire "un dev sérieux" mais "trop de datas pour faire un extrait qui peut tourner sur des postes individuels et trop d'emmerdes à filer et gérer des accès VNC / RDP pour toute l'équipe pour que les devs collaborent"

On en est pas au confort de VS code , Pycharm and consort mais ça reste plutôt très efficace ...

Après si le dataset fait 50Go tout mouillé et que l'équipe datascience c'est deux pequins ou que les ops ont le temps de fournir les meilleurs services et ont les droits qui vont bien effectivement ça se discute :jap:

Message cité 1 fois

-Meringue-

neo world a écrit :

C'est un gros classique maintenant pourtant.

Le problème n'étant pas de faire "un dev sérieux" mais "trop de datas pour faire un extrait qui peut tourner sur des postes individuels et trop d'emmerdes à filer et gérer des accès VNC / RDP pour toute l'équipe pour que les devs collaborent"

On en est pas au confort de VS code , Pycharm and consort mais ça reste plutôt très efficace ...

Après si le dataset fait 50Go tout mouillé et que l'équipe datascience c'est deux pequins ou que les ops ont le temps de fournir les meilleurs services et ont les droits qui vont bien effectivement ça se discute :jap:

Je conçois le truc pour faire de l’EDA, prototyper un peu, mais pour les modules? Pour packager le code?

Il y a probablement quelque chose qui m’échappe, je n’ai jamais passé beaucoup de temps dessus. Toujours eu l’impression que c’était pratique pour démarrer sur un sujet, analyser, lancer rapidement un peu de code ou même illustrer des notions dans le cadre de cours ou partager une analyse (markdown et les plots intégrés c’est col pour ça). Après, pour partager le code, le rendre réutilisable, l’organiser, etc... Jamais compris le truc :pt1cable:

giorno_gio75

Le notebook pour moi c'est devenu un outil de restitution.

Aujourd'hui je scripte généralement dans VS et à la fin je vais tout mettre dans un notebook, notamment pour les commentaires où c'est plus lisible que d'avoir des #ce bout de code fait blablabla.

flyingchair

C’est du agile : la code avant la documentation, principe de parcimonie en utilisant du code facile.... [:el_risitos]

Ouais mais eux ils ont peut-être pas foiré leur DS en 2012 [:homer_simpson]

Kayou

Petite question algo

J'ai un grand nombre de données que je voudrais classifier.
Le point discriminant c'est savoir s'ils sont fraudeurs ou pas, c'est l'information centrale.

A partir de la, et notamment s'ils sont fraudeurs, je voudrais faire des ensembles de personnes fraudeuses pour avoir des groupes types représentatifs de ces personnes avec un nombre de critères assez importants.
Quel type d'algo serait le plus à même de répondre à mon besoin ? (K means ?)

:jap:

Message cité 2 fois

draculax

As tu déjà l'information pour chaque personne si elle est fraudeuse ou non ?

Ca sera un élément clé pour répondre à ton besoin.

Message cité 1 fois

draculax

Moi aussi j'ai une question pour les génies du ML

J'ai une time série de points x_i

je veux prédire certains évènements caractéristique [imaginons les moments où x_i devient 0]

A partir d'une time window [15 points par exemple], je peux calculer des features [prenons la FFT et l'amplitude de f = 1Hz] et je veux savoir si je peux en prédire que x_16 = 0

Pour déterminer si cette feature permet d'entrainer un classifier pour prédire mon événement, vous découperiez simplement le signal en n sample que vous traiteriez comme des data points lambda ?

Mon problème c'est de choisir une bonne découpe, je peux facilement avoir accès aux time windows qui précèdent un événement, mais je vois mal comment choisir le reste du train set.

Message cité 4 fois

Kayou

draculax a écrit :

As tu déjà l'information pour chaque personne si elle est fraudeuse ou non ?

Ca sera un élément clé pour répondre à ton besoin.

Ouep j'ai l'info

Message cité 1 fois

flyingchair

draculax a écrit :

Je ferais une fonction de réécriture des données qui prend ta Time série en entrée et sort un .csv avec sur chaque ligne xn+1 ... xn+15 y=xn+16, en faisant glisser ta fenêtre de 1 pas de temps à chaque fois. Au moins t’as une truc propre pour travailler et t’as un gros train et test set.

Et bien sûr k=15 tu fous ça en paramètre réglable pour faire des tests.

Message cité 1 fois

flyingchair

Kayou a écrit :

Pour découper en groupe il va falloir utiliser des algos de clustering. Tu as plusieurs approches : hiérarchique en arbres, avec des noeuds... :
https://larevueia.fr/clustering-les [...] connaitre/

Message cité 1 fois

-Meringue-

N’abuse pas.
On ajoute ça dans une grosse boucle for, et on va à la machine à café en attendant.

flyingchair

Soyons vraiment honnêtes : y’a un mec qui a fait ce script, et tous les autres l’ont récupéré pour être les premiers au café.

Message cité 1 fois

Tidom

flyingchair a écrit :

Soyons vraiment honnêtes : y’a un mec qui a fait ce script, et tous les autres l’ont récupéré pour être les premiers au café.

Soyons vraiment honnêtes: stackoverflow est connecté à la machine à café

Message cité 2 fois

neo world

draculax a écrit :

Moi aussi j'ai une question pour les génies du ML

J'ai une time série de points x_i

je veux prédire certains évènements caractéristique [imaginons les moments où x_i devient 0]

A partir d'une time window [15 points par exemple], je peux calculer des features [prenons la FFT et l'amplitude de f = 1Hz] et je veux savoir si je peux en prédire que x_16 = 0

Pour déterminer si cette feature permet d'entrainer un classifier pour prédire mon événement, vous découperiez simplement le signal en n sample que vous traiteriez comme des data points lambda ?

Mon problème c'est de choisir une bonne découpe, je peux facilement avoir accès aux time windows qui précèdent un événement, mais je vois mal comment choisir le reste du train set.

Tu as un pattern visuellement qui semble précéder ton événement ? Si non j'aurais tendance à bourriner en découpant les samples en tailles différentes et voir ce que ça donne à l'entraînement et valider au test. De notre côté on est en train d'analyser des ECG et on a passé pas mal de temps à observer ce qui précède notre événement pour tenter de différencier de l'activité normale vs ce qui précède notre événement

Message cité 1 fois

flyingchair

Tidom a écrit :

Soyons vraiment honnêtes: stackoverflow est connecté à la machine à café

neo world

Tidom a écrit :

Soyons vraiment honnêtes: stackoverflow est connecté à la machine à café

Avec le télétravail on est pas dans la merde

draculax

Kayou a écrit :

Ouep j'ai l'info

Dans ce que tu décris je vois 2 trucs différents :

garder que les fraudeurs et faire de la classification non-supervisée dessus => tu cherches à voir s'il existe différents profils de fraudeurs et en fonction de la technique t'auras les profils moyens de chaque catégorie (centroïd de chaque cluster en k-mean)

regarder les stats des features entre ensemble global / ensemble fraudeur pour voir s'il y a des différences significatives pour caractériser les fraudeurs.

flyingchair a écrit :

Yep j'ai pensé à faire ça mais avant de l'appliquer je me demande quoi en faire.
Parce que j'aurai clairement pas un dataTest équilibré et que j'vois pas trop quel segment j'devrais garder / virer
Ca peut paraitre con mais vaut mieux bootstrap mes segments positifs et garder un max de segments normaux
ou virer 80% des segments normaux pour arriver à 50/50 dans le test.

neo world a écrit :

Tu as un pattern visuellement qui semble précéder ton événement ? Si non j'aurais tendance à bourriner en découpant les samples en tailles différentes et voir ce que ça donne à l'entraînement et valider au test. De notre côté on est en train d'analyser des ECG et on a passé pas mal de temps à observer ce qui précède notre événement pour tenter de différencier de l'activité normale vs ce qui précède notre événement

Si y'a ça j'vais pas devenir millardaire mon jeune [:jesusoro:10]

J'suis sur du signal encore plus atroce que de l'ECG, c'est inbitable à l'oeil nu.

Message cité 2 fois

flyingchair

draculax a écrit :

Je dirais que soit ton « y » de sortie tu le considères continu et tu gardes tous les segments créés, soit tu le considères comme un problème de classification « événement ou pas » et tu équilibres. Et le mieux c’est probablement de tester les 2 approches.

draculax a écrit :

Si y'a ça j'vais pas devenir millardaire mon jeune [:jesusoro:10]

J'suis sur du signal encore plus atroce que de l'ECG, c'est inbitable à l'oeil nu.

Si ça marche je prend 10%. Cimer [:jose mourinho:4]

Rontgen

draculax a écrit :

Moi aussi j'ai une question pour les génies du ML

J'ai une time série de points x_i

je veux prédire certains évènements caractéristique [imaginons les moments où x_i devient 0]

A partir d'une time window [15 points par exemple], je peux calculer des features [prenons la FFT et l'amplitude de f = 1Hz] et je veux savoir si je peux en prédire que x_16 = 0

Pour déterminer si cette feature permet d'entrainer un classifier pour prédire mon événement, vous découperiez simplement le signal en n sample que vous traiteriez comme des data points lambda ?

Mon problème c'est de choisir une bonne découpe, je peux facilement avoir accès aux time windows qui précèdent un événement, mais je vois mal comment choisir le reste du train set.

Tu peux aussi choisir l'approche de faire du many-to-many, c'est a dire prendre l'ensemble du signal en entrée et prédire la série entière des classifications en sortie (une série de 0/1). Certes il y aura beaucoup de 0 donc il faut faire attention avec la loss
Par exemple si tu utilises un réseau de neurones convolutionnel, tu peux utiliser un réseau fully convolutional (sans pooling, ou alors avec du unpooling, comme un U-Net par exemple)

Kayou

flyingchair a écrit :

Pour découper en groupe il va falloir utiliser des algos de clustering. Tu as plusieurs approches : hiérarchique en arbres, avec des noeuds... :
https://larevueia.fr/clustering-les [...] connaitre/

draculax a écrit :

Dans ce que tu décris je vois 2 trucs différents :

garder que les fraudeurs et faire de la classification non-supervisée dessus => tu cherches à voir s'il existe différents profils de fraudeurs et en fonction de la technique t'auras les profils moyens de chaque catégorie (centroïd de chaque cluster en k-mean)

regarder les stats des features entre ensemble global / ensemble fraudeur pour voir s'il y a des différences significatives pour caractériser les fraudeurs.

Merci à vous, ça va dans le sens que je voyais :jap:

Message édité par Kayou le 07-11-2020 à 23:40:04

Publicité

Page : 1 2 3 4 5 .. 95 96 97 .. 128 129 130 131 132 133

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.104 secondes