Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2195 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  95  96  97  ..  128  129  130  131  132  133
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5142870
Rasthor
Posté le 09-10-2020 à 14:03:23  profilanswer
 

Reprise du message précédent :
 
Oui, ce n'est pas forcement ML, mais data au sens large.

mood
Publicité
Posté le 09-10-2020 à 14:03:23  profilanswer
 

n°5142871
o_BlastaaM​oof_o
Posté le 09-10-2020 à 14:06:51  profilanswer
 


https://media1.tenor.com/images/dc1bda75b7351770a0c524b1ab3a6359/tenor.gif?itemid=16616295

n°5142873
joe bonann​o
Bananas
Posté le 09-10-2020 à 14:13:22  profilanswer
 


 
En effet beaucoup d'acteurs sont attirés par la hype et les mouvements de capitaux vers le ML/DS sans vraiment y toucher - rien de nouveau

n°5143122
saphir59
Posté le 14-10-2020 à 11:35:06  profilanswer
 

Hello,
Voila je me presente je suis business analyst dans la finance depuis 10 ans.  
Actuellement au chômage (merci le confinement) j'envisage d ème réorienter vers le métier de datasicentist via une formation en ligne d'une dizaine de semaines. J'ai une licence de math à la base et un master en économétrie.
Pensez vous que via de tel formation, je puisse facilement m'insérer dans ce domaine ?
Je vous cache pas que c'est aussi parce que c'est un domaine qui recrute pas mal apparemment , je ne suis pas un passione du big data mais disons que c'est un domaine qui peut m'intéresser.

n°5143128
saphir59
Posté le 14-10-2020 à 14:01:46  profilanswer
 


 
 
Il y a pas mal de postes en BA dans ce domaine ?

n°5143139
neo world
Posté le 14-10-2020 à 15:17:07  profilanswer
 

saphir59 a écrit :

Hello,
Voila je me presente je suis business analyst dans la finance depuis 10 ans.
Actuellement au chômage (merci le confinement) j'envisage d ème réorienter vers le métier de datasicentist via une formation en ligne d'une dizaine de semaines. J'ai une licence de math à la base et un master en économétrie.
Pensez vous que via de tel formation, je puisse facilement m'insérer dans ce domaine ?
Je vous cache pas que c'est aussi parce que c'est un domaine qui recrute pas mal apparemment , je ne suis pas un passione du big data mais disons que c'est un domaine qui peut m'intéresser.


C'est plutôt une bonne idée : ça recrute bien et autant des têtes bien faites (payés au lance pierre n'est ce pas :o ) que des profils expérimentés ou des reconversions (je trouve la tienne intéressante).

 

Avant ta formation commence les cours (avec exercices à la fin) sur kaggle pour te faire une première idée de ton appétence pour la fonction. En fonction des salaires auxquels tu veux prétendre il faudra probablement te mettre sur des concours (kaggle toujours) et te construire un petit github qui montre comment tu travailles.

 

Intéresse toi fort à Python, les structures de données, le ML, le (no)SQL, les API REST, GIT, Spark et les tests unitaires / tests d'intégration. Ça va être intense si tu étais bien payé à ton précédent boulot et que tu veux retrouver un salaire similaire mais si tu apprends bien et que tu es soigneux franchement ça devrait rouler :jap:

n°5143148
Filob
Posté le 14-10-2020 à 19:32:01  profilanswer
 

saphir59 a écrit :

Hello,
Voila je me presente je suis business analyst dans la finance depuis 10 ans.  
Actuellement au chômage (merci le confinement) j'envisage d ème réorienter vers le métier de datasicentist via une formation en ligne d'une dizaine de semaines. J'ai une licence de math à la base et un master en économétrie.
Pensez vous que via de tel formation, je puisse facilement m'insérer dans ce domaine ?
Je vous cache pas que c'est aussi parce que c'est un domaine qui recrute pas mal apparemment , je ne suis pas un passione du big data mais disons que c'est un domaine qui peut m'intéresser.


 
Vise plutôt data analyst orienté métier, tu seras + crédible a mon avis.


---------------
Ma capacité de concentration est si courte que... Oh, regarde, un pigeon!
n°5143156
saphir59
Posté le 14-10-2020 à 21:53:56  profilanswer
 

Filob a écrit :


 
Vise plutôt data analyst orienté métier, tu seras + crédible a mon avis.


 
Il y a des formations particulierement adapté pour cela ?

n°5143160
giorno_gio​75
Posté le 14-10-2020 à 23:10:15  profilanswer
 

saphir59 a écrit :

Hello,
Voila je me presente je suis business analyst dans la finance depuis 10 ans.  
Actuellement au chômage (merci le confinement) j'envisage d ème réorienter vers le métier de datasicentist via une formation en ligne d'une dizaine de semaines. J'ai une licence de math à la base et un master en économétrie.
Pensez vous que via de tel formation, je puisse facilement m'insérer dans ce domaine ?
Je vous cache pas que c'est aussi parce que c'est un domaine qui recrute pas mal apparemment , je ne suis pas un passione du big data mais disons que c'est un domaine qui peut m'intéresser.


 
J'ai eu plusieurs profils dans mes collègues (avec plutot 6-7 ans d'exp) et ils ont jamais eu trop de soucis donc go mec :o

n°5143166
Filob
Posté le 15-10-2020 à 07:05:51  profilanswer
 

saphir59 a écrit :


 
Il y a des formations particulierement adapté pour cela ?


 
Les mêmes trucs en ligne il le semble genre data quest et compagnie.
Après à toi de vu ce qui peut te convenir  :jap:


---------------
Ma capacité de concentration est si courte que... Oh, regarde, un pigeon!
mood
Publicité
Posté le 15-10-2020 à 07:05:51  profilanswer
 

n°5144144
Rasthor
Posté le 30-10-2020 à 00:37:50  profilanswer
 

I violated a code of conduct  
https://www.fast.ai/2020/10/28/code-of-conduct/
 
 

Citation :

   Summary: NumFOCUS found I violated their Code of Conduct (CoC) at JupyterCon because my talk was not “kind”, because I said Joel Grus was “wrong” regarding his opinion that Jupyter Notebook is not a good software development environment. Joel (who I greatly respect, and consider an asset to the data science community) was not involved in NumFOCUS’s action, was not told about it, and did not support it. NumFOCUS did not follow their own enforcement procedure and violated their own CoC, left me hanging for over a week not even knowing what I was accused of, and did not give me an opportunity to provide input before concluding their investigation. I repeatedly told their committee that my emotional resilience was low at the moment due to medical issues, which they laughed about and ignored, as I tried (unsuccessfully) to hold back tears. The process has left me shattered, and I won’t be able to accept any speaking requests for the foreseeable future. I support the thoughtful enforcement of Code of Conducts to address sexist, racist, and harassing behavior, but that is not what happened in this case.


 
 
Curieux de lire la réponse de NumFOCUS.  [:hugeq:1]

n°5144151
o_BlastaaM​oof_o
Posté le 30-10-2020 à 09:01:26  profilanswer
 


C'est clair... Le type pond un blog post de 15 pages pour chouiner. Tout ça pour défendre les Jupyter notebooks en plus. C'est un peu comme si le type se plaignait de s'être pris un tir de LBD après une manif de soutien à Michel Fourniret.

n°5144153
-Meringue-
Posté le 30-10-2020 à 09:48:24  profilanswer
 

J’aime bien Jeremy Howard, mais sérieux...
Il y a vraiment des gens, à part lui, qui utilisent Jupyter pour du dev un tant soit peu sérieux?  :whistle:

n°5144156
flyingchai​r
Posté le 30-10-2020 à 10:17:21  profilanswer
 

Du coup NC tu pars quand ? Comment ça se passe avec le reconfinement ? La France veut savoir.

n°5144162
neo world
Posté le 30-10-2020 à 10:34:38  profilanswer
 

-Meringue- a écrit :

J’aime bien Jeremy Howard, mais sérieux...
Il y a vraiment des gens, à part lui, qui utilisent Jupyter pour du dev un tant soit peu sérieux? :whistle:


C'est un gros classique maintenant pourtant.

 

Le problème n'étant pas de faire "un dev sérieux" mais "trop de datas pour faire un extrait qui peut tourner sur des postes individuels et trop d'emmerdes à filer et gérer des accès VNC / RDP pour toute l'équipe pour que les devs collaborent"

 

On en est pas au confort de VS code , Pycharm and consort mais ça reste plutôt très efficace ...

 

Après si le dataset fait 50Go tout mouillé et que l'équipe datascience c'est deux pequins ou que les ops ont le temps de fournir les meilleurs services et ont les droits qui vont bien effectivement ça se discute :jap:

n°5144164
-Meringue-
Posté le 30-10-2020 à 10:44:00  profilanswer
 

neo world a écrit :


C'est un gros classique maintenant pourtant.
 
 Le problème n'étant pas de faire "un dev sérieux" mais "trop de datas pour faire un extrait qui peut tourner sur des postes individuels et trop d'emmerdes à filer et gérer des accès VNC / RDP pour toute l'équipe pour que les devs collaborent"
 
On en est pas au confort de VS code , Pycharm and consort mais ça reste plutôt très efficace ...
 
Après si le dataset fait 50Go tout mouillé et que l'équipe datascience c'est deux pequins ou que les ops ont le temps de fournir les meilleurs services et ont les droits qui vont bien effectivement ça se discute :jap:


 
Je conçois le truc pour faire de l’EDA, prototyper un peu, mais pour les modules? Pour packager le code?  
 
Il y a probablement quelque chose qui m’échappe, je n’ai jamais passé beaucoup de temps dessus. Toujours eu l’impression que c’était pratique pour démarrer sur un sujet, analyser, lancer rapidement un peu de code ou même illustrer des notions dans le cadre de cours ou partager une analyse (markdown et les plots intégrés c’est col pour ça). Après, pour partager le code, le rendre réutilisable, l’organiser, etc... Jamais compris le truc  :pt1cable:

n°5144167
giorno_gio​75
Posté le 30-10-2020 à 11:20:14  profilanswer
 

Le notebook pour moi c'est devenu un outil de restitution.
 
Aujourd'hui je scripte généralement dans VS et à la fin je vais tout mettre dans un notebook, notamment pour les commentaires où c'est plus lisible que d'avoir des #ce bout de code fait blablabla.

n°5144179
flyingchai​r
Posté le 30-10-2020 à 12:09:23  profilanswer
 


C’est du agile : la code avant la documentation, principe de parcimonie en utilisant du code facile.... [:el_risitos]  
 
 
Ouais mais eux ils ont peut-être pas foiré leur DS en 2012  [:homer_simpson]

n°5144715
Kayou
Posté le 07-11-2020 à 12:16:51  profilanswer
 

Petite question algo
 
J'ai un grand nombre de données que je voudrais classifier.
Le point discriminant c'est savoir s'ils sont fraudeurs ou pas, c'est l'information centrale.
 
A partir de la, et notamment s'ils sont fraudeurs, je voudrais faire des ensembles de personnes fraudeuses pour avoir des groupes types représentatifs de ces personnes avec un nombre de critères assez importants.
Quel type d'algo serait le plus à même de répondre à mon besoin ? (K means ?)
 
:jap:
 

n°5144726
draculax
Posté le 07-11-2020 à 14:24:02  profilanswer
 

As tu déjà l'information pour chaque personne si elle est fraudeuse ou non ?
 
Ca sera un élément clé pour répondre à ton besoin.

n°5144727
draculax
Posté le 07-11-2020 à 14:30:54  profilanswer
 

Moi aussi j'ai une question pour les génies du ML
 
J'ai une time série de points x_i
 
je veux prédire certains évènements caractéristique [imaginons les moments où x_i devient 0]
 
A partir d'une time window [15 points par exemple], je peux calculer des features [prenons la FFT et l'amplitude de f = 1Hz] et je veux savoir si je peux en prédire que x_16 = 0
 
Pour déterminer si cette feature permet d'entrainer un classifier pour prédire mon événement, vous découperiez simplement le signal en n sample que vous traiteriez comme des data points lambda ?
 
Mon problème c'est de choisir une bonne découpe, je peux facilement avoir accès aux time windows qui précèdent un événement, mais je vois mal comment choisir le reste du train set.

n°5144729
Kayou
Posté le 07-11-2020 à 14:58:45  profilanswer
 

draculax a écrit :

As tu déjà l'information pour chaque personne si elle est fraudeuse ou non ?
 
Ca sera un élément clé pour répondre à ton besoin.


Ouep j'ai l'info

n°5144730
flyingchai​r
Posté le 07-11-2020 à 15:14:54  profilanswer
 

draculax a écrit :

Moi aussi j'ai une question pour les génies du ML
 
J'ai une time série de points x_i
 
je veux prédire certains évènements caractéristique [imaginons les moments où x_i devient 0]
 
A partir d'une time window [15 points par exemple], je peux calculer des features [prenons la FFT et l'amplitude de f = 1Hz] et je veux savoir si je peux en prédire que x_16 = 0
 
Pour déterminer si cette feature permet d'entrainer un classifier pour prédire mon événement, vous découperiez simplement le signal en n sample que vous traiteriez comme des data points lambda ?
 
Mon problème c'est de choisir une bonne découpe, je peux facilement avoir accès aux time windows qui précèdent un événement, mais je vois mal comment choisir le reste du train set.


Je ferais une fonction de réécriture des données qui  prend ta Time série en entrée et sort un .csv avec sur chaque ligne xn+1 ... xn+15 y=xn+16, en faisant glisser ta fenêtre de 1 pas de temps à chaque fois. Au moins t’as une truc propre pour travailler et t’as un gros train et test set.  
 
Et bien sûr k=15 tu fous ça en paramètre réglable pour faire des tests.

n°5144731
flyingchai​r
Posté le 07-11-2020 à 15:33:35  profilanswer
 

Kayou a écrit :

Petite question algo
 
J'ai un grand nombre de données que je voudrais classifier.
Le point discriminant c'est savoir s'ils sont fraudeurs ou pas, c'est l'information centrale.
 
A partir de la, et notamment s'ils sont fraudeurs, je voudrais faire des ensembles de personnes fraudeuses pour avoir des groupes types représentatifs de ces personnes avec un nombre de critères assez importants.
Quel type d'algo serait le plus à même de répondre à mon besoin ? (K means ?)
 
:jap:
 


Pour découper en groupe il va falloir utiliser des algos de clustering. Tu as plusieurs approches : hiérarchique en arbres, avec des noeuds... :
https://larevueia.fr/clustering-les [...] connaitre/

n°5144735
-Meringue-
Posté le 07-11-2020 à 16:16:02  profilanswer
 


 
N’abuse pas.
On ajoute ça dans une grosse boucle for, et on va à la machine à café en attendant.  :o

n°5144738
flyingchai​r
Posté le 07-11-2020 à 16:29:50  profilanswer
 

Soyons vraiment honnêtes : y’a un mec qui a fait ce script, et tous les autres l’ont récupéré pour être les premiers au café.

n°5144740
Tidom
Posté le 07-11-2020 à 16:46:11  profilanswer
 

flyingchair a écrit :

Soyons vraiment honnêtes : y’a un mec qui a fait ce script, et tous les autres l’ont récupéré pour être les premiers au café.


 
Soyons vraiment honnêtes: stackoverflow est connecté à la machine à café :o

n°5144748
neo world
Posté le 07-11-2020 à 17:19:48  profilanswer
 

draculax a écrit :

Moi aussi j'ai une question pour les génies du ML

 

J'ai une time série de points x_i

 

je veux prédire certains évènements caractéristique [imaginons les moments où x_i devient 0]

 

A partir d'une time window [15 points par exemple], je peux calculer des features [prenons la FFT et l'amplitude de f = 1Hz] et je veux savoir si je peux en prédire que x_16 = 0

 

Pour déterminer si cette feature permet d'entrainer un classifier pour prédire mon événement, vous découperiez simplement le signal en n sample que vous traiteriez comme des data points lambda ?

 

Mon problème c'est de choisir une bonne découpe, je peux facilement avoir accès aux time windows qui précèdent un événement, mais je vois mal comment choisir le reste du train set.


Tu as un pattern visuellement qui semble précéder ton événement ? Si non j'aurais tendance à bourriner en découpant les samples en tailles différentes et voir ce que ça donne à l'entraînement et valider au test. De notre côté on est en train d'analyser des ECG et on a passé pas mal de temps à observer ce qui précède notre événement pour tenter de différencier de l'activité normale vs ce qui précède notre événement

n°5144750
flyingchai​r
Posté le 07-11-2020 à 17:20:34  profilanswer
 

Tidom a écrit :


 
Soyons vraiment honnêtes: stackoverflow est connecté à la machine à café :o


https://img3.super-h.fr/images/snapshot_1680741dc017442265251.md.jpg

n°5144751
neo world
Posté le 07-11-2020 à 17:21:17  profilanswer
 

Tidom a écrit :

 

Soyons vraiment honnêtes: stackoverflow est connecté à la machine à café :o


Avec le télétravail on est pas dans la merde :o

n°5144762
draculax
Posté le 07-11-2020 à 18:51:58  profilanswer
 

Kayou a écrit :


Ouep j'ai l'info


 
Dans ce que tu décris je vois 2 trucs différents :
 
garder que les fraudeurs et faire de la classification non-supervisée dessus => tu cherches à voir s'il existe différents profils de fraudeurs et en fonction de la technique t'auras les profils moyens de chaque catégorie (centroïd de chaque cluster en k-mean)
 
regarder les stats des features entre ensemble global / ensemble fraudeur pour voir s'il y a des différences significatives pour caractériser les fraudeurs.
 

flyingchair a écrit :


Je ferais une fonction de réécriture des données qui  prend ta Time série en entrée et sort un .csv avec sur chaque ligne xn+1 ... xn+15 y=xn+16, en faisant glisser ta fenêtre de 1 pas de temps à chaque fois. Au moins t’as une truc propre pour travailler et t’as un gros train et test set.  
 
Et bien sûr k=15 tu fous ça en paramètre réglable pour faire des tests.


 
Yep j'ai pensé à faire ça mais avant de l'appliquer je me demande quoi en faire.
Parce que j'aurai clairement pas un dataTest équilibré et que j'vois pas trop quel segment j'devrais garder / virer
Ca peut paraitre con mais vaut mieux bootstrap mes segments positifs et garder un max de segments normaux  
ou virer 80% des segments normaux pour arriver à 50/50 dans le test.
 

neo world a écrit :


Tu as un pattern visuellement qui semble précéder ton événement ? Si non j'aurais tendance à bourriner en découpant les samples en tailles différentes et voir ce que ça donne à l'entraînement et valider au test. De notre côté on est en train d'analyser des ECG et on a passé pas mal de temps à observer ce qui précède notre événement pour tenter de différencier de l'activité normale vs ce qui précède notre événement


 
Si y'a ça j'vais pas devenir millardaire mon jeune  [:jesusoro:10]  
 
J'suis sur du signal encore plus atroce que de l'ECG, c'est inbitable à l'oeil nu.
 
 

n°5144767
flyingchai​r
Posté le 07-11-2020 à 19:36:11  profilanswer
 

draculax a écrit :


Yep j'ai pensé à faire ça mais avant de l'appliquer je me demande quoi en faire.
Parce que j'aurai clairement pas un dataTest équilibré et que j'vois pas trop quel segment j'devrais garder / virer
Ca peut paraitre con mais vaut mieux bootstrap mes segments positifs et garder un max de segments normaux  
ou virer 80% des segments normaux pour arriver à 50/50 dans le test.


Je dirais que soit ton « y » de sortie tu le considères continu et tu gardes tous les segments créés, soit tu le considères comme un problème de classification « événement ou pas » et tu équilibres. Et le mieux c’est probablement de tester les 2 approches.  
 

draculax a écrit :


Si y'a ça j'vais pas devenir millardaire mon jeune  [:jesusoro:10]  
 
J'suis sur du signal encore plus atroce que de l'ECG, c'est inbitable à l'oeil nu.


Si ça marche je prend 10%. Cimer  [:jose mourinho:4]

n°5144771
Rontgen
Posté le 07-11-2020 à 20:30:41  profilanswer
 

draculax a écrit :

Moi aussi j'ai une question pour les génies du ML

 

J'ai une time série de points x_i

 

je veux prédire certains évènements caractéristique [imaginons les moments où x_i devient 0]

 

A partir d'une time window [15 points par exemple], je peux calculer des features [prenons la FFT et l'amplitude de f = 1Hz] et je veux savoir si je peux en prédire que x_16 = 0

 

Pour déterminer si cette feature permet d'entrainer un classifier pour prédire mon événement, vous découperiez simplement le signal en n sample que vous traiteriez comme des data points lambda ?

 

Mon problème c'est de choisir une bonne découpe, je peux facilement avoir accès aux time windows qui précèdent un événement, mais je vois mal comment choisir le reste du train set.

 

Tu peux aussi choisir l'approche de faire du many-to-many, c'est a dire prendre l'ensemble du signal en entrée et prédire la série entière des classifications en sortie (une série de 0/1). Certes il y aura beaucoup de 0 donc il faut faire attention avec la loss
Par exemple si tu utilises un réseau de neurones convolutionnel, tu peux utiliser un réseau fully convolutional (sans pooling, ou alors avec du unpooling, comme un U-Net par exemple)

n°5144776
Kayou
Posté le 07-11-2020 à 23:39:58  profilanswer
 

flyingchair a écrit :


Pour découper en groupe il va falloir utiliser des algos de clustering. Tu as plusieurs approches : hiérarchique en arbres, avec des noeuds... :
https://larevueia.fr/clustering-les [...] connaitre/

 
draculax a écrit :

 

Dans ce que tu décris je vois 2 trucs différents :

 

garder que les fraudeurs et faire de la classification non-supervisée dessus => tu cherches à voir s'il existe différents profils de fraudeurs et en fonction de la technique t'auras les profils moyens de chaque catégorie (centroïd de chaque cluster en k-mean)

 

regarder les stats des features entre ensemble global / ensemble fraudeur pour voir s'il y a des différences significatives pour caractériser les fraudeurs.

 


 

Merci à vous, ça va dans le sens que je voyais :jap:


Message édité par Kayou le 07-11-2020 à 23:40:04
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  95  96  97  ..  128  129  130  131  132  133

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR