Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1371 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  38  39  40  ..  128  129  130  131  132  133
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5057969
Bébé Yoda
Posté le 06-06-2018 à 09:55:40  profilanswer
 

Reprise du message précédent :
Oui c'est sûr c'est intéressant.
Mais mécaniquement, ca laisse moins de temps pour progresser techniquement. Je me demande si ça risque pas de me bloquer sur mon poste actuel...

 

J'ai pas les idées très claires en fait, désolé ;)

mood
Publicité
Posté le 06-06-2018 à 09:55:40  profilanswer
 

n°5057994
Alicanto
アリカント
Posté le 06-06-2018 à 11:18:17  profilanswer
 

Admis au MVA  [:abdel di hmaria]

n°5058000
Bébé Yoda
Posté le 06-06-2018 à 11:46:47  profilanswer
 

Alicanto a écrit :

Admis au MVA [:abdel di hmaria]

 

GG \o/

n°5058032
Alicanto
アリカント
Posté le 06-06-2018 à 13:25:05  profilanswer
 

C'est mon école qui sélectionne les élèves qu'elle envoie dans ce master.
 
J'ai candidaté hier soir et ai reçu ma réponse ce matin. Mon dossier a du être à peine lu. A mon avis les rumeurs qui parlent de "premier arrivé premier servi" sont vraies.

n°5058035
blixow
Posté le 06-06-2018 à 13:28:20  profilanswer
 

Alicanto a écrit :

C'est mon école qui sélectionne les élèves qu'elle envoie dans ce master.
 
J'ai candidaté hier soir et ai reçu ma réponse ce matin. Mon dossier a du être à peine lu. A mon avis les rumeurs qui parlent de "premier arrivé premier servi" sont vraies.


 
 
 [:albounet]

n°5058050
draculax
Posté le 06-06-2018 à 13:51:28  profilanswer
 

Alicanto a écrit :

C'est mon école qui sélectionne les élèves qu'elle envoie dans ce master.
 
J'ai candidaté hier soir et ai reçu ma réponse ce matin. Mon dossier a du être à peine lu. A mon avis les rumeurs qui parlent de "premier arrivé premier servi" sont vraies.


 
Y'a un quota par école ou global CS ? Avec combien de places ?

n°5058177
rokhlan
Posté le 06-06-2018 à 18:39:17  profilanswer
 

Alicanto a écrit :

Admis au MVA  [:abdel di hmaria]


 [:bien]

n°5058285
dede_sav
Posté le 07-06-2018 à 08:21:14  profilanswer
 

Bonjour,
 
Je suis à la recherche de retour sur des outils de data quality monitoring pour mon pipeline de processing. C'est à dire surveiller que les données en sorti sont "pas trop mal" (min, max, avg, dispersion, etc...). Je gère que 1.5To (+100go par mois), du coup, je suis pas certain de l’intérêt de solution comme spark tel que proposé par :
 - https://github.com/FRosner/drunken-data-quality
 - https://griffin.incubator.apache.org/
 
Et je suis pas fan de Talend.
Est-ce que vous connaissez d'autres alternatives ? Des frameworks qui me permettrais de faire des règles génériques pour toutes mes tables (min max ...) mais aussi des règles customs (nombre de batch disponible, taille des batchs).
Vous utilisez quoi dans vos entreprises ?
 
Merci d'avance :)

Message cité 2 fois
Message édité par dede_sav le 07-06-2018 à 09:40:53
n°5058452
o_BlastaaM​oof_o
Posté le 07-06-2018 à 18:04:55  profilanswer
 

dede_sav a écrit :

Bonjour,
 
Je suis à la recherche de retour sur des outils de data quality monitoring pour mon pipeline de processing. C'est à dire surveiller que les données en sorti sont "pas trop mal" (min, max, avg, dispersion, etc...). Je gère que 1.5To (+100go par mois), du coup, je suis pas certain de l’intérêt de solution comme spark tel que proposé par :
 - https://github.com/FRosner/drunken-data-quality
 - https://griffin.incubator.apache.org/
 
Et je suis pas fan de Talend.
Est-ce que vous connaissez d'autres alternatives ? Des frameworks qui me permettrais de faire des règles génériques pour toutes mes tables (min max ...) mais aussi des règles customs (nombre de batch disponible, taille des batchs).
Vous utilisez quoi dans vos entreprises ?
 
Merci d'avance :)


Pour ma part, je fais ça avec du code (MATLAB pour moi, mais ça peut se faire en Python également).
L'idéal serait que ta donnée soit déjà dans une base de données, ainsi il suffirait d'exécuter quelques requêtes pour faire les calculs que tu mentionnes sans charger quoi que ce soit en mémoire.

n°5058464
dede_sav
Posté le 07-06-2018 à 19:22:56  profilanswer
 

Merci blasta pour ta réponse.  
Je voulais justement éviter de devoir faire les requêtes par moi même mais je crois que ca risque d'être la seul solution.
 
Sur certaines grosse table, un simple select distinct(batch_id) from XXX prend 30min ... sur Postgres, et sans index.
 
Sinon, tu lances tes tests de quality de façon réguliers ? à chaque insert ? Tu as quoi comme tests ?
 
Merci d'avance

mood
Publicité
Posté le 07-06-2018 à 19:22:56  profilanswer
 

n°5058465
Millsap
Posté le 07-06-2018 à 19:24:40  profilanswer
 

dede_sav a écrit :

Bonjour,
 
Je suis à la recherche de retour sur des outils de data quality monitoring pour mon pipeline de processing. C'est à dire surveiller que les données en sorti sont "pas trop mal" (min, max, avg, dispersion, etc...). Je gère que 1.5To (+100go par mois), du coup, je suis pas certain de l’intérêt de solution comme spark tel que proposé par :
 - https://github.com/FRosner/drunken-data-quality
 - https://griffin.incubator.apache.org/
 
Et je suis pas fan de Talend.
Est-ce que vous connaissez d'autres alternatives ? Des frameworks qui me permettrais de faire des règles génériques pour toutes mes tables (min max ...) mais aussi des règles customs (nombre de batch disponible, taille des batchs).
Vous utilisez quoi dans vos entreprises ?
 
Merci d'avance :)


 
 
Oh cool je connaissais pas du tout et vu que je tourne avec Apache Spark ca a l'air super interessant!

n°5058476
Profil sup​primé
Posté le 07-06-2018 à 21:05:54  answer
 

Petite question pour le topic. Je bosse sur un problème de machine learning et je ne suis pas trop sur de l'approche...

 

En gros j'ai une série de projets (chaque projet est un exemple). Pour chaque projet, j'ai une série de composants de longueur variable (on va dire 20 à 40) qui sont aujourd'hui groupé manuellement selon une liste de critères (par exemple: conflits entre les composants) en un nombre de "clusters" variable par projet.

 

J'ai donc:
- K projets (training dataset)

 

Pour chaque projet:
- M composants groupés en N clusters

 

Le but est de créer un système qui prendra M composants avec une liste de features et d'identifier a) le nombre de clusters requis et b) assigner chaque composant à un cluster. Les composants/clusters n'ont pas d'orde particulier (e.g. il n'existe pas de classe A, B, C... pour les groupes)

 

J'ai pensé à séparer en 2 étapes (1 modèle pour trouver le nombre de clusters et ensuite un modèle pour assigner chaque composant à un cluster). La difficulté est qu'un set de composants/clusters est propre à un exemple du dataset (je n'ai pas N clusters pour la totalité du problème, mais K * N clusters et le but est d'identifier les N clusters pour un nouveau document avec M composants).

 

Encore un détail, les clusters ne sont pas des "hard clusters". Le résultat final peut être vu comme une matric de la forme:

 

Project Z
                    | Cat A | Cat B | Cat C | Cat D |
component 1 |   [x]   |   [-]  |   [x]   |   [-]   |
component 2 |   [x]   |   [x]  |   [x]   |   [-]   |
component 3 |   [-]   |   [-]   |   [x]   |   [x]  |
component 5 |   [x]   |   [x]  |   [x]   |   [-]   |
component 6 |   [-]   |   [-]   |   [-]   |   [x]   |

 

Des idées?

 


Message édité par Profil supprimé le 07-06-2018 à 21:12:48
n°5058520
KevinTran
Photographe
Posté le 08-06-2018 à 07:45:59  profilanswer
 

Rasthor a écrit :


Regarde aussi du cote des boites pharma et biotechnologies. Y'a de plus en plus de demandes pour traiter les petabytes de donnees qui arrivent, que ce soit au niveau genetique, proteomiques, medicamenteuse ou dossiers cliniques des patients. Pour beaucoup de postes, y'a besoin d'avoir les connaissances du domaines, mais pas toujours.


 
Je viens de ce milieu (bio informatique / génétique) et j’en suis parti car le milieu public n’offre pas grand chose malgré les sujets intéressants. L’offre privée dans le domaine n’est pas très fournie donc compliqué de s’y faire une place je pense.


---------------
http://www.kevintran.fr
n°5058561
o_BlastaaM​oof_o
Posté le 08-06-2018 à 13:40:54  profilanswer
 

dede_sav a écrit :

Merci blasta pour ta réponse.  
Je voulais justement éviter de devoir faire les requêtes par moi même mais je crois que ca risque d'être la seul solution.
 
Sur certaines grosse table, un simple select distinct(batch_id) from XXX prend 30min ... sur Postgres, et sans index.
 
Sinon, tu lances tes tests de quality de façon réguliers ? à chaque insert ? Tu as quoi comme tests ?
 
Merci d'avance


Il y a quelques requêtes à écrire effectivement mais c'est assez peu de boulot in fine.
 
Je ne fais pas tourner ces calculs tous les jours mais ici, ça s'exécute assez rapidement. Faut voir la volumétrie. Après, Postgres, c'est pas connu pour ses performances. Tu peux essayer Vertica éventuellement.

n°5058562
dede_sav
Posté le 08-06-2018 à 13:48:46  profilanswer
 

o_BlastaaMoof_o a écrit :


Il y a quelques requêtes à écrire effectivement mais c'est assez peu de boulot in fine.
 
Je ne fais pas tourner ces calculs tous les jours mais ici, ça s'exécute assez rapidement. Faut voir la volumétrie. Après, Postgres, c'est pas connu pour ses performances. Tu peux essayer Vertica éventuellement.


 
Merci, Vertica est déjà là mais on utilise Postgrès comme DW.
Je vais partir sur des requetes custom et puis on verra où le besoin nous mènes :)

n°5058730
Profil sup​primé
Posté le 09-06-2018 à 22:32:23  answer
 

Bonjour, est ce quelqu'un a assisté au SAS Forum ?
Si oui, y a t'il des sujets que vous avez trouvé intéressant ?

n°5059111
o_BlastaaM​oof_o
Posté le 12-06-2018 à 13:40:52  profilanswer
 

Mais bordel, arrêtez de stresser avec vos formations et vos diplômes.
 
A part quelques dinosaures du recrutement, plus personne n'en à rien à secouer du nom de votre master ou de l'école dans laquelle vous êtes allé.
 
Apprenez juste à faire des trucs. Mais à faire vraiment des trucs, pas juste à appeler 3 fonctions du package X et 2 autres fonctions du package Y. Et ça, y a qu'une façon d'y arriver : par l'expérience.

n°5059114
Rontgen
Posté le 12-06-2018 à 13:43:34  profilanswer
 

Félicitations :)
Ca m'étonnerait qu'étant pris au MVA cette année, tu ne le sois plus un an plus tard avec en plus le brandname Telecom sur ton CV
Si ca tombe, c'est même directement négociable de décaler l'admission d'un an, tu devrais prendre contact avec la direction du MVA
 
L'intérêt de faire Telecom dépend un peu de ton projet pro (recherche ou R&D, rester en France ou partir à l'étranger), mais je pense que ca ne peut pas faire de mal et j'aurais tendance à recommander de le faire

n°5059159
Rontgen
Posté le 12-06-2018 à 16:42:09  profilanswer
 

On dirait que tu as seulement créé la pull request sur ta version du repo
Je crois qu'il faut que tu la soumettes au repo officiel plutot
 
https://help.github.com/articles/cr [...] om-a-fork/


Message édité par Rontgen le 12-06-2018 à 16:43:15
n°5059322
Frank Abag​nale Jr
Catch me if you can
Posté le 13-06-2018 à 14:27:16  profilanswer
 

:hello:  
 
Madame fait actuellement un bilan de compétences en vue de se réorienter, et le Big data semble la meilleure option...
 
Mais là il faudrait qu'elle interviewe des personnes du milieu, et on n'en a pas dans notre réseau...
 
Est-ce que certains d'entre vous accepteraient de lui consacrer un peu de leur temps ?
 
(répondez-moi en MP, pas la peine de polluer le topic  :whistle: )


---------------
Keep pushing that lie. Keep pushing it. Keep pushing till you make it true.
n°5059407
kwns
Posté le 14-06-2018 à 08:30:50  profilanswer
 

Salut!  
 
Je cherche à valoriser mon dossier pour un master et on m'a conseillé un MOOC sur le Machine Learning, pour être quant.
 
Lequel est le meilleur entre Coursera et Udacity ? Je sais que Coursera délivre un certificat, est ce de même pour Udacity ? Merci! :)
 
En avez-vous d'autres qui pourraient m'être utiles ? :)

n°5059438
Bébé Yoda
Posté le 14-06-2018 à 10:42:19  profilanswer
 

Le problème c'est qu'il y en a plusieurs sur chaque plateforme, difficile de répondre comme ça.
Après de manière générale je préfère coursera à udacity pour l'interface et les certificats qui sont plus sérieux

n°5059647
kwns
Posté le 15-06-2018 à 14:24:59  profilanswer
 

Salut!
 
Je vise essentiellement le M2MO pour devenir quant. :)
 
C'est le responsable du M2MO qui m'a dit qu'un MOOC ou deux était un petit plus, si très bon dossier il y a. Par ailleurs, j'ai déjà fait parti d'une asso' (je reprends l'an prochain), et je suis en stage actuellement.
 
Voilà. :)  
Merci.

n°5059655
Nufeu
Posté le 15-06-2018 à 15:00:07  profilanswer
 

Salut, je viens de terminer le M2MO. C'est profitable de faire un MOOC en effet mais je doute que ça fasse vraiment la diff. si tu as eu des bonnes notes en M1 et un stage relatif aux probas/data ça devrait le faire. Ne néglige pas l'aspect data du master car c'est de plus en plus en plus en vogue en banque :)

n°5059666
Nufeu
Posté le 15-06-2018 à 15:28:57  profilanswer
 

Je pense avoir déjà dialogué avec vous deux (kwns comme toi) sur le 18-25 de ça :) il y a régulièrement des topics data.
 
Anyway. la plaquette du M2MO vient d'être changée avec une présence renforcée des data, le reinforcement learning apparait :)  
 
https://masterfinance.math.univ-par [...] che_m2.pdf
 
Tu as eu la réponse du M2 DS de l'X ? positif ? Je vois pas mal de personnes qui font ça oui, du genre MVA/EK, bref data finance. ça peut être une bonne idée.  
 
au LE on fait pas mal de trucs. une introduction au ML qui se veut mathématique mais rentre pas trop dans les détails non plus : regression, classification, svm, kernel, gradient boosting, RF, deep learning (fonctionnement d'un NN, reseaux convolutifs, mais rien de recurrent.) tout ça c'est implémenté en python en tp après, et y a des challenges kaggle.
 
Puis tu as un cours de stats théorique, un cours d'apprentissage théorique (difficile, vraiment), un cours de modèle de mélanges/inference bayésienne un cours de données massives (compressed sensing, pca, streaming data, NLP...), des projets. Tu auras aussi un cours qui aborde les bandits stochastiques. Et les stats apparaissent également en stat des diffusions, et les séries temporelles.  
 
La formation n'a rien a envier pour le niveau, mais n'est pas aussi large que celle du M2 DS qui couvre bien plus de sujets, ou du MVA qui permet de bien se spécialiser image. Cependant elle a la prétention de faire la part belle aux probabilités. Quand tu as envie de voir c'est quoi le calcul sto, à quoi ça s'applique, ou bien d'aller encore un peu loin dans les probas (chaînes de markov, systemes de particules...) tout en ayant de la data à côté, c'est optimal je trouve !
 
Pas autant que de faire deux master, forcément, mais tout de même !

n°5059670
Voxinat
High Frequency Trolling
Posté le 15-06-2018 à 15:44:50  profilanswer
 

Nufeu a écrit :

Je pense avoir déjà dialogué avec vous deux (kwns comme toi) sur le 18-25 de ça :) il y a régulièrement des topics data.
 
Anyway. la plaquette du M2MO vient d'être changée avec une présence renforcée des data, le reinforcement learning apparait :)  
 
https://masterfinance.math.univ-par [...] che_m2.pdf
 
Tu as eu la réponse du M2 DS de l'X ? positif ? Je vois pas mal de personnes qui font ça oui, du genre MVA/EK, bref data finance. ça peut être une bonne idée.  
 
au LE on fait pas mal de trucs. une introduction au ML qui se veut mathématique mais rentre pas trop dans les détails non plus : regression, classification, svm, kernel, gradient boosting, RF, deep learning (fonctionnement d'un NN, reseaux convolutifs, mais rien de recurrent.) tout ça c'est implémenté en python en tp après, et y a des challenges kaggle.
 
Puis tu as un cours de stats théorique, un cours d'apprentissage théorique (difficile, vraiment), un cours de modèle de mélanges/inference bayésienne un cours de données massives (compressed sensing, pca, streaming data, NLP...), des projets. Tu auras aussi un cours qui aborde les bandits stochastiques. Et les stats apparaissent également en stat des diffusions, et les séries temporelles.  
 
La formation n'a rien a envier pour le niveau, mais n'est pas aussi large que celle du M2 DS qui couvre bien plus de sujets, ou du MVA qui permet de bien se spécialiser image. Cependant elle a la prétention de faire la part belle aux probabilités. Quand tu as envie de voir c'est quoi le calcul sto, à quoi ça s'applique, ou bien d'aller encore un peu loin dans les probas (chaînes de markov, systemes de particules...) tout en ayant de la data à côté, c'est optimal je trouve !
 
Pas autant que de faire deux master, forcément, mais tout de même !


 
Salut Nufeu,
 
je compte candidater au LE plutôt sur la partie Finance. Est-ce que tu sais si des non mathématiciens ont déjà été admis? (j'ai fait de la finance quant lors d'un premier M2 mais pas dans un master de maths appli)


---------------
Sah Quel Plaisir
n°5059672
Nufeu
Posté le 15-06-2018 à 15:56:04  profilanswer
 

J'ai pas connaissance de gars au M2 qui sortaient pas d'un parcours un minimum mathématique. mais je connais pas toute la promo. Si tu as eu de la finance quantitative et un stage du même genre en M2 (type M2 203) je dirai que c'est pas impossible d'être pris.

n°5059674
Voxinat
High Frequency Trolling
Posté le 15-06-2018 à 16:01:42  profilanswer
 

Nufeu a écrit :

J'ai pas connaissance de gars au M2 qui sortaient pas d'un parcours un minimum mathématique. mais je connais pas toute la promo. Si tu as eu de la finance quantitative et un stage du même genre en M2 (type M2 203) je dirai que c'est pas impossible d'être pris.


J'ai effectivement un master du même accabit que le 203 et une alternance en tant que Quant dans une banque
 
Merci d'avoir répondu  :jap:


---------------
Sah Quel Plaisir
n°5059680
Nufeu
Posté le 15-06-2018 à 16:42:18  profilanswer
 

Typiquement oui, quant ou trader.  Du côté finance en tout cas !
 
Bah les cours de finance/probas sont pas redondants non. Les cours de data...clairement si t'as fait le DS d'orsay c'est pas la peine de les suivre. Sauf ceux appliqués à la finance comme celui de technique de filtrage. mais c'est le seul je crois. Quitte a faire deux M2 l'un 100% data l'autre 100% finance, le EK pourrait être plus indiqué.


Message édité par Nufeu le 15-06-2018 à 16:43:12
n°5060942
djwam
Posté le 26-06-2018 à 13:50:27  profilanswer
 

Aujourd'hui pour des aspirants quants, je conseille plus un m2 de type mva que ek. Plus adapté aux problématiques actuelles, plus facile de changer de branche le jour où on en a marre de la finance.

n°5060976
Rontgen
Posté le 26-06-2018 à 18:30:28  profilanswer
 

Ca a vraiment amelioré les résultats de faire de la reduction de dim sur des images, par rapport a un reseau de neurones direct ?

mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  38  39  40  ..  128  129  130  131  132  133

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR