[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 38 39 40 .. 128 129 130 131 132 133 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Bébé Yoda

Reprise du message précédent :
Oui c'est sûr c'est intéressant.
Mais mécaniquement, ca laisse moins de temps pour progresser techniquement. Je me demande si ça risque pas de me bloquer sur mon poste actuel...

J'ai pas les idées très claires en fait, désolé

Message cité 1 fois

Publicité

Alicanto

アリカント

Admis au MVA [:abdel di hmaria]

Message cité 3 fois

Bébé Yoda

Alicanto a écrit :

Admis au MVA [:abdel di hmaria]

GG \o/

Alicanto

アリカント

C'est mon école qui sélectionne les élèves qu'elle envoie dans ce master.

J'ai candidaté hier soir et ai reçu ma réponse ce matin. Mon dossier a du être à peine lu. A mon avis les rumeurs qui parlent de "premier arrivé premier servi" sont vraies.

Message cité 2 fois

blixow

Alicanto a écrit :

[:albounet]

draculax

Alicanto a écrit :

Y'a un quota par école ou global CS ? Avec combien de places ?

rokhlan

Alicanto a écrit :

Admis au MVA [:abdel di hmaria]

[:bien]

dede_sav

Bonjour,

Je suis à la recherche de retour sur des outils de data quality monitoring pour mon pipeline de processing. C'est à dire surveiller que les données en sorti sont "pas trop mal" (min, max, avg, dispersion, etc...). Je gère que 1.5To (+100go par mois), du coup, je suis pas certain de l’intérêt de solution comme spark tel que proposé par :
- https://github.com/FRosner/drunken-data-quality
- https://griffin.incubator.apache.org/

Et je suis pas fan de Talend.
Est-ce que vous connaissez d'autres alternatives ? Des frameworks qui me permettrais de faire des règles génériques pour toutes mes tables (min max ...) mais aussi des règles customs (nombre de batch disponible, taille des batchs).
Vous utilisez quoi dans vos entreprises ?

Merci d'avance

Message cité 2 fois
Message édité par dede_sav le 07-06-2018 à 09:40:53

o_BlastaaMoof_o

dede_sav a écrit :

Pour ma part, je fais ça avec du code (MATLAB pour moi, mais ça peut se faire en Python également).
L'idéal serait que ta donnée soit déjà dans une base de données, ainsi il suffirait d'exécuter quelques requêtes pour faire les calculs que tu mentionnes sans charger quoi que ce soit en mémoire.

dede_sav

Merci blasta pour ta réponse.
Je voulais justement éviter de devoir faire les requêtes par moi même mais je crois que ca risque d'être la seul solution.

Sur certaines grosse table, un simple select distinct(batch_id) from XXX prend 30min ... sur Postgres, et sans index.

Sinon, tu lances tes tests de quality de façon réguliers ? à chaque insert ? Tu as quoi comme tests ?

Merci d'avance

Message cité 1 fois

Publicité

Millsap

dede_sav a écrit :

Oh cool je connaissais pas du tout et vu que je tourne avec Apache Spark ca a l'air super interessant!

Profil supprimé

Petite question pour le topic. Je bosse sur un problème de machine learning et je ne suis pas trop sur de l'approche...

En gros j'ai une série de projets (chaque projet est un exemple). Pour chaque projet, j'ai une série de composants de longueur variable (on va dire 20 à 40) qui sont aujourd'hui groupé manuellement selon une liste de critères (par exemple: conflits entre les composants) en un nombre de "clusters" variable par projet.

J'ai donc:
- K projets (training dataset)

Pour chaque projet:
- M composants groupés en N clusters

Le but est de créer un système qui prendra M composants avec une liste de features et d'identifier a) le nombre de clusters requis et b) assigner chaque composant à un cluster. Les composants/clusters n'ont pas d'orde particulier (e.g. il n'existe pas de classe A, B, C... pour les groupes)

J'ai pensé à séparer en 2 étapes (1 modèle pour trouver le nombre de clusters et ensuite un modèle pour assigner chaque composant à un cluster). La difficulté est qu'un set de composants/clusters est propre à un exemple du dataset (je n'ai pas N clusters pour la totalité du problème, mais K * N clusters et le but est d'identifier les N clusters pour un nouveau document avec M composants).

Encore un détail, les clusters ne sont pas des "hard clusters". Le résultat final peut être vu comme une matric de la forme:

Project Z
| Cat A | Cat B | Cat C | Cat D |
component 1 | [x] | [-] | [x] | [-] |
component 2 | [x] | [x] | [x] | [-] |
component 3 | [-] | [-] | [x] | [x] |
component 5 | [x] | [x] | [x] | [-] |
component 6 | [-] | [-] | [-] | [x] |

Des idées?

Message édité par Profil supprimé le 07-06-2018 à 21:12:48

KevinTran

Photographe

Rasthor a écrit :

Regarde aussi du cote des boites pharma et biotechnologies. Y'a de plus en plus de demandes pour traiter les petabytes de donnees qui arrivent, que ce soit au niveau genetique, proteomiques, medicamenteuse ou dossiers cliniques des patients. Pour beaucoup de postes, y'a besoin d'avoir les connaissances du domaines, mais pas toujours.

Je viens de ce milieu (bio informatique / génétique) et j’en suis parti car le milieu public n’offre pas grand chose malgré les sujets intéressants. L’offre privée dans le domaine n’est pas très fournie donc compliqué de s’y faire une place je pense.

---------------
http://www.kevintran.fr

o_BlastaaMoof_o

dede_sav a écrit :

Il y a quelques requêtes à écrire effectivement mais c'est assez peu de boulot in fine.

Je ne fais pas tourner ces calculs tous les jours mais ici, ça s'exécute assez rapidement. Faut voir la volumétrie. Après, Postgres, c'est pas connu pour ses performances. Tu peux essayer Vertica éventuellement.

Message cité 1 fois

dede_sav

o_BlastaaMoof_o a écrit :

Merci, Vertica est déjà là mais on utilise Postgrès comme DW.
Je vais partir sur des requetes custom et puis on verra où le besoin nous mènes

Profil supprimé

Bonjour, est ce quelqu'un a assisté au SAS Forum ?
Si oui, y a t'il des sujets que vous avez trouvé intéressant ?

o_BlastaaMoof_o

Mais bordel, arrêtez de stresser avec vos formations et vos diplômes.

A part quelques dinosaures du recrutement, plus personne n'en à rien à secouer du nom de votre master ou de l'école dans laquelle vous êtes allé.

Apprenez juste à faire des trucs. Mais à faire vraiment des trucs, pas juste à appeler 3 fonctions du package X et 2 autres fonctions du package Y. Et ça, y a qu'une façon d'y arriver : par l'expérience.

Rontgen

Félicitations
Ca m'étonnerait qu'étant pris au MVA cette année, tu ne le sois plus un an plus tard avec en plus le brandname Telecom sur ton CV
Si ca tombe, c'est même directement négociable de décaler l'admission d'un an, tu devrais prendre contact avec la direction du MVA

L'intérêt de faire Telecom dépend un peu de ton projet pro (recherche ou R&D, rester en France ou partir à l'étranger), mais je pense que ca ne peut pas faire de mal et j'aurais tendance à recommander de le faire

Rontgen

On dirait que tu as seulement créé la pull request sur ta version du repo
Je crois qu'il faut que tu la soumettes au repo officiel plutot

https://help.github.com/articles/cr [...] om-a-fork/

Message édité par Rontgen le 12-06-2018 à 16:43:15

Frank Abagnale Jr

Catch me if you can

:hello:

Madame fait actuellement un bilan de compétences en vue de se réorienter, et le Big data semble la meilleure option...

Mais là il faudrait qu'elle interviewe des personnes du milieu, et on n'en a pas dans notre réseau...

Est-ce que certains d'entre vous accepteraient de lui consacrer un peu de leur temps ?

(répondez-moi en MP, pas la peine de polluer le topic :whistle: )

---------------
Keep pushing that lie. Keep pushing it. Keep pushing till you make it true.

kwns

Salut!

Je cherche à valoriser mon dossier pour un master et on m'a conseillé un MOOC sur le Machine Learning, pour être quant.

Lequel est le meilleur entre Coursera et Udacity ? Je sais que Coursera délivre un certificat, est ce de même pour Udacity ? Merci!

En avez-vous d'autres qui pourraient m'être utiles ?

Message cité 1 fois

Bébé Yoda

Le problème c'est qu'il y en a plusieurs sur chaque plateforme, difficile de répondre comme ça.
Après de manière générale je préfère coursera à udacity pour l'interface et les certificats qui sont plus sérieux

kwns

Salut!

Je vise essentiellement le M2MO pour devenir quant.

C'est le responsable du M2MO qui m'a dit qu'un MOOC ou deux était un petit plus, si très bon dossier il y a. Par ailleurs, j'ai déjà fait parti d'une asso' (je reprends l'an prochain), et je suis en stage actuellement.

Voilà.
Merci.

Nufeu

Salut, je viens de terminer le M2MO. C'est profitable de faire un MOOC en effet mais je doute que ça fasse vraiment la diff. si tu as eu des bonnes notes en M1 et un stage relatif aux probas/data ça devrait le faire. Ne néglige pas l'aspect data du master car c'est de plus en plus en plus en vogue en banque

Message cité 1 fois

Nufeu

Je pense avoir déjà dialogué avec vous deux (kwns comme toi) sur le 18-25 de ça il y a régulièrement des topics data.

Anyway. la plaquette du M2MO vient d'être changée avec une présence renforcée des data, le reinforcement learning apparait

https://masterfinance.math.univ-par [...] che_m2.pdf

Tu as eu la réponse du M2 DS de l'X ? positif ? Je vois pas mal de personnes qui font ça oui, du genre MVA/EK, bref data finance. ça peut être une bonne idée.

au LE on fait pas mal de trucs. une introduction au ML qui se veut mathématique mais rentre pas trop dans les détails non plus : regression, classification, svm, kernel, gradient boosting, RF, deep learning (fonctionnement d'un NN, reseaux convolutifs, mais rien de recurrent.) tout ça c'est implémenté en python en tp après, et y a des challenges kaggle.

Puis tu as un cours de stats théorique, un cours d'apprentissage théorique (difficile, vraiment), un cours de modèle de mélanges/inference bayésienne un cours de données massives (compressed sensing, pca, streaming data, NLP...), des projets. Tu auras aussi un cours qui aborde les bandits stochastiques. Et les stats apparaissent également en stat des diffusions, et les séries temporelles.

La formation n'a rien a envier pour le niveau, mais n'est pas aussi large que celle du M2 DS qui couvre bien plus de sujets, ou du MVA qui permet de bien se spécialiser image. Cependant elle a la prétention de faire la part belle aux probabilités. Quand tu as envie de voir c'est quoi le calcul sto, à quoi ça s'applique, ou bien d'aller encore un peu loin dans les probas (chaînes de markov, systemes de particules...) tout en ayant de la data à côté, c'est optimal je trouve !

Pas autant que de faire deux master, forcément, mais tout de même !

Message cité 1 fois

Voxinat

High Frequency Trolling

Nufeu a écrit :

Salut Nufeu,

je compte candidater au LE plutôt sur la partie Finance. Est-ce que tu sais si des non mathématiciens ont déjà été admis? (j'ai fait de la finance quant lors d'un premier M2 mais pas dans un master de maths appli)

---------------
Sah Quel Plaisir

Nufeu

J'ai pas connaissance de gars au M2 qui sortaient pas d'un parcours un minimum mathématique. mais je connais pas toute la promo. Si tu as eu de la finance quantitative et un stage du même genre en M2 (type M2 203) je dirai que c'est pas impossible d'être pris.

Message cité 1 fois

Voxinat

High Frequency Trolling

Nufeu a écrit :

J'ai effectivement un master du même accabit que le 203 et une alternance en tant que Quant dans une banque

Merci d'avoir répondu :jap:

---------------
Sah Quel Plaisir

Nufeu

Typiquement oui, quant ou trader. Du côté finance en tout cas !

Bah les cours de finance/probas sont pas redondants non. Les cours de data...clairement si t'as fait le DS d'orsay c'est pas la peine de les suivre. Sauf ceux appliqués à la finance comme celui de technique de filtrage. mais c'est le seul je crois. Quitte a faire deux M2 l'un 100% data l'autre 100% finance, le EK pourrait être plus indiqué.

Message édité par Nufeu le 15-06-2018 à 16:43:12

djwam

Aujourd'hui pour des aspirants quants, je conseille plus un m2 de type mva que ek. Plus adapté aux problématiques actuelles, plus facile de changer de branche le jour où on en a marre de la finance.

Message cité 1 fois

Rontgen

Ca a vraiment amelioré les résultats de faire de la reduction de dim sur des images, par rapport a un reseau de neurones direct ?

Publicité

Page : 1 2 3 4 5 .. 38 39 40 .. 128 129 130 131 132 133

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.108 secondes