Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
939 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  32  33  34  ..  130  131  132  133  134  135
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5049563
Voxinat
High Frequency Trolling
Posté le 29-04-2018 à 16:57:46  profilanswer
 

Reprise du message précédent :
Merci d'y jeter un oeil Rasthor :jap:  
 
https://github.com/Waleem/MSM


Message édité par Voxinat le 29-04-2018 à 16:58:00

---------------
Sah Quel Plaisir
mood
Publicité
Posté le 29-04-2018 à 16:57:46  profilanswer
 

n°5049565
Rasthor
Posté le 29-04-2018 à 17:01:47  profilanswer
 

Tu utilises quel OS ?

n°5049569
Voxinat
High Frequency Trolling
Posté le 29-04-2018 à 17:06:14  profilanswer
 

Windows 10


---------------
Sah Quel Plaisir
n°5049570
Rasthor
Posté le 29-04-2018 à 17:06:38  profilanswer
 

[:locke-tdi:3]

n°5049571
Rasthor
Posté le 29-04-2018 à 17:07:29  profilanswer
 

Quelle fonction fait planter le truc ?
 
Quel est le message d'erreur ?

n°5049574
Voxinat
High Frequency Trolling
Posté le 29-04-2018 à 17:12:48  profilanswer
 

Voila ce que je lance et ce que ça me dit :
 
source("Msm.R" )
source("Msm_A.R" )
source("Msm_clustermat.R" )
source("Msm_decompose.R" )
source("Msm_grad.R" )
source("Msm_hessian_2_sided.R" )
source("Msm_likelihood2.R" )
source("Msm_ll2.R" )
source("Msm_marginals.R" )
source("Msm_mat_power.R" )
source("Msm_parameter_check.R" )
source("Msm_predict.R" )
source("Msm_states.R" )
source("Msm_std_err.R" )
source("Msm_varcovvar.R" )
source("RcppExports.R" )
 
> load("calvet2004data.rda" )
> ret <- na.omit(as.matrix(calvet2004data$caret))*100
> fit <- Msm(ret)
Error in .Call("MSM_Msm_ll_cpp", PACKAGE = "MSM", pimat0, omegat, A) :  
  "MSM_Msm_ll_cpp" not available for .Call() for package "MSM"> load("calvet2004data.rda" )
> ret <- na.omit(as.matrix(calvet2004data$caret))*100
> fit <- Msm(ret)
Error in .Call("MSM_Msm_ll_cpp", PACKAGE = "MSM", pimat0, omegat, A) :  
  "MSM_Msm_ll_cpp" not available for .Call() for package "MSM"
 
 
Donc ça rentre bien dans la fonction principale Msm mais au moment d'appeler le code C++ ça plante


---------------
Sah Quel Plaisir
n°5049590
Rasthor
Posté le 29-04-2018 à 17:40:41  profilanswer
 

J'ai le meme probleme, j'y travaille.

n°5049591
Rasthor
Posté le 29-04-2018 à 17:43:56  profilanswer
 

Problem solved je crois:

 

Il faut installer ces deux packages:
install.packages("Rcpp" )
install.packages("RcppArmadillo" )

 

Et charger les modules .cpp qui sont dans le dossier 'src' comme cela:
sourceCpp("src/Msm_ll_cpp.cpp" )
sourceCpp("src/Msm_likelihood_cpp.cpp" )

 

etc...

 


Ensuite ca devrait marcher.


Message édité par Rasthor le 29-04-2018 à 17:44:24
n°5049599
Voxinat
High Frequency Trolling
Posté le 29-04-2018 à 17:49:29  profilanswer
 

Je viens de le faire avant de voir ta réponse.  
 
J'ai une erreur, ca me dit qu'il faut que j'installe RTools.
 
Je refait tourner une fois que c'est installé et je reviens voir si je m'en sors toujours pas


---------------
Sah Quel Plaisir
n°5049604
o_BlastaaM​oof_o
Posté le 29-04-2018 à 17:57:10  profilanswer
 

Les joies de R :lol:

mood
Publicité
Posté le 29-04-2018 à 17:57:10  profilanswer
 

n°5049613
Voxinat
High Frequency Trolling
Posté le 29-04-2018 à 18:16:07  profilanswer
 


Clairement ce truc est absolument infect, pire que VBA, niveau portabilité

 

Mais vu la complexité du bousin, J'ai pas envie de réviser un truc qui existe déjà :o


---------------
Sah Quel Plaisir
n°5049618
Rasthor
Posté le 29-04-2018 à 18:57:18  profilanswer
 

109 Commonly Asked Data Science Interview Questions
https://www.springboard.com/blog/da [...] questions/

n°5049628
Rasthor
Posté le 29-04-2018 à 19:19:32  profilanswer
 

Au fait, j'ai une question:
 
J'ai un tas de donnees, disons des mots qui apparaissent des documents différents (bien sur, c'est des milliers de mots parmi des centaines de dizaines).
 
Pour chaque mot, j'ai son rang dans les docuemt y1, y2, y3 (via un score calcule selon une formule).
 
Document   y1  y2   y3
Mot X1         1   3      1
Mot X2         2   2      3
Mot X3         3   1      2
Mot X4         2   4      4
 
 
Je cherche a faire un clustering entre les mots, voir lesquels sont dans des rangs élevés dans les mêmes documents.
 
Comment pourrais-je faire cela de façon correct ?  
 
Pour le moment, je fais ca avec du K-Means clustering ou DBSCAN.
 
Mais je ne sais pas si ça marche bien sur les ranks. :??:
 
Un autre problème est que j'ai plein de valeurs manquantes (quand le mot n’apparaît pas dans le document). Le K-Means ne marche pas avec des valeures manquantes.
Donc je remplace par une valeurs max qui correspond aux nombres total de mots.
 
J'ai aussi pense a utiliser le score directement. Les valeurs sont très biaisées, mais si j'utilise un log, ca ressemble a une distribution normale, ce qui est ideal. Mais il reste le problème des valeurs manquants a gérer. Je peux mettre un score de 0, mais apres impossible de changer en log.
 
J'utilise scikit-learn.

Message cité 1 fois
Message édité par Rasthor le 29-04-2018 à 19:21:48
n°5049636
uuuugh
Posté le 29-04-2018 à 19:58:10  profilanswer
 

tu peux utiliser une gaussian mixture + EM pour le problème des valeurs manquantes
enfin pas sur que ce soit mieux que de donner une valeur arbitraire cohérente avec le pb  :o  
 
le reste aucune idée jamais vraiment travaillé avec du texte

Message cité 1 fois
Message édité par uuuugh le 29-04-2018 à 20:04:56
n°5049637
Rasthor
Posté le 29-04-2018 à 20:02:36  profilanswer
 

uuuugh a écrit :

tu peux utiliser une gaussian mixture + EM pour le problème des valeurs manquantes
 
le reste aucune idée jamais vraiment travaillé avec du texte


Merci.
 
Ce n'est pas vraiment le probleme que ce soit du texte.
 
On pourrait faire la même chose avec des coureurs de marathon et les différentes courses dans l'annee.
 
Course               y1  y2   y3
Coureur X1         1   3      1
Coureur X2         2   2      3
Coureur X3         3   1      2
Coureur X4         2   4      4

n°5049643
uuuugh
Posté le 29-04-2018 à 20:36:28  profilanswer
 

perso ça me semble cohérent de faire du clustering sur les rangs, mais peut être tester avec plusieurs distances aussi si tu veux pas trop pénaliser des comportements genre un mot rank 1 partout sauf rank 999 à un endroit
sinon ça semble cohérent aussi de mettre au dernier rang possible ceux qui n'ont pas de score, ça serait bête de perdre l'info qu'ils sont pas dans le texte
 
mes 2 cents (qui valent pas grand chose, j'ai quasi jamais fait de ML autre part que sur des images)

n°5049644
Profil sup​primé
Posté le 29-04-2018 à 20:37:44  answer
 

Rasthor a écrit :

Au fait, j'ai une question:
 
J'ai un tas de donnees, disons des mots qui apparaissent des documents différents (bien sur, c'est des milliers de mots parmi des centaines de dizaines).
 
Pour chaque mot, j'ai son rang dans les docuemt y1, y2, y3 (via un score calcule selon une formule).
 
Document   y1  y2   y3
Mot X1         1   3      1
Mot X2         2   2      3
Mot X3         3   1      2
Mot X4         2   4      4
 
 
Je cherche a faire un clustering entre les mots, voir lesquels sont dans des rangs élevés dans les mêmes documents.
 
Comment pourrais-je faire cela de façon correct ?  
 
Pour le moment, je fais ca avec du K-Means clustering ou DBSCAN.
 
Mais je ne sais pas si ça marche bien sur les ranks. :??:
 
Un autre problème est que j'ai plein de valeurs manquantes (quand le mot n’apparaît pas dans le document). Le K-Means ne marche pas avec des valeures manquantes.
Donc je remplace par une valeurs max qui correspond aux nombres total de mots.
 
J'ai aussi pense a utiliser le score directement. Les valeurs sont très biaisées, mais si j'utilise un log, ca ressemble a une distribution normale, ce qui est ideal. Mais il reste le problème des valeurs manquants a gérer. Je peux mettre un score de 0, mais apres impossible de changer en log.
 
J'utilise scikit-learn.


 
1) Utilise tf–idf pour ta vectorization pour ne garder que les top  X mots qui ajoutent de l'information à ton exemple
2) En utilisant cette matrice tu peux utiliser le K-means clustering (un exemple ici : tf–idf). Le problème que la matrice soit en majorité faite de 0 ne pose pas de problème d'un point de vue programmation, à toi de voir si tu as assez de documents pour que ca fasse sens d'un point de vue statistique
3) Si le K-means ne fonctionne pas, essaie la cosine similarity, je pense que c'est disponible sur scikit

n°5049655
Rasthor
Posté le 29-04-2018 à 21:25:46  profilanswer
 

:jap:
Ca reviendrait un peu a utiliser le score que je mentionnais (au lieu du rank).

Citation :

3) Si le K-means ne fonctionne pas, essaie la cosine similarity, je pense que c'est disponible sur scikit


Nope, c'est sur Scipy: https://docs.scipy.org/doc/scipy/re [...] osine.html
 
En utilisant, ca me donnerait la distance entre chaque mot. Et apres j'utilise cette matrice pour faire un Hierarchical clustering par exemple. :jap:

n°5050131
o_BlastaaM​oof_o
Posté le 30-04-2018 à 23:35:52  profilanswer
 

Dans "data scientist", y a "scientist".
 
On devrait interdire à tous ceux qui n'ont pas suivi un vrai cursus scientifique de se lancer dans la data science. La science, ce truc qui nécessite un minimum de curiosité et de débrouillardise, qui impose de lire des papiers pour connaître l'état de l'art et d'en rédiger pour à son tour partager ses travaux...
 
Il faudrait en particulier interdire l'accès à cette discipline à tous les tocards qui sortent des masters en stats. Les stats, c'est pas des maths. Si tu fais des stats et pas des maths, y a une raison, c'est que t'étais trop mauvais pour faire des maths, des vraies. Et pour info, NON, la régression logistique, pénalisée ou pas, c'est pas de l'intelligence artificielle bordel de merde.

n°5050134
Rasthor
Posté le 30-04-2018 à 23:39:00  profilanswer
 

[:turbocat:1]

n°5050137
o_BlastaaM​oof_o
Posté le 30-04-2018 à 23:43:18  profilanswer
 

J'en peux plus de tous ces nazes au bureau [:neernitt]

n°5050152
Rontgen
Posté le 30-04-2018 à 23:58:34  profilanswer
 

Les stats c'est des maths :o
Par contre ça m'étonnerait pas que beaucoup de Data Scientists soient mauvais en "vraies" stats :o

n°5050157
Rasthor
Posté le 01-05-2018 à 00:02:07  profilanswer
 

Je plaide coupable. :O

n°5050172
Darmstadti​um
Pipoteur grotesque
Posté le 01-05-2018 à 00:28:32  profilanswer
 

Les stats c'est des maths.

 

Les vrais tocards en data science c'est les types issus du génie logiciel qui ont suivi deux mooc.


---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets
n°5050201
Tidom
Posté le 01-05-2018 à 08:37:53  profilanswer
 

[:faman:1]  
Pas de violence, c'est les vacances  
Enfin un peu de respect pour la Fete du travail comême :o

n°5050227
o_BlastaaM​oof_o
Posté le 01-05-2018 à 10:48:49  profilanswer
 

Rontgen a écrit :

Les stats c'est des maths :o
Par contre ça m'étonnerait pas que beaucoup de Data Scientists soient mauvais en "vraies" stats :o

 

Faut définir ce que tu appelles des vraies stats. En général, les concepts de stats nécessaires au travail d'un data scientist sont assez légers.
Pour ma part, j'ai fait un peu de stats dans le cadre de ma formation initiale en mathématiques (c'était l'une des UE sur un semestre de master), je n'ai malgré cela aucune difficulté à suivre les data scientists dans leurs raisonnements.

 
Darmstadtium a écrit :

Les stats c'est des maths.

 

Les vrais tocards en data science c'est les types issus du génie logiciel qui ont suivi deux mooc.

 

Des exemples de profils tocards, je peux t'en sortir un paquet.
Le dev qui a senti le vent tourner et s'est mis à la data en faisant quelques MOOCs et des Kaggles, c'en est un effectivement.
Le pur stateux qui n'a jamais vu d'autre outil que R ou SAS et qui est infoutu de pondre le moindre bout de code bien écrit, c'en est un autre. (NB : R et SAS ne sont pas des langages de programmation.)
L'ingé qui se vend data scientist parce qu'il a un jour écrit un petit code Python qui traite des donneés (no shit, je me demande bien dans quelle discipline on n'est jamais amené à traiter de la donnée), c'en est encore un autre.

 

Au quotidien, je suis pas loin de péter un câble dans mon environnement actuel.
Entre ceux qui ne comprennent pas la différence entre un fichier et une base de données... parce qu'après tout, un fichier SAS, c'est une table :heink:
Ceux qui écrivent des codes R ou Python sans se soucier du typage de leurs données et du coup passent leur temps à me réclamer des bécanes avec des quantités de mémoire délirantes... mais arrêtez avec vos chaînes de caractères putain :pt1cable:
Ceux qui utilisent le ML en mode boîte noire comme des gorets sans comprendre ce qui se passe :ange:
Ceux qui continuent à discrétiser et binariser toutes leurs données avant de les balancer dans un algo de RF... :fou:
Ceux qui en plus ajoutent le carré et le cube de toutes les données pour introduire de la non linéarité... :sweat:

 

J'en ai marre.

Message cité 4 fois
Message édité par o_BlastaaMoof_o le 01-05-2018 à 10:49:00
n°5050231
Rasthor
Posté le 01-05-2018 à 10:57:46  profilanswer
 


Change de job.
Monte ta boite.
Achete une ferme dans les Pyrénées.
 
La vie est trop courte pour se faire chier. :/

n°5050235
Rontgen
Posté le 01-05-2018 à 11:11:01  profilanswer
 

C'est quoi ton boulot en fait ?

n°5050243
o_BlastaaM​oof_o
Posté le 01-05-2018 à 11:47:53  profilanswer
 

Data Architect dans la banque.

n°5050254
rokhlan
Posté le 01-05-2018 à 12:23:23  profilanswer
 

Darmstadtium a écrit :

Les stats c'est des maths.
 
Les vrais tocards en data science c'est les types issus du génie logiciel qui ont suivi deux mooc.


La violence [:paul de saint-balby:4]

n°5050257
deltanak
Posté le 01-05-2018 à 12:35:17  profilanswer
 

Bonjour,
 
Je vais intégrer une formation d'ingénieur en apprentissage et je souhaite me former au ML.
 
J'aimerais savoir s'il y a des apprentis ou des ex-apprentis sur le forum pour partager leurs expériences ?
 
Je suis à la recherche d'une entreprise mais avec le buzz autour du 'Big Data' je me rends compte qu'il y a beaucoup d'offres qui citent les 'buzzword' (Big data, data-scientist..) sans offrir une mission qui implique un réel approfondissement du sujet. On se retrouve à faire du dév web ou logiciel.
 
Merci à vous !

n°5050258
rokhlan
Posté le 01-05-2018 à 12:41:29  profilanswer
 

[:pingolu:2]

n°5050259
dr_zaius
Simius Mathematicus
Posté le 01-05-2018 à 12:41:33  profilanswer
 

o_BlastaaMoof_o a écrit :

Dans "data scientist", y a "scientist".
 
On devrait interdire à tous ceux qui n'ont pas suivi un vrai cursus scientifique de se lancer dans la data science. La science, ce truc qui nécessite un minimum de curiosité et de débrouillardise, qui impose de lire des papiers pour connaître l'état de l'art et d'en rédiger pour à son tour partager ses travaux...
 
Il faudrait en particulier interdire l'accès à cette discipline à tous les tocards qui sortent des masters en stats. Les stats, c'est pas des maths. Si tu fais des stats et pas des maths, y a une raison, c'est que t'étais trop mauvais pour faire des maths, des vraies. Et pour info, NON, la régression logistique, pénalisée ou pas, c'est pas de l'intelligence artificielle bordel de merde.


 
J'avoue, même Candès a eu besoin d'appeler Tao à l'aide  [:ocolor]
 
Je me sens vachement plus rassuré sur le plan scientifique par un mec qui se dit statisticien que par un mec qui se dit data scientist (ce qui ne te contredit pas d'ailleurs)
 
Sur le plan maths, même en restant sur un programme de base en stats, t'as quand même besoin (quasi au quotidien) de la théorie de la mesure, des processus stochastiques, de l'analyse fonctionnelle pour l'optimisation (un peu de calcul différentiel aussi), beaucoup d'algèbre linéaire, etc. On parle pas forcément d'un M2 fonda mais de solidement maîtriser tout le programme d'une licence de maths et un peu au-delà (juste pour le strict minimum en stats).


---------------
« Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran
n°5050274
Bébé Yoda
Posté le 01-05-2018 à 13:54:00  profilanswer
 

Moi je suis scientifique/physicien mais je suis pas au top en maths :(

n°5050277
Tidom
Posté le 01-05-2018 à 13:59:29  profilanswer
 

Bébé Yoda a écrit :

Moi je suis scientifique/physicien mais je suis pas au top en maths :(


 
Et c'est très bien :)
Tu as réussi à te réorienter, te former, trouver un job (et c'était pas facile), tu fais un truc qui te plait et qui est utile : tout va bien
 
Si tu écoutes certains: si tu n'as fait ULM t'es nul en maths et tu ne peux pas travailler en data science :o

n°5050282
Tidom
Posté le 01-05-2018 à 14:14:53  profilanswer
 


 
 A confirmer quand même avec une médaille de Fields ... Sinon

n°5050295
Bébé Yoda
Posté le 01-05-2018 à 14:42:50  profilanswer
 

Rontgen a écrit :

Les stats c'est des maths :o
Par contre ça m'étonnerait pas que beaucoup de Data Scientists soient mauvais en "vraies" stats :o

 

Ben Les vraies stats c'est un peu une discipline à part entière quand même. Mon beau-frère est un vrai statisticien c'est carrément autre chose que les collègues issus de biostat par exemple.

n°5050297
Bébé Yoda
Posté le 01-05-2018 à 14:44:32  profilanswer
 

o_BlastaaMoof_o a écrit :

 

Faut définir ce que tu appelles des vraies stats. En général, les concepts de stats nécessaires au travail d'un data scientist sont assez légers.
Pour ma part, j'ai fait un peu de stats dans le cadre de ma formation initiale en mathématiques (c'était l'une des UE sur un semestre de master), je n'ai malgré cela aucune difficulté à suivre les data scientists dans leurs raisonnements.

 


 
o_BlastaaMoof_o a écrit :

 

Des exemples de profils tocards, je peux t'en sortir un paquet.
Le dev qui a senti le vent tourner et s'est mis à la data en faisant quelques MOOCs et des Kaggles, c'en est un effectivement.
Le pur stateux qui n'a jamais vu d'autre outil que R ou SAS et qui est infoutu de pondre le moindre bout de code bien écrit, c'en est un autre. (NB : R et SAS ne sont pas des langages de programmation.)
L'ingé qui se vend data scientist parce qu'il a un jour écrit un petit code Python qui traite des donneés (no shit, je me demande bien dans quelle discipline on n'est jamais amené à traiter de la donnée), c'en est encore un autre.

 

Au quotidien, je suis pas loin de péter un câble dans mon environnement actuel.
Entre ceux qui ne comprennent pas la différence entre un fichier et une base de données... parce qu'après tout, un fichier SAS, c'est une table :heink:
Ceux qui écrivent des codes R ou Python sans se soucier du typage de leurs données et du coup passent leur temps à me réclamer des bécanes avec des quantités de mémoire délirantes... mais arrêtez avec vos chaînes de caractères putain :pt1cable:
Ceux qui utilisent le ML en mode boîte noire comme des gorets sans comprendre ce qui se passe :ange:
Ceux qui continuent à discrétiser et binariser toutes leurs données avant de les balancer dans un algo de RF... :fou:
Ceux qui en plus ajoutent le carré et le cube de toutes les données pour introduire de la non linéarité... :sweat:

 

J'en ai marre.

 

Question con, mais si tu leur explique 2/3 trucs ils adaptent leur comportement ou pas?
Le plus important c'est la capacité à évoluer et progresser et apprendre.

mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  32  33  34  ..  130  131  132  133  134  135

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR