[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 32 33 34 .. 130 131 132 133 134 135 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Voxinat

High Frequency Trolling

Reprise du message précédent :
Merci d'y jeter un oeil Rasthor :jap:

https://github.com/Waleem/MSM

Message édité par Voxinat le 29-04-2018 à 16:58:00

---------------
Sah Quel Plaisir

Publicité

Rasthor

Tu utilises quel OS ?

Voxinat

High Frequency Trolling

Windows 10

---------------
Sah Quel Plaisir

Rasthor

[:locke-tdi:3]

Rasthor

Quelle fonction fait planter le truc ?

Quel est le message d'erreur ?

Voxinat

High Frequency Trolling

Voila ce que je lance et ce que ça me dit :

source("Msm.R" )
source("Msm_A.R" )
source("Msm_clustermat.R" )
source("Msm_decompose.R" )
source("Msm_grad.R" )
source("Msm_hessian_2_sided.R" )
source("Msm_likelihood2.R" )
source("Msm_ll2.R" )
source("Msm_marginals.R" )
source("Msm_mat_power.R" )
source("Msm_parameter_check.R" )
source("Msm_predict.R" )
source("Msm_states.R" )
source("Msm_std_err.R" )
source("Msm_varcovvar.R" )
source("RcppExports.R" )

> load("calvet2004data.rda" )
> ret <- na.omit(as.matrix(calvet2004data$caret))*100
> fit <- Msm(ret)
Error in .Call("MSM_Msm_ll_cpp", PACKAGE = "MSM", pimat0, omegat, A) :
"MSM_Msm_ll_cpp" not available for .Call() for package "MSM"> load("calvet2004data.rda" )
> ret <- na.omit(as.matrix(calvet2004data$caret))*100
> fit <- Msm(ret)
Error in .Call("MSM_Msm_ll_cpp", PACKAGE = "MSM", pimat0, omegat, A) :
"MSM_Msm_ll_cpp" not available for .Call() for package "MSM"

Donc ça rentre bien dans la fonction principale Msm mais au moment d'appeler le code C++ ça plante

---------------
Sah Quel Plaisir

Rasthor

J'ai le meme probleme, j'y travaille.

Rasthor

Problem solved je crois:

Il faut installer ces deux packages:
install.packages("Rcpp" )
install.packages("RcppArmadillo" )

Et charger les modules .cpp qui sont dans le dossier 'src' comme cela:
sourceCpp("src/Msm_ll_cpp.cpp" )
sourceCpp("src/Msm_likelihood_cpp.cpp" )

etc...

Ensuite ca devrait marcher.

Message édité par Rasthor le 29-04-2018 à 17:44:24

Voxinat

High Frequency Trolling

Je viens de le faire avant de voir ta réponse.

J'ai une erreur, ca me dit qu'il faut que j'installe RTools.

Je refait tourner une fois que c'est installé et je reviens voir si je m'en sors toujours pas

---------------
Sah Quel Plaisir

o_BlastaaMoof_o

Les joies de R :lol:

Message cité 1 fois

Publicité

Voxinat

High Frequency Trolling

o_BlastaaMoof_o a écrit :

Les joies de R :lol:

Clairement ce truc est absolument infect, pire que VBA, niveau portabilité

Mais vu la complexité du bousin, J'ai pas envie de réviser un truc qui existe déjà

Message cité 1 fois

---------------
Sah Quel Plaisir

Rasthor

109 Commonly Asked Data Science Interview Questions
https://www.springboard.com/blog/da [...] questions/

Rasthor

Au fait, j'ai une question:

J'ai un tas de donnees, disons des mots qui apparaissent des documents différents (bien sur, c'est des milliers de mots parmi des centaines de dizaines).

Pour chaque mot, j'ai son rang dans les docuemt y1, y2, y3 (via un score calcule selon une formule).

Document y1 y2 y3
Mot X1 1 3 1
Mot X2 2 2 3
Mot X3 3 1 2
Mot X4 2 4 4

Je cherche a faire un clustering entre les mots, voir lesquels sont dans des rangs élevés dans les mêmes documents.

Comment pourrais-je faire cela de façon correct ?

Pour le moment, je fais ca avec du K-Means clustering ou DBSCAN.

Mais je ne sais pas si ça marche bien sur les ranks. :??:

Un autre problème est que j'ai plein de valeurs manquantes (quand le mot n’apparaît pas dans le document). Le K-Means ne marche pas avec des valeures manquantes.
Donc je remplace par une valeurs max qui correspond aux nombres total de mots.

J'ai aussi pense a utiliser le score directement. Les valeurs sont très biaisées, mais si j'utilise un log, ca ressemble a une distribution normale, ce qui est ideal. Mais il reste le problème des valeurs manquants a gérer. Je peux mettre un score de 0, mais apres impossible de changer en log.

J'utilise scikit-learn.

Message cité 1 fois
Message édité par Rasthor le 29-04-2018 à 19:21:48

uuuugh

tu peux utiliser une gaussian mixture + EM pour le problème des valeurs manquantes
enfin pas sur que ce soit mieux que de donner une valeur arbitraire cohérente avec le pb

le reste aucune idée jamais vraiment travaillé avec du texte

Message cité 1 fois
Message édité par uuuugh le 29-04-2018 à 20:04:56

Rasthor

uuuugh a écrit :

tu peux utiliser une gaussian mixture + EM pour le problème des valeurs manquantes

le reste aucune idée jamais vraiment travaillé avec du texte

Merci.

Ce n'est pas vraiment le probleme que ce soit du texte.

On pourrait faire la même chose avec des coureurs de marathon et les différentes courses dans l'annee.

Course y1 y2 y3
Coureur X1 1 3 1
Coureur X2 2 2 3
Coureur X3 3 1 2
Coureur X4 2 4 4

uuuugh

perso ça me semble cohérent de faire du clustering sur les rangs, mais peut être tester avec plusieurs distances aussi si tu veux pas trop pénaliser des comportements genre un mot rank 1 partout sauf rank 999 à un endroit
sinon ça semble cohérent aussi de mettre au dernier rang possible ceux qui n'ont pas de score, ça serait bête de perdre l'info qu'ils sont pas dans le texte

mes 2 cents (qui valent pas grand chose, j'ai quasi jamais fait de ML autre part que sur des images)

Profil supprimé

Rasthor a écrit :

1) Utilise tf–idf pour ta vectorization pour ne garder que les top X mots qui ajoutent de l'information à ton exemple
2) En utilisant cette matrice tu peux utiliser le K-means clustering (un exemple ici : tf–idf). Le problème que la matrice soit en majorité faite de 0 ne pose pas de problème d'un point de vue programmation, à toi de voir si tu as assez de documents pour que ca fasse sens d'un point de vue statistique
3) Si le K-means ne fonctionne pas, essaie la cosine similarity, je pense que c'est disponible sur scikit

Message cité 1 fois

Rasthor

:jap:
Ca reviendrait un peu a utiliser le score que je mentionnais (au lieu du rank).

Citation :

3) Si le K-means ne fonctionne pas, essaie la cosine similarity, je pense que c'est disponible sur scikit

Nope, c'est sur Scipy: https://docs.scipy.org/doc/scipy/re [...] osine.html

En utilisant, ca me donnerait la distance entre chaque mot. Et apres j'utilise cette matrice pour faire un Hierarchical clustering par exemple. :jap:

o_BlastaaMoof_o

Dans "data scientist", y a "scientist".

On devrait interdire à tous ceux qui n'ont pas suivi un vrai cursus scientifique de se lancer dans la data science. La science, ce truc qui nécessite un minimum de curiosité et de débrouillardise, qui impose de lire des papiers pour connaître l'état de l'art et d'en rédiger pour à son tour partager ses travaux...

Il faudrait en particulier interdire l'accès à cette discipline à tous les tocards qui sortent des masters en stats. Les stats, c'est pas des maths. Si tu fais des stats et pas des maths, y a une raison, c'est que t'étais trop mauvais pour faire des maths, des vraies. Et pour info, NON, la régression logistique, pénalisée ou pas, c'est pas de l'intelligence artificielle bordel de merde.

Message cité 1 fois

Rasthor

[:turbocat:1]

o_BlastaaMoof_o

J'en peux plus de tous ces nazes au bureau [:neernitt]

Rontgen

Les stats c'est des maths
Par contre ça m'étonnerait pas que beaucoup de Data Scientists soient mauvais en "vraies" stats

Message cité 2 fois

Rasthor

Je plaide coupable.

Darmstadtium

Pipoteur grotesque

Les stats c'est des maths.

Les vrais tocards en data science c'est les types issus du génie logiciel qui ont suivi deux mooc.

Message cité 2 fois

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

Tidom

[:faman:1]
Pas de violence, c'est les vacances
Enfin un peu de respect pour la Fete du travail comême

o_BlastaaMoof_o

Rontgen a écrit :

Les stats c'est des maths
Par contre ça m'étonnerait pas que beaucoup de Data Scientists soient mauvais en "vraies" stats

Faut définir ce que tu appelles des vraies stats. En général, les concepts de stats nécessaires au travail d'un data scientist sont assez légers.
Pour ma part, j'ai fait un peu de stats dans le cadre de ma formation initiale en mathématiques (c'était l'une des UE sur un semestre de master), je n'ai malgré cela aucune difficulté à suivre les data scientists dans leurs raisonnements.

Darmstadtium a écrit :

Les stats c'est des maths.

Les vrais tocards en data science c'est les types issus du génie logiciel qui ont suivi deux mooc.

Des exemples de profils tocards, je peux t'en sortir un paquet.
Le dev qui a senti le vent tourner et s'est mis à la data en faisant quelques MOOCs et des Kaggles, c'en est un effectivement.
Le pur stateux qui n'a jamais vu d'autre outil que R ou SAS et qui est infoutu de pondre le moindre bout de code bien écrit, c'en est un autre. (NB : R et SAS ne sont pas des langages de programmation.)
L'ingé qui se vend data scientist parce qu'il a un jour écrit un petit code Python qui traite des donneés (no shit, je me demande bien dans quelle discipline on n'est jamais amené à traiter de la donnée), c'en est encore un autre.

Au quotidien, je suis pas loin de péter un câble dans mon environnement actuel.
Entre ceux qui ne comprennent pas la différence entre un fichier et une base de données... parce qu'après tout, un fichier SAS, c'est une table :heink:
Ceux qui écrivent des codes R ou Python sans se soucier du typage de leurs données et du coup passent leur temps à me réclamer des bécanes avec des quantités de mémoire délirantes... mais arrêtez avec vos chaînes de caractères putain :pt1cable:
Ceux qui utilisent le ML en mode boîte noire comme des gorets sans comprendre ce qui se passe :ange:
Ceux qui continuent à discrétiser et binariser toutes leurs données avant de les balancer dans un algo de RF... :fou:
Ceux qui en plus ajoutent le carré et le cube de toutes les données pour introduire de la non linéarité... :sweat:

J'en ai marre.

Message cité 4 fois
Message édité par o_BlastaaMoof_o le 01-05-2018 à 10:49:00

Rasthor

o_BlastaaMoof_o a écrit :

J'en ai marre.

Change de job.
Monte ta boite.
Achete une ferme dans les Pyrénées.

La vie est trop courte pour se faire chier.

Rontgen

C'est quoi ton boulot en fait ?

o_BlastaaMoof_o

Data Architect dans la banque.

rokhlan

Darmstadtium a écrit :

Les stats c'est des maths.

Les vrais tocards en data science c'est les types issus du génie logiciel qui ont suivi deux mooc.

La violence [:paul de saint-balby:4]

deltanak

Bonjour,

Je vais intégrer une formation d'ingénieur en apprentissage et je souhaite me former au ML.

J'aimerais savoir s'il y a des apprentis ou des ex-apprentis sur le forum pour partager leurs expériences ?

Je suis à la recherche d'une entreprise mais avec le buzz autour du 'Big Data' je me rends compte qu'il y a beaucoup d'offres qui citent les 'buzzword' (Big data, data-scientist..) sans offrir une mission qui implique un réel approfondissement du sujet. On se retrouve à faire du dév web ou logiciel.

Merci à vous !

rokhlan

[:pingolu:2]

dr_zaius

Simius Mathematicus

o_BlastaaMoof_o a écrit :

J'avoue, même Candès a eu besoin d'appeler Tao à l'aide [:ocolor]

Je me sens vachement plus rassuré sur le plan scientifique par un mec qui se dit statisticien que par un mec qui se dit data scientist (ce qui ne te contredit pas d'ailleurs)

Sur le plan maths, même en restant sur un programme de base en stats, t'as quand même besoin (quasi au quotidien) de la théorie de la mesure, des processus stochastiques, de l'analyse fonctionnelle pour l'optimisation (un peu de calcul différentiel aussi), beaucoup d'algèbre linéaire, etc. On parle pas forcément d'un M2 fonda mais de solidement maîtriser tout le programme d'une licence de maths et un peu au-delà (juste pour le strict minimum en stats).

Message cité 1 fois

---------------
« Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran

Bébé Yoda

Moi je suis scientifique/physicien mais je suis pas au top en maths

Message cité 1 fois

Tidom

Bébé Yoda a écrit :

Moi je suis scientifique/physicien mais je suis pas au top en maths

Et c'est très bien
Tu as réussi à te réorienter, te former, trouver un job (et c'était pas facile), tu fais un truc qui te plait et qui est utile : tout va bien

Si tu écoutes certains: si tu n'as fait ULM t'es nul en maths et tu ne peux pas travailler en data science

Message cité 1 fois

Tidom

A confirmer quand même avec une médaille de Fields ... Sinon

Bébé Yoda

Rontgen a écrit :

Les stats c'est des maths
Par contre ça m'étonnerait pas que beaucoup de Data Scientists soient mauvais en "vraies" stats

Ben Les vraies stats c'est un peu une discipline à part entière quand même. Mon beau-frère est un vrai statisticien c'est carrément autre chose que les collègues issus de biostat par exemple.

Bébé Yoda

o_BlastaaMoof_o a écrit :

J'en ai marre.

Question con, mais si tu leur explique 2/3 trucs ils adaptent leur comportement ou pas?
Le plus important c'est la capacité à évoluer et progresser et apprendre.

Message cité 1 fois

Publicité

Page : 1 2 3 4 5 .. 32 33 34 .. 130 131 132 133 134 135

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.065 secondes