Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1637 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  96  97  98  ..  128  129  130  131  132  133
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°5144776
Kayou
Posté le 07-11-2020 à 23:39:58  profilanswer
 

Reprise du message précédent :

flyingchair a écrit :


Pour découper en groupe il va falloir utiliser des algos de clustering. Tu as plusieurs approches : hiérarchique en arbres, avec des noeuds... :
https://larevueia.fr/clustering-les [...] connaitre/

 
draculax a écrit :

 

Dans ce que tu décris je vois 2 trucs différents :

 

garder que les fraudeurs et faire de la classification non-supervisée dessus => tu cherches à voir s'il existe différents profils de fraudeurs et en fonction de la technique t'auras les profils moyens de chaque catégorie (centroïd de chaque cluster en k-mean)

 

regarder les stats des features entre ensemble global / ensemble fraudeur pour voir s'il y a des différences significatives pour caractériser les fraudeurs.

 


 

Merci à vous, ça va dans le sens que je voyais :jap:


Message édité par Kayou le 07-11-2020 à 23:40:04
mood
Publicité
Posté le 07-11-2020 à 23:39:58  profilanswer
 

n°5144784
ilyes_lare​vueia
Blogueur en ML/data science
Posté le 08-11-2020 à 11:45:43  profilanswer
 

Kayou a écrit :

Petite question algo
 
J'ai un grand nombre de données que je voudrais classifier.
Le point discriminant c'est savoir s'ils sont fraudeurs ou pas, c'est l'information centrale.
 
A partir de la, et notamment s'ils sont fraudeurs, je voudrais faire des ensembles de personnes fraudeuses pour avoir des groupes types représentatifs de ces personnes avec un nombre de critères assez importants.
Quel type d'algo serait le plus à même de répondre à mon besoin ? (K means ?)
 
:jap:
 


 
Salut!
 
C'est typiquement un problème que l'on résout avec Random Forest ou XGBoost. C'est de l'apprentissage supervisé, de la classification (puisque tes données sont labélisée fraude/non fraude) et non du clustering. Les méthodes de clustering sont des méthodes qui permettent de séparer les données de façon non-supervisée.
 
Pour appliquer Random Forest ou XGBoost ça se fait assez facilement avec scikit-learn sur Python. Néanmoins, suivant tes données tu peux avoir un très gros travail de nettoyage en amont. J'ai écris plusieurs tutoriels dans lesquels j'explique pas à pas comment appliquer ces algos. Voici les liens :
 
XGBoost et RF pour classer les accidents par ordre de gravité : https://larevueia.fr/xgboost-vs-ran [...] -la-route/
 
Introduction à RF avec le problème Kaggle sur le Titanic : https://larevueia.fr/tutoriel-kaggl [...] -disaster/
 
Fonctionnement théorique de RF : https://larevueia.fr/random-forest/ (Jérôme Milot)

n°5144785
-Meringue-
Posté le 08-11-2020 à 12:21:46  profilanswer
 

Il y a quand même une part de clustering, puisqu’il souhaite former des groupes à partir de ses individus fraudeurs et que les regroupements n’ont l’air connus à l’avance  :spamafote:

n°5144787
flyingchai​r
Posté le 08-11-2020 à 13:15:54  profilanswer
 

Il faut admettre que la description du cas d’usage est faite avec les pieds  [:le guide:5]  
 
Il y a une première partie de classification supervisée, puis une seconde de clustering non supervisé. Mais pour quoi faire au final ? La France veut savoir  [:sarko_aloy] Pour créer de nouvelles classes à partir du clustering et faire de la classification supervisée sur ces nouvelles classes ?  [:hugo drax] Le mystère reste entier  [:alain hiramoux:5]

n°5144790
o_BlastaaM​oof_o
Posté le 08-11-2020 à 14:19:37  profilanswer
 

ilyes_larevueia a écrit :


 
Salut!
 
C'est typiquement un problème que l'on résout avec Random Forest ou XGBoost. C'est de l'apprentissage supervisé, de la classification (puisque tes données sont labélisée fraude/non fraude) et non du clustering. Les méthodes de clustering sont des méthodes qui permettent de séparer les données de façon non-supervisée.
 
Pour appliquer Random Forest ou XGBoost ça se fait assez facilement avec scikit-learn sur Python. Néanmoins, suivant tes données tu peux avoir un très gros travail de nettoyage en amont. J'ai écris plusieurs tutoriels dans lesquels j'explique pas à pas comment appliquer ces algos. Voici les liens :
 
XGBoost et RF pour classer les accidents par ordre de gravité : https://larevueia.fr/xgboost-vs-ran [...] -la-route/
 
Introduction à RF avec le problème Kaggle sur le Titanic : https://larevueia.fr/tutoriel-kaggl [...] -disaster/
 
Fonctionnement théorique de RF : https://larevueia.fr/random-forest/ (Jérôme Milot)


Le type qui écrit des blogs mais confond un algorithme avec l'implémentation d'un algorithme, ça donne confiance.

n°5144792
o_BlastaaM​oof_o
Posté le 08-11-2020 à 14:24:35  profilanswer
 

flyingchair a écrit :

Il faut admettre que la description du cas d’usage est faite avec les pieds  [:le guide:5]  
 
Il y a une première partie de classification supervisée, puis une seconde de clustering non supervisé. Mais pour quoi faire au final ? La France veut savoir  [:sarko_aloy] Pour créer de nouvelles classes à partir du clustering et faire de la classification supervisée sur ces nouvelles classes ?  [:hugo drax] Le mystère reste entier  [:alain hiramoux:5]


Non, c'est clair.
 
Il veut faire du clustering pour déterminer les caractéristiques types des différents types de fraudeur. J'imagine qu'ensuite, les caractéristiques qui auront été déterminées pourront permettre de détecter des fraudeurs en évaluant la distance d'une observation aux différents types de fraudeurs. Ceci à condition, bien entendu, qu'on ne retrouve pas les mêmes caractéristiques types chez les non fraudeurs.
 
Un jeu de données de détection de fraude étant par nature très déséquilibré, faire du clustering sur la population complète ne donnerait des informations que sur les non fraudeurs. Et il est assez courant que, sur ce type de use case, une approche strictement supervisée ne donne aucun résultat.

n°5144793
giorno_gio​75
Posté le 08-11-2020 à 16:02:49  profilanswer
 

Avant de lancer le bazooka du clustering (que je trouve toujours très chiant à faire perso), tu peux faire des choses très simples.
 
Des stats descriptives, des tests paramétriques/non paramétriques.
 
Je pense que c'est largement suffisant pour ton cas d'usage.

n°5144806
o_BlastaaM​oof_o
Posté le 09-11-2020 à 09:39:26  profilanswer
 


Une petite couche de Jenkins ?

n°5144810
Rasthor
Posté le 09-11-2020 à 10:13:10  profilanswer
 


- JIRA + Gitlab, avec integration de Gitlab dans JIRA, de sorte qu'une requete fermee dans JIRA ferme l'issue dans Gitlab.
- Pour Python:
-- Formatage automatique avec black ou yapf.
-- Controle qualite avec Pylint et/ou Flake8.
-- (Optionnel: force le typing de Python avec Mypy => cela permet un code plus robuste et plus clean).
-- Ajouter les controles en amont avec pre-commit et en aval avec le continuous-integration dans Gitlab.

n°5144940
Rontgen
Posté le 11-11-2020 à 08:05:48  profilanswer
 


Ça a du sens oui, si les images sont suffisamment représentatives

mood
Publicité
Posté le 11-11-2020 à 08:05:48  profilanswer
 

n°5144947
flyingchai​r
Posté le 11-11-2020 à 09:45:28  profilanswer
 


On évoque même pas la possibilité d’utiliser R  [:somberlain-]

Message cité 1 fois
Message édité par flyingchair le 11-11-2020 à 09:46:39
n°5144948
Rontgen
Posté le 11-11-2020 à 10:11:49  profilanswer
 

flyingchair a écrit :


On évoque même pas la possibilité d’utiliser R  [:somberlain-]


Il parle de computer vision la  [:gidoin]

n°5144949
flyingchai​r
Posté le 11-11-2020 à 10:30:55  profilanswer
 

Pas faux. Sinon ça serait intéressant d’ajouter ce qui vient d’être dit sur les bonnes pratiques ML en first page. Si le taulier passe par là :o

n°5144952
Rontgen
Posté le 11-11-2020 à 10:53:27  profilanswer
 

flyingchair a écrit :

Pas faux. Sinon ça serait intéressant d’ajouter ce qui vient d’être dit sur les bonnes pratiques ML en first page. Si le taulier passe par là :o


Si vous me faites un post bien structuré, je peux le copier/coller en FP :o

n°5144953
draculax
Posté le 11-11-2020 à 11:11:11  profilanswer
 


 
 
Saah le ML dream
 
J'ai la même chose en ce moment  :love:  
 
Mon boss veut que je prenne le code d'un ancien stagiaire pour le faire run dans une app web  :love:  :love:  
 
Je lui ai dit cash que passer d'un résultat vite fait qui marche en local pour un paper à de la prod ça marche quasi jamais, il m'a pris pour un fou  [:tigrou0007:4]  
 
 
Bonus point : le mec a littéralement appelé ses variables avec le nom des variables de maths  [:theo_le_patron]  [:theo_le_patron]  
j'ai la moitié de l'alphabet grec qui traine dans ses fichiers  [:tigrou0007:4]  

n°5144955
flyingchai​r
Posté le 11-11-2020 à 11:38:10  profilanswer
 

Rontgen a écrit :


Si vous me faites un post bien structuré, je peux le copier/coller en FP :o


NowC va préparer un truc bien écrit pour sa boîte, il pourra le mettre sur le fofo :o
 
Merci d’avance, cordialement :o

n°5144957
Rontgen
Posté le 11-11-2020 à 12:02:25  profilanswer
 

draculax a écrit :


Bonus point : le mec a littéralement appelé ses variables avec le nom des variables de maths  [:theo_le_patron]  [:theo_le_patron]  
j'ai la moitié de l'alphabet grec qui traine dans ses fichiers  [:tigrou0007:4]  


Ca me choque pas tant que ca si c'est cohérent avec le papier
Apres, ca depend si la quantite représente quelque chose qui a une signification compréhensible ou pas
 

flyingchair a écrit :


NowC va préparer un truc bien écrit pour sa boîte, il pourra le mettre sur le fofo :o
 
Merci d’avance, cordialement :o


Oui alors par contre je précise tout de suite: va me falloir un truc un peu mieux rédigé que son DS de terminale  [:babouin inarretable:2]

Message cité 2 fois
Message édité par Rontgen le 11-11-2020 à 12:02:45
n°5144959
dr_zaius
Simius Mathematicus
Posté le 11-11-2020 à 13:15:19  profilanswer
 

draculax a écrit :


 
 
Saah le ML dream
 
J'ai la même chose en ce moment  :love:  
 
Mon boss veut que je prenne le code d'un ancien stagiaire pour le faire run dans une app web  :love:  :love:  
 
Je lui ai dit cash que passer d'un résultat vite fait qui marche en local pour un paper à de la prod ça marche quasi jamais, il m'a pris pour un fou  [:tigrou0007:4]  
 
 
Bonus point : le mec a littéralement appelé ses variables avec le nom des variables de maths  [:theo_le_patron]  [:theo_le_patron]  
j'ai la moitié de l'alphabet grec qui traine dans ses fichiers  [:tigrou0007:4]  


 
je pourrais croire que c'est moi le stagiaire


---------------
« Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran
n°5144960
draculax
Posté le 11-11-2020 à 13:40:35  profilanswer
 

Rontgen a écrit :


Ca me choque pas tant que ca si c'est cohérent avec le papier
Apres, ca depend si la quantite représente quelque chose qui a une signification compréhensible ou pas

 


Oui alors par contre je précise tout de suite: va me falloir un truc un peu mieux rédigé que son DS de terminale  [:babouin inarretable:2]

 

non mais j'crois que t'as pas compris
y'a pas la variable

Code :
  1. lambda

qui traine pour régulariser, ça c'est normal et j'osef

 

y'a

Code :
  1. λ

Message cité 6 fois
Message édité par draculax le 11-11-2020 à 13:43:52
n°5144963
Rontgen
Posté le 11-11-2020 à 14:10:56  profilanswer
 

draculax a écrit :


 
non mais j'crois que t'as pas compris
y'a pas la variable

Code :
  1. lambda

qui traine pour régulariser, ça c'est normal et j'osef
 
y'a

Code :
  1. λ



 [:lol wut]  
Du coup t'apprends les codes ASCII par coeur ou tu fais du copier/coller a chaque caractère ?  [:clooney24]

n°5144967
Rasthor
Posté le 11-11-2020 à 14:38:52  profilanswer
 

C'est pas Julia qui fait ca, avec toute la symbolique ?

n°5144973
giorno_gio​75
Posté le 11-11-2020 à 16:53:25  profilanswer
 

draculax a écrit :


 
non mais j'crois que t'as pas compris
y'a pas la variable

Code :
  1. lambda

qui traine pour régulariser, ça c'est normal et j'osef
 
y'a

Code :
  1. λ



 
le mec qui a fait ça est un putain de fou furieux.

n°5144974
Tidom
Posté le 11-11-2020 à 16:55:54  profilanswer
 

draculax a écrit :


 
non mais j'crois que t'as pas compris
y'a pas la variable

Code :
  1. lambda

qui traine pour régulariser, ça c'est normal et j'osef
 
y'a

Code :
  1. λ



 
Les ravages des options latin/grec pour être dans les bonnes classes au collège :o

n°5144979
draculax
Posté le 11-11-2020 à 17:13:18  profilanswer
 

Rontgen a écrit :


 [:lol wut]  
Du coup t'apprends les codes ASCII par coeur ou tu fais du copier/coller a chaque caractère ?  [:clooney24]


 
Bah j'ai du tout rechangé a la main déjà
 
Fin j'ai réécris 90% de son code donc s'est passé à la trappe  :o  
 
 
EPFL
 

giorno_gio75 a écrit :


 
le mec qui a fait ça est un putain de fou furieux.


 

Tidom a écrit :


 
Les ravages des options latin/grec pour être dans les bonnes classes au collège :o


 
Le pire c'est qu'il a une belle ligne sur le CV après son passage ici  :)  :)

n°5144994
dr_zaius
Simius Mathematicus
Posté le 11-11-2020 à 18:39:50  profilanswer
 

draculax a écrit :


 
non mais j'crois que t'as pas compris
y'a pas la variable

Code :
  1. lambda

qui traine pour régulariser, ça c'est normal et j'osef
 
y'a

Code :
  1. λ



 
ah
 
oui là non


---------------
« Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran
n°5144996
o_BlastaaM​oof_o
Posté le 11-11-2020 à 18:44:12  profilanswer
 

draculax a écrit :


 
non mais j'crois que t'as pas compris
y'a pas la variable

Code :
  1. lambda

qui traine pour régulariser, ça c'est normal et j'osef
 
y'a

Code :
  1. λ



C'est débile mais je trouve ça énorme :love:

n°5145029
flyingchai​r
Posté le 12-11-2020 à 08:56:10  profilanswer
 

Fig. 1  : La réalité du métier de data scientifique - nettoyer des données ou récupérer et bricoler des algos tout pétés
 
 
 
 
En fait si les salaires sont élevés en DS c’est pas pour empêcher les DS de partir à la concurrence, mais pour les dissuader d’aller plutôt élever des chèvres.  [:theorie du nerdz]


Message édité par flyingchair le 12-11-2020 à 08:56:18
n°5145036
flyingchai​r
Posté le 12-11-2020 à 09:56:19  profilanswer
 

Tu vaux pas faire un blog ?  [:leve le pied jeannot:3]  
Ou une bd ?  [:leve le pied jeannot:3]  
Ou un blog bd ?  [:el_risitos]

n°5145038
-Meringue-
Posté le 12-11-2020 à 10:04:28  profilanswer
 

Excellente idée  :love:

mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  ..  96  97  98  ..  128  129  130  131  132  133

Aller à :
Ajouter une réponse
 

Sujets relatifs
Recherche d'emploi[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATAOrientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes [Topic Unique] EIVP
[Topic Unique] L'Aylite !!! 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR