[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 96 97 98 .. 128 129 130 131 132 133 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Kayou

Reprise du message précédent :

flyingchair a écrit :

Pour découper en groupe il va falloir utiliser des algos de clustering. Tu as plusieurs approches : hiérarchique en arbres, avec des noeuds... :
https://larevueia.fr/clustering-les [...] connaitre/

draculax a écrit :

Dans ce que tu décris je vois 2 trucs différents :

garder que les fraudeurs et faire de la classification non-supervisée dessus => tu cherches à voir s'il existe différents profils de fraudeurs et en fonction de la technique t'auras les profils moyens de chaque catégorie (centroïd de chaque cluster en k-mean)

regarder les stats des features entre ensemble global / ensemble fraudeur pour voir s'il y a des différences significatives pour caractériser les fraudeurs.

Merci à vous, ça va dans le sens que je voyais :jap:

Message édité par Kayou le 07-11-2020 à 23:40:04

Publicité

ilyes_larevueia

Blogueur en ML/data science

Kayou a écrit :

Petite question algo

J'ai un grand nombre de données que je voudrais classifier.
Le point discriminant c'est savoir s'ils sont fraudeurs ou pas, c'est l'information centrale.

A partir de la, et notamment s'ils sont fraudeurs, je voudrais faire des ensembles de personnes fraudeuses pour avoir des groupes types représentatifs de ces personnes avec un nombre de critères assez importants.
Quel type d'algo serait le plus à même de répondre à mon besoin ? (K means ?)

:jap:

Salut!

C'est typiquement un problème que l'on résout avec Random Forest ou XGBoost. C'est de l'apprentissage supervisé, de la classification (puisque tes données sont labélisée fraude/non fraude) et non du clustering. Les méthodes de clustering sont des méthodes qui permettent de séparer les données de façon non-supervisée.

Pour appliquer Random Forest ou XGBoost ça se fait assez facilement avec scikit-learn sur Python. Néanmoins, suivant tes données tu peux avoir un très gros travail de nettoyage en amont. J'ai écris plusieurs tutoriels dans lesquels j'explique pas à pas comment appliquer ces algos. Voici les liens :

XGBoost et RF pour classer les accidents par ordre de gravité : https://larevueia.fr/xgboost-vs-ran [...] -la-route/

Introduction à RF avec le problème Kaggle sur le Titanic : https://larevueia.fr/tutoriel-kaggl [...] -disaster/

Fonctionnement théorique de RF : https://larevueia.fr/random-forest/ (Jérôme Milot)

Message cité 1 fois

-Meringue-

Il y a quand même une part de clustering, puisqu’il souhaite former des groupes à partir de ses individus fraudeurs et que les regroupements n’ont l’air connus à l’avance :spamafote:

flyingchair

Il faut admettre que la description du cas d’usage est faite avec les pieds [:le guide:5]

Il y a une première partie de classification supervisée, puis une seconde de clustering non supervisé. Mais pour quoi faire au final ? La France veut savoir [:sarko_aloy] Pour créer de nouvelles classes à partir du clustering et faire de la classification supervisée sur ces nouvelles classes ? [:hugo drax] Le mystère reste entier [:alain hiramoux:5]

Message cité 1 fois

o_BlastaaMoof_o

ilyes_larevueia a écrit :

Le type qui écrit des blogs mais confond un algorithme avec l'implémentation d'un algorithme, ça donne confiance.

o_BlastaaMoof_o

flyingchair a écrit :

Non, c'est clair.

Il veut faire du clustering pour déterminer les caractéristiques types des différents types de fraudeur. J'imagine qu'ensuite, les caractéristiques qui auront été déterminées pourront permettre de détecter des fraudeurs en évaluant la distance d'une observation aux différents types de fraudeurs. Ceci à condition, bien entendu, qu'on ne retrouve pas les mêmes caractéristiques types chez les non fraudeurs.

Un jeu de données de détection de fraude étant par nature très déséquilibré, faire du clustering sur la population complète ne donnerait des informations que sur les non fraudeurs. Et il est assez courant que, sur ce type de use case, une approche strictement supervisée ne donne aucun résultat.

giorno_gio75

Avant de lancer le bazooka du clustering (que je trouve toujours très chiant à faire perso), tu peux faire des choses très simples.

Des stats descriptives, des tests paramétriques/non paramétriques.

Je pense que c'est largement suffisant pour ton cas d'usage.

o_BlastaaMoof_o

Une petite couche de Jenkins ?

Message cité 1 fois

Rasthor

- JIRA + Gitlab, avec integration de Gitlab dans JIRA, de sorte qu'une requete fermee dans JIRA ferme l'issue dans Gitlab.
- Pour Python:
-- Formatage automatique avec black ou yapf.
-- Controle qualite avec Pylint et/ou Flake8.
-- (Optionnel: force le typing de Python avec Mypy => cela permet un code plus robuste et plus clean).
-- Ajouter les controles en amont avec pre-commit et en aval avec le continuous-integration dans Gitlab.

Message cité 2 fois

Rontgen

Ça a du sens oui, si les images sont suffisamment représentatives

Publicité

flyingchair

On évoque même pas la possibilité d’utiliser R [:somberlain-]

Message cité 1 fois
Message édité par flyingchair le 11-11-2020 à 09:46:39

Rontgen

flyingchair a écrit :

On évoque même pas la possibilité d’utiliser R [:somberlain-]

Il parle de computer vision la [:gidoin]

flyingchair

Pas faux. Sinon ça serait intéressant d’ajouter ce qui vient d’être dit sur les bonnes pratiques ML en first page. Si le taulier passe par là

Message cité 1 fois

Rontgen

flyingchair a écrit :

Pas faux. Sinon ça serait intéressant d’ajouter ce qui vient d’être dit sur les bonnes pratiques ML en first page. Si le taulier passe par là

Si vous me faites un post bien structuré, je peux le copier/coller en FP

Message cité 1 fois

draculax

Saah le ML dream

J'ai la même chose en ce moment :love:

Mon boss veut que je prenne le code d'un ancien stagiaire pour le faire run dans une app web :love: :love:

Je lui ai dit cash que passer d'un résultat vite fait qui marche en local pour un paper à de la prod ça marche quasi jamais, il m'a pris pour un fou [:tigrou0007:4]

Bonus point : le mec a littéralement appelé ses variables avec le nom des variables de maths [:theo_le_patron]
j'ai la moitié de l'alphabet grec qui traine dans ses fichiers

Message cité 3 fois

flyingchair

Rontgen a écrit :

Si vous me faites un post bien structuré, je peux le copier/coller en FP

NowC va préparer un truc bien écrit pour sa boîte, il pourra le mettre sur le fofo

Merci d’avance, cordialement

Message cité 2 fois

Rontgen

draculax a écrit :

Bonus point : le mec a littéralement appelé ses variables avec le nom des variables de maths [:theo_le_patron]
j'ai la moitié de l'alphabet grec qui traine dans ses fichiers [:tigrou0007:4]

Ca me choque pas tant que ca si c'est cohérent avec le papier
Apres, ca depend si la quantite représente quelque chose qui a une signification compréhensible ou pas

flyingchair a écrit :

NowC va préparer un truc bien écrit pour sa boîte, il pourra le mettre sur le fofo

Merci d’avance, cordialement

Oui alors par contre je précise tout de suite: va me falloir un truc un peu mieux rédigé que son DS de terminale [:babouin inarretable:2]

Message cité 2 fois
Message édité par Rontgen le 11-11-2020 à 12:02:45

dr_zaius

Simius Mathematicus

draculax a écrit :

je pourrais croire que c'est moi le stagiaire

---------------
« Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran

draculax

Rontgen a écrit :

Ca me choque pas tant que ca si c'est cohérent avec le papier
Apres, ca depend si la quantite représente quelque chose qui a une signification compréhensible ou pas

Oui alors par contre je précise tout de suite: va me falloir un truc un peu mieux rédigé que son DS de terminale [:babouin inarretable:2]

non mais j'crois que t'as pas compris
y'a pas la variable

Code :

lambda

qui traine pour régulariser, ça c'est normal et j'osef

y'a

Code :

Message cité 6 fois
Message édité par draculax le 11-11-2020 à 13:43:52

Rontgen

draculax a écrit :

non mais j'crois que t'as pas compris
y'a pas la variable

Code :

lambda

qui traine pour régulariser, ça c'est normal et j'osef

y'a

Code :

[:lol wut]
Du coup t'apprends les codes ASCII par coeur ou tu fais du copier/coller a chaque caractère ? [:clooney24]

Message cité 1 fois

Rasthor

C'est pas Julia qui fait ca, avec toute la symbolique ?

giorno_gio75

draculax a écrit :

non mais j'crois que t'as pas compris
y'a pas la variable

Code :

lambda

qui traine pour régulariser, ça c'est normal et j'osef

y'a

Code :

le mec qui a fait ça est un putain de fou furieux.

Message cité 1 fois

Tidom

draculax a écrit :

non mais j'crois que t'as pas compris
y'a pas la variable

Code :

lambda

qui traine pour régulariser, ça c'est normal et j'osef

y'a

Code :

Les ravages des options latin/grec pour être dans les bonnes classes au collège

Message cité 1 fois

draculax

Rontgen a écrit :

[:lol wut]
Du coup t'apprends les codes ASCII par coeur ou tu fais du copier/coller a chaque caractère ? [:clooney24]

Bah j'ai du tout rechangé a la main déjà

Fin j'ai réécris 90% de son code donc s'est passé à la trappe

EPFL

giorno_gio75 a écrit :

le mec qui a fait ça est un putain de fou furieux.

Tidom a écrit :

Les ravages des options latin/grec pour être dans les bonnes classes au collège

Le pire c'est qu'il a une belle ligne sur le CV après son passage ici

dr_zaius

Simius Mathematicus

draculax a écrit :

non mais j'crois que t'as pas compris
y'a pas la variable

Code :

lambda

qui traine pour régulariser, ça c'est normal et j'osef

y'a

Code :

ah

oui là non

---------------
« Nous sommes tous des farceurs : nous survivons à nos problèmes.» Cioran

o_BlastaaMoof_o

draculax a écrit :

non mais j'crois que t'as pas compris
y'a pas la variable

Code :

lambda

qui traine pour régulariser, ça c'est normal et j'osef

y'a

Code :

C'est débile mais je trouve ça énorme :love:

flyingchair

Fig. 1 : La réalité du métier de data scientifique - nettoyer des données ou récupérer et bricoler des algos tout pétés

En fait si les salaires sont élevés en DS c’est pas pour empêcher les DS de partir à la concurrence, mais pour les dissuader d’aller plutôt élever des chèvres. [:theorie du nerdz]

Message édité par flyingchair le 12-11-2020 à 08:56:18

flyingchair

Tu vaux pas faire un blog ? [:leve le pied jeannot:3]
Ou une bd ?
Ou un blog bd ? [:el_risitos]

-Meringue-

Excellente idée :love:

Publicité

Page : 1 2 3 4 5 .. 96 97 98 .. 128 129 130 131 132 133

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Emploi & Etudes

Etudes / Orientation

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
Recherche d'emploi	[Topik Unique] Les girls de la section E&E
Avez vous des problèmatiques sur le Big Data ?	Master Finance et Stratégie de Science Po après des études de droit ?
Je veux travailler dans les Big DATA	Orientation pour Data Science & Recherche Opérationnelle
[Topic Unique] Concours ingénieur ENAC/IESSA : 30 postes	[Topic Unique] EIVP
[Topic Unique] L'Aylite !!!
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.072 secondes