[Topic Unique] Machine Learning & Data Science

Recherche :

Mot : Pseudo : Filtrer Aller à la page :
Page : 1 2 3 4 5 .. 20 21 22 .. 133 134 135 136 137 138 Page Suivante Page Précédente Bas de page
Auteur	Sujet : [Topic Unique] Machine Learning & Data Science

Bébé Yoda

Reprise du message précédent :

Ah oui bonne idée je vais regarder !

Bébé Yoda

Un nouveau MOOC qui à l'air assez intéressant :
https://www.coursera.org/learn/comp [...] a-science/

draculax

Je connais bien la boîte qui fait l'évent datajobs et c'est vraiment sympa. Ils veulent faire un truc qui change des salons classiques et formels.

Par contre la plupart des gens que je connais qui y vont / des boîtes qui y sont et qui recrutent, c'est plutôt axé école d'ingénieur bien classé. Mais ça coûte rien d'y aller

Bébé Yoda

Miam les mentalités bien françaises, je sens que je vais rien rater...

Profil supprimé

draculax a écrit :

On va dire que le mec qui m'a conseillé cet event c'est un X-PhD, j'ai flairé l'embrouille à ce moment là [:keeplooking:5]

Si j'y vais et que je dis: "Bonjour je suis dans une école post bac bidon mais j'ai 19.50 de moyenne en ML (1 DS, 2 DM et 1 interro)", y'a quand même moyen ou pas ? :ange:

cassiopella

Bébé Yoda a écrit :

Un nouveau MOOC qui à l'air assez intéressant :
https://www.coursera.org/learn/comp [...] a-science/

Cela sera purement IT, vu le profil des "enseignants" et le fait qu'ils viennent de Yandex (moteur de recherche russe). Mais cela vaut la peine de voir.

rogermajax

Après c'est Yandex qui a sorti Catboost, une librairie de gradient boosting qui a de bons résultats en précision.

Message édité par rogermajax le 19-11-2017 à 19:13:49

Bébé Yoda

cassiopella a écrit :

Cela sera purement IT, vu le profil des "enseignants" et le fait qu'ils viennent de Yandex (moteur de recherche russe). Mais cela vaut la peine de voir.

Disons que ça me semble très opérationnel, ça change des autres moocs plus théoriques. Je pense que c'est un bon complément

Profil supprimé

HS : Quelqu'un sait pourquoi les vues de mon profil Linkedin baissent ? Je suis passé de 69 à 62 alors que j'ai le même nombre de relations [:la chancla:1]

Pour le MOOC, ça peut servir à ceux qui poncent Kaggle mais ça doit être complètement useless pour les autre non ? Je ne pense pas que ce MOOC introduise de nouveaux concepts/algos...

draculax

Bébé Yoda a écrit :

Miam les mentalités bien françaises, je sens que je vais rien rater...

Je suis d'accord avec toi. Mais quand tu veux recruter un JD ça reste un critère pertinent.

cassiopella

rogermajax a écrit :

Après c'est Yandex qui a sorti Catboost, une librairie de gradient boosting qui a de bons résultats en précision.

Je n'ai pas dit que ça sera un mauvais MOOC

P.S. depuis quand Coursera est payant???

sinbadlemarin

Depuis un moment deja mais pas pour tous les cours. Tu peux encore en faire de très bons gratuits.

SSgomad

Salut à tous, mon PC a une carte graphique AMD et je trouve cela assez compliqué pour faire des calculs sur GPU, puisque la majorité des frameworks ont été conçus avec CUDA/NVIDIA en tête. Y a-t-il des frameworks que vous me recommandez pour contourner ce problème ? J'ai essayé Keras avec Theano en backend, j'ai suivi les instructions sur le site pour basculer en GPU mais ça ne marche pas.

Bébé Yoda

SSgomad a écrit :

J'ai le même problème.
À ta place je ne perdrais pas trop de temps avec theano dont la fin du développement a été annoncée fin septembre...

À priori il y a une solution avec hipcaffee mais j'ai pas eu le courage de pousser les tests très loin.

Tensorflow devrait bientôt supporter opencl, bon ok ça fait 2 ans qu'ils en parlent mais là on dirait que c'est pour bientôt.

Sinon j'ai entendu parler d'un framework que j'ai pas du tout testé : Apache Singa. Il supporte opencl en natif normalement.

Darmstadtium

Pipoteur grotesque

Caffe a une branche OpenCL qui est censée marcher à peu près... mais bon.

Personnellement j'attends plutôt le port des codes CUDA vers la plateforme ROC d'AMD et leur lib OpenML. Entre HIP qui aide à traduire CUDA, HCC qui est un genre de C++ qui compile pour différents hardware etc. Il devrait y avoir prochainement des frameworks qui marchent sur CG indépendamment du vendeur, mais aussi Xeon Phi, FPGA...

Je croise les doigts [:zigg]

---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets

Rontgen

Effectivement, ce serait bien que le monopole de NVIDIA soit un peu cassé :jap:

fusion_sadam

Dans le genre ~~FGPA~~ FPGA, des retours (ou un bon article) sur la movidius d'Intel ? https://developer.movidius.com/

Message édité par fusion_sadam le 23-11-2017 à 09:06:49

---------------
On sait pas trop quoi dire dans des circonstances pareilles...

Rontgen

fusion_sadam a écrit :

Dans le genre FGPA, des retours (ou un bon article) sur la movidius d'Intel ? https://developer.movidius.com/

Ah merci de m'y faire penser, je voulais en acheter un au boulot mais ils avaient plus de stock
Je viens de voir qu'ils ont des disponibilites maintenant, du coup je vais peut etre essayer

Pas évident de trouver des retours dessus, mais ce mec là a l'air plutot content
https://www.amazon.com/gp/customer- [...] B076751BN8

fusion_sadam

Ouais j'ai cherché vite fais, j'ai pas vu grand chose : https://medium.com/@soobrosa/deep-l [...] e09eeca2d6

@zuf : c'est une thématique qui te branche ?

---------------
On sait pas trop quoi dire dans des circonstances pareilles...

Bébé Yoda

Carrément.
Bon pour l'instant j'ai seulement utilisé tensorflow, pas caffe mais c'est pas trop gênant.

C'est intéressant comme concept

etocelo

Liberté pour Jean-Guy

Bonjour à vous, je suis étudiant en médecine et je vous voudrais savoir si vous avez des sites de référence, des auteurs ou des équipes à conseiller pour me tenir à jour des avancées dans le domaine du ML en général et pour la santé en particulier (je m’intéresse notamment à l'utilisation de ces nouvelles technologies en anesthésie-réanimation). Je recherche aussi les applications pratiques qui découlent de tout ça et qui ont effectivement été mise en place à l’hôpital, pas juste des concepts théoriques. C'est un domaine qui m’intéresse et je dois avouer que nous avons assez peu d'information là-dessus à la faculté sans doute par manque de temps, le programme étant déjà très chargé.

Merci d'avance :jap:

Message édité par etocelo le 24-11-2017 à 13:54:28

Rontgen

Salut ! C'est cool de voir que des futurs médecins s'intéressent très tot à ca :jap:

Quel type d'applications t'intéresse ?
- D'un coté tu as tout ce qui concerne le traitement et l'analyse automatiques d'images ou de signaux (que ce soit pour du diagnostic ou de l'interventionnel),
- De l'autre tu as plutot des méthodes qui prennent en entrée des données plus "discrètes" (au sens mathématique du terme) genre l'age du patient, le résultat de tel examen, etc.

Bébé Yoda

On fait des trucs super en analyse d'images, par exemple :
https://stanfordmlgroup.github.io/projects/chexnet/

Bébé Yoda

J'ai une question vraiment basique.

Dans un problème de classification, si j'ai 2 classes plutôt mal balancées, par exemple 98% de 1 et 2% de 0, mon modèle ne va prédire que des 1.

Je voulais faire un équilibrage simple, mais je me demande s'il vaut mieux :
- Enlever une partie des samples "1"

- Dupliquer des samples "0" et faire un append

Je sens que comme d'habitude, la réponse va être : ça dépend faut tester les deux

KevinTran

Photographe

Vous connaissez ce site : https://help.xlstat.com/customer/en [...] es/2062457

Utile pour avoir une cheatsheet sous la main

---------------
http://www.kevintran.fr

Rontgen

Bébé Yoda a écrit :

J'aurais plutot tendance a dupliquer des samples 0
En fait, il y a un peu plus intelligent que ca: tu peux essayer de créer des nouveaux 0 par interpolation de 0 actuels

Regarde par exemple SMOTE
https://en.wikipedia.org/wiki/Overs [...] a_analysis

etocelo

Liberté pour Jean-Guy

Rontgen a écrit :

Bébé Yoda a écrit :

On fait des trucs super en analyse d'images, par exemple :
https://stanfordmlgroup.github.io/projects/chexnet/

Merci pour l'article, c'est typiquement le genre de chose que je recherche et j'allais justement demander où en était la recherche sur la lecture d'image simple style Rx thorax (à noter que dans mon CHU les radiologues n’interprètent déjà plus les Rx thorax et n'importe quel médecin doit savoir le faire). Pour le genre d'application qui m’intéresse, c'est tout ce qui touche à la santé en général. Il y a l'imagerie bien sûr. Par exemple j'ai en tête le cas de la carcinose péritonéale pour laquelle nous devons calculer un score à partir d'imagerie TDM et IRM, score qui se base sur le nombre et la localisation des lésions. Ce repérage est très "artisanal" et opérateur-dépendant dira t'on, dans le sens où il faut vraiment un radiologue très expérimenté. Et parfois, ce score diffère du score que calcule le chirurgien lorsqu'il ouvre pour faire la CHIP (résection et bain de chimiothérapie). Je me demande quand est-ce que nous avons voir une automatisation du repérage sur de l'imagerie complexe avec une sensibilité et une spécificité équivalente aux radiologues expérimentés. Malheureusement pour le ML mais heureusement pour les patients, les carcinoses péritonéales et l'imagerie qui va avec ne sont pas aussi rependues qu'une simple radio pulm donc ça va être difficile de construire une base de donnée j'imagine.

Je m’intéresse aussi à un genre de software de réanimation intelligente, qui pourrait prédire l’évolution du patient en croisant une énorme base de donnée avec la clinique, les données du respirateur, les constantes, la biologie, l'imagerie etc... En pratique c'est ce que fait déjà le réanimateur mais à une plus petite échelle. C'est sûrement de la science-fiction mais bon. Il n’empêche que depuis que je m’intéresse au sujet je réfléchie un peu différemment sur mon future choix de spécialité : j’hésiterais un peu à faire radiologue maintenant, même si c'est une spé géniale !

Vous savez si il y a des médecins qui font le pont entre les deux mondes (ML et pratique clinique) pour pouvoir travailler un peu dans ce domaine ?

Message édité par etocelo le 24-11-2017 à 17:37:07

Rontgen

A propos du papier de CheXnet, tu as ce lien qui peut etre intéressant : http://n2value.com/blog/chexnet-a-brief-evaluation/
Et j'avais aussi trouvé un blog intéressant d'un (étudiant ?) radiologue qui s'y connaissait beaucoup en ML, et qui était d'ailleurs assez critique sur ce papier il me semble, mais plus moyen de retrouver l'adresse

En fait, le machine learning - et plus particulièrement le deep learning - a fait d'énormes progrès récemment, alors qu'avant les performances étaient très loin de satisfaire des exigences cliniques.
A l'heure actuelle, tu trouveras donc principalement (et en quantité incroyable) des papiers de recherche plutot que des produits, tout simplement parce que ca prend beaucoup de temps à une entreprise de développer un produit, d'acquérir des données et surtout de le tester et le faire certifier.
Mais je pense que tout ca va commencer à bientot arriver sur le marché, il y a beaucoup de start-ups qui se créent dans ce domaine et même les grands constructeurs d'appareils médicaux bossent sur ca. L'année dernière par exemple, Samsung a quand meme réussi à sortir un module de détection de cancer utilisant du deep learning dans un échorgaphe ( https://www.popsci.com/how-deep-lea [...] -detection ).

Enfin, il y a très peu de médecins qui sont compétents en ML, tout simplement parce que c'est dur de se spécialiser dans deux choses à la fois et que les médecins sont déjà très surchargés. En général, ce qu'il se passe c'est soit (i) des médecins très orientés recherche rencontrent des chercheurs techniques orientés clinique lors de conférences interdisciplinaires et ils se mettent à bosser ensemble, soit (ii) les gens du marketing ("spécialistes applications cliniques" ) des grandes boites font remonter les besoins cliniques en interne et s'occupent de faire l'interface.
Ce que j'observe de plus en plus, c'est que des médecins fondent des start-ups en s'associant avec un commercial et une personne technique; du coup ca les expose forcément aux nouvelles technologies développées.

TiDom

Bébé Yoda a écrit :

D'ailleurs tu soulèves une question sous-jacente très importante : l'évaluation des classifieurs dans les données à classes disproportionnées.
En gros, dans ton cas, prédire que des 1 (la classe majoritaire) te donnera un très bon taux d'erreur global. Mais ce n'est pas ce qui t'intéresse puisque la classe cible est la classe minoritaire.
Il y a des indices de performance pour les données disproportionnées :
le plus simple : le taux d'erreur de la classe cible
la courbe ROC (ou l'aire sous la courbe ROC : AUC)
la courbe Précision-Rappel (et l'aire dessous AUC-PR), le plus "récent"
les courbes de couts (cost curves)

Pour utiliser les courbes, il faut un classifieur qui produit un score (qui s'apparente à une probabilité d'appartenance à la classe cible).

Dans un contexte plus opérationnel, du type détection de churn ou credit ou autre ciblage marketing (donc avec classe cible très minoritaire), on utilise aussi les courbes de lift ou les cumulative gain chart : ça te permet de sélectionner "intelligemment" une partie de ta population. Dans cette partie sélectionnée tu as un ratio de classe cible normalement beaucoup plus important.
Un aperçu : https://eric.univ-lyon2.fr/~ricco/c [...] iblage.pdf
(il y a d'autres bonnes infos sur le site de Ricco Rakotomalala)

TiDom

etocelo a écrit :

Je m’intéresse aussi à un genre de software de réanimation intelligente, qui pourrait prédire l’évolution du patient en croisant une énorme base de donnée avec la clinique, les données du respirateur, les constantes, la biologie, l'imagerie etc... En pratique c'est ce que fait déjà le réanimateur mais à une plus petite échelle. C'est sûrement de la science-fiction mais bon. Il n’empêche que depuis que je m’intéresse au sujet je réfléchie un peu différemment sur mon future choix de spécialité : j’hésiterais un peu à faire radiologue maintenant, même si c'est une spé géniale !

Vous savez si il y a des médecins qui font le pont entre les deux mondes (ML et pratique clinique) pour pouvoir travailler un peu dans ce domaine ?

Comme la e-santé est en plein boom depuis quelques années, il s'est créé récemment des GCS (Groupement de Coopération Sanitaire) e-santé dans presque toutes les régions de France. Ce sont des structures mi-privées mi-publiques qui ont en général pas mal de financements.
par exemple :
https://www.esante-bretagne.fr/
https://www.esante-paysdelaloire.fr/
www.esante-picardie.com

Ils sont souvent en lien avec les CHU et les praticiens hors CHU. Selon les cas ils peuvent avoir investi dans des infrastructures de stockage de données de tout type en lien avec la santé : trajectoire de patients, suivi des ALD, ...

A voir donc dans ta région.

Pina Colada

Bébé Yoda a écrit :

Pourquoi as tu autant peu de samples pour une classe ?
Est ce qu'il pourrait s'agir d'un cas spécifique de classification à savoir la détection d'anomalie?

Bébé Yoda

En fait c'est le concours Porto seguro sur kaggle.
Il n'y a que 3.6% de la classe à prédire.

Je vais regarder les stratégies mentionnées plus haut.
Pour l'instant je me suis contenté de dupliquer la classe plusieurs fois mais c'est visiblement pas idéal. La question est surtout jusqu'à combien aller...

SSgomad

Bonjour à tous, ma question relève plus du traitement de signal que de ML mais quels outils me conseillerez vous pour analyser un électro-encéphalo-gramme (EEG)? C'est une courbe qui représente l'activité cérébrale d'un individu, qui ressemble un peu à un séismogramme. Y a-t-il des packages Python (voire R) qui permettent de dégager des grandeurs pertinentes ? Merci

Rontgen

SSgomad a écrit :

Que cherches-tu à faire avec tes EEG ? Que veut dire ton "pertinent" (par rapport a quoi une grandeur est-elle pertinente) ?
Si tu as des données annotées et que tu cherches à construire un algorithme qui "apprend" ces annotations, la piste la plus prometteuse est probablement d'utiliser un réseau de neurones convolutionnel (CNN), via des librairies comme TensorFlow par exemple, voire des "sur-librairies" comme Keras

Message édité par Rontgen le 27-11-2017 à 15:26:21

SSgomad

Rontgen a écrit :

Tu veux dire quoi par annotées ? Mon EEG est juste une série temporelle avec des points enregistrés avec un intervalle constant. L'analyse de cet EEG m'aiderait à prédire l'âge d'un patient. Par pertinent je voulais parler des grandeurs qu'on croise en traitement de signal comme l'amplitude, la phase, etc. J'ai seulement dégagé dans un 1er temps la moyenne et la variance de chaque EEG et utilisé ça pour entrainer quelques modèles mais mon erreur de prédiction est trop grande.

Rontgen

SSgomad a écrit :

Dans ton cas donc, le signal de l'EEG représente tes données et l'age du patient représente l'annotation. C'est un cas d'apprentissage supervisé, plus particulièrement de régression.
Comme je l'ai dit dans mon post précédent, un réseau de neurones avec des convolutions 1D peut faire le boulot si tu as un nombre suffisant d'exemples.
Keras rend la chose facile à essayer, par exemple en regardant ce script https://github.com/fchollet/keras/b [...] nn_lstm.py
Attention quand meme car il y a deux différences avec ton problème: d'abord c'est un problème de classification binaire alors que tu veux faire de la régression continue (il suffit de changer la loss function ligne 65 par "mean_squared_error" par exemple), et les données sont des mots donc ils doivent passer par une phase d'embedding alors que toi tu pourrais directement utiliser le signal comme entrée)

Message édité par Rontgen le 27-11-2017 à 16:10:54

Bébé Yoda

TiDom a écrit :

Intéressants ces transparents. Faut que je regarde en pratique comment utiliser ça avec mon étude en cours ...

TiDom

Rontgen a écrit :

Il est possible de commencer par quelque chose de plus simple encore : je pense à un k plus proches voisins un k-NN (avec la distance euclidienne ou le dynamic Time warping ). Tu trouveras ça dans la librairie dans scikit learn je pense.
L'idée est de regarder les k séries qui sont les plus proches de ta série test (en fonction de la distance choisie) et de les faire voter : la classe majoritaire l'emporte pour un probleme de classification ou la moyenne/médiane pour un promène de régression.

Remarque : à quoi ça sert de vouloir prédire l'âge d'un patient ? En général on l'a déjà non ? Ou alors c'est pour détecter les footballeurs qui mentent sur leur age ?

Rontgen

TiDom a écrit :

Je suis d'accord que le CNN est peut-etre overkill, mais la methode a l'avantage de decouvrir elle-meme les statistiques vraiment pertinentes pour la tache d'estimation de l'age.
Parce qu'en fait, avec la methode des kNN, tu ne fais que déplacer le problème: comment calculer une distance qui a du sens ? Il faut probablement calibrer les deux signaux temporellement, peut-etre qu'une distance euclidienne mettra trop l'accent sur l'amplitude alors que la frequence est plus importante, etc.

Sinon pour ta question auxiliaire, je ne sais pas quelle est l'application de SSgomad mais je vois passer des papiers sur des méthodes qui sont développées pour estimer l'age de personnes migrantes, en particulier essayer de déterminer si elles sont majeures ou pas, ou alors vérifier qu'on ne ment pas sur l'age d'un enfant sportif
Par exemple un article scientifique sur l'estimation de l'age a partir d'une IRM de la main (!) https://www.researchgate.net/profil [...] 1983cc.pdf
J'imagine qu'on peut aussi se servir d'une telle methode comme reference: si elle estime un age bien plus vieux que l'age réel, peut-etre que la personne a un problème médical ?

Message édité par Rontgen le 27-11-2017 à 18:10:44

SSgomad

TiDom a écrit :

C'est pour une compétition en fait, l'objectif est de prédire l'âge d'un patient sachant son EEG quand il est endormi et d'autres données comme le cycle de son sommeil. Merci pour vos réponses, je préfère utiliser un réseau de neurones en dernier recours

TiDom

SSgomad a écrit :

Quelque chose qui marche bien pour la classification de séries temporelles (pour la régression aussi), c'est les transformations de tes séries brutes de départ.
Ces transformations souvent "simples" et peu coûteuses en temps de calcul (Fourier transform, Power Spectrum, Autocorrelation, shapelet, dérivée locale, ...) enrichissent la description de tes données et te permettent bien souvent d'améliorer les performances prédictives du modèle que tu utilises.

A l'University of East-Anglia, : http://timeseriesclassification.com/ , ils ont développé quelques approches (open-source) dans ce sens.
Au moins deux articles qui en parlent :

Anthony Bagnall, Luke M. Davis, Jon Hills, Jason Lines:
Transformation Based Ensembles for Time Series Classification. SDM 2012: 307-318
(1-NN avec Distance euclidienne et plusieurs transformations)

Anthony Bagnall, Jason Lines, Aaron Bostrom, James Large, Eamonn J. Keogh:
The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances. Data Min. Knowl. Discov. 31(3): 606-660 (2017)
(Un gros benchmark sur la classification de séries temporelles)

Sur ce même site, tu trouveras également un répertoire de +80 bases de données de séries temporelles : http://timeseriesclassification.com/dataset.php
il y a notamment des EEG et des ECG

Les algos utilisés dans les comparaisons de performance : http://timeseriesclassification.com/algorithm.php
Les codes source si tu veux les utiliser : http://timeseriesclassification.com/code.php

Et pour faire plaisir à Rontgen : le dernier sorti (2016) à base de CNN (oui ils ont du se mettre à la mode aussi ...)
http://timeseriesclassification.co [...] =HIVE-COTE

Mais si tu n'es pas spécialiste du domaine, tu peux commencer par les transformations de séries, c'est plus facile à comprendre

Message édité par TiDom le 28-11-2017 à 04:52:31

Page : 1 2 3 4 5 .. 20 21 22 .. 133 134 135 136 137 138

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Intelligence Artificielle

[Topic Unique] Machine Learning & Data Science

Sujets relatifs
[Topic unique] Veille IA - Actu, lectures, podcasts & documentaires	[Topic Unique] Claude by Anthropic
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science

Page générée en 0.081 secondes