Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2703 connectés 

 


Utilisez-vous du machine learning dans votre job ?




Attention si vous cliquez sur "voir les résultats" vous ne pourrez plus voter

 Mot :   Pseudo :  
  Aller à la page :
 
 Page :   1  2  3  4  5  ..  20  21  22  ..  133  134  135  136  137  138
Auteur Sujet :

[Topic Unique] Machine Learning & Data Science

n°30785
Bébé Yoda
Posté le 18-11-2017 à 09:11:06  profilanswer
 

Reprise du message précédent :

 


Ah oui bonne idée je vais regarder !

n°30786
Bébé Yoda
Posté le 18-11-2017 à 21:54:53  profilanswer
 

Un nouveau MOOC qui à l'air assez intéressant :  
https://www.coursera.org/learn/comp [...] a-science/

n°30787
draculax
Posté le 19-11-2017 à 16:06:45  profilanswer
 

Je connais bien la boîte qui fait l'évent datajobs et c'est vraiment sympa. Ils veulent faire un truc qui change des salons classiques et formels.  
 
Par contre la plupart des gens que je connais qui y vont / des boîtes qui y sont et qui recrutent, c'est plutôt axé école d'ingénieur bien classé. Mais ça coûte rien d'y aller ;)

n°30788
Bébé Yoda
Posté le 19-11-2017 à 16:14:03  profilanswer
 

Miam les mentalités bien françaises, je sens que je vais rien rater...

n°30789
Profil sup​primé
Posté le 19-11-2017 à 16:18:10  answer
 

draculax a écrit :

Je connais bien la boîte qui fait l'évent datajobs et c'est vraiment sympa. Ils veulent faire un truc qui change des salons classiques et formels.  
 
Par contre la plupart des gens que je connais qui y vont / des boîtes qui y sont et qui recrutent, c'est plutôt axé école d'ingénieur bien classé. Mais ça coûte rien d'y aller ;)


 
 
On va dire que le mec qui m'a conseillé cet event c'est un X-PhD, j'ai flairé l'embrouille à ce moment là [:keeplooking:5]
 
Si j'y vais et que je dis: "Bonjour je suis dans une école post bac bidon mais j'ai 19.50 de moyenne en ML (1 DS, 2 DM et 1 interro)", y'a quand même moyen ou pas ?  :ange:

n°30790
cassiopell​a
Posté le 19-11-2017 à 16:28:21  profilanswer
 

Bébé Yoda a écrit :

Un nouveau MOOC qui à l'air assez intéressant :  
https://www.coursera.org/learn/comp [...] a-science/


Cela sera purement IT, vu le profil des "enseignants" et le fait qu'ils viennent de Yandex (moteur de recherche russe). Mais cela vaut la peine de voir.

n°30791
rogermajax
Posté le 19-11-2017 à 19:13:30  profilanswer
 

Après c'est Yandex qui a sorti Catboost, une librairie de gradient boosting qui a de bons résultats en précision.


Message édité par rogermajax le 19-11-2017 à 19:13:49
n°30792
Bébé Yoda
Posté le 19-11-2017 à 19:20:35  profilanswer
 

cassiopella a écrit :


Cela sera purement IT, vu le profil des "enseignants" et le fait qu'ils viennent de Yandex (moteur de recherche russe). Mais cela vaut la peine de voir.

 

Disons que ça me semble très opérationnel, ça change des autres moocs plus théoriques. Je pense que c'est un bon complément

n°30793
Profil sup​primé
Posté le 19-11-2017 à 20:06:47  answer
 

HS : Quelqu'un sait pourquoi les vues de mon profil Linkedin baissent ? Je suis passé de 69 à 62 alors que j'ai le même nombre de relations [:la chancla:1]  
 
Pour le MOOC, ça peut servir à ceux qui poncent Kaggle mais ça doit être complètement useless pour les autre non ? Je ne pense pas que ce MOOC introduise de nouveaux concepts/algos...

n°30794
draculax
Posté le 19-11-2017 à 20:48:32  profilanswer
 

Bébé Yoda a écrit :

Miam les mentalités bien françaises, je sens que je vais rien rater...


 
Je suis d'accord avec toi. Mais quand tu veux recruter un JD ça reste un critère pertinent.

n°30795
cassiopell​a
Posté le 19-11-2017 à 21:26:48  profilanswer
 

rogermajax a écrit :

Après c'est Yandex qui a sorti Catboost, une librairie de gradient boosting qui a de bons résultats en précision.


Je n'ai pas dit que ça sera un mauvais MOOC  ;)  
 
P.S. depuis quand Coursera est payant???

n°30796
sinbadlema​rin
Posté le 20-11-2017 à 09:31:10  profilanswer
 

Depuis un moment deja mais pas pour tous les cours. Tu peux encore en faire de très bons gratuits.

n°30797
SSgomad
Posté le 20-11-2017 à 23:00:07  profilanswer
 

Salut à tous, mon PC a une carte graphique AMD et je trouve cela assez compliqué pour faire des calculs sur GPU, puisque la majorité des frameworks ont été conçus avec CUDA/NVIDIA en tête. Y a-t-il des frameworks que vous me recommandez pour contourner ce problème ? J'ai essayé Keras avec Theano en backend, j'ai suivi les instructions sur le site pour basculer en GPU mais ça ne marche pas.

n°30798
Bébé Yoda
Posté le 21-11-2017 à 00:12:47  profilanswer
 

SSgomad a écrit :

Salut à tous, mon PC a une carte graphique AMD et je trouve cela assez compliqué pour faire des calculs sur GPU, puisque la majorité des frameworks ont été conçus avec CUDA/NVIDIA en tête. Y a-t-il des frameworks que vous me recommandez pour contourner ce problème ? J'ai essayé Keras avec Theano en backend, j'ai suivi les instructions sur le site pour basculer en GPU mais ça ne marche pas.

 

J'ai le même problème.
À ta place je ne perdrais pas trop de temps avec theano dont la fin du développement a été annoncée fin septembre...

 

À priori il y a une solution avec hipcaffee mais j'ai pas eu le courage de pousser les tests très loin.

 

Tensorflow devrait bientôt supporter opencl, bon ok ça fait 2 ans qu'ils en parlent :o mais là on dirait que c'est pour bientôt.

 

Sinon j'ai entendu parler d'un framework que j'ai pas du tout testé : Apache Singa. Il supporte opencl en natif normalement.

n°30799
Darmstadti​um
Pipoteur grotesque
Posté le 21-11-2017 à 14:29:57  profilanswer
 

Caffe a une branche OpenCL qui est censée marcher à peu près... mais bon.
 
Personnellement j'attends plutôt le port des codes CUDA vers la plateforme ROC d'AMD et leur lib OpenML. Entre HIP qui aide à traduire CUDA, HCC qui est un genre de C++ qui compile pour différents hardware etc. Il devrait y avoir prochainement des frameworks qui marchent sur CG indépendamment du vendeur, mais aussi Xeon Phi, FPGA...  
 
Je croise les doigts [:zigg]


---------------
Vous pourriez comprendre ainsi pourquoi l'isotropie peut être détournée de son enclave de finalité dès le postulat de base choisie. surunitairedream - 09/06/2013 -- Contrepets
n°30800
Rontgen
Posté le 21-11-2017 à 14:40:37  profilanswer
 

Effectivement, ce serait bien que le monopole de NVIDIA soit un peu cassé :jap:

n°30801
fusion_sad​am
:D
Posté le 21-11-2017 à 14:42:24  profilanswer
 

Dans le genre FGPA FPGA, des retours (ou un bon article) sur la  movidius d'Intel ? https://developer.movidius.com/


Message édité par fusion_sadam le 23-11-2017 à 09:06:49

---------------
On sait pas trop quoi dire dans des circonstances pareilles...
n°30802
Rontgen
Posté le 21-11-2017 à 15:07:46  profilanswer
 

fusion_sadam a écrit :

Dans le genre FGPA, des retours (ou un bon article) sur la  movidius d'Intel ? https://developer.movidius.com/


Ah merci de m'y faire penser, je voulais en acheter un au boulot mais ils avaient plus de stock
Je viens de voir qu'ils ont des disponibilites maintenant, du coup je vais peut etre essayer
 
Pas évident de trouver des retours dessus, mais ce mec là a l'air plutot content  
https://www.amazon.com/gp/customer- [...] B076751BN8

n°30803
fusion_sad​am
:D
Posté le 22-11-2017 à 18:10:37  profilanswer
 

Ouais j'ai cherché vite fais, j'ai pas vu grand chose : https://medium.com/@soobrosa/deep-l [...] e09eeca2d6
 
@zuf : c'est une thématique qui te branche ?


---------------
On sait pas trop quoi dire dans des circonstances pareilles...
n°30804
Bébé Yoda
Posté le 22-11-2017 à 18:26:14  profilanswer
 

Carrément.
Bon pour l'instant j'ai seulement utilisé tensorflow, pas caffe mais c'est pas trop gênant.

 

C'est intéressant comme concept

n°30805
etocelo
Liberté pour Jean-Guy
Posté le 24-11-2017 à 13:50:11  profilanswer
 

Bonjour à vous, je suis étudiant en médecine et je vous voudrais savoir si vous avez des sites de référence, des auteurs ou des équipes à conseiller pour me tenir à jour des avancées dans le domaine du ML en général et pour la santé en particulier (je m’intéresse notamment à l'utilisation de ces nouvelles technologies en anesthésie-réanimation). Je recherche aussi les applications pratiques qui découlent de tout ça et qui ont effectivement été mise en place à l’hôpital, pas juste des concepts théoriques. C'est un domaine qui m’intéresse et je dois avouer que nous avons assez peu d'information là-dessus à la faculté sans doute par manque de temps, le programme étant déjà très chargé.
 
Merci d'avance  :jap:


Message édité par etocelo le 24-11-2017 à 13:54:28
n°30806
Rontgen
Posté le 24-11-2017 à 14:43:43  profilanswer
 

Salut ! C'est cool de voir que des futurs médecins s'intéressent très tot à ca :jap:
 
Quel type d'applications t'intéresse ?  
- D'un coté tu as tout ce qui concerne le traitement et l'analyse automatiques d'images ou de signaux (que ce soit pour du diagnostic ou de l'interventionnel),
- De l'autre tu as plutot des méthodes qui prennent en entrée des données plus "discrètes" (au sens mathématique du terme) genre l'age du patient, le résultat de tel examen, etc.

n°30807
Bébé Yoda
Posté le 24-11-2017 à 15:30:44  profilanswer
 

On fait des trucs super en analyse d'images, par exemple :  
https://stanfordmlgroup.github.io/projects/chexnet/

n°30808
Bébé Yoda
Posté le 24-11-2017 à 16:02:03  profilanswer
 

J'ai une question vraiment basique.
 
Dans un problème de classification, si j'ai 2 classes plutôt mal balancées, par exemple 98% de 1 et 2% de 0, mon modèle ne va prédire que des 1.
 
Je voulais faire un équilibrage simple, mais je me demande s'il vaut mieux :  
- Enlever une partie des samples "1"
 
- Dupliquer des samples "0" et faire un append  
 
Je sens que comme d'habitude, la réponse va être : ça dépend faut tester les deux :o

n°30809
KevinTran
Photographe
Posté le 24-11-2017 à 16:03:59  profilanswer
 

Vous connaissez ce site : https://help.xlstat.com/customer/en [...] es/2062457
 
Utile pour avoir une cheatsheet sous la main :o


---------------
http://www.kevintran.fr
n°30810
Rontgen
Posté le 24-11-2017 à 16:13:44  profilanswer
 

Bébé Yoda a écrit :

J'ai une question vraiment basique.
 
Dans un problème de classification, si j'ai 2 classes plutôt mal balancées, par exemple 98% de 1 et 2% de 0, mon modèle ne va prédire que des 1.
 
Je voulais faire un équilibrage simple, mais je me demande s'il vaut mieux :  
- Enlever une partie des samples "1"
 
- Dupliquer des samples "0" et faire un append  
 
Je sens que comme d'habitude, la réponse va être : ça dépend faut tester les deux :o


J'aurais plutot tendance a dupliquer des samples 0
En fait, il y a un peu plus intelligent que ca: tu peux essayer de créer des nouveaux 0 par interpolation de 0 actuels
 
Regarde par exemple SMOTE
https://en.wikipedia.org/wiki/Overs [...] a_analysis

n°30811
etocelo
Liberté pour Jean-Guy
Posté le 24-11-2017 à 17:18:10  profilanswer
 

Rontgen a écrit :

Salut ! C'est cool de voir que des futurs médecins s'intéressent très tot à ca :jap:
 
Quel type d'applications t'intéresse ?  
- D'un coté tu as tout ce qui concerne le traitement et l'analyse automatiques d'images ou de signaux (que ce soit pour du diagnostic ou de l'interventionnel),
- De l'autre tu as plutot des méthodes qui prennent en entrée des données plus "discrètes" (au sens mathématique du terme) genre l'age du patient, le résultat de tel examen, etc.


 

Bébé Yoda a écrit :

On fait des trucs super en analyse d'images, par exemple :  
https://stanfordmlgroup.github.io/projects/chexnet/


 
Merci pour l'article, c'est typiquement le genre de chose que je recherche et j'allais justement demander où en était la recherche sur la lecture d'image simple style Rx thorax (à noter que dans mon CHU les radiologues n’interprètent déjà plus les Rx thorax et n'importe quel médecin doit savoir le faire). Pour le genre d'application qui m’intéresse, c'est tout ce qui touche à la santé en général. Il y a l'imagerie bien sûr. Par exemple j'ai en tête le cas de la carcinose péritonéale pour laquelle nous devons calculer un score à partir d'imagerie TDM et IRM, score qui se base sur le nombre et la localisation des lésions. Ce repérage est très "artisanal" et opérateur-dépendant dira t'on, dans le sens où il faut vraiment un radiologue très expérimenté. Et parfois, ce score diffère du score que calcule le chirurgien lorsqu'il ouvre pour faire la CHIP (résection et bain de chimiothérapie). Je me demande quand est-ce que nous avons voir une automatisation du repérage sur de l'imagerie complexe avec une sensibilité et une spécificité équivalente aux radiologues expérimentés. Malheureusement pour le ML mais heureusement pour les patients, les carcinoses péritonéales et l'imagerie qui va avec ne sont pas aussi rependues qu'une simple radio pulm donc ça va être difficile de construire une base de donnée j'imagine.
 
Je m’intéresse aussi à un genre de software de réanimation intelligente, qui pourrait prédire l’évolution du patient en croisant une énorme base de donnée avec la clinique, les données du respirateur, les constantes, la biologie, l'imagerie etc... En pratique c'est ce que fait déjà le réanimateur mais à une plus petite échelle. C'est sûrement de la science-fiction mais bon. Il n’empêche que depuis que je m’intéresse au sujet je réfléchie un peu différemment sur mon future choix de spécialité : j’hésiterais un peu à faire radiologue maintenant, même si c'est une spé géniale !
 
Vous savez si il y a des médecins qui font le pont entre les deux mondes (ML et pratique clinique) pour pouvoir travailler un peu dans ce domaine ?


Message édité par etocelo le 24-11-2017 à 17:37:07
n°30812
Rontgen
Posté le 24-11-2017 à 18:25:12  profilanswer
 

A propos du papier de CheXnet, tu as ce lien qui peut etre intéressant : http://n2value.com/blog/chexnet-a-brief-evaluation/
Et j'avais aussi trouvé un blog intéressant d'un (étudiant ?) radiologue qui s'y connaissait beaucoup en ML, et qui était d'ailleurs assez critique sur ce papier il me semble, mais plus moyen de retrouver l'adresse :/
 
En fait, le machine learning - et plus particulièrement le deep learning - a fait d'énormes progrès récemment, alors qu'avant les performances étaient très loin de satisfaire des exigences cliniques.
A l'heure actuelle, tu trouveras donc principalement (et en quantité incroyable) des papiers de recherche plutot que des produits, tout simplement parce que ca prend beaucoup de temps à une entreprise de développer un produit, d'acquérir des données et surtout de le tester et le faire certifier.  
Mais je pense que tout ca va commencer à bientot arriver sur le marché, il y a beaucoup de start-ups qui se créent dans ce domaine et même les grands constructeurs d'appareils médicaux bossent sur ca. L'année dernière par exemple, Samsung a quand meme réussi à sortir un module de détection de cancer utilisant du deep learning dans un échorgaphe ( https://www.popsci.com/how-deep-lea [...] -detection ).
 
Enfin, il y a très peu de médecins qui sont compétents en ML, tout simplement parce que c'est dur de se spécialiser dans deux choses à la fois et que les médecins sont déjà très surchargés. En général, ce qu'il se passe c'est soit (i) des médecins très orientés recherche rencontrent des chercheurs techniques orientés clinique lors de conférences interdisciplinaires et ils se mettent à bosser ensemble, soit (ii) les gens du marketing ("spécialistes applications cliniques" ) des grandes boites font remonter les besoins cliniques en interne et s'occupent de faire l'interface.
Ce que j'observe de plus en plus, c'est que des médecins fondent des start-ups en s'associant avec un commercial et une personne technique; du coup ca les expose forcément aux nouvelles technologies développées.

n°30813
TiDom
Posté le 24-11-2017 à 19:17:18  profilanswer
 

Bébé Yoda a écrit :

J'ai une question vraiment basique.
 
Dans un problème de classification, si j'ai 2 classes plutôt mal balancées, par exemple 98% de 1 et 2% de 0, mon modèle ne va prédire que des 1.
 
Je voulais faire un équilibrage simple, mais je me demande s'il vaut mieux :  
- Enlever une partie des samples "1"
 
- Dupliquer des samples "0" et faire un append  
 
Je sens que comme d'habitude, la réponse va être : ça dépend faut tester les deux :o


 
D'ailleurs tu soulèves une question sous-jacente très importante : l'évaluation des classifieurs dans les données à classes disproportionnées.
En gros, dans ton cas, prédire que des 1 (la classe majoritaire) te donnera un très bon taux d'erreur global. Mais ce n'est pas ce qui t'intéresse puisque la classe cible est la classe minoritaire.
Il y a des indices de performance pour les données disproportionnées :
le plus simple : le taux d'erreur de la classe cible
la courbe ROC (ou l'aire sous la courbe ROC : AUC)
la courbe Précision-Rappel (et l'aire dessous AUC-PR), le plus "récent"
les courbes de couts (cost curves)
 
Pour utiliser les courbes, il faut un classifieur qui produit un score (qui s'apparente à une probabilité d'appartenance à la classe cible).
 
Dans un contexte plus opérationnel, du type détection de churn ou credit ou autre ciblage marketing (donc avec classe cible très minoritaire), on utilise aussi les courbes de lift ou les cumulative gain chart : ça te permet de sélectionner "intelligemment" une partie de ta population. Dans cette partie sélectionnée tu as un ratio de classe cible normalement beaucoup plus important.
Un aperçu : https://eric.univ-lyon2.fr/~ricco/c [...] iblage.pdf
(il y a d'autres bonnes infos sur le site de Ricco Rakotomalala)
 
 

n°30814
TiDom
Posté le 24-11-2017 à 19:29:21  profilanswer
 

etocelo a écrit :


 
Je m’intéresse aussi à un genre de software de réanimation intelligente, qui pourrait prédire l’évolution du patient en croisant une énorme base de donnée avec la clinique, les données du respirateur, les constantes, la biologie, l'imagerie etc... En pratique c'est ce que fait déjà le réanimateur mais à une plus petite échelle. C'est sûrement de la science-fiction mais bon. Il n’empêche que depuis que je m’intéresse au sujet je réfléchie un peu différemment sur mon future choix de spécialité : j’hésiterais un peu à faire radiologue maintenant, même si c'est une spé géniale !
 
Vous savez si il y a des médecins qui font le pont entre les deux mondes (ML et pratique clinique) pour pouvoir travailler un peu dans ce domaine ?


 
Comme la e-santé est en plein boom depuis quelques années, il s'est créé récemment des GCS (Groupement de Coopération Sanitaire) e-santé dans presque toutes les régions de France. Ce sont des structures mi-privées mi-publiques qui ont en général pas mal de financements.
par exemple :
https://www.esante-bretagne.fr/
https://www.esante-paysdelaloire.fr/
www.esante-picardie.com
 
Ils sont souvent en lien avec les CHU et les praticiens hors CHU. Selon les cas ils peuvent avoir investi dans des infrastructures de stockage de données de tout type en lien avec la santé : trajectoire de patients, suivi des ALD, ...
 
A voir donc dans ta région.
 

n°30815
Pina Colad​a
Posté le 24-11-2017 à 22:25:29  profilanswer
 

Bébé Yoda a écrit :

J'ai une question vraiment basique.
 
Dans un problème de classification, si j'ai 2 classes plutôt mal balancées, par exemple 98% de 1 et 2% de 0, mon modèle ne va prédire que des 1.
 
Je voulais faire un équilibrage simple, mais je me demande s'il vaut mieux :  
- Enlever une partie des samples "1"
 
- Dupliquer des samples "0" et faire un append  
 
Je sens que comme d'habitude, la réponse va être : ça dépend faut tester les deux :o


 
Pourquoi as tu autant peu de samples pour une classe ?
Est ce qu'il pourrait s'agir d'un cas spécifique de classification à savoir la détection d'anomalie?

n°30816
Bébé Yoda
Posté le 24-11-2017 à 23:45:11  profilanswer
 

En fait c'est le concours Porto seguro sur kaggle.
Il n'y a que 3.6% de la classe à prédire.

 

Je vais regarder les stratégies mentionnées plus haut.
Pour l'instant je me suis contenté de dupliquer la classe plusieurs fois mais c'est visiblement pas idéal. La question est surtout jusqu'à combien aller...

n°30817
SSgomad
Posté le 27-11-2017 à 15:11:15  profilanswer
 

Bonjour à tous, ma question relève plus du traitement de signal que de ML mais quels outils me conseillerez vous pour analyser un électro-encéphalo-gramme (EEG)? C'est une courbe qui représente l'activité cérébrale d'un individu, qui ressemble un peu à un séismogramme. Y a-t-il des packages Python (voire R) qui permettent de dégager des grandeurs pertinentes ? Merci

n°30818
Rontgen
Posté le 27-11-2017 à 15:24:17  profilanswer
 

SSgomad a écrit :

Bonjour à tous, ma question relève plus du traitement de signal que de ML mais quels outils me conseillerez vous pour analyser un électro-encéphalo-gramme (EEG)? C'est une courbe qui représente l'activité cérébrale d'un individu, qui ressemble un peu à un séismogramme. Y a-t-il des packages Python (voire R) qui permettent de dégager des grandeurs pertinentes ? Merci


Que cherches-tu à faire avec tes EEG ? Que veut dire ton "pertinent" (par rapport a quoi une grandeur est-elle pertinente) ?
Si tu as des données annotées et que tu cherches à construire un algorithme qui "apprend" ces annotations, la piste la plus prometteuse est probablement d'utiliser un réseau de neurones convolutionnel (CNN), via des librairies comme TensorFlow par exemple, voire des "sur-librairies" comme Keras


Message édité par Rontgen le 27-11-2017 à 15:26:21
n°30819
SSgomad
Posté le 27-11-2017 à 15:52:14  profilanswer
 

Rontgen a écrit :


Que cherches-tu à faire avec tes EEG ? Que veut dire ton "pertinent" (par rapport a quoi une grandeur est-elle pertinente) ?
Si tu as des données annotées et que tu cherches à construire un algorithme qui "apprend" ces annotations, la piste la plus prometteuse est probablement d'utiliser un réseau de neurones convolutionnel (CNN), via des librairies comme TensorFlow par exemple, voire des "sur-librairies" comme Keras


 
Tu veux dire quoi par annotées ? Mon EEG est juste une série temporelle avec des points enregistrés avec un intervalle constant. L'analyse de cet EEG m'aiderait à prédire l'âge d'un patient. Par pertinent je voulais parler des grandeurs qu'on croise en traitement de signal comme l'amplitude, la phase, etc. J'ai seulement dégagé dans un 1er temps la moyenne et la variance de chaque EEG et utilisé ça pour entrainer quelques modèles mais mon erreur de prédiction est trop grande.

n°30820
Rontgen
Posté le 27-11-2017 à 16:08:41  profilanswer
 

SSgomad a écrit :


Tu veux dire quoi par annotées ? Mon EEG est juste une série temporelle avec des points enregistrés avec un intervalle constant. L'analyse de cet EEG m'aiderait à prédire l'âge d'un patient. Par pertinent je voulais parler des grandeurs qu'on croise en traitement de signal comme l'amplitude, la phase, etc. J'ai seulement dégagé dans un 1er temps la moyenne et la variance de chaque EEG et utilisé ça pour entrainer quelques modèles mais mon erreur de prédiction est trop grande.


 
Dans ton cas donc, le signal de l'EEG représente tes données et l'age du patient représente l'annotation. C'est un cas d'apprentissage supervisé, plus particulièrement de régression.
Comme je l'ai dit dans mon post précédent, un réseau de neurones avec des convolutions 1D peut faire le boulot si tu as un nombre suffisant d'exemples.
Keras rend la chose facile à essayer, par exemple en regardant ce script https://github.com/fchollet/keras/b [...] nn_lstm.py  
Attention quand meme car il y a deux différences avec ton problème: d'abord c'est un problème de classification binaire alors que tu veux faire de la régression continue (il suffit de changer la loss function ligne 65 par "mean_squared_error" par exemple), et les données sont des mots donc ils doivent passer par une phase d'embedding alors que toi tu pourrais directement utiliser le signal comme entrée)


Message édité par Rontgen le 27-11-2017 à 16:10:54
n°30821
Bébé Yoda
Posté le 27-11-2017 à 16:17:49  profilanswer
 

TiDom a écrit :


 
D'ailleurs tu soulèves une question sous-jacente très importante : l'évaluation des classifieurs dans les données à classes disproportionnées.
En gros, dans ton cas, prédire que des 1 (la classe majoritaire) te donnera un très bon taux d'erreur global. Mais ce n'est pas ce qui t'intéresse puisque la classe cible est la classe minoritaire.
Il y a des indices de performance pour les données disproportionnées :
le plus simple : le taux d'erreur de la classe cible
la courbe ROC (ou l'aire sous la courbe ROC : AUC)
la courbe Précision-Rappel (et l'aire dessous AUC-PR), le plus "récent"
les courbes de couts (cost curves)
 
Pour utiliser les courbes, il faut un classifieur qui produit un score (qui s'apparente à une probabilité d'appartenance à la classe cible).
 
Dans un contexte plus opérationnel, du type détection de churn ou credit ou autre ciblage marketing (donc avec classe cible très minoritaire), on utilise aussi les courbes de lift ou les cumulative gain chart : ça te permet de sélectionner "intelligemment" une partie de ta population. Dans cette partie sélectionnée tu as un ratio de classe cible normalement beaucoup plus important.
Un aperçu : https://eric.univ-lyon2.fr/~ricco/c [...] iblage.pdf
(il y a d'autres bonnes infos sur le site de Ricco Rakotomalala)
 
 


Intéressants ces transparents. Faut que je regarde en pratique comment utiliser ça avec mon étude en cours ...

n°30822
TiDom
Posté le 27-11-2017 à 17:02:10  profilanswer
 

Rontgen a écrit :


 
Dans ton cas donc, le signal de l'EEG représente tes données et l'age du patient représente l'annotation. C'est un cas d'apprentissage supervisé, plus particulièrement de régression.
Comme je l'ai dit dans mon post précédent, un réseau de neurones avec des convolutions 1D peut faire le boulot si tu as un nombre suffisant d'exemples.
Keras rend la chose facile à essayer, par exemple en regardant ce script https://github.com/fchollet/keras/b [...] nn_lstm.py  
Attention quand meme car il y a deux différences avec ton problème: d'abord c'est un problème de classification binaire alors que tu veux faire de la régression continue (il suffit de changer la loss function ligne 65 par "mean_squared_error" par exemple), et les données sont des mots donc ils doivent passer par une phase d'embedding alors que toi tu pourrais directement utiliser le signal comme entrée)


 
Il est possible de commencer par quelque chose de plus simple encore : je pense à un k plus proches voisins un k-NN (avec la distance euclidienne ou le dynamic Time warping ). Tu trouveras ça dans la librairie dans scikit learn je pense.
L'idée est de regarder les k séries qui sont les plus proches de ta série test (en fonction de la distance choisie) et de les faire voter : la classe majoritaire l'emporte pour un probleme de classification ou la moyenne/médiane pour un promène de régression.
 
Remarque : à quoi ça sert de vouloir prédire l'âge d'un patient ? En général on l'a déjà non ? Ou alors c'est pour détecter les footballeurs qui mentent sur leur age ? :o

n°30823
Rontgen
Posté le 27-11-2017 à 18:10:09  profilanswer
 

TiDom a écrit :


 
Il est possible de commencer par quelque chose de plus simple encore : je pense à un k plus proches voisins un k-NN (avec la distance euclidienne ou le dynamic Time warping ). Tu trouveras ça dans la librairie dans scikit learn je pense.
L'idée est de regarder les k séries qui sont les plus proches de ta série test (en fonction de la distance choisie) et de les faire voter : la classe majoritaire l'emporte pour un probleme de classification ou la moyenne/médiane pour un promène de régression.
 
Remarque : à quoi ça sert de vouloir prédire l'âge d'un patient ? En général on l'a déjà non ? Ou alors c'est pour détecter les footballeurs qui mentent sur leur age ? :o


Je suis d'accord que le CNN est peut-etre overkill, mais la methode a l'avantage de decouvrir elle-meme les statistiques vraiment pertinentes pour la tache d'estimation de l'age.
Parce qu'en fait, avec la methode des kNN, tu ne fais que déplacer le problème: comment calculer une distance qui a du sens ? Il faut probablement calibrer les deux signaux temporellement, peut-etre qu'une distance euclidienne mettra trop l'accent sur l'amplitude alors que la frequence est plus importante, etc.
 
Sinon pour ta question auxiliaire, je ne sais pas quelle est l'application de SSgomad mais je vois passer des papiers sur des méthodes qui sont développées pour estimer l'age de personnes migrantes, en particulier essayer de déterminer si elles sont majeures ou pas, ou alors vérifier qu'on ne ment pas sur l'age d'un enfant sportif  
Par exemple un article scientifique sur l'estimation de l'age a partir d'une IRM de la main (!) https://www.researchgate.net/profil [...] 1983cc.pdf
J'imagine qu'on peut aussi se servir d'une telle methode comme reference: si elle estime un age bien plus vieux que l'age réel, peut-etre que la personne a un problème médical ?


Message édité par Rontgen le 27-11-2017 à 18:10:44
n°30824
SSgomad
Posté le 27-11-2017 à 19:30:35  profilanswer
 

TiDom a écrit :


 
Il est possible de commencer par quelque chose de plus simple encore : je pense à un k plus proches voisins un k-NN (avec la distance euclidienne ou le dynamic Time warping ). Tu trouveras ça dans la librairie dans scikit learn je pense.
L'idée est de regarder les k séries qui sont les plus proches de ta série test (en fonction de la distance choisie) et de les faire voter : la classe majoritaire l'emporte pour un probleme de classification ou la moyenne/médiane pour un promène de régression.
 
Remarque : à quoi ça sert de vouloir prédire l'âge d'un patient ? En général on l'a déjà non ? Ou alors c'est pour détecter les footballeurs qui mentent sur leur age ? :o


 
C'est pour une compétition en fait, l'objectif est de prédire l'âge d'un patient sachant son EEG quand il est endormi et d'autres données comme le cycle de son sommeil. Merci pour vos réponses, je préfère utiliser un réseau de neurones en dernier recours

n°30825
TiDom
Posté le 28-11-2017 à 04:50:46  profilanswer
 

SSgomad a écrit :

 

C'est pour une compétition en fait, l'objectif est de prédire l'âge d'un patient sachant son EEG quand il est endormi et d'autres données comme le cycle de son sommeil. Merci pour vos réponses, je préfère utiliser un réseau de neurones en dernier recours

 

Quelque chose qui marche bien pour la classification de séries temporelles (pour la régression aussi), c'est les transformations de tes séries brutes de départ.
Ces transformations souvent "simples" et peu coûteuses en temps de calcul (Fourier transform, Power Spectrum, Autocorrelation, shapelet, dérivée locale, ...) enrichissent la description de tes données et te permettent bien souvent d'améliorer les performances prédictives du modèle que tu utilises.

 

A l'University of East-Anglia, : http://timeseriesclassification.com/ , ils ont développé quelques approches (open-source) dans ce sens.
Au moins deux articles qui en parlent :

 

Anthony Bagnall, Luke M. Davis, Jon Hills, Jason Lines:
Transformation Based Ensembles for Time Series Classification. SDM 2012: 307-318
(1-NN avec Distance euclidienne et plusieurs transformations)

 

Anthony Bagnall, Jason Lines, Aaron Bostrom, James Large, Eamonn J. Keogh:
The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances. Data Min. Knowl. Discov. 31(3): 606-660 (2017)
(Un gros benchmark sur la classification de séries temporelles)

 

Sur ce même site, tu trouveras également un répertoire de +80  bases de données de séries temporelles : http://timeseriesclassification.com/dataset.php
il y a notamment des EEG et des ECG

 

Les algos utilisés dans les comparaisons de performance : http://timeseriesclassification.com/algorithm.php
Les codes source si tu veux les utiliser : http://timeseriesclassification.com/code.php

 

Et pour faire plaisir à Rontgen : le dernier sorti (2016) à base de CNN :o (oui ils ont du se mettre à la mode aussi ...)
http://timeseriesclassification.co [...] =HIVE-COTE

 

Mais si tu n'es pas spécialiste du domaine, tu peux commencer par les transformations de séries, c'est plus facile à comprendre :)

 


Message édité par TiDom le 28-11-2017 à 04:52:31
 Page :   1  2  3  4  5  ..  20  21  22  ..  133  134  135  136  137  138

Aller à :
Ajouter une réponse
 

Sujets relatifs
[Topic unique] Veille IA - Actu, lectures, podcasts & documentaires[Topic Unique] Claude by Anthropic
[Topic unique] IA générative de texte, ChatGPT, Copilot, Gemini & co 
Plus de sujets relatifs à : [Topic Unique] Machine Learning & Data Science


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)