Merci à tous pour vos réponses aidantes !
C'est difficile pour moi de donner trop de détails mais je vais tenter de vous répondre le plus précisément possible.
Pour vous donner un thème général, il s'agit ici de médecine humaine, pour faire de l'adaptation de traitement sur mesure. En GROS.
Rontgen a écrit :
Ce que tu cherches à faire semble bien correspondre à de l'apprentissage non supervisé C'est un domaine qui est bien moins maîtrisé que l'apprentissage supervisé, donc difficile de donner des guidelines, a part the renvoyer vers les algos classiques Peut être on pourrait plus t'aider si on savait le but ultime de ta démarche : pourquoi tu veux trouver le cluster auquel appartient un nouvel exemple ? Concernant le nombre d'exemples c'est pareil, je pense pas qu'on puisse te donner un nombre car ça dépend beaucoup de la distribution de tes données mais aussi du nombre de clusters que tu veux estimer
|
Je comprends le problème du manque de guidelines.
Le but ultime c'est de la faire la recommendation à partir du cluster.
X,Y,Z sont trois vecteurs appartenant au cluster A.
Si phi appartient à A, alors la recommendation associé au cluster A sera faite.
C'est à peu de choses près la même chose que Amazon "You should read this" or "This item is also recommended for you".
Recommendation sur critères de similarité.
Oui je connais ces librairies et j'avais commencé à faire quelques recherches là dedans. Merci
Python ne me pose plus trop de problèmes à comprendre, mais soyons honnête je n'ai pas forcément la compréhension des mécanismes, donc ça ferait un peu boîte noir, et je pense que ça peut mener à faire de fausses conclusions comme dit Cassio
Tous les gens que je vois faire du "ML" autour du moi et qui font qu'appliquer des fonction sci-kit .... un peu ridicule cette affaire
cassiopella a écrit :
Est-ce que ces vecteurs sont 1) des observations des événements quelconques et peuvent être définies en tant que les variables aléatoires? 2) ou ce sont les vecteurs "fabriqués"/"pré-définit" (p.ex. le résultat des gros calculs/modèle etc.)? Si c'est le cas 2, à mon avis il ne faut pas utiliser l'apprentissage automatique parce que cela n'a pas de sens. Sauf si on étudie le processus de "fabrication" de ses vecteurs qui est au moins en partie aléatoire. Si c'est le cas 1, il faut trouver un modèle statistique et une méthode pertinente d'évaluer les relations entre les données. Que représente ce vecteur? Que veux tu étudier? De façon générale il n'y a pas de modèle idéal, mais il y a des modèles complétement inutiles et/ou qui conduisent à faire des conclusions erronées. Certes, on peut essayer tous les modèles et choisir le/les meilleur(s), mais c'est quoi un bon modèle? Je suis d'accord avec Rasthor, si on fait pas attention, on aura une boite noire sans comprendre ce qui se passe à l'intérieur. Citation :
J'espère pouvoir faire de l'apprentissage non supervisé. J'attends de l'algorithme qu'il essaie de faire des groupes/clusters par similarité et qu'ensuite en lui donnant un vecteur à n coordonnées, il puisse me dire que ce vecteur appartient à cette catégorie là.
|
Il faut définir ce que représente cette similarité. Citation :
Je cherche pas vraiment une méthode, ni un tuto mais comme c'est pour monter une étude, je voulais juste avoir un ordre d'idée du nombre de vecteurs dont il fallait pouvoir disposer pour commencer à travailler sérieusement. J'imagine que ça dépend de la précision que je veux, et de la méthode employé. A vrai dire je cherche plutôt un ordre de grandeur général : 1000 vecteurs ? 10 0000 ou 1M ? Si vous avez de quoi me renseigner je suis preneur
|
Le nombre d'observations de ton échantillon dépendra de la taille de la population, de la méthode utilisée, si tu as besoin d'avoir plusieurs jeux des données (p.ex. un pour calibrer, un pour tester la méthode) et le niveau du risque/d'erreur acceptable. P.ex. pour étudier la population française, l'échantillon de 2000 personnes permet d'obtenir une analyse suffisamment précise. Est-ce que l'étude, que tu veux lancée, aura un gros budget? Si oui, il faut la montée avec le spécialiste du data science qui comprend ce qu'on peut faire et ce qu'on ne peut pas faire. Sinon tu risque de trouver avec une étude irréalisable.
|
Le vecteur est constitué de données/score issue de la clinique.
Par exemple, une femme (0) de moins de 50 ans (1) avec une pathologie X dont le score clinique est de 5/9 (5) diagnostiqué il y a moins de 2 ans (1) non récidivante (0) et confirmé par des examens histologiques (1) avec un IMC de 19 (19) et dont le besoin énergétique a été déterminé à 1230kcal / jour et qui a été traité avec le médicament 28 (28) pendant 20 jours (20) avec une amélioration de 30% de l'état clinique (0.3)
Ca fait un vecteur : 0,1,5,1,0,1, 19,1230,28,20,0.2
Pour la notion de similarité, je pensais à faire de la "proximité des profils" ... un truc du genre. Distance euclidienne ? Je ne sais pas à vrai dire.
Un peu de la même façon qu'Amazon est capable de dire que deux clients se ressemblent et que sur cette base, on peut recommender X.
Je pense qu'on peut considérer que c'est des variables aléatoires mais je suis pas certain.
Le traitement et sa durée sont pas des variables aléatoire. Il y a eu de la décision là dedans. Donc je ne sais pas trop répondre à ta question
Tu dis "le" spécialiste ? Tu dis le spécialiste data relatif au domaine ?
Pour ce qui est du budget, ça dépend justement de ce qu'on peut faire des datas.
Pour en dire un peu plus, on dispose déjà d'un outil d'aides à la décision clinique, au suivi des patients. C'était très straightforward, y'avait un input clinique et y'avait un output d'aide à la décision. On se demande si on peut pas récupérer les données de chaque input/output pour changer la manière dont on aide à la décision. Actuellement, on aide à la décision sur une base "scientifique", "from the book" avec ce qu'on sait des maladies, des publications scientifiques, mais on voudrait voir si on peut pas exploiter le résultat de ces donnés, pour essayer de l'aide à la décision "statistique".
C'est peut être une vraie connerie
Pour mettre au point une telle affaire, si on doit prévoir large et faire un travailler un DScientist, il faudrait compter combien ? 100 000 euros d'honoraires ?
L'argent n'est pas forcément un problème.
Merci pour cette estimation. Je vais garder ce chiffre de 10 000 en tête