Bonjour,
Dans le cadre de mon travail, je cherche à isoler empreinte I/O d'un job qui tourne sur un calculateur. Grosso modo voici au niveau soft/hard à quoi ça ressemble: 1000 machines (bi-xéons/128Go de ram...), interconnect en infinband, file system partagé (Lustre), Batch Scheduler Slurm et le tout sous RHEL 6.6.
Pour le moment on essaye de capter des infos avec les logs lustre, slurm, MPI, des switches IB... mais aussi avec collectl/collectd et colplot (pour le graphing) mais ça donner plus un tas d'infos plus que des infos sur ce que consomme un job en particulier. J'ai pensé à utiliser des profiler de code mais ça ne fait pas tout et c'est trop intrusif (on lit le code d'un user du cluster et c'est pas vraiment ce qu'il y a de mieux
)
J'ai hélas peu d'infos dispos et je ne peux pas non plus en dire trop à cause des règles de confidentialité du coup ça ne va pas aider >< Du coup pour ceux qui peuvent m'aider, j'essayerai de répondre au mieux aux questions.
Je sais pas trop par où commencer du coup je pense vous laisser poser des questions ça sera plus simple
Merci d'avance à ceux qui peuvent m'aider! 
Message édité par Robinc le 01-03-2016 à 10:27:57
---------------
Mon topic sur les configs full AMD: http://forum.hardware.fr/forum2.ph [...] w=0&nojs=0