Bonjour,
J'espère ne pas enfreindre de règles en postant une demande "pro" : j'ai vu des topics être fermés pour ce motif mais je n'ai pas trouvé de règle contre le message qui suit (si tel est le cas, je vous présente mes excuses et je vous demanderais de ne conserver que la dernière question : celle relative à un forum dédié monitoring).
Je souhaite avoir de l'aide pour déterminer quels logiciels de monitoring (au sens large) pourraient subvenir à mes besoins et que je devrais tester (je pars du principe qu'il faut tester ce genre de logiciel pour savoir si ça nous convient).
Sachant que je recherche un logiciel open-source.
L'état de mon parc informatique :
- Plusieurs locaux/sites reliés entre eux par VPN.
- Des serveurs, routeurs, switchs, bornes WiFi, téléphones, etc. dans ces locaux.
- Serveurs dédiés chez plusieurs hébergeurs (OVH, etc.)
- Sites web sur des serveurs mutualisés chez plusieurs hébergeurs (OVH, etc.).
- Des instances/services "cloud" chez plusieurs hébergeurs (AWS, etc.)
- Des services divers (sites web, serveurs de base de données, annuaires, courtier de messages, etc.) sur tout ces serveurs.
- 2/3 collègues qui se sentiront concernés par l'état du parc.
- OS très majoritairement sous Linux
Voici mes besoins (très variés) :
- Connaître l'état des serveurs et services : les périodes où ils ont été up/joignables ou down/injoignables (pour le VPN ça m'intéresserait de faire la différence entre une panne du lien VPN entre les sites A et B et une panne de la connexion Internet du site B)
- Connaître et visualiser (sur des graphiques) les métriques des ressources matérielles (utilisation processeur, mémoire, réseau, disque dur, SMART, températures, ...), du système (l'uptime, les processus) et des services (nombre de requêtes HTTP/BDD, état des caches, etc.)
- Produire des statistiques (sur des graphiques) des événements décrit dans des fichiers logs (Syslog, serveur web, application maison).
- Connaître et visualiser (sur des graphiques) les métriques applicatives maison (temps de traitement, nombre d'entité X, age de l'entité Y la plus jeune, etc.).
- La bande passante et délai de réponse (ping) entre deux serveurs.
- Connaître le temps restant avant expiration des domaines et des certificats.
- L'espace disque disponible sur le serveur de sauvegarde de mon hébergeur (eg. chez OVH via le "FTP banner" ou l'API).
Les deux premiers besoins (état + métriques matérielles) semblent assez communs et un Nagios-like, un collectd et un LibreNMS sauront respectivement y subvenir.
Le troisième (logs) est l'affaire de Logstash.
Le quatrième (métriques applicatives) est atteignable, par exemple, via StatsD.
Les derniers sont techniquement très proches du troisième (métriques applicatives) : on code un script qui calcule/récupère la métrique et on l'envoi sur le serveur de monitoring via StatsD.
Et c'est surtout là dessus que j'ai besoin d'avis : Je voudrais un logiciel "cadrant" (au sens de framework) où je pourrais placer mes bouts de code qui mesurent/récupère toutes ces valeurs sans que je n'aie à me soucier de l'envoi sur le serveur de monitoring.
Je suis déjà en train de tester Prometheus, collectd (avec son plugin StatsD) et Logstash.
J'envisage donc aussi de tester Shinken (le Nagios-like) et LibreNMS (pour le réseau).
Mais je suis tout ouïe pour vos suggestions, surtout si ça peut me permettre d'éviter d'avoir 5 logiciels différents (notamment pour éviter d'avoir à consulter 5 interfaces différentes pour constater que tout va bien).
Au passage, si vous connaissez un forum (français ou anglais) dédié au sujet du monitoring je suis preneur (j'ai appris la fermeture récente de https://forums.monitoring-fr.org fin décembre 2017).