Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2443 connectés 

  FORUM HardWare.fr
  Systèmes & Réseaux Pro
  Management du SI

  Alertes critiques : Comment en réduire le nombre SVP ?

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Alertes critiques : Comment en réduire le nombre SVP ?

n°153572
cyberlabo
Posté le 25-04-2018 à 16:27:27  profilanswer
 

Bonjour,
 
Je suis actuellement stagiaire informatique dans une société et j'ai été chargé de réfléchir à la façon d'éliminer les alertes critiques récurrentes, visibles sur le tableau de bord Centreon, outil avec lequel la société d'accueil travaille.
L'objectif final est donc de ne plus banaliser l'apparition de ces notifications engendrées par ces mêmes alertes et ainsi pouvoir rester proactif, en agissant en amont de ces alertes.
 
Au point de vue base documentaire, hormis certains site web de monitoring, je travaille actuellement avec l'excellent ouvrage papier de Loïc Fontaine, intitulé : "Centreon, Maîtriser la supervision de votre système d'information", à partir duquel j'essaie d'en extraire quelques préconisations de réglages. Malheureusement, Le chapitre 6 (relatif aux notifications, graphes et rapports) de cette ouvrage ne cible pas précisément ma problématique.
 
Je fais donc appel à vos contributions respectives afin d'exploiter quelques pistes qui pourraient éventuellement m'être suggérées et sur lesquelles je n'avais pas forcément réfléchies.
 
Je vous remercie par avance...  
 
https://nsa39.casimages.com/img/2018/04/25/18042504274621513.jpg

mood
Publicité
Posté le 25-04-2018 à 16:27:27  profilanswer
 

n°153574
aurel25000
Posté le 25-04-2018 à 16:44:18  profilanswer
 

Hello,
 
Pour moi c'est simple, une alerte centreon = une action
Si une alerte =/= action, c'est qu'elle ne doit pas être une alerte et implique de revoir la conf.

n°153576
cyberlabo
Posté le 25-04-2018 à 16:50:23  profilanswer
 

Bonjour aurel25000,
 
Je te remercie pour ta contribution mais concrètement où dois-je investiguer pour revoir la conf STP.
 
Cordialement.


Message édité par cyberlabo le 25-04-2018 à 16:50:54
n°153579
nex84
Dura lex, sed lex
Posté le 25-04-2018 à 17:12:11  profilanswer
 

Ben tu prends toutes les alertes que tu as et tu vérifie si elles sont pertinentes (élément surveillé, seuil)

 

Par exemple :
Si l'élément surveillé n'a pas besoin de surveillence, alors le check n'a pas lieu d'être.
Si l'alerte ne nécessite pas (encore) d'action c'est que le seuil ou la criticité ne sont pas adéquat.
Et inversement : les éléments non surveillés doivent être étudiés. Devraient-ils être surveillés ?

 

Enfin, comme l'a dit aurel25000, il ne doit pas y avoir une seule alerte critique active en situation nominale.
S'il y a une alerte critique c'est que quelque chose ne va pas et qu'une action correctrice est nécessaire d'urgence.
Les autres sont soit des faux positifs, soit mal configurées. Dans les deux cas il faut les revoir.
Le but c'est de ne pas noyer un vrai problème au milieu d'évènements de moindre importance.


Message édité par nex84 le 25-04-2018 à 17:13:34

---------------
#TeamNoBidouille || Come to the Dark Side, we have cookies || Mangez 5 fruits et légumes par an ! || Le digital, c'est les doigts
n°153594
saarh
Posté le 26-04-2018 à 09:21:37  profilanswer
 

Oui, il va falloir analyser toutes tes erreurs, et faire en fonction. L'image est un brin petite, mais on voit déjà tes alertes critiques sur l'espace disque. Si elles ne sont pas pertinentes, tu passe le seuil de notif à 3% (par exemple) ou tu désactive les checks sur ces services si vraiment tu es certain que ça ne bouge pas (mais je prendrais plutôt la première solution sur du stockage :D ).  
A toi de voir la pertinence de la surveillance de certains services.
Après, certaines alertes critiques, en faux positifs, seront inévitables. (par exemple, sur mon serveur SAP, je monitore un service qui est en critical jusqu'à ce que les gens commencent à bosser dessus....mais je dois en garder la supervision, car en pleine journée, c'est réellement une erreur critique)
Pour ce qui est de la conf, ou la modif des check, centreon est bien documenté sur le net ;) Je pense que pour toi, ça sera surtout au niveau des check qu'il te faudra agir.

n°153596
nex84
Dura lex, sed lex
Posté le 26-04-2018 à 09:43:28  profilanswer
 

Attention aux seuils en %.
imaginons que tu as un disque de 100Go, si tu mets une alerte à 95% ça signifie que tu auras une alerte quand il ne te reste plus que 5Go de libre.
Si tu changes le disque par un disque de 500Go, l'alerte va se déclencher pour 25Go. Ce qui n'est plus forcément pertinent suivant l'utilisation de l'espace sur ce serveur.


Message édité par nex84 le 26-04-2018 à 09:44:09

---------------
#TeamNoBidouille || Come to the Dark Side, we have cookies || Mangez 5 fruits et légumes par an ! || Le digital, c'est les doigts
n°153608
cyberlabo
Posté le 26-04-2018 à 11:19:48  profilanswer
 

Bonjour les contributeurs,
 
Je vous remets le lien de la capture afin de me conseiller pour chaque ligne d'alerte
https://www.casimages.com/i/180426112500650605.jpg.html

n°153609
Je@nb
Modérateur
Kindly give dime
Posté le 26-04-2018 à 11:20:35  profilanswer
 

tu veux pas réfléchir plutôt qu'on fasse ton boulot ?

n°153610
cyberlabo
Posté le 26-04-2018 à 11:33:45  profilanswer
 

@ je@nb : Ce n'est pas un manque de volonté que j'exprime ici, juste une demande de cap précis à suivre, ne sachant pas quels fichiers de conf régler pour répondre à ma problématique.
Je m'attendais à ce type de remarque, d'ailleurs...

Message cité 1 fois
Message édité par cyberlabo le 26-04-2018 à 11:37:50
n°153612
nex84
Dura lex, sed lex
Posté le 26-04-2018 à 11:37:59  profilanswer
 

Tu es stagiaire ?
Demande à tes collègues, expérimente, ...
Sinon ton stage ne servira à rien.


---------------
#TeamNoBidouille || Come to the Dark Side, we have cookies || Mangez 5 fruits et légumes par an ! || Le digital, c'est les doigts
mood
Publicité
Posté le 26-04-2018 à 11:37:59  profilanswer
 

n°153614
cyberlabo
Posté le 26-04-2018 à 11:56:36  profilanswer
 

Oui, n'étant plus très jeune stagiaire (reprise d'une formation diplômante suite à reconversion pro), je pourrais effectivement compter sur l'appui de l'ASR de la société, si celui-ci, overbooké à outrance, n'endossait pas moult casquettes et pouvait me consacrer plus de temps pour éviter les questions sur les fora. C'est d'ailleurs pour ces conditions de travail que l'accueil du-dit stagiaire se justifiait ici.
 
De mon point de vue, c'est un phénomène récurrent, constaté dans les petites structures, ou alors dans les structures voulant faire des économies sur le recrutement de ressources compétentes. Or ce point reste un autre débat...


Message édité par cyberlabo le 26-04-2018 à 11:59:39
n°153615
ShonGail
En phase de calmitude ...
Posté le 26-04-2018 à 12:07:04  profilanswer
 

cyberlabo a écrit :

Bonjour les contributeurs,
 
Je vous remets le lien de la capture afin de me conseiller pour chaque ligne d'alerte
https://www.casimages.com/i/180426112500650605.jpg.html


 
 
La majorité des alertes concernent un manque d'espace disque libre.
Que veux-tu faire sous Centreon ici !?
Il faut sur les serveurs en question libérer de l'espace disque. C'est assez évident, non ?

n°153617
nebulios
Posté le 26-04-2018 à 12:53:43  profilanswer
 

cyberlabo a écrit :

@ je@nb : Ce n'est pas un manque de volonté que j'exprime ici, juste une demande de cap précis à suivre, ne sachant pas quels fichiers de conf régler pour répondre à ma problématique.
Je m'attendais à ce type de remarque, d'ailleurs...


Mais tu as lu le contenu des alertes au moins ?

n°153618
dims
if it ain't brocken, mod it !
Posté le 26-04-2018 à 13:00:32  profilanswer
 

+1 !
sur certaines, c'est pertinent (quand je vois le disque C plein a 100%, j'ai peur pour le reste de l'infra....)
d'autres, que ça braille alors qu'il reste 350Go, c'est clair que le seuil n'est pas du tout adapté.
 
pour les services, ça braille, mais comme on sait pas pourquoi, difficile de répondre et encore plus de décider quelle action entreprendre.
 
idem sur la RAM dispo.
2Go libre sur 12, ça peut être beaucoup, comme peu !
sur un SQL server pas tuné ou un exchange, il va par défaut bouffer toute la RAM dispo. c'est donc normal qu'il reste rien ou presque.
sur un AD, faut se demander ou sont passés les 10Go occupés !!! :D
 
en clair, ya du boulot AVANT de toucher a la supervision.

n°153636
saarh
Posté le 26-04-2018 à 16:24:58  profilanswer
 

le cap précis est simple :
 
- identifier et voir les valeurs qui remontent en alerte. 100% de DD sur un windows, c'est critique. ça peut même être une cause de serveur qui ne redémarre plus, et qui de toute façon va planter sous peu....donc à corriger impérativement, au delà de centreon. Mais dans tous les cas, analyser les remontées Centreon. Y a des graph, faut les lire. Un serveur qui est constamment à 85% d'usage sur 6 mois, ni plus, ni moins, c'est que c'est ce qu'il utilise normalement....donc baisser le seuil d'alerte à 90% est cohérent. Un serveur qui grossi tous les jours, même légèrement, ou exponentiellement, faut analyser le pourquoi et mettre le seuil qui te laisse le temps d'agir. (chez nous, on a quasiment tous les seuil à 90% pour les espaces disques, comme je n'ai aucun applicatif générant plus de 2% par jour d'accroissement en cas de gros pic. si ça tape une alerte, c'est que je dois leur redonner de l'air, en faisant le ménage, et / ou en agrandissant la partition.)
 
- trifouille pas les fichiers de conf si tu n'es pas à l'aise. Chaque service peut se modifier en graphique. Sur la vue principale, tu clic sur le service que tu souhaite modifier, puis la petite clef (en jaune ci dessous, à droite).
 
https://reho.st/medium/self/913f85db557d4cd68ca4f1e1d7e8c4209c532302.jpg
 
et tu modifie tes seuils.
 
https://reho.st/medium/self/355eab154395de4303fe67260fd0e086190c6bf6.jpg
 
 
Attention aux relations. Parfois, un même check est lié à x serveurs.....libre à toi de copier les template dispo pour personnaliser un peu tout ça !


Message édité par saarh le 26-04-2018 à 16:39:46
n°153661
cyberlabo
Posté le 27-04-2018 à 13:38:26  profilanswer
 

Bonjour,  
 
Je vous remercie Saar pour la capture et les conseils. C'est déjà plus parlant pour moi car j'ai l'illustration en exemple. Je m'en vais expérimenter toutes ces pistes ! ;-)
 
Bien à vous.


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Systèmes & Réseaux Pro
  Management du SI

  Alertes critiques : Comment en réduire le nombre SVP ?

 

Sujets relatifs
Tester le nombre max d'utilisateurs en WifiFibre en coaxial ? Votre aide SVP. Anrnaque ?
Désactiver les alertes de sécurité par GPONombre broker par ferme rds
Nombre de connexions simultanées sur une borne Wifi basiqueAvis pour nombre de DC/DNS sur AD
réduire un wmdk en thin provisionning apres qu'il ait grossitAlertes SSL - Fortigate
[BITLOCKER] Choisir le nombre d'essais avant blocageNombre de segment en série en 1000 base T
Plus de sujets relatifs à : Alertes critiques : Comment en réduire le nombre SVP ?


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR