Pourquoi la charge du PROCESSEUR ne devrait pas (généralement) être une alerte critique.

Une question qui se pose souvent dans la surveillance est de savoir comment définir les niveaux d’alerte et les escalades, et à quel niveau définir les différentes alertes – Critiques, d’erreur ou d’avertissement.

En supposant que vous avez des erreurs et des alertes critiques définies pour notifier les équipes par téléavertisseur / téléphone, et des alertes critiques avec un temps d’escalade plus court, voici quelques directives simples :

Les alertes critiques doivent concerner des événements ayant un effet immédiat sur le client. Par exemple, une adresse IP virtuelle de production sur un équilibreur de charge surveillé tombe en panne, car elle n’a pas de services disponibles vers lesquels acheminer le trafic. Le site est en panne, alors pag tout le monde.

Les alertes d’erreur devraient concerner des événements nécessitant une attention immédiate et qui, s’ils ne sont pas résolus, augmentent la probabilité qu’un événement affectant la production se produise. Pour continuer avec l’exemple de l’équilibreur de charge, une erreur doit être déclenchée si l’adresse IP virtuelle ne dispose que d’un seul serveur principal fonctionnel vers lequel acheminer le trafic – il n’y a désormais plus de redondance, donc une défaillance peut mettre le site hors ligne.

Les avertissements, que nous recommandons généralement d’envoyer par e-mail uniquement, concernent tous les autres types d’événements. La perte d’un seul serveur backend à partir d’une adresse IP virtuelle lorsqu’il y a 20 autres serveurs qui fonctionnent ne garantit pas que quiconque soit réveillé la nuit.

Lorsque vous décidez du niveau à attribuer aux alertes, tenez compte de la fonction principale de l’appareil. Par exemple, dans le cas d’une baie de stockage NetApp, la fonction du périphérique est de répondre aux demandes d’E/S en lecture et en écriture. La principale chose à surveiller pour NetApps devrait donc être la disponibilité et les performances (latence) de ces demandes de lecture et d’écriture. Si un volume traite des demandes avec une latence élevée – telle que 70 ms par demande d’écriture -, cela devrait être une alerte de niveau d’erreur (dans certaines entreprises, il peut être approprié de configurer une alerte de niveau critique, mais généralement une alerte de performance critique ne doit être déclenchée que si les performances de l’application finale se dégradent de manière inacceptable.) Cependant, si la charge du processeur sur NetApp est de 99% pendant une période, même si cela semble alarmant, je suggère que cela soit traité comme une alerte de niveau d’avertissement uniquement. Si la latence n’est pas affectée, pourquoi réveiller les gens la nuit? Envoyez une alerte par e-mail pour que le problème puisse être étudié, mais si la fonction de l’appareil n’est pas altérée, ne réagissez pas trop. (Si vous le souhaitez, vous pouvez définir vos escalades d’alerte afin que de telles conditions entraînent des pages si elles ne sont pas corrigées ou non reconnues pendant plus de 5 heures, par exemple.)

La surcharge d’alerte est un danger plus important pour la plupart des centres de données que la plupart des gens ne le pensent. La pensée est souvent “si une alerte est bonne, plus doit être meilleure.”Concentrez-vous plutôt sur l’identification des fonctions principales des appareils – définissez des alertes de niveau d’erreur sur ces fonctions et utilisez des avertissements pour vous informer des conditions qui pourraient nuire à ces fonctions ou pour faciliter le dépannage. (Si la latence sur un NetApp est élevée et que la charge du PROCESSEUR est également en alerte, cela aide évidemment à diagnostiquer le problème, au lieu de rechercher une activité de volume inhabituelle.)

Réservez des alertes critiques pour les performances et la disponibilité du système dans son ensemble.

Avec la surveillance hébergée par LogicMonitor, les définitions d’alerte pour tous les périphériques de centre de données ont leurs seuils d’alerte prédéfinis de la manière ci–dessus – c’est l’une des façons dont nous aidons à fournir une surveillance significative en quelques minutes.

Leave a Reply