Alertes Monitoring régulières depuis 5 jours
... / Alertes Monitoring réguli...
BMPCreated with Sketch.BMPZIPCreated with Sketch.ZIPXLSCreated with Sketch.XLSTXTCreated with Sketch.TXTPPTCreated with Sketch.PPTPNGCreated with Sketch.PNGPDFCreated with Sketch.PDFJPGCreated with Sketch.JPGGIFCreated with Sketch.GIFDOCCreated with Sketch.DOC Error Created with Sketch.
question

Alertes Monitoring régulières depuis 5 jours

Par
alex.bourne
Créé le 2022-10-24 09:46:11 (edited on 2024-09-04 12:08:04) dans Serveurs dédiés

Bonjour à tous,

J'ai 4 alertes de monitoring par jour depuis 5 jours sur mon serveur dédié Rise Ubuntu 18.04 qui fait tourner une app sous Nginx, Passenger et Rails + Postgres.

Je n'ai jamais eu de soucis les 7 dernières années...

> | OVH Service Monitoring [REMIND]
> .-----------------+---------+--------+---------+--------------------------------+------------------------------------------.
> | IP | Proto | Port | Status | Timestamp | Reason
> +-----------------+---------+--------+---------+--------------------------------+------------------------------------------+
> | IP | http | 443 | FAILURE | Mon Oct 24 04:05:01 2022 CEST | Timeout
> | IP | http | 80 | FAILURE | Mon Oct 24 04:05:01 2022 CEST | Timeout

A chaque alerte, tous mes services semblent être accessibles (site http/https).
J'ai été voir dans les logs Nginx (access et error), et je ne vois rien d'anormal, au moment du timeout.

Le MRTG OVH ne montre aucun pic (paquets, traffic) à ces moments là.

Ce qui me "panique" un peu, c'est que les horaires des alertes sont régulières et prennent 20 minutes chaque jour ! Ex: 03:45, 04:05, 04:25, 04:45...etc

Pour info, mon serveur est protégé avec fail2ban et UFW. Seuls les ports 80, 443 et 22 sont autorisés.

J'ai regardé un peu htop également, sans rien voir d'anormal.

Je ne serais pas contre un peu d'aide ou au moins des suggestions.


16 réponses ( Latest reply on 2022-10-28 03:29:54 Par
TTY
)

Bonjour,
Même chose chez moi sur un RISE-1
J'ai contrôlé les log d'accès il les requêtes passent bien pendant le soit disant downtime....
On ne peut plus compter sur rien :(

Tu as ouvert un ticket à ce sujet ?
Si on est plusieurs cela va être alerter l'équipe OVH.

Salut TTY !

Tu me rassures un peu !
J'ai ouvert un ticket au support jeudi dernier... leur demandant s'il n'y avait pas un soucis avec l'outil de monitoring, j'ai eu cette réponse "classique":

> Nos outils de monitoring ont bien détecté une failure du service HTTP/HTTPS, cependant, les causes de celle-ci peuvent être diverses.
> Dans vos logs, vous n'avez relevé aucune erreur pour les services HTTP/HTTPS, pourtant, à un instant précis, le MRTG n'a pas pu récupérer l'état de vos services HTTP/HTTPS et a donc envoyé une failure. Cela peut se s'expliquer par une perte de paquet rencontrée au moment de la requête, un timeout ou une saturation du serveur MRTG.

Ce qui m'interpelle depuis mercredi dernier, c'est que seule la première alerte était FAILURE, les autres sont REMIND, comme si "une boucle" tournait sur la première erreur.

Je vais regarder htop tout à l'heure... la prochaine devrait être à 16h15...

Le problème a commencé quand chez toi ?

>Ce qui m'interpelle depuis mercredi dernier, c'est que seule la première alerte était FAILURE, les autres sont REMIND, comme si "une boucle" tournait sur la première erreur.

Non je n'ai que des alertes. Tu as vérifié ton Firewall et autre produit de sécu ?

>Le problème a commencé quand chez toi ?

Le 11/10/2022 dès la mise en ligne de la machine.

La localisation peut être importante, ce serveur de trouve :
Gravelines (GRA1) - France | baie G107A12 | Serveur ID 1520109

Peux tu partager ces informations et donner ici ton n° de ticket ?
Merci.

Alors de mon côté, j'ai avancé.
Comme par hasard, j'ai reçu le mail me disant que les services HTTP sont rétablis cet après-midi. Etrange.
(alors qu'ils n'avaient jamais été désactivés)

| OVH Service Monitoring [OK]
.-----------------+---------+--------+---------+--------------------------------.
| IP | Proto | Port | Status | Timestamp
+-----------------+---------+--------+---------+--------------------------------+
| IP | http | 443 | OK | Mon Oct 24 14:40:01 2022 CEST
| IP | http | 80 | OK | Mon Oct 24 14:40:01 2022 CEST
'-----------------+---------+--------+---------+--------------------------------'

Pour l'instant, je n'ai pas eu d'alerte REMIND... mais je surveille et croise les doigts.

On a peut-être 2 problèmes différents.

Mon serveur est à Roubaix 6.

J'ai encore eu une alert hier soir. Comee tu le dis nous n'avons peut être pas le même problème.
Wait and see.
n° de ticket 6644263

As-tu configuré le firewall réseau OVH ?
C'est la seule chose que j'ai fait en plus hier.
(j'avais déjà un firewall sur la machine comme dit + haut)

Pas de message cette nuit... ;) Mais je pense que c'est plus une coincidence.

>As-tu configuré le firewall réseau OVH ?

Non je ne l'utilise pas

Réponse du support ce matin :

>Le problème est connu de nos services, nos administrateurs travaillent actuellement sur celui-ci.
>
En attendant la résolution de celui-ci, je vous invite à utiliser un autre outil de monitoring comme :
NAGIOS
ZABBIX
MUNNIN
OPENNMS
SHINKEN
CENTREON
EyesOfNetwork
Groundwork
Zenoss
Vigilo

>Cependant cette liste n'est pas exhaustive.

>Merci de votre compréhension.
>En vous souhaitant une excellente journée.

Oui, ils m'avaient aussi incité à utiliser un outil de monitoring externe.

Bon, sinon tu peux désactiver les alertes quelques jours en attenant la résolution du problème ?

Non je garde.
J'ai uptimerobot en complément qui m’envoie des SMS

Bonjour,

question con : vous vous servez vraiment du monitoring OVH ?

Cordialement, janus57

Etre averti quand le serveur est en rade, c'est le minimum vital, et ça me suffit pour mes besoins, à ce jour.

Bonjour,


Etre averti quand le serveur est en rade, c'est le minimum vital, et ça me suffit pour mes besoins, à ce jour.

Perso j'utilise toujours un externe comme UptimeRobot (gratuit si 1check/5min suffit), car le monitoring OVH ne va pas détecter un problème sur le réseau OVH.
Et quand je vois les réponses qui vous ont été donnée cela me conforte dans l'idée de ne pas faire confiance aux outils mis à dispo par OVH qui peuvent soit ne pas fonctionner du jour au lendemain soit juste être supprimé avec juste une tâche de travaux et rien de plus.

Note : aucune infos dans les tâches de travaux pour indiquer que ce "service" dysfonctionne (Cf : https://bare-metal-servers.1ovhcloud.com/ovhcloud.com/).

Cordialement, janus57

Je suis bien d'accord avec toi @janus57, j'ai moi aussi uptimerobot (je paie juste pour des crédits SMS) mais de leur coté également il y a des loupés j'en ai déjà eu plusieurs. Genre j’arrête une machine et uptimerobot me dit que tout va bien... ce qui est plus grave qu'un simple faux positif.

Perso je préfère 2 systèmes plutôt qu'un seul. Et en fait, je me suis inscrit chez scaleway pour leur prendre une petite instance pour faire tourner un script de contrôle maison dessus donc 3 systèmes en fait. Malheureusement ils n'ont plus de stock dans les petit prix (stardust).

Quand c'est le client qui t'avertis que c'est offline, c'est plutôt humiliant.

>Et quand je vois les réponses qui vous ont été donnée cela me conforte dans l'idée de ne pas faire confiance aux outils mis à dispo par OVH qui peuvent soit ne pas fonctionner du jour au lendemain soit juste être supprimé avec juste une tâche de travaux et rien de plus.

Un ex de plus les IP FO qui ne peuvent plus êtres passée de SYS -> OVH m’ennuie profondément. Pas de tache travaux non plus :( https://community.ovhcloud.com/community/fr/deplacement-ip-fo-sys-ovh-impossible?id=community_question&sys_id=a160f1c0f15e42d01e11e7bb9bf10346

Je viens de m'inscire sur uptime robot !
Merci pour ce lien !

Bonjour,


Genre j’arrête une machine et uptimerobot me dit que tout va bien... ce qui est plus grave qu'un simple faux positif.

j'ai jamais eu le cas (du moins depuis qu'il ont refait leur infra), par contre je suis en gratuit, donc 5min de délais entre chaque check et ça par contre cela ne détecte pas quand un serveur reboot (1à3 minutes de down).

Après en interne nous on utilise Zabbix pour avoir un monitoring complet (cela inclus la charge du serveur/état service etc.).
On utilise juste UptimeRobot pour avoir une sonde extérieur, vérifier le ping et l'état L7.

Cordialement, janus57

Depuis une huitaine de jours, j'ai constaté une recrudescence importante de Time-Out sur mon site situé sur le cluster010 en hébergement mutualisé.

Tests cycliques toutes les 5 minutes et alarmes réalisés par une société extérieure à mon site.

Que dises tes logs ?
Ouvre un sujet a part :D :D


Après en interne nous on utilise Zabbix pour avoir un monitoring complet (cela inclus la charge du serveur/état service etc.).


Vous avez une licence ? Ou vous utilisez sans ?

Bonjour,

Pas de licence, c'est le support qui est payant.

Et c'est OpenSource si je dis pas de bêtises.

Cordialement, janus57

Oui je voulais savoir si vous l'aviez mis en oeuvre sans le support payant.

Bonjour,

oui (on utilise le dépôt zabbix pour le serveur & agent) et aucun problème jusqu’à maintenant, peut être que ça va changer quand on va upgrade de version LTS ()upgrade de 4.0LTS à 6.0LTS).

Et là on fait aussi du monitoring à travers internet vu que Zabbix permet de chiffrer le flux entre le client et le serveur.

Enfin on fait du monitoring "multiple" : serveur physique/serveur virtuel/debian/windows/switch

Cordialement, janus57

Merci, je le met dans le met dans met bookmark