... / Alertes Monitoring réguli...

< Question précédente - Question suivante >

question

Alertes Monitoring régulières depuis 5 jours

Par

Créé le 2022-10-24 09:46:11 (edited on 2024-09-04 12:08:04) dans Serveurs dédiés

Bonjour à tous,

J'ai 4 alertes de monitoring par jour depuis 5 jours sur mon serveur dédié Rise Ubuntu 18.04 qui fait tourner une app sous Nginx, Passenger et Rails + Postgres.

Je n'ai jamais eu de soucis les 7 dernières années...

> | OVH Service Monitoring [REMIND]
> .-----------------+---------+--------+---------+--------------------------------+------------------------------------------.
> | IP | Proto | Port | Status | Timestamp | Reason
> +-----------------+---------+--------+---------+--------------------------------+------------------------------------------+
> | IP | http | 443 | FAILURE | Mon Oct 24 04:05:01 2022 CEST | Timeout
> | IP | http | 80 | FAILURE | Mon Oct 24 04:05:01 2022 CEST | Timeout

A chaque alerte, tous mes services semblent être accessibles (site http/https).
J'ai été voir dans les logs Nginx (access et error), et je ne vois rien d'anormal, au moment du timeout.

Le MRTG OVH ne montre aucun pic (paquets, traffic) à ces moments là.

Ce qui me "panique" un peu, c'est que les horaires des alertes sont régulières et prennent 20 minutes chaque jour ! Ex: 03:45, 04:05, 04:25, 04:45...etc

Pour info, mon serveur est protégé avec fail2ban et UFW. Seuls les ports 80, 443 et 22 sont autorisés.

J'ai regardé un peu htop également, sans rien voir d'anormal.

Je ne serais pas contre un peu d'aide ou au moins des suggestions.

Avis positifs (0)

1456 Vues

16 réponses ( Latest reply on 2022-10-28 03:29:54 Par

TTY

)

TTY

Contributor

Bonjour,
Même chose chez moi sur un RISE-1
J'ai contrôlé les log d'accès il les requêtes passent bien pendant le soit disant downtime....
On ne peut plus compter sur rien :(

Tu as ouvert un ticket à ce sujet ?
Si on est plusieurs cela va être alerter l'équipe OVH.

Utile (0)

alex.bourne

Auteur

Salut TTY !

Tu me rassures un peu !
J'ai ouvert un ticket au support jeudi dernier... leur demandant s'il n'y avait pas un soucis avec l'outil de monitoring, j'ai eu cette réponse "classique":

> Nos outils de monitoring ont bien détecté une failure du service HTTP/HTTPS, cependant, les causes de celle-ci peuvent être diverses.
> Dans vos logs, vous n'avez relevé aucune erreur pour les services HTTP/HTTPS, pourtant, à un instant précis, le MRTG n'a pas pu récupérer l'état de vos services HTTP/HTTPS et a donc envoyé une failure. Cela peut se s'expliquer par une perte de paquet rencontrée au moment de la requête, un timeout ou une saturation du serveur MRTG.

Ce qui m'interpelle depuis mercredi dernier, c'est que seule la première alerte était FAILURE, les autres sont REMIND, comme si "une boucle" tournait sur la première erreur.

Je vais regarder htop tout à l'heure... la prochaine devrait être à 16h15...

Le problème a commencé quand chez toi ?

Utile (0)

TTY

Contributor

>Ce qui m'interpelle depuis mercredi dernier, c'est que seule la première alerte était FAILURE, les autres sont REMIND, comme si "une boucle" tournait sur la première erreur.

Non je n'ai que des alertes. Tu as vérifié ton Firewall et autre produit de sécu ?

>Le problème a commencé quand chez toi ?

Le 11/10/2022 dès la mise en ligne de la machine.

La localisation peut être importante, ce serveur de trouve :
Gravelines (GRA1) - France | baie G107A12 | Serveur ID 1520109

Peux tu partager ces informations et donner ici ton n° de ticket ?
Merci.

Utile (0)

alex.bourne

Auteur

Alors de mon côté, j'ai avancé.
Comme par hasard, j'ai reçu le mail me disant que les services HTTP sont rétablis cet après-midi. Etrange.
(alors qu'ils n'avaient jamais été désactivés)

| OVH Service Monitoring [OK]
.-----------------+---------+--------+---------+--------------------------------.
| IP | Proto | Port | Status | Timestamp
+-----------------+---------+--------+---------+--------------------------------+
| IP | http | 443 | OK | Mon Oct 24 14:40:01 2022 CEST
| IP | http | 80 | OK | Mon Oct 24 14:40:01 2022 CEST
'-----------------+---------+--------+---------+--------------------------------'

Pour l'instant, je n'ai pas eu d'alerte REMIND... mais je surveille et croise les doigts.

On a peut-être 2 problèmes différents.

Mon serveur est à Roubaix 6.

Utile (0)

alex.bourne

Auteur

As-tu configuré le firewall réseau OVH ?
C'est la seule chose que j'ai fait en plus hier.
(j'avais déjà un firewall sur la machine comme dit + haut)

Pas de message cette nuit... ;) Mais je pense que c'est plus une coincidence.

Utile (0)

TTY

Contributor

>As-tu configuré le firewall réseau OVH ?

Non je ne l'utilise pas

Réponse du support ce matin :

>Le problème est connu de nos services, nos administrateurs travaillent actuellement sur celui-ci.
>
En attendant la résolution de celui-ci, je vous invite à utiliser un autre outil de monitoring comme :
NAGIOS
ZABBIX
MUNNIN
OPENNMS
SHINKEN
CENTREON
EyesOfNetwork
Groundwork
Zenoss
Vigilo

>Cependant cette liste n'est pas exhaustive.

>Merci de votre compréhension.
>En vous souhaitant une excellente journée.

Utile (0)

alex.bourne

Auteur

Oui, ils m'avaient aussi incité à utiliser un outil de monitoring externe.

Bon, sinon tu peux désactiver les alertes quelques jours en attenant la résolution du problème ?

Utile (0)

janus57

Bonjour,

Etre averti quand le serveur est en rade, c'est le minimum vital, et ça me suffit pour mes besoins, à ce jour.

Perso j'utilise toujours un externe comme UptimeRobot (gratuit si 1check/5min suffit), car le monitoring OVH ne va pas détecter un problème sur le réseau OVH.
Et quand je vois les réponses qui vous ont été donnée cela me conforte dans l'idée de ne pas faire confiance aux outils mis à dispo par OVH qui peuvent soit ne pas fonctionner du jour au lendemain soit juste être supprimé avec juste une tâche de travaux et rien de plus.

Note : aucune infos dans les tâches de travaux pour indiquer que ce "service" dysfonctionne (Cf : https://bare-metal-servers.1ovhcloud.com/ovhcloud.com/).

Cordialement, janus57

Utile (0)

TTY

Contributor

Je suis bien d'accord avec toi @janus57, j'ai moi aussi uptimerobot (je paie juste pour des crédits SMS) mais de leur coté également il y a des loupés j'en ai déjà eu plusieurs. Genre j’arrête une machine et uptimerobot me dit que tout va bien... ce qui est plus grave qu'un simple faux positif.

Perso je préfère 2 systèmes plutôt qu'un seul. Et en fait, je me suis inscrit chez scaleway pour leur prendre une petite instance pour faire tourner un script de contrôle maison dessus donc 3 systèmes en fait. Malheureusement ils n'ont plus de stock dans les petit prix (stardust).

Quand c'est le client qui t'avertis que c'est offline, c'est plutôt humiliant.

>Et quand je vois les réponses qui vous ont été donnée cela me conforte dans l'idée de ne pas faire confiance aux outils mis à dispo par OVH qui peuvent soit ne pas fonctionner du jour au lendemain soit juste être supprimé avec juste une tâche de travaux et rien de plus.

Un ex de plus les IP FO qui ne peuvent plus êtres passée de SYS -> OVH m’ennuie profondément. Pas de tache travaux non plus :( https://community.ovhcloud.com/community/fr/deplacement-ip-fo-sys-ovh-impossible?id=community_question&sys_id=a160f1c0f15e42d01e11e7bb9bf10346

Utile (0)

janus57

Bonjour,

Genre j’arrête une machine et uptimerobot me dit que tout va bien... ce qui est plus grave qu'un simple faux positif.

j'ai jamais eu le cas (du moins depuis qu'il ont refait leur infra), par contre je suis en gratuit, donc 5min de délais entre chaque check et ça par contre cela ne détecte pas quand un serveur reboot (1à3 minutes de down).

Après en interne nous on utilise Zabbix pour avoir un monitoring complet (cela inclus la charge du serveur/état service etc.).
On utilise juste UptimeRobot pour avoir une sonde extérieur, vérifier le ping et l'état L7.

Cordialement, janus57

Utile (0)

Gaston_Phone

Enthusiast

Depuis une huitaine de jours, j'ai constaté une recrudescence importante de Time-Out sur mon site situé sur le cluster010 en hébergement mutualisé.

Tests cycliques toutes les 5 minutes et alarmes réalisés par une société extérieure à mon site.

Utile (0)

TTY

Contributor

Après en interne nous on utilise Zabbix pour avoir un monitoring complet (cela inclus la charge du serveur/état service etc.).

Vous avez une licence ? Ou vous utilisez sans ?

Utile (0)

janus57

Bonjour,

oui (on utilise le dépôt zabbix pour le serveur & agent) et aucun problème jusqu’à maintenant, peut être que ça va changer quand on va upgrade de version LTS ()upgrade de 4.0LTS à 6.0LTS).

Et là on fait aussi du monitoring à travers internet vu que Zabbix permet de chiffrer le flux entre le client et le serveur.

Enfin on fait du monitoring "multiple" : serveur physique/serveur virtuel/debian/windows/switch

Cordialement, janus57

Utile (0)

Sujets apparentés

Port 25 bloqué pour spam à répétition
10452 28.02.2018 13:39
Spam et IP bloquée
8422 12.12.2016 11:53
Rkhunter : parametre web_CMD invalide
8214 23.07.2017 15:43
Mise en place de VM avec IP publique sur Proxmox 6 [RESOLU]
8122 30.04.2020 17:12
Mise à jour PHP sur Release 3 ovh
8103 11.03.2017 17:43
Connection smtp qui ne marche plus : connect error 10060
8061 12.04.2019 10:10
Partition sur le disque de l'OS ESXI
7962 09.05.2017 14:33
Envoi demail bloqué chez Gmail (550-5.7.26 DMARC)
7719 23.12.2019 08:40
Meilleure solution pour disposer de plusieurs IP ?
7469 29.07.2018 09:40
Comment me connecter par SSH en tant que root à mon serveur ?
6950 09.09.2019 14:34

Bienvenue sur OVHcloud Community

Posez des questions, recherchez des informations, publiez du contenu et interagissez avec d'autres membres d'OVHcloud Community.

Alertes Monitoring régulières depuis 5 jours

Sujets apparentés

Rejoindre la discussion

Sujets les plus consultés dans le même forum

Sujets les plus récents dans le même forum