Bonjour à tous,
J'ai 4 alertes de monitoring par jour depuis 5 jours sur mon serveur dédié Rise Ubuntu 18.04 qui fait tourner une app sous Nginx, Passenger et Rails + Postgres.
Je n'ai jamais eu de soucis les 7 dernières années...
> | OVH Service Monitoring [REMIND]
> .-----------------+---------+--------+---------+--------------------------------+------------------------------------------.
> | IP | Proto | Port | Status | Timestamp | Reason
> +-----------------+---------+--------+---------+--------------------------------+------------------------------------------+
> | IP | http | 443 | FAILURE | Mon Oct 24 04:05:01 2022 CEST | Timeout
> | IP | http | 80 | FAILURE | Mon Oct 24 04:05:01 2022 CEST | Timeout
A chaque alerte, tous mes services semblent être accessibles (site http/https).
J'ai été voir dans les logs Nginx (access et error), et je ne vois rien d'anormal, au moment du timeout.
Le MRTG OVH ne montre aucun pic (paquets, traffic) à ces moments là.
Ce qui me "panique" un peu, c'est que les horaires des alertes sont régulières et prennent 20 minutes chaque jour ! Ex: 03:45, 04:05, 04:25, 04:45...etc
Pour info, mon serveur est protégé avec fail2ban et UFW. Seuls les ports 80, 443 et 22 sont autorisés.
J'ai regardé un peu htop également, sans rien voir d'anormal.
Je ne serais pas contre un peu d'aide ou au moins des suggestions.
Alertes Monitoring régulières depuis 5 jours
Sujets apparentés
- Port 25 bloqué pour spam à répétition
10376
28.02.2018 13:39
- Spam et IP bloquée
8403
12.12.2016 11:53
- Rkhunter : parametre web_CMD invalide
8169
23.07.2017 15:43
- Mise à jour PHP sur Release 3 ovh
8083
11.03.2017 17:43
- Mise en place de VM avec IP publique sur Proxmox 6 [RESOLU]
8078
30.04.2020 17:12
- Connection smtp qui ne marche plus : connect error 10060
8013
12.04.2019 10:10
- Partition sur le disque de l'OS ESXI
7938
09.05.2017 14:33
- Envoi demail bloqué chez Gmail (550-5.7.26 DMARC)
7701
23.12.2019 08:40
- Meilleure solution pour disposer de plusieurs IP ?
7428
29.07.2018 09:40
- Comment me connecter par SSH en tant que root à mon serveur ?
6907
09.09.2019 14:34
Bonjour,
Même chose chez moi sur un RISE-1
J'ai contrôlé les log d'accès il les requêtes passent bien pendant le soit disant downtime....
On ne peut plus compter sur rien :(
Tu as ouvert un ticket à ce sujet ?
Si on est plusieurs cela va être alerter l'équipe OVH.
Salut TTY !
Tu me rassures un peu !
J'ai ouvert un ticket au support jeudi dernier... leur demandant s'il n'y avait pas un soucis avec l'outil de monitoring, j'ai eu cette réponse "classique":
> Nos outils de monitoring ont bien détecté une failure du service HTTP/HTTPS, cependant, les causes de celle-ci peuvent être diverses.
> Dans vos logs, vous n'avez relevé aucune erreur pour les services HTTP/HTTPS, pourtant, à un instant précis, le MRTG n'a pas pu récupérer l'état de vos services HTTP/HTTPS et a donc envoyé une failure. Cela peut se s'expliquer par une perte de paquet rencontrée au moment de la requête, un timeout ou une saturation du serveur MRTG.
Ce qui m'interpelle depuis mercredi dernier, c'est que seule la première alerte était FAILURE, les autres sont REMIND, comme si "une boucle" tournait sur la première erreur.
Je vais regarder htop tout à l'heure... la prochaine devrait être à 16h15...
Le problème a commencé quand chez toi ?
>Ce qui m'interpelle depuis mercredi dernier, c'est que seule la première alerte était FAILURE, les autres sont REMIND, comme si "une boucle" tournait sur la première erreur.
Non je n'ai que des alertes. Tu as vérifié ton Firewall et autre produit de sécu ?
>Le problème a commencé quand chez toi ?
Le 11/10/2022 dès la mise en ligne de la machine.
La localisation peut être importante, ce serveur de trouve :
Gravelines (GRA1) - France | baie G107A12 | Serveur ID 1520109
Peux tu partager ces informations et donner ici ton n° de ticket ?
Merci.
Alors de mon côté, j'ai avancé.
Comme par hasard, j'ai reçu le mail me disant que les services HTTP sont rétablis cet après-midi. Etrange.
(alors qu'ils n'avaient jamais été désactivés)
| OVH Service Monitoring [OK]
.-----------------+---------+--------+---------+--------------------------------.
| IP | Proto | Port | Status | Timestamp
+-----------------+---------+--------+---------+--------------------------------+
| IP | http | 443 | OK | Mon Oct 24 14:40:01 2022 CEST
| IP | http | 80 | OK | Mon Oct 24 14:40:01 2022 CEST
'-----------------+---------+--------+---------+--------------------------------'
Pour l'instant, je n'ai pas eu d'alerte REMIND... mais je surveille et croise les doigts.
On a peut-être 2 problèmes différents.
Mon serveur est à Roubaix 6.
J'ai encore eu une alert hier soir. Comee tu le dis nous n'avons peut être pas le même problème.
Wait and see.
n° de ticket 6644263
As-tu configuré le firewall réseau OVH ?
C'est la seule chose que j'ai fait en plus hier.
(j'avais déjà un firewall sur la machine comme dit + haut)
Pas de message cette nuit... ;) Mais je pense que c'est plus une coincidence.
>As-tu configuré le firewall réseau OVH ?
Non je ne l'utilise pas
Réponse du support ce matin :
>Le problème est connu de nos services, nos administrateurs travaillent actuellement sur celui-ci.
>
En attendant la résolution de celui-ci, je vous invite à utiliser un autre outil de monitoring comme :
NAGIOS
ZABBIX
MUNNIN
OPENNMS
SHINKEN
CENTREON
EyesOfNetwork
Groundwork
Zenoss
Vigilo
>Cependant cette liste n'est pas exhaustive.
>Merci de votre compréhension.
>En vous souhaitant une excellente journée.
Oui, ils m'avaient aussi incité à utiliser un outil de monitoring externe.
Bon, sinon tu peux désactiver les alertes quelques jours en attenant la résolution du problème ?
Non je garde.
J'ai uptimerobot en complément qui m’envoie des SMS
Bonjour,
question con : vous vous servez vraiment du monitoring OVH ?
Cordialement, janus57
Etre averti quand le serveur est en rade, c'est le minimum vital, et ça me suffit pour mes besoins, à ce jour.
Bonjour,
Perso j'utilise toujours un externe comme UptimeRobot (gratuit si 1check/5min suffit), car le monitoring OVH ne va pas détecter un problème sur le réseau OVH.
Et quand je vois les réponses qui vous ont été donnée cela me conforte dans l'idée de ne pas faire confiance aux outils mis à dispo par OVH qui peuvent soit ne pas fonctionner du jour au lendemain soit juste être supprimé avec juste une tâche de travaux et rien de plus.
Note : aucune infos dans les tâches de travaux pour indiquer que ce "service" dysfonctionne (Cf : https://bare-metal-servers.1ovhcloud.com/ovhcloud.com/).
Cordialement, janus57
Je suis bien d'accord avec toi @janus57, j'ai moi aussi uptimerobot (je paie juste pour des crédits SMS) mais de leur coté également il y a des loupés j'en ai déjà eu plusieurs. Genre j’arrête une machine et uptimerobot me dit que tout va bien... ce qui est plus grave qu'un simple faux positif.
Perso je préfère 2 systèmes plutôt qu'un seul. Et en fait, je me suis inscrit chez scaleway pour leur prendre une petite instance pour faire tourner un script de contrôle maison dessus donc 3 systèmes en fait. Malheureusement ils n'ont plus de stock dans les petit prix (stardust).
Quand c'est le client qui t'avertis que c'est offline, c'est plutôt humiliant.
>Et quand je vois les réponses qui vous ont été donnée cela me conforte dans l'idée de ne pas faire confiance aux outils mis à dispo par OVH qui peuvent soit ne pas fonctionner du jour au lendemain soit juste être supprimé avec juste une tâche de travaux et rien de plus.
Un ex de plus les IP FO qui ne peuvent plus êtres passée de SYS -> OVH m’ennuie profondément. Pas de tache travaux non plus :( https://community.ovhcloud.com/community/fr/deplacement-ip-fo-sys-ovh-impossible?id=community_question&sys_id=a160f1c0f15e42d01e11e7bb9bf10346
Je viens de m'inscire sur uptime robot !
Merci pour ce lien !
Bonjour,
j'ai jamais eu le cas (du moins depuis qu'il ont refait leur infra), par contre je suis en gratuit, donc 5min de délais entre chaque check et ça par contre cela ne détecte pas quand un serveur reboot (1à3 minutes de down).
Après en interne nous on utilise Zabbix pour avoir un monitoring complet (cela inclus la charge du serveur/état service etc.).
On utilise juste UptimeRobot pour avoir une sonde extérieur, vérifier le ping et l'état L7.
Cordialement, janus57
Depuis une huitaine de jours, j'ai constaté une recrudescence importante de Time-Out sur mon site situé sur le cluster010 en hébergement mutualisé.
Tests cycliques toutes les 5 minutes et alarmes réalisés par une société extérieure à mon site.
Que dises tes logs ?
Ouvre un sujet a part :D :D
Vous avez une licence ? Ou vous utilisez sans ?
Bonjour,
Pas de licence, c'est le support qui est payant.
Et c'est OpenSource si je dis pas de bêtises.
Cordialement, janus57
Oui je voulais savoir si vous l'aviez mis en oeuvre sans le support payant.
Bonjour,
oui (on utilise le dépôt zabbix pour le serveur & agent) et aucun problème jusqu’à maintenant, peut être que ça va changer quand on va upgrade de version LTS ()upgrade de 4.0LTS à 6.0LTS).
Et là on fait aussi du monitoring à travers internet vu que Zabbix permet de chiffrer le flux entre le client et le serveur.
Enfin on fait du monitoring "multiple" : serveur physique/serveur virtuel/debian/windows/switch
Cordialement, janus57
Merci, je le met dans le met dans met bookmark