DHCPv4 dégradé dans un réseau privé
BMPCreated with Sketch.BMPZIPCreated with Sketch.ZIPXLSCreated with Sketch.XLSTXTCreated with Sketch.TXTPPTCreated with Sketch.PPTPNGCreated with Sketch.PNGPDFCreated with Sketch.PDFJPGCreated with Sketch.JPGGIFCreated with Sketch.GIFDOCCreated with Sketch.DOC Error Created with Sketch.
question

DHCPv4 dégradé dans un réseau privé

Par
TonyF7
Créé le 2021-02-19 04:40:28 (edited on 2024-09-04 10:55:09) dans Public Cloud OVHcloud

Bonjour à la communauté,

Depuis hier soir à 21h (19/02/2021), un de mes réseaux privés ne semble plus fournir le dhcp à mes instances hébergées dans SBG5.
Je précise que je n'ai rien changé à ma conf qui tourne comme ça depuis presque 1 an...

J'ai recréé une instance pour tester le problème.
Voici ce que je trouve dans _**journalctl**_ :
> févr. 19 03:46:34 s1-2-sbg5-traefik3-prod systemd[1]: Started Network Name Resolution.
> févr. 19 03:46:34 s1-2-sbg5-traefik3-prod systemd[1]: Reached target Network.
> févr. 19 03:46:34 s1-2-sbg5-traefik3-prod systemd[1]: Reached target Host and Network Name Lookups.
> févr. 19 03:46:36 s1-2-sbg5-traefik3-prod systemd-networkd[537]: ens3: Gained IPv6LL
> févr. 19 03:46:36 s1-2-sbg5-traefik3-prod systemd-timesyncd[490]: Network configuration changed, trying to establish connection.
> févr. 19 03:46:36 s1-2-sbg5-traefik3-prod systemd-networkd[537]: ens4: Gained IPv6LL
> févr. 19 03:46:36 s1-2-sbg5-traefik3-prod systemd-timesyncd[490]: Network configuration changed, trying to establish connection.
> févr. 19 03:46:42 s1-2-sbg5-traefik3-prod systemd-networkd[537]: ens3: DHCPv4 address 51.210.158.253/32 via 51.210.158.1
> févr. 19 03:46:42 s1-2-sbg5-traefik3-prod systemd-timesyncd[490]: Network configuration changed, trying to establish connection.
> févr. 19 03:46:42 s1-2-sbg5-traefik3-prod systemd-timesyncd[490]: Network configuration changed, trying to establish connection.
> févr. 19 03:46:42 s1-2-sbg5-traefik3-prod systemd-networkd-wait-online[538]: managing: ens3
> févr. 19 03:46:42 s1-2-sbg5-traefik3-prod systemd-timesyncd[490]: Network configuration changed, trying to establish connection.
> févr. 19 03:47:12 s1-2-sbg5-traefik3-prod systemd-timesyncd[490]: Initial synchronization to time server 91.189.89.199:123 (ntp.ubuntu.com).
> févr. 19 03:48:34 s1-2-sbg5-traefik3-prod systemd-networkd-wait-online[538]: Event loop failed: Connection timed out
> févr. 19 03:48:34 s1-2-sbg5-traefik3-prod systemd[1]: systemd-networkd-wait-online.service: Main process exited, code=exited, status=1/FAILURE
> févr. 19 03:48:34 s1-2-sbg5-traefik3-prod systemd[1]: systemd-networkd-wait-online.service: Failed with result 'exit-code'.
> févr. 19 03:48:34 s1-2-sbg5-traefik3-prod systemd[1]: Failed to start Wait for Network to be Configured.
> févr. 19 03:48:34 s1-2-sbg5-traefik3-prod systemd[1]: Starting Initial cloud-init job (metadata service crawler)...
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: Cloud-init v. 20.4.1-0ubuntu1~20.04.1 running 'init' at Fri, 19 Feb 2021 03:48:35 +0000. Up 129.14 seconds.
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: ++++++++++++++++++++++++++++++++++++++++Net device info++++++++++++++++++++++++++++++++++++++++
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +--------+------+------------------------------+-----------------+--------+-------------------+
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | Device | Up | Address | Mask | Scope | Hw-Address |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +--------+------+------------------------------+-----------------+--------+-------------------+
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | ens3 | True | 51.210.158.253 | 255.255.255.255 | global | fa:16:3e:ad:ce:9c |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | ens3 | True | fe80::f816:3eff:fead:ce9c/64 | . | link | fa:16:3e:ad:ce:9c |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | ens4 | True | fe80::f816:3eff:fe2c:5db3/64 | . | link | fa:16:3e:2c:5d:b3 |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | lo | True | 127.0.0.1 | 255.0.0.0 | host | . |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | lo | True | ::1/128 | . | host | . |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +--------+------+------------------------------+-----------------+--------+-------------------+
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +++++++++++++++++++++++++++++++Route IPv4 info+++++++++++++++++++++++++++++++
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +-------+--------------+--------------+-----------------+-----------+-------+
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | Route | Destination | Gateway | Genmask | Interface | Flags |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +-------+--------------+--------------+-----------------+-----------+-------+
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | 0 | 0.0.0.0 | 51.210.158.1 | 0.0.0.0 | ens3 | UG |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | 1 | 51.210.158.1 | 0.0.0.0 | 255.255.255.255 | ens3 | UH |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +-------+--------------+--------------+-----------------+-----------+-------+
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +++++++++++++++++++Route IPv6 info+++++++++++++++++++
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +-------+-------------+---------+-----------+-------+
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | Route | Destination | Gateway | Interface | Flags |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +-------+-------------+---------+-----------+-------+
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | 1 | fe80::/64 | :: | ens4 | U |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | 2 | fe80::/64 | :: | ens3 | U |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | 4 | local | :: | ens4 | U |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | 5 | local | :: | ens3 | U |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | 6 | ff00::/8 | :: | ens4 | U |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: | 7 | ff00::/8 | :: | ens3 | U |
> févr. 19 03:48:35 s1-2-sbg5-traefik3-prod cloud-init[563]: ci-info: +-------+-------------+---------+-----------+-------+

Le IPv6 est bien là pour mes 2 interfaces ens3 et ens4, mais seule ens3 (Ext-Net) reçoit une IPv4.
Et en effet quand je regarde **_networkctl status ens4_** :
> ● 3: ens4
> Link File: /run/systemd/network/10-netplan-ens4.link
> Network File: /run/systemd/network/10-netplan-ens4.network
> Type: ether
> State: degraded (configuring)
> Path: pci-0000:00:04.0
> Driver: virtio_net
> Vendor: Red Hat, Inc.
> Model: Virtio network device
> HW Address: fa:16:3e:2c:5d:b3
> MTU: 1500 (min: 68, max: 65535)
> Queue Length (Tx/Rx): 1/1
> Auto negotiation: no
> Speed: n/a
> Address: fe80::f816:3eff:fe2c:5db3

> févr. 19 03:46:34 s1-2-sbg5-traefik3-prod systemd-networkd[537]: ens4: IPv6 successfully enabled
> févr. 19 03:46:34 s1-2-sbg5-traefik3-prod systemd-networkd[537]: ens4: Link UP
> févr. 19 03:46:34 s1-2-sbg5-traefik3-prod systemd-networkd[537]: ens4: Gained carrier
> févr. 19 03:46:36 s1-2-sbg5-traefik3-prod systemd-networkd[537]: ens4: Gained IPv6LL

Et voici la conf netplan de l'interface :
> network:
> version: 2
> ethernets:
> ens4:
> dhcp4: true
> match:
> macaddress: fa:16:3e:2c:5d:b3
> set-name: ens4

Bien entendu, ça arrive sur mon infra de prod et pas sur celle de test, et juste avant un week-end -_-

Merci par avance pour l'aide que vous pourrez m'apporter


2 réponses ( Latest reply on 2021-02-19 12:54:45 Par
ArnaudM18
)

Bonjour,

je vous conseil d'ouvrir un ticket auprès de OVH.

Cordialement, janus57

Bonjour @janus57,

c'est déjà fait également.
Mais la communauté est souvent très réactive alors comme il s'agit de mon infra de prod je mets toutes les chances de mon côté ;-)

Merci

Bonjour,

le problème est que la communauté ne pourra rien faire pour un problème qui se trouve sur l'infra OVH, à part vous dire de passer les configuration en IP fixe ou si c'est dans un vrack faire votre propre DHCP et désactiver celui de OVH, le problème est que c'est pas forcément possible selon le produit que vous avez pris chez OVH.

Cordialement, janus57

Hello,

Hier sur SBG5 nous avons eu des soucis avec les agents DHCP.
Pouvez vous me donner le network ID ? Ou l'ID d'une instance?

Bonne journee

Merci pour ton retour @ArnaudM18, je clos

Bonjour a tous,

Nous avons detecte un probleme sur les agents DHCP hier matin (18/02).
Apres un diagnostique un peu long, nous avons finalement reussi a remettre l'infra correcte dans l'apres-midi.
Cependant, la solution n'a pas fonctionnee pour tout le monde.
J'ai donc repris le fix ce matin et fait en sorte que ce soit OK pour tout le monde.

Quelques details techniques pour ceux que ca interesse:
Pour les reseaux prives avec DHCP d'activer, neutron (le composant reseau d'openstack) demarre 2 agents DHCP (aka des serveurs dhcp) pour assurer une redondance.
Comme les reseaux prives reposent sur le vRack (techno OVH), les agents DHCP aussi.
Or, nous avons une API qui a echoue hier, provoquant des problemes sur les agents DHCP.
Meme si la plupart des agents deja demarre n'ont pas ete impactes, cela a quand meme grandement affecte les nouveaux reseaux.

Nous avons 3 problemes a resoudre suite a ca:
1. Nous devons diagnostiquer ce probleme plus rapidement
2. Nous devons reparer plus rapidement
3. Nous devons vous fournir l'information comme quoi il y a un pb avec les agents DHCP.

Pour le 3. le probleme est visible chez vous si vous faite: openstack port list.
Vous verrez alors des ports pour les agents DHCP en status BUILD.
Si cela dure trop longtemps ou si les ports sont DOWN, alors c'est que quelque chose ne va pas.

Pour le 1. nous allons monitorer les agents (et donc les ports en BUILD/DOWN) par reseau et envoyer une alerte si probleme

Pour le 2. avec une alerte on arrivera plus rapidement a identifier le pb. Aussi, nous sommes en train de changer l'API entre neutron et le vrack, et nous savons que ce changement apporte de la stabilite.

Bonne journee a tous.