Bonjour a tous,
Nous avons detecte un probleme sur les agents DHCP hier matin (18/02).
Apres un diagnostique un peu long, nous avons finalement reussi a remettre l'infra correcte dans l'apres-midi.
Cependant, la solution n'a pas fonctionnee pour tout le monde.
J'ai donc repris le fix ce matin et fait en sorte que ce soit OK pour tout le monde.
Quelques details techniques pour ceux que ca interesse:
Pour les reseaux prives avec DHCP d'activer, neutron (le composant reseau d'openstack) demarre 2 agents DHCP (aka des serveurs dhcp) pour assurer une redondance.
Comme les reseaux prives reposent sur le vRack (techno OVH), les agents DHCP aussi.
Or, nous avons une API qui a echoue hier, provoquant des problemes sur les agents DHCP.
Meme si la plupart des agents deja demarre n'ont pas ete impactes, cela a quand meme grandement affecte les nouveaux reseaux.
Nous avons 3 problemes a resoudre suite a ca:
1. Nous devons diagnostiquer ce probleme plus rapidement
2. Nous devons reparer plus rapidement
3. Nous devons vous fournir l'information comme quoi il y a un pb avec les agents DHCP.
Pour le 3. le probleme est visible chez vous si vous faite: openstack port list.
Vous verrez alors des ports pour les agents DHCP en status BUILD.
Si cela dure trop longtemps ou si les ports sont DOWN, alors c'est que quelque chose ne va pas.
Pour le 1. nous allons monitorer les agents (et donc les ports en BUILD/DOWN) par reseau et envoyer une alerte si probleme
Pour le 2. avec une alerte on arrivera plus rapidement a identifier le pb. Aussi, nous sommes en train de changer l'API entre neutron et le vrack, et nous savons que ce changement apporte de la stabilite.
Bonne journee a tous.