Je suis Charlie

Autres trucs

Accueil

Seulement les RFC

Seulement les fiches de lecture

Ève

Grande perturbation de l'Internet ce sept novembre...

Première rédaction de cet article le 7 novembre 2011


Ce lundi 7 novembre 2011, vers 14h05 UTC, grande perturbation de la Force. Des tas de destinations deviennent injoignables sur l'Internet...

Voici par exemple un des graphes montrant une brusque diminution du trafic (les heures sont des heures locales, pas UTC) : . À noter qu'un second plantage, moins important, a eu lieu vers 15h30 UTC. On voit bien l'effet des deux plantages sur ce graphique de DNSmon, qui montre l'impact de la panne sur les serveurs DNS de .fr (le serveur c.nic.fr a été le plus impacté) : Les utilisateurs ne peuvent plus travailler et plein de gens se plaignent.

Le problème venait d'une annonce BGP amusante qui a planté (et fait redémarrer) certains routeurs Juniper. Voir les annonces Twitter d'Absolight et de Neo. Cela ressemble donc beaucoup à des problèmes comme celui de l'attribut 99. Même si c'était plutôt Cisco qui nous avait habitué à ce genre de crashes de grand style.

La bogue ne touchait apparemment que la gamme MX, en version 10.2, 10.3 et certaines 10.4 de JunOS ; Raphaël Maunier me dit que les plus basses versions non affectées sont les 10.4R6, 11.1R4 et 11.2R1). La bogue est apparemment enregistré chez Juniper sous l'identificateur PSN-2011-08-327 (j'ai mis un lien vers un pastebin car le rapport officiel est réservé aux clients de Juniper ; à tout hasard, je garde une copie de PSN-2011-08-327 ici).

Une bonne façon de voir d'un coup d'œil qu'il y a eu une grande perturbation BGP est de regarder les archives de RouteViews du mois en cours (merci à Jared Mauch pour la bonne idée). Pour novembre 2011, regardez les fichiers updates.20111107.1415.bz2 et updates.20111107.1430.bz2 (le nom du fichier donne l'heure en UTC), vingt fois plus gros que la normale et montrant une avalanche de mises à jour BGP suite au crash de tant de routeurs.

C'est l'occasion de se rappeler que la résilience de l'Internet est un combat permanent. Ainsi, l'un des opérateurs affectés, Level 3 a une part du marché telle que ses pannes entraînent la coupure d'une bonne partie de l'Internet.

Quelques ressources utiles pour les administrateurs réseaux confrontés à ce genre de problèmes :

Autres articles sur cette panne :

  • Interview de Raphaël Maunier, de NeoTelecoms
  • Contrairement à ce que prétend l'article de ZDnet, cela n'a rien à voir avec une mise à jour du logiciel des routeurs (cela serait amusant que tout le monde ait fait la mise à jour en même temps, mais le journaliste incompétent a confondu « BGP update » - mise à jour des tables de routage - avec « software update » - mise à jour du logiciel).

Version PDF de cette page (mais vous pouvez aussi imprimer depuis votre navigateur, il y a une feuille de style prévue pour cela)

Source XML de cette page (cette page est distribuée sous les termes de la licence GFDL)