Le 16 novembre, deux pannes successives ont affecté les
résolveurs
Commençons par les observations. Au moins, il s'agira de
faits. Les deux pannes sont survenues approximativement entre 0840
Que nous montrent-elles ? Je prends par exemple le domaine de
l'
% atlas-resolve --requested 100 online.stanford.edu
[] : 1 occurrences
[171.67.216.22] : 33 occurrences
[171.67.216.23] : 28 occurrences
[171.67.216.21] : 37 occurrences
Test #6935163 done at 2016-11-17T04:56:58Z
C'était le lendemain de la panne, et tout marche bien (une
seule sonde n'a pas eu de réponse, et cela peut être de la
faute de son réseau d'accès). Mais
pendant la panne ? On voyait, en se limitant à
l'
% atlas-resolve --requested 100 --as 3215 online.stanford.edu
[TIMEOUT(S)] : 13 occurrences
[ERROR: SERVFAIL] : 65 occurrences
[171.67.216.22] : 8 occurrences
[171.67.216.23] : 7 occurrences
[171.67.216.21] : 7 occurrences
Test #6934676 done at 2016-11-16T08:53:51Z
Regardons de plus près. La majorité des sondes RIPE Atlas situées dans
l'AS d'Orange n'a pu résoudre le nom, et a au contraire obtenu un code
Mais cette unique observation ne nous permet pas de dire que le
problème venait d'Orange. Il est parfaitement possible que ce soit
Stanford qui ait des ennuis, panne ou
% atlas-resolve --requested 100 --country DE online.stanford.edu
[] : 1 occurrences
[171.67.216.22] : 33 occurrences
[171.67.216.23] : 31 occurrences
[171.67.216.21] : 35 occurrences
Test #6934677 done at 2016-11-16T08:54:06Z
Au pays de
Autre façon de voir que le problème était bien chez Orange et
pas du côté des domaines testés, essayer avec d'autres domaines :
% atlas-resolve --requested 100 --as 3215 kotaku.com
[ERROR: SERVFAIL] : 47 occurrences
[151.101.1.34 151.101.129.34 151.101.193.34 151.101.65.34] : 50 occurrences
Test #6934730 done at 2016-11-16T10:10:01Z
% atlas-resolve --requested 100 --as 3215 spotify.com
[194.132.197.147 194.132.198.165 194.132.198.228] : 76 occurrences
[ERROR: SERVFAIL] : 19 occurrences
[TIMEOUT(S)] : 4 occurrences
Test #6934675 done at 2016-11-16T08:52:10Z
Tous ces domaines marchaient parfaitement depuis d'autres AS ou
d'autres pays.
Donc, problème de résolution DNS chez Orange. Comme l'ont vite
découvert bien des utilisateurs, changer de résolveur DNS
suffisait à résoudre le problème (ce qu'on pouvait également
tester avec ce programme
Notons bien, qu'il s'agissait des
Maintenant, les remarques. D'abord, beaucoup de gens (par
exemple dans cet
article de Numerama, mais aussi dans d'innombrables tweets)
ont suggéré de passer des résolveurs DNS d'Orange (ceux utilisés
par défaut par les abonnés à ce
Mais alors quelle serait la bonne solution ? Le mieux
évidemment est d'utiliser des résolveurs proches, donc a priori
dans le cas idéal, ceux de son
Notez qu'une minorité des sondes RIPE Atlas sont déjà sur
un réseau local qui utilise un tel résolveur. Cela explique en
partie pourquoi, dans les tests ci-dessus, un certain nombre de
sondes arrivaient à résoudre les noms de domaine, même au plus
fort de la panne. (Cela n'explique qu'une partie du phénomène. Il
semble que certains noms avaient un taux de réussites plus fort
que d'autres, ce qui ne peut pas s'expliquer par le choix du
résolveur.) Notez qu'on peut avoir l'adresse IP du résolveur
utilisé par la sonde (avec l'option
% atlas-resolve -r 100 --as 3215 --displayresolvers --measurement 6934670 kotaku.com
[ERROR: SERVFAIL] : 27 occurrences (resolvers ['172.31.255.254', '192.168.1.1', '80.10.246.2', '192.168.2.1', '192.168.254.254', '192.168.3.1'])
[151.101.1.34 151.101.129.34 151.101.193.34 151.101.65.34] : 69 occurrences (resolvers ['2a01:cb08:898c:fc00::1', '172.16.3.1', '192.168.1.1', '10.10.11.4', '10.63.0.252', '10.112.0.1', '8.8.8.8', '192.168.119.1', '192.168.1.9', '192.168.0.1', '10.0.0.34', '80.10.246.136', '192.168.248.153', '192.168.4.10', '192.168.1.40', '192.168.221.254', '149.202.242.66', '192.168.255.254', '192.168.28.1', '192.168.2.1', '10.0.0.1', '192.168.0.31', '194.2.0.20', '192.168.10.10'])
[TIMEOUT(S)] : 4 occurrences (resolvers <__main__.Set instance at 0x7fedc8194f80>)
Test #6934670 done at 2016-11-16T08:44:41Z
Deuxième sujet de réflexions sur cette panne, que s'est-il
passé ? En l'absence de toute communication de la part d'Orange,
on ne peut guère que spéculer. Notons tout de suite qu'il ne
s'agissait pas cette fois d'un détournement (comme lorsque Orange
avait redirigé Google et Wikipédia vers le Ministère de
l'Intérieur) mais d'une absence de réponse. Cette absence
dépendait des domaines. Je n'ai pas eu immédiatement de signalement d'un
problème pour un domaine hébergé en France, seulement pour des
domaines états-uniens (c'est après, donc trop tard pour les
mesures, que j'ai appris que des domaines hébergés en France
étaient également touchés). Comme le code de retour