2014 年 1 月 21 日中国互联网根域名服务器 (DNS) 故障是什么原因?

继今日晨间腾讯的一系列故障后,今日下午15:10分许,众多网站同行报告称国内互联网根域出现问题,导致大量网站域名解析不正常,分析后发现,所有通用顶级域名的根域解析出现异常。故障具体表现在域名访问请求被跳转到几个没有响应的美国IP上,不同省份的用户均出现不同程度的网络故障,但也有访问完全正常的案例。以下是故障截图等信息,我们将以时间线的方式持续跟踪。[快讯]国内互联网根域出现重大故障 已持续数十分钟 国内互…
关注者
4346
被浏览
152387

16 个回答

网上各种谣言纷飞啊,目睹整个过程必需来说说。
=================================================================
=================================================================
上面补充了一张图给不了解DNS工作原理的读者~~

15:20 接到一个CDN用户询问,只有一句话:节点挂了?我第一反应是curl测一下节点,咦连不上?再进行dig +trace,吓尿了……看图
w(゚Д゚)w这是典型的*啊……我就回了句卧槽你被*照顾了?仔细一想,他就一个动漫论坛,不可能有这照顾啊,顺便下面放一张被*照顾的域名的DNS跟踪图,像这样就肯定是*干的好事了:
w(゚Д゚)w这是典型的*啊……我就回了句卧槽你被*照顾了?仔细一想,他就一个动漫论坛,不可能有这照顾啊,顺便下面放一张被*照顾的域名的DNS跟踪图,像这样就肯定是*干的好事了:

于是我联系了运维帮助协查,运维这一查艾玛吓尿了好吗,托管在我们DNS上的域名全部解析出来都是这鸟样……这不科学(╯‵□′)╯︵┻━┻难道我们被*照顾了?小心脏心跳速度骤增,这时候Q群消息变的多起来,咦百度打不开,QQ空间又挂了blablabla...

我再继续跟一下几个域名,我大概这辈子只能见到一次这样的trace图了:
百度和我自己的博客
我居然能和度娘在同机房!爽不爽!【群众:滚(╯—﹏—)╯( ┷━━━┷
我居然能和度娘在同机房!爽不爽!【群众:滚(╯—﹏—)╯( ┷━━━┷

ovear君的截图,他使用的是TCP查询,TCP也被污染的话,你猜除了*还有谁能干?然后发现google家dns貌似是正常的~_~

与此同时运维也在各地的服务器上开始了跟踪查询,发现全国各地解析时间均为25ms左右。这时候结论就出来了。但是也许有人会说我的证据不够充分,那么我们再继续查查这个65.49.2.178是什么来头。

于是呢,我们在同C段的65.49.2.0/24查到了下面的网站:


关键词自己图里找

整理一下:
  1. 低延迟说明全国各地(至少在省内或者附近,不会南方跨到北方)直接返回被劫持的IP;
  2. TCP查询同样中枪,排除黑阔采用全国发UDP包方式进行劫持;
  3. 同网段有那啥网站。

结论不写了。

================================================================
更新一下,有人问啥时候会恢复什么的。

劫持的影响大约只有15分钟。当时我查到的TTL是几万,也就是说,在电信运营商没对递归DNS手工刷新缓存的情况下,可能还需要间断受影响几个小时。不正常的可以试试更换DNS为8.8.8.8,或者等几小时再看看,后继影响略严重的样子=_=
=。=不过有些不是计算机领域的大家可能看了最高票数的回答还是云里雾里,我就顺便在博客写了个科普文章。转载过来
2014年1月21日全国DNS污染始末以及分析

=w=大概今天15:30的时候,Ovear正在调试新的服务器,结果发现肿么突然上不去了。。结果ping了以下,结果吓尿了,Ovear的域名都指向到[65.49.2.178]这个IP。Ovear第一反应就是,尼玛DNSPOD又被黑了! 为什么说DNSPOD被黑了呢,其实以前DNSPOD就出过一次类似的问题=。=,导致所有的域名都跪了,刚好Ovear这个域名还有测试的几个域名都是那里的,然后就到某交流群吐槽。结果管理员说他们的DNS被污染了,Ovear心想不会是全国DNS都被污染了吧。结果乌鸦嘴说中了。。还真的是全国劫持。

然后Ovear就很好奇,到底是怎么回事呢~有谁能做到这样的事情~于是就有了以下的分析和科普~
-----------------以下内容为Ovear家电脑中病毒所致,跟本人无任何关系,谢绝跨省------------------------

balablabala说了这么久,肯定有同学问了,窝又不是学计算机的,(╯‵□′)╯︵┻━┻dns是什么玩意,跟我有什么关系!
那么DNS是什么呢,Ovear就来科普下┑( ̄Д  ̄)┍。
我们访问一般是通过域名[Domain]来访问的,咦DNS怎么也是D开头的,难道有关系?说对了!就是有关系:DNS的全称其实是[Domain Name System]翻译过来就是域名系统
在互联网中,是只存在IP的,IP其实就是一串数字,相当于你家里的门牌号,大家在网络中想找到你,必须通过这个,所以IP对于每个人来说是唯一的。但是第四代IP都是XXX.XXX.XXX.XXX这样的,多难记啊,谁会没事记住IP呢,更何况以后天那么长的IPV6,要记住不是得要人命!

这时候一个聪明的科学家出来,我们给IP加一个别名,大家通过别名不就可以不记住这个IP,也可以知道这个IP了!于是就有了域名[Domain]这个东西.
当你访问Ovear's Blog的时候
电脑的DNS解析系统就会自动问DNS服务器:尼知道Ovear's Blog对应的IP地址是神马么?
DNS:窝帮你查查,奥,找到了,IP是[122.10.94.169].
Ovear的电脑:谢啦,再见
DNS:恩

对应现实就是,问知道张三的人:尼知道张三家在哪里么? 回答 在南山区 balabalabla。

当然这样解释还是不怎么恰当的,因为一个DNS服务器是不可能知道所有域名的地址的,因为这需要耗费极大地代价,所以这时候就出现了递归DNS和根DNS。

由于篇幅原因,Ovear就简单的说一下,其实还是有问题的。Ovear以后再写一篇文章详细阐述下DNS的工作原理,或者看[Domain Name System] QAQ)

(补充:QAQ这里Ovear说的有点过简单了,其实根DNS(ROOT DNS)指的是全球一共13台的根DNS,负责记录各后缀所对应的TOPLEVEL Domain Server[顶级域名根服务器],然后接下来的就是[权威DNS服务器],就是这个域名用的DNS服务器(可以在whois中看到)

总结一下:

[根服务器]:全球一共13个A-M[.root-servers.net],储存着各个后缀域名的[顶级域名根服务器]

[顶级域名根服务器]:每个后缀对应的DNS服务器,存储着该[后缀]所有域名的权威DNS

[权威DNS]:这个域名所使用的DNS,比如说我设置的DNSPOD的服务器,权威DNS就是DNSPOD。在WHOIS(一个查看域名信息的东西)中可以看到。储存着这个域名[对应着的每条信息] 如IP等~


所以正确的解析过程应该跟下面的图一样

用户使用的DNS(边缘DNS)->(还会网上推很多级最终到)根DNS->顶级域名根服务器->权威DNS

根DNS是什么呢?大家想想,每个域名都有一个后缀,比如说ovear是[.info]后缀的。那么就有一个专门记录[.info]后缀的dns服务器,其他后缀也一样。这个DNS就是该域名的根DNS。
那么递归DNS呢?其实递归DNS就是一个代理人,是用来缓解[根DNS]压力的,如果大家都去问[根DNS],那[根DNS]不早就跪了。毕竟一个人(网站)的地址不是经常变的,所以就有了TTL这一说法,根据DNS的规定,在一个TTL时间呢,大家就认为你家里(域名所指向的IP)的地址是不会变的,所以代理人[递归DNS]在这个时间内,是只会问一次[根DNS]的,如果你第二次问他,他就会直接告诉你域名所指向的IP地址。这样就可以解决[根DNS]负载过大的问题啦。
顺便这一张图也可以很准确反映出来之前所说的~ =w=



说了这么久,口水都干了,那么DNS到底跟这次事件有什么关系呢~
首先来看张图



瓦特!肿么这么多域名都指向同一个IP了,这是什么情况0 0。其实这就是典型的[DNS污染]了。
我们知道互联网有两种协议,一种是TCP,一种则是UDP了(知道泥煤啊(╯‵□′)╯︵┻━┻都说我不是学计算机的了)。
TCP和UDP的主要差别就是:能不能保证传递信息的可靠性。UDP是不管消息是否到达了目标,也不管通过什么途径的,他只管我发出去了就好,所以UDP比TCP快得多,但是可靠性没有TCP好。



而DNS查询默认就是用的是UDP,那么就很好劫持啦。在UDP包任何传输的路途上,直接拦截,然后返回给接收端就行了。
啧啧,说道这大家也隐隐约约知道这次事件的问题了吧,范围如此之广的劫持,必须要在各个省市的主干网上进行,而能处理这么大数据,同时能控制这么多主干网的。。啧啧啧。。。没错!就是***了~至于***是什么,Ovear在这就不说了,不然可能大家都见不到Ovear了QAQ。
说道这里,Ovear就准备手动查一下,到底是不是所推测的***呢?于是拿到了这个图(From XiaoXin)


与此同时运维也在各地的服务器上开始了跟踪查询,发现全国各地解析时间均为25ms左右。这时候结论就出来了。

这样就明显了,肯定是***做的了~~于是Ovear又好奇的查了下,这个IP是什么来头,为什么都要指向到这里去,于是Ovear发现了一些好玩的东西~(65.49.2.0/24


从侧面点出了此次事件的始作俑者。
那么某FW为什么要这么做呢?Ovear在这里做一个无责任的推测,最有可能的就是:某FW的员工本来是想屏蔽这个IP段的,但是呢一不小心点进去了DNS污染这个选项,然后又没写污染目标,于是就全局污染了啧啧啧~

但是有些童鞋会问了(╯‵□′)╯︵┻━┻为什么他们都说用8.8.8.8就没事了~
其实这样子说是不正确的,因为Ovear之前用的就是8.8.8.8,上面也说了DNS查询默认使用的UDP查询,所以不管你用什么,照样劫持不误。其实8.8.8.8没问题是因为污染事件已经基本结束导致的,那么为什么污染结束后其他国内DNS都不能用,而Goole的DNS确可以正常的使用~于是Ovear就找到了张有趣的图片~



我先来解释下上面命令的用途吧~这个命令是用来直接向DNS服务器查询域名的~
其中的[-vc]参数是强制使用TCP来查询DNS服务器,这样就可以避免UDP污染的地图炮。

那么为什么污染结束后,DNS还会受到污染呢?其实原因很简单。Ovear之前说了,[递归DNS]是需要询问[根DNS]的,而默认的询问方式是采用的UDP,所以在国内的DNS服务器,自然就受到污染了。而之前Ovear也提到过TTL这件事~
在TTL周期内,根据协议[递归DNS]是直接吧结果缓存在自己那,是不会再去查询[根DNS]的,所以国内的DNS就把错误的结果缓存起来了~
Google的DNS服务器基本都是在国外,所以查询的时候影响并不大,但是国内挺多域名使用DNSPOD啦,DNSLA的DNS,所以Google进国内查,还是会受到一定影响的
因此,如果要完全避免这次的影响,有两个条件
1、你的域名的DNS必须是在国外
2、你查询的DNS必须在国外,而且如果在污染期需要通过TCP查询。

这样就可以避免这个问题了。

然后Ovear又手贱查了下这次的TTL,啧啧


如果没有人员来手动干预,这次的事件还是要持续蛮久的~。


哎呀先不说了,Ovear去开门收个快递~,双十二买的好东西终于到了,咕嘿嘿期待了很久呢~回来继续说O(∩_∩)O~~

..................................................................




(UPDATED:如果看完之后还感兴趣的童鞋可以看一下(企业通常防火墙原理)[QAQ作死中 小编绕窝一命吧])