@linux1s1s 2016-12-15T10:10:17.000000Z 字数 4540 阅读 2610

Base Time-Https Protocol-扫盲 DNS 原理，兼谈“域名劫持”和“域名欺骗/域名污染”

Base 2016-12

本系列博文完全转载IT.信息安全，因为需要翻墙，这里转载给无须翻墙的同学。

由于内容比较多，这里分几篇文章开讲。

系列博文
扫盲 HTTPS 和 SSL/TLS 协议[0]：引子
 扫盲 HTTPS 和 SSL/TLS 协议[1]：背景知识、协议的需求、设计的难点
 扫盲 HTTPS 和 SSL/TLS 协议[2]：可靠密钥交换的难点，以及身份认证的必要性
 扫盲 HTTPS 和 SSL/TLS 协议[3]：密钥交换（密钥协商）算法及其原理
 数字证书及CA的扫盲介绍
 扫盲 DNS 原理，兼谈“域名劫持”和“域名欺骗/域名污染”

引言

前天下午（1月21日），咱们天朝发生了全国性的互联网故障，导致大量国内网站无法访问。这次故障说白了就是一次全国性大范围的域名污染。所以俺借此机会，给大伙儿扫盲一下 DNS 的常识。既然是扫盲 DNS，也顺带说说“域名劫持”和“域名污染”这两个很容易混淆的概念。提醒一下：这两者的其中之一是 GFW 的大杀器，爱翻墙的同学有必要了解。

DNS 是啥？

DNS 是洋文“Domain Name System”的缩写，直译过来就是“域名系统”。

DNS 有啥用？

咱们每天打交道的这个互联网，其底层的基石是“IP”。IP 是“Internet Protocol”的缩写，中文就“互联网协议”（光看名字就知道这玩意儿很重要）。咱们日常用的那些互联网软件（浏览器、聊天工具、下载工具、等等）在工作时，必须依靠【IP地址】才能进行网络数据传输。
“IP地址”是设计给软件用滴——虽然软件很容易处理，但对于人类而言，却很难记忆。于是，后来又发明了 DNS。有了 DNS，人类就不需要记住长长的一串 IP地址，而只需记住“域名”（域名通常更短，也更具有可读性）。
比如你上网的时候，只需在地址栏输入网站的“域名”，而不用输入网站的“IP地址”。然后电脑系统会利用 DNS 来把“域名”翻译成“IP地址”。这个翻译的过程术语叫“域名解析/DNS解析”。

域名的结构是咋样滴？

域名是按照“树形结构”组织的。不懂得啥是“树形结构”的同学，可以对照一下电脑硬盘上的目录结构。域名的结构和目录结构很类似，目录结构是用“斜杠”作分隔符，而域名是用小数点作分隔符。两者的主要区别在于：目录结构名称的形式是从左到右（上级在左，下级在右），而域名是从右到左（上级在右，下级在左）。
以俺博客的域名为例：
program-think.blogspot.com 的上级域名是 .blogspot.com.blogspot.com 的上级域名是 .com这里的 .com 就被称为顶级域名（Top-Level Domain，简称 TLD），跟 .com 类似的那些 .net .org .gov 也是顶级域名。还有那些以国家/地区的代码命名的（比如 .cn .tw .hk .jp 等等）也是顶级域名。

“域名解析”是咋实现滴？

如果你曾经配置过电脑的网卡，应该记得上面除了有IP地址、掩码等设置，还有一项设置是“DNS服务器/域名服务器”。这项设置就是用来帮助你的电脑进行域名解析的。你可以把这个“DNS服务器”想象成114查号台。每当电脑需要翻译某个域名，就找这个域名服务器查询，然后域名服务器会告诉你的电脑，要查询的域名对应的IP地址是啥。
下面简单说一下，你的电脑进行域名解析的过程。
为了叙述方便，以俺博客为例。当你在浏览器的地址栏中输入 http://program-think.blogspot.com/，然后敲回车，这时候电脑软件会进行如下一系列事情。

首先根据输入的网址，提取出域名（在本例中，也就是 program-think.blogspot.com）

如果你在系统中配置了 Hosts 文件，那么电脑会先查询 Hosts 文件，看这个 program-think.blogspot.com 否已经在 Hosts 里面有了对应的记录。如果有，直接就可以拿到该记录中的 IP地址，过程就结束了。

如果 Hosts 里面没有这个别名，那么电脑会看你有没有设置域名服务器（DNS 服务器）。如果你的系统没有设置域名服务器，那电脑就没辙了，浏览器直接会报错，说网站的域名无法解析。过程就结束了。

如果你设置过“域名服务器”，那么电脑会向这个域名服务器发送一个域名查询（DNS query）的请求，然后等候域名服务器的回应。

如果域名服务器始终没有回应（比如域名服务器挂了，或域名服务器的IP填错了，或请求被 GFW 拦截了），那么电脑还是没辙（浏览器会报错）。

如果域名服务器回应了，那么你的电脑就可以根据域名服务器的应答信息，得到该域名的 IP地址。之后浏览器就会向这个 IP地址对应的 Web 端口发送 HTTP 请求。

通常情况下，电脑拿到的（DNS服务器）应答信息是正确的——也就是说，应答中的 IP地址 确实对应那个域名——这种情况下，你的网络软件就可以正常工作了。但是在天朝这个奇葩的国家，电脑拿到的 DNS 应答有可能是【错的】。为啥会这样捏，本文的后半部，俺会介绍一下“域名劫持”和“域名污染”。

域名服务器如何知道这些信息？

本小节的内容偏技术化，技术菜鸟请仔细理解）刚才介绍了“客户端域名解析”的过程。接下来说说域名服务器是如何得到这些信息的。

域名的缓存

大伙儿平时使用的域名服务器，技术术语叫“递归域名服务器”。“递归服务器”是面向普通网友的。刚才介绍“域名解析”的时候提到的服务器就是“递归服务器”。“递归服务器”的内部通常会有一个 DNS记录 的缓存——这个缓存是为了提高查询效率的。当某台电脑向递归服务器发起域名查询时，递归服务器首先看自己的缓存中有没有该域名的记录，如果有，直接就回复该记录给查询的电脑。万一对方想要查询的域名没找到，咋办捏？这时候就要进行缓存的同步。

缓存的同步

下面就拿俺博客的域名为例，说说这种情况的处理流程。

对方查询 program-think.blogspot.com 这个域名，“递归服务器”发现自己的缓存中没有

“递归服务器”会先去找“根域名服务器”帮忙，“根服务器”会告诉“递归服务器”说：这个域名属于 com 这个分支之下，你去找 com 这个域名的“权威服务器”，这个权威服务器的 IP地址是 xxx。

然后“递归服务器”根据拿到的这个 xxx地址，又去找“com 域名的权威服务器”。“com 域名的权威服务器”告诉它：你应该去找“blogspot.com 域名的权威服务器”，这个权威服务器的 IP地址是 yyy

然后“递归服务器”又屁颠屁颠地去找“blogspot.com 域名的权威服务器”。这时候“blogspot.com 域名的权威服务器”才会告诉它，program-think.blogspot.com 这个域名的 IP地址到底是多少。
　　大伙儿看到没有？整个过程如同“踢皮球”，效率是很低的。所以俺前面提到，“递归域名服务器”必须得有一个缓存，以此来优化效率（不用每次查询都来一次“踢皮球”）。

同步的周期

说完了“域名的同步”，顺便提一下“同步的周期”。因为互联网上的域名信息是有可能发生变化的。比如增加了某个新域名，注销了某个旧域名，或者某个域名对应的 IP地址 变了。所以，“递归服务器”上保留的缓存中，每一条域名记录都有一个生命周期（可能是几分钟，也可能是几小时）。如果某条记录的生命周期过了，就会被删除，然后重新同步。

啥是“域名劫持”？

刚才说了，域名服务器上都会保存一大堆的域名记录（每条记录包含“域名”和“IP地址”）。当收到域名查询的时候，域名服务器会从这堆记录中找到对方想要的，然后回应给对方。如果域名服务器上的某条记录被【人为修改】了（改成错的），那么一旦要查询这条记录，得到的就是错误的结果。这种情况称之为“域名劫持”。

谁有“域名劫持”的企图？

“域名劫持”通常是电信运营商（ISP）干的好事儿。很多宽带用户用的域名服务器就是 ISP 提供给你的。而天朝的 ISP 也是很奇葩的——经常耍流氓。

举例：
　　前几年曾经出现过：某个 ISP 跟百度勾结，把谷歌的流量重定向到百度。具体搞法是：该 ISP 篡改自己的域名服务器的记录，把里面跟 google.com 相关的域名记录的 IP地址修改为百度服务器的 IP地址。如此一来，假设你用的是这个 ISP 的域名服务器，当你在浏览器输入 www.gooogle.com 的时候，你的电脑查询到的 IP地址其实是百度的 IP地址，所以浏览器打开的是“百度”的主页。

如何对付“域名劫持”？

刚才说了，“域名劫持”的根源在于：域名服务器上的记录被人给改了。要对付这种耍流氓，最直接的办法就是不要使用这种流氓 ISP 提供的域名服务器，改用国外那些比较靠谱的。目前口碑最好的，大概是 Google 提供的两个域名服务器，IP地址 分别是 8.8.8.8 和 8.8.4.4 ——这俩不光是地址好记，更重要的是，不会耍流氓。

啥是“域名污染”？

先提醒一下：“域名污染”这个词还有其它几个别名，分别是“域名欺骗”、“域名缓存投毒”（洋文叫：DNS cache poisoning）。今后看到这几个别名，要晓得是同一个意思。
“域名污染”的原理，简单说来是这样滴：当你的电脑向域名服务器发送了“域名查询”的请求，然后域名服务器把回应发送给你的电脑，这之间是有一个时间差的。如果某个攻击者能够在域名服务器的“DNS应答”还没有到达你的电脑之前，先伪造一个错误的“DNS应答”发给你电脑。那么你的电脑收到的就是错误的信息，并得到一个错误的 IP地址。

谁有“域名污染”的企图？

从技术上讲，只要攻击者能够位于“你”和“域名服务器”的传输线路中间，那么攻击者就有机会搞“域名污染”。能够做到这点的，可能是一个黑客/骇客，也可能是 ISP。不过这些都不是本节聊的重点。本节的重点是 GFW——它是最有资源搞域名污染的，同时也最有意愿搞域名污染的。在《如何翻墙？》这篇全面扫盲教程中，俺提到 GFW 最有名的三板斧，其中一板斧就是“域名污染”。

举例：
　　比如某个国外网站，长年累月地抹黑咱们伟大光荣正确的党国，搞得咱们的“伟光正”很没面子，很不爽。那么朝廷的“真理部”就会给 GFW 下达封杀令——要求 GFW 全面封锁某某网站。对于 GFW 而言，要全面封掉某个网站，最简单的一个办法就是直接污染该网站的域名。用了这招之后，那些不懂翻墙的网友只要是通过【域名的方式】访问该网站，他们的电脑进行 DNS查询之后，多半会得到错误的结果（也就是说，查到的 IP地址是假的）；既然拿到假的 IP地址，当然就无法打开这个网站的页面啦。

GFW 的两种“域名污染”

刚才俺解释了“域名污染”的原理，那种形式不妨称为“直接污染”。由于 GFW 的特殊性，它不但可以做到“直接污染”，还可以做到“间接污染”。而普通的骇客顶多只能做到“直接污染”，难以做到“大范围的间接污染”。那么这两种污染有啥区别捏？且听俺细细道来。

GFW 部署在哪？

GFW 的直接污染

GFW 的间接污染

上面的内容涉及GFW，比较敏感，感兴趣的话可以直接看原文扫盲 DNS 原理，兼谈“域名劫持”和“域名欺骗/域名污染”

咋对付“域名污染/域名欺骗”？

这个话题有点大。因为有很多种招数可以对付“域名污染”。统统都写在这里，篇幅太长了。所以俺决定：抽空另写一篇教程，专门谈这个问题。敬请关注。

Base Time-Https Protocol-扫盲 DNS 原理，兼谈“域名劫持”和“域名欺骗/域名污染”

引言

DNS 是啥？

DNS 有啥用？

域名的结构是咋样滴？

“域名解析”是咋实现滴？

域名服务器如何知道这些信息？

域名的缓存

缓存的同步

同步的周期

啥是“域名劫持”？

谁有“域名劫持”的企图？

如何对付“域名劫持”？

啥是“域名污染”？

谁有“域名污染”的企图？

GFW 的两种“域名污染”

GFW 部署在哪？

GFW 的直接污染

GFW 的间接污染

咋对付“域名污染/域名欺骗”？

内容目录

选择主题