[关闭]
@adamhand 2018-12-26T17:13:14.000000Z 字数 23386 阅读 2062

计算机网络


一、概述

网络的网络

网络把主机连接起来,而互联网是把多种不同的网络连接起来,因此互联网是网络的网络。



ISP(Internet Service Provider)

互联网服务提供商 ISP 可以从互联网管理机构获得许多 IP 地址,同时拥有通信线路以及路由器等联网设备,个人或机构向 ISP 缴纳一定的费用就可以接入互联网。



目前的互联网是一种多层次 ISP 结构,ISP 根据覆盖面积的大小分为第一层 ISP、区域 ISP 和接入 ISP。互联网交换点 IXP 允许两个 ISP 直接相连而不用经过第三个 ISP。



主机之间的通信方式(详见应用层部分)

  • 客户-服务器(C/S):客户是服务的请求方,服务器是服务的提供方。
  • 对等(P2P):不区分客户和服务器。



电路交换与分组交换

1. 电路交换

电路交换用于电话通信系统,两个用户要通信之前需要建立一条专用的物理链路,并且在整个通信过程中始终占用该链路。由于通信的过程中不可能一直在使用传输线路,因此电路交换对线路的利用率很低,往往不到 10%。

电路交换中的电路是通过时分复用(TDM)或频分复用(FDM)来实现的。

  • 频分复用(FDM):按频率划分的不同信道,用户分到一定的频带后,在通信过程中自始至终都占用这个频带,可见频分复用的所有用户在同样的时间占用不同的带宽资源(带宽指频率带)
  • 时分复用(TDM):按时间划分成不同的信道,每一个时分复用的用户在每一个TDM帧中占用固定序列号的间隙,可见时分复用的所有用户是在不同时间占用同样的频带宽度

2. 分组交换

每个分组都有首部和尾部,包含了源地址和目的地址等控制信息,在同一个传输线路上同时传输多个分组互相不会影响,因此在同一条传输线路上允许同时传输多个分组,也就是说分组交换不需要占用传输线路。

在一个邮局通信系统中,邮局收到一份邮件之后,先存储下来,然后把相同目的地的邮件一起转发到下一个目的地,这个过程就是存储转发过程,分组交换也使用了存储转发过程。具体来说,存储转发机制是指在交换机能够开始向输出链路传输该分组的第一个比特之前,必须接收到整个分组。

但是,分组交换可能存在排队时延分组丢失的现象。如果某个分组需要传输到某个链路,但发现该拦路正在传输其他分组,该分组就要在交换机的输出缓存(或叫输出队列)中等待,这就是“排队时延”;如果缓存以满,就会出现“分组丢失”。

电路交换和分组交换的区别可以形象地比喻为两个餐厅,一个餐厅需要预定座位(电路交换)而另一家餐厅(分组交换)不需要但是不能保证安排顾客。

分组交换中的时延、丢包和吞吐量

时延

总时延 = 传输时延 + 传播时延 + 处理时延 + 排队时延



1. 传输时延

主机或路由器传输数据帧所需要的时间。



其中 l 表示数据帧的长度,v 表示传输速率。

2. 传播时延

电磁波在信道中传播所需要花费的时间,电磁波传播的速度接近光速。



其中 l 表示信道长度,v 表示电磁波在信道上的传播速度。

传输时延和传播时延:传输时延是路由器将分组推出的时间,它是分组长度和链路传输速率的函数,而与两台路由器之间的距离无关;传播时延是一个比特从一台路由器向另一台路由器传播所需要的时间,它是两台路由器之间距离的函数。

3. 处理时延

主机或路由器收到分组时进行处理所需要的时间,例如分析首部、从分组中提取数据、进行差错检验或查找适当的路由等。

4. 排队时延

分组在路由器的输入队列和输出队列中排队等待的时间,取决于网络当前的通信量。

传输速率、带宽和吞吐量

1.传输速率:

定义:在数据传输中,两个设备之间数据流动的物理速度成为传输速率,单位为bps。

计算:比特是数据量最小单位,秒是时间的最小单位, 所以速率单位为bps。类似的,有kb/s,Mb/s(M=10^6),Gb/s(G=10^9),Tb/s(t=10^12)

1Byte=8bit一字节=8bit, 所以1Bps=8bps

我们平常说的速率是额定速率(即理论上的正常速率)。

2.带宽:

定义:计算机网络中的主机在数字信道上,单位时间内从一段传送到另一端的最大数据量,即最大速率

类比:一个供水管,假设管子中有流动的水,这里的水为数据。单位时间内,从管子的某个横截面就是速率,即单位时间内传送的数据量。当管子充满水的时候,管子的某个横截面就是最大速率,即带宽

计算:单位同速率一样,为bps。

3.吞吐量:

主机之间实际的传输速率,被称为吞吐量,不仅仅衡量带宽,还衡量CPU的处理能力,网络拥堵程度及报文中数据字段的占有份额。说的通俗一点,就是单位时间内某个(信道。端口)实际的数据量,可以理解为实际的带宽。

计算机网络体系结构



1. 五层协议

  • 应用层 :为特定应用程序提供数据传输服务,例如 HTTP、DNS 等。数据单位为报文。
  • 传输层 :为进程提供通用数据传输服务。由于应用层协议很多,定义通用的传输层协议就可以支持不断增多的应用层协议。运输层包括两种协议:传输控制协议 TCP,提供面向连接、可靠的数据传输服务,数据单位为报文段;用户数据报协议 UDP,提供无连接、尽最大努力的数据传输服务,数据单位为用户数据报。TCP 主要提供完整性服务,UDP 主要提供及时性服务。
  • 网络层 :为主机提供数据传输服务。而传输层协议是为主机中的进程提供数据传输服务。网络层把传输层传递下来的报文段或者用户数据报封装成分组。
  • 数据链路层 :网络层针对的还是主机之间的数据传输服务,而主机之间可以有很多链路,链路层协议就是为同一链路的主机提供数据传输服务。数据链路层把网络层传下来的分组封装成帧。
  • 物理层 :考虑的是怎样在传输媒体上传输数据比特流,而不是指具体的传输媒体。物理层的作用是尽可能屏蔽传输媒体和通信手段的差异,使数据链路层感觉不到这些差异。

2. OSI

其中表示层和会话层用途如下:

  • 表示层 :数据压缩、加密以及数据描述,这使得应用程序不必关心在各台主机中数据内部格式不同的问题。
  • 会话层 :建立及管理会话。

五层协议没有表示层和会话层,而是将这些功能留给应用程序开发者处理。

3. TCP/IP

它只有四层,相当于五层协议中数据链路层和物理层合并为网络接口层。

TCP/IP 体系结构不严格遵循 OSI 分层概念,应用层可能会直接使用 IP 层或者网络接口层。



TCP/IP 协议族是一种沙漏形状,中间小两边大,IP 协议在其中占据举足轻重的地位。



4. 数据在各层之间的传递过程

在向下的过程中,需要添加下层协议所需要的首部或者尾部,而在向上的过程中不断拆开首部和尾部。

路由器只有下面三层协议,因为路由器位于网络核心中,不需要为进程或者应用程序提供服务,因此也就不需要传输层和应用层。



二、应用层

网络应用程序体系结构

目前拥有两种主流体系结构:客户-服务器(C/S)体系结构和对等(P2P)体系结构。

两种体系结构的对比如下:

  • 可扩充性:在 C/S 模式下,服务器的性能会随着客户端或工作站的增加而逐渐减弱。为了保证服务器的有效运行和及时反映能力,需要制约客户端或工作站数目的增长,这就在一定程度上减弱了系统的扩充性。在P2P模式下节点的增长有可能提高系统的性能。
  • 可延续性:C/S模式中,如果服务器出故障,整个系统就会瘫痪,而P2P不会。
  • 安全性:C/S模式中,因为只需要保证服务器的安全即可,所以安全性较高。而P2P模式中,需要保证每一个节点的安全,困难很大。
  • 资源可维护性:在 C/S 模式下,共享资源都集中存放在服务器上,资源的查找、更新较为简单,数据的备份、恢复也容易实现,资源可维护性较好。在 P2P 模式下,共享资源存放在系统中的任何一台客户机上,资源的
    查找、更新比较复杂,数据备份工作也更困难,可维护性差。
  • 网络通信性能:在 C/S 模式下,网络通讯主要集中在客户端和服务器之间,客户机与客户机之间一般并无直接交互行为。在 P2P 模式下,客户机和其他客户机之间有频繁的数据通讯,P2P 模式需要占用更多的网络带宽。

未来P2P应用面临的三个主要挑战如下:

  • ISP友好:目前大多数住宅ISP已经适应了“非对称”的带宽应用,即下载比上载多得多。但是P2P使得上载流量增多,带给ISP巨大的压力。
  • 安全性:高度分布和开放性带来的安全性。
  • 激励:如何说服用户自愿向应用提供带宽、存储和计算资源。

应用层的主要协议

应用层主要涉及到的协议如下:域名系统的DNS协议;万维网和HTTP协议(HTTP协议内容较多,详见另一篇笔记“计算机网络之HTTP”);与电子邮件相关的SMTP协议、POP3协议和IMAP协议;动态主机配置协议DHCP;网络动态管理SNMP协议;文件传输FTP协议。

域名系统(Domain Name System,DNS)

主机名和IP地址的概念:

  • 主机名:形如www.yahoo.com,这些名字便于人们记忆但不方便路由器处理
  • IP地址:形如192.168.10.123,便于路由器查询和处理但是不利于人们记忆

因此,DNS的最主要用途就是根据主机的主机名查询主机的IP地址

DNS是:

  • 一个由分层的DNS服务器实现的分布式数据库
  • 一个使得主机能够查询分布式数据库的应用层协议

这里的分布式数据库是指,每个站点只保留它自己的那部分数据。

域名具有层次结构,从上到下依次为:根域名、顶级域名、二级域名。



相应的,大致来说有三种类型的DNS服务器:根DNS服务器、顶级域(Top-Level Domain,TLD)DNS服务器和权威DNS服务器。

  • 根DNS服务器:有13个根DNS服务器,标号为A到M。
  • 顶级域DNS服务器:这些服务器负责顶级域名如com、org、net、edu和gov,以及所有国家的顶级域名如uk、fr、ca和jp。
  • 权威DNS服务器:例如大学和大公司维护的DNS服务器。

还有一种不属于服务器层次结构中的重要服务器:本地DNS服务器。每个ISP都有一个本地DNS服务器。

DNS 可以使用 UDP 或者 TCP 进行传输,使用的端口号都为 53。大多数情况下 DNS 使用 UDP 进行传输,这就要求域名解析器和域名服务器都必须自己处理超时和重传来保证可靠性。在两种情况下会使用 TCP 进行传输:

  • 如果返回的响应超过的 512 字节(UDP 最大只支持 512 字节的数据)。
  • 区域传送(区域传送是主域名服务器向辅助域名服务器传送变化的那部分数据)。

一个具体的例子:假如主机cis.poly.edu(本地DNS服务器为dns.poly.edu)想知道主机gaia.cs.umass.edu(权威DNS服务器为dns.umass.edu)的IP地址,查询的步骤如下:

① 主机cis.poly.edu向它的本地DNS服务器dns.poly.edu发送一个查询报文,报文中含有被转换的主机名gaia.cs.umass.edu。
② 本地DNS服务器dns.poly.edu查询DNS缓存,如果找到主机名和IP地址的映射,则直接返回IP地址。否则,进行③。
③ 本地DNS服务器将该报文转发到根DNS服务器。
④ 根DNS服务器注意到edu前缀并想本地DNS服务器返回负责edu的TLD的IP地址列表
⑤ 该本地DNS服务器则再次向这些TLD服务器之一发送查询报文。
⑥ TLD服务器注意到umass.edu前缀,并用权威DNS服务器的IP地址进行响应,该IP地址为dns.umass.edu。
⑦ 最后,该本地DNS服务器直接向dns.umass.edu发送查询报文,dns.umass.edu用gaia.cs.umass.edu的IP地址进行响应,查询完成。
⑧ 本地DNS服务器将查询到的IP地址返回该主机并将主机名gaia.cs.umass.edu和其IP地址的映射关系存储到DNS缓存中。

整个过程如下图所示:



上述过程中,由cis.poly.edu到dns.poly.edu发出的查询是递归查询,因为该查询请求dns.poy.edu以自己的名义获得该映射(即代替主机,而不是让主机自己去查询);后继的三个查询为迭代查询(因为所有的回答都是直接返回给dns.poly.edu)。

文件传输协议FTP

FTP 使用 TCP 进行连接,它需要两个连接来传送一个文件:

根据数据连接是否是服务器端主动建立,FTP 有主动和被动两种模式:

主动模式要求客户端开放端口号给服务器端,需要去配置客户端的防火墙。被动模式只需要服务器端开放端口号即可,无需客户端配置防火墙。但是被动模式会导致服务器端的安全性减弱,因为开放了过多的端口号。

动态主机配置协议DHCP

DHCP (Dynamic Host Configuration Protocol) 提供了即插即用的连网方式,用户不再需要去手动配置 IP 地址等信息。

DHCP 配置的内容不仅是 IP 地址,还包括子网掩码、网关 IP 地址。

DHCP 工作过程如下:

  • 客户端发送 Discover 报文,该报文的目的地址为 255.255.255.255:67,源地址为 0.0.0.0:68,被放入 UDP 中,该报文被广播到同一个子网的所有主机上。如果客户端和 DHCP 服务器不在同一个子网,就需要使用中继代理。
  • DHCP 服务器收到 Discover 报文之后,发送 Offer 报文给客户端,该报文包含了客户端所需要的信息。因为客户端可能收到多个 DHCP 服务器提供的信息,因此客户端需要进行选择。
  • 如果客户端选择了某个 DHCP 服务器提供的信息,那么就发送 Request 报文给该 DHCP 服务器。
  • DHCP 服务器发送 Ack 报文,表示客户端此时可以使用提供给它的信息。



远程登录协议

TELNET 用于登录到远程主机上,并且远程主机上的输出也会返回。

TELNET 可以适应许多计算机和操作系统的差异,例如不同操作系统系统的换行符定义。

电子邮件协议

一个电子邮件系统由三部分组成:用户代理、邮件服务器以及邮件协议。

邮件协议包含发送协议和读取协议,发送协议常用 SMTP,读取协议常用 POP3 和 IMAP。



1. SMTP

SMTP 只能发送 ASCII 码,而互联网邮件扩充 MIME 可以发送二进制文件。MIME 并没有改动或者取代 SMTP,而是增加邮件主体的结构,定义了非 ASCII 码的编码规则。



2. POP3

POP3 的特点是只要用户从服务器上读取了邮件,就把该邮件删除。

3. IMAP

IMAP 协议中客户端和服务器上的邮件保持同步,如果不手动删除邮件,那么服务器上的邮件也不会被删除。IMAP 这种做法可以让用户随时随地去访问服务器上的邮件。

各种协议常用的端口

应用 应用层协议 常用端口号 传输层协议 备注
域名解析 DNS 53 UDP/TCP 长度超过 512 字节时使用 TCP
动态主机配置协议 DHCP 67/68 UDP
简单网络管理协议 SNMP 161/162 UDP
文件传送协议 FTP 20/21 TCP 控制连接 21,数据连接 20
远程终端协议 TELNET 23 TCP
超文本传送协议 HTTP 80 TCP
简单邮件传送协议 SMTP 25 TCP
邮件读取协议 POP3 110 TCP
网际报文存取协议 IMAP 143 TCP

Web 页面请求过程

1. DHCP 配置主机信息

① 假设主机最开始没有 IP 地址以及其它信息并且设置了动态IP,那么就需要先使用 DHCP 来获取。主机会生成一个 DHCP 请求报文(应用层),并将这个报文放入 UDP 报文段(运输层)中。这个UDP报文段主要携带了:

  • 目的地端口67(DHCP服务器的固定端口)
  • 源端口68(DHCP客户端的固定端口)

② UDP报文段被放入一个IP数据报(网络层),IP数据报添加了以下信息:

  • 源IP地址:0.0.0.0
  • 目的IP地址:255.255.255.255(广播IP目的地址)

③ 包含DHCP请求的IP数据报将被放入以太网帧(数据链路层),具有如下信息:

  • 目的MAC地址:FF:FF:FF:FF:FF:FF(广播帧)
  • 源MAC地址:主机MAC地址xx:xx:xx:xx:xx:xx

该帧将广播到与交换机连接的所有设备。
④ 连接在交换机的 DHCP 服务器收到广播帧之后,不断地向上分解得到 IP 数据报、UDP 报文段、DHCP 请求报文,之后生成 DHCP ACK 报文,该报文包含以下信息:

  • IP 地址
  • DNS 服务器的 IP 地址
  • 默认网关路由器的 IP 地址
  • 子网掩码。

该报文被放入 UDP 报文段中,UDP 报文段有被放入 IP 数据报中,最后放入 MAC 帧中。

⑤ 该帧的目的地址是请求主机的 MAC 地址,因为交换机具有自学习能力,之前主机发送了广播帧之后就记录了 MAC 地址到其转发接口的交换表项,因此现在交换机就可以直接知道应该向哪个接口发送该帧。

⑥ 主机收到该帧后,不断分解得到 DHCP 报文。之后就配置它的 IP 地址、子网掩码和 DNS 服务器的 IP 地址,并在其 IP 转发表中安装默认网关。

2. ARP 解析 MAC 地址

现在可以开始代开浏览器,来访问网页了,假如输入的URL为www.google.com,主机将与google服务器进行通信,通信是两个进程之间的相互发送报文故事,而且进程是通过套接字(socket)接口向网络发送和从网络接收报文的。

为了生成套接字,需要制定目的主机的IP地址,也就是google.com的IP地址,目前我们只知道www.google.com,也就是只知道域名,为了发送HTTP请求(发送IP数据报),还需要知道google.com的IP地址,因为需要一次域名/IP地址转换,也就是DNS。

① 为此,我的本本操作系统生成了一个DNS查询报文,该报文含有如下信息:

  • 域名:www.google.com
  • DNS服务器目的端口:53

② 该 DNS 查询报文被放入目的地址为 DNS 服务器 IP 地址的 IP 数据报中;该 IP 数据报被放入一个以太网帧中,该帧将发送到网关路由器。但是目前只知道默认网关的IP地址而不知道其MAC地址,所以需要使用ARP协议根据IP地址找MAC地址。

③ 类似于刚才的DHCP过程,主机生成一个包含目的地址为网关路由器 IP 地址的 ARP 查询报文,将该 ARP 查询报文放入一个具有广播目的地址(FF:FF:FF:FF:FF:FF)的以太网帧中,并向交换机发送该以太网帧,交换机将该帧转发给所有的连接设备,包括网关路由器。

④ 网关路由器接收到该帧后,不断向上分解得到 ARP 报文,发现其中的 IP 地址与其接口的 IP 地址匹配,因此就发送一个 ARP 回答报文,包含了它的 MAC 地址,发回给主机。

DNS解析域名

知道了网关路由器的 MAC 地址之后,就可以继续 DNS 的解析过程了。

① 网关路由器接收到包含 DNS 查询报文的以太网帧后,抽取出 IP 数据报,发现其目的IP是DNS服务器的IP地址,然后根据转发表决定该 IP 数据报应该转发的路由器。

因为路由器具有内部网关协议(RIP、OSPF)和外部网关协议(BGP)这两种路由选择协议,因此路由表中已经配置了网关路由器到达 DNS 服务器的路由表项。

② 到达 DNS 服务器之后,DNS 服务器抽取出 DNS 查询报文,并在 DNS 数据库中查找待解析的域名,得到google的IP地址(参见前面DNS解析的过程)。

③ 找到 DNS 记录之后,发送 DNS 应答报文,将该应答报文放入 UDP 报文段中,然后放入 IP 数据报中,通过路由器反向转发回网关路由器,并经过以太网交换机到达主机。

HTTP请求页面

① 有了IP地址之后,客户端进程生成TCP套接字,向www.google.com发起HTTP请求。

② 生成套接字时,首先需要与google.com服务器进行TCP三次握手,建立TCP连接。

  • TCP SYN请求报文段:几番周折到达google.com
  • TCP SYN ACK:来自服务器端的应答
  • TCP SYN再次请求,表示我要开始了

③ 建立TCP连接之后,就可以开始发送请求了。HTTP GET请求报文段被放入套接字,然后移交给运输层、网络层、数据链路层,经过以太网的路由转发到达google.com服务器。

④ google.com服务器,发送响应报文发送到主机,浏览器收到 HTTP 响应报文后,抽取出 Web 页面内容,之后进行渲染,显示 Web 页面。

参考

三、传输层

网络层只把分组发送到目的主机,但是真正通信的并不是主机而是主机中的进程。传输层提供了进程间的逻辑通信,传输层向高层用户屏蔽了下面网络层的核心细节,使应用程序看起来像是在两个传输层实体之间有一条端到端的逻辑通信信道。

Socket和端口号

一个进程(作为网络应用的一部分)有一个或多个套接字(Socket),它相当于从网路向进程传递数据和从进程向网络传递数据的门户,每个套接字都有唯一标志。

每个套接字都包含一个源端口号和一个目的端口号。端口号是一个16比特的数,大小在0~65536之间。0~1023范围的端口号成为周知端口号,它们是受限制的,这是因为它们保留给诸如HTTP(使用端口号80)和FTP(使用端口号21)之类的周知应用层协议来使用。

UDP 和 TCP 的特点

  • 用户数据报协议 UDP(User Datagram Protocol)是无连接的,尽最大可能交付,没有拥塞控制,面向报文(对于应用程序传下来的报文不合并也不拆分,只是添加 UDP 首部),支持一对一、一对多、多对一和多对多的交互通信。
  • 传输控制协议 TCP(Transmission Control Protocol)是面向连接的,提供可靠交付,有流量控制,拥塞控制,提供全双工通信,面向字节流(把应用层传下来的报文看成字节流,把字节流组织成大小不等的数据块),每一条 TCP 连接只能是点对点的(一对一)。

UDP 首部格式



首部字段只有 8 个字节,包括源端口、目的端口、长度、检验和。12 字节的伪首部是为了计算检验和临时添加的。如果通过检验和检测到数据有错,就直接丢弃。

UDP检验和原理

TCP 首部格式



TCP首部共有32字节,格式如下:

  • 序号 :用于对字节流进行编号,例如序号为 301,表示第一个字节的编号为 301,如果携带的数据长度为 100 字节,那么下一个报文段的序号应为 401。
  • 确认号 :期望收到的下一个报文段的序号。例如 B 正确收到 A 发送来的一个报文段,序号为 501,携带的数据长度为 200 字节,因此 B 期望下一个报文段的序号为 701,B 发送给 A 的确认报文段中确认号就为 701。
  • 数据偏移 :指的是数据部分距离报文段起始处的偏移量,实际上指的是首部的长度。
  • 确认 ACK :当 ACK=1 时确认号字段有效,否则无效。TCP 规定,在连接建立后所有传送的报文段都必须把 ACK 置 1。
  • 同步 SYN :在连接建立时用来同步序号。当 SYN=1,ACK=0 时表示这是一个连接请求报文段。若对方同意建立连接,则响应报文中 SYN=1,ACK=1。
  • 终止 FIN :用来释放一个连接,当 FIN=1 时,表示此报文段的发送方的数据已发送完毕,并要求释放连接。
  • 窗口 :窗口值作为接收方让发送方设置其发送窗口的依据。之所以要有这个限制,是因为接收方的数据缓存空间是有限的。

TCP 的三次握手



假设 A 为客户端,B 为服务器端。

  • 首先 B 处于 LISTEN(监听)状态,等待客户的连接请求。
  • A 向 B 发送连接请求报文,SYN=1,ACK=0,选择一个初始的序号 x。
  • B 收到连接请求报文,如果同意建立连接,则向 A 发送连接确认报文,SYN=1,ACK=1,确认号为 x+1,同时也选择一个初始的序号 y。
  • A 收到 B 的连接确认报文后,还要向 B 发出确认,确认号为 y+1,序号为 x+1(当A向B发送第一个数据报文时,序号仍然为x+1,因为前一个确认报文不消耗序号)。
  • B 收到 A 的确认后,连接建立。

另外,TCP建立连接的过程中,还利用TCP报文段首部的选项字段进行双方最大报文段长度(Maximum Segment Size,MSS)协商,确认报文段的数据字段的最大长度。双方都将自己能够支持的MSS写入选项字段,比较之后,取较小的值付给MSS,并应用于数据传输阶段。

三次握手的原因

TCP进行三次握手的本质原因是信道的不安全。在不安全的信道上传输数据,可能存在数据丢失或者延误的情况。

当可能存在数据丢失时,三次握手是一个理论上能够建立可靠连接的最小值,因为一次无握手或者两次握手都不能保证双方都得到确认消息(虽然三次握手也不能保证建立可靠的信道,参看“两军问题”,这里面存在一个博弈的问题)。

当可能存在数据延误时,三次握手可以“防止已经失效的连接请求报文段突然又传到服务端,因而产生错误”(《计算机网络》谢希仁版)。

这种情况是:一端(client)A发出去的第一个连接请求报文并没有丢失,而是因为某些未知的原因在某个网络节点上发生滞留,导致延迟到连接释放以后的某个时间才到达另一端(server)B。本来这是一个早已失效的报文段,但是B收到此失效的报文之后,会误认为是A再次发出的一个新的连接请求,于是B端就向A又发出确认报文,表示同意建立连接。如果不采用“三次握手”,那么只要B端发出确认报文就会认为新的连接已经建立了,但是A端并没有发出建立连接的请求,因此不会去向B端发送数据,B端没有收到数据就会一直等待,这样B端就会白白浪费掉很多资源。如果采用“三次握手”的话就不会出现这种情况,B端收到一个过时失效的报文段之后,向A端发出确认,此时A并没有要求建立连接,所以就不会向B端发送确认,这个时候B端也能够知道连接没有建立。

TCP 的四次挥手



以下描述不讨论序号和确认号,因为序号和确认号(注意是ack,和ACK有区别)的规则比较简单。并且不讨论 ACK,因为 ACK 在连接建立之后都为 1。

  • A 发送连接释放报文,FIN=1。
  • B 收到之后发出确认,此时 TCP 属于半关闭状态,B 能向 A 发送数据但是 A 不能向 B 发送数据。
  • 当 B 不再需要连接时,发送连接释放报文,FIN=1。
  • A 收到后发出确认,进入 TIME-WAIT 状态,等待 2 MSL(最大报文存活时间)后释放连接。
  • B 收到 A 的确认后释放连接。

四次挥手的原因

CLOSE-WAIT
客户端发送了 FIN 连接释放报文之后,服务器收到了这个报文,就进入了 CLOSE-WAIT 状态。这个状态是为了让服务器端发送还未传送完毕的数据,传送完毕之后,服务器会发送 FIN 连接释放报文。

TIME_WAIT
客户端接收到服务器端的 FIN 报文后进入此状态,此时并不是直接进入 CLOSED 状态,还需要等待一个时间计时器设置的时间 2MSL。这么做有两个理由:

  • 确保最后一个确认报文能够到达。如果 B 没收到 A 发送来的确认报文,那么就会重新发送连接释放请求报文,A 等待一段时间就是为了处理这种情况的发生。
  • 等待一段时间是为了让本连接持续时间内所产生的所有报文都从网络中消失,使得下一个新的连接不会出现旧的连接请求报文。

参考:

TCP 可靠传输

超时与重传

TCP 使用超时重传来实现可靠传输:如果一个已经发送的报文段在超时时间内没有收到确认,那么就重传这个报文段。

超时与重传的关键在于RTO(Retransmission TimeOut,超时时间)的计算。

针对网络环境的复杂性,TCP采用一种自适应算法,提出超时重传时间应略大于平均往返时延RTT(Round Trip Time),而RTT是根据各个报文段的往返时延样本的加权平均得到的。Karn算法是目前比较好的估计RTT和RTO的值的算法。

Karn算法提出在计算平均往返时延RTT时,不计算发生过报文段重传的往返时延样本;同时报文段每重传一次,相应增大重传时间:


新的重传时间=a * 旧的重传时间

流量控制

流量控制是为了控制发送方发送速率,保证接收方来得及接收。

滑动窗口机制

几个概念

  • rwnd(receiver window,接收窗口):由接收端根据接收缓存确定。这个值被放在接收端发送的TCP报文段首部的窗口字段中。
  • cwnd(congestion window,拥塞窗口):发送端根据其对当前网络拥塞重读的估计而确定的窗口值。
  • 发送窗口:发送端设置的当前能够发送数据量的大小叫做发送窗口,它的上限值由以下公式确定:

    发送窗口上限值 = Min[cwnd, rwnd]



发送窗口的左边沿对应已发送数据中被确认的最高序号+1,其右边沿对应左边沿的序号加上发送窗口的大小。

发送窗口内的字节都允许被发送,接收窗口内的字节都允许被接收。如果发送窗口左部的字节已经发送并且收到了确认,那么就将发送窗口向右滑动一定距离,直到左部第一个字节不是已发送并且已确认的状态;接收窗口的滑动类似,接收窗口左部字节已经发送确认并交付主机,就向右滑动接收窗口。窗口左右移动包含三个动作:

  • 窗口合拢:窗口左边沿向右边沿靠近。这种现象发生在数据被发送和确认时。如果窗口左边沿和右边沿重合,则称其为一个零窗口,此时发送方不能发送任何数据。
  • 窗口张开:窗口右边沿向右移动。这种现象发生在接收进程读取已经确认的数据并释放TCP的接收缓存。
  • 窗口收缩:窗口右边沿向左移动。这种情况一般不会发生。

糊涂窗口综合征和Nagle算法

“糊涂窗口综合征”的一种情况是:接收方处理速度比较慢,并且每次从其接收缓存取走很少量的数据就通告这个很小的窗口,而不是等到有较大的窗口时才通告;发送方得到这个很小的接收窗口后,立即按照这个窗口大小组成一个TCP报文段发送出去,而不是等待接收窗口变大后以便发送一个更大的报文。如此往复,会导致网络的传输速率降低。

对此,发送端采取比较有效的方法是Nagle算法:在连接建立开始发送数据时,立即按序发送缓存中的数据(必须小于或等于MSS),在已经传输的数据还未被确认的情况下,后续数据的发送由数据是否足以填满发送缓存的一半一个最大报文段长度决定。

接收端采用推迟确认技术。对收到的报文段进行确认和通告窗口的前提条件是:接收端可用空间至少达到总空间的一半或者达到最大报文长度。如果条件不满足,则推迟发送确认和窗口通告。

总之,避免糊涂窗口综合征的原则是:接收端避免通告小窗口;发送端尽量将数据组成较大的报文发送出去

窗口探查技术

当接收端的接收缓存已满,不能继续接收数据时,需要向发送端发送一个窗口为0的通告报文。发送端接收到这个报文后停止发送数据,等待新的窗口通告。

当接收方的应用程序读取了接收缓冲区中的数据以后,接收方会发送一个ACK,通过通告窗口字段告诉发送方自己又可以接收数据了,但是发送方并不会对这个ACK报文进行确认,如果这个ACK丢失了,发送方将无法得知对端的接收窗口已经打开了,也就不会继续发送数据。这样一来,会造成传输死锁。

为了防止这种死锁情况的发生,发送方使用一个坚持定时器(Persist Timer)来周期性地向接收方查询,以便发现窗口是否已经增大,这就是窗口探查

拥塞控制

如果网络出现拥塞,分组将会丢失,此时发送方会继续重传,从而导致网络拥塞程度更高。因此当出现拥塞时,应当控制发送方的速率。这一点和流量控制很像,但是出发点不同。流量控制是为了让接收方能来得及接收,是一个端到端的过程;而拥塞控制是为了降低整个网络的拥塞程度,是一个全局的过程。



TCP 主要通过四个算法来进行拥塞控制:慢启动、拥塞避免、快重传、快恢复。

发送方需要维护一个叫做拥塞窗口(cwnd)的状态变量,注意拥塞窗口与发送方窗口的区别:拥塞窗口只是一个状态变量,实际决定发送方能发送多少数据的是发送方窗口。

为了便于讨论,做如下假设:

  • 接收方有足够大的接收缓存,因此不会发生流量控制;
  • 虽然 TCP 的窗口基于字节,但是这里设窗口的大小单位为报文段。



1. 慢启动与拥塞避免

慢启动算法的原理是:在主机开始发送数据时,采用试探性的方式,由小到大逐渐增大发送端的拥塞串口数值。cwnd的初始值通常设置为不超过2 * MSS(最大报文段)个字节(一般为1个MSS)。在每收到一个对新的报文段的确认后,拥塞窗口增加1个MSS的数值。慢启动一点也不慢,它的窗口增长方式是指数型的

拥塞避免算法是是发送端的拥塞窗口cwnd的值在每收到一个非重复的ACK报文后,增加一个SMSS * SMSS/cwnd的大小。也就是当发送方每收到cwnd个非重复的ACK报文,cwnd增加1。可以论证的是,基本上是时间每经过一个RTT,cwnd就会加1。其中SMSS是发送端的MSS。拥塞避免时拥塞窗口的增加是线性方式

慢启动和拥塞避免的转换:慢启动时cwnd是指数型增长的,势必很快拥塞,需要在网络拥塞之前将cwnd的增长速率降下来,也就是将慢启动算法切换到拥塞避免算法。为此需要设置一个慢启动门限值ssthresh:


ssthresh = max(cwnd/2, 2*MSS)

利用ssthresh得到慢启动和拥塞避免的综合算法是:

  • cwnd<ssthresh时,使用慢启动算法;
  • cwnd>ssthresh时,使用拥塞避免算法;
  • cwnd=ssthresh时,两者都可以;

2. 快重传与快恢复

为了避免TCP因等待重传定时器超时而空闲较长的时间,又提出了快重传和快恢复算法。

慢启动和拥塞避免算法中,一旦出现超时重传,TCP 就会把慢启动门限 ssthresh 的值设置为 cwnd 值的一半,同时 cwnd 设置成 1. 但是快恢复算法不这样做。

在接收方,要求每次接收到报文段都应该对最后一个已收到的有序报文段进行确认。例如已经接收到 M1 和 M2,此时收到 M4,应当发送对 M2 的确认。

在发送方,如果收到三个重复确认,那么可以知道下一个报文段丢失,此时执行快重传,立即重传下一个报文段。例如收到三个 M2,则 M3 丢失,立即重传 M3。

在这种情况下,只是丢失个别报文段,而不是网络拥塞。因此执行快恢复而不是慢启动,令 ssthresh = cwnd / 2 ,cwnd = ssthresh,然后直接进入拥塞避免。

慢开始和快恢复的快慢指的是 cwnd 的设定值,而不是 cwnd 的增长速率。慢开始 cwnd 设定为 1,而快恢复 cwnd 设定为 ssthresh。



四、网络层

概述

因为网络层是整个互联网的核心,因此应当让网络层尽可能简单。网络层向上只提供简单灵活的、无连接的、尽最大努力交互的数据报服务。

使用 IP 协议,可以把异构的物理网络连接起来,使得在网络层看起来好像是一个统一的网络。



与 IP 协议配套使用的还有三个协议:

  • 地址解析协议 ARP(Address Resolution Protocol)
  • 网际控制报文协议 ICMP(Internet Control Message Protocol)
  • 网际组管理协议 IGMP(Internet Group Management Protocol)



虚电路和数据报网络

?????

IP 数据报格式



如图所示,IP数据包由首部和数据两部分组成。首部又可以分为两部分,前一部分时固定长度的,是必不可少的,共20字节;后一部分是一下可选字段,长度可变。

首部某些字段意义如下:

  • 版本 : 有 4(IPv4)和 6(IPv6)两个值;
  • 首部长度 : 占 4 位,因此最大值为 15。值为 1 表示的是 1 个 32 位字的长度,也就是 4 字节。因为首部固定长度为 20 字节,因此该值最小为 5。如果可选字段的长度不是 4 字节的整数倍,就用尾部的填充部分来填充。
  • 区分服务 : 用来获得更好的服务,一般情况下不使用。
  • 总长度 : 包括首部长度和数据部分长度。
  • 生存时间 :TTL,它的存在是为了防止无法交付的数据报在互联网中不断兜圈子。以路由器跳数为单位,当 TTL 为 0 时就丢弃数据报。
  • 协议 :指出携带的数据应该上交给哪个协议进行处理,例如 ICMP、TCP、UDP 等。
  • 首部检验和 :因为数据报每经过一个路由器,都要重新计算检验和,因此检验和不包含数据部分可以减少计算的工作量。
  • 标识 : 在数据报长度过长从而发生分片的情况下,相同数据报的不同分片具有相同的标识符。
  • 片偏移 : 和标识符一起,用于发生分片的情况。片偏移指出,较长的分组在分片后,某片在原分组中的相对位置。也就是说,相对于用户数据字段的起点,该片从何处开始。片偏移的单位为 8 字节,也就是说每个分片的长度一定是8字节的整数倍。



IP 地址编址方式

IP地址是给每个连接在因特网上的主机分配一个全世界范围内唯一的32位的标识符。IP 地址的编址方式经历了三个历史阶段:

  • 分类
  • 子网划分
  • 无分类

1. 分类

由两部分组成,网络号和主机号,其中不同分类具有不同的网络号长度,并且是固定的。

IP 地址 ::= {< 网络号 >, < 主机号 >}



2. 子网划分

针对IP地址空间的利用率较低、路由表变得太大以及两级的IP地址不够,引入了子网掩码,进入了划分子网的第二阶段。

通过在主机号字段中拿一部分作为子网号,把两级 IP 地址划分为三级 IP 地址。

IP 地址 ::= {< 网络号 >, < 子网号 >, < 主机号 >}

要使用子网,必须配置子网掩码。一个 B 类地址的默认子网掩码为 255.255.0.0,如果 B 类地址的子网占两个比特,那么子网掩码为 11111111 11111111 11000000 00000000,也就是 255.255.192.0。

注意,外部网络看不到子网的存在。

3. 无分类域间路由选择(CIDR)

无分类编址 CIDR 消除了传统 A 类、B 类和 C 类地址以及划分子网的概念,使用网络前缀和主机号来对 IP 地址进行编码,网络前缀的长度可以根据需要变化。

IP 地址 ::= {< 网络前缀号 >, < 主机号 >}

CIDR 的记法上采用在 IP 地址后面加上网络前缀长度的方法,例如 128.14.35.7/20 表示前 20 位为网络前缀。

CIDR 的地址掩码可以继续称为子网掩码,子网掩码首 1 长度为网络前缀的长度。

一个 CIDR 地址块中有很多地址,一个 CIDR 表示的网络就可以表示原来的很多个网络,并且在路由表中只需要一个路由就可以代替原来的多个路由,减少了路由表项的数量。把这种通过使用网络前缀来减少路由表项的方式称为路由聚合,也称为 构成超网

在路由表中的项目由“网络前缀”和“下一跳地址”组成,在查找时可能会得到不止一个匹配结果,应当采用最长前缀匹配来确定应该匹配哪一个。

最长前缀匹配:当路由器收到一个IP数据包时,会将数据包的目的IP地址与自己本地路由表中的表项进行bit by bit的逐位查找,直到找到匹配度最长的条目,这叫最长匹配原则。

例如,考虑下面这个IPV4的路由表:

192.168.20.16/28 e0
192.168.0.0/16 s0

在要查找地址192.168.20.19时,不难发现上述两条都“匹配”,即这两条都包含要查找的目的地址。此时就应该根据最长掩码匹配原则,选择第一条进行匹配(更明确),所以数据包将通过e0发送出去。

地址解析协议 ARP(Address Resolution Protocol)

网络层实现主机之间的通信,而链路层实现具体每段链路之间的通信。因此在通信过程中,IP 数据报的源地址和目的地址始终不变,而 MAC 地址随着链路的改变而改变。



ARP 实现由32位的 IP 地址得到48位的 MAC 地址。



每个主机都有一个 ARP 高速缓存,里面有本局域网上的各主机和路由器的 IP 地址到 MAC 地址的映射表。ARP解析过程分为同一网段和不同网段来那个种情况。

在同一网段中,如果主机 A 知道主机 B 的 IP 地址,但是 ARP 高速缓存中没有该 IP 地址到 MAC 地址的映射,此时主机 A 通过广播的方式发送 ARP 请求分组,主机 B 收到该请求后会发送 ARP 响应分组给主机 A 告知其 MAC 地址,随后主机 A 向其高速缓存中写入主机 B 的 IP 地址到 MAC 地址的映射。

在不同网段中,主机A只需将报文发送给默认网关,即只需要查找或者解析自己默认网关地址即可。如果没有找到默认网关地址,则发送ARP请求报文请求默认网关硬件地址。然后,主机A到主机B的报文首先被送到默认网关,由默认网关根据目的IP地址进行转发。



网际控制报文协议 ICMP(Internet Control Message Protocol)

ICMP 是为了更有效地转发 IP 数据报和提高交付成功的机会。它作为IP数据包的数据封装在 IP 数据报中,但是不属于高层协议。



ICMP 报文分为差错报告报文和询问报文。



1. Ping

Ping 是 ICMP 的一个重要应用,主要用来测试两台主机之间的连通性。

Ping 的原理是通过向目的主机发送 ICMP Echo 请求报文,目的主机收到之后会发送 Echo 回答报文。Ping 会根据时间和成功响应的次数估算出数据包往返时间以及丢包率。

2. Traceroute

Traceroute 是 ICMP 的另一个应用,用来跟踪一个分组从源点到终点的路径。

Traceroute 发送的 IP 数据报封装的是无法交付的 UDP 用户数据报,并由目的主机发送终点不可达差错报告报文。

  • 源主机向目的主机发送一连串的 IP 数据报。第一个数据报 P1 的生存时间 TTL 设置为 1,当 P1 到达路径上的第一个路由器 R1 时,R1 收下它并把 TTL 减 1,此时 TTL 等于 0,R1 就把 P1 丢弃,并向源主机发送一个 ICMP 时间超过差错报告报文;
  • 源主机接着发送第二个数据报 P2,并把 TTL 设置为 2。P2 先到达 R1,R1 收下后把 TTL 减 1 再转发给 R2,R2 收下后也把 TTL 减 1,由于此时 TTL 等于 0,R2 就丢弃 P2,并向源主机发送一个 ICMP 时间超过差错报文。
  • 不断执行这样的步骤,直到最后一个数据报刚刚到达目的主机,主机不转发数据报,也不把 TTL 值减 1。但是因为数据报封装的是无法交付的 UDP,因此目的主机要向源主机发送 ICMP 终点不可达差错报告报文。
  • 之后源主机知道了到达目的主机所经过的路由器 IP 地址以及到达每个路由器的往返时间。

虚拟专用网 VPN

由于 IP 地址的紧缺,一个机构能申请到的 IP 地址数往往远小于本机构所拥有的主机数。并且一个机构并不需要把所有的主机接入到外部的互联网中,机构内的计算机可以使用仅在本机构有效的 IP 地址(专用地址)。

有三个专用地址块:

  • 10.0.0.0 ~ 10.255.255.255
  • 172.16.0.0 ~ 172.31.255.255
  • 192.168.0.0 ~ 192.168.255.255

在互联网中的所有路由器,对目的地址是专用地址的数据包一律不进行转发。所以在正常情况下无法直接通过Internet外网访问到在局域网内的主机。为了实现这一目的,需要使用VPN隧道技术建立一个虚拟专用网络

VPN 使用公用的互联网作为本机构各专用网之间的通信载体。专用指机构内的主机只与本机构内的其它主机通信;虚拟指好像是,而实际上并不是,它有经过公用的互联网。

下图中,场所 A 和 B 的通信经过互联网,如果场所 A 的主机 X 要和另一个场所 B 的主机 Y 通信,IP 数据报的源地址是 10.1.0.1,目的地址是 10.2.0.3。数据报先发送到与互联网相连的路由器 R1,R1 对内部数据进行加密,然后重新加上数据报的首部,源地址是路由器 R1 的全球地址 125.1.2.3,目的地址是路由器 R2 的全球地址 194.4.5.6。路由器 R2 收到数据报后将数据部分进行解密,恢复原来的数据报,此时目的地址为 10.2.0.3,就交付给 Y。

可见,虽然X向Y发送的数据报通过了公用的互联网,但是在效果上就好像在本部门的专用网上传输一样。



网络地址转换 NAT(Network Address Translation)

专用网内部的主机使用本地 IP 地址又想和互联网上的主机通信时,可以使用 NAT 来将本地 IP 转换为全球 IP。

在以前,NAT 将本地 IP 和全球 IP 一一对应,这种方式下拥有 n 个全球 IP 地址的专用网内最多只可以同时有 n 台主机接入互联网。为了更有效地利用全球 IP 地址,现在常用的 NAT 转换表把传输层的端口号也用上了,使得多个专用网内部的主机共用一个全球 IP 地址。使用端口号的 NAT 也叫做网络地址与端口转换 NAPT(Natwork Address and Port Translation)。



路由器的结构

路由器从功能上可以划分为:路由选择和分组转发。

分组转发结构由三个部分组成:交换结构、一组输入端口和一组输出端口;路由选择结构由路由选择处理器实现。



路由器分组转发流程

路由器在收到IP数据报告后执行的分组转发步骤如下:

  • 提取IP数据报告首部中的目的IP地址D,并得到目的网络地址 N。
  • 判断目的IP地址所在的网络N是否与本路由器直接相连。如果是,就直接交付给目的网络,否则执行下一步。
  • 检查路由器表中是否有目的地址为N的特定主机路由。如果有,按特定主机路由转发,否则执行下一步。
  • 逐条检查路由表。若找到匹配路由,则按照路由表进行转发:若所有路由均不匹配,执行下一步。
  • 若路由表中设置有默认路由,则按照默认路由表转发:否则,下一步。
  • 向源主机报错。



路由选择协议

路由选择协议都是自适应的,能随着网络通信量和拓扑结构的变化而自适应地进行调整。

互联网可以划分为许多较小的自治系统 AS,一个 AS 可以使用一种和别的 AS 不同的路由选择协议;区域(Area)是指一个路由器的集合,相同的区域有着相同的拓扑结构数据库。OSPF用区域把一个AS分成多个链路状态域;区域ID(Area ID)号用一个32位的正数来标识。如下图所示:



可以把路由选择协议划分为两大类:

  • 自治系统内部的路由选择:RIP 和 OSPF
  • 自治系统间的路由选择:BGP

1. 内部网关协议 RIP

RIP 是一种基于距离向量的路由选择协议。距离是指跳数,直接相连的路由器跳数为 1(在有些版本中可以定义为0)。跳数最多为 15,超过 15 表示不可达。

RIP 按固定的时间间隔仅和相邻路由器交换自己的路由表,经过若干次交换之后,所有路由器最终会知道到达本自治系统中任何一个网络的最短距离和下一跳路由器地址。RIP协议使用UDP报文交换路由信息。

距离向量算法:

  • 对地址为 X 的相邻路由器发来的 RIP 报文,先修改报文中的所有项目,把下一跳字段中的地址改为 X,并把所有的距离字段加 1;
  • 对修改后的 RIP 报文中的每一个项目,进行以下步骤:
  • 若原来的路由表中没有目的网络 N,则把该项目添加到路由表中;
  • 否则:若下一跳路由器地址是 X,则把收到的项目替换原来路由表中的项目;否则:若收到的项目中的距离 d 小于路由表中的距离,则进行更新(例如原始路由表项为 Net2, 5, P,新表项为 Net2, 4, X,则更新);否则什么也不做。
  • 若 3 分钟还没有收到相邻路由器的更新路由表,则把该相邻路由器标为不可达,即把距离置为 16。

总之,距离矢量算法是在相邻的路由器之间互相交换整个路由表,并进行矢量的叠加,最后达到每个路由器都知道整个网络的路由。

RIP 协议实现简单,开销小。但是 RIP 能使用的最大距离为 15,限制了网络的规模。并且当网络出现故障时,要经过比较长的时间才能将此消息传送到所有路由器。

2. 内部网关协议 OSPF

开放最短路径优先 OSPF,是为了克服 RIP 的缺点而开发出来的。

开放表示 OSPF 不受某一家厂商控制,而是公开发表的;最短路径优先表示使用了 Dijkstra 提出的最短路径算法 SPF。

OSPF 具有以下特点:

  • 向本自治系统中的所有路由器发送信息,这种方法是洪泛法。
  • 发送的信息就是与相邻路由器的链路状态,链路状态包括与哪些路由器相连以及链路的度量,度量用费用、距离、时延、带宽等来表示。
  • 只有当链路状态发生变化时,路由器才会发送信息。

所有路由器都具有全网的拓扑结构图,并且是一致的。相比于 RIP,OSPF 的更新过程收敛的很快。

RIP协议路由自环产生原因及解决办法
[OSPF协议解决为什么能防止路由自环??]

RIP协议和OSPF协议主要的不同:

  • RIP:仅于相邻的路由器交换状态;路由器交换的信息是当前本路由器所知道的全部信息,即路由表;按固定的时间间隔交换路由信息
    OSPF:向本自治系统所有的路由器发送信息;发送的信息是与本路由器的相邻的所有路由器的链路状态,即本路由器周边的网络拓扑;只有当链路状态发生改变时,路由器才向所有路由器用洪泛法发送信息。
  • 在RIP中,每个路由器只知道到所有路由器的距离以及下一跳路由器,不知道全网的拓扑结构,且由于所处位置不同,每个路由器的路由表不同;发生网络故障时,要经过较长时间才能将此信息传送给所有路由器,即所谓的“好消息传得快,坏消息传得慢”,收敛慢
    在OSPF中,由于交换的信息是相邻的路由器的链路状态,故每一个路由器都能建立起一个链路状态数据库(即全网的拓扑结构图),该数据库在全网范围内是一致的(这称为“链路状态数据库的同步”)。在OSPF中,链路数据库能较快的更新,故OSPF的更新过程收敛快
  • RIP协议使用运输层的用户数据报UDP进行传送,OSPF直接使用IP数据报进行传送

3. 外部网关协议 BGP(Border Gateway Protocol)

AS 之间的路由选择很困难,主要是由于:

互联网规模很大;

  • 各个 AS 内部使用不同的路由选择协议,无法准确定义路径的度量;
  • AS 之间的路由选择必须考虑有关的策略,比如有些 AS 不愿意让其它 AS 经过。
  • BGP 只能寻找一条比较好的路由,而不是最佳路由。

每个 AS 都必须配置 BGP 发言人,通过在两个相邻 BGP 发言人之间建立 TCP 连接来交换路由信息。



IPv4和IPv6的区别

ipv4 和ipv6 的区别本质在于它们的二进制表示位数,ipv4是用32位0/1序列来表示的,而ipv6使用128位0/1序列来表示的。

五、数据链路层

数据链路层提供的服务

1. 封装成帧

将网络层传下来的分组添加首部和尾部,用于标记帧的开始和结束。



2. 透明传输

透明表示一个实际存在的事物看起来好像不存在一样。

帧使用首部和尾部进行定界,如果帧的数据部分含有和首部尾部相同的内容,那么帧的开始和结束位置就会被错误的判定。需要在数据部分出现首部尾部相同的内容前面插入转义字符。如果数据部分出现转义字符,那么就在转义字符前面再加个转义字符。在接收端进行处理之后可以还原出原始数据。这个过程透明传输的内容是转义字符,用户察觉不到转义字符的存在。



3. 差错检测

链路层的差错检验方法常用的有三种:奇偶校验、检验和方法、循环冗余校验。

奇偶校验:假如要发送的信息有d个比特,设置一个附加比特,选择它的值,使得d+1个比特的总和是偶数(偶校验)或者奇数(奇校验)。接收方只需要数一数d+1个比特中1的个数。

检验和的方法:一个比较简单的方法就是将这d个比特数据加起来,使用和作为差错检验比特。

循环冗余检验(CRC):目前数据链路层广泛使用了循环冗余检验(CRC)来检查比特差错。循环冗余的过程大概如下:发送方和接收方首先必须协商一个r+1比特,成为生成多项式,在这里标识为G,要求G的最高有效位(最左边)为1。对于一个给定的d个比特的数据段D,发送方要选择r个附加比特R,并将它们附加到D上,使得得到的d+r个比特正好能够被G正处,接收方只需要用G去除接收到的d+r比特,如果余数为非零,就说明传输出现差错。

所有CRC计算采用模2运算,加法不进位,减法不借位,这意味着加法和减法是相同的,而且这两种操作等价于按位异或(XOR)。

算法具体过程参见CRC过程详解

信道分类

数据链路层使用的信道主要有两种:广播信道和点对点信道。

1. 广播信道

一对多通信,一个节点发送的数据能够被广播信道上所有的节点接收到。

所有的节点都在同一个广播信道上发送数据,因此需要有专门的控制方法进行协调,避免发生冲突(冲突也叫碰撞)。

主要有两种控制方法进行协调,一个是使用信道复用技术,一是使用 CSMA/CD 协议。

2. 点对点信道

一对一通信。

因为不会发生碰撞,因此也比较简单,使用 PPP 协议进行控制。

信道复用技术

1. 频分复用

频分复用的所有主机在相同的时间占用不同的频率带宽资源。



2. 时分复用

时分复用的所有主机在不同的时间占用相同的频率带宽资源。



使用频分复用和时分复用进行通信,在通信的过程中主机会一直占用一部分信道资源。但是由于计算机数据的突发性质,通信过程没必要一直占用信道资源而不让出给其它用户使用,因此这两种方式对信道的利用率都不高。

3. 统计时分复用

是对时分复用的一种改进,不固定每个用户在时分复用帧中的位置,只要有数据就集中起来组成统计时分复用帧然后发送。



4. 波分复用

光的频分复用。由于光的频率很高,因此习惯上用波长而不是频率来表示所使用的光载波。



5. 码分复用

更常用的是码分多址(CMDA)。为每个用户分配 m bit 的码片,并且所有的码片正交,对于任意两个码片



为了讨论方便,取 m=8,设码片为 00011011。在拥有该码片的用户发送比特 1 时就发送该码片,发送比特 0 时就发送该码片的反码 11100100。

在计算时将 00011011 记作 (-1 -1 -1 +1 +1 -1 +1 +1),可以得到




其中的反码。

利用上面的式子我们知道,当接收端使用码片对接收到的数据进行内积运算时,结果为 0 的是其它用户发送的数据,结果为 1 的是用户发送的比特 1,结果为 -1 的是用户发送的比特 0。

码分复用需要发送的数据量为原先的 m 倍



CSMA/CD 协议(Carrier Sense multiple Access with Collision Detection)

CSMA/CD 表示载波监听多点接入 / 碰撞检测(带碰撞检测的载波监听多路访问技术)。

  • 多点接入 :说明这是总线型网络,许多主机以多点的方式连接到总线上。
  • 载波监听 :每个主机都必须不停地监听信道。在发送前,如果监听到信道正在使用,就必须等待。
  • 碰撞检测 :在发送中,如果监听到信道已有其它主机正在发送数据,就表示发生了碰撞。虽然每个主机在发送数据之前都已经监听到信道为空闲,但是由于电磁波的传播时延的存在,还是有可能会发生碰撞。

记端到端的传播时延为 τ,最先发送的站点最多经过 2τ 就可以知道是否发生了碰撞,称 2τ 为 争用期 。只有经过争用期之后还没有检测到碰撞,才能肯定这次发送不会发生碰撞。

当发生碰撞时,站点要停止发送,等待一段时间再发送。这个时间采用 截断二进制指数退避算法 来确定。从离散的整数集合 {0, 1, .., (2k-1)} 中随机取出一个数,记作 r,然后取 r 倍的争用期作为重传等待时间。



CSMA/CD协议的过程可以用一个同学发言的比喻来说明:假如一群同学坐在一起。在某个时间很安静,没有人说话(信道是空的),但是所有人都在听着(载波监听);这时,有个同学有话要说,他听到此时没人说话, 于是他可以站起来发言,在他发言的时候,剩余的同学都在听着,他们知道此时有人发言,自己不能发言,要不然就会产生混乱;这位同学发完言后便坐下,又陷入一片安静;然后,有两个同学同时有话要说,并且他们都监听到此时是安静的,允许说话,于是他们同时站起来发言,但是就在他们开口的一瞬间,他们听到了彼此的声音,知道冲突了,这时他们两个都会停止发言,然后给自己设定一个等待时间(两个同学各不相同),等到过完这个等待时间之后再站起来说话。如果没冲突就正常发言,否则就再设置等待时间,如此循环。

PPP 协议

互联网用户通常需要连接到某个 ISP 之后才能接入到互联网,PPP 协议是用户计算机和 ISP 进行通信时所使用的数据链路层协议。



PPP 的帧格式:

  • F 字段为帧的定界符
  • A 和 C 字段暂时没有意义
  • FCS 字段是使用 CRC 的检验序列
  • 信息部分的长度不超过 1500



MAC地址

MAC 地址是链路层地址,长度为 6 字节(48 位),用于唯一标识网络适配器(网卡)。MAC地址也叫物理地址,注意这里的“物理”和物理层没有关系。

一台主机拥有多少个网络适配器就有多少个 MAC 地址。例如笔记本电脑普遍存在无线网络适配器和有线网络适配器,因此就有两个 MAC 地址。

局域网

局域网是一种典型的广播信道,主要特点是网络为一个单位所拥有,且地理范围和站点数目均有限。

主要有以太网、令牌环网、FDDI 和 ATM 等局域网技术,目前以太网占领着有线局域网市场。

可以按照网络拓扑结构对局域网进行分类:



以太网

以太网是一种星型拓扑结构局域网。

早期使用集线器进行连接,集线器是一种物理层设备, 作用于比特而不是帧,当一个比特到达接口时,集线器重新生成这个比特,并将其能量强度放大,从而扩大网络的传输距离,之后再将这个比特发送到其它所有接口。如果集线器同时收到两个不同接口的帧,那么就发生了碰撞。

目前以太网使用交换机替代了集线器,交换机是一种链路层设备,它不会发生碰撞,能根据 MAC 地址进行存储转发。

以太网帧格式:

  • 类型 :标记上层使用的协议;
  • 数据 :长度在 46-1500 之间,如果太小则需要填充;
  • FCS :帧检验序列,使用的是 CRC 检验方法;
  • 前同步码 :只是为了计算 FCS 临时加入的,计算结束之后会丢弃。



交换机

交换机具有自学习能力,学习的是交换表的内容,交换表中存储着 MAC 地址到接口的映射。

正是由于这种自学习能力,因此交换机是一种即插即用设备,不需要网络管理员手动配置交换表内容。

下图中,交换机有 4 个接口,主机 A 向主机 B 发送数据帧时,交换机把主机 A 到接口 1 的映射写入交换表中。为了发送数据帧到 B,先查交换表,此时没有主机 B 的表项,那么主机 A 就发送广播帧(这个过程称为“洪泛”),主机 C 和主机 D 会丢弃该帧。主机 B 收下之后,查找交换表得到主机 A 映射的接口为 1,就发送数据帧到接口 1,同时交换机添加主机 B 到接口 3 的映射。



虚拟局域网

虚拟局域网可以建立与物理位置无关的逻辑组,只有在同一个虚拟局域网中的成员才会收到链路层广播信息。

例如下图中 (A1, A2, A3, A4) 属于一个虚拟局域网,A1 发送的广播会被 A2、A3、A4 收到,而其它站点收不到。

使用 VLAN 干线连接来建立虚拟局域网,每台交换机上的一个特殊接口被设置为干线接口,以互连 VLAN 交换机。IEEE 定义了一种扩展的以太网帧格式 802.1Q,它在标准以太网帧上加进了 4 字节首部 VLAN 标签,用于表示该帧属于哪一个虚拟局域网。



六、物理层

通信方式

根据信息在传输线上的传送方向,分为以下三种通信方式:

  • 单工通信:单向传输
  • 半双工通信:双向交替传输
  • 全双工通信:双向同时传输

带通调制

模拟信号是连续的信号,数字信号是离散的信号。带通调制把数字信号转换为模拟信号。



添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注