容器基础1:我们真的了解容器吗?

我相信但凡接触过Docker的同学,一定看到过下面这张虚拟机和容器的对比图:

在这幅图的左边,画出了虚拟机的工作原理。其中,名为Hypervisor的软件是虚拟机最主要的部分。它通过硬件虚拟化功能,模拟出运行一个操作系统所需的各种硬件,比如,CPU、内存、I/O设备等;然后,它在这些虚拟的硬件上安装一个新的操作系统,即Guest OS。这样,我们的应用程序就可以运行在这个虚拟的机器中,而它所能看到的范围自然也就只有Guest OS的文件和目录,以及这个虚拟的机器中的虚拟设备。这就是为什么虚拟机也能起到将不同的应用程序互相隔离的作用。

而在这幅图的右边,用一个名为Docker Engine的软件替换了Hypervisor。这也是为什么,很多人会把Docker项目称为“轻量级”虚拟化技术的原因,实际上就是把虚拟机的概念套在了容器上。然而,这就是Docker的真面目吗?

一、什么是容器

在详细说明容器的本质之前,我们先来回答第一个问题:容器,到底是什么?

容器其实是一种沙盒技术。顾名思义,它就是一种能够像集装箱一样把我们的应用”装“起来的技术。这样,应用与应用之间,因为有了边界而不至于互相干扰;而被装进集装箱的应用,也可以很方便地搬来搬去。

嗯,说起来好像很简单,那么这个边界是如何实现的呢?

二、容器技术的核心功能

假设,我们现在要写这样的一个计算加法的小程序,这个程序需要的输入来自于一个文件,它计算完成后的结果会输出到另一个文件中。

我们知道,由于计算机只认识0和1,所以无论用哪种语言编写这段代码,最后都需要通过某种方式翻译成二进制文件,才能在计算操作系统中运行这些代码。而为了让这些代码能够正常运行,我们往往还要给它提供数据,比如我们这个加法程序所需要的输入文件。有了这些数据和代码本身的二进制文件(就是我们平常所说的“程序”,也叫代码的可执行镜像,放在的磁盘上)后,我们就可以在计算机上运行这个“程序”了。

首先,操作系统从“程序”中发现要输入的数据就保存在一个文件中,所以这些数据会被加载到内存中待命。同时,操作系统又读取到了计算加法的指令,这时它就需要指示CPU完成加法操作。而当CPU与内存协作进行加法计算时,又会使用寄存器存放数值、内存堆栈保存执行的命令和变量。此外,计算机里还有被打开的文件,以及各种各样的I/O设备在不断地调用中修改自己的状态。

就这样,一旦“程序”被执行起来,它就从磁盘上的二进制文件,变成了计算机内存中的数据、寄存器里的值、堆栈中的指令、被打开的文件,以及各种设备的状态信息的一个集合。而像这样的一个程序运行起来后的计算机执行环境的总和,就是我们所说进程。

所以,对于进程来说,它的静态表现就是程序,平常都安安静静地待在磁盘上;而一旦运行起来,它就变成了计算机里的数据和状态的总和,而这就是进程的动态表现。

容器技术的核心功能,就是通过约束和修改进程的动态表现,从而为其创造出一个“边界”。而对于Docker等大多数Linux容器来说,Groups技术是用来制造约束的主要手段,Namespace技术则是用来修改进程视图的主要方法。

三、理解Namespace机制

假设我们现在有一个已经运行了Docker项目的Linux操作系统,接下来,我们在命令行执行如下命令:

1
2
$ docker run -it busybox /bin/sh
/ #

在这个命令中,docker run的作用就是启动一个容器,而参数-it则告诉Docker项目在启动容器后,给我们分配一个文本输入/输出环境(也就是TTY),跟容器的标准输入相关联,这样我们就可以和这个Docker容器进行交互了。而/bin/sh就是我们要在Docker容器中运行的程序。

所以,上面这条命令翻译成人类语言就是:请帮我启动一个容器,在容器里执行/bin/sh,并且给我们分配一个命令行终端跟这个容器进行交互。而在这个环境中,我们的Linux操作系统就是一个宿主机,而这个运行着/bin/sh的容器,就跑在我们的宿主机中。

但凡玩过Docker的同学,对上面这个例子和其原理,一定不会感到陌生。此时,如果我们在容器里执行一下ps指令,就会发现一些更有趣的事情:

1
2
3
4
/ # ps
PID USER TIME COMMAND
1 root 0:00 /bin/sh
10 root 0:00 ps

可以看到,我们在最开始启动容器时执行的/bin/sh,就是这个容器内部的第1号进程,而在这个容器里一共只有两个进程在运行。这也就意味着,前面执行的/bin/sh,以及我们刚刚执行的ps,已经被Docker隔离在一个跟宿主机完全不同的世界当中。

问题是这究竟是怎么做到的呢?

本来,每当我们在宿主机上运行一个/bin/sh程序时,操作系统都会给它分配一个进程编号,比如PID=100。这个编号就进程的唯一标识。而现在,我们通过Docker把这个/bin/sh程序运行在一个容器当中,此时,Docker会给这个第100号进程施一个“障眼法”,让它永远看不到前面的其他99个进程,更看到不第1号进程,这样它就会错误地以为自己就是操作系统中的第1号进程。

而这种机制,其实就是对被隔离程序的进程空间做了手脚,使得进程只能看到重新计算过的进程编号,比如PID=1。可实际上,它们在宿主机的操作系统中,还是原来的第100号进程。

这种技术,就是Linux系统中的Namespace机制。而Namespace的使用方式也很简单:它其实只是Linux创建进程时的一个可参数。我们知道,在Linux系统中创建线程的系统调用是clone(),比如:

1
int pid = clone(main_function, statick_size, SIGCHLD, NULL);

这个系统调用就会为我们创建一个新的进程,并且返回它的PID。而在我们用clone()系统调用创建一个进程时,可以在参数中指定CLONE_NEWPID参数,比如:

1
int pid = clone(main_function, statck_size, CLONE_NEWPID | SIGCHLD, NULL);

此时,这个新创建的进程将会“看到”一个全新的进程空间,在这个进程空间中,它的PID是1。这里之所以用“看到”一词,是因为这只是一个“障眼法”,在宿主机真实的进程空间中,这个进程的PID还是真实的数值,比如100。当然,我们还可以多次执行上面的clone()调用,这样就会创建多个PID Namespace,而每个Namespace中的进程,都会认为自己是当前容器里的第1号进程,它们即看不到宿主机里真正的进程空间,也看不到其他PID Namespace里的具体情况。

而除了我们刚刚用到的PID Namespace,Linux操作系统还提供了Mount、UTS、IPC、Network和User这些Namespace,用来对各种不同的进程上下文进行“障眼法”操作。比如,Mount Namespace,用于让被隔离进程只看到当前Namespace里的挂载点信息;Network Namespace,用于让被隔离进程看到当前Namespace里的网络设备和配置。而这就是Linux容器最基本的实现原理了。

我们要知道的是,Docker容器实际上就是在创建容器进程时,指定这个进程所需要启用的一组Namespace参数。这样,容器就只能“看到”当前Namespace所限定的资源、设备、文件、状态和配置等。而对于宿主机以及其他不相关的进程,它就完全看不到了。所以说,容器,其实就是一种特殊的进程而已。

四、小结

在这篇文章中,我们主要讨论了如下内容:

  • 容器是一种沙盒技术,它的主要作用是将应用打包起来。这样既便于搬运,又做到了应用之间的隔离。
  • 容器技术的核心功能,就是通过约束和限制进程的动态表现,从而为其创造出一个“边界”。
  • 容器本质上就是一个特殊的进程。在创建容器进程时,Docker会为这个进程启动一组Namespace参数。

容器基础1:我们真的了解容器吗?
https://kuberxy.github.io/2020/09/28/容器基础1:我们真的了解容器吗?/
作者
Mr.x
发布于
2020年9月28日
许可协议