容器网络5:NetworkPolicy

在前面的文章中,我们讨论了Kubernetes的网络“连通性”。接下来,我们重点讨论Kubernetes网络的“隔离性”。

一、NetworkPolicy对象

1.1、什么是NetworkPolicy

在 Kubernetes 中,对网络隔离能力的定义,是依靠一种专门的 API 对象来描述的,即:NetworkPolicy。

Kubernetes 里的 Pod 默认都是“允许所有”(Accept All)的,即:Pod 可以接收来自任何发送方的请求;或者,向任何接收方发送请求。而如果我们要对这个情况作出限制,就必须通过 NetworkPolicy 对象来指定。

一旦 Pod 被某个 NetworkPolicy 选中,那么这个 Pod 就会进入“拒绝所有(Deny All)”的状态,即:这个 Pod 既不允许被外界随意访问,也不允许随意对外界发起访问,只能按“规则”行动。NetworkPolicy 定义的规则,其实就是“白名单”。

1.2、定义NetworkPolicy

一个完整的 NetworkPolicy 对象的示例,如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
name: test-network-policy
namespace: default
spec:
podSelector:
matchLabels:
role: db
policyTypes:
- Ingress
- Egress
ingress:
- from:
- ipBlock:
cidr: 172.17.0.0/16
except:
- 172.17.1.0/24
- namespaceSelector:
matchLabels:
project: myproject
- podSelector:
matchLabels:
role: frontend
ports:
- protocol: TCP
port: 6379
egress:
- to:
- ipBlock:
cidr: 10.0.0.0/24
ports:
- protocol: TCP
port: 5978

在上面这个例子里,我们首先会看到 podSelector 字段。它的作用,就是定义这个 NetworkPolicy 的限制范围,比如:当前 Namespace 里携带了 role=db 标签的 Pod。而如果我们把 podSelector 字段留空:

1
2
spec:
podSelector: {}

那么这个 NetworkPolicy 就会作用于当前 Namespace 下的所有 Pod。

1.3、理解NetworkPolicy的定义

在上面的例子中,我们在 policyTypes 字段,定义了这个 NetworkPolicy 的类型是 ingress 和 egress,即:它既会影响流入(ingress)请求,也会影响流出(egress)请求。

然后,在 ingress 字段里,我们定义了 from 和 ports,即:允许流入的“白名单”和端口。其中,在这个允许流入的“白名单”里,我们指定了三种并列的情况,分别是:ipBlock、namespaceSelector 和 podSelector。

而在 egress 字段里,我们则定义了 to 和 ports,即:允许流出的“白名单”和端口。这里允许流出的“白名单”的定义方法与 ingress 类似。只不过,这一次 ipblock 字段指定的,是目的地址的网段。

而这个 NetworkPolicy 对象,指定的隔离规则是这样的:

  • 该隔离规则只对 default Namespace 下的,携带了 role=db 标签的 Pod 有效。限制的请求类型包括 ingress(流入)和 egress(流出)。
  • Kubernetes 会拒绝任何访问被隔离 Pod 的请求,除非这个请求是来自于以下“白名单”里的对象,并且访问的是被隔离 Pod 的 6379 端口。这些“白名单”对象包括:
    • default Namespace 里的,携带了 role=fronted 标签的 Pod;
    • 携带project=myproject 标签的 Namespace 里的任何 Pod;
    • 任何源地址属于 172.17.0.0/16 网段,且不属于 172.17.1.0/24 网段的请求。
  • Kubernetes 会拒绝被隔离 Pod 对外发起任何请求,除非请求的目的地址属于 10.0.0.0/24 网段,并且访问的是该网段地址的 5978 端口。

1.4、编写NetworkPolicy时的注意点

需要注意的是,定义一个 NetworkPolicy 对象的过程,容易犯错的是“白名单”部分(from 和 to 字段)。举个例子:

1
2
3
4
5
6
7
8
9
10
...
ingress:
- from:
- namespaceSelector:
matchLabels:
user: alice
- podSelector:
matchLabels:
role: client
...

像上面这样定义的 namespaceSelector 和 podSelector,是“或”(OR)的关系。所以说,这个 from 字段定义了两种情况,无论是 Namespace 满足条件,还是 Pod 满足条件,这个 NetworkPolicy 都会生效。

而下面这个例子,虽然看起来类似,但是它定义的规则却完全不同:

1
2
3
4
5
6
7
8
9
10
...
ingress:
- from:
- namespaceSelector:
matchLabels:
user: alice
podSelector:
matchLabels:
role: client
...

注意看,这样定义的 namespaceSelector 和 podSelector,其实是“与”(AND)的关系。所以说,这个 from 字段只定义了一种情况,只有 Namespace 和 Pod 同时满足条件,这个 NetworkPolicy 才会生效。

这两种定义方式的区别,一定要分清楚。

1.5、NetworkPolicy的依赖

此外,如果要使上面定义的 NetworkPolicy 在 Kubernetes 集群里真正产生作用,我们的 CNI 网络插件就必须是支持 Kubernetes 的 NetworkPolicy 的。

在具体实现上,凡是支持 NetworkPolicy 的 CNI 网络插件,都维护着一个 NetworkPolicy Controller,通过控制循环的方式对 NetworkPolicy 对象的增删改查做出响应,然后在宿主机上完成 iptables 规则的配置工作。

在 Kubernetes 生态里,目前已经实现了 NetworkPolicy 的网络插件包括 Calico、Weave 和 kube-router 等多个项目,但是并不包括 Flannel 项目。所以说,如果想要在使用 Flannel 的同时还使用 NetworkPolicy 的话,我们就需要再额外安装一个网络插件,比如 Calico 项目,来负责执行 NetworkPolicy。

二、理解Iptables

此时,我们可能会好奇,网络插件是如何根据 NetworkPolicy 对 Pod 进行隔离的?

在回答这个问题之前,我们先来理解一下iptables的工作原理。

2.1、Netfilter是什么

实际上,iptables 只是一个操作 Linux 内核 Netfilter 子系统的“界面”。顾名思义,Netfilter 子系统的作用,就是 Linux 内核里挡在“网卡”和“用户态进程”之间的一道“防火墙”。它们的关系,可以用如下的示意图来表示:

image-20201007114257452

可以看到,这幅示意图中,IP 包“一进一出”的两条路径上,有几个关键的“检查点”,它们正是 Netfilter 设置“防火墙”的地方。在 iptables 中,这些“检查点”被称为:链(Chain)。这是因为这些“检查点”对应的 iptables 规则,是按照定义顺序依次进行匹配的。

2.2、Netfilter的工作原理

Netfilter的具体工作原理,可以用如下所示的示意图来描述:

image-20201007114403525

当一个 IP 包通过网卡进入主机之后,它就进入了 Netfilter 定义的流入路径(Input Path)里。

在这个路径中,IP 包要经过路由表路由来决定下一步的去向。而在路由之前,Netfilter 设置了一个名叫 PREROUTING 的“检查点”。经过路由之后,IP 包的去向可以分为两种:

  • 第一种,继续在本机处理;

  • 第二种,被转发到其他目的地。

注:在 Linux 内核的实现里,所谓“检查点”实际上就是内核网络协议栈代码里的 Hook(比如,在执行路由判断的代码之前,内核会先调用 PREROUTING 的 Hook)。

2.2.1、第一种去向

我们先说一下 IP 包的第一种去向。这时候,IP 包将继续向上层协议栈流动。在进入传输层之前,Netfilter 会设置一个名叫 INPUT 的“检查点”。到这里,IP 包流入路径(Input Path)结束。

接下来,这个 IP 包通过传输层进入用户空间,交给用户进程处理。而处理完成后,用户进程会通过本机发出返回的 IP 包。这时候,这个 IP 包就进入了流出路径(Output Path)。

此时,IP 包首先还是会经过主机的路由表进行路由。路由结束后,Netfilter 就会设置一个名叫 OUTPUT 的“检查点”。然后,在 OUTPUT 之后,再设置一个名叫 POSTROUTING“检查点”。

这里,我们可能会奇怪,为什么在流出路径结束后,Netfilter 会连着设置两个“检查点”呢?

这就要说到在流入路径里,路由判断后的第二种去向了。

2.2.2、第二种去向

在这种情况下,这个 IP 包不会进入传输层,而是会继续在网络层流动,从而进入到转发路径(Forward Path)。在转发路径中,Netfilter 会设置一个名叫 FORWARD 的“检查点”。

而在 FORWARD“检查点”完成后,IP 包就会来到流出路径。而转发的 IP 包由于目的地已经确定,它就不会再经过路由,也自然不会经过 OUTPUT,而是会直接来到 POSTROUTING“检查点”。

所以说,POSTROUTING 的作用,其实就是上述两条路径,最终汇聚在一起的“最终检查点”。

2.3、Netfilter完整的流程图

需要注意的是,在有网桥参与的情况下,上述 Netfilter 设置“检查点”的流程,实际上也会出现在链路层(二层),并且会跟网络层(三层)的流程有交互。而这些链路层的“检查点”对应的操作界面叫作 ebtables。

所以,准确地说,数据包在 Linux Netfilter 子系统里完整的流动过程,其实应该如下所示(这是一幅来自Netfilter 官方的原理图):

image-20201007115517875

可以看到,我们前面讲述的,正是上图中绿色部分,也就是网络层的 iptables 链的工作流程。

另外,我们应该还能看到,每一个白色的“检查点”上,还有一个绿色的“标签”,比如:raw、nat、filter 等等。在 iptables 里,这些标签叫作:表。比如,同样是 OUTPUT 这个“检查点”,filter Output 和 nat Output 在 iptables 里的语法和参数,就完全不一样,实现的功能也完全不同。

所以说,iptables 表的作用,就是在某个具体的“检查点”(比如 Output)上,按顺序执行几个不同的检查动作(比如,先执行 nat,再执行 filter)。

三、NetworkPolicy的工作原理

在理解了iptables的工作原理后,接下来,我们就以三层网络插件为例(比如 Calico),来分析一下NetworkPolicy 的原理。

3.1、编写NetworkPolicy 对象

为了方便讲解,这一次我们编写了一个比较简单的 NetworkPolicy 对象,如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
apiVersion: extensions/v1beta1
kind: NetworkPolicy
metadata:
name: test-network-policy
namespace: default
spec:
podSelector:
matchLabels:
role: db
ingress:
- from:
- namespaceSelector:
matchLabels:
project: myproject
- podSelector:
matchLabels:
role: frontend
ports:
- protocol: tcp
port: 6379

可以看到,我们指定的 ingress“白名单”,是携带 project=myproject 标签的Namespace 里的任意Pod;以及 default Namespace 里,携带了 role=frontend 标签的 Pod。允许被访问的端口是6379,协议为TCP。而被隔离的对象,是default Namespace 里所有携带了 role=db 标签的 Pod。

3.2、生成对应的iptables规则

创建NetworkPolicy对象后,Kubernetes 的网络插件就会使用这个 NetworkPolicy 的定义,在宿主机上生成 iptables 规则。这个过程,我们可以通过如下所示的一段 Go 语言风格的伪代码来描述:

1
2
3
4
5
6
7
for dstIP := range 所有被networkpolicy.spec.podSelector选中的Pod的IP地址
for srcIP := range 所有被ingress.from.podSelector选中的Pod的IP地址
for port, protocol := range ingress.ports {
iptables -A KUBE-NWPLCY-CHAIN -s $srcIP -d $dstIP -p $protocol -m $protocol --dport $port -j ACCEPT
}
}
}

可以看到,这是一条最基本的、通过匹配条件决定下一步动作的 iptables 规则。

这条规则的名字是 KUBE-NWPLCY-CHAIN,其含义是:当 IP 包的源地址是 srcIP、目的地址是 dstIP、协议是 protocol、目的端口是 port 的时候,就允许它通过(ACCEPT)。而正如这段伪代码所示,匹配这条规则所需的这四个参数,都是从 NetworkPolicy 对象里读取出来的。

由此可以看出,Kubernetes 网络插件对 Pod 进行隔离,其实是靠在宿主机上生成 NetworkPolicy 对应的 iptable 规则来实现的。

3.3、转发对被隔离Pod的请求

在设置好上述“隔离”规则之后,网络插件还需要想办法,将所有对被隔离 Pod 的访问请求,都转发到上述 KUBE-NWPLCY-CHAIN 规则上去进行匹配。并且,如果匹配不通过,这个请求应该被“拒绝”。而在CNI 网络插件中,这个需求可以通过设置两组 iptables 规则来实现。

第一组规则,负责“拦截”对被隔离 Pod 的访问请求。生成这一组规则的伪代码,如下所示:

1
2
3
4
5
6
7
for pod := range 该Node上的所有Pod {
if pod是networkpolicy.spec.podSelector选中的 {
iptables -A FORWARD -d $podIP -m physdev --physdev-is-bridged -j KUBE-POD-SPECIFIC-FW-CHAIN
iptables -A FORWARD -d $podIP -j KUBE-POD-SPECIFIC-FW-CHAIN
...
}
}

可以看到,这里的的 iptables 规则使用到了内置链:FORWARD。它是什么意思呢?

  • 第一条 FORWARD 链“拦截”的是一种特殊情况:它对应的是同一台宿主机上容器之间经过 CNI 网桥进行通信的流入数据包。其中,–physdev-is-bridged 的意思就是,这个 FORWARD 链匹配的是,通过本机上的网桥设备,发往目的地址是 podIP 的 IP 包。当然,如果是像 Calico 这样的非网桥模式的 CNI 插件,就不存在这个情况了。而kube-router 其实是一个简化版的 Calico,它也使用 BGP 来维护路由信息,但是使用 CNI bridge 插件负责跟 Kubernetes 进行交互。

  • 第二条 FORWARD 链“拦截”的则是最普遍的情况,即:容器跨主机通信。这时候,流入容器的数据包都是经过路由转发(FORWARD 检查点)来的。不难看到,这些规则最后都跳转(即:-j)到了名叫 KUBE-POD-SPECIFIC-FW-CHAIN 的规则上。它正是网络插件为 NetworkPolicy 设置的第二组规则。

第二组规则,也就是这个 KUBE-POD-SPECIFIC-FW-CHAIN ,它的作用就是做出“允许”或者“拒绝”的判断。这部分功能的实现,可以简单描述为下面这样的 iptables 规则:

1
2
iptables -A KUBE-POD-SPECIFIC-FW-CHAIN -j KUBE-NWPLCY-CHAIN
iptables -A KUBE-POD-SPECIFIC-FW-CHAIN -j REJECT --reject-with icmp-port-unreachable

可以看到,首先在第一条规则里,我们会把 IP 包转交给前面定义的 KUBE-NWPLCY-CHAIN 规则去进行匹配。按照我们之前的讲述,如果匹配成功,那么 IP 包就会被“允许通过”。

而如果匹配失败,IP 包就会来到第二条规则上。可以看到,它是一条 REJECT 规则。通过这条规则,不满足 NetworkPolicy 定义的请求就会被拒绝掉,从而实现了对该容器的“隔离”。

以上,就是 CNI 网络插件实现 NetworkPolicy 的基本方法了。当然,对于不同的插件来说,上述实现过程可能有不同的手段,但根本原理是不变的。

五、小结

在这篇文章中,我们主要讨论了以下几个概念:

  • Kubernetes的隔离机制是通过NetworkPolicy对象实现的;
  • NetworkPolicy其实就是宿主机上的一系列Iptables规则;
  • NetworkPolicy的工作原理是:首先,生成NetworkPolicy相应的动作规则;然后,生成“将对被隔离Pod的请求”转发到这些规则上的转发规则。

容器网络5:NetworkPolicy
https://kuberxy.github.io/2020/10/07/容器网络5:NetworkPolicy/
作者
Mr.x
发布于
2020年10月7日
许可协议