学习 Kubernetes 基础知识

任务

安装工具

安装并设置 kubectl

安装 Minikube

管理集群

用 kubeadm 进行管理

用 kubeadm 进行管理

使用 kubeadm 进行证书管理

升级 kubeadm 集群

管理内存，CPU 和 API 资源

管理内存，CPU 和 API 资源

为命名空间配置默认的内存请求和限制

为命名空间配置默认的CPU请求和限制

配置命名空间的最小和最大内存约束

为命名空间配置CPU最小和最大限制

为命名空间配置内存和 CPU 配额

配置命名空间下pod总数

Install a Network Policy Provider

Install a Network Policy Provider

使用 Calico 作为 NetworkPolicy

使用 Cilium 作为 NetworkPolicy

使用 Kube-router 作为 NetworkPolicy

使用 Romana 作为 NetworkPolicy

使用 Weave Net 作为 NetworkPolicy

Debug DNS 方案

Enabling Service Topology (EN)

IP Masquerade Agent 用户指南

Kubernetes 云管理控制器

Safely Drain a Node while Respecting the PodDisruptionBudget (EN)

为 Kubernetes 运行 etcd 集群

为系统守护进程预留计算资源

为节点发布扩展资源

使用 CoreDNS 进行服务发现

使用 KMS 提供商进行数据加密

使用 Kubernetes API 访问集群

关键插件 Pod 的调度保证

启用端点切片

命名空间演练

在 Kubernetes 集群中使用 NodeLocal DNSCache

在 Kubernetes 集群中使用 sysctl

在实时集群上重新配置节点的 Kubelet

声明网络策略

开发云控制器管理器

控制节点上的 CPU 管理策略

控制节点上的拓扑管理策略

搭建高可用的 Kubernetes Masters

改变默认 StorageClass

更改 PersistentVolume 的回收策略

自定义 DNS 服务

访问集群上运行的服务

通过命名空间共享集群

通过配置文件设置 Kubelet 参数

配置 API 对象配额

配置多个调度器

配置资源不足时的处理方式

限制存储消耗

集群 DNS 服务自动伸缩

静态加密 Secret 数据

管理 Kubernetes 对象

管理 Kubernetes 对象

Declarative Management of Kubernetes Objects Using Configuration Files (EN)

Declarative Management of Kubernetes Objects Using Kustomize (EN)

Managing Kubernetes Objects Using Imperative Commands (EN)

使用配置文件对 Kubernetes 对象进行命令式管理

给应用注入数据

给应用注入数据

为容器设置启动时要执行的命令及其入参

为容器设置环境变量

使用 PodPreset 将信息注入 Pods

使用 Secret 安全地分发凭证

通过文件将Pod信息呈现给容器

通过环境变量将Pod信息呈现给容器

运行应用

运行一个有状态的应用程序

使用 kubectl patch 更新 API 对象

删除 StatefulSet

强制删除 StatefulSet 类型的 Pods

基于Replication Controller执行滚动升级

Pod 水平自动伸缩

Horizontal Pod Autoscaler演练

指定应用程序的中断预算（Disruption Budget）

使用Deployment运行一个无状态应用

弹缩StatefulSet

运行一个单实例有状态应用

运行 Jobs

使用 CronJob 运行自动化任务

使用扩展进行并行处理

使用工作队列进行粗粒度并行处理

使用工作队列进行精细的并行处理

访问集群中的应用程序

访问集群中的应用程序

网页界面 (Dashboard)

使用端口转发来访问集群中的应用

使用服务来访问集群中的应用

创建一个外部负载均衡器

配置你的云平台防火墙

Set up Ingress on Minikube with the NGINX Ingress Controller (EN)

列出集群中所有运行容器的镜像

为集群配置 DNS

使用 Service 把前端连接到后端

同 Pod 内的容器使用共享卷通信

配置对多集群的访问

扩展 Kubernetes

扩展 Kubernetes

使用自定义资源

使用自定义资源

Extend the Kubernetes API with CustomResourceDefinitions (EN)

用户自定义资源版本

配置聚合层

设置一个扩展的 API server

使用 HTTP 代理访问 Kubernetes API

TLS

管理集群中的 TLS 认证

联邦 - 在多个集群上运行一个应用

联邦 - 在多个集群上运行一个应用

将 CoreDNS 设置为联邦集群的 DNS 提供者

使用联合服务来实现跨集群的服务发现

管理联邦控制平面

管理联邦控制平面

联邦 ConfigMap

联邦 DaemonSet

联邦 Deployment

联邦 ReplicaSet

联邦命名空间

在联邦中设置放置策略

管理集群守护进程

管理集群守护进程

对 DaemonSet 执行回滚

对 DaemonSet 执行滚动更新

安装服务目录

安装服务目录

使用 Helm 安装 Service Catalog

使用 SC 安装服务目录

网络

验证 IPv4/IPv6 双协议栈

用插件扩展 kubectl

管理巨页（HugePages）

集群故障排查

本篇文档是介绍集群故障排查的；我们假设对于你碰到的问题，你已经排除了是由应用程序造成的。对于应用的调试，请参阅应用故障排查指南。你也可以访问troubleshooting document来获取更多的信息。

显示出集群的节点列表

调试的第一步是查看所有的节点是否都正确的注册。

运行

kubectl get nodes

接下来，验证你的所有节点都能够显示出来，并且都处于Ready状态。

查看logs

现在，挖掘出集群更深层的信息就需要登录到相关的机器上。下面是相关log文件所在的位置。 (注意，对于基于systemd的系统，你可能需要使用journalctl)

Master

/var/log/kube-apiserver.log - API Server, 提供API服务
/var/log/kube-scheduler.log - Scheduler, 负责调度决策
/var/log/kube-controller-manager.log - 管理replication controllers的控制器

Worker Nodes

/var/log/kubelet.log - Kubelet, 管控节点上运行的容器
/var/log/kube-proxy.log - Kube Proxy, 负责服务的负载均衡

集群故障模式的概述

下面是一个不完整的列表，列举了一些可能出错的场景，以及通过调整集群配置来解决相关问题的方法。

根本原因：

VM(s)关机
集群之间，或者集群和用户之间网络分裂
Kubernetes软件本身崩溃了
数据丢失或者持久化存储不可用(如:GCE PD 或 AWS EBS卷)
操作错误，如：Kubernetes或者应用程序配置错误

具体情况:

Apiserver所在的VM关机或者apiserver崩溃
- 结果
  - 不能停止，更新，或者启动新的pods，services，replication controller
  - 现有的pods和services在不依赖Kubernetes API的情况下应该能继续正常工作
Apiserver 后端存储丢失
- 结果
  - apiserver应该不能起来
  - kubelets将不能访问它，但是能够继续运行之前的Pods和提供相同的服务代理
  - 在apiserver重启之前，需要手动恢复或者重创apiserver的状态
Kubernetes服务组件(节点控制器，副本控制器，调度器等等)所在的VM关机或者崩溃
- 当前，这些控制器是和apiserver共存的，它们不可用的现象是与apiserver类似的
- 将来，这些控制器也会复制为多份，并且可能为非共存的
- 它们没有自己的持久状态
单个节点(VM或者物理机)关机
- 结果
  - 此节点上的所有Pods都停止运行
网络分裂(Network partition)
- 结果
  - partition A认为partition B中所有的节点都down掉了；partition B认为apiserver是down掉了(假定master所在的VM位于partition A内)。
Kubelet软件故障
- 结果
  - 崩溃的kubelet就不能在其所在的节点上启动新的pods
  - kubelet可能删掉pods或者不删
  - 节点被标识为非健康态
  - 副本控制器会在其它的节点上启动新的pods
集群操作错误
- 结果
  - 丢失pods，服务等等
  - 丢失apiserver后端存储
  - 用户无法读取API
  - 等等

缓解措施:

措施：对于IaaS上的VMs，使用IaaS的自动VM重启功能
- 缓解：Apiserver VM关机或apiserver崩溃
- 缓解：Kubernetes服务组件所在的VM关机或崩溃
措施: 对于具有apiserver+etcd的VM，使用IaaS提供的可靠的存储（例如GCE PD或者AWS EBS卷）
- 缓解：Apiserver后端存储的丢失
措施：使用（实验）高可用性的配置
- 缓解：master VM关机或者master组件(scheduler, API server, controller-managing)崩馈
- 将容许一个或多个节点或组件同时出现故障
- 缓解：apiserver后端存储(例如etcd的数据目录)丢失
- 假定你使用了集群化的etcd。
措施：定期的对apiserver的PDs/EBS卷进行快照
- 缓解：apiserver后端存储丢失
- 缓解：一些操作错误的场景
- 缓解：一些Kubernetes软件本身故障的场景
措施：在pods的前面使用副本控制器或服务
- 缓解：节点关机
- 缓解：Kubelet软件故障
措施：应用（容器）设计成容许异常重启
- 缓解：节点关机
- 缓解：Kubelet软件故障
措施：多个独立的集群(并且避免一次性地对所有的集群进行有风险性的修改)
- 缓解：以上列出的所有情况

反馈

此页是否对您有帮助？

感谢反馈。如果您有一个关于如何使用 Kubernetes 的特定的、需要答案的问题，可以访问 Stack Overflow. 在 GitHub 仓库上登记新的问题报告问题或者提出改进建议.