容器技术
ubuntu使用APT安装docker并指定版本
Helm部署与使用
Helm常用命令
从Helm仓库创建应用流程示例
Helm部署与使用
K8S中部署mysql-ha高可用集群
helm启动mysql-ha
helm几个常用仓库
Kubernetes使用helm部署Mysql-Ha
k8s入门:Helm 构建 MySQL
docker批量修改tag(批量push)
k8s之yaml文件详解
将 MySQL 通过 bitpoke/mysql-operator 部署到 k8s 内部
k8s pvc扩容:pvc创建后扩容
K8S性能分析
部署Metrics Server
Kubernetes集群搭建
kubespray 部署常见问题和优化汇总
kubernetes-sigs/kubespray at release-2.15
K8S-pod配置文件详解
KubeSphere知识库
在 Kubernetes 上最小化安装 KubeSphere
卸载 KubeSphere 和 Kubernetes
KubeSphere 应用商店
修改pod中容器的时区
k8s之Pod安全策略
Harbor 登陆失败,用户名或者密码不正确。405 Not Allowed
Docker-leanote_n1
kubesphere/kubekey
Kubernetes Static Pod (静态Pod)
kubernets kube-proxy的代理 iptables和ipvs - 30岁再次出发 - 博客园
k8s生产实践之获取客户端真实IP - SSgeek - 博客园
kube-proxy ip-tables故障解决
k8s入门:Helm 构建 MySQL
docker批量修改tag(批量push)
prometheus operator 监控redis-exporter
Helm3 安装 ElasticSearch & Kibana 7.x 版本
kubernete强力删除namespace_redis删除namespace命令
EFK (Elasticsearch + Fluentd + Kibana) 日志分析系统
k8s日志收集实战(无坑)
fluentd收集k8s集群pod日志
Elasticsearch+Fluentd+Kibana 日志收集系统的搭建
TKE/EKS之configmap,secret只读挂载
K8s基于Reloader的ConfigMap/Secret热更新
使用 Reloader 实现热部署_k8s reloader
k8s使用Reloader实现更新configmap后自动重启pod
在 Kubernetes 上对 gRPC 服务器进行健康检查 | Kubernetes
Kubernetes ( k8s ) gRPC服务 健康检查 ( livenessProbe ) 与 就绪检查 ( readinessProbe )
排查kubernetes中高磁盘占用pod
helm 安装 MongoDB 集群
helm 安装 Redis 1 主 2 从 3哨兵
【k8s】使用 Reloader 实现热部署
k8s证书过期,更新后kubelet启动失败
kubeadm证书/etcd证书过期处理
三种监控 Kubernetes 集群证书过期方案
K8s 集群(kubeadm) CA 证书过期解决方案
k8s调度、污点、容忍、不可调度、排水、数据卷挂载
5分钟搞懂K8S的污点和容忍度(理论+实战)
Kubernetes进阶-8基于Istio实现微服务治理
macvlan案例配置
快速解决Dockerhub镜像站无法访问问题
info_scan开源漏洞扫描主系统部署
本文档使用 MrDoc 发布
-
+
首页
三种监控 Kubernetes 集群证书过期方案
### 前言 Kubernetes 中大量用到了证书, 比如 ca证书、以及 kubelet、apiserver、proxy、etcd等组件,还有 kubeconfig 文件。 如果证书过期,轻则无法登录 Kubernetes 集群,重则整个集群异常。 为了解决证书过期的问题,一般有以下几种方式: 1.大幅延长证书有效期,短则 10年,长则 100 年;2.证书快过期是自动轮换,如 Rancher 的 K3s,RKE2 就采用这种方式;3.增加证书过期的监控,便于提早发现证书过期问题并人工介入 本次主要介绍关于 Kubernetes 集群证书过期的监控,这里提供 3 种监控方案: 1.使用 Blackbox Exporter\[1\] 通过 Probe 监控 Kubernetes apiserver 证书过期时间;2.使用 kube-prometheus-stack\[2\] 通过 apiserver 和 kubelet 组件监控获取相关证书过期时间;3.使用 enix 的 x509-certificate-exporter\[3\]监控集群所有node的 `/etc/kubernetes/pki` 和 `/var/lib/kubelet` 下的证书以及 kubeconfig 文件 ### 方案一: Blackbox Exporter 监控 Kubernetes apiserver 证书过期时间 Blackbox Exporter 用于探测 HTTPS、HTTP、TCP、DNS、ICMP 和 grpc 等 Endpoint。在你定义 Endpoint 后,Blackbox Exporter 会生成指标,可以使用 Grafana 等工具进行可视化。Blackbox Exporter 最重要的功能之一是测量 Endpoint 的可用性。 当然, Blackbox Exporter 探测 HTTPS 后就可以获取到证书的相关信息, 就是利用这种方式实现对 Kubernetes apiserver 证书过期时间的监控. #### 配置步骤 1.调整 Blackbox Exporter 的配置, 增加 `insecure_tls_verify: true`, 如下:  调整 Blackbox Exporter 配置 2.重启 blackbox exporter: `kubectl rollout restart deploy ...`3.增加对 Kubernetes APIServer 内部端点https://kubernetes.default.svc.cluster.local/readyz的监控.1.如果你没有使用 Prometheus Operator, 使用的是原生的 Prometheus, 则需要修改 Prometheus 配置文件的 configmap 或 secret, 添加 scrape config, 示例如下:  Prometheus 增加 scrape config 2.如果在使用 Prometheus Operator, 则可以增加如下 Probe CRD, Prometheus Operator 会自动将其转换并 merge 到 Prometheus 中. ```yaml apiVersion: monitoring.coreos.com/v1 kind: Probe metadata: name: kubernetes-apiserver spec: interval: 60s module: http_2xx prober: path: /probe url: monitor-prometheus-blackbox-exporter.default.svc.cluster.local:9115 targets: staticConfig: static: - https://kubernetes.default.svc.cluster.local/readyz ``` 最后, 可以增加 Prometheus 告警 Rule, 这里就直接用 Prometheus Operator 创建 PrometheusRule CRD 做示例了, 示例如下: ```yaml apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: prometheus-blackbox-exporter spec: groups: - name: prometheus-blackbox-exporter rules: - alert: BlackboxSslCertificateWillExpireSoon expr: probe_ssl_earliest_cert_expiry - time() < 86400 * 30 for: 0m labels: severity: warning - alert: BlackboxSslCertificateWillExpireSoon expr: probe_ssl_earliest_cert_expiry - time() < 86400 * 14 for: 0m labels: severity: critical - alert: BlackboxSslCertificateExpired annotations: description: |- SSL certificate has expired already VALUE = {{ $value }} LABELS = {{ $labels }} summary: SSL certificate expired (instance {{ $labels.instance }}) expr: probe_ssl_earliest_cert_expiry - time() <= 0 for: 0m labels: severity: emergency ``` #### 效果  Probe 查询证书过期时间 ### 方案二: kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控证书过期时间 这里可以参考我的文章:Prometheus Operator 与 kube-prometheus 之二 - 如何监控 1.23+ kubeadm 集群\[4\], 安装完成后, 开箱即用. 开箱即用内容包括: 1.抓取 apiserver 和 kubelet 指标;(即 serviceMonitor)2.配置证书过期时间的相关告警; (即 PrometheusRule) 这里用到的指标有: 1.apiserver1.`apiserver_client_certificate_expiration_seconds_count`2.`apiserver_client_certificate_expiration_seconds_bucket`2.kubelet1.`kubelet_certificate_manager_client_expiration_renew_errors`2.`kubelet_server_expiration_renew_errors`3.`kubelet_certificate_manager_client_ttl_seconds`4.`kubelet_certificate_manager_server_ttl_seconds` #### 监控效果 对应的 Prometheus 告警规则如下:  证书过期时间相关 PrometheusRule ### 方案三: 使用 enix 的 x509-certificate-exporter #### 监控手段 该 Exporter 是通过监控集群所有node的指定目录或 path 下的证书文件以及 kubeconfig 文件来获取证书信息. 如果是使用 kubeadm 搭建的 Kubernetes 集群, 则可以监控如下包含证书的文件和 kubeconfig: ```yaml watchFiles: - /var/lib/kubelet/pki/kubelet-client-current.pem - /etc/kubernetes/pki/apiserver.crt - /etc/kubernetes/pki/apiserver-etcd-client.crt - /etc/kubernetes/pki/apiserver-kubelet-client.crt - /etc/kubernetes/pki/ca.crt - /etc/kubernetes/pki/front-proxy-ca.crt - /etc/kubernetes/pki/front-proxy-client.crt - /etc/kubernetes/pki/etcd/ca.crt - /etc/kubernetes/pki/etcd/healthcheck-client.crt - /etc/kubernetes/pki/etcd/peer.crt - /etc/kubernetes/pki/etcd/server.crt watchKubeconfFiles: - /etc/kubernetes/admin.conf - /etc/kubernetes/controller-manager.conf - /etc/kubernetes/scheduler.conf ``` #### 安装配置 编辑 values.yaml: ```yaml kubeVersion: '' extraLabels: {} nameOverride: '' fullnameOverride: '' imagePullSecrets: [] image: registry: docker.io repository: enix/x509-certificate-exporter tag: pullPolicy: IfNotPresent psp: create: false rbac: create: true secretsExporter: serviceAccountName: serviceAccountAnnotations: {} clusterRoleAnnotations: {} clusterRoleBindingAnnotations: {} hostPathsExporter: serviceAccountName: serviceAccountAnnotations: {} clusterRoleAnnotations: {} clusterRoleBindingAnnotations: {} podExtraLabels: {} podAnnotations: {} exposePerCertificateErrorMetrics: false exposeRelativeMetrics: false metricLabelsFilterList: null secretsExporter: enabled: true debugMode: false replicas: 1 restartPolicy: Always strategy: {} resources: limits: cpu: 200m memory: 150Mi requests: cpu: 20m memory: 20Mi nodeSelector: {} tolerations: [] affinity: {} podExtraLabels: {} podAnnotations: {} podSecurityContext: {} securityContext: runAsUser: 65534 runAsGroup: 65534 readOnlyRootFilesystem: true capabilities: drop: - ALL secretTypes: - type: kubernetes.io/tls key: tls.crt includeNamespaces: [] excludeNamespaces: [] includeLabels: [] excludeLabels: [] cache: enabled: true maxDuration: 300 hostPathsExporter: debugMode: false restartPolicy: Always updateStrategy: {} resources: limits: cpu: 100m memory: 40Mi requests: cpu: 10m memory: 20Mi nodeSelector: {} tolerations: [] affinity: {} podExtraLabels: {} podAnnotations: {} podSecurityContext: {} securityContext: runAsUser: 0 runAsGroup: 0 readOnlyRootFilesystem: true capabilities: drop: - ALL watchDirectories: [] watchFiles: [] watchKubeconfFiles: [] daemonSets: cp: nodeSelector: node-role.kubernetes.io/master: '' tolerations: - effect: NoSchedule key: node-role.kubernetes.io/master operator: Exists watchFiles: - /var/lib/kubelet/pki/kubelet-client-current.pem - /etc/kubernetes/pki/apiserver.crt - /etc/kubernetes/pki/apiserver-etcd-client.crt - /etc/kubernetes/pki/apiserver-kubelet-client.crt - /etc/kubernetes/pki/ca.crt - /etc/kubernetes/pki/front-proxy-ca.crt - /etc/kubernetes/pki/front-proxy-client.crt - /etc/kubernetes/pki/etcd/ca.crt - /etc/kubernetes/pki/etcd/healthcheck-client.crt - /etc/kubernetes/pki/etcd/peer.crt - /etc/kubernetes/pki/etcd/server.crt watchKubeconfFiles: - /etc/kubernetes/admin.conf - /etc/kubernetes/controller-manager.conf - /etc/kubernetes/scheduler.conf nodes: watchFiles: - /var/lib/kubelet/pki/kubelet-client-current.pem - /etc/kubernetes/pki/ca.crt rbacProxy: enabled: false podListenPort: 9793 hostNetwork: false service: create: true port: 9793 annotations: {} extraLabels: {} prometheusServiceMonitor: create: true scrapeInterval: 60s scrapeTimeout: 30s extraLabels: {} relabelings: {} prometheusPodMonitor: create: false prometheusRules: create: true alertOnReadErrors: true readErrorsSeverity: warning alertOnCertificateErrors: true certificateErrorsSeverity: warning certificateRenewalsSeverity: warning certificateExpirationsSeverity: critical warningDaysLeft: 30 criticalDaysLeft: 14 extraLabels: {} alertExtraLabels: {} rulePrefix: '' disableBuiltinAlertGroup: false extraAlertGroups: [] extraDeploy: [] ``` 通过 Helm Chart 安装: ```bash helm repo add enix https://charts.enix.io helm install x509-certificate-exporter enix/x509-certificate-exporter ``` 通过这个 Helm Chart 也会自动安装: •ServiceMonitor•PrometheusRule 其监控指标为: •`x509_cert_not_after` #### 监控效果 该 Exporter 还提供了一个比较花哨的 Grafana Dashboard, 如下:  x509 Exporter Grafana Dashboard Alert Rules 如下:  x509 Exporter Prometheus Rule ### 总结 为了监控 Kubernetes 集群的证书过期时间, 我们提供了 3 种方案, 各有优劣: 1.使用 Blackbox Exporter\[5\] 通过 Probe 监控 Kubernetes apiserver 证书过期时间;1.优势: 实现简单;2.劣势: 只能监控 https 的证书;2.使用 kube-prometheus-stack\[6\] 通过 apiserver 和 kubelet 组件监控获取相关证书过期时间;1.优势: 开箱即用, 安装 kube-prometheus-stack 后无需额外安装其他 exporter2.劣势: 只能监控 apiserver 和 kubelet 的证书;3.使用 enix 的 x509-certificate-exporter\[7\]监控集群所有node的 `/etc/kubernetes/pki` 和 `/var/lib/kubelet` 下的证书以及 kubeconfig 文件1.优势: 可以监控所有 node, 所有 kubeconfig 文件, 以及 所有 tls 格式的 secret 证书, 如果要监控 Kubernetes 集群以外的证书, 也可以如法炮制; 范围广而全;2.需要额外安装: x509-certificate-exporter, 对应有 1 个 Deployment 和 多个 DaemonSet, 对 Kubernetes 集群的资源消耗不少. 可以根据您的实际情况灵活进行选择. 🎉🎉🎉 #### References `[1]` Blackbox Exporter: _https://ewhisper.cn/posts/26225/_ `[2]` kube-prometheus-stack: _https://ewhisper.cn/posts/3988/_ `[3]` enix 的 x509-certificate-exporter: _https://github.com/enix/x509-certificate-exporter/_ `[4]` Prometheus Operator 与 kube-prometheus 之二 - 如何监控 1.23+ kubeadm 集群: _https://ewhisper.cn/posts/3988/_ `[5]` Blackbox Exporter: _https://ewhisper.cn/posts/26225/_ `[6]` kube-prometheus-stack: _https://ewhisper.cn/posts/3988/_ `[7]` enix 的 x509-certificate-exporter: _https://github.com/enix/x509-certificate-exporter/_
adouk
2024年11月2日 19:08
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码