Kubernetes机器学习平台搭建：构建企业级ML训练环境

张

张建站

2026/5/24 23:06:17

10分钟阅读

Kubernetes机器学习平台搭建构建企业级ML训练环境一、机器学习平台概述Kubernetes机器学习平台是基于K8s构建的ML训练和部署基础设施支持数据科学家进行模型训练、验证和部署。1.1 ML平台架构┌─────────────────────────┐ │ 用户界面 │ │ (Jupyter/TensorBoard) │ └───────────┬─────────────┘ │ ┌─────────────────────────┼─────────────────────────┐ │ │ │ ▼ ▼ ▼ ┌───────────────┐ ┌───────────────┐ ┌───────────────┐ │ 训练调度器 │ │ 模型仓库 │ │ 数据存储 │ │ (Kubeflow) │ │ (MLflow) │ │ (MinIO) │ └───────────────┘ └───────────────┘ └───────────────┘ │ │ │ ▼ ▼ ▼ ┌───────────────┐ ┌───────────────┐ ┌───────────────┐ │ GPU节点池 │ │ CPU节点池 │ │ 存储集群 │ │ (训练任务) │ │ (预处理) │ │ (数据/模型) │ └───────────────┘ └───────────────┘ └───────────────┘1.2 核心组件组件功能工具训练调度管理训练任务Kubeflow、Argo Workflows模型管理模型版本控制MLflow、DVC数据存储数据集管理MinIO、PV/PVC资源管理GPU/CPU调度Kubernetes调度器可视化实验追踪TensorBoard、Weights Biases二、Kubeflow部署2.1 Kubeflow安装# 安装Kubeflow export KUBEFLOW_RELEASE_VERSIONv1.8.0 export KUSTOMIZE_VERSIONv5.0.1 git clone https://github.com/kubeflow/manifests.git cd manifests git checkout ${KUBEFLOW_RELEASE_VERSION} # 部署Kubeflow while ! kustomize build example | kubectl apply -f -; do echo Retrying...; sleep 10; done2.2 Kubeflow Pipeline配置apiVersion: kubeflow.org/v1 kind: Pipeline metadata: name: ml-pipeline spec: pipelineSpec: tasks: - name: preprocess taskSpec: podSpec: containers: - name: preprocess image: preprocess:latest command: [python, preprocess.py] - name: train taskSpec: podSpec: containers: - name: train image: train:latest command: [python, train.py] resources: limits: nvidia.com/gpu: 1 dependencies: - preprocess三、MLflow配置3.1 MLflow部署apiVersion: apps/v1 kind: Deployment metadata: name: mlflow namespace: mlflow spec: replicas: 1 selector: matchLabels: app: mlflow template: metadata: labels: app: mlflow spec: containers: - name: mlflow image: mlflow:latest ports: - containerPort: 5000 env: - name: MLFLOW_S3_ENDPOINT_URL value: http://minio:9000 - name: AWS_ACCESS_KEY_ID valueFrom: secretKeyRef: name: minio-creds key: accesskey - name: AWS_SECRET_ACCESS_KEY valueFrom: secretKeyRef: name: minio-creds key: secretkey command: - mlflow - server - --host0.0.0.0 - --port5000 - --backend-store-uripostgresql://mlflow:passwordpostgres/mlflow - --default-artifact-roots3://mlflow/3.2 MLflow模型注册import mlflow import mlflow.sklearn mlflow.set_tracking_uri(http://mlflow:5000) with mlflow.start_run(): # 训练模型 model train_model() # 记录参数 mlflow.log_param(learning_rate, 0.01) # 记录指标 mlflow.log_metric(accuracy, 0.95) # 保存模型 mlflow.sklearn.log_model(model, model) # 注册模型 mlflow.register_model( runs:/{}/model.format(mlflow.active_run().info.run_id), my-model )四、GPU资源管理4.1 GPU节点配置apiVersion: v1 kind: Node metadata: name: gpu-node-01 labels: nvidia.com/gpu.present: true node-role.kubernetes.io/gpu: spec: taints: - key: nvidia.com/gpu value: true effect: NoSchedule4.2 GPU资源请求apiVersion: v1 kind: Pod metadata: name: gpu-training-pod spec: tolerations: - key: nvidia.com/gpu operator: Equal value: true effect: NoSchedule containers: - name: training image: tensorflow/tensorflow:latest-gpu command: [python, train.py] resources: limits: nvidia.com/gpu: 2 memory: 32Gi cpu: 8 requests: nvidia.com/gpu: 2 memory: 16Gi cpu: 4五、数据存储配置5.1 MinIO部署apiVersion: apps/v1 kind: StatefulSet metadata: name: minio namespace: minio spec: serviceName: minio replicas: 4 selector: matchLabels: app: minio template: metadata: labels: app: minio spec: containers: - name: minio image: minio/minio:latest ports: - containerPort: 9000 command: - minio - server - /data - --console-address - :9001 volumeMounts: - name: data mountPath: /data env: - name: MINIO_ROOT_USER valueFrom: secretKeyRef: name: minio-creds key: accesskey - name: MINIO_ROOT_PASSWORD valueFrom: secretKeyRef: name: minio-creds key: secretkey volumeClaimTemplates: - metadata: name: data spec: accessModes: [ReadWriteOnce] resources: requests: storage: 100Gi5.2 PVC配置apiVersion: v1 kind: PersistentVolumeClaim metadata: name: ml-data namespace: ml spec: accessModes: - ReadWriteMany resources: requests: storage: 500Gi storageClassName: nfs-storage六、JupyterHub部署6.1 JupyterHub配置apiVersion: hub.jupyter.org/v1 kind: Hub metadata: name: jupyterhub namespace: jupyterhub spec: image: name: jupyterhub/k8s-hub tag: 2.0.0 proxy: secretToken: secret-token auth: type: github github: clientId: client-id clientSecret: client-secret callbackUrl: https://jupyter.example.com/hub/oauth_callback singleuser: image: name: jupyter/scipy-notebook tag: latest storage: type: persistent-claim capacity: 10Gi6.2 用户配置apiVersion: hub.jupyter.org/v1 kind: User metadata: name: datascientist namespace: jupyterhub spec: profile: displayName: Data Scientist admin: false server: resources: limits: cpu: 4 memory: 16Gi requests: cpu: 2 memory: 8Gi七、TensorBoard配置7.1 TensorBoard部署apiVersion: v1 kind: Service metadata: name: tensorboard namespace: ml spec: type: ClusterIP selector: app: tensorboard ports: - port: 6006 targetPort: 6006 --- apiVersion: apps/v1 kind: Deployment metadata: name: tensorboard namespace: ml spec: replicas: 1 selector: matchLabels: app: tensorboard template: metadata: labels: app: tensorboard spec: containers: - name: tensorboard image: tensorflow/tensorflow:latest command: - tensorboard - --logdir/logs - --host0.0.0.0 ports: - containerPort: 6006 volumeMounts: - name: logs mountPath: /logs volumes: - name: logs persistentVolumeClaim: claimName: tensorboard-logs八、模型部署8.1 TensorFlow ServingapiVersion: v1 kind: Service metadata: name: tf-serving namespace: ml spec: type: ClusterIP selector: app: tf-serving ports: - port: 8501 targetPort: 8501 --- apiVersion: apps/v1 kind: Deployment metadata: name: tf-serving namespace: ml spec: replicas: 3 selector: matchLabels: app: tf-serving template: metadata: labels: app: tf-serving spec: containers: - name: tf-serving image: tensorflow/serving:latest ports: - containerPort: 8500 - containerPort: 8501 args: - --model_namemy-model - --model_base_paths3://models/my-model env: - name: AWS_ACCESS_KEY_ID valueFrom: secretKeyRef: name: minio-creds key: accesskey - name: AWS_SECRET_ACCESS_KEY valueFrom: secretKeyRef: name: minio-creds key: secretkey - name: S3_ENDPOINT value: http://minio:90008.2 gRPC推理服务apiVersion: v1 kind: Service metadata: name: model-service namespace: ml spec: type: ClusterIP selector: app: model-service ports: - port: 9000 targetPort: 9000 name: grpc - port: 8080 targetPort: 8080 name: http九、监控与日志9.1 训练指标监控apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: ml-monitor namespace: monitoring spec: selector: matchLabels: app: ml-exporter endpoints: - port: metrics interval: 15s9.2 资源使用监控apiVersion: v1 kind: ConfigMap metadata: name: ml-metrics-config namespace: monitoring data: prometheus.rules: | groups: - name: ml.rules rules: - record: ml_training_duration_seconds expr: sum(rate(kube_pod_running_duration_seconds{apptraining}[5m])) - record: ml_gpu_utilization expr: sum(nvidia_gpu_utilization{jobnvidia-dcgm-exporter})十、总结Kubernetes机器学习平台搭建需要考虑训练调度使用Kubeflow管理ML工作流模型管理使用MLflow进行模型版本控制GPU资源配置GPU节点池和资源调度数据存储部署MinIO管理数据集开发环境使用JupyterHub提供交互式开发可视化配置TensorBoard进行实验追踪模型部署使用TensorFlow Serving部署模型监控告警建立训练指标和资源使用监控建议根据团队规模和业务需求选择合适的组件构建高效的ML平台。参考资料Kubeflow官方文档MLflow文档JupyterHub Kubernetes文档

通过curl命令快速测试Taotoken的API连通性与返回

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过curl命令快速测试Taotoken的API连通性与返回在集成大模型服务时，直接使用curl命令进行API测试是一种高效且通用的…...

2026/5/24 23:03:12 阅读更多 →

170家具身智能公司名单

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达具身智能：人工智能的下一个浪潮！今年再次被写入《政府工作报告》中，已经成为国家未来重点培育产业。市场方面，具身智能近一年融资更是爆火&…...

2026/5/24 22:55:06 阅读更多 →

企业团队如何利用Taotoken CLI工具统一配置开发环境与API密钥

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度企业团队如何利用Taotoken CLI工具统一配置开发环境与API密钥在团队协作开发中，一个常见的问题是API密钥的管理与开发…...

2026/5/24 22:51:26 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/24 0:28:44 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/24 0:34:52 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/24 0:37:09 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/24 0:43:15 阅读更多 →