Kubernetes大数据处理实践

张

张建站

2026/5/11 2:57:31

10分钟阅读

Kubernetes大数据处理实践一、引言大数据处理是现代企业的核心需求之一。Kubernetes为大数据处理提供了弹性、可扩展的平台支持能够高效运行Spark、Flink等大数据框架。二、大数据处理架构2.1 大数据处理参考架构┌─────────────────────────────────────────────────────────────────┐ │ 大数据处理架构 │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ 数据源 │───▶│ 数据存储 │───▶│ 计算引擎 │───▶│ 结果输出 │ │ │ │ (Kafka) │ │ (HDFS/S3) │ │ (Spark) │ │ (DB/DW) │ │ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ │ │ │ │ ▼ │ │ ┌──────────┐ │ │ │ 资源管理 │ │ │ │ (YARN/K8s) │ │ │ └──────────┘ │ └─────────────────────────────────────────────────────────────────┘2.2 大数据框架对比框架类型适用场景Apache Spark批处理/流处理通用大数据处理Apache Flink流处理实时流处理Apache Kafka Streams流处理轻量级流处理Apache Hadoop批处理传统大数据批处理三、Spark on Kubernetes部署3.1 Spark Operator部署# 安装Spark Operator kubectl apply -f https://github.com/GoogleCloudPlatform/spark-on-k8s-operator/releases/download/v1.1.0/spark-operator.yaml # 查看Operator状态 kubectl get pods -n spark-operator3.2 Spark Application配置apiVersion: sparkoperator.k8s.io/v1beta2 kind: SparkApplication metadata: name: spark-pi namespace: default spec: type: Scala mode: cluster image: gcr.io/spark-operator/spark:v3.4.1 imagePullPolicy: Always mainClass: org.apache.spark.examples.SparkPi mainApplicationFile: local:///opt/spark/examples/jars/spark-examples_2.12-3.4.1.jar sparkVersion: 3.4.1 restartPolicy: type: OnFailure onFailureRetries: 3 onFailureRetryInterval: 10 onSubmissionFailureRetries: 5 onSubmissionFailureRetryInterval: 20 driver: cores: 1 coreLimit: 1200m memory: 512m labels: version: 3.4.1 serviceAccount: spark executor: cores: 1 instances: 3 memory: 1024m labels: version: 3.4.13.3 Spark ServiceAccount配置apiVersion: v1 kind: ServiceAccount metadata: name: spark namespace: default --- apiVersion: rbac.authorization.k8s.io/v1 kind: Role metadata: name: spark-role namespace: default rules: - apiGroups: [] resources: [pods, services, configmaps] verbs: [*] --- apiVersion: rbac.authorization.k8s.io/v1 kind: RoleBinding metadata: name: spark-role-binding namespace: default roleRef: apiGroup: rbac.authorization.k8s.io kind: Role name: spark-role subjects: - kind: ServiceAccount name: spark namespace: default四、Flink on Kubernetes部署4.1 Flink Deployment配置apiVersion: flink.apache.org/v1beta1 kind: FlinkDeployment metadata: name: flink-cluster namespace: default spec: image: flink:1.17.1 flinkVersion: v1_17 flinkConfiguration: taskmanager.numberOfTaskSlots: 4 jobmanager.memory.process.size: 2048m taskmanager.memory.process.size: 4096m serviceAccount: flink jobManager: replicas: 1 resource: memory: 2048m cpu: 1 taskManager: replicas: 2 resource: memory: 4096m cpu: 24.2 Flink Job配置apiVersion: flink.apache.org/v1beta1 kind: FlinkSessionJob metadata: name: my-flink-job namespace: default spec: deploymentName: flink-cluster job: jarURI: local:///opt/flink/examples/streaming/StateMachineExample.jar parallelism: 4 upgradeMode: stateless4.3 Flink ServiceAccount配置apiVersion: v1 kind: ServiceAccount metadata: name: flink namespace: default --- apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRole metadata: name: flink rules: - apiGroups: [] resources: [pods, services, configmaps, events] verbs: [*] - apiGroups: [apps] resources: [deployments] verbs: [*] - apiGroups: [flink.apache.org] resources: [flinkdeployments, flinksessionjobs] verbs: [*] --- apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRoleBinding metadata: name: flink roleRef: apiGroup: rbac.authorization.k8s.io kind: ClusterRole name: flink subjects: - kind: ServiceAccount name: flink namespace: default五、Kafka on Kubernetes部署5.1 Kafka集群配置apiVersion: kafka.strimzi.io/v1beta2 kind: Kafka metadata: name: my-cluster namespace: kafka spec: kafka: version: 3.5.1 replicas: 3 listeners: - name: plain port: 9092 type: internal tls: false - name: tls port: 9093 type: internal tls: true config: offsets.topic.replication.factor: 3 transaction.state.log.replication.factor: 3 transaction.state.log.min.isr: 2 storage: type: jbod volumes: - id: 0 type: persistent-claim size: 100Gi deleteClaim: false zookeeper: replicas: 3 storage: type: persistent-claim size: 50Gi deleteClaim: false entityOperator: topicOperator: {} userOperator: {}5.2 Kafka Topic配置apiVersion: kafka.strimzi.io/v1beta2 kind: KafkaTopic metadata: name:># 安装Airflow helm install airflow apache-airflow/airflow --namespace airflow # 查看Airflow状态 kubectl get pods -n airflow6.2 Airflow DAG配置from datetime import datetime, timedelta from airflow import DAG from airflow.providers.apache.spark.operators.spark_submit import SparkSubmitOperator default_args { owner: airflow, depends_on_past: False, start_date: datetime(2024, 1, 1), email_on_failure: False, email_on_retry: False, retries: 1, retry_delay: timedelta(minutes5), } dag DAG( spark_data_processing, default_argsdefault_args, descriptionSpark data processing pipeline, schedule_intervaltimedelta(days1), ) spark_task SparkSubmitOperator( task_idspark_job, applicationgs://bucket/spark-job.jar, namedata-processing, conf{ spark.executor.instances: 5, spark.executor.memory: 2g, spark.driver.memory: 1g }, dagdag, )七、大数据监控与可观测性7.1 Spark指标收集apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: spark-monitor spec: selector: matchLabels: app: spark endpoints: - port: metrics interval: 30s scrapeTimeout: 10s7.2 Prometheus查询# Spark作业执行时间 sum(rate(spark_job_executor_run_time_total[5m])) by (job_id) # Spark任务完成数 sum(spark_job_tasks_completed) by (job_id) # Flink作业延迟 avg(flink_taskmanager_job_task_operator_latency_max) by (job_name)7.3 Grafana仪表盘{ title: Big Data Processing Metrics, panels: [ { type: graph, targets: [ { expr: sum(rate(spark_job_executor_run_time_total[5m])) by (job_id), legendFormat: {{job_id}} } ] }, { type: stat, targets: [ { expr: sum(spark_job_tasks_completed), legendFormat: Completed Tasks } ] } ] }八、总结Kubernetes为大数据处理提供了强大的平台支持能够灵活部署Spark、Flink、Kafka等大数据框架。通过合理的资源配置和监控可以构建高效、可靠的大数据处理平台。

Function_Calling原理与实战

Function Calling 原理与实战：从零构建智能工具调用系统摘要：Function Calling 是大语言模型（LLM）与外部世界交互的核心机制。本文深入解析 Function Calling 的工作原理、实现细节和最佳实践，通过完整的实战案例演示如何构建可靠的工具调用系统，帮助开发者掌握这一关键…...

2026/5/11 2:55:56 阅读更多 →

第十三节：AI 时代的新型漏洞——Prompt 注入与大模型数据越权攻防

引言上一章我们学习了多技能融合与循环调度器如何驱动Agent自动化流程，本章将聚焦大模型部署过程中最容易被忽视的安全风险——Prompt注入与数据越权。随着开源大模型在企业内地快速普及，如何防护恶意指令以及保障业务数据安全，成为不可回避的核心痛点。核心理论 Promp…...

2026/5/11 2:54:34 阅读更多 →

AI与低代码融合：WecoAI/aideml如何让机器学习模型快速落地业务应用

1. 项目概述：当AI遇上低代码，WecoAI/aideml的定位与价值最近在和一些做企业应用开发的朋友聊天，发现一个普遍痛点：业务部门的需求像雪花一样飞来，但开发资源永远是瓶颈。一个简单的数据报表看板，从需求评审…...

2026/5/11 2:49:38 阅读更多 →

4月28日隐喻“鲸鱼开眼”，DeepSeek识图模式灰度上线，迈入图文交互时代！

4月28日，DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”，次日开启“识图模式”灰度内测，5月初大范围开放。该模式有亮点也有短板，标志其迈入图文交互时代。事件回顾4月28日，DeepSeek多模态团队研究员陈小康在X平台推文…...

2026/5/10 0:06:14 阅读更多 →

AI赋能高能物理：图神经网络与生成式模型在粒子径迹重建与模拟中的应用

1. 项目概述：当AI遇见高能物理的“显微镜”电子离子对撞机（EIC），被誉为探索物质深层结构的下一代“超级显微镜”。它不像我们熟悉的LHC那样让质子对撞，而是让高能电子去轰击质子或重离子，其核心目标是精确“…...

2026/5/10 0:08:27 阅读更多 →

A/B 测试前后的合成控制样本

原文：towardsdatascience.com/synthetic-control-sample-for-before-and-after-a-b-test-683bac36ffc1 简介 A/B 测试非常强大。我喜欢这种实验，因为它让我们能够比较结果，并确定某物是否比另一物表现更好。 A/B 测试有一个特定类型&#x…...

2026/5/11 2:26:03 阅读更多 →