当前位置：首页 > news >正文

Kafka

news 2025/10/27 21:46:57

Kafka 简介

Apache Kafka 是一个分布式流处理平台，主要用于构建实时数据管道和流应用程序。其核心功能包括高吞吐量、低延迟的消息传递、持久化存储和水平扩展能力。以下是 Kafka 的关键特性和常见应用场景。

Kafka 核心概念

Broker
Kafka 集群由多个 Broker 组成，每个 Broker 是一个独立的服务器，负责存储和传递消息。

Topic
消息的逻辑分类单位，生产者将消息发布到 Topic，消费者从 Topic 订阅消息。

Partition
每个 Topic 可以划分为多个 Partition，实现数据的分布式存储和并行处理。Partition 是 Kafka 水平扩展的基础。

Producer
向 Topic 发布消息的客户端，支持异步和同步发送模式。

Consumer
从 Topic 订阅消息的客户端，支持消费者组（Consumer Group）实现负载均衡。

ZooKeeper
早期版本中用于管理集群元数据和 Broker 协调，Kafka 2.8+ 版本已逐步移除对 ZooKeeper 的依赖（KRaft 模式）。

Kafka 使用场景

实时日志收集
Kafka 常用于集中收集分布式系统的日志数据，如 ELK（Elasticsearch + Logstash + Kibana）架构中的数据传输层。
事件驱动架构
作为事件总线，连接微服务之间的异步通信，解耦生产者和消费者。
流处理
与流处理框架（如 Apache Flink、Spark Streaming）集成，实现实时数据分析。
消息队列
替代传统消息队列（如 RabbitMQ），支持高吞吐和持久化。

Kafka 快速入门示例

启动 Kafka 服务

假设已安装 Kafka，使用以下命令启动单节点服务：

# 启动 ZooKeeper（Kafka 2.8 以下版本需要）
bin/zookeeper-server-start.sh config/zookeeper.properties# 启动 Kafka Broker
bin/kafka-server-start.sh config/server.properties

创建 Topic

bin/kafka-topics.sh --create --topic test-topic --bootstrap-server localhost:9092 --partitions 3 --replication-factor 1

启动生产者

bin/kafka-console-producer.sh --topic test-topic --bootstrap-server localhost:9092

启动消费者

bin/kafka-console-consumer.sh --topic test-topic --bootstrap-server localhost:9092 --from-beginning

Kafka 关键配置参数

server.properties
- broker.id: Broker 的唯一标识。
- log.dirs: 数据存储目录。
- num.partitions: 默认分区数。
producer.properties
- acks: 消息确认机制（0/1/all）。
- retries: 发送失败重试次数。
consumer.properties
- group.id: 消费者组 ID。
- auto.offset.reset: 偏移量重置策略（earliest/latest）。