HDFS分布式文件系统概述
Hadoop 是一个开源的分布式计算与存储框架,专为处理海量数据(大数据)设计,能够在廉价的普通服务器集群上实现高效的分布式存储和并行计算。它解决了传统单机或小型服务器在处理 TB、PB 级数据时面临的存储能力不足、计算效率低下等问题,是大数据技术体系的核心基石之Hadoop 并非单一工具,而是一个包含多个核心组件的生态系统,最核心的两个组件是HDFS(分布式文件系统)和MapReduce(分布式计算框架),后续又逐步集成了 YARN(资源管理系统),形成了 “存储 - 计算 - 资源管理” 三位一体的架构。HDFS分布式文件系统HDFS(Hadoop Distributed File System)是专为存储海量数据而设计的分布式文件系统。它允许将数据分散存储在由多台普通服务器组成的集群中,通过冗余机制保证数据可靠性,并提供统一的文件系统接口供用户访问。HDFS 的核心设计:处理超大规模数据集,运行于普通硬件集群,通过软件机制(如数据冗余)弥补硬件不可靠性。通过多副本存储(默认 3 份)和自动故障恢复机制,确保部分节点故障时数据依然可用,不影响读写操作,增强高容错性与数据可靠性。HDFS 的核心架构HDFS 采用主从架构(Master-Slave),主要由以下组件构成:1. NameNode(主节点)功能:管理文件系统的元数据(Metadata),包括:文件和目录的命名空间(如文件名、路径、权限);数据块(Block)的位置信息(记录每个数据块存储在哪些 DataNode 上);文件与数据块的映射关系(如一个 1GB 文件由哪些 Block 组成)。地位:是 HDFS 的 “大脑”,所有客户端的文件操作(如创建、删除、读取)都先与 NameNode 交互,获取元数据后再访问实际数据。