一、整体设计核心原则记住3句多可用区部署防断电、防机房挂掉交换机分层业务子网放ECS数据库子网放RDS运维/管理子网外网隔离内网机器无公网IP上网走 NATSNAT外网进来走 NATDNAT数据库完全禁止外网访问二、标准架构拓扑最简企业版1. 地域 可用区地域华东/华北双可用区可用区A 、可用区B高可用一个区炸了另一个能用2. VPC 大网段VPC网段10.0.0.0/16足够大随便划分子网永不冲突3. 划分三类交换机核心① 业务交换机放网站、程序、ECS可用区A10.0.1.0/24可用区B10.0.2.0/24② 数据库交换机只放RDS、Redis数据库绝对不和ECS放一个子网可用区A10.0.10.0/24可用区B10.0.11.0/24③ 运维/网关交换机放NAT、VPN、路由组件可用区A10.0.0.0/24三、各个组件放哪里ECS 应用服务器放业务交换机 10.0.1.0/24 、10.0.2.0/24特点只有私网IP不给公网IPRDS 数据库 / Redis放独立数据库子网特点纯内网禁止外网访问只允许ECS网段连接NAT网关放运维交换机10.0.0.0/24作用所有ECS上网SNAT外网访问网站DNAT路由表只用一张自定义路由表所有业务交换机、ECS交换机全部关联它路由表只写一条目标地址0.0.0.0/0 下一跳NAT网关 所有外网流量走NAT内网互通自动走系统路由四、网络访问全流程整套闭环1. ECS 主动上网下载、更新、联网ECS → 子网 → 路由表0.0.0.0/0 → NAT网关 →SNAT→ EIP → 互联网2. 外网用户访问你的网站外网 → NAT绑定的EIP →DNAT端口映射→ 内网ECS业务IP:端口3. ECS 访问 RDS数据库ECS业务网段→ VPC内网路由 → RDS数据库子网全程内网不走公网、不走NAT4. 不同可用区互通A区ECS ↔ B区ECSA区ECS ↔ B区RDS同VPC默认互通不用配任何路由五、安全组配套设计必配ECS安全组放行数据库网段、内网互通放行外网DNAT需要的端口80、443禁止高危端口全开放RDS安全组只允许【ECS业务网段】访问3306拒绝所有外网IP六、你之前所有问题全部串起来VPC大框架可用区做容灾交换机按功能拆分业务/数据库/网关路由表0.0.0.0/0 指向NATNATEIP统一出入口SNAT内网机器出去上网DNAT外网进来访问服务RDS单独网段安全隔离七、一句话终极总结内网互相访问VPC自带路由全自动服务器上网路由指向NAT SNAT外网访问服务NAT绑定EIP DNAT数据库单独子网只给内网ECS连最安全大厂生产级云架构「保姆级全拆解」我会从底层逻辑→分层设计→每一层的产品/作用/安全规则→全链路流量走向→路由表细节→大厂铁律一步不落讲透把你之前问过的VPC、交换机、路由、NAT、EIP等所有知识点全部串进真实的生产架构里看完就能直接对标阿里、腾讯、字节的标准架构。一、先搞懂大厂架构的核心设计逻辑所有设计都围绕这4点大厂绝对不是把云产品随便堆起来而是像「洋葱一样层层锁死」核心原则安全隔离越核心的资产比如用户数据、订单越往内层放外网绝对碰不到高可用容灾任何一个组件、一个机房挂了业务都不能停可管控可追溯所有流量、所有操作全留痕、可审计出问题1分钟定位可弹性扩展流量暴涨比如双11能1分钟扩容流量回落能快速缩容不浪费钱。二、第一步底层基础设施地基绝对不能错1. 地域可用区容灾的核心地域固定一个核心地域比如华东2上海、华东1杭州大厂不会跨地域乱部署避免延迟过高双可用区AZ必须选同地域的2个独立可用区比如上海可用区A上海可用区B。大白话2个完全独立的物理机房水电网、消防全分开一个机房断电、失火、故障另一个机房能无缝接管业务用户完全无感知。大厂铁律所有核心组件必须双可用区部署绝对不能有单点故障。2. VPC专有网络整个架构的大围墙VPC网段固定用10.0.0.0/16绝对不用192.168.0.0/16。为什么10.0.0.0/16是最大的私网网段之一能划分65536个IP足够支撑几万台机器而且和绝大多数公司线下机房的网段不冲突后续打通线下机房/专线不会出问题。核心作用给你整个云上业务建了一个完全隔离的私有局域网和其他租户的网络100%隔离就像你在阿里云租了一整栋专属写字楼别人进不来。三、第二步交换机子网分层设计架构的灵魂大厂最核心的细节你之前一直问交换机、VPC、NAT的关系大厂的核心就是按功能、按安全等级把交换机严格拆分绝对不会所有机器放一个子网。每个功能模块都有独立的交换机且双可用区各部署一个A区挂了B区的子网还能工作下面是标准拆分每一个子网的作用、权限、网段都给你讲死子网类型可用区A网段可用区B网段放什么产品核心规则设计逻辑网关子网10.0.0.0/2410.0.1.0/24NAT网关、SLB负载均衡、WAF、专线/VPN网关整个架构唯一能碰公网的子网所有公网入口、出口全集中在这里统一管控出问题好排查不会把公网入口散在各个子网里。业务应用子网10.0.10.0/2410.0.11.0/24ECS云服务器、ACK容器集群K8s、微服务应用放你的网站、APP、接口服务所有机器只有私网IP绝对不单独绑EIP所有外网流量只能从SLB进来所有上网只能从NAT出去没有直接公网入口。中间件子网10.0.20.0/2410.0.21.0/24Redis缓存、RocketMQ消息队列、微服务注册中心放业务和数据库之间的中间件纯内网无公网地址只允许业务子网的机器访问和业务、数据库完全隔离就算业务被攻击黑客也不能直接扫中间件。数据存储子网10.0.30.0/2410.0.31.0/24RDS数据库、PolarDB分布式数据库、NAS文件存储大厂的命根子放核心用户数据、订单数据绝对禁止开通公网地址只能内网访问安全组只允许业务/中间件子网的指定IP访问其他所有网段全拒绝。运维管理子网10.0.40.0/2410.0.41.0/24堡垒机、云监控、日志服务、安全审计平台所有运维操作的唯一入口只允许公司内网/VPN访问禁止公网直接碰运维人员必须先登堡垒机才能跳转其他机器全程操作录像、可追溯。✅ 一句话记住越核心的资产越往内层的子网放离公网越远安全规则越严。四、第三步从外到内一层一层拆解全架构每一层都讲透我会按「用户流量的走向」从最外层的公网一直到最内层的数据库一层一层讲每一层的产品、作用、和上下层的关系、安全规则全部讲明白。第一层公网防护层最外层流量第一道关卡核心产品DDoS高防、WAF Web应用防火墙部署位置挂在公网入口最前面流量先过这里再进VPC大白话作用先把所有脏流量拦在外面干净的流量才放进VPC。DDoS高防拦大流量攻击比如黑客用几十万台机器打你的网站把带宽打满防止你的业务直接被打崩WAF拦SQL注入、XSS跨站攻击、爬虫、恶意注册防止黑客偷数据、拖库。大厂设计逻辑攻击流量必须在最外面就拦掉不能让它进到VPC里否则会把你的带宽、服务器资源打满业务直接瘫痪。第二层流量分发层负载均衡层核心产品SLB负载均衡分公网SLB、私网SLB部署位置网关子网双可用区部署大白话作用把干净的用户流量均匀分给多台业务服务器不会让某一台机器被流量打崩单台服务器挂了自动把流量切到其他正常的机器保证业务不中断。核心细节公网SLB绑定EIP唯一的用户流量入口外网用户只能访问这个SLB的EIP绝对不能直接碰后面的ECS私网SLB给内部微服务之间做负载均衡不碰公网比如订单服务调用支付服务通过私网SLB分发流量大厂为什么不用NAT的DNAT暴露业务DNAT只能做简单的端口转发没有健康检查、会话保持、流量控制、抗并发能力大厂只会用SLB接用户流量DNAT只会用来给极少数特殊内部服务临时暴露绝对不会当业务入口。第三层业务应用层核心业务跑在这里核心产品ECS云服务器、ACK容器服务K8s、微服务引擎部署位置业务应用子网双可用区集群部署A区、B区都有机器大白话作用你的网站、APP、接口、业务逻辑全在这里跑是处理用户请求的核心层。大厂核心规则铁律所有业务机器绝对不单独绑定EIP只有私网IP没有任何直接公网入口安全组只允许SLB的网段访问业务端口比如80、443其他所有IP全拒绝就算黑客绕过了WAF也不能直接访问ECS双可用区部署A区挂了B区的机器能100%接管流量业务不中断为什么大厂都用容器K8s不用纯ECS容器能实现「分钟级扩缩容」双11流量来了1分钟扩1000台机器流量走了再缩回去既抗住了峰值又不浪费钱纯ECS根本做不到。第四层中间件层业务和数据库之间的缓冲层核心产品Redis缓存、RocketMQ/Kafka消息队列、分布式配置中心部署位置中间件子网双可用区集群部署大白话作用给业务加速给数据库减压防止流量峰值把数据库打崩。Redis缓存把热点数据比如商品详情、用户登录信息放缓存里用户请求来了直接从缓存里返回不用每次都查数据库速度能快100倍数据库压力能降90%消息队列把下单、发短信、发邮件这种异步操作放进队列里慢慢处理就算流量瞬间爆了也不会把数据库打崩相当于「业务的泄洪渠」。大厂核心规则纯内网无公网地址安全组只允许业务子网的机器访问其他所有网段全拒绝绝对不碰公网。第五层数据存储层最内层大厂的命根子核心产品RDS MySQL/PostgreSQL数据库、PolarDB分布式数据库、OSS对象存储、NAS文件存储部署位置数据存储子网双可用区主从部署A区主库B区备库大白话作用存所有核心数据用户信息、订单、商品、支付记录全在这里是大厂最值钱的资产。大厂铁律违反就开除绝对禁止开通公网地址只能内网访问外网流量绝对碰不到这里安全组只允许业务子网、中间件子网的指定IP段访问数据库端口3306其他所有网段包括运维子网全拒绝必须开主从高可用主库挂了30秒内自动切到备库业务无感知必须开定时全量备份就算主库炸了数据也能100%找回必须开数据加密静态存储加密传输加密防止数据泄露。其他存储产品的作用OSS对象存储存图片、视频、附件、日志、备份文件无限容量超便宜走内网域名访问不消耗公网带宽NAS文件存储多台ECS共享的文件盘比如日志、配置文件不用每台机器都存一份方便统一管理。第六层运维管控层大厂的后台管理入口核心产品堡垒机、云监控、日志服务、安全中心、VPN/专线网关部署位置运维管理子网双可用区部署大白话作用所有运维操作、监控、审计全在这里完成是管控整个架构的唯一入口。堡垒机运维人员绝对不能直接登录ECS/RDS必须先登录堡垒机再从堡垒机跳转全程操作录像、权限管控谁在什么时候、干了什么全留痕防止删库跑路、误操作云监控/ARMS7x24小时监控所有机器的CPU、内存、磁盘、接口响应时间、数据库慢查询出问题立刻发短信、打电话报警不用等用户投诉才知道日志服务把所有机器的日志、业务日志、访问日志全收集起来出问题能1分钟定位根因还能做数据分析、安全审计VPN/专线网关打通公司线下办公室/机房和云上VPC运维人员在公司内网就能直接访问云上的运维子网不用走公网更安全。大厂核心规则堡垒机只允许公司内网IP/VPN IP访问禁止公网直接访问所有运维权限最小化新人只能看日志资深运维才能登生产机器且必须双人复核。第七层统一公网出口层NAT网关层核心产品公网NAT网关双可用区高可用版部署位置网关子网双可用区部署绑定多个EIP大白话作用整个VPC里所有机器唯一的公网出口所有需要主动访问外网的流量全从这里走。核心配置SNAT规则给业务子网、运维子网、中间件子网配置SNAT绑定EIP让这些子网里的机器能访问外网比如下载软件、更新系统、调用微信支付/支付宝接口、拉取代码一个NAT网关最多绑定20个EIP不同子网可以用不同的EIP上网方便隔离、限流、风控。大厂核心优势统一出口所有机器的公网出口IP固定第三方接口可以加白名单安全不用给每台ECS绑EIP省钱而且彻底杜绝了机器直接暴露公网的风险带宽共享多台机器共用一个带宽峰值不会浪费。五、第四步路由表完整设计你之前一直问的讲透每一条路由大厂的路由表绝对不会所有子网绑同一张路由表而是按子网的安全等级拆分不同的路由表严格管控流量走向。先搞懂两个核心概念系统路由表VPC自动生成的默认只有内网路由不能修改默认路由所有同VPC的子网内网默认互通自定义路由表你手动创建、手动配置路由规则的能修改默认路由管控流量的走向。1. 系统路由表无外网权限关联的子网数据存储子网、中间件子网这些子网绝对不需要访问外网自动生成的路由规则目标网段下一跳类型下一跳大白话作用10.0.0.0/16本地本地只要是访问VPC内网的流量直接走内网转发保证ECS能内网访问RDS、Redis设计逻辑这些子网是核心资产绝对不能访问外网所以绑系统路由表没有默认公网路由就算黑客拿到了机器权限也没法主动连接外网的黑客服务器断了外联的路安全拉满。2. 自定义路由表-公网出口路由表核心关联的子网业务应用子网、运维管理子网这些子网需要访问外网完整路由规则目标网段下一跳类型下一跳大白话作用10.0.0.0/16本地本地内网流量直接走内网不用绕NAT保证内网互通0.0.0.0/0NAT网关你创建的公网NAT网关所有不是内网的流量也就是所有外网流量全部丢给NAT网关从NAT的EIP出去上网192.168.0.0/16公司线下机房网段专线网关你创建的专线网关访问公司线下机房的流量走专线不用走公网更安全更快你之前问的「为什么目标地址是0.0.0.0/0」这里彻底讲透0.0.0.0/0代表全世界所有的IP地址路由表的匹配规则是「最长前缀匹配」也就是先匹配最精确的网段比如访问10.0.30.10RDS的内网IP先匹配到10.0.0.0/16走内网所有没匹配到精确内网网段的流量全部匹配到0.0.0.0/0走NAT网关出去上网。六、第五步全链路流量走向4个核心场景一步一步走把上面所有组件串起来你就能彻底搞懂大厂架构的完整闭环。场景1外网用户访问你的网站/APP最核心的用户流量流量路径一步一步用户在手机/电脑上输入网址发起请求流量进入公网流量先经过DDoS高防WAF攻击、爬虫被拦在外面干净的流量被放行干净的流量到达公网SLB负载均衡SLB检查后端ECS的健康状态把流量均匀分给业务子网里正常运行的ECS机器ECS收到请求先去Redis缓存里查热点数据如果有直接返回结果不用查数据库如果缓存里没有ECS通过VPC内网路由访问RDS数据库查询数据、处理业务逻辑处理完的结果按原路返回给用户。✅ 全程用户的流量绝对碰不到数据库子网只能到业务ECS层层隔离。场景2业务ECS主动访问外网比如调用微信支付接口流量路径一步一步ECS发起对外网的请求比如访问微信支付接口ECS所在的业务子网绑定的是公网出口路由表路由表检查目标IP不是内网网段匹配到0.0.0.0/0默认路由把流量丢给NAT网关NAT网关收到流量执行SNAT规则把ECS的私网IP转换成NAT绑定的EIP公网IP把请求发到互联网微信支付接口返回结果原路回到NAT网关NAT再把结果转回给对应的ECS。✅ 全程ECS没有公网IP外网只能看到NAT的EIP不知道ECS的内网地址安全。场景3运维人员登录生产ECS排查问题流量路径一步一步运维人员在公司办公室电脑连公司内网通过专线/VPN访问云上的运维管理子网先登录堡垒机输入账号密码二次验证堡垒机检查权限只有有权限的运维才能登录从堡垒机里跳转到对应的业务ECS/RDS全程操作录像、日志记录所有命令全留痕操作完成后退出堡垒机所有操作记录永久存档。✅ 全程运维人员不能直接公网登录ECS必须走公司内网→专线→堡垒机→ECS绝对没有公网入口防止黑客暴力破解。场景4ECS内网访问RDS/Redis/OSS流量路径一步一步ECS发起对RDS的访问请求目标IP是RDS的内网地址路由表检查目标IP是VPC内网网段直接走系统内网路由不用绕NAT直接在VPC内网转发RDS的安全组检查请求的来源IP是业务子网的ECS允许访问返回数据给ECS。✅ 全程走阿里云内网延迟极低不消耗公网带宽免费而且绝对不会经过公网安全。七、大厂架构的进阶设计超大规模公司用多VPC架构生产VPC、预发布VPC、测试VPC、大数据VPC完全隔离之间用云企业网CEN打通测试环境绝对不能碰生产数据混合云架构线下机房云上VPC用专线打通核心数据存在线下机房弹性计算用云上的兼顾安全和灵活跨地域容灾杭州主地域上海备地域双活架构杭州整个地域挂了上海的业务还能正常跑用户无感知双重防火墙防护网络ACL子网级别 安全组机器级别先过ACL再过安全组双层拦截就算安全组配错了ACL也能拦下来零信任架构不管是内网还是外网所有访问都必须先验证身份、授权默认不信任任何访问安全拉满。八、大厂架构的5条铁律绝对不能违反最小权限原则谁需要什么权限就给什么权限多一点都不给。比如数据库只允许业务ECS访问堡垒机只允许公司内网访问分层隔离原则公网入口、业务、中间件、数据、运维全部分层每一层只和上下层通信越往内越安全无单点故障原则所有组件必须双可用区部署绝对不能只有一台机器、一个实例一个点挂了整个业务就崩了全程可追溯原则所有用户访问、运维操作、业务请求必须有日志、有记录出问题能快速查到是谁、在什么时候、干了什么公网最小暴露原则能不碰公网的绝对不碰公网。数据库、缓存、ECS绝对不开公网地址只有SLB、WAF、NAT网关能碰公网。