【AI面试临阵磨枪-80】高并发、低延迟、高可用 AI 服务落地经验

张

张建站

2026/6/20 17:10:56

10分钟阅读

一、面试题目面试官结合工程实践讲一讲高并发、低延迟、高可用 AI 服务落地经验包含架构设计、性能优化、稳定性保障、限流熔断、可观测性、部署策略。二、知识储备1. 核心目标高并发支持万级 QPS、大流量突发、热点削峰低延迟对话/推理/向量检索控制在百毫秒级高可用多可用区、故障自动切换、0 核心业务宕机可扩展弹性扩缩容、模型服务化、分层解耦整体架构接入层 → 网关层 → 调度层 → 模型推理层 → 向量检索层 → 缓存层 → 监控告警层2. 高并发落地经验1请求层限流、熔断、削峰、排队多级限流网关限流模型层限流区分普通用户/付费用户/内部调用令牌桶/漏桶队列削峰突发流量排队拒绝瞬时打满熔断降级模型超时/异常时切缓存答案、兜底话术、静态模板批量请求合并向量检索、Embedding 批量推理减少调用次数2推理层模型优化提升吞吐量化压缩FP16 / INT8 / INT4 量化显存占用降 70%并发翻倍KV Cache 复用、PagedAttention大幅提升长文本吞吐动态批处理 Batch小请求合并批量推理模型分层部署简单问题小模型复杂问题大模型避免大模型被小请求打崩3缓存层热点请求全链路缓存高频问题缓存答案、Embedding 向量、检索结果Redis 多级缓存热点问题直接返回不进模型实时数据缓存库存、天气、物流减少 DB/API 压力4向量库高并发Milvus 分片、分区、冷热分离索引预构建、IVF_FLAT / HNSW 合理选型向量查询做缓存相同 Query 复用向量结果3. 低延迟优化经验核心面试重点1网络优化就近部署、同机房调用减少跨地域延迟内网通信、GRPC 替代 HTTP减少序列化开销长连接复用、连接池优化2推理延迟优化流式输出SSE边生成边返回体感延迟大幅降低控制上下文长度精简 Prompt减少 Token 生成量开启推理加速库vLLM、TensorRT、DeepSpeed3RAG 链路延迟优化多路召回重排异步化非关键步骤后台执行预计算高频向量、预加载常用知识库限制 Reranker 候选集大小避免重排过慢4链路精简能不调用大模型就不调用大模型简单问答直接规则缓存复杂问题再上 LLM4. 高可用落地经验1多活架构多可用区部署一挂另一个自动顶无状态服务容器化弹性扩缩容K8s模型多实例冗余避免单点故障2故障自愈健康检查、自动重启异常实例流量自动切流、故障节点剔除模型服务熔断、降级、优雅失败3数据高可用向量库主从、备份、快照实时数据 MySQL 主从 Redis 集群多租户数据隔离避免一个租户拖垮全局4灰度发布蓝绿发布新版本小流量灰度验证稳定后全量上线可快速回滚防止模型版本事故5. 可观测性必备工程经验全链路 Trace从用户请求 → 网关 → 调度 → 模型 → 向量库每个环节耗时打点指标监控QPS、延迟 P95/P99、错误率、显存使用率、队列长度日志审计Prompt、回答、调用时间、用户ID全留痕告警体系延迟突增、错误率飙升、显存打满、队列堆积实时告警6. 生产级最佳实践总结面试直接背简单问题缓存小模型兜底复杂问题上大模型分层降本提效推理层做量化、PagedAttention、批量推理提升并发、降低延迟网关做限流熔断、削峰排队保护模型不被打崩向量库分片缓存冷热分离支撑高并发检索部署采用多可用区无状态弹性扩缩容保障高可用全链路监控灰度发布提前发现隐患快速回滚三、破局之道面试满分话术高并发低延迟高可用 AI 服务本质是架构分层推理优化流量管控缓存兜底多活容灾可观测性。通过模型量化、推理加速、批量处理提升吞吐通过限流熔断、削峰缓存扛住流量通过多可用区、灰度发布、故障自愈保障稳定通过全链路监控提前发现问题。核心原则能缓存不计算能小模型不大模型能规则不推理优先保障核心链路稳定。四、极简代码/配置示意Python 限流熔断伪代码import time from functools import lru_cache # 1. 热点缓存 lru_cache(maxsize10000) def hot_query_cache(query): return llm(query) # 2. 限流简单实现 class RateLimiter: def __init__(self, max_qps): self.max_qps max_qps self.count 0 self.last_reset time.time() def allow(self): now time.time() if now - self.last_reset 1: self.count 0 self.last_reset now if self.count self.max_qps: self.count 1 return True return False # 3. 熔断降级 def ai_service(query): limiter RateLimiter(100) if not limiter.allow(): return 当前访问繁忙请稍后重试 try: return hot_query_cache(query) except Exception: return 系统繁忙已为您兜底回答JS 极简版// 简单限流缓存 const cache new Map(); let qps 0; let resetTime Date.now(); function rateLimitCheck(maxQps 100) { const now Date.now(); if (now - resetTime 1000) { qps 0; resetTime now; } return qps maxQps; } async function aiService(query) { if (!rateLimitCheck()) return 访问繁忙; if (cache.has(query)) return cache.get(query); try { const res await llm(query); cache.set(query, res); return res; } catch { return 系统繁忙请稍后; } }