人工智能篇---大模型能力参数
一、核心能力参数1. 上下文长度Context Length含义模型一次能处理的输入令牌token数量。典型值4K早期GPT-3.5→ 128KGPT-4 Turbo→ 200KClaude 3.5→ 1M~2MGemini 1.5、通义千问。选择影响长文档分析财报、法律合同、多轮对话、超大代码库需长上下文短问答用8K~32K更省成本。2. 推理能力Reasoning关键指标数学GSM8K、代码HumanEval、逻辑推理MMLU、Big-Bench Hard。典型表现GPT-4o MMLU ~88%Claude 3.5 ~85%LLaMA 3 70B ~82%。选择影响复杂任务科研、金融分析、代码生成优先选推理强的闭源模型简单分类或提取可用开源小模型。3. 多模态能力支持类型仅文本、图像文本、音频文本、视频、生成图像。选择要点理解场景图文互查GPT-4V、Gemini、Qwen-VL。生成场景图像生成用SD3/Midjourney视频生成用Sora/Gen-2。实时交互GPT-4o语音视觉低延迟。4. 语言与地域适配中文能力文心、通义、混元、豆包、Qwen 系列表现优于GPT-4部分中文任务。多语言LLaMA 3、Gemini、Claude 覆盖100语言。选择影响本地化业务优先本土模型全球化产品选多语言通用模型。二、性能与效率参数参数含义对比意义延迟 (Latency)请求到首令牌时间 / 每令牌时间实时对话需 2s离线批处理可容忍高延迟吞吐量 (Throughput)每秒生成令牌数 (tokens/s)高并发场景客服、搜索需 50 tokens/s参数量 (Parameters)模型权重数量B/十亿级大模型通常能力更强但更贵7B~13B在边缘设备可用量化版本INT8 / INT4 / FP16降低显存与成本但可能损失精度显存占用推理所需GPU内存GB影响部署硬件成本如70B模型需140GB三、部署与成本参数1. API 价格输入/输出分别计价美元/百万tokensGPT-4 Turbo输入$10输出$30Claude 3.5 Sonnet输入$3输出$15DeepSeek-V3开源部署接近零开源自建硬件成本电费维护2. 推理部署方式云端API无需管理硬件适合快速验证、弹性需求。本地/私有云部署数据安全要求高、高调用量时总体成本更低。边缘设备Mistral 7B、Phi-3 mini 可跑在手机/笔记本。3. 微调可行性全量微调Full Fine-tune需要大显存如70B模型需280GB。参数高效微调LoRA、QLoRA消费级显卡24GB可微调70B模型。选择影响专业领域医疗、法律必须可微调通用场景微调非必需。四、数据与安全参数数据隐私闭源模型可能记录请求需确认隐私政策开源模型可完全离线。内容安全闭源模型自带安全对齐减少有害输出开源模型需自行加护栏。许可协议LLaMA 3、Qwen 2.5 允许商用Falcon 180B 有早期限制部分中文模型仅限研究。五、决策矩阵简易版场景推荐参数优先级代表模型低成本大吞吐客服、搜索价格、延迟、吞吐DeepSeek-V3, Mistral 7B高复杂推理代码、数学推理能力、上下文长度GPT-4o, Claude 3.5, Gemini 1.5中文敏感型政务、营销中文能力、数据安全文心4.0, 通义千问2.5私有数据高安全金融、医疗开源可部署、微调支持LLaMA 3, Qwen-72B多模态理解文档分析、视频多模态类型、上下文长度GPT-4o, Gemini 1.5, CogVLM2边缘端实时响应IoT、移动小参数量、低延迟Phi-3-mini, MobileLLaMA六、Mermaid 总结框图七、实用建议先定义典型使用场景和预算每月调用量、可接受的延迟。用小流量A/B测试2~3个候选模型对比关键指标准确率、首令牌时间、成本。关注算力扩展性如果需要长期自建优先选择支持量化、LoRA的开源模型如LLaMA 3、Qwen。不要只看MMLU在自己业务数据集上做评测领域内表现可能大相径庭。