1. 定位导航第 23-25 篇解决了单层组件(XOR、输出单元、激活函数)。本篇关注整体结构:多深?多宽?怎么连?核心张力:万能近似定理告诉我们"一层够用",但实践中深度网络明显优于浅层网络——为什么?这就是本篇要回答的问题。2. 链式架构:标准 MLP 的形式2.1 数学定义最常见的 MLP 是链式架构——每层只接收前一层的输出:h(1)=g(1)(W(1)⊤x+b(1))\mathbf{h}^{(1)} = g^{(1)}(\mathbf{W}^{(1)\top} \mathbf{x} + \mathbf{b}^{(1)})h