什么是模型大白话结论模型架构公式/结构 参数。架构公式/结构定义了模型的计算逻辑和整体框架。这是一个复杂的、预先设计好的“计算流程图”或者“数学公式的骨架”。 它规定了计算的步骤和类型但里面的具体“参数”还没有确定。参数是模型架构中需要从数据中学习的具体数值。它们是模型“知识”和“能力”的载体。举个例子yaxb这个公式就是一个架构a和b就是两个参数。若经过训练后a2b3则y2x3可以理解为就是一个模型。实际案例现在有一组数据样本分别是鳄鱼和蛇的身长和体重数据如下身长m体重kg凯门鳄2.235黑凯门鳄3.5100澳洲鳄2.550菲律宾鳄230莫雷鳄370古巴鳄2.880网纹蟒685绿蟒5.575缅甸蟒440眼镜蛇1.83锦蛇22.5岩蟒320太攀蛇23任务做一个二分类任务通过身长、体重作为输入设计或者训练一个模型输出蛇和鳄鱼的概率。我们将这些数据放到二维坐标上如下图其中橙色点为鳄鱼蓝色点为蛇从图表可以看出数据中存在一定的线性规律。假如设计一个架构和公式为yaxb其中a24b-24即y24x-24代入到图表中可得出一条分界线决策边界见下图假定y24x-24是最终所得的公式且可用我们将公式变换为24x-24-y0再找来一批xy数据代入到公式中我们可以得出以下规律及结论若24x-24-y0点将落在红线上输出鳄鱼和蛇的概率都为50%若24x-24-y0点将落在红线上方输出为鳄鱼概率较高输出蛇的概率较低若24x-24-y0点将落在红线下方输出为蛇概率较高输出鳄鱼的概率较低那设计yaxb求出a24b-24且通过输入xy输出鳄鱼和蛇的概率的这个过程就是模型设计及训练过程y24x-24就是我们所得出来的模型可以用来解决未来的预测或规律等问题。什么是大模型我们理解了什么是模型那延展一下什么是大模型大模型全称是大语言模型Large Language Model, LLM那大模型跟上面所说的模型一样架构参数且特指语言方面模型大模型有几个“大”的特征1、大数据海量的预料数据进行学习2、大参数参数量基本在上亿上十上百亿3、大算力这么多的参数量需要复杂的底层基础措施才能把这些参数跑起来参数量计算及硬件评估会在以后文章进行介绍。小模型偶尔看到一些文章说到的小模型又是什么其实还是架构参数广义理解为参数量相对比较小的模型狭义要结合文章语境可能指的是小规模参数的大语言模型比如3BBillions大小的大模型可能指视觉方面CV的模型比如YOLO、U-net家族参数量在2到100MMillions可能指通过结构化数据总结规律的模型比如上面的yaxb像金融行业里客户的资质评分模型。什么是神经网络现实中简单的问题我们可以由算法工程师设计框架和公式比如yaxb的。那复杂的真实问题怎么解决呢---我们有神经网络。复杂真实问题难以通过人类设计公式解决神经网络作为万金油公式应运而生。神经网络是一个模型结构由输入层、隐藏层、输出层组成。下面是个示意图每个圆点是一个神经元是每一层神经网络的输入或者输出。每条连线是权重可以理解为参数。输入层输入层的神经元数量必须与单个输入样本的特征数量严格相等。比如上面蛇和鳄鱼的例子身长和体重就是样本特征可以认为为两个输入。输出层根据我们要做任务来定义比如上面蛇和鳄鱼的例子我们要输出蛇和鳄鱼的概率那就是有两个输出。如果是要输出20个概率那就是有20个输出。隐藏层介于输入层和输出层中间的结构如果这中间有很多层比如超过10层那可以把这个神经网络结构叫做深度神经网络。隐藏层的每一层输出就是为了提取特征这个提取过程对于用户来说是一个“黑盒”每一层提取了什么缺乏可解释性。当然科研人员还是有办法去定性及理解。举个例子这里说一个经典神经网络例子MNISTMixed National Institue of Stands and Technology database图片数据集这个数据集包含了70000张手写的图像每一张图像都是28*28像素的灰度图像其中60000张用于训练10000张用于测试每张图像的内容只包含一个手写数字从0到9的其中一个数字。见下图图片来自网络那我们的任务给定一张28*28像素的灰度图像经过一系列的计算输出10个概率分别为0到9的概率。那就是做一个能做10分类任务的模型我们还是围绕这个公式模型架构公式/结构参数我们先定义好这模型的输入、输出、结构。输入28*28个像素即784像素输入。我们将这个784输入设置为784维向量。什么是向量向量就是一个有顺序的数字列表一个购物清单[苹果, 香蕉, 牛奶]。如果我们用数字表示数量比如[3, 5, 2]这个列表就是一个向量。它表示“买3个苹果5根香蕉2瓶牛奶”这是一个三维向量。一个人的特征我们可以用[身高(cm), 体重(kg), 年龄(岁)]来描述一个人例如[175, 70, 28]。这也是一个3维向量。上面蛇和鳄鱼的例子我们可以用[身长(m), 体重(kg)]来作为输入例如[3.5,100]。这是一个2维向量。784维向量就是把所有像素按顺序平铺784维向量看起来类似下面这个样子[0, 0, 12, 150, 245, 0, 0, 78, ... 0, 214, 87, 0, 0]里面一共有784个数字每一个数字代表每一个像素。输出10个因为需要输出10个概率分别0到9的概率结构使用神经网络假定隐藏层只有一层x向量为输入y向量为输出z向量为隐藏层见下图。那怎么得出z向量呢一个简单的公式zw*xb计算步骤如下1、z0w0*x0w1*x1w2*x2w3*x3w4*x4......w783*x783b0这是一个线性计算其中w0、w1、w2......w783、b0就是我们上述所说模型的参数也是模型训练待确认的参数这些参数的设定将由机器来决定。2、这个z0再进行激活函数计算非线性变换这个激活函数通常都是人类来设定。激活函数是用来帮助获取到数据特征的比如MNIST中可以帮助获取数字的轮廓、边框等特征。同理z1w0*x0w1*x1w2*x2w3*x3w4*x4......w783*x783b1其中这里z1的w0和z0的w0是完全不同的参数。最后通过每一层的线性计算和非线性转换最后得出y向量。资源分享我整理了大模型和人工智能入门到实战的资料和学习路线以及面试题要的小伙伴可以按照这个图的方式免费获取