[具身智能-263]:什么是回归?为啥叫回归?什么是线性回归? 分类问题为啥叫逻辑回归?
这几个问题直击了机器学习的核心概念而且它们背后的命名故事非常有趣甚至包含了一些历史误会。我来为你逐一拆解 什么是回归为啥叫“回归”1. 什么是回归在统计学和机器学习中回归是一种用来探索变量之间关系的方法。简单来说就是当你有一个或多个自变量 X 时你想通过它们来预测一个连续的因变量 Y 。例子根据房子的面积 X 来预测房价 Y 根据广告投入 X 预测销售额 YY。2. 为啥叫“回归”这是一个美丽的误会这个名字其实源于一个生物学现象叫“回归均值”。19世纪英国学者弗朗西斯·高尔顿在研究身高遗传时发现了一个有趣的现象虽然高个子父亲生的儿子通常也比较高但儿子的身高往往会向人口的平均身高“倒退”一点没那么高了反之矮个子父亲的儿子虽然矮但也比父亲稍微高一点向平均值靠拢。高尔顿把这种趋向于平均值的趋势称为“回归”。虽然后来这个方法被广泛用于各种预测不仅仅是身高但“回归”这个名字就一直沿用下来了。 什么是线性回归线性回归是回归分析中最简单、最基础的一种。它的核心思想是假设变量之间的关系是直线或超平面。直观理解如果你把数据画在坐标轴上比如横轴是面积纵轴是房价线性回归就是试图画一条直线让所有数据点到这条线的距离之和最小。数学公式一元线性回归只有一个影响因素 YabXεY你要预测的值如房价。X 影响 YY 的因素如面积。a 和 bb 模型要学习的参数截距和斜率。ε 误差无法被模型解释的部分。多元线性回归有多个影响因素 Yab1X1b2X2...ε比如房价不仅受面积影响还受楼层、房龄等影响。一句话总结线性回归就是试图用一条直线去拟合数据从而预测连续数值。 分类问题为啥叫“逻辑回归”这是一个非常经典的“名不副实”的例子。1. 它是回归还是分类逻辑回归Logistic Regression本质上是分类算法特别是用于二分类问题比如是/否垃圾邮件/正常邮件患病/健康。它不是用来预测具体数值的回归算法。2. 为啥名字里带“回归”这主要有两个原因历史沿用它沿用了统计学中“回归”的术语框架。数学原理它的底层确实借用了线性回归的公式但做了一个巧妙的“包装”。3. 它是如何工作的从回归到分类的变身逻辑回归的运作过程可以看作三步先做一次“线性回归”它首先像线性回归一样计算输入特征的加权和 zwTxb。这时候得到的 z 是一个任意大小的连续数值可能是 -100也可能是 500。套上“Sigmoid函数”关键一步它把这个数值 z扔进一个叫Sigmoid的函数里。这个函数的神奇之处在于无论输入多大或多小它都能把输出压缩到0 到 1 之间。公式 P11e−z这个输出 P 就被解释为概率比如属于“正类”的概率是 0.8。根据概率做“分类”设定一个阈值通常是 0.5。如果概率 P≥0.5P≥0.5 预测为“1类”如是垃圾邮件。如果概率 P0.5P0.5 预测为“0类”如是正常邮件。总结对比表格特性线性回归逻辑回归任务类型回归任务分类任务预测目标预测具体的连续数值如房价 500万预测类别概率如患病概率 80%输出范围任意实数 (−∞,∞)(−∞,∞)0 到 1 之间概率值核心函数线性函数 YabXYabX线性函数 Sigmoid函数所以逻辑回归之所以叫“回归”是因为它借用了线性回归的数学外壳通过Sigmoid函数将其转化为概率最终实现分类的目的。