用随机梯度下降来优化人生

作者: 李沐
日期: 2026-02-08
标签: #book #xray #sgd #人生哲学 #机器学习

NAPKIN | 餐巾纸

公式


+----------------------------------------------------------+


|   人生 = SGD(目标, 方向, 步长, 随机性, 坚持)              |


|                                                          |


|   θ_{t+1} = θ_t - η_t · ∇f(θ_t) + ε                    |


|   你(下一刻) = 你(现在) - 激情 × 认知方向 + 随机探索       |


+----------------------------------------------------------+

每一步不需要最优，只需要大致对的方向、合适的步长、以及不停下来。

一句话

人生不是凸优化——没有唯一解，但只要你有目标、持续走、接受随机性，终点都差不多。

草图


        🎯 目标(非凸，未知终点)


       / \


      /   \          ← 舒适区(局部最优)


     /     \   /\


    /  你→   \/  \   ← 痛苦=改变


   /              \


  /    随机探索     \____ 


 /                      \


起点(随机)          终点(殊途同归)





步长: ████░░ → 周期性调节(可以躺平)


方向: 四处看看 × 随机性 → 跳出舒适区


核心: 不要停。

ROUND 1: SKELETON | 骨架扫描

"这篇文章在说什么"

核心问题: 怎样用最简单的框架理解人生的前进方式？

核心答案: 人生就是一个随机梯度下降过程——你不需要看清全局，只需要每一步找个大致对的方向，迈一小步，持续走下去。

章节骨架:

要有目标：目标函数是前提
目标要大：非凸 > 凸，未知 > 已知
坚持走：方向+步长，核心是不停
痛苦的卷：改变=痛苦=进步的信号
可以躺平：步长周期性调节
四处看看：随机性=探索=跳出局部最优
快也是慢：过早收敛的危险
赢在起点：起点优势的清醒认知
很远也能到达：远起点≠到不了
独一无二：路径不同，终点相近
简单最好：SGD胜过复杂算法

论证结构: 类比映射——用 SGD 的11个属性逐一对应人生维度，归纳式论证

ROUND 2: DISSECTION | 血肉解剖

"凭什么这么说"

论证链:


目标函数存在 → 梯度可计算(认知方向) → 步长可调(激情管理)


      ↓                                      ↓


  持续迭代 ←──── 随机性注入(探索) ←──── 周期性休息


      ↓


  路径不同但终点趋同(SGD收敛定理)


      ↓


  简单算法在复杂问题上反而最优(深度学习经验)

关键证据:

深度学习实证: SGD 在非凸优化中效果最好，比 Adam/二阶方法更稳健——简单 > 复杂
SGD 收敛定理: 不同随机起点最终收敛到相近的损失值，但参数千差万别——殊途同归
学习率调度经验: Warm restarts、Cosine annealing 等周期性步长策略效果显著——躺平有理

隐形假设:

目标函数虽然非凸但足够"良好"（Lipschitz 连续）——并非所有人生都有可微分的方向
你能感知到梯度的大致方向——需要最低限度的自我认知能力
迭代次数足够多——需要足够的时间/寿命

边界条件:

当目标函数本身有问题时（追求错误目标），SGD 越成功越危险
极端不平坦的损失面（严重创伤/系统性压迫）可能导致"梯度爆炸"，此时需要重启而非坚持
"独一无二"的安慰性前提：模型参数不同但损失相近——翻译成人生就是"过程不同但结果差不多"，这对追求过程意义的人是个bug

ROUND 3: SOUL | 灵魂提取

"还能怎么用"

作者盲点:

缺少「换目标函数」的讨论。 人生最大的转折往往不是走得更好，而是发现目标错了。SGD 不会质疑 loss function 本身，但人可以。
忽略了多智能体博弈。 你不是在真空中做 SGD，其他人的梯度会改变你的损失面。这更像是 Game Theory，不是纯优化。
没有讨论「停止条件」。 什么时候算"到了"？SGD 有 early stopping，人生的 early stopping 是什么？是"enough"的智慧。

跨域映射:

在投资中，这叫「小步快跑，不要 all-in」——DCA（定投）本质就是投资领域的 SGD
在 进化论 中，这叫「变异+选择」——随机突变(探索) + 适者生存(梯度方向)
在 斯多葛哲学 中，这叫「控制你能控制的（方向），接受你不能控制的（随机性）」
在 Fish 的投资哲学 中，"做得越少，赚得越多" ≈ SGD 的"简单最好"——复杂策略在非凸市场中反而过拟合

知识连接:

李沐的"痛苦的卷" = Nassim Taleb 的 Antifragile——压力是信号，不是噪音
"快也是慢" = Daniel Kahneman 的 Thinking Fast and Slow 的反面表达——快决策(System 1)有时是局部最优陷阱
"赢在起点"的清醒 = Michael Sandel 的 The Tyranny of Merit——承认运气，不自我归因

行动触发:

审视你的目标函数: 你现在优化的到底是什么？是你自己定义的还是社会塞给你的？
检查步长: 最近是过于激进（burnout 风险）还是过于保守（舒适区）？
注入随机性: 最近一次"四处看看"是什么时候？刻意安排一次跨域探索。

STRUCTURE MAP | 全书结构图


                    ┌─────────────────────┐


                    │   要有目标 (Loss)    │


                    │   目标要大 (非凸)    │


                    └──────────┬──────────┘


                               │


              ┌────────────────┼────────────────┐


              │                │                │


     ┌────────▼──────┐ ┌──────▼───────┐ ┌──────▼───────┐


     │  方向 (梯度)   │ │ 步长 (激情)  │ │ 随机性 (探索)│


     │  四处看看      │ │ 可以躺平     │ │ 独一无二     │


     │  快也是慢      │ │ 痛苦的卷     │ │ 赢在起点     │


     └────────┬──────┘ └──────┬───────┘ └──────┬───────┘


              │                │                │


              └────────────────┼────────────────┘


                               │


                    ┌──────────▼──────────┐


                    │     坚持走          │


                    │   很远也能到达       │


                    └──────────┬──────────┘


                               │


                    ┌──────────▼──────────┐


                    │    简单最好          │


                    │  小步快跑 > 复杂策略  │


                    └─────────────────────┘