五一五更之四：动手学GPT

学习知识就像是水流一样，一定要找到知识的源头和知识的流向；也就是说，不仅仅要关注当前这篇文章的创新点，同时也要关注当前的这篇文章前期工作有什么，思路是从哪些文章延伸过来的；而流向就是基于现有知识作出的创新。

为什么现在的大语言模型都是Transformer架构？

Transformer模型本身里面的inductive bias比较小。

NLP：rule - statistical model - RNN - Transformer

CV：hard-crafed + SVM - CNN - Transformer

CV和NLP领域的发展最终都不约而同的满满发展到了Transformer架构。因为随着数据量的增长，计算量也随之变大。CNN和RNN架构在数据量和计算量增大后会遇到性能上的瓶颈，但是Transformer模型随着数据量和计算量的增大性能会进一步提高，鲜有出现性能瓶颈的问题。

–》这背后的主要原因是inductive bias。

如何理解inductive bias？其实就是人类给出计算机先验知识的过程。

人类主动注入一些对于某一领域事物的特征偏见，使得计算机利用这些特征偏见去做识别、分类任务。这里就包含比较多的inductive bias。

如果是一个现成的领域数据集，比如ImageNet，里面已经包含了多种分类任务所需要的特征，这里面就包含比较少的inductive bias。

经典例子就是我们考试不知道如何复习？之后我们就会去问助教，助教会给我们考试范围和几篇往年的复习真题，这里的考试范围和几篇往年的复习真题其实就是人类的inductive bias。我们最后突击的时候，就会利用这个inductive bias使得复习更简单。但是助教给出的inductive bias也不一定完全正确，因为老师很可能会出一些范围以外的题目，所以对于学习最好的方式就是不要去看助教给出的范围，而是多花时间和精力去系统完整地学习所有的知识。

trade off

CNN和RNN就是一类inductive bias比较强的模型，因为人类设计这类模型的时候就已经注入了大量的先验知识。

Transformer模型的本质其实是一个Attention + MLP架构，比起CNN和RNN，Transformer模型训练里面的inductive bias更小。

为什么大语言模型领域会反复强调scale up？

参考资料

Build A Large Language Model (From Scratch), Sebastian Raschka, https://github.com/rasbt/LLMs-from-scratch
EZencoder. DeepSeek-R1 论文详解 part 3：GPT发展史 | scaling law | 训练范式 | 涌现, https://www.bilibili.com/video/BV1bUA8eYEHJ/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=f093c3d64ba399e149cbffa6cd31a7b0

大模型相关人工智能与深度学习

#LLM #深度学习

五一五更之四：动手学GPT

http://example.com/2025/05/04/五一五更之四：动手学GPT/

作者

Munger Yang

发布于

2025年5月4日

许可协议

五一五更之五：手撸DeepSeek V3/R1 上一篇

五一五更之三：动手学BERT 下一篇