五一五更之四:动手学GPT
学习知识就像是水流一样,一定要找到知识的源头和知识的流向;也就是说,不仅仅要关注当前这篇文章的创新点,同时也要关注当前的这篇文章前期工作有什么,思路是从哪些文章延伸过来的;而流向就是基于现有知识作出的创新。
为什么现在的大语言模型都是Transformer架构?
Transformer模型本身里面的inductive bias
比较小。
NLP:rule - statistical model - RNN - Transformer
CV:hard-crafed + SVM - CNN - Transformer
CV和NLP领域的发展最终都不约而同的满满发展到了Transformer架构。因为随着数据量的增长,计算量也随之变大。CNN和RNN架构在数据量和计算量增大后会遇到性能上的瓶颈,但是Transformer模型随着数据量和计算量的增大性能会进一步提高,鲜有出现性能瓶颈的问题。
–》 这背后的主要原因是inductive bias
。
如何理解inductive bias
?其实就是人类给出计算机先验知识的过程。
人类主动注入一些对于某一领域事物的特征偏见,使得计算机利用这些特征偏见去做识别、分类任务。这里就包含比较多的inductive bias
。
如果是一个现成的领域数据集,比如ImageNet,里面已经包含了多种分类任务所需要的特征,这里面就包含比较少的inductive bias
。
经典例子就是我们考试不知道如何复习?之后我们就会去问助教,助教会给我们考试范围和几篇往年的复习真题,这里的考试范围和几篇往年的复习真题其实就是人类的inductive bias
。我们最后突击的时候,就会利用这个inductive bias
使得复习更简单。但是助教给出的inductive bias
也不一定完全正确,因为老师很可能会出一些范围以外的题目,所以对于学习最好的方式就是不要去看助教给出的范围,而是多花时间和精力去系统完整地学习所有的知识。
trade off
CNN和RNN就是一类inductive bias
比较强的模型,因为人类设计这类模型的时候就已经注入了大量的先验知识。
Transformer模型的本质其实是一个Attention + MLP
架构,比起CNN和RNN,Transformer模型训练里面的inductive bias
更小。
为什么大语言模型领域会反复强调scale up?
参考资料
Build A Large Language Model (From Scratch), Sebastian Raschka, https://github.com/rasbt/LLMs-from-scratch
EZencoder. DeepSeek-R1 论文详解 part 3:GPT发展史 | scaling law | 训练范式 | 涌现, https://www.bilibili.com/video/BV1bUA8eYEHJ/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=f093c3d64ba399e149cbffa6cd31a7b0