五一五更之四:动手学GPT

学习知识就像是水流一样,一定要找到知识的源头和知识的流向;也就是说,不仅仅要关注当前这篇文章的创新点,同时也要关注当前的这篇文章前期工作有什么,思路是从哪些文章延伸过来的;而流向就是基于现有知识作出的创新。

为什么现在的大语言模型都是Transformer架构?

Transformer模型本身里面的inductive bias比较小。

NLP:rule - statistical model - RNN - Transformer

CV:hard-crafed + SVM - CNN - Transformer

CV和NLP领域的发展最终都不约而同的满满发展到了Transformer架构。因为随着数据量的增长,计算量也随之变大。CNN和RNN架构在数据量和计算量增大后会遇到性能上的瓶颈,但是Transformer模型随着数据量和计算量的增大性能会进一步提高,鲜有出现性能瓶颈的问题。

–》 这背后的主要原因是inductive bias

如何理解inductive bias?其实就是人类给出计算机先验知识的过程。

人类主动注入一些对于某一领域事物的特征偏见,使得计算机利用这些特征偏见去做识别、分类任务。这里就包含比较多的inductive bias

如果是一个现成的领域数据集,比如ImageNet,里面已经包含了多种分类任务所需要的特征,这里面就包含比较少的inductive bias

经典例子就是我们考试不知道如何复习?之后我们就会去问助教,助教会给我们考试范围和几篇往年的复习真题,这里的考试范围和几篇往年的复习真题其实就是人类的inductive bias。我们最后突击的时候,就会利用这个inductive bias使得复习更简单。但是助教给出的inductive bias也不一定完全正确,因为老师很可能会出一些范围以外的题目,所以对于学习最好的方式就是不要去看助教给出的范围,而是多花时间和精力去系统完整地学习所有的知识。

trade off

CNN和RNN就是一类inductive bias比较强的模型,因为人类设计这类模型的时候就已经注入了大量的先验知识。

Transformer模型的本质其实是一个Attention + MLP架构,比起CNN和RNN,Transformer模型训练里面的inductive bias更小。

为什么大语言模型领域会反复强调scale up?

参考资料


五一五更之四:动手学GPT
http://example.com/2025/05/04/五一五更之四:动手学GPT/
作者
Munger Yang
发布于
2025年5月4日
许可协议