李沐交大讲座-大语言模型的实践经验和未来预测
LLM trends && Personal Career Choices
——大语言模型的实践经验和未来预测
主讲人
李沐:上海交大2011届计算机科学与工程系本硕系友。他曾担任亚马逊资深首席科学家,任加州大学伯克利分校和斯坦福大学的访问助理教授,是前Marianas Labs联合创始人。他的研究关注分布式系统和机器学习算法。发表了50余篇人工智能顶级会议论文,在CMU读博期间更是两年内发表了理论计算机领域的FOCS、神经网络领域的NIPS、数据挖掘领域的KDD和操作系统领域的OSDI等不同领域的顶级国际会议一作论文。他是深度学习框架Apache MXNet的创始人之一,合著了开源深度学习教材《动手学深度学习》。他目前是BosonAI的联合创始人。
时间地点:2024.08.25-上海交通大学计算机科学与技术系
大语言模型与“炼丹”
语言模型的三大核心组成:算力、算法、数据
语言模型也好,整个机器学习模型也好,本质上就是把数据通过算力和算法压进中间那个模型里面,使得模型有一定的能力,在面对一个新的数据时,它能够在原数据里面找到相似的东西,然后做一定的修改,输出你要的东西。
沐神用“炼丹”的比喻将现在的语言模型就是一个炼丹的过程:数据是原材料,算力是设备(比如炼丹炉),算法就是“丹方”。数据这个原材料不是很好搞,是个体力活;算力也很重要,要想火大一点,设备就要先进一点,设备越好练出来的东西质量也会更好。算法这个丹方,每年都在进步,就算有人指导你做,实际操作时候也会变得不一样。“像是徒手发火箭,发射前要动手调一调,没调好就会炸掉”
数据以参数的形式存储在LLM中,需要使用prompt工程进行数据的提取与使用。(LLM时代,大数据存储是以参数的形式进行的)
硬件的发展规律,算力方面-LLM不是特别有性价比的东西
带宽
带宽是让芯片靠的更近一些
讲带宽是因为LLM训练要分布式进行,现在的带宽是一根光纤承载 400Gigabits,下一代就是 double,变成 800Gigabits。
数据中心采用水冷当时对机架降温可以提高信息传输效率,提升训练速度。
“英伟达的 GB200 这个卡就可以把 GPU 都放在一起,那么它们之间的通讯会变得更好一些。你可以理解成:之前我们做多核,把单核封装到一个芯片里面,现在是说多核不够,我要做多卡,多卡以前是分布在一个房间里面,现在是多卡也要尽量放在一起,这是一个趋势。就是一块芯片那么大,早就做不上去了,这是台积电等面临的工艺难题,现在是尽量把这些东西弄得近一些。”
内存
内存是制约模型的一大瓶颈
现在的语言模型,核心是把整个世界的数据压进模型里面,但是这么做模型就会被搞的非常大,几百个G的样子。跑起来以后,参数和中间变量会更大,因此内存就需要很大。
但是内存大小这个东西快要遇到瓶颈了,因为它内存占面积,一块芯片就那么大,划一个区域给算力,划一块给内存,基本上就剩不下什么东西了。
沐神预测,一块芯片200G内存,基本上就要从工艺上就到瓶颈了。当然我不是搞硬件的,对于这些知识就是认真学习,在实践中去感受。
记得王坚院士去年在云栖大会上的演讲给出的观点是,目前的模型和算法并没有匹配上当前的算力资源。
算力
算力从长期来看会越来越便宜
模型做的越大,就会发现资源其实是问题。数据中心需要大量的供电;短期来看,算力翻倍,价格可能会有 1.4 倍的提升。但是长期来看,当竞争变得越来越激烈,摩尔定律会发挥作用,就是说算力翻倍,价格不一定变。所以长期来看算力会变得越来越便宜。
关于算力的观点:你可以认为摩尔定律还是会发挥作用,就是训练会两倍两倍地变便宜。所以你今天训练一个模型,一年之后它的价值会减半。很多时候,大家不要去想我现在能搞多大的模型,一年之后,这个模型会贬值。我想说,大模型不是特别有性价比的东西。你要想清楚,从长期来看,你的模型能带来什么价值,让你能够保值。
趋势:从语言到多模态
语言模型:100B-500B参数会是主流
每次预训练,无论是 OpenAI 还是别的模型,基本都是用 10T 到 50T token 做预训练。开源的话基本也在 10T token 以上。这个数据量我觉得差不多了,不会再往一个更大的尺寸去发展。原因是,人类历史上的数据比这个多是多,但是看多样性、质量的话,我觉得 10T 到 50T 这个规模就差不多了。
比较好的一线的模型就是 500B,超过 500B 不是训练不动,而是做 serving 很难。
语音模型:延迟更低、信息更丰富
新的语音技术可以让语音直接进去,然后利用文本语言模型强大的能力去发掘里面的信息。在做输出的时候也是一样的,我的输出可以根据你的输入的个性化场景来变换语调、情绪。这是一点。
另一点是延迟更短。之前我要先输出一句话,再进到一个模型去把语音输出来,这个延迟可能是 1 秒。现在我们大概可以做到 300 毫秒。
音乐模型:不是技术问题,而是商业问题
我觉得这一块的进展从来不是一个技术问题。它的技术其实比语音麻烦一点,因为音乐比人说话更复杂一点。但是实际上它还是一个版权的问题。
图像模型:图像越来越有神韵
图片应该是整个 AIGC 领域做得最早的,也是效果最好的。现在大家可以做到 100 万以上像素的图片的生成。大家说得最多的是图片要有灵魂。之前你去看那些文生图的工具,它的风格还是很假,但现在你会看到跟真的很接近,当然它还缺那么一点点灵魂,不过这一块说不定很快就有了。
视频模型:尚属早期
Sora 出来之后,大家非常关注视频模型。这个实际上还算比较早期,通用的 video 生成还是非常贵,因为 video 数据特别难弄。视频模型的训练成本很有可能低于数据处理的成本,所以你没有看到市面上有特别好的开源模型出来。问题在于生成一张图片容易,但生成一连串连贯的图片,并保持一致性是很难的。
多模态模型:整合所有信息
目前存在一种趋势,即多模态。现如今,多模态技术的发展趋势在于整合不同类型的模态信息,尤其是文本信息,因为文本含有丰富的信息并且易于获取。通过利用在文本上学到的技能,可以将这些能力泛化到其他模态,如图片、视频和声音。
交互方式的一点改变
比如在点菜时,在 ChatGPT 出来之前我们与手机的交互方式是刷刷刷和点点点,这是最简单的方式,对人类来说也不耗费精力,能不说就不说。但在 ChatGPT 出来之后,大家打破了这种观念,他们愿意去输入一段很长的文字去做事情,这是因为设计好的东西不一定满足我们的所有需求,可能满足了 80%,但没有满足对细节的需求,这时可以通过长文本,即输入很长的文字来解决。但输入长文字还是不如说话方便,所以在微信上很多人会说我语音留言会方便点。
未来大家可能会越来越能接受对方用一个很长的语音跟你描述一些事情,让你去完成。随着技术的发展,未来的语音控制系统将能够处理更加复杂和具体的任务,这种技术的自然和便捷性将显著提高。
感悟
预训练时工程问题,后训练才是技术问题
垂直模型也需要通用知识
评估很难但是很重要
数据决定模型的上限
打卡式人生
从最基本的目标来说,去大公司,是为了升职加薪;读 PhD ,你要保证自己能毕业;而创业的目标是要能推出产品,要么上市,要么卖掉,这是每天都需要思考的。
打工人
打工人的好处是,可以在一个相对简单的环境里学习各种从业知识,比如一个技术如何落地、产品怎么做出来、怎么设计、怎么运营、怎么管理。
那么打工人的坏处是什么?坏处就是停留在打工人或者职业经理人的思维。
读PHD:真心热爱研究,不然难以坚持
好处
读 PhD 的好处是,在几年的时间里可以专心探索某一个领域,反正也没钱赚,也没有升职加薪的机会。PHD期间要有大部分时间都要花在写作和演讲上,努力提高自己的表达与写作的能力。
还有一个好处,很多公司的研发职位要求就是 PhD。
坏处
读 PhD 的坏处是什么?
首先,很少有实验室能参与大项目的研发。
其次是研究课题和导师风格都很挑人,需要你去适应,这个适应过程,要么看你的适应能力有多好,要么看你导师的适应能力有多好。你在公司里面还能够部门之间跳一跳,但读 PhD 就更难一些。
最后,要真的热爱研究,不然坚持不下去,你会觉得研究这个东西到底有什么意义,写这篇论文要干嘛。其实,你可以这样想:我写这篇文章就是为了练习写作,等到更厉害、更大的成果做出来后,写作不能给我拉后腿。你要有一个更远大的目标,是真的热爱它。
动机的来源
强烈的创业动机要么来自很深沉、很底层的欲望,要么来自很深的恐惧。
欲望与恐惧是动机的主要来源。
欲望是越底层越好,名、利、权,都是底层的欲望,要直面自己的欲望,也要直面自己的恐惧,这种恐惧是可以让你抑郁的恐惧,也是让你感受到生死的恐惧。
你需要把欲望和恐惧转变成积极向上的动机,这一点很重要,你的动机一定是正确的,符合价值观的,因为逃避、放纵满足不了欲望,也缓解不了恐惧,唯一克服它的办法是,把它变成一个积极向上、符合社会价值的一个动机。
持续进步的妙招
反思性写作与阶段式总结可以保持持续进步。
你要形成一个习惯,定个闹钟,每周一晚上花 30 分钟对自己进行总结,每个季度要总结,翻看之前你的写的周记,看看这个季度的目标是否完成,下个季度要做什么。
选择比努力更重要,但选择的前提是搞清楚你的目标是什么。
最好的时代:新的技术带来了很多新的机会
最坏的时代:需要付出比上一代人更多
参考
讲座视频:
https://www.youtube.com/watch?v=ziHUcDh0DwM
阅读文章: