如何从头开始构建 LLM 大模型?

这篇文章面向对神经网络LLM大模型构建感兴趣的人,写这篇文章一方面是作为自己想从头开始了解LLM构建原理,从中有所收获。作为一个应用层面的设计师(我自己),实际上并不需要懂那么多的底层原理,但正如作者介绍的那样,如果你是个赛车手,你完全不需要去建造一辆方程式赛事,因为它太昂贵,付出的时间巨大。

或许我们可以做一辆更加简单,快速上路,不断调试的卡丁车,在这个过程中不断调教,享受这个过程。比如赛车手迈克尔·舒马赫和埃尔顿·塞纳,从而掌握车子性能的敏锐度。或许也比其他设计师更有优势。

作者 Sebastian Raschka 塞巴斯蒂安·拉斯卡 是一名法学硕士 (LLM) 研究工程师,也是《从零开始构建大型语言模型》的作者。作者对推理模型和LLM领域有深入的研究和丰富的经验。他通过自己的努力和研究,为读者提供了有价值的内容,帮助读者更好地理解和掌握LLM技术。

作者将这本书提炼浓缩出7个视频,详细介绍了从头开始构建LLM的各个步骤,包括代码环境的搭建、文本数据的处理、注意力机制的编码、模型架构的实现、预训练、微调等。通过实际的代码示例和详细的讲解,可以深入理解LLM的工作原理,并掌握构建自己的大语言模型的方法。

1.设置代码环境(0:21:01):介绍了如何使用uv设置Python环境。特别提到了使用“uv pip”,并在文档中进行了解释。同时,也提到了原生“uv add”语法。需要注意的是,安装过程可能会在某些版本的Windows上出现问题,如果遇到问题,可以跳过TensorFlow的安装,并使用作者在Hugging Face模型中心共享的转换后的GPT – 2模型权重。

2.处理文本数据(1:28:01):该视频介绍了LLM训练中文本数据的准备步骤,包括分词、字节对编码、数据加载器等。

3.编码注意力机制(2:15:40):详细解释了如何从头开始编码注意力机制,包括自注意力、因果注意力和多头注意力。可以将其类比为构建汽车的发动机。

4.设置代码环境(0:21:01):再次介绍了如何从头开始编码LLM架构。

5.在无标记数据上进行预训练(2:36:44):解释了如何从头开始预训练LLM。

6.用于分类的微调(2:15:29):以垃圾邮件分类为例,介绍了如何将LLM微调为分类器,为下一个视频中的指令微调做铺垫。

7.指令微调(1:46:04):最后介绍了如何对LLM进行指令微调。

作者也提到在学习这个视频中最好搭配书本一起学习,有开发者将其翻译成中文,并通过GitHub进行开源共享,链接为:https://github.com/skindhu/Build-A-Large-Language-Model-CN。该项目提供了原版的英文电子书和翻译后的中文版,按照章节组织,与原版英文书籍一一对应。同时,项目还对原版英文书籍中的图片进行了翻译。

在翻译过程中,采用了分阶段的翻译方案,先使用AI翻译助手进行粗翻译,再由另一个AI Agent进行审查与修正,最后进行人工精细翻译,确保翻译的准确性和流畅度。此外,译者还加入了自己在遇到不理解或不了解的部分时的思考和解读,帮助读者更深入地理解大模型的各个方面。

对于希望深入了解GPT等大模型架构、训练过程及应用开发的开发者来说,《从头开始创建LLM大模型》这本书及其中文翻译版本是不可多得的学习资料。

人工智能与LLMs自我复制能力:娱乐媒体行业的未来变革

随着人工智能技术的飞速发展,尤其是大型语言模型(LLMs)的不断进步,娱乐媒体行业正迎来一场前所未有的变革。LLMs的自我复制能力更是为这一变革增添了无限可能,它不仅将改变内容创作的方式,还将重塑整个娱乐媒体行业的生态。

1. 音乐创作:从辅助到自主

在音乐领域,LLMs的自我复制能力将极大地提升音乐创作的效率和多样性。LLMs可以通过分析海量的音乐作品,学习不同风格的旋律、节奏和和声结构,从而生成与人类作曲家风格相似的音乐作品。例如,AI音乐平台如DeepMusic和天工SkyMusic已经能够一键生成广播质量级别的音乐。未来,LLMs的自我复制能力将进一步优化这些生成过程,甚至可能实现完全自主的音乐创作,为音乐产业注入新的活力。

2. 游戏开发:更智能的体验

在游戏行业,LLMs的自我复制能力将为游戏开发带来新的可能性。AI技术已经广泛应用于游戏策划、剧情创作、音频制作、图像和动画制作等环节,显著提高了游戏制作效率。例如,《黑神话:悟空》制作团队通过与多家厂商合作,融合了多重AI技术,打造了逼真的场景和华丽的视觉效果。未来,LLMs的自我复制能力将进一步提升游戏中的NPC(非玩家控制角色)的智能反应能力,使它们能够根据玩家的行为进行更自然的互动,从而实现更加沉浸的游戏体验。

3. 内容创作:创意与效率的双重提升

LLMs的自我复制能力将为内容创作带来革命性的变化。在影视产业中,LLMs可以分析大量的剧本数据,找出市场上最受欢迎的剧本结构、情节走向和人物设定,为编剧提供创作灵感和参考。例如,AI编剧“Benjamin”已经成功创作了科幻短片《Sunspring》,展示了AI在剧本创作中的潜力。未来,LLMs的自我复制能力将进一步提升剧本创作的效率,甚至能够根据观众的反馈实时调整剧情发展,提升观众的沉浸感。

4. 个性化推荐:更懂你的娱乐体验

LLMs的自我复制能力将进一步优化个性化推荐系统。主流的娱乐流媒体平台,如Netflix、YouTube和腾讯视频,已经利用AI技术为用户提供定制化的观影和听歌推荐。未来,LLMs的自我复制能力将使这些推荐系统更加精准,能够根据用户的情绪、时间段、甚至天气等外部环境因素,推送最适合的内容。这种高度个性化的互动将极大地提升用户的满意度和平台的竞争力。

5. 虚拟现实与增强现实:沉浸式体验的升级

结合LLMs和虚拟现实(VR)、增强现实(AR)技术,娱乐媒体行业将为用户带来更加沉浸式的体验。例如,虚拟演唱会、VR电影等新兴娱乐形式已经在市场上崭露头角。未来,LLMs的自我复制能力将进一步优化这些沉浸式体验,通过生成更加逼真的虚拟场景和角色,让用户仿佛置身于一个全新的世界。

总结

LLMs的自我复制能力将为娱乐媒体行业带来深远的影响。它不仅将提升内容创作的效率和质量,还将推动娱乐体验的个性化和沉浸式发展。然而,这一技术的广泛应用也带来了新的挑战,如版权归属、数据隐私和安全等问题。因此,娱乐媒体行业需要在技术进步的同时,加强伦理和安全方面的研究与监管,以确保技术的健康发展。

随着LLMs技术的不断进步,娱乐媒体行业的未来充满了无限可能。我们期待看到更多创新的应用和体验,同时也希望行业能够在技术与伦理之间找到平衡,推动整个行业向更加智能化、个性化和高效化的方向发展。

延申阅读:https://www.livescience.com/technology/artificial-intelligence/ai-can-now-replicate-itself-a-milestone-that-has-experts-terrified 人工智能现在可以自我复制–这是一个让专家们感到恐惧的里程碑

以上仅仅是畅想LLMS积极的一面对行业的影响,更多负面影响让人细思极恐。这个世界不是非黑即白的,有很多灰色地带我们一无所知,因为人这个物种的特点贪婪、不满于现状,创造了美好,也会因为这一弱点将人类拉入另一个生命维度。

AI自主复制能力既是文明跃升的钥匙,也可能是自我毁灭的按钮。其终极影响不取决于技术本身,而在于人类能否在技术失控前建立全球协作的治理体系,并在哲学层面重新定义「人类与智能的关系」。这一挑战的难度,不亚于人类第一次学会控制火种——稍有不慎,便会引火烧身。

Deepseek R1