第四阶段:深度学习与神经网络
浙江大学开源LLM教科书,涵盖架构、提示工程、微调、模型编辑和RAG
大型语言模型基础 (ZJU-LLMs)
概述
大型语言模型基础是由浙江大学数据库与大数据分析实验室 (DAILY Lab) 创建的一本全面的教育教科书和学习资源。这个开源项目系统地解释了基础知识,并为对这个快速发展的领域感兴趣的读者介绍了与大型语言模型 (LLMs) 相关的尖端技术。
仓库: https://github.com/ZJU-LLMs/Foundations-of-LLMs GitHub 星星数: 11.4k+ 格式: PDF 教科书,包含逐章材料和论文列表
项目理念
作者团队致力于:
- 倾听开源社区和专家的建议
- 提供每月更新以保持内容的时效性
- 创建一本易于理解、严谨且深入的大型模型教科书
- 通过为每个章节策划的论文列表跟踪最新的技术发展
内容结构
第一版由六个主要章节组成,每个章节都使用不同的动物作为主题背景来阐释特定的技术:
第 1 章:传统语言模型
- 语言建模的基础概念
- 语言模型的历史背景和演变
第 2 章:大型语言模型架构
- LLM 架构的演变
- 关键的架构创新和设计原则
- 不同模型结构的比较分析
第 3 章:提示工程
- 有效提示设计技巧
- 提示优化策略
- 应用和最佳实践
第 4 章:参数高效微调 (PEFT)
- 高效模型适配方法
- 低资源微调技术
- LoRA、Prefix-tuning 和其他 PEFT 方法
第 5 章:模型编辑
- 修改模型知识的技巧
- 知识更新和纠正方法
- 在编辑过程中保持模型完整性
第 6 章:检索增强生成 (RAG)
- 检索系统与生成模型的集成
- 利用外部知识增强 LLM 输出
- RAG 架构和实施策略
可用资源
1. 完整教科书
- 完整的中文 PDF 版本
- 英文版本也可用
- 全面覆盖所有六个章节
2. 逐章内容
- 每个章节的单独 PDF 文件
- 允许专注于特定主题的研究
- 易于导航和参考
3. 论文列表
- 为每个章节策划的相关研究论文集
- 持续更新最新的研究
- 跟踪每个领域的尖端发展
未来方向
作者团队计划通过增加以下章节来扩展教科书:
- LLM 推理加速: 加快模型推理的技术
- LLM 代理: 由大型语言模型驱动的自主代理
- LLM 领域中其他新兴主题
目标受众
本学习资源专为以下人群设计:
- 人工智能和自然语言处理领域的学生和研究人员
- 从事 LLM 工作的从业者
- 任何有兴趣了解大型语言模型基础知识的人
- 构建基于 LLM 的应用程序的开发人员
独特功能
- 视觉学习: 每个章节都以独特的动物主题为特色,使概念更易于记忆和吸引人
- 社区驱动: 开放接受来自社区的问题和反馈
- 定期更新: 每月更新确保内容保持最新
- 全面的论文列表: 每个章节都包含策划的研究论文
- 免费和开放: 完全开源且可免费访问
- 双语支持: 提供中文和英文版本
学术严谨性
内容基于作者团队对相关研究方向的探索和理解。团队积极欢迎通过 GitHub issues 提出的更正和建议,以确保持续改进和准确性。
联系方式
有关教科书的问题或建议:
- 电子邮件: xuwenyi@zju.edu.cn
- GitHub Issues: 直接在存储库上提交反馈和建议
此资源的重要性
大型语言模型已成为人工智能领域最具革命性的技术进步之一。本教科书提供:
- 系统基础: 从传统模型到现代 LLM 构建理解
- 实用技术: 学习使用 LLM 的可行方法
- 研究联系: 通过论文列表与最新研究保持联系
- 渐进式学习: 从基本概念到高级技术
社区认可
该项目在 GitHub 上拥有超过 11,400 颗星,已在 AI/ML 社区中获得广泛认可,成为理解大型语言模型的宝贵教育资源。