第四阶段:深度学习与神经网络

浙江大学开源LLM教科书,涵盖架构、提示工程、微调、模型编辑和RAG

大型语言模型提示工程PEFTGitHubTextFree多语言

大型语言模型基础 (ZJU-LLMs)

概述

大型语言模型基础是由浙江大学数据库与大数据分析实验室 (DAILY Lab) 创建的一本全面的教育教科书和学习资源。这个开源项目系统地解释了基础知识,并为对这个快速发展的领域感兴趣的读者介绍了与大型语言模型 (LLMs) 相关的尖端技术。

仓库: https://github.com/ZJU-LLMs/Foundations-of-LLMs GitHub 星星数: 11.4k+ 格式: PDF 教科书,包含逐章材料和论文列表

项目理念

作者团队致力于:

  • 倾听开源社区和专家的建议
  • 提供每月更新以保持内容的时效性
  • 创建一本易于理解、严谨且深入的大型模型教科书
  • 通过为每个章节策划的论文列表跟踪最新的技术发展

内容结构

第一版由六个主要章节组成,每个章节都使用不同的动物作为主题背景来阐释特定的技术:

第 1 章:传统语言模型

  • 语言建模的基础概念
  • 语言模型的历史背景和演变

第 2 章:大型语言模型架构

  • LLM 架构的演变
  • 关键的架构创新和设计原则
  • 不同模型结构的比较分析

第 3 章:提示工程

  • 有效提示设计技巧
  • 提示优化策略
  • 应用和最佳实践

第 4 章:参数高效微调 (PEFT)

  • 高效模型适配方法
  • 低资源微调技术
  • LoRA、Prefix-tuning 和其他 PEFT 方法

第 5 章:模型编辑

  • 修改模型知识的技巧
  • 知识更新和纠正方法
  • 在编辑过程中保持模型完整性

第 6 章:检索增强生成 (RAG)

  • 检索系统与生成模型的集成
  • 利用外部知识增强 LLM 输出
  • RAG 架构和实施策略

可用资源

1. 完整教科书

  • 完整的中文 PDF 版本
  • 英文版本也可用
  • 全面覆盖所有六个章节

2. 逐章内容

  • 每个章节的单独 PDF 文件
  • 允许专注于特定主题的研究
  • 易于导航和参考

3. 论文列表

  • 为每个章节策划的相关研究论文集
  • 持续更新最新的研究
  • 跟踪每个领域的尖端发展

未来方向

作者团队计划通过增加以下章节来扩展教科书:

  • LLM 推理加速: 加快模型推理的技术
  • LLM 代理: 由大型语言模型驱动的自主代理
  • LLM 领域中其他新兴主题

目标受众

本学习资源专为以下人群设计:

  • 人工智能和自然语言处理领域的学生和研究人员
  • 从事 LLM 工作的从业者
  • 任何有兴趣了解大型语言模型基础知识的人
  • 构建基于 LLM 的应用程序的开发人员

独特功能

  1. 视觉学习: 每个章节都以独特的动物主题为特色,使概念更易于记忆和吸引人
  2. 社区驱动: 开放接受来自社区的问题和反馈
  3. 定期更新: 每月更新确保内容保持最新
  4. 全面的论文列表: 每个章节都包含策划的研究论文
  5. 免费和开放: 完全开源且可免费访问
  6. 双语支持: 提供中文和英文版本

学术严谨性

内容基于作者团队对相关研究方向的探索和理解。团队积极欢迎通过 GitHub issues 提出的更正和建议,以确保持续改进和准确性。

联系方式

有关教科书的问题或建议:

  • 电子邮件: xuwenyi@zju.edu.cn
  • GitHub Issues: 直接在存储库上提交反馈和建议

此资源的重要性

大型语言模型已成为人工智能领域最具革命性的技术进步之一。本教科书提供:

  • 系统基础: 从传统模型到现代 LLM 构建理解
  • 实用技术: 学习使用 LLM 的可行方法
  • 研究联系: 通过论文列表与最新研究保持联系
  • 渐进式学习: 从基本概念到高级技术

社区认可

该项目在 GitHub 上拥有超过 11,400 颗星,已在 AI/ML 社区中获得广泛认可,成为理解大型语言模型的宝贵教育资源。