第三阶段:数据与特征工程

由Data with Zach制作的6周免费数据工程训练营,涵盖数据建模、大数据处理、实时流处理等企业级数据工程实践

DataEngineeringApacheSparkBigDataYouTubeVideoFreeEnglish

Data Engineering Boot Camp 课程介绍

课程概述

  • 讲师: Data with Zach
  • 平台: YouTube
  • 课程性质: 免费数据工程训练营
  • 总观看数: 超过234万次观看
  • 视频数量: 21个视频

课程内容结构

Week 1 - 数据建模基础

  1. 6-week Free Data Engineering Boot Camp Launch Video
  2. 6-week Data Engineering Boot Camp Kick off and Informational video
  3. Data Modeling - Complex Data Types and Cumulation - Day 1 Lecture (43:17)
  4. Data Modeling - Cumulative Dimensions, Struct and Array - Day 1 Lab (41:17)
  5. Data Modeling - Slowly Changing Dimensions and Idempotency - Day 2 Lecture (40:26)
  6. Data Modeling - Building Slowly Changing Dimensions (SCDs) - Day 2 Lab (45:39)
  7. Data Modeling - Graph Databases & Additive Dimensions - Day 3 Lecture (34:08)
  8. Data Modeling - Building an NBA Player Network Graph - Day 3 Lab (42:15)

Week 2 - 大数据处理

  1. How Meta Models Big Volume Event Data - Full 4 Hour Course (3:51:54)
  2. Spark + Iceberg in 1 Hour - Memory Tuning, Joins, Partition - Week 3 Day 1 (1:15:02)

Week 3 - 高性能数据处理与测试

  1. High Performance Spark in 1 hour - DataFrame, Dataset, UDFs, Caching - Week 3 Day 2 (1:10:17)
  2. Testing Apache Spark Jobs in CI/CD - Week 3 Day 3 (1:08:59)
  3. Build a Gold Pipeline like Airbnb MIDAS Process - Week 3 Day 1 Analytics (1:19:47)
  4. Master Data Contracts in 25 minutes! - Week 3 Day 2 Analytics (27:36)
  5. Master Real-time Data Pipelines with Kafka and Flink - 3 hr Course (2:31:36)

Week 4 - 企业级数据工程模式

  1. Data Engineer Design Patterns at Meta - Growth Accounting - Week 4 Day 1 (1:27:15)
  2. Data Engineering Design Patterns at Meta - Funnel Analysis - Week 4 Day 1 (1:18:19)
  3. Job-Ready Capstone Projects for Analytics Engineering (32:50)

Week 5 - 产品思维与KPI

  1. Data Engineering like a Product Manager - KPIs & Experiments - Week 5 (2:37:06)

Week 6 - 数据管道维护与可视化

  1. Maintain Data Pipelines Like Netflix and Airbnb - Week 6 (2:24:43)
  2. Build Data-Driven Business Value with Tableau Viz - Week 6 (1:49:41)

课程特点

技术栈覆盖

  • Apache Spark: 内存调优、连接操作、分区策略
  • Apache Kafka: 实时数据流处理
  • Apache Flink: 流处理框架
  • Iceberg: 数据湖表格式
  • NBA数据: 图数据库实践
  • Tableau: 数据可视化

企业级实践

  • Meta公司的数据工程设计模式
  • Netflix和Airbnb的数据管道维护策略
  • 大规模事件数据建模
  • 数据契约管理

项目驱动学习

  • 构建NBA球员网络图
  • 实现Airbnb MIDAS流程
  • 端到端数据管道开发
  • 实时流处理项目

适合人群

  • 数据工程初学者
  • 希望提升大数据处理技能的开发者
  • 想要学习企业级数据架构的工程师
  • 对实时数据处理感兴趣的技术人员

学习收获

  • 掌握现代数据工程技术栈
  • 了解企业级数据处理最佳实践
  • 具备构建可扩展数据管道的能力
  • 学会数据建模和架构设计思维