第三階段:數據與特徵工程

由Data with Zach製作的6週免費數據工程訓練營,涵蓋數據建模、大數據處理、即時流處理等企業級數據工程實踐

DataEngineeringApacheSparkBigDataYouTubeVideoFreeEnglish

Data Engineering Boot Camp 課程介紹

課程概述

  • 講師: Data with Zach
  • 平台: YouTube
  • 課程性質: 免費數據工程訓練營
  • 總觀看數: 超過234萬次觀看
  • 影片數量: 21個影片

課程內容結構

Week 1 - 數據建模基礎

  1. 6-week Free Data Engineering Boot Camp Launch Video
  2. 6-week Data Engineering Boot Camp Kick off and Informational video
  3. Data Modeling - Complex Data Types and Cumulation - Day 1 Lecture (43:17)
  4. Data Modeling - Cumulative Dimensions, Struct and Array - Day 1 Lab (41:17)
  5. Data Modeling - Slowly Changing Dimensions and Idempotency - Day 2 Lecture (40:26)
  6. Data Modeling - Building Slowly Changing Dimensions (SCDs) - Day 2 Lab (45:39)
  7. Data Modeling - Graph Databases & Additive Dimensions - Day 3 Lecture (34:08)
  8. Data Modeling - Building an NBA Player Network Graph - Day 3 Lab (42:15)

Week 2 - 大數據處理

  1. How Meta Models Big Volume Event Data - Full 4 Hour Course (3:51:54)
  2. Spark + Iceberg in 1 Hour - Memory Tuning, Joins, Partition - Week 3 Day 1 (1:15:02)

Week 3 - 高效能數據處理與測試

  1. High Performance Spark in 1 hour - DataFrame, Dataset, UDFs, Caching - Week 3 Day 2 (1:10:17)
  2. Testing Apache Spark Jobs in CI/CD - Week 3 Day 3 (1:08:59)
  3. Build a Gold Pipeline like Airbnb MIDAS Process - Week 3 Day 1 Analytics (1:19:47)
  4. Master Data Contracts in 25 minutes! - Week 3 Day 2 Analytics (27:36)
  5. Master Real-time Data Pipelines with Kafka and Flink - 3 hr Course (2:31:36)

Week 4 - 企業級數據工程模式

  1. Data Engineer Design Patterns at Meta - Growth Accounting - Week 4 Day 1 (1:27:15)
  2. Data Engineering Design Patterns at Meta - Funnel Analysis - Week 4 Day 1 (1:18:19)
  3. Job-Ready Capstone Projects for Analytics Engineering (32:50)

Week 5 - 產品思維與KPI

  1. Data Engineering like a Product Manager - KPIs & Experiments - Week 5 (2:37:06)

Week 6 - 數據管道維護與視覺化

  1. Maintain Data Pipelines Like Netflix and Airbnb - Week 6 (2:24:43)
  2. Build Data-Driven Business Value with Tableau Viz - Week 6 (1:49:41)

課程特色

技術棧涵蓋

  • Apache Spark: 記憶體調優、連接操作、分區策略
  • Apache Kafka: 即時數據流處理
  • Apache Flink: 流處理框架
  • Iceberg: 數據湖表格式
  • NBA數據: 圖資料庫實踐
  • Tableau: 數據視覺化

企業級實踐

  • Meta公司的數據工程設計模式
  • Netflix和Airbnb的數據管道維護策略
  • 大規模事件數據建模
  • 數據契約管理

專案驅動學習

  • 建構NBA球員網路圖
  • 實現Airbnb MIDAS流程
  • 端到端數據管道開發
  • 即時流處理專案

適合人群

  • 數據工程初學者
  • 希望提升大數據處理技能的開發者
  • 想要學習企業級數據架構的工程師
  • 對即時數據處理感興趣的技術人員

學習收穫

  • 掌握現代數據工程技術棧
  • 了解企業級數據處理最佳實踐
  • 具備建構可擴展數據管道的能力
  • 學會數據建模和架構設計思維