Tercera etapa: Datos e ingeniería de características

Bootcamp gratuito de 6 semanas de ingeniería de datos creado por Data with Zach, que cubre modelado de datos, procesamiento de big data, procesamiento de flujo en tiempo real y otras prácticas de ingeniería de datos de nivel empresarial.

DataEngineeringApacheSparkBigDataYouTubeVideoFreeEnglish

Presentación del Curso: Boot Camp de Ingeniería de Datos

Resumen del Curso

  • Instructor: Data with Zach
  • Plataforma: YouTube
  • Naturaleza del curso: Boot Camp gratuito de ingeniería de datos
  • Total de visualizaciones: Más de 2.34 millones de visualizaciones
  • Número de videos: 21 videos

Estructura del Contenido del Curso

Semana 1 - Fundamentos del Modelado de Datos

  1. 6-week Free Data Engineering Boot Camp Launch Video
  2. 6-week Data Engineering Boot Camp Kick off and Informational video
  3. Data Modeling - Complex Data Types and Cumulation - Day 1 Lecture (43:17)
  4. Data Modeling - Cumulative Dimensions, Struct and Array - Day 1 Lab (41:17)
  5. Data Modeling - Slowly Changing Dimensions and Idempotency - Day 2 Lecture (40:26)
  6. Data Modeling - Building Slowly Changing Dimensions (SCDs) - Day 2 Lab (45:39)
  7. Data Modeling - Graph Databases & Additive Dimensions - Day 3 Lecture (34:08)
  8. Data Modeling - Building an NBA Player Network Graph - Day 3 Lab (42:15)

Semana 2 - Procesamiento de Big Data

  1. How Meta Models Big Volume Event Data - Full 4 Hour Course (3:51:54)
  2. Spark + Iceberg in 1 Hour - Memory Tuning, Joins, Partition - Week 3 Day 1 (1:15:02)

Semana 3 - Procesamiento de Datos de Alto Rendimiento y Pruebas

  1. High Performance Spark in 1 hour - DataFrame, Dataset, UDFs, Caching - Week 3 Day 2 (1:10:17)
  2. Testing Apache Spark Jobs in CI/CD - Week 3 Day 3 (1:08:59)
  3. Build a Gold Pipeline like Airbnb MIDAS Process - Week 3 Day 1 Analytics (1:19:47)
  4. Master Data Contracts in 25 minutes! - Week 3 Day 2 Analytics (27:36)
  5. Master Real-time Data Pipelines with Kafka and Flink - 3 hr Course (2:31:36)

Semana 4 - Patrones de Ingeniería de Datos a Nivel Empresarial

  1. Data Engineer Design Patterns at Meta - Growth Accounting - Week 4 Day 1 (1:27:15)
  2. Data Engineering Design Patterns at Meta - Funnel Analysis - Week 4 Day 1 (1:18:19)
  3. Job-Ready Capstone Projects for Analytics Engineering (32:50)

Semana 5 - Mentalidad de Producto y KPIs

  1. Data Engineering like a Product Manager - KPIs & Experiments - Week 5 (2:37:06)

Semana 6 - Mantenimiento y Visualización de Pipelines de Datos

  1. Maintain Data Pipelines Like Netflix and Airbnb - Week 6 (2:24:43)
  2. Build Data-Driven Business Value with Tableau Viz - Week 6 (1:49:41)

Características del Curso

Cobertura de Pila Tecnológica

  • Apache Spark: Optimización de memoria, operaciones de unión (joins), estrategias de particionamiento
  • Apache Kafka: Procesamiento de flujos de datos en tiempo real
  • Apache Flink: Framework de procesamiento de flujos
  • Iceberg: Formato de tabla de lago de datos
  • Datos de la NBA: Práctica de bases de datos de grafos
  • Tableau: Visualización de datos

Prácticas a Nivel Empresarial

  • Patrones de diseño de ingeniería de datos de Meta
  • Estrategias de mantenimiento de pipelines de datos de Netflix y Airbnb
  • Modelado de datos de eventos a gran escala
  • Gestión de contratos de datos

Aprendizaje Basado en Proyectos

  • Construcción de un grafo de red de jugadores de la NBA
  • Implementación del proceso MIDAS de Airbnb
  • Desarrollo de pipelines de datos de extremo a extremo
  • Proyectos de procesamiento de flujos en tiempo real

Audiencia Objetivo

  • Principiantes en ingeniería de datos
  • Desarrolladores que buscan mejorar sus habilidades en procesamiento de big data
  • Ingenieros que desean aprender arquitectura de datos a nivel empresarial
  • Profesionales técnicos interesados en el procesamiento de datos en tiempo real

Resultados del Aprendizaje

  • Dominar la pila tecnológica moderna de ingeniería de datos
  • Comprender las mejores prácticas de procesamiento de datos a nivel empresarial
  • Adquirir la capacidad de construir pipelines de datos escalables
  • Aprender el pensamiento de modelado de datos y diseño de arquitectura