Tercera etapa: Datos e ingeniería de características
Más de 70 recetas prácticas de ingeniería de características en Python, una guía completa que cubre el preprocesamiento de datos, la creación, la transformación y la optimización de características.
Python Feature Engineering Cookbook: Introducción Detallada
Resumen
Python Feature Engineering Cookbook es un libro técnico especializado publicado por Packt Publishing, que ofrece más de 70 recetas prácticas para crear, diseñar y transformar características (features) para la construcción de modelos de aprendizaje automático. El repositorio de código de este libro está alojado en GitHub, proporcionando a los estudiantes código práctico completo.
Introducción del Autor
Soledad Galli es una científica de datos principal (Chief Data Scientist) experimentada, con más de 10 años de experiencia en instituciones académicas de primer nivel y empresas reconocidas. Ha investigado, desarrollado e implementado en producción modelos de aprendizaje automático para reclamaciones de seguros, evaluación de riesgos de crédito y prevención de fraude. Soledad recibió el premio Data Science Leader Award en 2018 y fue nombrada una de las voces en el campo de la ciencia de datos y el análisis de LinkedIn en 2019.
Características Principales del Contenido
Cobertura de Habilidades Clave
Este libro cubre las siguientes características emocionantes:
- Simplificación de los pipelines de ingeniería de características: Uso de potentes paquetes de Python para simplificar el proceso de ingeniería de características.
- Manejo de valores faltantes: Dominio de técnicas para imputar valores faltantes.
- Codificación de variables categóricas: Uso de múltiples técnicas para codificar variables categóricas.
- Extracción de características de texto: Extracción rápida y eficiente de insights de texto.
- Desarrollo de características de series temporales: Desarrollo de características a partir de datos transaccionales y de series temporales.
- Combinación de características: Derivación de nuevas características mediante la combinación de variables existentes.
- Transformación de variables: Comprensión de cómo transformar, discretizar y escalar variables.
- Creación de características temporales: Creación de variables informativas a partir de fechas y horas.
Arquitectura Técnica
# Estructura de código de ejemplo
def get_first_cabin(row):
try:
return row.split()[0]
except:
return np.nan
Requisitos Técnicos
Requisitos de Software
Capítulo | Software Requerido | Requisitos del Sistema Operativo |
---|---|---|
1-11 | Python 3.5+, Anaconda Distribution, IDE (preferencia personal) | Windows, Mac OS X, Linux (cualquier versión) |
Prerrequisitos de Aprendizaje
Este libro es adecuado para profesionales del aprendizaje automático, ingenieros de IA, científicos de datos, así como ingenieros de PNL (Procesamiento del Lenguaje Natural) y de aprendizaje por refuerzo que deseen optimizar y enriquecer sus modelos de aprendizaje automático con las mejores características. Tener conocimientos de aprendizaje automático y programación en Python será útil para comprender los conceptos cubiertos en este libro.
Organización del Contenido
Estructura de Capítulos
Todo el código está organizado en carpetas, con un total de 11 capítulos, dispuestos en un orden natural de lo básico a lo avanzado. Cada capítulo proporciona recetas prácticas detalladas para ayudar a los lectores a dominar gradualmente todos los aspectos de la ingeniería de características.
Orientación Práctica
Este libro adopta el formato de "libro de cocina" (Cookbook), donde cada receta es un caso práctico completo que incluye:
- Descripción del problema
- Solución
- Implementación del código
- Explicación de los resultados
Valor de Aprendizaje
Practicidad
La ingeniería de características es invaluable para desarrollar y enriquecer modelos de aprendizaje automático. En este libro, utilizará las mejores herramientas de Python para simplificar el proceso de ingeniería de características, dominar las técnicas de ingeniería de características y simplificar y mejorar la calidad del código.
Listo para Producción
Este libro no solo proporciona conocimientos teóricos, sino que, lo que es más importante, ofrece habilidades prácticas y código directamente aplicables en entornos de producción, ayudando a los lectores a construir pipelines de ingeniería de características de extremo a extremo.
Recursos Adicionales
Material Suplementario
También se proporciona un archivo PDF con imágenes en color de las capturas de pantalla/diagramas del libro, mejorando la experiencia de aprendizaje.
Actualizaciones de Versión
Este proyecto tiene varias versiones:
- Primera edición (original)
- Segunda edición (mejorada)
- Tercera edición (más reciente)
Cada versión tiene su repositorio de código correspondiente en GitHub, con actualizaciones y mantenimiento continuos.
Resumen
Python Feature Engineering Cookbook es un libro técnico de gran utilidad que, a través de más de 70 recetas prácticas, introduce sistemáticamente todos los aspectos de la ingeniería de características en Python. Tanto los principiantes como los científicos de datos experimentados podrán obtener valiosa experiencia práctica y mejorar sus habilidades.