google-ai-edge/mediapipeView GitHub Homepage for Latest Official Releases

Solución de aprendizaje automático multiplataforma y personalizable para procesamiento en tiempo real y transmisión.

Apache-2.0C++mediapipegoogle-ai-edge 30.9k Last Updated: August 07, 2025

Introducción detallada al proyecto MediaPipe

Resumen del proyecto

MediaPipe es un framework de aprendizaje automático de código abierto y multiplataforma desarrollado por Google, diseñado específicamente para el procesamiento en tiempo real y streaming. Proporciona un conjunto completo de herramientas y bibliotecas que permiten a los desarrolladores implementar y personalizar fácilmente soluciones de aprendizaje automático en diversas plataformas.

Dirección del proyecto: https://github.com/google-ai-edge/mediapipe

Características principales

1. Soporte multiplataforma

Móvil: Android, iOS
Web: Aplicaciones de navegador
Escritorio: Windows, macOS, Linux
Dispositivos Edge: Dispositivos IoT y sistemas embebidos

2. Soluciones de aprendizaje automático listas para usar

MediaPipe ofrece una variedad de modelos de aprendizaje automático pre-entrenados, que incluyen:

Detección de rostros y malla: Detección de puntos clave faciales en tiempo real
Reconocimiento de gestos: Seguimiento de puntos clave de la mano y clasificación de gestos
Estimación de pose: Detección y seguimiento de la pose corporal completa
Detección de objetos: Reconocimiento y localización de objetos en tiempo real
Segmentación de imágenes: Separación y reemplazo de fondos
Procesamiento de audio: Reconocimiento de voz y clasificación de audio
Procesamiento de texto: Clasificación de texto y detección de idiomas

3. Optimización de alto rendimiento

Optimizado para dispositivos móviles y computación en el borde
Soporte para aceleración por hardware (GPU, NPU)
Diseño ligero, adecuado para dispositivos alimentados por batería
Capacidad de procesamiento en tiempo real

Arquitectura técnica

MediaPipe Solutions

API modernas de alto nivel, que proporcionan:

MediaPipe Tasks: API y bibliotecas multiplataforma
Modelos pre-entrenados: Modelos de aprendizaje automático listos para usar
Model Maker: Para el entrenamiento de modelos personalizados
MediaPipe Studio: Herramienta de evaluación visual en el navegador

MediaPipe Framework

Componentes del framework subyacente, utilizados para construir pipelines de aprendizaje automático personalizados:

Arquitectura de procesamiento basada en grafos
Gestión eficiente del flujo de datos
Diseño modular
Núcleo en C++, enlaces a múltiples lenguajes

Principales casos de uso

1. Realidad Aumentada (AR)

Filtros y efectos faciales
Pruebas de maquillaje virtuales
Seguimiento de objetos 3D

2. Salud y fitness

Análisis de la postura durante el ejercicio
Monitoreo del entrenamiento de rehabilitación
Reconocimiento de movimientos de fitness

3. Seguridad inteligente

Control de acceso por reconocimiento facial
Detección de comportamientos anómalos
Conteo de personas

4. Creación de contenido

Edición automática de video
Reemplazo de fondos
Embellecimiento en tiempo real

5. Tecnología de asistencia

Reconocimiento de lenguaje de señas
Seguimiento ocular
Interacción accesible

Plataformas de desarrollo y soporte de lenguajes

Lenguajes de programación soportados

Python: Soporte completo de la API
JavaScript/TypeScript: Desarrollo web
Java/Kotlin: Desarrollo de Android
Swift/Objective-C: Desarrollo de iOS
C++: Desarrollo de bajo nivel y extensiones personalizadas

Entorno de desarrollo

Android Studio: Desarrollo de aplicaciones Android
Xcode: Desarrollo de aplicaciones iOS
Navegador web: Desarrollo y pruebas de JavaScript
Entorno Python: Desarrollo de aplicaciones de escritorio y prototipos

Instalación y uso

Instalación de Python

pip install mediapipe

Instalación de JavaScript

npm install @mediapipe/tasks-vision

Ejemplo de uso básico (Python)

import mediapipe as mp
import cv2

# Inicialización de la detección de manos
mp_hands = mp.solutions.hands
hands = mp_hands.Hands()

# Procesamiento de fotogramas de video
cap = cv2.VideoCapture(0)
while cap.isOpened():
    ret, frame = cap.read()
    if not ret:
        break
    
    # Detección de manos
    results = hands.process(frame)
    
    # Dibujar resultados
    if results.multi_hand_landmarks:
        for hand_landmarks in results.multi_hand_landmarks:
            mp.solutions.drawing_utils.draw_landmarks(
                frame, hand_landmarks, mp_hands.HAND_CONNECTIONS)
    
    cv2.imshow('MediaPipe Hands', frame)
    if cv2.waitKey(5) & 0xFF == 27:
        break

cap.release()
cv2.destroyAllWindows()

Comunidad y ecosistema

Casos de éxito

Google Meet: Funciones de desenfoque y reemplazo de fondo
YouTube: Función de edición automática de video
Aplicaciones de fitness: Detección y corrección de la postura
Filtros AR: Efectos para redes sociales

Ventajas y características

Ventajas técnicas

Optimización de extremo a extremo: Solución completa desde el entrenamiento del modelo hasta la implementación
Rendimiento en tiempo real: Algoritmos eficientes optimizados para aplicaciones en tiempo real
Baja latencia: Velocidad de procesamiento en milisegundos
Eficiencia de recursos: Uso razonable de CPU y memoria

Ventajas de desarrollo

Fácil de integrar: Diseño de API simple
Ejemplos abundantes: Tutoriales detallados y ejemplos de código
Mantenimiento activo: Actualizaciones y soporte continuos del equipo de Google
Código abierto y gratuito: Licencia Apache 2.0

Resumen

MediaPipe es un framework de aprendizaje automático potente y fácil de usar, especialmente adecuado para el desarrollo de aplicaciones que requieren funciones de IA en tiempo real. Su característica multiplataforma, su alto rendimiento y su rica colección de modelos pre-entrenados lo convierten en una opción ideal para los desarrolladores que buscan construir aplicaciones inteligentes. Tanto los principiantes como los desarrolladores experimentados pueden implementar rápidamente funciones complejas de aprendizaje automático con MediaPipe.