horovod/horovodPlease refer to the latest official releases for information GitHub Homepage

Horovod é uma estrutura de treinamento de aprendizado profundo distribuído para TensorFlow, Keras, PyTorch e Apache MXNet.

NOASSERTIONPython 14.5khorovod Last Updated: 2025-04-22

Horovod: Framework de Aprendizagem Profunda Distribuída

Introdução

Horovod é um framework de treinamento de aprendizagem profunda distribuída de código aberto desenvolvido pela Uber. Seu objetivo é tornar o treinamento de aprendizagem profunda distribuída mais simples, rápido e fácil de usar. O Horovod suporta frameworks populares de aprendizagem profunda como TensorFlow, Keras, PyTorch e Apache MXNet.

Características Principais

Fácil de usar: O Horovod oferece uma API simples que facilita a conversão de código de treinamento de máquina única em código de treinamento distribuído.
Alto desempenho: O Horovod usa mecanismos de comunicação eficientes (por exemplo, MPI e NCCL) para obter um treinamento distribuído rápido.
Escalabilidade: O Horovod pode ser escalado para centenas de nós de GPU ou CPU para lidar com modelos e conjuntos de dados de aprendizagem profunda em larga escala.
Flexibilidade: O Horovod suporta vários frameworks de aprendizagem profunda e pode ser integrado com várias plataformas de hardware.
Código aberto: O Horovod é um projeto de código aberto com um suporte ativo da comunidade.

Principais Vantagens

Velocidade de treinamento mais rápida: Ao treinar modelos em paralelo em vários nós de GPU ou CPU, o Horovod pode reduzir significativamente o tempo de treinamento.
Maior capacidade do modelo: O Horovod permite treinar modelos maiores do que em um ambiente de máquina única, pois o modelo pode ser distribuído na memória de vários nós.
Maior taxa de transferência de dados: O Horovod pode lidar com conjuntos de dados maiores, pois pode carregar e processar dados em paralelo em vários nós.
Melhor utilização de recursos: O Horovod pode utilizar os recursos computacionais de forma mais eficiente, pois pode alocar cargas de trabalho em vários nós.

Frameworks Suportados

O Horovod suporta principalmente os seguintes frameworks de aprendizagem profunda:

TensorFlow: Um framework popular de aprendizagem profunda desenvolvido pelo Google.
Keras: Uma API de rede neural de alto nível que pode ser executada em TensorFlow, Theano e CNTK.
PyTorch: Outro framework popular de aprendizagem profunda desenvolvido pelo Facebook.
Apache MXNet: Um framework de aprendizagem profunda flexível e eficiente desenvolvido pela Apache Foundation.

Mecanismos de Comunicação

O Horovod suporta os seguintes mecanismos de comunicação:

MPI (Message Passing Interface): Um protocolo padrão para comunicação entre vários nós. O Horovod usa MPI para coordenar o processo de treinamento distribuído.
NCCL (NVIDIA Collective Communications Library): Uma biblioteca desenvolvida pela NVIDIA para comunicação de alto desempenho entre GPUs. O Horovod usa NCCL para acelerar o treinamento distribuído em GPUs.
gloo: Biblioteca de comunicação coletiva desenvolvida pelo Facebook, que suporta várias plataformas de hardware.
TCP/IP: O Horovod também pode usar TCP/IP para comunicação, mas geralmente o desempenho não é tão bom quanto MPI ou NCCL.

Instalação

O processo de instalação do Horovod depende do framework de aprendizagem profunda e do mecanismo de comunicação que você está usando. Normalmente, você precisa instalar o MPI ou NCCL primeiro e, em seguida, instalar o Horovod usando o pip.

Por exemplo, para instalar o Horovod usando pip com suporte para TensorFlow e NCCL, você pode executar o seguinte comando:

pip install horovod[tensorflow,gpu]

Consulte a documentação oficial do Horovod para obter instruções de instalação mais detalhadas: https://github.com/horovod/horovod

Como Usar

O uso do Horovod para treinamento distribuído geralmente envolve as seguintes etapas:

Inicializar o Horovod: No início do script de treinamento, chame horovod.init() para inicializar o Horovod.
Fixar GPU (opcional): Para melhorar o desempenho, você pode fixar cada processo a uma GPU específica.
Escalonar a taxa de aprendizado: Como vários nós são usados para treinamento, você precisa ajustar a taxa de aprendizado de acordo com o número de nós.
Usar DistributedOptimizer: Use o DistributedOptimizer fornecido pelo Horovod para encapsular o otimizador original.
Transmitir o estado inicial: Transmita o estado inicial do modelo do rank 0 para todos os outros ranks.
Salvar checkpoints (apenas no rank 0): Para evitar salvamentos duplicados, geralmente você salva os checkpoints do modelo apenas no rank 0.

Aqui está um exemplo simples de como usar o Horovod para treinamento distribuído do TensorFlow:

import tensorflow as tf
import horovod.tensorflow as hvd

# 1. Inicializar o Horovod
hvd.init()

# 2. Fixar GPU
gpus = tf.config.experimental.list_physical_devices('GPU')
for gpu in gpus:
    tf.config.experimental.set_memory_growth(gpu, True)
if gpus:
    tf.config.experimental.set_visible_devices(gpus[hvd.local_rank()], 'GPU')

# 3. Carregar o conjunto de dados
(mnist_images, mnist_labels), _ = tf.keras.datasets.mnist.load_data()

dataset = tf.data.Dataset.from_tensor_slices(
    (tf.cast(mnist_images[..., None] / 255.0, tf.float32),
     tf.cast(mnist_labels, tf.int64)))
dataset = dataset.repeat().shuffle(10000).batch(128)

# 4. Construir o modelo
model = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(32, [3, 3], activation='relu'),
    tf.keras.layers.Conv2D(64, [3, 3], activation='relu'),
    tf.keras.layers.MaxPooling2D(pool_size=(2, 2)),
    tf.keras.layers.Dropout(0.25),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.Dense(10, activation='softmax')
])

# 5. Definir o otimizador
opt = tf.keras.optimizers.Adam(0.001 * hvd.size()) # Escalonar a taxa de aprendizado

# 6. Usar DistributedOptimizer
opt = hvd.DistributedOptimizer(opt)

# 7. Definir a função de perda e métricas
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy()
metric = tf.keras.metrics.SparseCategoricalAccuracy()

# 8. Definir a etapa de treinamento
@tf.function
def train_step(images, labels):
    with tf.GradientTape() as tape:
        probs = model(images, training=True)
        loss = loss_fn(labels, probs)

    tape = hvd.DistributedGradientTape(tape)
    gradients = tape.gradient(loss, model.trainable_variables)
    opt.apply_gradients(zip(gradients, model.trainable_variables))
    metric.update_state(labels, probs)
    return loss

# 9. Transmitir variáveis iniciais
@tf.function
def initialize_vars():
    if hvd.rank() == 0:
        model(tf.zeros((1, 28, 28, 1)))
        hvd.broadcast_variables(model.variables, root_rank=0)
        hvd.broadcast_variables(opt.variables(), root_rank=0)

initialize_vars()

# 10. Loop de treinamento
for batch, (images, labels) in enumerate(dataset.take(10000 // hvd.size())):
    loss = train_step(images, labels)

    if batch % 10 == 0 and hvd.rank() == 0:
        print('batch: %d, loss: %.4f, accuracy: %.2f' % (batch, loss, metric.result()))

Melhores Práticas

Escolher o mecanismo de comunicação apropriado: Escolha o mecanismo de comunicação apropriado (MPI, NCCL, Gloo) com base em sua plataforma de hardware e ambiente de rede.
Ajustar a taxa de aprendizado: Ajuste a taxa de aprendizado de acordo com o número de nós para obter os melhores resultados de treinamento.
Monitorar o processo de treinamento: Use o TensorBoard ou outras ferramentas para monitorar o processo de treinamento para detectar e resolver problemas.
Usar paralelismo de dados: O Horovod é usado principalmente para paralelismo de dados, que divide o conjunto de dados em várias partes e treina cópias do modelo em diferentes nós.
Evitar o desequilíbrio de dados: Certifique-se de que o conjunto de dados esteja distribuído uniformemente entre os nós para evitar que o desequilíbrio de dados reduza a eficiência do treinamento.

Resumo

Horovod é um poderoso framework de aprendizagem profunda distribuída que pode ajudá-lo a treinar modelos de aprendizagem profunda em larga escala com mais facilidade e rapidez. Ao utilizar vários nós de GPU ou CPU, o Horovod pode reduzir significativamente o tempo de treinamento e melhorar a precisão do modelo.

Recursos

Repositório Horovod GitHub: https://github.com/horovod/horovod
Documentação oficial do Horovod: https://horovod.readthedocs.io/en/stable/
Exemplos do Horovod: https://github.com/horovod/horovod/tree/master/examples