horovod/horovodPlease refer to the latest official releases for information GitHub Homepage

Horovod 是一個用於 TensorFlow、Keras、PyTorch 和 Apache MXNet 的分散式深度學習訓練框架。

NOASSERTIONPython 14.5khorovod Last Updated: 2025-04-22

Horovod：分散式深度學習框架

簡介

Horovod 是 Uber 開發的開源分散式深度學習訓練框架。它的目標是使分散式深度學習訓練更加簡單、快速和易於使用。Horovod 支援 TensorFlow、Keras、PyTorch 和 Apache MXNet 等流行的深度學習框架。

核心特性

易於使用： Horovod 提供了簡單的 API，可以輕鬆地將單機訓練程式碼轉換為分散式訓練程式碼。
高性能： Horovod 使用高效的通訊機制 (例如，MPI 和 NCCL) 來實現快速的分散式訓練。
可擴展性： Horovod 可以擴展到數百個 GPU 或 CPU 節點，以處理大規模的深度學習模型和資料集。
靈活性： Horovod 支援多種深度學習框架，並可以與各種硬體平台整合。
開源： Horovod 是一個開源專案，擁有活躍的社群支援。

主要優勢

更快的訓練速度： 透過在多個 GPU 或 CPU 節點上並行訓練模型，Horovod 可以顯著縮短訓練時間。
更大的模型容量： Horovod 允許訓練比單機環境更大的模型，因為模型可以分佈在多個節點的記憶體中。
更高的数据吞吐量： Horovod 可以處理更大的資料集，因為它可以在多個節點上並行載入和處理資料。
更好的資源利用率： Horovod 可以更有效地利用計算資源，因為它可以在多個節點上分配工作負載。

支援的框架

Horovod 主要支援以下深度學習框架：

TensorFlow： Google 開發的流行的深度學習框架。
Keras： 一個高級神經網路 API，可以運行在 TensorFlow、Theano 和 CNTK 之上。
PyTorch： Facebook 開發的另一個流行的深度學習框架。
Apache MXNet： Apache 基金會開發的靈活且高效的深度學習框架。

通訊機制

Horovod 支援以下通訊機制：

MPI (Message Passing Interface)： 一種用於在多個節點之間進行通訊的標準協定。Horovod 使用 MPI 來協調分散式訓練過程。
NCCL (NVIDIA Collective Communications Library)： NVIDIA 開發的用於在 GPU 之間進行高性能通訊的庫。Horovod 使用 NCCL 來加速 GPU 上的分散式訓練。
gloo： Facebook 開發的集體通訊庫，支援多種硬體平台。
TCP/IP： Horovod 也可以使用 TCP/IP 進行通訊，但通常性能不如 MPI 或 NCCL。

安裝

Horovod 的安裝過程取決於您使用的深度學習框架和通訊機制。通常，您需要先安裝 MPI 或 NCCL，然後使用 pip 安裝 Horovod。

例如，要使用 pip 安裝 Horovod 並支援 TensorFlow 和 NCCL，您可以運行以下命令：

pip install horovod[tensorflow,gpu]

請參考 Horovod 官方文檔獲取更詳細的安裝說明：https://github.com/horovod/horovod

使用方法

使用 Horovod 進行分散式訓練通常涉及以下步驟：

初始化 Horovod： 在訓練腳本的開頭，呼叫 horovod.init() 初始化 Horovod。
固定 GPU (可選)： 為了提高性能，可以将每個進程固定到特定的 GPU。
縮放學習率： 由於使用了多個節點進行訓練，需要根據節點數量調整學習率。
使用 DistributedOptimizer： 使用 Horovod 提供的 DistributedOptimizer 包裝原始的優化器。
廣播初始狀態： 將模型的初始狀態從 rank 0 廣播到所有其他 rank。
保存檢查點 (僅在 rank 0 上)： 為了避免重複保存，通常只在 rank 0 上保存模型的檢查點。

以下是一個使用 Horovod 進行 TensorFlow 分散式訓練的簡單示例：

import tensorflow as tf
import horovod.tensorflow as hvd

# 1. 初始化 Horovod
hvd.init()

# 2. 固定 GPU
gpus = tf.config.experimental.list_physical_devices('GPU')
for gpu in gpus:
    tf.config.experimental.set_memory_growth(gpu, True)
if gpus:
    tf.config.experimental.set_visible_devices(gpus[hvd.local_rank()], 'GPU')

# 3. 載入資料集
(mnist_images, mnist_labels), _ = tf.keras.datasets.mnist.load_data()

dataset = tf.data.Dataset.from_tensor_slices(
    (tf.cast(mnist_images[..., None] / 255.0, tf.float32),
     tf.cast(mnist_labels, tf.int64)))
dataset = dataset.repeat().shuffle(10000).batch(128)

# 4. 構建模型
model = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(32, [3, 3], activation='relu'),
    tf.keras.layers.Conv2D(64, [3, 3], activation='relu'),
    tf.keras.layers.MaxPooling2D(pool_size=(2, 2)),
    tf.keras.layers.Dropout(0.25),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.Dense(10, activation='softmax')
])

# 5. 定義優化器
opt = tf.keras.optimizers.Adam(0.001 * hvd.size()) # 縮放學習率

# 6. 使用 DistributedOptimizer
opt = hvd.DistributedOptimizer(opt)

# 7. 定義損失函數和指標
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy()
metric = tf.keras.metrics.SparseCategoricalAccuracy()

# 8. 定義訓練步驟
@tf.function
def train_step(images, labels):
    with tf.GradientTape() as tape:
        probs = model(images, training=True)
        loss = loss_fn(labels, probs)

    tape = hvd.DistributedGradientTape(tape)
    gradients = tape.gradient(loss, model.trainable_variables)
    opt.apply_gradients(zip(gradients, model.trainable_variables))
    metric.update_state(labels, probs)
    return loss

# 9. 廣播初始變數
@tf.function
def initialize_vars():
    if hvd.rank() == 0:
        model(tf.zeros((1, 28, 28, 1)))
        hvd.broadcast_variables(model.variables, root_rank=0)
        hvd.broadcast_variables(opt.variables(), root_rank=0)

initialize_vars()

# 10. 訓練迴圈
for batch, (images, labels) in enumerate(dataset.take(10000 // hvd.size())):
    loss = train_step(images, labels)

    if batch % 10 == 0 and hvd.rank() == 0:
        print('batch: %d, loss: %.4f, accuracy: %.2f' % (batch, loss, metric.result()))

最佳實踐

選擇合適的通訊機制： 根據您的硬體平台和網路環境選擇合適的通訊機制 (MPI, NCCL, Gloo)。
調整學習率： 根據節點數量調整學習率，以獲得最佳的訓練效果。
監控訓練過程： 使用 TensorBoard 或其他工具監控訓練過程，以檢測和解決問題。
使用資料並行： Horovod 主要用於資料並行，即將資料集分成多個部分，並在不同的節點上訓練模型的副本。
避免資料傾斜： 確保資料集在各個節點之間均勻分佈，以避免資料傾斜導致訓練效率下降。

總結

Horovod 是一個強大的分散式深度學習框架，可以幫助您更輕鬆、更快速地訓練大規模的深度學習模型。透過利用多個 GPU 或 CPU 節點，Horovod 可以顯著縮短訓練時間，並提高模型的準確性。

資源

Horovod GitHub 倉庫： https://github.com/horovod/horovod
Horovod 官方文檔： https://horovod.readthedocs.io/en/stable/
Horovod 示例： https://github.com/horovod/horovod/tree/master/examples