horovod/horovodPlease refer to the latest official releases for information GitHub Homepage

Horovod는 TensorFlow, Keras, PyTorch 및 Apache MXNet을 위한 분산 딥러닝 훈련 프레임워크입니다.

NOASSERTIONPython 14.5khorovod Last Updated: 2025-04-22

Horovod: 분산 딥러닝 프레임워크

소개

Horovod는 Uber에서 개발한 오픈 소스 분산 딥러닝 훈련 프레임워크입니다. Horovod의 목표는 분산 딥러닝 훈련을 더욱 간단하고 빠르며 사용하기 쉽게 만드는 것입니다. Horovod는 TensorFlow, Keras, PyTorch 및 Apache MXNet과 같은 인기 있는 딥러닝 프레임워크를 지원합니다.

핵심 기능

사용 용이성: Horovod는 간단한 API를 제공하여 단일 머신 훈련 코드를 분산 훈련 코드로 쉽게 변환할 수 있습니다.
고성능: Horovod는 효율적인 통신 메커니즘(예: MPI 및 NCCL)을 사용하여 빠른 분산 훈련을 구현합니다.
확장성: Horovod는 수백 개의 GPU 또는 CPU 노드로 확장하여 대규모 딥러닝 모델 및 데이터 세트를 처리할 수 있습니다.
유연성: Horovod는 다양한 딥러닝 프레임워크를 지원하며 다양한 하드웨어 플랫폼과 통합될 수 있습니다.
오픈 소스: Horovod는 활발한 커뮤니티 지원을 받는 오픈 소스 프로젝트입니다.

주요 장점

더 빠른 훈련 속도: 여러 GPU 또는 CPU 노드에서 모델을 병렬로 훈련함으로써 Horovod는 훈련 시간을 크게 단축할 수 있습니다.
더 큰 모델 용량: Horovod는 모델이 여러 노드의 메모리에 분산될 수 있으므로 단일 머신 환경보다 더 큰 모델을 훈련할 수 있습니다.
더 높은 데이터 처리량: Horovod는 여러 노드에서 데이터를 병렬로 로드하고 처리할 수 있으므로 더 큰 데이터 세트를 처리할 수 있습니다.
더 나은 리소스 활용률: Horovod는 여러 노드에 워크로드를 분산할 수 있으므로 컴퓨팅 리소스를 보다 효율적으로 활용할 수 있습니다.

지원되는 프레임워크

Horovod는 주로 다음 딥러닝 프레임워크를 지원합니다.

TensorFlow: Google에서 개발한 인기 있는 딥러닝 프레임워크입니다.
Keras: TensorFlow, Theano 및 CNTK에서 실행할 수 있는 고급 신경망 API입니다.
PyTorch: Facebook에서 개발한 또 다른 인기 있는 딥러닝 프레임워크입니다.
Apache MXNet: Apache 재단에서 개발한 유연하고 효율적인 딥러닝 프레임워크입니다.

통신 메커니즘

Horovod는 다음 통신 메커니즘을 지원합니다.

MPI (Message Passing Interface): 여러 노드 간의 통신을 위한 표준 프로토콜입니다. Horovod는 MPI를 사용하여 분산 훈련 프로세스를 조정합니다.
NCCL (NVIDIA Collective Communications Library): NVIDIA에서 개발한 GPU 간의 고성능 통신을 위한 라이브러리입니다. Horovod는 NCCL을 사용하여 GPU에서 분산 훈련을 가속화합니다.
gloo: Facebook에서 개발한 집단 통신 라이브러리로, 다양한 하드웨어 플랫폼을 지원합니다.
TCP/IP: Horovod는 TCP/IP를 사용하여 통신할 수도 있지만 일반적으로 MPI 또는 NCCL만큼 성능이 좋지 않습니다.

설치

Horovod 설치 프로세스는 사용하는 딥러닝 프레임워크 및 통신 메커니즘에 따라 다릅니다. 일반적으로 먼저 MPI 또는 NCCL을 설치한 다음 pip를 사용하여 Horovod를 설치해야 합니다.

예를 들어 pip를 사용하여 Horovod를 설치하고 TensorFlow 및 NCCL을 지원하려면 다음 명령을 실행할 수 있습니다.

pip install horovod[tensorflow,gpu]

자세한 설치 지침은 Horovod 공식 문서를 참조하십시오: https://github.com/horovod/horovod

사용 방법

Horovod를 사용하여 분산 훈련을 수행하는 데는 일반적으로 다음 단계가 포함됩니다.

Horovod 초기화: 훈련 스크립트의 시작 부분에서 horovod.init()를 호출하여 Horovod를 초기화합니다.
GPU 고정 (선택 사항): 성능을 향상시키기 위해 각 프로세스를 특정 GPU에 고정할 수 있습니다.
학습률 조정: 여러 노드를 사용하여 훈련하므로 노드 수에 따라 학습률을 조정해야 합니다.
DistributedOptimizer 사용: Horovod에서 제공하는 DistributedOptimizer를 사용하여 원래 옵티마이저를 래핑합니다.
초기 상태 브로드캐스트: 모델의 초기 상태를 rank 0에서 다른 모든 rank로 브로드캐스트합니다.
체크포인트 저장 (rank 0에서만): 중복 저장을 방지하기 위해 일반적으로 rank 0에서만 모델의 체크포인트를 저장합니다.

다음은 Horovod를 사용하여 TensorFlow 분산 훈련을 수행하는 간단한 예입니다.

import tensorflow as tf
import horovod.tensorflow as hvd

# 1. Horovod 초기화
hvd.init()

# 2. GPU 고정
gpus = tf.config.experimental.list_physical_devices('GPU')
for gpu in gpus:
    tf.config.experimental.set_memory_growth(gpu, True)
if gpus:
    tf.config.experimental.set_visible_devices(gpus[hvd.local_rank()], 'GPU')

# 3. 데이터 세트 로드
(mnist_images, mnist_labels), _ = tf.keras.datasets.mnist.load_data()

dataset = tf.data.Dataset.from_tensor_slices(
    (tf.cast(mnist_images[..., None] / 255.0, tf.float32),
     tf.cast(mnist_labels, tf.int64)))
dataset = dataset.repeat().shuffle(10000).batch(128)

# 4. 모델 구축
model = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(32, [3, 3], activation='relu'),
    tf.keras.layers.Conv2D(64, [3, 3], activation='relu'),
    tf.keras.layers.MaxPooling2D(pool_size=(2, 2)),
    tf.keras.layers.Dropout(0.25),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.Dense(10, activation='softmax')
])

# 5. 옵티마이저 정의
opt = tf.keras.optimizers.Adam(0.001 * hvd.size()) # 학습률 조정

# 6. DistributedOptimizer 사용
opt = hvd.DistributedOptimizer(opt)

# 7. 손실 함수 및 지표 정의
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy()
metric = tf.keras.metrics.SparseCategoricalAccuracy()

# 8. 훈련 단계 정의
@tf.function
def train_step(images, labels):
    with tf.GradientTape() as tape:
        probs = model(images, training=True)
        loss = loss_fn(labels, probs)

    tape = hvd.DistributedGradientTape(tape)
    gradients = tape.gradient(loss, model.trainable_variables)
    opt.apply_gradients(zip(gradients, model.trainable_variables))
    metric.update_state(labels, probs)
    return loss

# 9. 초기 변수 브로드캐스트
@tf.function
def initialize_vars():
    if hvd.rank() == 0:
        model(tf.zeros((1, 28, 28, 1)))
        hvd.broadcast_variables(model.variables, root_rank=0)
        hvd.broadcast_variables(opt.variables(), root_rank=0)

initialize_vars()

# 10. 훈련 루프
for batch, (images, labels) in enumerate(dataset.take(10000 // hvd.size())):
    loss = train_step(images, labels)

    if batch % 10 == 0 and hvd.rank() == 0:
        print('batch: %d, loss: %.4f, accuracy: %.2f' % (batch, loss, metric.result()))

모범 사례

적절한 통신 메커니즘 선택: 하드웨어 플랫폼 및 네트워크 환경에 따라 적절한 통신 메커니즘(MPI, NCCL, Gloo)을 선택합니다.
학습률 조정: 최적의 훈련 효과를 얻기 위해 노드 수에 따라 학습률을 조정합니다.
훈련 프로세스 모니터링: TensorBoard 또는 기타 도구를 사용하여 훈련 프로세스를 모니터링하여 문제를 감지하고 해결합니다.
데이터 병렬 처리 사용: Horovod는 주로 데이터 병렬 처리에 사용됩니다. 즉, 데이터 세트를 여러 부분으로 나누고 다른 노드에서 모델의 복사본을 훈련합니다.
데이터 불균형 방지: 데이터 세트가 각 노드 간에 균등하게 분산되어 데이터 불균형으로 인해 훈련 효율성이 저하되지 않도록 합니다.

요약

Horovod는 강력한 분산 딥러닝 프레임워크로, 대규모 딥러닝 모델을 더 쉽고 빠르게 훈련하는 데 도움이 될 수 있습니다. 여러 GPU 또는 CPU 노드를 활용하여 Horovod는 훈련 시간을 크게 단축하고 모델의 정확성을 향상시킬 수 있습니다.

리소스

Horovod GitHub 저장소: https://github.com/horovod/horovod
Horovod 공식 문서: https://horovod.readthedocs.io/en/stable/
Horovod 예제: https://github.com/horovod/horovod/tree/master/examples