Software Engineering KB

❯

09 Machine Learning and AI

❯

01 Deep Learning

❯

❯

Distributed Training Frameworks

Distributed Training Frameworks

Feb 10, 20261 min read

deep-learning
distributed-training
frameworks

Distributed Training Frameworks

← Back to Training at Scale

Tools and libraries for training across multiple GPUs and machines.

Key Frameworks

DeepSpeed — Microsoft, ZeRO optimizer, efficient large model training
FSDP (Fully Sharded Data Parallel) — PyTorch native, shards model/gradients/optimizer states
Megatron-LM — NVIDIA, efficient tensor/pipeline parallelism for LLMs

Related

Deep Learning Frameworks (underlying frameworks)
Model Parallelism (what these tools implement)

deep-learning distributed-training frameworks

Graph View

Distributed Training Frameworks
Key Frameworks
Related

Backlinks

Training at Scale
Deep Learning Frameworks
Model Parallelism

Created with Quartz v4.5.2 © 2026

GitHub