모델 파라미터 개수를 Ψ 개라고 하면, fp16으로 훈련 끝난 가중치가 저장되니까 2Ψ byte의 메모리가 든다.
훈련할때는 얼마나 들까?
훈련시 peak memory를 계산해야 한다.
Model States(Optimizer States, Gradients and Parameters) + Residual Memory Consumption 로 계산된다.


훈련할 때는 대충 총 10배정도 메모리가 더 든다고 보면 될듯?
'CS > Artificial Intelligence' 카테고리의 다른 글
WHERE DID ALL THE MEMORY GO? (0) | 2025.02.03 |
---|---|
Pipeline Parallelism - Weight Stashing / Vertical Sync (4) | 2025.01.31 |
Non-Autoregressive (NAR) (0) | 2025.01.20 |
Purpose of Regularization (1) | 2025.01.06 |
강화학습에서 Value Iteration / Bellman backup (0) | 2024.11.21 |