CS/Artificial Intelligence

LLM / 딥러닝 모델 훈련에 필요한 메모리 적당히 추론하기

djs100201 2025. 2. 20. 12:46

모델 파라미터 개수를 Ψ 개라고 하면, fp16으로 훈련 끝난 가중치가 저장되니까 2Ψ byte의 메모리가 든다.
훈련할때는 얼마나 들까?

훈련시 peak memory를 계산해야 한다.

Model States(Optimizer States, Gradients and Parameters)  + Residual Memory Consumption 로 계산된다.

훈련할 때는 대충 총 10배정도 메모리가 더 든다고 보면 될듯?