LLM / 딥러닝 모델 훈련에 필요한 메모리 적당히 추론하기 모델 파라미터 개수를 Ψ 개라고 하면, fp16으로 훈련 끝난 가중치가 저장되니까 2Ψ byte의 메모리가 든다.훈련할때는 얼마나 들까?훈련시 peak memory를 계산해야 한다.Model States(Optimizer States, Gradients and Parameters) + Residual Memory Consumption 로 계산된다.훈련할 때는 대충 총 10배정도 메모리가 더 든다고 보면 될듯? CS/Artificial Intelligence 2025.02.20