참고: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models 공부한거 나중에 보기 편하게 적는다.어떤 특정 딥러닝 모델을 학습시킬 때 매우 많은 메모리가 필요하다 그래서 요즘엔 32bit 실수 FP32 를 FP16으로의 mixed-precision training을 이용한 최적화가 많이 진행된다. 1.5B 딥러닝 모델은 파라미터(가중치 행렬)은 FP16으로 3gb의 메모리를 필요로 한다. 32gb의 single gpu에서 이 모델을 학습 시킬 수 없다. 어떤 부분에서 이러한 메모리 누수(라고 표현하는게 옳은지는 모르겠지만)가 발생하는 것일까?(밑에 내용은 GPT로 번역시킨 것을 적당히 수정) 1. Model States: Optimiz..