'2025/02/20 글 목록

2025/02/20 1

모델 파라미터 개수를 Ψ 개라고 하면, fp16으로 훈련 끝난 가중치가 저장되니까 2Ψ byte의 메모리가 든다.훈련할때는 얼마나 들까?훈련시 peak memory를 계산해야 한다.Model States(Optimizer States, Gradients and Parameters) + Residual Memory Consumption 로 계산된다.훈련할 때는 대충 총 10배정도 메모리가 더 든다고 보면 될듯?

CS/Artificial Intelligence 2025.02.20

세계 최고의 개발자를 목표로. 단기 목표는 icpc 수상

다이나믹 프로그래밍, SCPC, Codeforce, 금광 세그, 백준 8202, Codeforces, educationl, slope trick, seoul regional, 에듀코포 102, 에듀코포, Figure Fixing, 백준, wechall, 백준 13536, ICPC, 동적계획법, boj, 백준 24915, icpc 2021,

최근글
인기글

Facebook
Twitter

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

노력하는 공대생의 공부일지

2025/02/20 1

티스토리툴바