CS 10

WHERE DID ALL THE MEMORY GO?

참고: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models 공부한거 나중에 보기 편하게 적는다.어떤 특정 딥러닝 모델을 학습시킬 때 매우 많은 메모리가 필요하다 그래서 요즘엔 32bit 실수 FP32 를 FP16으로의 mixed-precision training을 이용한 최적화가 많이 진행된다. 1.5B 딥러닝 모델은 파라미터(가중치 행렬)은 FP16으로 3gb의 메모리를 필요로 한다. 32gb의 single gpu에서 이 모델을 학습 시킬 수 없다. 어떤 부분에서 이러한 메모리 누수(라고 표현하는게 옳은지는 모르겠지만)가 발생하는 것일까?(밑에 내용은 GPT로 번역시킨 것을 적당히 수정) 1. Model States: Optimiz..

Pipeline Parallelism - Weight Stashing / Vertical Sync

PP -> layer 단위로 모델을 쪼개서 적당히 컴퓨팅 자원을 나눠서 분산 학습을 하자. layer로 나눠봤자, layer별로 종속성이 있어서 분산 학습을 하는게 의미가 있을까 싶은데, batch로 쪼개고 학습한다고 생각하면 아이디어를 얻을 수 있다. 높은 Machine으로 갈 때마다 다음 layer로 생각하면 편하다. 이렇게 하면 layer끼리의 종속성도 해결하고, forward pass와 backward pass의 순서도 맞춰지면서 분산 컴퓨팅의 효과를 볼 수 있다. 세부적인 구현 방식인 Weight Stashing / Vertical Sync에 대해 생각해보자.(둘 다 옛날 방식이라 요즘엔 안 쓴다고 한다.) scheduling의 관점에서는 위의 그림이 최적이다. 저걸 잘 구현해야 하는데, 순차적..

Non-Autoregressive (NAR)

Attention / Transformer의 등장으로 엄청난 발전이 있었는데, 그러한 autogressive한 것들의 몇 가지 단점들을 처리하고자 나온 개념인거 같다.  https://nar-tutorial.github.io/acl2022/NAR-ACL%202022.pdf위 글을 보고 공부한 내용이다.  대충 입력에서 출력으로 생성할 때 출력에서 생성된 부분들도 recursive / repetitive하게 이용하여 다음 출력을 이용한다는 느낌이다.Question: What type of food do you like? Answer: I -> I like -> I like spicy -> I like spicy food like를 만들 때 이전 문장인 I가 영향을 주고, 마찬가지로 spicy를 만들 때 이..

Purpose of Regularization

Big model (Like LLM...) 에서 training data에서의 overfitting은 신경쓰지 않는다... 사실 신경쓰지 않는다기보다는 상관이 없다. small model들에서는 overfitting 될 수록 입력 데이터를 "암기" 하는 식으로 가게 된다. 즉 input들의 기본적인 특성을 학습하기 보다는 input과 output을 1대1 매칭하게 된다. 그런데, 모델이 커지게 되면, 모델은 전체적인 특성위주로 학습하게 된다.Regularzation으로 일반적인 특성의 학습을 이어지게 하면 overfitting은 오히려 좋다.gpt는 인간이 만들어낸 신이다..gpt로 공부하는 나 자신..

CSE4120 서강대학교 기초컴파일러 Prj3

실제 c가 아니라 제한사항이 있는 mini-c 상에서 optimization생각들 모음마지막 프젝을 만점 받지는 못했지만, 할 때 생각한 아이디어들 모음따로 유명한 최적화 방법에 대한 공부는 하지 않았다. 교수님이 코드/tc는 공유하지 말라 하셔서 아이디어 정도만 적는다. 사실 오래 고민한게 아까워서 적어 놓는다. 기본적인 구현은 RD,LA,AE를 통한 CP,DCE,AE를 다 하고 나서의 이야기이다. 1. mem2reg 하는 방법포인터는 항상 mem2reg한다. 그리고 어떤 int,bool 단일원소가 포인터로 대입되는 operand가 아니라면 추가로 mem2reg가능하다. 이 정당성은 쉽게 보일 수 있다.배열에 대해서 생각해 보았는데 이건 쉽지 않았다.사실상 이게 젤 중요 2. Load ~ 도 AE Se..

CS/Compiler 2024.12.27

Short-Circuit Evaluation

Short - Circuit Evaluation은 뭘까?즉 if(a && b)가 있다고 할 때, a가 0이라면 b를 검사하지 않아야 한다 라는 일종의 약속이다.즉 위의 예시 코드는 반드시 오류가 나지 않아야 한다.  그래서 IR generation을 짤 때 이러한 shortcut을 잘 고려해서 구현해야 올바른 코드이다.그런데 이번 프로젝트3 에서 IR optimization을 진행하면서 다음과 같은 상황을 고려하는 걸 생각하게 됐다.x-x는 x에 어떤 값이 들어있는지 살펴볼 필요 없이 항상 0이다.  즉 이런 상수뿐만이 아니라 register나 experssion에 대한 것들에 대해서도 short - curcuit이 진행되어야 하는가? 혹은 이런것들이 real world compiler는 어떻게 구현되어..

CS/Compiler 2024.12.13

강화학습에서 Value Iteration / Bellman backup

스탠포드 강의를 듣고 있는데, 이 부분은 어렵게 표현하려고 안달난 것 같다.gpt를 보고 어느정도 이해했다고 생각해서 정리할 겸 올린다.  즉 B라는 연산은 현재 상태에서 할 최적의 행동을 고르는 것이다.여기서 최적이라는 것은 기댓값 처럼 사용해서 구하는데 위에 식에서 보이는 확률이 곱해진 느낌이다. value iteration이라는 것은 이러한 Bellman Backup을 반복적으로 시행하는 것이다.그냥 dp[s] -> s상태에서 갈 수 있는 최적의 값이라고 두면 R(s,a)-> 행동에 대한 보상이니까 대충 확률 dp 느낌? 으로 전이된다. 감마씩 곱해지는게 느낌은 비슷한 것 같다.결국 반복과정에서 수렴하는지를 살펴봐야 한다.수렴할까? 증명 순서는 다음과 같은데  1. B가 축소 사상이다.2. 축소 사..

os별 F#의 줄바꿈.

우리학교서버에 vscode 원격접속은 금지상태이다.서버의 문제인지 vscode의 문제인지 학교의 문제인지는 제쳐두고, 정상적인 사람이라면 원격접속을 해서 프로젝트나 과제를 하기마련인데 어쩔 수 없이 로컬로 세팅을 했다.150줄 엄청난 집중력으로 type checking 하는 F# 코드를 짰는데 분명 output이 맞는데 자꾸 wrong answer가 나오는 것이다... 보이는 건 똑같은데 이런 python 코드로 체크를 하는데 길이를 출력하게 해 보았다.  이럼 분명 뭐 줄바꿈이나 공백문자에 문자가 있을 것이라고 예상했는데, 이게 지금 F#은 type checking 오류인 줄의 번호를 List로 만들어서 넘겨주기만 하면 되는 문제라서 결국 내가 짠 부분에서의 문제는 아닌 것이다.그래서 gpt한테 물어보..

CS/Compiler 2024.11.18

F#에서 재귀함수와 불변성 (Immutability)에 관한 쉬운 문제

학교 기초 컴파일러 수업에서 F#언어를 다루고 과제가 나왔다.module P2// (Note) Do NOT change the definition of the following type and exception.type Exp =    Num of int  | Add of Exp * Exp  | Sub of Exp * Exp  | Mul of Exp * Exp  | Div of Exp * Expexception DivByZero/// Return the integer value represented by the expression 'e'. If there is any/// division-by-zero case, raise the 'DivByZero' exception.let rec eval (e: Ex..

CS/Compiler 2024.11.12

Cross entropy Loss에서 gradient 구하기

딥러닝 개론 수업 과제를 하면서 꽤나 까다롭게 느껴져서 정리하고자 올린다.일단 gpt를 보고 어느정도 도움을 받기는 했는데 gpt는 softmax function과 sigmoid 함수 관계를 자꾸 설명하지 못해서 내가 손으로 직접 풀었다. 1. Softmax Function  2. Cross Entrophy Loss  Softmax Fuction의 미분은 같이 나오게 되는데, 이는 각각에 대해 편미분을 생각해보면 조금 편하다. 우선 j와 k가 다를 때는 분수함수의 미분을 사용해야 하는데, k에 대해서 생각을 해보면 1/f 꼴의 미분이라는 것을 알 수 있는데,e^x 의 미분은 자기 자신이여서,  f'/f = softmax(sk)가 나온다 j = k 일때는 더 쉽다. 시그모이드 함수를 g라고 하자. g(x)..