2025/01 5

Pipeline Parallelism - Weight Stashing / Vertical Sync

PP -> layer 단위로 모델을 쪼개서 적당히 컴퓨팅 자원을 나눠서 분산 학습을 하자. layer로 나눠봤자, layer별로 종속성이 있어서 분산 학습을 하는게 의미가 있을까 싶은데, batch로 쪼개고 학습한다고 생각하면 아이디어를 얻을 수 있다. 높은 Machine으로 갈 때마다 다음 layer로 생각하면 편하다. 이렇게 하면 layer끼리의 종속성도 해결하고, forward pass와 backward pass의 순서도 맞춰지면서 분산 컴퓨팅의 효과를 볼 수 있다. 세부적인 구현 방식인 Weight Stashing / Vertical Sync에 대해 생각해보자.(둘 다 옛날 방식이라 요즘엔 안 쓴다고 한다.) scheduling의 관점에서는 위의 그림이 최적이다. 저걸 잘 구현해야 하는데, 순차적..

Non-Autoregressive (NAR)

Attention / Transformer의 등장으로 엄청난 발전이 있었는데, 그러한 autogressive한 것들의 몇 가지 단점들을 처리하고자 나온 개념인거 같다.  https://nar-tutorial.github.io/acl2022/NAR-ACL%202022.pdf위 글을 보고 공부한 내용이다.  대충 입력에서 출력으로 생성할 때 출력에서 생성된 부분들도 recursive / repetitive하게 이용하여 다음 출력을 이용한다는 느낌이다.Question: What type of food do you like? Answer: I -> I like -> I like spicy -> I like spicy food like를 만들 때 이전 문장인 I가 영향을 주고, 마찬가지로 spicy를 만들 때 이..

kmo 2024 중등 1차 예선 풀이

https://www.kmo.or.kr/kmo/sub07.html 기하 빼고 풀어봤다.경시문제라 뇌깨는 용도로 좋은거 같다.중학교꺼라 쉬운거 같은데 제일 어려운 문제도 수능 준킬러 4점 정도 난이도고 대부분 수능 쉬운 4점 난이도인 것 같다. 아 물론 이건 내 지식수준에서 기준이고 (날먹한게 몇 개 있다.)  발상 난이도만 말한 것 이다.    아래는 재밌는 문제들 후기더보기정답:16번사이드로 날먹하면 0번 돌려서 같은 것 44개, 1,2 번돌려서 같은 것 2개씩이라48/3 =16으로 날먹할 수 있다.      더보기(x+y)^2+(y+z)^2+z^2=2n으로 바꾸고x+y=A,y+z=B,z=C로 두면(1,1,0) (0,1,1) (0,0,1)은 너무 당연하게도 linearly independent한 vet..

Math 2025.01.13

Purpose of Regularization

Big model (Like LLM...) 에서 training data에서의 overfitting은 신경쓰지 않는다... 사실 신경쓰지 않는다기보다는 상관이 없다. small model들에서는 overfitting 될 수록 입력 데이터를 "암기" 하는 식으로 가게 된다. 즉 input들의 기본적인 특성을 학습하기 보다는 input과 output을 1대1 매칭하게 된다. 그런데, 모델이 커지게 되면, 모델은 전체적인 특성위주로 학습하게 된다.Regularzation으로 일반적인 특성의 학습을 이어지게 하면 overfitting은 오히려 좋다.gpt는 인간이 만들어낸 신이다..gpt로 공부하는 나 자신..