Big model (Like LLM...) 에서 training data에서의 overfitting은 신경쓰지 않는다... 사실 신경쓰지 않는다기보다는 상관이 없다. small model들에서는 overfitting 될 수록 입력 데이터를 "암기" 하는 식으로 가게 된다. 즉 input들의 기본적인 특성을 학습하기 보다는 input과 output을 1대1 매칭하게 된다. 그런데, 모델이 커지게 되면, 모델은 전체적인 특성위주로 학습하게 된다.Regularzation으로 일반적인 특성의 학습을 이어지게 하면 overfitting은 오히려 좋다.gpt는 인간이 만들어낸 신이다..gpt로 공부하는 나 자신..