Scaling Laws for Neural Language Models (2020)
1. Introduction
- NLM의 성능은 훈련 시간, 문장 길이, 데이터 크기, 모델 크기, 연산 능력과 멱법칙 관계가 있다
- NLM의 성능은 모델 파라미터 수 N, 데이터 크기 D, 연산 능력 C와 관련있고, 모델 형태와는 큰 관계가 없다
- N과 D가 동시에 커지면 성능도 동시에 향상, 한 쪽이 고정되면 N이 ×8일 때 D가 ×5는 되어야 페널티가 없다.
- 훈련 횟수가 많아질수록, 훈련이 길어질수록 성능 향상을 roughly predict할 수 있었다.
- N이 큰 모델은 더욱 적은 데이터(data efficient), 적은 optimization steps로 비슷한 수준의 성능에 도달한다.
- 동일한 C에서 N과 D의 제약이 없을 때, 아주 큰 모델에서 적게 훈련하는 것이 가장 성능이 좋다.
- Batch size B는 loss와 직접적으로 roughly power law 관계에 있다.
- 위 그림은 연산량이 10^8 늘어날 때 성능에 영향을 미치는 요인들의 비중을 나타낸 그래프
- model size (10^6) > batch size (10^2) > steps 순으로 loss 성능에 영향을 미치는 것을 알 수 있다.
2. Background and Methods
- Adam Optimizer, 250k steps, batch size = 512, max_seq_length = 1024
- 다양한 lr과 스케쥴러를 적용해보았다. 수렴 결과는 lr 스케쥴링과 거의 독립적이었다.
- Dataset : NEWS 2030만 문서, 1.62×10^10 단어
3. Empirical Results and Basic Power Laws
- parameter N이 고정되었을 때 model shape(n_layer, n_heads, d_ff)는 아주 미미하게 loss에 영향을 미침 (몇 % 수준)
- 층이 깊어질수록, 토큰 개수가 많아질수록 LSTM에 비해 Transformer가 더 좋은 성능을 보임
- 자료 유형에 따른 일반화 성능(ex.책, 뉴스 등)은 분포 내의 validation loss에만 거의 의존한다
- S : Step count, B : Batch size, C : training Compute, S = C/6BS 일 때 가장 성능이 좋다
- 파라미터 개수가 많은 큰 모델은 sample efficient ⇒ 적은 수의 샘플 만으로도 같은 loss에 도달한다
4. Charting the Infinite Data Limit and Overfitting
- Data size D가 커질수록, parameter N과 loss는 뚜렷한 power law 관계를 보인다
- 모델의 오버피팅은 D가 클 때 1/D 스케일 관계가 있다.
- B_crit = E_min / S_min일 때, B_crit은 모델 사이즈가 아니라 loss와 power law 관계에 있다
- 오버피팅을 피하기 위해선 D ≥ (5×10^3) N^0.74, N이 10배일 때 D는 5.5배 커져야 한다
5. Scaling Laws with Model Size and Training Time
- B = B_crit일 때, S = 2S_min, E = 2E_min으로 optimal time/compute tradeoff 관계에 놓인다
- compute budget 혹은 steps가 클수록, loss와 parameter 개수 간의 power law 관계가 뚜렷해진다
6. Optimal Allocation of the Compute Budget
- optimal compute budget allocation을 위해서는 대부분을 model size N을 늘리는데 써야 한다
- 동시에 약간의 B(B_crit)과 S(Steps)를 같이 늘리면 된다
- N(C_min) ∝ (C_min)^0.73, B_crit ∝ (C_min)^0.24, S_min ∝ (C_min)^0.03
- Figure 15에서 loss의 두 예측 회귀선의 교차점은 아마도 트랜스포머 language model의 최대 성능점일수도?
- Intersection이 이뤄나는 지점(C_min*, N*)에서 자연어의 모든 정보를 추출한 것을 뜻할 수도 있다.
- 이 해석에 따르면 L*는 (entropy/token) 자연어의 엔트로피 그 자체를 추정한 값으로 볼 수 있다.
7.Related Work
- 기존의 연구 중 performance와 data size의 power-law 관계를 밝힌 것이 있다.
- 더욱 최근에 model size와 data size의 scaling 관계에 대한 연구가 있고, 우리의 연구와 매우 비슷하다.
- 가장 최근에는 model size와 data size의 scaling 관계를 다양한 데이터셋에 대한 연구가 있다.
- VWB16에서 deep models는 shallow models의 앙상블이라고 한다.
8. Discussion
- 복잡계 과학은 다양한 시스템에서 scaling law가 적용됨 설명 ⇒ 언어 모델 시스템에서도 적용될까?
- 이 연구는 관찰에 따라 scaling relations를 예측한 프레임워크의 범위를 넘어선다.
- 이상기체 방정식처럼, 대부분의 세부적 구성요소들과 독립적으로 macroscopic property에 시스템이 좌우되는 것으로 추정
- 자연어의 어느 부분이 universal한지, 자연어 데이터에 의존적인지 알 수 없지만, 다양한 데이터(images, audio 등)에 공통적으로 적용되는 '통계적 기제'의 '열통계학적 법칙'이 있는 것은 아닐까? (cross-entroy loss & thermodynamics)
- 부드러운 quantitative change는 major qualitative improvements를 숨길 수 있다 : "more is different"
- 정량적인 변화가 계속되면 어느 순간 질적인 변화가 갑자기 드러나는 것처럼 발견될 수도 있다.
- 결론 : 데이터 양보다 모델 사이즈가 성능에 일관적으로 더 큰 영향을 미치므로, 큰 모델이 좋다
- 따라서 model parallelism에 대한 후속 연구가 필수불가결한 것으로 보인다.
'AI - NLP > Articles' 카테고리의 다른 글
Overview of the TREC 2020 Deep Leaning Track (2021) (0) | 2021.02.17 |
---|---|
Switch Transformers: Scaling to trillion parameter models with simple and efficient sparcity (2021) (0) | 2021.02.16 |
딥러닝 모델 병렬 처리 (2018) (0) | 2021.02.05 |
Transformer Feed-Forward Layers Are Key-Value Memories (2020) (0) | 2021.02.05 |
BERT 기반의 Sentence-wise Attention을 활용한 계약서 조항 분류 연구 (2019) (0) | 2020.12.18 |