티스토리 뷰
- made by Google DeepMind
- 모델 크기: 1B, 4B, 12B, 27B
- 2025년 3월 12일 공개
- Gemini 2.0과 동일한 기술이 사용되었으며, 차이점은 오픈소스이고 경량화된 모델이라는 점
- Multi-Modal
- 사전 학습 과정에서 Knowledge Distillation을 통해 학습
- 사후 학습 과정에서 수학, 코딩, 추론, 대화 능력 개선에 집중, RLHF 학습
- 140개 언어 지원
- 128k의 Long Context 지원
- KV 캐시 메모리 문제 해소를 위한 Local / Global Attention Layer 비율 조정
- 128k와 같은 long context를 처리하려면 각 토큰의 Key/Value 벡터를 저장해야 해서 메모리가 폭증하게 된다. 이를 해소하기 위해 Local Attention과 Global Attention을 혼합해 사용한다.
- Local Attention Layer: 각 토큰이 자신을 중심으로 한 앞뒤 토큰에서만 Attention을 계산하여, 연산량과 메모리 소비를 줄임
- Global Attention Layer: 전체 토큰에서 Attention을 계산하여, 장거리 의존성을 포착함
- 모든 레이어가 Global을 쓰면 메모리 낭비가 심하니 Local Layer를 기본적으로 배치하고 간간이 Global Layer를 배치해서, 중요한 시점에만 전체 문맥을 파악할 수 있게 한다.
- Global Attention Layer는 5개의 Local Attention Layer마다 1개씩 번갈아(interleave) 배치된다. (5:1 비율)
- 비율을 5:1로 설정한 이유: 논문에서 비율을 1:1, 3:1, 5:1, 7:1 등으로 다양하게 실험(ablations)한 결과, 각 비율에 따른 모델의 PPL (perplexity) 차이가 거의 없음을 확인했음. 특히 5:1 비율은 계산 비용과 메모리 사용량을 크게 줄이면서도 장거리 의존성 포착에 충분한 균형점으로써 채택함.
- 128k와 같은 long context를 처리하려면 각 토큰의 Key/Value 벡터를 저장해야 해서 메모리가 폭증하게 된다. 이를 해소하기 위해 Local Attention과 Global Attention을 혼합해 사용한다.
- RoPE의 Base Frequency 조정
- RoPE (Rotary Position Embedding)는 각 토큰에 위치 정보를 주는 기법인데, base frequency에 따라 모델이 처리할 수 있는 위치 범위가 크게 달라진다.
- Global Layer: base frequency를 10k → 1M으로 확 올려서 매우 긴 거리까지 구분 가능
- Local Layer: 10k 유지 (짧은 범위 안에서만 구분하면 되므로)
- RoPE (Rotary Position Embedding)는 각 토큰에 위치 정보를 주는 기법인데, base frequency에 따라 모델이 처리할 수 있는 위치 범위가 크게 달라진다.
- KV 캐시 메모리 문제 해소를 위한 Local / Global Attention Layer 비율 조정
참고: https://discuss.pytorch.kr/t/google-gpu-tpu-gemma-3/6450
반응형
'AI' 카테고리의 다른 글
| MCP 쉽게 사용해보기 (with Claude Desktop, VS Code) (0) | 2025.10.17 |
|---|---|
| AI 관련 개념 정리 (0) | 2025.09.03 |
| [Agent] Function call, Tool use, Planning 개념 구분 (2) | 2025.08.11 |
| Rotary Positional Embedding (RoPE)에 대해 알아보자 (0) | 2025.04.12 |
| KL-Divergence Loss (1) | 2023.12.23 |
댓글