Gemma 3

티스토리 뷰

Gemma 3

체봄 2025. 10. 6. 18:02

made by Google DeepMind
모델 크기: 1B, 4B, 12B, 27B
2025년 3월 12일 공개
Gemini 2.0과 동일한 기술이 사용되었으며, 차이점은 오픈소스이고 경량화된 모델이라는 점
Multi-Modal
사전 학습 과정에서 Knowledge Distillation을 통해 학습
사후 학습 과정에서 수학, 코딩, 추론, 대화 능력 개선에 집중, RLHF 학습
140개 언어 지원
128k의 Long Context 지원
- KV 캐시 메모리 문제 해소를 위한 Local / Global Attention Layer 비율 조정
  - 128k와 같은 long context를 처리하려면 각 토큰의 Key/Value 벡터를 저장해야 해서 메모리가 폭증하게 된다. 이를 해소하기 위해 Local Attention과 Global Attention을 혼합해 사용한다.
    - Local Attention Layer: 각 토큰이 자신을 중심으로 한 앞뒤 토큰에서만 Attention을 계산하여, 연산량과 메모리 소비를 줄임
    - Global Attention Layer: 전체 토큰에서 Attention을 계산하여, 장거리 의존성을 포착함
  - 모든 레이어가 Global을 쓰면 메모리 낭비가 심하니 Local Layer를 기본적으로 배치하고 간간이 Global Layer를 배치해서, 중요한 시점에만 전체 문맥을 파악할 수 있게 한다.
    - Global Attention Layer는 5개의 Local Attention Layer마다 1개씩 번갈아(interleave) 배치된다. (5:1 비율)
    - 비율을 5:1로 설정한 이유: 논문에서 비율을 1:1, 3:1, 5:1, 7:1 등으로 다양하게 실험(ablations)한 결과, 각 비율에 따른 모델의 PPL (perplexity) 차이가 거의 없음을 확인했음. 특히 5:1 비율은 계산 비용과 메모리 사용량을 크게 줄이면서도 장거리 의존성 포착에 충분한 균형점으로써 채택함.
- RoPE의 Base Frequency 조정
  - RoPE (Rotary Position Embedding)는 각 토큰에 위치 정보를 주는 기법인데, base frequency에 따라 모델이 처리할 수 있는 위치 범위가 크게 달라진다.
    - Global Layer: base frequency를 10k → 1M으로 확 올려서 매우 긴 거리까지 구분 가능
    - Local Layer: 10k 유지 (짧은 범위 안에서만 구분하면 되므로)

참고: https://discuss.pytorch.kr/t/google-gpu-tpu-gemma-3/6450

'AI' 카테고리의 다른 글

MCP 쉽게 사용해보기 (with Claude Desktop, VS Code) (0)	2025.10.17
AI 관련 개념 정리 (0)	2025.09.03
[Agent] Function call, Tool use, Planning 개념 구분 (2)	2025.08.11
Rotary Positional Embedding (RoPE)에 대해 알아보자 (0)	2025.04.12
KL-Divergence Loss (1)	2023.12.23

NLP 성장러의 아카이브

티스토리 뷰

Gemma 3

'AI' 카테고리의 다른 글

티스토리툴바