티스토리 뷰

AI

Gemma 3

체봄 2025. 10. 6. 18:02
  • made by Google DeepMind
  • 모델 크기: 1B, 4B, 12B, 27B
  • 2025년 3월 12일 공개
  • Gemini 2.0과 동일한 기술이 사용되었으며, 차이점은 오픈소스이고 경량화된 모델이라는 점
  • Multi-Modal
  • 사전 학습 과정에서 Knowledge Distillation을 통해 학습
  • 사후 학습 과정에서 수학, 코딩, 추론, 대화 능력 개선에 집중, RLHF 학습
  • 140개 언어 지원
  • 128k의 Long Context 지원
    • KV 캐시 메모리 문제 해소를 위한 Local / Global Attention Layer 비율 조정  
      • 128k와 같은 long context를 처리하려면 각 토큰의 Key/Value 벡터를 저장해야 해서 메모리가 폭증하게 된다. 이를 해소하기 위해 Local AttentionGlobal Attention을 혼합해 사용한다.
        • Local Attention Layer: 각 토큰이 자신을 중심으로 한 앞뒤 토큰에서만 Attention을 계산하여, 연산량과 메모리 소비를 줄임
        • Global Attention Layer: 전체 토큰에서 Attention을 계산하여, 장거리 의존성을 포착함
      • 모든 레이어가 Global을 쓰면 메모리 낭비가 심하니 Local Layer를 기본적으로 배치하고 간간이 Global Layer를 배치해서, 중요한 시점에만 전체 문맥을 파악할 수 있게 한다.
        • Global Attention Layer는 5개의 Local Attention Layer마다 1개씩 번갈아(interleave) 배치된다. (5:1 비율)
        • 비율을 5:1로 설정한 이유: 논문에서 비율을 1:1, 3:1, 5:1, 7:1 등으로 다양하게 실험(ablations)한 결과, 각 비율에 따른 모델의 PPL (perplexity) 차이가 거의 없음을 확인했음. 특히 5:1 비율은 계산 비용과 메모리 사용량을 크게 줄이면서도 장거리 의존성 포착에 충분한 균형점으로써 채택함.
    • RoPE의 Base Frequency 조정
      • RoPE (Rotary Position Embedding)는 각 토큰에 위치 정보를 주는 기법인데, base frequency에 따라 모델이 처리할 수 있는 위치 범위가 크게 달라진다.
        • Global Layer: base frequency를 10k → 1M으로 확 올려서 매우 긴 거리까지 구분 가능
        • Local Layer: 10k 유지 (짧은 범위 안에서만 구분하면 되므로)

 

참고: https://discuss.pytorch.kr/t/google-gpu-tpu-gemma-3/6450

반응형

댓글