오픈 모델인 GLM 5.2 지식 증류를 통해서 보다 작게 경량화 모델을 Local에서 실행하면서 확인한 VRAM 사용량입니다.

GLM 5.2는 최고의 Local AI

어제 AI 뉴스 훑어보기 – 2026.6.17 에서 GLM 5.2 성능이 Claude Fable 5 보다 살짝 낮은 정도이지만 오픈 모델 중에서는 최고의 성능을 나타낸다는 시험 결과가 있었습니다. 753B 이나 되는 대형 모델을 Local에서 실행하기 위한 하드웨어 사양을 알려 주는 게시글이 있어서 소개합니다.

AD

=======

글 작성자는 GLM 5.2 모델을 지식 증류를 통해서 더 경량화하는 시험을 진행 중에 있다고 합니다. 현재까지 시험한 내용을 정리하면 아래와 같습니다.

Quantization LevelMemory RequiredMinimum Hardware Setup
FP8 Weights744 GB to 890 GB8x H200 (141GB) or 8x H100 (80GB) server node
4-bit (Q4_K_M)476 GB to 500 GBMac Studio cluster or 6x 80GB enterprise GPUs
2-bit (Q2_K_XL)241 GB to 280 GBSingle 256GB Mac Studio (Ultra) or RTX 4090 + 256GB system RAM
1-bit Dynamic176 GB to 180 GB192GB Mac Studio or 24GB GPU + 192GB system RAM

 

모델 및 데이터셋 정보:

  • 사전 학습 데이터: 28.5조 토큰의 코퍼스로 학습됨.
  • 아키텍처 규모: 총 7,530억 매개변수, 추론 시 토큰당 약 400억 매개변수 활성화.
  • 문맥 용량: 기본적으로 1,000,000토큰의 문맥 창을 지원하며 응답당 최대 131,072 출력 토큰까지 지원.

KV 캐시 VRAM 확장(100k / 1M 토큰당):

1M 문맥 창을 사용하려면 KV 캐시를 위해 상당한 추가 VRAM이 필요합니다. 이 확장은 전적으로 캐시 양자화 방식에 따라 달라집니다:

  • 16비트(FP16/BF16): 100k토큰당 15–20GB 추가(전체 1M 문맥에 대해 약 150–200GB 추가).
  • 8비트(FP8/INT8): 100k토큰당 7.5–10GB 추가(전체 1M 문맥에 대해 약 75–100GB 추가). 정확도와 메모리의 균형을 이룸.
  • 4비트(INT4): 100k토큰당 3.5–5GB 추가(전체 1M 문맥에 대해 약 35–50GB 추가). 메모리 요구량을 급격히 줄이지만 장기 문맥 검색 정확도가 저하될 수 있음.

 


 

※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude

AD

LEAVE A REPLY

Please enter your comment!
Please enter your name here