오픈 모델인 GLM 5.2 지식 증류를 통해서 보다 작게 경량화 모델을 Local에서 실행하면서 확인한 VRAM 사용량입니다.
GLM 5.2는 최고의 Local AI
어제 AI 뉴스 훑어보기 – 2026.6.17 에서 GLM 5.2 성능이 Claude Fable 5 보다 살짝 낮은 정도이지만 오픈 모델 중에서는 최고의 성능을 나타낸다는 시험 결과가 있었습니다. 753B 이나 되는 대형 모델을 Local에서 실행하기 위한 하드웨어 사양을 알려 주는 게시글이 있어서 소개합니다.
AD
=======
글 작성자는 GLM 5.2 모델을 지식 증류를 통해서 더 경량화하는 시험을 진행 중에 있다고 합니다. 현재까지 시험한 내용을 정리하면 아래와 같습니다.
| Quantization Level | Memory Required | Minimum Hardware Setup |
|---|---|---|
| FP8 Weights | 744 GB to 890 GB | 8x H200 (141GB) or 8x H100 (80GB) server node |
| 4-bit (Q4_K_M) | 476 GB to 500 GB | Mac Studio cluster or 6x 80GB enterprise GPUs |
| 2-bit (Q2_K_XL) | 241 GB to 280 GB | Single 256GB Mac Studio (Ultra) or RTX 4090 + 256GB system RAM |
| 1-bit Dynamic | 176 GB to 180 GB | 192GB Mac Studio or 24GB GPU + 192GB system RAM |
모델 및 데이터셋 정보:
- 사전 학습 데이터: 28.5조 토큰의 코퍼스로 학습됨.
- 아키텍처 규모: 총 7,530억 매개변수, 추론 시 토큰당 약 400억 매개변수 활성화.
- 문맥 용량: 기본적으로 1,000,000토큰의 문맥 창을 지원하며 응답당 최대 131,072 출력 토큰까지 지원.
KV 캐시 VRAM 확장(100k / 1M 토큰당):
1M 문맥 창을 사용하려면 KV 캐시를 위해 상당한 추가 VRAM이 필요합니다. 이 확장은 전적으로 캐시 양자화 방식에 따라 달라집니다:
- 16비트(FP16/BF16): 100k토큰당 15–20GB 추가(전체 1M 문맥에 대해 약 150–200GB 추가).
- 8비트(FP8/INT8): 100k토큰당 7.5–10GB 추가(전체 1M 문맥에 대해 약 75–100GB 추가). 정확도와 메모리의 균형을 이룸.
- 4비트(INT4): 100k토큰당 3.5–5GB 추가(전체 1M 문맥에 대해 약 35–50GB 추가). 메모리 요구량을 급격히 줄이지만 장기 문맥 검색 정확도가 저하될 수 있음.
※ 지난 게시글:
- AI 뉴스 훑어보기 – 2026.6.17
- AI 뉴스 훑어보기 – 2026.6.16
- AI 뉴스 훑어보기 – 2026.6.10
- AI 뉴스 훑어보기 – 2026.6.4
- AI 뉴스 훑어보기 – 2026.6.1
※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude
AD













