Home AI 동향

AI 뉴스 훑어보기 – 2026.6.18

2026-06-18

554

오픈 모델인 GLM 5.2 지식 증류를 통해서 보다 작게 경량화 모델을 Local에서 실행하면서 확인한 VRAM 사용량입니다.

GLM 5.2는 최고의 Local AI

어제 AI 뉴스 훑어보기 – 2026.6.17 에서 GLM 5.2 성능이 Claude Fable 5 보다 살짝 낮은 정도이지만 오픈 모델 중에서는 최고의 성능을 나타낸다는 시험 결과가 있었습니다. 753B 이나 되는 대형 모델을 Local에서 실행하기 위한 하드웨어 사양을 알려 주는 게시글이 있어서 소개합니다.

=======

글 작성자는 GLM 5.2 모델을 지식 증류를 통해서 더 경량화하는 시험을 진행 중에 있다고 합니다. 현재까지 시험한 내용을 정리하면 아래와 같습니다.

Quantization Level	Memory Required	Minimum Hardware Setup
FP8 Weights	744 GB to 890 GB	8x H200 (141GB) or 8x H100 (80GB) server node
4-bit (Q4_K_M)	476 GB to 500 GB	Mac Studio cluster or 6x 80GB enterprise GPUs
2-bit (Q2_K_XL)	241 GB to 280 GB	Single 256GB Mac Studio (Ultra) or RTX 4090 + 256GB system RAM
1-bit Dynamic	176 GB to 180 GB	192GB Mac Studio or 24GB GPU + 192GB system RAM

모델 및 데이터셋 정보:

사전 학습 데이터: 28.5조 토큰의 코퍼스로 학습됨.
아키텍처 규모: 총 7,530억 매개변수, 추론 시 토큰당 약 400억 매개변수 활성화.
문맥 용량: 기본적으로 1,000,000토큰의 문맥 창을 지원하며 응답당 최대 131,072 출력 토큰까지 지원.

KV 캐시 VRAM 확장(100k / 1M 토큰당):

1M 문맥 창을 사용하려면 KV 캐시를 위해 상당한 추가 VRAM이 필요합니다. 이 확장은 전적으로 캐시 양자화 방식에 따라 달라집니다:

16비트(FP16/BF16): 100k토큰당 15–20GB 추가(전체 1M 문맥에 대해 약 150–200GB 추가).
8비트(FP8/INT8): 100k토큰당 7.5–10GB 추가(전체 1M 문맥에 대해 약 75–100GB 추가). 정확도와 메모리의 균형을 이룸.
4비트(INT4): 100k토큰당 3.5–5GB 추가(전체 1M 문맥에 대해 약 35–50GB 추가). 메모리 요구량을 급격히 줄이지만 장기 문맥 검색 정확도가 저하될 수 있음.

※ 지난 게시글:

※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude

넷플릭스 크리스마스 영화 2023 추천작

【최애의 아이】(推しの子,OSHI NO KO) 2023 애니 강추 작품 !

플래시(The Flash)

스파이더맨: 어크로스 더 유니버스

MoE 시각화 – OLMoE 모델의 토큰 흐름 시각화

AI 뉴스 훑어보기 – 2026.7.16

AI 뉴스 훑어보기 – 2026.7.15

AI 뉴스 훑어보기 – 2026.7.13

AI 뉴스 훑어보기 – 2026.6.18

GLM 5.2는 최고의 Local AI

READ MORE

WordPress – Watson 이용한 한글URL>영어URL 자동 변환

IFTTT 로 여러 소셜 서비스에 동시에 글 게시하기(1) – WP-to-LinkedIn

Raspberry PI 에서 docker 설치와 실행하기

심각함을 유머로…

Latest Posts

MoE 시각화 – OLMoE 모델의 토큰 흐름 시각화

AI 뉴스 훑어보기 – 2026.7.16

AI 뉴스 훑어보기 – 2026.7.15

Most Popular

Raspberry PI 에서 docker 설치와 실행하기 – buster OS편

Raspberry PI 에서 docker 설치와 실행하기

Raspberry Pi + nginx-rtmp 실시간 스트리밍 서버 구축

Fast Access

AI & OpenClaw – 2026.3.12 소식

AI & OpenClaw – 2026.3.19 소식

OpenClaw – 2026.3.9 소식

AI & OpenClaw – 2026.5.13 소식