RX 570 4GB에서도 Local LLM 기동이 가능했다고 합니다. Kick Starter 프로젝트로 시작한 AI 데스크탑 장비 Olares One의 성능 시험 결과를 보면 기존 DGX Spark 보다 좋아 보입니다. 

4GB VRAM이 죽었다고? 56 t/s on a Polaris RX 570 with 8k Context!

오래된 RX 570 4GB, i5-9400F, CachyOS에서 최신의 llama.cpp Ubuntu build 사용해 보았다고 합니다. 소형 모델인 Gemma4-E2B-IT-Q4_K_M 이라도 사실 RTX 4060 ti 8GB 모델에서도 작성자가 얻었다는 56 TPS 나올지는 잘 모르겠습니다. 

AD

설정:

  • GPU: AMD Radeon RX 570 4GB (Polaris 10)
  • OS: CachyOS (Linux) using RADV drivers
  • Model: gemma-4-E2B-it-Q4_K_M.gguf
  • Backend: Vulkan

‘마법’ 명령:

./llama-server -m gemma-4-E2B-it-Q4_K_M.gguf --host 0.0.0.0 --port 11435 --ctx-size 8192 --n-gpu-layers 99 --threads 4 --no-warmup --reasoning off -np 2

수치:

  • Context Size: 8192 (8k)
  • Speed: 56 tokens/sec consistently.
  • VRAM Usage: 3.6 GB total (System takes ~600MB, the model + 8k KV cache takes ~3GB).

주요 포인트: -np 2 지정은 정말 놀랍게도 4GB 제한을 유지하면서 8K context 를 문제없이 동작함.

일반 Blackwell mobile 장치에서의 첫 sm_120 BeeLlama.cpp benchmark: 107 t/s at FULL 262K context on Qwen3.6 27B (+48% vs MTP, +22% vs vLLM Genesis)

‘Olares One‘ 이란 AMD Strix Halo, Nvidia DGX Spark 와 같이 AI 전용 데스크탑 장비라고 합니다. Kick Starter 제품으로 올 4월 첫 배송을 시작한 장비라고 하는데 아래와 같은 사양을 가지고 있습니다. 가격은 $3,999 로 환율 1,500원 기준, 대략 6백만원 정도입니다. 물론 관세 포함하면 더 비싸겠죠? 5백만원대인 Strix Halo, DGX Spark가 128GB LPDDR5x 통합 램 모델인 것과 달리 전용 RTX 5060m 24GB GPU 장착이라서 성능은 더 뛰어날 것으로 예상할 수 있습니다. DGX Spark가 1,000 TOPS라고 하고, Olares One은 1,824 TOPS 라고 하니 빠르긴 하네요.
Olares One
출처: Olares One

Olares One과 Beellama.cpp 이용한 성능 시험 결과입니다.

요약: 262K context에서 평균 107.54 t/s (10 clean runs, range 101.70-119.38) at FULL 262K context. Zero CUDA OOM( Out-of-Memory, GPU VRAM 부족으로 모델 실행이 실패하는 현상 없음). Zero degradation cycle (반복 테스트에서의 성능 저하 사이클이 발생 없음)

보다 자세한 성능 시험 결과는 출처에서 확인해 보시기 바랍니다. 

TextWeb: LLM용 Markdown Browser

AI Agent가 웹 검색을 통해 자료를 수집할 때, 스크린샷 > Vison 모델 > Text 변환하는 방식이었다면 TextWeb은 Markdown으로 바로 렌더링해 주어서 LLM이 추론하는데 쉽게 사용할 수 있도록 해 주는 도구입니다. 다른 Headless browser들과의 차별성이 있을지 모르겠지만 혹 이런 Browser를 필요로 하시는 분들도 있을지 몰라서 소개합니다.

기능 및 특징:

  • 전체 자바스크립트 실행 지원 (동적 페이지 처리 가능).
  • 상호작용 요소(입력 필드, 버튼 등)를 주석으로 표시하여 LLM이 네이티브로 조작·추론 가능.
  • 명령줄 인터페이스(CLI)와 MCP 서버 제공.
  • LLM 에이전트가 페이지를 탐색, 스크롤, 텍스트 입력, 버튼 클릭 등을 수행할 수 있게 함.
  • llama.cpp 웹 UI와 호환.

 

※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude

AD

LEAVE A REPLY

Please enter your comment!
Please enter your name here