Home AI 동향

AI & OpenClaw – 2026.5.15 소식

2026-05-15

420

RX 570 4GB에서도 Local LLM 기동이 가능했다고 합니다. Kick Starter 프로젝트로 시작한 AI 데스크탑 장비 Olares One의 성능 시험 결과를 보면 기존 DGX Spark 보다 좋아 보입니다.

4GB VRAM이 죽었다고? 56 t/s on a Polaris RX 570 with 8k Context!

오래된 RX 570 4GB, i5-9400F, CachyOS에서 최신의 llama.cpp Ubuntu build 사용해 보았다고 합니다. 소형 모델인 Gemma4-E2B-IT-Q4_K_M 이라도 사실 RTX 4060 ti 8GB 모델에서도 작성자가 얻었다는 56 TPS 나올지는 잘 모르겠습니다.

설정:

GPU: AMD Radeon RX 570 4GB (Polaris 10)
OS: CachyOS (Linux) using RADV drivers
Model: gemma-4-E2B-it-Q4_K_M.gguf
Backend: Vulkan

‘마법’ 명령:

./llama-server -m gemma-4-E2B-it-Q4_K_M.gguf --host 0.0.0.0 --port 11435 --ctx-size 8192 --n-gpu-layers 99 --threads 4 --no-warmup --reasoning off -np 2

수치:

Context Size: 8192 (8k)
Speed: 56 tokens/sec consistently.
VRAM Usage: 3.6 GB total (System takes ~600MB, the model + 8k KV cache takes ~3GB).

주요 포인트: -np 2 지정은 정말 놀랍게도 4GB 제한을 유지하면서 8K context 를 문제없이 동작함.

일반 Blackwell mobile 장치에서의 첫 sm_120 BeeLlama.cpp benchmark: 107 t/s at FULL 262K context on Qwen3.6 27B (+48% vs MTP, +22% vs vLLM Genesis)

‘Olares One‘ 이란 AMD Strix Halo, Nvidia DGX Spark 와 같이 AI 전용 데스크탑 장비라고 합니다. Kick Starter 제품으로 올 4월 첫 배송을 시작한 장비라고 하는데 아래와 같은 사양을 가지고 있습니다. 가격은 $3,999 로 환율 1,500원 기준, 대략 6백만원 정도입니다. 물론 관세 포함하면 더 비싸겠죠? 5백만원대인 Strix Halo, DGX Spark가 128GB LPDDR5x 통합 램 모델인 것과 달리 전용 RTX 5060m 24GB GPU 장착이라서 성능은 더 뛰어날 것으로 예상할 수 있습니다. DGX Spark가 1,000 TOPS라고 하고, Olares One은 1,824 TOPS 라고 하니 빠르긴 하네요.

Olares One과 Beellama.cpp 이용한 성능 시험 결과입니다.

요약: 262K context에서 평균 107.54 t/s (10 clean runs, range 101.70-119.38) at FULL 262K context. Zero CUDA OOM( Out-of-Memory, GPU VRAM 부족으로 모델 실행이 실패하는 현상 없음). Zero degradation cycle (반복 테스트에서의 성능 저하 사이클이 발생 없음)

보다 자세한 성능 시험 결과는 출처에서 확인해 보시기 바랍니다.

TextWeb: LLM용 Markdown Browser

AI Agent가 웹 검색을 통해 자료를 수집할 때, 스크린샷 > Vison 모델 > Text 변환하는 방식이었다면 TextWeb은 Markdown으로 바로 렌더링해 주어서 LLM이 추론하는데 쉽게 사용할 수 있도록 해 주는 도구입니다. 다른 Headless browser들과의 차별성이 있을지 모르겠지만 혹 이런 Browser를 필요로 하시는 분들도 있을지 몰라서 소개합니다.

기능 및 특징:

전체 자바스크립트 실행 지원 (동적 페이지 처리 가능).
상호작용 요소(입력 필드, 버튼 등)를 주석으로 표시하여 LLM이 네이티브로 조작·추론 가능.
명령줄 인터페이스(CLI)와 MCP 서버 제공.
LLM 에이전트가 페이지를 탐색, 스크롤, 텍스트 입력, 버튼 클릭 등을 수행할 수 있게 함.
llama.cpp 웹 UI와 호환.

※ 지난 게시글:

※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude

넷플릭스 크리스마스 영화 2023 추천작

【최애의 아이】(推しの子,OSHI NO KO) 2023 애니 강추 작품 !

플래시(The Flash)

스파이더맨: 어크로스 더 유니버스

AI 뉴스 훑어보기 – 2026.6.24

AI 뉴스 훑어보기 – 2026.6.19

AI 뉴스 훑어보기 – 2026.6.18

AI 뉴스 훑어보기 – 2026.6.17

AI & OpenClaw – 2026.5.15 소식

4GB VRAM이 죽었다고? 56 t/s on a Polaris RX 570 with 8k Context!

일반 Blackwell mobile 장치에서의 첫 sm_120 BeeLlama.cpp benchmark: 107 t/s at FULL 262K context on Qwen3.6 27B (+48% vs MTP, +22% vs vLLM Genesis)

TextWeb: LLM용 Markdown Browser

READ MORE

AI & OpenClaw – 2026.4.24 소식

RPA+ in ‘2018 Tech Crunch Disrupt – 24 of 100 Startups’

IFTTT 로 여러 소셜 서비스에 동시에 글 게시하기(1) – WP-to-LinkedIn

AI & OpenClaw – 2026.4.14 소식

Latest Posts

AI 뉴스 훑어보기 – 2026.6.24

AI 뉴스 훑어보기 – 2026.6.19

AI 뉴스 훑어보기 – 2026.6.18

Most Popular

Raspberry PI 에서 docker 설치와 실행하기 – buster OS편

Raspberry PI 에서 docker 설치와 실행하기

Raspberry Pi + nginx-rtmp 실시간 스트리밍 서버 구축

Fast Access

AI & OpenClaw – 2026.5.12 소식

AI & OpenClaw – 2026.4.13 소식

AI 뉴스 훑어보기 – 2026.6.17

AI & OpenClaw – 2026.5.4 소식