Ollama Cloud Pro/Max 사용량을 Free Tier 사용량을 이용해 추정했다고 합니다. 추정치를 보면 Local AI agent 또는 coding agent 운영에 ollama cloud도 충분히 매력적입니다. 3월 말 발표한 Intel Arc B70 GPU 성능 시험 결과,1.5백~3백만원 정도로 저렴(?)하게 32GB~64GB GPU 구성이 가능해 보입니다. 

Ollama Cloud Free 사용량으로 추정해 본 Pro/Max 사용량

대용량 모델을 저렴하게 사용하는 방법의 하나로 Ollama Cloud가 있습니다. 단점은 Ollama Cloud는 다른 여타 서비스와 다르게 가입 상품별 명확한 사용량 제한을 밝히지 않기에 Free Tier기준 x5 Pro ($10/월, $200/년), x50 MAX ($100/월) 중에서 어떤 상품을 구독할지 선택하기 어렵습니다.

AD

저자는 “Free tier” 5시간-2M token/주간-5M token 기준, Pro/Max 사용량을 추정했습니다.추청한 결과를 보면 Pro 5시간-100M token/주간-250M token, MAX 5시간-500M token/주간 1.25B token 정도라고 합니다. 

참고1) Claude Code Pro의1주간 제한을 대략 1.5M token (=44k/5시간 x 24시간 x 7일)으로 추정합니다.
참고2) ollama cloud의 경우,Token 사용량이 아닌 GPU 자원 소비량을 기준으로 한다는 이야기도 있으니 참고하십시오. 
참고3) OpenCode Go($10/월)가 ollama cloud 대비 비용이 더 저렴하다는 주장도 있습니다. 단지, OpenCode Go는 사용할 수 있는 AI 모델 제한이 있습니다.

WRAITH-대부분의 “AI 메모리” 프로젝트는 데이터 입력 과정을 대략적으로만 다룹니다. 저는 누락된 부분을 보완하는 레이어를 구축했습니다.

많은 AI 메모리 프로젝트가 획득,agents,RAG,보관(Vaults),장기 context 등에는 신경 쓰지만, 실제로 유용한 지식을 어떻게 ‘캡처(ingest)’해서 저장소(vault)에 넣는지는 간과하고 있음.

WRAITH 로컬 우선(local-first) 브라우저 캡처 파이프라인. 브라우저에서 저장한 내용을 구조화된 검색 가능한 마크다운으로 변환해 AI가 영구 보유 가능하게 함.

  • 파이프라인 구조: Browser → WRAITH → Scout → Librarian → vault (modus-memory와 연동 가능)
  • Safari 확장과 WebSocket 이용한 캡쳐 대상: 웹페이지, 트윗, 텍스트 선택
  • 백그라운드 수집: X(구 트위터) 북마크, GitHub 스타, Reddit 저장, YouTube 자막, Audible 하이라이트 등
  • Scout(빠른 분류): 빠른 트리아지(예: 빈 본문은 버림, CVE 포함 타이틀은 보관 등)
  • Librarian(최종 정리): 로컬 모델(Gemma 4 26B 등)을 이용해 저장 전 작업 수행 — 요약, 핵심 아이디어, 기술적 세부사항, 실무적 시사점, 인용문, 참고자료 추출. 파일은 brain/{source}/YYYY-MM-DD-{slug}.md 형식으로 YAML 프런트매터+체크섬 포함.
  • 중복 처리: 결정론적 방식 — SHA-256(정확 중복), Jaccard 단어 유사도(0.82 임계값)로 근접 중복 제거.
  • 시스템 설계 신뢰성: 모든 핸드오프는 JSONL로 로깅, 재시작 시 큐 지속성, 실패는 시스템 전체를 다운시키지 않도록 깔끔히 표시.
  • 통합: modus-memory 같은 기존 시스템과 함께 사용 가능( WRAITH가 쓰기, modus-memory가 인덱싱 ).
  • 구현·배포 특징: Go로 빌드된 바이너리, 크기 약 6MB, localhost 전용, MIT 라이선스.
  • 실사용 지표(테스트 금고): 16,000+ 문서, 검색 응답 <5ms.

2x Intel Arc B70 Benchmark

지난 3월 말, Intel에서 AI GPU 2종을 새롭게 발표했습니다. Arc B70은 32GB VRAM 모델로 $949 (150만원 정도?)로 Nvidia RTX 모델보다 저렴(?)하게 나왔습니다. 성능이 궁금하던 차에 2대의 Arc B70을 이용한 성능 시험 결과가 있어서 소개합니다. 성능 결과를 보면 RTX 5090 32GB (대략 6백만원) 보나 느릴지는 몰라도 2대 가격이 RTX 절반이니 매력적이긴 합니다.

보다 자세한 내용은 원문을 참고하십시오.

Test Configuration
  • Model: Qwen3-30B-A3B (30B Total / 3B Active MoE)

  • Hardware: 2× Intel Arc Pro B70 (32GB VRAM each)

  • TP: 2 (Tensor Parallelism)

  • Quantization: FP8 Dynamic Online

  • Stack: intel/vllm:0.17.0-xpu on Ubuntu 25.10

Performance Summary
MetricResult
Peak Throughput997 tok/s (Multi-stream)
Single-Stream41 tok/s
Best TTFT79 ms
Typical ITL25 ms/tok
VRAM Efficiency93% (59.4/64 GB)

quant.cpp v.0.7.1 – fp32 KV 속도의 KV 캐시 압축 (단일 헤더 C, 11 Karpathy 라운드)

quant.cpp는 개발 중인 소규모 C 추론 엔진으로, 키-값 캐시 양자화 연구에 초점을 맞추고 있습니다. LLM 메모리는 KV 캐시가 대부분을 차지합니다. quant.cpp는 KV 캐시 양자화를 실제로 구현하는 최소한의 C 엔진으로, 다른 어떤 라이브러리도 제공하지 않는 독특한 형태를 가지고 있습니다. 단 하나의 헤더 파일(quant.h, 628KB)과 라이브러리 종속성 없이 iOS/Android/WASM/MSVC/마이크로컨트롤러에서 실행됩니다.

소개:

  • 7배 더 긴 컨텍스트를 사용하는 LLM 추론.
  • 순수 C 언어로 작성되었으며, 종속성이 없습니다.
  • 무손실 KV 캐시 압축 및 단일 헤더 라이브러리를 지원합니다.

quant.cpp를 사용해야 하는 두 가지 이유:

  • LLM 추론 기능을 앱, 게임, 웹 페이지, 기기 등에 내장해야 할 때. quant.cpp는 하나의 파일(quant.h, 628KB)과 libc로 구성되어 있으며, C 컴파일러가 실행되는 모든 곳에서 실행됩니다.
  • KV 캐시 압축을 연구하고 싶을 때. quant.cpp는 uniform_4b/2b/3b, polar_3b/4b, qjl_1b, turbo_kv_* 등 7가지 KV 양자화 방식을 병렬로 구현합니다. 각 방식은 하나의 C 파일에서 읽을 수 있으며, 새로운 방식은 단 3개의 함수로 추가할 수 있습니다.

GPU Terminal Monitor – RocTop

nvtop과 유사한 TUI기반 GPU 모니터링 도구입니다. 다중 GPU 환경 – NVidia, AMD, 내장GPU – 모두에서 동작 가능합니다. 최대 16개 GPU까지 표시 가능합니다. 단순 정보, 오류, 로그 포함하여 수집 가능한 많은 데이터를 수집할 수 있습니다.

 

 


※ 출처: Reddit/LocalLLM, OpenClaw

AD

LEAVE A REPLY

Please enter your comment!
Please enter your name here