OpenClaw AI API 호출 비용 절감해 주는 오픈 소스 AI Router인 Manifest, GLM 5.1의 장단점 사용 후기, Qwen3.5 모델 사용 실패 사례와 수정 방안, 오픈 소스 Sandbox 솔루션인 smoIVM 등이 눈길을 끕니다.
Manifest – AI agent는 항상 최고 수준의 모델이 필요하지 않다.
OpenClaw와 같은 AI Agent 기본 구성에는 작업 지시/감독하는 “사람의 뇌” 역할을 하는 AI 모델이 필요합니다. OpenClaw 설정에 보면 주(primary)모델,실패(fallback)시 사용할 모델을 지정할 수 있습니다. 모든 작업에 고성능(=고가) 주 모델을 사용할 필요 없고, 업무 내용에 따라서 좀 더 저렴한 다른 AI 모델을 사용하는 것이 AI API 비용 관리 측면에서 유리합니다. 이런 역할을 하는 것을 네트워크 용어와 유사하게 “AI 라우터(Router)”라고 하고, 저자는 작업 내용에 따라서 AI 모델을 선별하여 사용할 수 있도록 하는 오픈소스 “Manifest “를 이용하여 어떻게 AI 모델을 선택적으로 사용할 수 있고, 비용 절감한 내용을 게시했습니다.
해결 접근법(세 가지 핵심):
1. 로컬/경량 모델로 일상적 루틴 작업 처리
- 분류, 요약, 임베딩, 텍스트 추출 같은 작업은 4B급 모델로 충분.
- Apple Silicon이면 Ollama로, NVIDIA GPU면 LM Studio 사용 제안.
2. 요청을 난이도/작업별 티어(예: simple, standard, complex, reasoning, coding)로 라우팅
- 라우터가 요청을 검사해 적절한 티어의 모델로 보냄. 과부하 시 폴백(fallback)으로 다른 모델 사용.
3. 이미 구독 중인 서비스들을 플러그인해 활용
- API 구매를 중복하지 않고 기존 구독을 라우터에 연결해 사용량 분산.
※ Manifest: 오픈소스 라우터(로컬 또는 클라우드에서 실행). 티어별로 모델/폴백을 설정해 자동 분배.
4. 작성자의 구성 예시(티어별 모델/폴백)
- Simple: gemma3:4b (로컬) / 폴백: GLM-4.5-Air (Z.ai)
- Standard: gemma3:27b (로컬) / 폴백: MiniMax-M2.7 (MiniMax)
- Complex: gpt-5.2-codex (GitHub Copilot) / 폴백: GLM-5 (Z.ai)
- Reasoning: GLM-5.1 (Z.ai) / 폴백: MiniMax-M2.7-highspeed (MiniMax)
- Coding: gpt-5.3-codex (GitHub Copilot) / 폴백: devstral-small-2:24b (로컬)
5. 실제 비용(작성자 기준)
- Z.ai 약 $18/월 (Lite)
- MiniMax 약 $8/월
- GitHub Copilot 약 $10/월
- 로컬 모델을 돌릴 Mac Mini는 일회성 약 $600
- Manifest.build는 무료.
※ 함께 읽어 볼 글: Manifest 지원 모델 종류에 ollama 추가
Anthropic 차단으로 GLM 5.1로 이전한 사람들이 말하는 것
배경
- 4월 4일 Anthropic(Claude) 구독 변경/제한으로 OpenClaw 세션의 약 60%가 영향 받음.
- 기존 월정액 사용자가 토큰 기반 과금으로 전환되며, OpenClaw의 컨텍스트 로딩이 토큰을 많이 소모해 몇몇 사용자는 단기간에 큰 비용(예: 3일에 $200)을 보고함.
GLM‑5.1이 주목받는 이유
- 비용 효율성: 게시물에 인용된 단가(1M 토큰 기준)
- GLM‑5.1: 입력 $0.95, 출력 $3.15
- Claude Sonnet 4.6: 입력 $3.00, 출력 $15.00 (대략 입력 3배, 출력 5배 차이)
사용 후기
- 여러 사용자가 에이전트 워크플로우(툴 호출, 작업 실행)에 잘 맞는다고 보고.
- SOUL.md 준수. 여러 사용자에 따르면 GPT-5.4나 Gemma보다 성격과 규칙을 더 자연스럽게 파악.
- 대형 컨텍스트 윈도우(게시물에선 ~203K)이 OpenClaw의 컨텍스트 중심 설계에 유리하다고 평가.
- 코드 생성 성능이 좋고 장기 세션에서 문맥을 잘 유지한다는 보고 다수.
배포/구성 방법 (요약)
- 가장 쉬운 방법: openclaw onboard 실행 → Z.ai 공급자 선택 → API 키 입력 → 모델 GLM‑5.1 선택
- 수동 구성 예시(요점만): models.providers에 zai 블록 추가, 모델 id를 glm‑5.1로 설정, reasoning 활성화, input text, contextWindow 예시 204800, maxTokens 예시 131072. agents.defaults에서 기본 모델을 zai/glm-5.1로 지정 후 게이트웨이 재시작.
장점으로 자주 언급된 항목
- 툴 호출·작업 실행의 신뢰성(‘말만 하고 안 하는’ 문제 적음)
- 규정 준수·페르소나·룰 적용을 자연스럽게 처리한다고 보고
- 긴 대화(스레드) 유지에 강함
- 멀티스텝 코드 생성에서 좋은 성능
단점으로 자주 지적된 항목
- 첫 토큰 지연(latency)이 상대적으로 길고, 특히 reasoning 활성화 시 느림
- 텍스트 전용(이미지/비전 입력 불가)
- 미묘한 문장 표현에서 영어가 가끔 어색하게 느껴질 수 있음(코드엔 강함)
- 응답 중단(abort) 기능 부재 — 긴 응답을 중간에 멈출 수 없음
운영상의 권고
- 한 공급자 의존도를 줄일 것(대체 플랜 권장)
- 제안된 구성 예:
- 일상용은 zai/glm-5.1(저비용)
- 복잡한 작업은 anthopic/claude-sonnet-4-6(수동 전환)
- 헬스체크용이나 비용 제로 옵션은 Ollama 로컬 또는 OpenRouter 무료 계층 등
Ollama Cloud $20/월 플랜 또는 코딩 요금제/플래시 변형의 무료 일일 토큰으로 테스트 가능.
Qwen 3.5 27B/35BA3B의 도구 호출 실패 사례별 수정 방법
※참고: Qwen3.5 122B 모델에도 적용되는 것으로 보입니다.
저자는 한 달 가량 혼합 GPU 구성(RTX 4090 + 3090)에서 Qwen 3.5-27B를 운영해 왔다고 합니다. 에이전트 워크플로를 망가뜨리는 툴 호출 실패와 관련하여 설정을 망친 원인과 수 주간의 디버깅 끝에 이를 해결한 방법이 있습니다.수 많은 시간의 디버깅, 실패한 실행과 vLLM 소스 코드 읽기를 거친 끝에 드디어 안정적인 설정 내용을 공유합니다.
(실제 내용은 vLLM 옵션/설정 관련 설명이라서 원문을 보실 것을 추천합니다.)
llm-server – llama.cpp flag 자동 조절하는 스마트 런처
llm-server는 ik_llama.cpp 및 llama.cpp용 스마트 런처입니다. 사용자의 하드웨어를 자동으로 감지하고 최적의 구성을 파악한 다음 서버를 실행합니다 — 수동 플래그 조정이 필요 없습니다. v2 –ai-tune 옵션 제공으로 AI 기반의 자체 튜닝 기능 제공해서 모델이 자체 서버 플래그를 최적화합니다. Linux(NVIDIA CUDA), macOS(Apple Silicon Metal), 및 Windows(WSL2를 통해)를 지원합니다.
opencode-models-discovery – API Gateway 파일로 부터 동적 AI 모델 검색하는 OpenCode plugin
OpenClaw도 그렇고 OpenCode도 사용하고자 하는 AI 모델 목록을 설정 파일에 미리 명시한 후에 사용 선택할 수 있습니다. AI 모델을 변경하려면 매 번 설정 파일을 수정하고 재시작해야 하는 불편함이 있습니다. 저자는 동적 모델 목록 관리가 가능한 plugin을 소개하고 있습니다.
문제 인식
- API 게이트웨이(예: OneAPI, NewAPI, LiteLLM, Ollama, LM Studio, vLLM, LocalAI 등)를 사용하면 모델 목록이 빠르게 방대해짐.
- opencode.json 관리가 번거로워짐.
- 새 모델 = 설정 업데이트.
- 전체 목록이 아닌 부분 목록만으로도 충분한 경우가 있음.
- 모든 모델을 한꺼번에 로드하거나 수동으로 설정 파일을 관리해야 하는 불편함이 있음.
- gateway 모델 ID가 복잡해지고 읽기 어려워짐
opencode-models-discovery 플러그인은 /v1/models 엔드포인트에서 모델을 자동으로 발견(discover)하여 OpenCode 설정에 동적으로 주입함.
목적: 긴 설정 파일을 수동으로 관리하지 않도록 하고, 게이트웨이와 함께 OpenCode를 더 편리하게 사용하게 함.
지원 기능(구성 옵션)
- provider 필터링: providers.include / providers.exclude
- 모델 필터링: models.includeRegex / models.excludeRegex
- 모델 목록을 전체 가져오지 않고 깔끔하게 유지하도록 설계
현재 한계 / 향후 고려 사항
- 현재는 모델의 응답 가능성(availability) 검사 또는 실제 응답 여부 확인을 수행하지 않음.
- 댓글에서 해당 기능(가용성 체크)은 향후 구성 토글로 추가 검토 가능하다고 답변함.
smoIVM – 코드 실행, Browser 사용, AI agents를 위한 오픈 소스 sandbox
“code on incus” 와 유사하게 AI agent와 사용 가능한 sandbox 만들어 주는 오픈 소스로 보입니다. “code on incus”는 incus를 이용해서 incus instance 내부에 claude code/opencode를 구성하는데 smoIVM은 어떤 방식으로 구현한 것인지는 잘 모르겠습니다. 두 개 프로젝트 모두 스타 갯수는 소소합니다.
주요 기능
- 1초 미만의 부팅 — VM은 약 500ms 내에 준비됩니다.
- 하드웨어 격리 — 컨테이너보다 강력한 보안.
- 네트워크 제어 — 아웃바운드 필터링을 위한 도메인 허용 목록.
- 브라우저 세션 — 전체 브라우저 에이전트가 보고 제어할 수 있습니다.
- 호스트 마운트 — 샌드박스에 로컬 디렉터리 읽기 접근 권한 부여.
- 스냅샷 — VM 상태를 즉시 저장하고 복원.
- OpenClaw — 샌드박스 안의 GUI Linux 앱.
사용 사례
- 신뢰할 수 없는 코드 안전하게 실행. AI가 생성한 코드를 기기에서 직접 실행하는 대신 격리된 샌드박스에서 실행하세요.
- 에이전트에 브라우저 제공. 에이전트가 실시간으로 보고 제어할 수 있는 전체 브라우저 세션을 띄우세요.
- 에이전트가 프로젝트를 읽도록 허용. 로컬 디렉터리를 마운트해 에이전트가 샌드박스 내에서 코드베이스를 탐색할 수 있게 하세요.
- 턴 간 상태 유지. 다단계 워크플로우 동안 동일한 샌드박스를 재사용하세요.
(보너스) 유명한 OpenClaw 자료 모음
※ 지난 게시글:
- AI & OpenClaw – 2026.4.14 소식
- AI & OpenClaw – 2026.4.13 소식
- AI & OpenClaw – 2026.4.10 소식
- AI & OpenClaw – 2026.4.9 소식
- AI & OpenClaw – 2026.4.8 소식
※ 출처: Reddit/LocalLLM, OpenClaw, unsloth













