지난 주말/휴일 동안 Antropic이 Claude MAX Pro 가입자들에 대해 OpenClaw 와 같은 AI Agent 연동 사용을 금지시키고 API 요금제만 허용하는 것을 공식 통보했습니다. 이미 이전에 OAuth 사용자를 “정지(ban)” 시켰다고 알고 있었는데 MAX Pro ($200/월) 사용자들은 사용이 가능했었나 봅니다. Anthropic 공지에 따른 대처 방안을 확인해 보십시오.

변경점

AD

지난 주말 동안 Anthropic이 Claude Max 구독의 범위를 축소함. 이제 구독은 Claude의 자체(first-party) 인터페이스(Claude.ai, Claude Code, 모바일 앱)에만 적용되고, OpenClaw 같은 서드파티 에이전트는 별도 과금(“Extra Usage”) 대상이 됨. 결과적으로 Max 구독을 유지하더라도 에이전트 메시지는 토큰 단위로 추가 청구되어 총 비용이 크게 늘어날 수 있음.


비용 예시와 영향

  • 모델별 예시 요금(게시물 내 표기): Opus 4.6(높음), Sonnet 4.6(중간), Haiku 3(저렴).
  • 일반적으로 에이전트 몇 개를 운영하면 API 토큰 비용으로 월 200–400달러가 들 수 있음. 라우팅을 잘하면 이를 크게 절감 가능.

권장 대응 방안

  • Max 구독을 유지할지, 아니면 구독을 끊고 Anthropic API 키로 전환할지 검토.
  • 에이전트 호출을 단일 고급 모델로 몰아 쓰지 말고, 간단한 작업은 저비용 모델(예: Haiku), 복잡한 작업은 고성능 모델(예: Sonnet/Opus)로 자동 라우팅하는 방식 사용.
  • OpenClaw은 Anthropic 전용이 아니므로 OpenAI, Gemini, Kimi, 또는 로컬/오픈 소스(예: Ollama)로도 실행 가능 — 공급자 전환 고려.

Manifest(라우팅 툴)로 비용 절감하는 방법 (단계)

  1. Manifest에 에이전트 설정.
  2. Routers 탭에서 라우터 추가.
  3. 라우터 안에서 Provider 추가 → Subscription 탭에서 Anthropic 선택.
  4. Claude(Anthropic) 구독자용 무료 API 크레딧(계정별 $20–$200)이 있으면 크레딧을 청구(게시물에선 4월 17일까지 청구 권장).
  5. 공개된 절차에 따라 터미널에서 claude setup-token을 실행해 인증 토큰 받아서 Manifest에 연결(Manifest가 모델을 사전선택해 줌).

결론/권고

  • Claude를 직접 많이 쓰면 Max 구독 유지가 의미가 있지만, 주로 에이전트를 운영한다면 API 키 기반으로 전환하고 모델 라우팅을 통해 비용을 통제하는 편이 경제적임.
  • 가능한 경우 Anthropic에서 제공하는 무료 크레딧을 챙기고, 라우팅으로 낮은 비용 모델을 우선 활용하라.

Ollama Gemma4:31b on 3090 – FP,Q8,Q4 Benchmark

지난 주 Google은 Gemma 4 모델을 발표했습니다. Gemma 4는 Mobile 기기에서도 운영 가능한 E2B, E4B 모델 포함해서 중형 MoE 모델인 26B, 그리고 31B 모델이 있습니다. 저자는 3090 (24GB) 에서 ollama (0.20.2) 환경에서 31B의 양자화 모델을 실행한 시험 결과를 정리했습니다. 31B 모델은 27GB 정도가 필요하기에 24GB VRAM 장치에서는 실행할 수 없었을 것 같습니다만 Ollama 환경 변수 2개를 추가해서 실행 성공했다고 합니다. 

OLLAMA_FLASH_ATTENTION=1
OLLAMA_KV_CACHE_TYPE=q4_0

 

최강의 OpenClaw + Gemma 4 Stack

OpenClaw 4.1 + Google Gemma 4 공개로 로컬 에이전트 스택이 크게 개선되었고, 저비용(무토큰)으로 강력한 서브에이전트를 돌리는 최적 스택을 소개합니다.

1. 권장 아키텍처: Main Brain + Local Sub-Agent (하이브리드)

무거운 오케스트레이션(복잡한 추론/전략)은 클라우드 API(예: Claude 등)에게 맡기고, 반복적 작업, 데이터 처리, 도구 호출 같은 실무 작업은 로컬 Gemma 4 서브에이전트에게 위임.

왜 Gemma 4인가?

  • 26B MoE(모듈화 전문가) 버전이 현재 최적. MoE 특성상 실제 추론 시 활성화되는 파라미터 수가 낮아 소비 리소스가 작음.
  • 구조화된 JSON 출력, 함수 호출, 다단계 플래닝을 네이티브로 지원.

2. Turbo Quant 및 Atomic Bot

  • Turbo Quant 기술로 모델 크기 대폭 축소, 속도 향상.
  • Atomic Bot 같은 원클릭 도구로 Turbo Quant 최적화된 로컬 모델을 쉽게 가져와 연결 가능.
  • 26B 모델(터보퀀트 버전)은 약 16–17GB 정도로, 보급형 Mac Mini 같은 기기에서도 구동 가능하며 다운로드가 빠름(작성자 경험상 수~10분).

3. Ollama 관련 핵심 설정(도구 호출 문제 해결)

  • OpenClaw에서 Ollama 연동 시 흔한 실수: OpenAI 호환 경로(v1 등)를 가리키는 설정을 쓰면 네이티브 Ollama 기능(스트리밍, 안정적 도구 호출 등)을 못 쓴다.
  • 해결책: OpenClaw에 Ollama의 네이티브 베이스 엔드포인트를 지정하면 도구 호출과 구조화 출력이 안정적으로 작동한다.

4. 컨텍스트 윈도우(문맥 길이) 중요성

  • 에이전트 워크플로는 컨텍스트 크기에 민감하다. 툴 스키마를 잊거나 동작이 이상하면 컨텍스트가 너무 작을 가능성 높음.
  • Ollama 실행 시 큰 컨텍스트 길이 플래그로 시작하거나, 대용량 컨텍스트(예: 수십만 토큰까지 지원하는 모델 버전)를 사용하는 것을 권장.


알려진 버그 및 우회 방법

  • OpenClaw 4.1에는 페일백 개선이 있지만, UI에서 로컬 Ollama 모델에서 클라우드 API로 바로 전환할 때 “heartbeat” 같은 실패가 발생하는 버그가 있음.
  • 우회: 온보딩 메뉴에서 원래 모델로 다시 전환하거나(또는 메인 브레인 모델에게 게이트웨이를 수정하게 함) 복구 필요.


TL;DR(요점)

  • OpenClaw 4.1 업데이트, 메인 브레인(예: Claude)으로 오케스트레이션 → Gemma 4 26B MoE 로컬 서브에이전트에 작업 위임.
  • Ollama는 네이티브 베이스 엔드포인트로 연결하고, Ollama를 큰 컨텍스트로 띄우면 도구 호출 신뢰성/스트리밍이 좋아짐.

Fakekey – 유출 API Key를 쓸모없게 실제 API Key를 암호화해서 저장하는 Rust 기반 API Key 보안 도구

FakeKey는 실제 API 키를 가짜 키로 대체합니다. 에이전트와 종속 항목은 오직 가짜 키만 보며, 실제 키는 시스템의 네이티브 키체인에 안전하게 암호화되어 저장됩니다. 실제 키는 HTTP/S 요청이 전송되는 순간에만 다시 주입됩니다.

Local AI agent 이용해서 ~0.2s STT & ~250ms TTS latency 시스템 구축기 (No Cloud, 100% Self-Hosted)

OpenClaw 음성으로 이용할 때 가장 큰 걸림돌인 “대화 지연”을 성공적으로 줄였다고 합니다.

기술 스택:

  • STT(Speech-to-Text): Whisper large-v3-turbo를 사용하는 맞춤형 브리지. VRAM을 과다 사용하지 않으면서 동시성을 처리하기 위해 하이브리드 스레드 관리형 GPU 아키텍처를 구현한 것이 핵심이었다.
  • TTS(Text-to-Speech): OpenAI 호환 API를 제공하는 로컬 서버에서 실행되는 Coqui-TTS. 낮은 대기시간 합성을 위해 특별히 최적화(폴 베타니/자비스 음성 클론).
  • 하드웨어: NVIDIA RTX GPU가 장착된 전용 노드에서 실행(이 속도를 위해 가속이 필수적임).

Hermes agent 를 깊이 있게 분석했습니다.

OpenClaw와 차별점으로 “자동 관리/성장형 Agent” 인 Hermes agent 동작 원리를 분석한 글입니다. OpenClaw의 경우, 새 버전 업데이트하면서 기존 Agent 구동이 안되거나 OpenClaw 자체 실행에 문제가 발생하는 경우가 빈번하다 보니 관리 비용이 큰 편입니다. 최근 Daily로 발표한 버전들에서도 스킬의 의존성이 깨지거나 Telegram 연동이 깨지는 문제들이 발생했습니다. 이에 Ai Agent 스스로 관리하고 성장해 간다는 설명만으로도 Hermes 에 대한 호기심이 생기는데 동작 원리를 분석한 글을 보니 흥미롭습니다.

Hermes Agent는 복잡해 보이지만 내부는 단일 에이전트의 지속 루프(입력 → 추론 → 도구 사용 → 메모리 → 출력)를 따르는 구조다. 오케스트레이션 레이어나 다중 에이전트 군집이 아니라 하나의 에이전트가 모든 작업을 처리한다.

학습 루프(핵심): 완료된 작업을 평가해 재사용 가치가 있으면 “스킬(skill)”로 디스크에 저장한다(예: ~/.hermes/skills). 다음에는 해당 작업을 처음부터 다시 수행하지 않고 저장된 워크플로를 실행한다.

주기적 검사(핑): 에이전트는 일정 간격으로 최근 발생한 일을 검토하도록 촉발되어 유용한 프로세스 정보만 선별해 영구화한다. 이를 통해 장기 메모리가 무분별한 로그 덤프가 되는 것을 방지한다.

메모리 계층 분리:

  • 항상 로드되는 프롬프트 메모리(작고 엄격한 한도)
  • 세션 검색(SQLite + FTS5, 필요 시 검색)
  • 스킬(절차적 메모리)
  • 선택적 사용자 모델링

이 분리는 맥락(what happened)과 절차(how to do it)를 분리해 토큰 폭발 없이 확장 가능하게 한다.

게이트웨이/플랫폼 처리: CLI, Telegram, Slack 등 모든 플랫폼을 다루는 영속적 게이트웨이가 있으며 이 게이트웨이도 동일 루프의 일부다. 메시지, 예약 자동화, 스킬 생성이 같은 시스템을 통해 흐른다.


한 턴의 처리 흐름: 프롬프트 생성 → 컨텍스트 확인 → 모델 호출 → 도구 실행 → SQLite에 저장 → 응답. 토큰 한도에 걸리지 않도록 사전 압축(preflight compression)이 있고, 프롬프트 캐싱으로 반복 호출 비용을 낮춘다.

결론적 관점: 단순히 ‘메모리가 있는 에이전트’가 아니라 ‘스스로 플레이북(스킬)을 만들어 개선하는 에이전트’라는 관점이 핵심이다.

METATRON – AI 기반 보안 침해 시험 도구

대상 IP나 도메인을 제공합니다. METATRON이 실제 정찰 도구들(nmap, whois, whatweb, curl, dig, nikto)을 실행하고, 모든 결과를 로컬에서 실행되는 AI 모델에 전달하며, AI는 대상을 분석하고 취약점을 식별하며 익스플로잇을 제안하고 수정 방법을 권장합니다. 모든 것은 전체 스캔 이력과 함께 MariaDB 데이터베이스에 저장됩니다.

주요 기능

  • 🤖 로컬 AI 분석 — Ollama를 통한 metatron-qwen 기반, 100% 오프라인 실행
  • 🔍 자동 정찰 — nmap, whois, whatweb, curl 헤더, dig DNS, nikto
  • 🌐 웹 검색 — DuckDuckGo 검색 + CVE 조회 (API 키 불필요)
  • 🗄️ MariaDB 백엔드 — 5개의 연동 테이블을 포함한 전체 스캔 기록
  • ✏️ 편집 / 삭제 — CLI에서 저장된 결과를 직접 수정 가능
  • 🔁 에이전트적 루프 — AI가 분석 중에 추가 도구 실행을 요청할 수 있음
  • 🚫 API 키 필요 없음 — 모든 것이 무료이자 로컬 – 📤 보고서 내보내기”

(보너스) AI Agent 모니터링 & 평가를 위한 18개의 관찰 도구 (2026 버전)

 


※ 출처: Reddit/LocalLLM, OpenClaw

AD

LEAVE A REPLY

Please enter your comment!
Please enter your name here