오늘은 Claude Code 관련 소식이 많네요. Claude Code 행동 관찰자 앱 AgentWatch, 안드로이드 Local AI Coding agent CODEY-V2, Google TurboQuant 구현 사례 소개, LLM이 “잘 모르겠다”는 대답을 하는 것과 관련한 토론이 흥미롭습니다.
AgentWatch – Claude Code 관찰자 앱
프로젝트 개요:
AgentWatch라는 Claude Code 관찰자 앱을 주말에 개발하여 공유. 목적은 기존의 “사용자가 코드를 쓰고 AI가 보조하는” 모델이 아니라, Claude가 코딩을 주도할 때 사용자가 그 동작을 관찰·유도·감사할 수 있게 하는 인터페이스 제공.
주요 기능:
- 2D 트리맵(코드베이스 전체 시각화): 파일 유형 색상 구분, Claude가 파일을 읽거나 수정할 때 에이전트 구체가 실시간으로 이동.
- 라이브 diff 스트림: Claude가 타이핑 중일 때도 편집이 즉시 diff로 표시되며 파일/작업별 편집 히스토리 저장.
- 사용량 대시보드: 토큰 수와 USD 비용을 작업·프로젝트·일별로 추적(세션 간 지속 저장).
- 파일 마인드맵: 의존성(임포트) 기반의 force-directed 그래프, 파일을 열어 노드 확장/축소 가능.
- 아키텍처 패널: 파일 확장자로 기술 스택 탐지 후 아키텍처 레이어로 그룹화, 비동기 Claude 분해(pass)로 레이어 건강 상태 판정 및 캐싱.
- 자동 파일 요약: 열람한 파일마다 Claude가 요약을 생성해 .ctx.md로 캐시.
구현 및 요구사항:
- Tauri(Rust) 셸 + React/TypeScript 프론트엔드, Zustand 상태관리.
- 로컬에서 실행(클라우드 사용 안 함).
- 현재 macOS 전용(Windows/Linux는 예정).
- Claude Code CLI 필요.
CODEY-V2 출시
Android 기기에서 실행 가능한 데몬 기반 AI 코딩 에이전트로, 기본적으로 클라우드 의존 없이 완전히 온디바이스(안드로이드의 Termux 또는 리눅스)에서 실행됩니다.
- Qwen2.5-Coder-7B (주 코딩/추론 에이전트)
- Qwen2.5-0.5B (플래너 및 요약기)
- nomic-embed-text-v1.5 (RAG 임베딩)”
Hermes용 Token 분석 대시보드 – 모든 API 호출의 73%는 고정 오버헤드
대시보드 이용해서 API 호출을 분석한 결과, 아래와 같은 결론을 도출했다고 합니다.
다음은 프레임워크 수준의 변경을 필요로 합니다:
- 플랫폼별 도구집합: 메시징 플랫폼에 대해 browser_* 도구를 로드하지 않음(요청당 약 1.3K 절약)
- 지연된 스킬 로딩: 카탈로그를 모든 시스템 프롬프트에 주입하는 대신 필요 시 스킬을 로드(요청당 약 2.2K 절약)
- 더 이른 압축: 긴 대화에서 더 빨리 압축하도록 임계값을 0.5 → 0.3으로 변경
- 보호된 메시지 감소: 보다 공격적인 컨텍스트 압축을 위해 protect_last_n: 20 → 10
위 옵션 1-2만으로도 요청당 약 3,500 토큰을 절약할 수 있으며 — 이는 기능 손실 없이 약 18% 감소입니다.
turboquant-vllm v1.3.0 – vLLM plugin
Google TurboQuant 적용한 vLLM plugin입니다. Llama, Mistral, Qwen, Phi, Gemma + Molmo2 모델 계열 KV Cache 압축이 가능하다고 합니다. KV Cache만 압축이 가능한 제약은 있고, FP16 비전 모델이 FP8 Text 모델 보다 압축율이 더 좋게 나왔습니다. 약간의 학술적인 내용은 건너뛰고 실제적으로 plugin 추가하면 기존 모델과 성능 차이(손실) 없이 KV Cache 압축이 가능하다는 것을 확인하고 사용하면 될 것 같습니다.
TurboQuant (ICLR 2026) 논문을 순수 C로 구현한 프로젝트
주요 기법
- Key(키)를 1비트로 압축: 랜덤화된 하다마드 변환 + sign hashing 사용.
- Attention 계산을 비트 연산 기반으로 구현: XOR + popcount(비트 집계).
- Value(값)는 독립적으로 Q4 또는 Q2로 양자화.
성능·효과
- K+V 합계에서 4.9×–7.1× 압축(테스트 모델: Gemma 3 4B).
- 32K 컨텍스트에서 최대 약 3.7GB 메모리 절약 보고.
품질 검증
- 1비트 attention cosine = 0.634 (이론적 한계 2/π와 근접).
- NEON(ARM SIMD) 경로는 스칼라 레퍼런스와 검증됨.
- ASan 클린, 26개 테스트 스위트 통과.
- 외부 종속성 없음(순수 C 구현).
[토론] LLM이 확실하지 않을 때 명시적으로 “모릅니다(I don’t know)”라고 답하게 만드는 문제의 난이도와 해결 가능성에 대한 토론.
논점
- 많은 참가자들이 이 문제를 단순한 프롬프트 엔지니어링 수준을 넘어선, 학습(훈련) 문제라고 봄 — 기본 모델의 학습 방법·데이터 보강이 필요하다는 주장.
- 반대 의견도 있음: LLM은 본질적으로 확률적 생성기이므로 “모른다”를 완전히 보장하는 건 구조적 한계가 있다는 주장(LLM은 ‘모름’을 인식하지 못함).
제안된 접근들
- 훈련 단계에서 “I don’t know” 레이블로 미세조정(fine-tuning)하거나 오답에 대해 강하게 패널티 주기.
- 별도의 신뢰도(확신) 판단 모델 또는 critic/planner/critic/writer 같은 다중 역할 모델 파이프라인을 도입해 불확실성을 검증하게 함.
- 응답의 perplexity(또는 불확실성 지표)를 측정해 임계값 이상이면 “모르겠다”를 반환하게 함.
- RAG(검색 기반 증거 취합)·evidence orchestration 방식을 써서 근거가 부족하면 회피하도록 설계.
- 반대·주의: 너무 쉽게 “모르다”를 내놓으면 정답을 줄 수 있는 경우도 놓칠 수 있음(위양성/위음성 트레이드오프).
- 철학적/근본적 관점: 일부는 이는 의식(consciousness) 문제와 연관된 오해이며, 현재 아키텍처로는 본질적 한계가 있다고 봄. 다른 이는 단지 분류 문제일 뿐이며 더 나은 학습·평가 메커니즘으로 해결 가능하다고 봄.
커뮤니티 논평(핵심 관점들)
- “훈련·가중치 조정으로 해결 가능” / “fine-tune으로 I don’t know 라벨 학습” (예: No-Consequence-1779 등)
- “LLM은 아무 것도 알지 못한다(항상 환각 가능)” — hallucination이 본질이다 (datbackup 등)
- “별도 모델로 신뢰도/메타인지 판단을 해야 한다” (Helpful-Account3311 등)
- critic/planner/writer 루프나 evidence-driven 설계로 실용적 해결을 시도 중(예: sn2006gy의 경험 공유)
- 구현적 팁: 높은 perplexity(또는 불확실성)일 때 ‘모르겠다’ 출력하도록 설정하면 간단히 적용 가능하다는 주장(gh0stwriter1234)
(보너스) X(구,Twitter) 링크만 추가합니다.
- 해커톤 우승자가 공개한 Claude Code 셋팅 파일 – Everything Claude Code
- Claude.md 파일로 출력 토큰 60% 감소 – Claude-token-efficient
- Claude Code 소스코드 유출된 걸로 클로드 토큰 덜 먹게하는 다이어트 스킬 – Token Diet
- DESIGN.md 파일 하나를 프로젝트에 복사하고, AI 코딩 에이전트에게 ㄱㄱ – Awesome DESIGN.md
※ 지난 게시글:
- AI & OpenClaw – 2026.4.1 소식
- AI & OpenClaw – 2026.3.31 소식
- AI & OpenClaw – 2026.3.30 소식
- AI & OpenClaw – 2026.3.27 소식
- AI & OpenClaw – 2026.3.26 소식
※ 출처: Reddit/LocalLLaMa, OpenClaw












