Anthropic이 Claude 사용량을 월별 크레딧 시스템으로 전환한다고 합니다. Claude Code Tip 관련 글, OGX (Open Source AI Agentic API Server) 발표 내용도 확인하십시오.

Anthropic, Claude 사용량을 월별 크레딧 시스템으로 전환

Anthropic은 ‘claude -p’ 명령어와 Agent SDK를 포함한 Claude의 프로그래밍 방식 사용을 크레딧 기반 시스템으로 전환하고 있습니다. 유료 사용자는 이제 구독 플랜 금액에 해당하는 월별 크레딧을 받게 됩니다. 이러한 변화는 개발자가 Claude를 자동화된 워크플로에 통합하는 방식을 근본적으로 바꾸어, 헤드리스 세션을 사용하는 개발자의 경우 비용 증가 또는 사용 제한을 초래할 수 있습니다. 이는 소비자 플랜 구독자를 위한 API와 유사한 접근 방식에 대한 수익화 정책을 강화하려는 움직임을 보여줍니다. 제공된 크레딧은 이월되지 않으며, 해당 월 말까지 사용하지 않으면 소멸됩니다. Agent SDK 또는 ‘claude -p’ 명령어를 사용하는 사용자는 프로그래밍 방식 요청에 대해 이러한 크레딧만 사용하게 됩니다.

AD

시니어 개발자로 부터의 터미널 사용자를 위한 Claude Code Tip

핵심 명령/팁 (대표 5가지)

  • /statusline — 터미널 하단에 지속적인 상태 바를 추가(모델, 브랜치, 컨텍스트 사용량 등 표시 가능).
  • ! — 채팅에서 쉘 명령 실행. 실행 결과가 대화에 남아 복사·붙여넣기 없이 후속질문 가능. 실행 중 Ctrl+B로 백그라운드 전환 가능.
  • @ + 파일명 — 경로 자동완성으로 특정 파일을 빠르게 지정(모델의 리포지토리 ‘방황’을 줄임).
  • /add-dir — 세션에 다른 디렉터리 추가(멀티 레포 프로젝트에 유용).
  • /btw (또는 /branch) — 현재 작업을 방해하지 않고 사이드 대화를 시작하거나 별도 분기 탐색.

댓글(커뮤니티) 추가 팁

  • 헤드리스 모드: claude -p “prompt” –output-format stream-json 처럼 CLI 비대화형(이벤트/JSON 출력)으로 스크립트화 가능.
  • 커스텀 슬래시 명령: .claude/commands/*.md 파일을 두어 반복 프롬프트를 단축명령으로 만들기.
  • /memory — 영구 지침(프로젝트 규칙 등) 편집·관리.
  • 인덱서(예: cymbal) 또는 LSP 플러그인 사용: Claude가 리포지토리 전체를 ‘헤매지’ 않도록 코드 색인 제공.
  • /compact, /context — 대화 요약 및 컨텍스트 창 사용량 확인으로 컨텍스트 관리를 쉽게 함.
  • /copy 또는 pbcopy 같은 방법으로 멀티라인 복사 문제 해결(Claude에게 한 줄 명령으로 출력해 달라고 요청하는 방법도 추천).
  • /rewind, /branch 같은 기능으로 대화 분리 및 되돌리기 관리.


공통 문제·유의점

  • 복사/붙여넣기 시 명령어가 줄바꿈·이스케이프 문자로 깨지는 문제 보고. 해결책: /copy, pbcopy 사용하거나 Claude에 단일 라인 출력 지시.
  • 긴 처리(예: 15분 이상) 시 ‘생각 중’ 상태가 발생할 수 있음 — 대체로 일시적(nap)이라고 언급.
  • 토큰/사용량 관련 고려(특히 헤드리스나 외부 툴 연동 시).

AI 사용 요금 13x 절감 

핵심 주장

  • 일반적으로 비싼 최신 모델이 모든 작업에서 우수한 건 아니며, 특정 작업에서는 더 싸고 오래된/경량 모델이 동일하거나 더 나은 성능(및 속도)을 보일 수 있다.
  • 실제 비용은 공개된 토큰당 가격과 다를 수 있고, 모델이 불필요하게 긴 추론(예: CoT 출력)을 생성하면 실사용 비용이 급증한다. 따라서 자신의 실제 데이터로 직접 벤치마크해야 한다.


실행한 실험/방법론

  • 수천 건의 평가를 수행했고, 실제 프로덕션 샘플을 사용해 21개 모델을 대상으로 10개의 세부 분류 테스트(각 테스트는 일관성 측정을 위해 5회 반복)로 비교했다.
  • 실제 토큰 카운트 기반으로 API 비용을 측정했다.

구체적 비교

  • gemini-3.1-flash-lite: 85% 정확도, 비용 저렴(게시물 예시 수치 기준)
  • gpt-5.4: 85% 정확도, 비용이 매우 높음
  • llama4-maverick: 약 80% 정확도, 저비용
  • claude-opus-4.6: 약 80% 정확도, 비용 매우 높음
  • 예시 숫자(게시물에서 제시된 상대비용): flash-lite가 GPT-5.4과 동일한 정확도를 보이면서 13배(또는 약 92% 비용 절감)에 해당하는 절감 효과를 냄.


실사용 예(작은 흐름 사례)

  • 특정 분류 플로우: 약 100 호출/일 → 월 3,000 호출
  • 동일 플로우에서 gpt-5.4로는 약 $6/월, flash lite로는 약 $0.50/월(게시물 수치) — 약 92% 절감.
  • 저렴한 모델을 라우팅하면 비용뿐 아니라 레이트 한도·429 응답 회피 등 처리량 개선에도 도움됨.


권장·제안

  • 작업별로 실제 데이터로 벤치마크해 최적 모델을 선택하라.
  • 자동화를 원하면 게시물에서 언급한 오픈소스 라우터(OpenClaw 관련 라우터)를 사용해 태스크별로 최적 모델을 자동 선택하는 방법을 고려하라.

커뮤니티 반응·토론 요약

  • 일부 댓글에서 v4 flash/ pro 간 차이를 언급하며, 실제로 flash가 동일 정확도에 더 싸고 빠르게 작동한 사례 공유.
  • 다른 댓글은 단순히 “단순한 태스크는 싸게, 복잡한 태스크는 큰 모델로” 라우팅하는 휴리스틱의 한계(어떤 모델이 어떤 태스크를 잘할지 예측 불가)를 지적.

OGX: Open GenAI Stack

기존 llama stack 이름을 “OGX”로 변경했다고 합니다. OGX는 Open Source Agentic API Server 입니다. 공식 발표문을 읽어 보시기를 추천합니다. 

OGX 공식 발표문

OGX는 다음과 같은 API를 구현합니다:

  • OpenAI Responses API
  • Anthropic Messages API
  • Google Interactions API

동시에 검색, 도구, 오케스트레이션, 상태 및 서버 측 다중턴 실행을 처리합니다. 목표는 간단합니다: AI 애플리케이션이 SDK들을 이어 붙인 것처럼 느껴지지 않고 실제 인프라를 배포하는 것처럼 느껴지게 만드는 것입니다. 또한 최근 ACM Conference on AI and Agentic Systems(CAIS 2026)에서 기업이 자신의 AI 시스템에 대한 보안, 프라이버시 및 통제에 관해 우려할 때 개방적이고 벤더 중립적인 AI 인프라가 왜 중요한지에 대한 논문을 발표했습니다.

 


 

※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude

AD

LEAVE A REPLY

Please enter your comment!
Please enter your name here