ollama.com 모델별 TPS 성능 시험한 결과가 흥미롭습니다. Claude의 Dynamic Workflow를 Codex에서도 사용 가능하도록 만들어 주는 Skill도 흥미롭습니다.
ollamatps.com – ollama 모델별 TPS(요청 처리 속도)를 벤치마크
작성자는 $20/month 유료 플랜 만료된 뒤 무료 티어로 자동 하향되어 동일한 테스트를 다시 실행했고, 무료 티어에서의 실제 쿼터(usage) 소비를 모델별로 비교·순위화함.
방법론
- 무료 티어에서 접근 가능한 25개 모델에 대해 동일한 요청(동일 길이, 동일 입력)을 각 모델에 전송.
- Ollama Cloud 대시보드의 모델별 사용 비율(usage %)을 수집.
- 모델별 상대적 요청 비용 ≈ (usage % ÷ 요청 수)로 계산. gemma3:4b를 최저(1.0×) 기준으로 비교.
- 총 요청 수: 3,680회.
주의: 공식 요금표가 아님 — 캐시, 출력 길이, 프롬프트 차이 등으로 실제 환경에서 달라질 수 있음.
핵심 발견(숫자·순위)
- 무료 티어는 전체 모델 카탈로그가 아니라 고정된 25개 모델만 제공됨.
- 가장 큰 쿼터 소모 모델(가장 비쌈):
- qwen3-vl:235b — 사용 29.6%, 요청 136, 비용 지수 158.9× (가장 비쌈)
- qwen3-next:80b — 사용 12.3%, 요청 145, 61.9×
- minimax-m2.5 — 사용 12.8%, 요청 175, 53.4×
- glm-4.6 — 사용 5.3%, 요청 147, 26.3×
- devstral-2:123b 등 상위권 다수
- 가장 적게 쿼터를 쓰는(가장 저렴한) 모델들:
- gemma3:4b — 기준 1.0× (cheapest)
- ministral-3:3b / ministral-3:8b / nemotron-3-nano:30b / gemma3:12b 등은 2–4× 수준
모델군 사용 비중:
- Qwen / Mistral 계열: 61.5% (무료 티어 쿼터 대부분 차지)
- MiniMax: 18.9%
- GLM / Cogito: 12.1%
- Google Gemma: 2.7%
- GPT-OSS: 2.5%
- NVIDIA Nemotron: 2.3%
결론적 권고:
- 무료 티어에서는 모델 선택이 쿼터 소모에 매우 큰 영향을 미침 — 실험·테스트용으로는 qwen3-vl, qwen3-next, minimax-m2.5, glm-4.6, 비전-언어(VL) 모델들 사용을 피하라고 권장.
- 쿼터를 아끼려면 gemma3:4b(가장 저렴)를 기본으로, 품질과 비용의 균형을 원하면 gemma3:12b / ministral-3:8b·14b / nemotron-3-nano 등을 고려.
(보너스) Codex용 Claude Code의 Dynamic Workflow Skill
지난 주, Anthropic이 OPUS 4.8 발표하면서 “Dynamic Workflow” 기능을 공개했습니다. 하나의 작업 지시를 여러 개의 Sub-Task로 분할해서 병렬로 진행하게 하는 오케스트레이션이 가능한 기능인데 이 기능을 Codex에서 유사하게 사용할 수 있도록 Skill로 만든 분이 나왔습니다.
아래 작성자의 X 게시글 내용 참고하십시오.
1. 워크플로우 스크립트를 작성하세요
2. 작업을 서브 에이전트를 위한 패킷으로 분할하세요
3. 서브 에이전트 결과를 종합하세요
4. /goal 루프에서 실행하고 완료될 때까지 검증하세요
저는 그 패턴을 Codex에 무료로 설치할 수 있는 스킬로 패키징했습니다.
※ 지난 게시글:
- AI 뉴스 훑어보기 – 2026.5.29
- AI 뉴스 훑어보기 – 2026.5.28
- AI 뉴스 훑어보기 – 2026.5.27
- AI 뉴스 훑어보기 – 2026.5.26
- AI 뉴스 훑어보기 – 2026.5.22
※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude










