Home AI 동향

AI 뉴스 훑어보기 – 2026.6.1

2026-06-01

522

ollama.com 모델별 TPS 성능 시험한 결과가 흥미롭습니다. Claude의 Dynamic Workflow를 Codex에서도 사용 가능하도록 만들어 주는 Skill도 흥미롭습니다.

ollamatps.com – ollama 모델별 TPS(요청 처리 속도)를 벤치마크

작성자는 $20/month 유료 플랜 만료된 뒤 무료 티어로 자동 하향되어 동일한 테스트를 다시 실행했고, 무료 티어에서의 실제 쿼터(usage) 소비를 모델별로 비교·순위화함.

방법론

무료 티어에서 접근 가능한 25개 모델에 대해 동일한 요청(동일 길이, 동일 입력)을 각 모델에 전송.
Ollama Cloud 대시보드의 모델별 사용 비율(usage %)을 수집.
모델별 상대적 요청 비용 ≈ (usage % ÷ 요청 수)로 계산. gemma3:4b를 최저(1.0×) 기준으로 비교.
총 요청 수: 3,680회.

주의: 공식 요금표가 아님 — 캐시, 출력 길이, 프롬프트 차이 등으로 실제 환경에서 달라질 수 있음.

핵심 발견(숫자·순위)

무료 티어는 전체 모델 카탈로그가 아니라 고정된 25개 모델만 제공됨.
가장 큰 쿼터 소모 모델(가장 비쌈):
- qwen3-vl:235b — 사용 29.6%, 요청 136, 비용 지수 158.9× (가장 비쌈)
- qwen3-next:80b — 사용 12.3%, 요청 145, 61.9×
- minimax-m2.5 — 사용 12.8%, 요청 175, 53.4×
- glm-4.6 — 사용 5.3%, 요청 147, 26.3×
- devstral-2:123b 등 상위권 다수
가장 적게 쿼터를 쓰는(가장 저렴한) 모델들:
- gemma3:4b — 기준 1.0× (cheapest)
- ministral-3:3b / ministral-3:8b / nemotron-3-nano:30b / gemma3:12b 등은 2–4× 수준

모델군 사용 비중:

Qwen / Mistral 계열: 61.5% (무료 티어 쿼터 대부분 차지)
MiniMax: 18.9%
GLM / Cogito: 12.1%
Google Gemma: 2.7%
GPT-OSS: 2.5%
NVIDIA Nemotron: 2.3%

결론적 권고:

무료 티어에서는 모델 선택이 쿼터 소모에 매우 큰 영향을 미침 — 실험·테스트용으로는 qwen3-vl, qwen3-next, minimax-m2.5, glm-4.6, 비전-언어(VL) 모델들 사용을 피하라고 권장.
쿼터를 아끼려면 gemma3:4b(가장 저렴)를 기본으로, 품질과 비용의 균형을 원하면 gemma3:12b / ministral-3:8b·14b / nemotron-3-nano 등을 고려.

(보너스) Codex용 Claude Code의 Dynamic Workflow Skill

지난 주, Anthropic이 OPUS 4.8 발표하면서 “Dynamic Workflow” 기능을 공개했습니다. 하나의 작업 지시를 여러 개의 Sub-Task로 분할해서 병렬로 진행하게 하는 오케스트레이션이 가능한 기능인데 이 기능을 Codex에서 유사하게 사용할 수 있도록 Skill로 만든 분이 나왔습니다.

아래 작성자의 X 게시글 내용 참고하십시오.

1. 워크플로우 스크립트를 작성하세요

2. 작업을 서브 에이전트를 위한 패킷으로 분할하세요

3. 서브 에이전트 결과를 종합하세요

4. /goal 루프에서 실행하고 완료될 때까지 검증하세요

저는 그 패턴을 Codex에 무료로 설치할 수 있는 스킬로 패키징했습니다.

※ 지난 게시글:

※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude

넷플릭스 크리스마스 영화 2023 추천작

【최애의 아이】(推しの子,OSHI NO KO) 2023 애니 강추 작품 !

플래시(The Flash)

스파이더맨: 어크로스 더 유니버스

AI 뉴스 훑어보기 – 2026.7.16

AI 뉴스 훑어보기 – 2026.7.15

AI 뉴스 훑어보기 – 2026.7.13

AI 뉴스 훑어보기 – 2026.7.10

AI 뉴스 훑어보기 – 2026.6.1

ollamatps.com – ollama 모델별 TPS(요청 처리 속도)를 벤치마크

(보너스) Codex용 Claude Code의 Dynamic Workflow Skill

READ MORE

AI & OpenClaw – 2026.5.14 소식

AI & OpenClaw – 2026.4.1 소식

AI 뉴스 훑어보기 – 2026.6.4

AI & OpenClaw – 2026.3.27 소식

Latest Posts

AI 뉴스 훑어보기 – 2026.7.16

AI 뉴스 훑어보기 – 2026.7.15

AI 뉴스 훑어보기 – 2026.7.13

Most Popular

Raspberry PI 에서 docker 설치와 실행하기 – buster OS편

Raspberry PI 에서 docker 설치와 실행하기

Raspberry Pi + nginx-rtmp 실시간 스트리밍 서버 구축

Fast Access

AI & OpenClaw – 2026.5.20 소식

AI & OpenClaw – 2026.3.16 소식

OpenClaw – 2026.3.6 소식

AI & OpenClaw – 2026.4.1 소식