Home AI 동향

AI 뉴스 훑어보기 – 2026.7.1

2026-07-01

553

Nvidia에서 Qwen3.6-27B-FP8의 양자화 모델인 Qwen3.6-27B-NVFP4 모델을 공개했습니다. 파라미터수와 파일 크기는 줄어들었지만 성능은 원 모델 성능과 대등한 결과를 보인다고 합니다. Local Ollama 사용하시는 분들을 위한 성능 비교 앱을 소개합니다. Local Ollama 실행 환경이 모두 다르기에 자신만의 모델별 성능 표를 구성해 보시는 것도 좋을 것 같습니다. 그 외, 토큰 다이어트 관련 소식도 살펴 보십시오.

Qwen3.6-27B-NVFP4 모델 발표

Qwen3.6-27B 원본 모델은 FP8입니다. 6/26이 Nvidia에서 NVFP4 양자화 모델을 Huggingface를 통해서 공개했습니다. 참고로, “NV-” 접두어가 있는 모델은 NVidia CUDA에 맞도록 양자화한 모델로서 NVidia GPU에서 성능을 발휘하는 모델들입니다. Qwen3.6-27B-NVFP4 모델을 보면 파라미터가 28B=>18B, 파일 크기는 30.9GB=> 21.9GB 로 작아졌지만 성능은 원 모델과 대등한 수준을 나타내고 있습니다.

Local LLM matrix, Local에서의 Ollama 모델 성능 비교 앱 Beta

목적: 사용자의 로컬 하드웨어·설정·프롬프트·응답 제한에서 Ollama 모델들이 실제로 어떻게 동작하는지 직접 측정할 수 있게 함

주요 기능:

로컬 Ollama 모델 자동 탐지
로컬 벤치마크 프로파일 실행
시간에 따른 결과 비교(히스토리 보관)
선택적 로컬 Judge 리뷰(OlLama 통해)
결과 및 히스토리 내보내기: Markdown, HTML, CSV, JSON, ZIP 형식 지원

구현: Python + Streamlit 기반, macOS 우선(현재 가이드/검증은 macOS 중심). Linux/Windows는 수동으로 가능하지만 완전 검증 아님.

공개 베타 상태 및 품질 지표:

버전 v0.37.2
깔끔한 공개 저장소(초기 커밋 한 건)
181개의 자동화 테스트 통과
클린룸 설치 리허설 통과
대표 모델/프로파일/ Judge 검증 통과
로컬 Judge 재시도/폴백 및 빈 응답 케이스 문서화
GitHub 이슈 템플릿 포함

알려진 한계:

베타 단계(완성된 1.0 아님)
모든 Ollama 모델 호환 보장 불가
큰 모델과 Judge 모델은 느리거나 메모리 부담 큼
공개 벤치마크는 참고용일 뿐 로컬 결과와 다를 수 있음
현재 설치/가이드는 macOS 우선

Hermes vs OpenClaw 일일 사용해 본 후기

Hermes 대화방 게시글이라서 어쩌면 Hermes에 유리한 결과일 수도 있음을 아시고 읽어 보시기 바랍니다.

======

실험 목적 및 작업 유형

작성자는 Hermes와 OpenClaw를 하루 동안 동일한 프롬프트로 병렬 테스트함.

주된 사용 사례:

개인 비서(예약·이메일·리마인더·기억)
개발자(창의적 작업: scout→planner→coder→감사)
개발 작업 오케스트레이션.

사용한 모델/구성

Scout: Mimo v2.5
Planner: Opus
Planner verifier: GLM-5.2
Coder: Composer 2.5
Auditor: GPT-5.5-High
오케스트레이션과 개발 워크플로는 Composer 및 Mimo v2.5 Pro 기반.

핵심 비교 결과

토큰 효율성: OpenClaw가 동일 작업에서 약 10–20% 적은 토큰을 소비함(더 비용 효율적).
스킬 생성/학습: Hermes가 더 많은 스킬을 자동으로 생성·학습함. OpenClaw는 스킬 생성 시 승인이 필요해 제어가 더 쉬움.
대화 지속성/품질: OpenClaw: 긴 대화 및 큰 컨텍스트 윈도우에서 더 안정적으로 대화 유지.
Hermes: 긴 대화에서 응답 품질이 저하되는 경우가 있었으나, 새 대화를 시작하거나 맥락을 빠르게 파악하는 데는 우수.

사용자 경험: Hermes 쪽 데스크톱 앱(특히 커뮤니티에서 개발된 Hermes-One, hermes-ui 등)이 강점으로 꼽힘. OpenClaw은 적절한 데스크톱 GUI가 부족하다고 느낌.

총 토큰 사용량: OpenClaw 약 42M 토큰, Hermes 약 73.5M 토큰. 작성자는 캐시 히트율 등으로 실제 비용 차이는 더 작을 수 있다고 언급(대략 42M vs 53M 추정).

종합 평가

전반적 경험 측면에서는 Hermes가 우세(앱, 커뮤니티, 오케스트레이션 능력).
비용·토큰 효율을 더 중요시하면 OpenClaw가 매력적일 수 있음.
OpenClaw는 과거 불안정했으나 최신 버전은 많이 개선됨. 다만 GUI·사용성에서 아쉬움이 있음.

하루 50M 토큰 소비하던 OpenClaw 토큰 절감 방법

문제 상황

게시자 환경에서 LLM API 토큰 사용량이 며칠 사이에 급증(6일에 약 196M 토큰, 일부 날은 ~50M 토큰).
로그(.jsonl transcripts) 분석 결과 토큰의 약 95%가 cacheRead(과거 대화·세션을 다시 읽음)로 소비됨. 실제 새 작업 비중은 5% 미만.
단일 에이전트(“main”)가 전체 사용량의 약 56% 차지. 해당 에이전트는 사용하지 않는데도 하트비트(메시지 검사)를 30분마다 수행하며, 매번 수개월치(약 225k 크기) 세션 기록을 읽고 “HEARTBEAT_OK”만 응답함 → 엄청난 낭비.

원인

유휴(또는 폐기된) 에이전트를 하트비트가 계속 깨워 세션 전체를 읽는 구성.
개발자가 “비활성화”로 설정해뒀다고 생각한 설정(빈 값 등)이 실제로 작동하지 않아 계속 실행됨.
여러 에이전트가 같은(혹은 계속 누적되는) 세션 ID를 재사용해 컨텍스트가 계속 불어남.

해결 방법 (게시자가 실제로 적용한 수단)

bloated(비대해진) 세션 데이터 삭제 — 하트비트가 매번 불러오는 대규모 이력 제거로 즉시 비용 절감.

재발 방지를 위한 설정 변경:

heartbeat every: “0m” 으로 완전히 끄기(정말 아무 일도 안 하는 에이전트의 경우).
또는 isolatedSession: true + lightContext: true 설정으로 하트비트가 매번 전체 히스토리를 읽지 않고 작은, 가벼운 컨텍스트에서만 실행되게 함(문서상으로는 ~100k 토큰 → ~2–5k 토큰으로 감소).
다른 에이전트들도 세션을 리셋해서 각 실행이 깨끗한 상태에서 시작되도록 함.

추가 팁·권고:

.jsonl 전사 파일을 읽어 각 턴별 토큰 사용량(input/output/cacheRead)을 확인하면 원인 파악이 빠름(추정이 아니라 ‘영수증’ 확인).
cacheRead 비율이 높으면 “과거 읽기에 비용을 지불하고 있는 것”이므로 우선 점검 대상.
하트비트가 실질적 필요가 없다면 끄는 쪽이 안전(대규모 시스템에서 작은 절감도 누적되면 큼).
“꺼놨다”고 생각되면 실제로 동작 여부를 검증하라(빈 설정이 작동하지 않는 사례 존재).

커뮤니티 반응

많은 사용자가 동일 문제 경험 보고(하트비트 관련 토큰 누수).
일부는 하트비트 기본값을 끄거나 제거하자는 의견.
한 댓글은 NeuralMind(로컬 인덱싱 기반 툴)를 대안으로 제시: 세션 누적이 아예 생기지 않아 토큰 절감 효과 크다고 주장(반박·보안 논쟁도 존재).

많은 사람들이 “cacheRead 체크, 세션 정리, 하트비트 정책 재검토“를 핵심 권장사항으로 보고 있음.

바로 할 수 있는 것

.jsonl 전사에서 에이전트별/턴별 token usage 확인(특히 cacheRead 비율).
비활성 에이전트의 heartbeat를 0m으로 끄거나 isolatedSession+lightContext 적용.
대형 세션(오래된 대화) 삭제 후 하트비트 동작 확인.
동일 세션 ID를 재사용하는 작업 흐름이면 각 작업마다 세션 초기화하도록 수정.

llama-server 셀프 호스팅에서 매 번 프롬프트 캐시 다시 읽기 방지하기

상황 및 환경

모델: Qwen3.6-27B-Q8_0, 듀얼 RTX 3090(텐서 병렬)
서버: llama-server에 –cache-prompt, –ctx-size 400000, –parallel 2
클라이언트: OpenClaw(랜 연결)
문제는 세션 토큰이 ~90k를 넘기면서 발생

증상

매 턴마다 llama-server 로그에 “forcing full prompt re-processing due to lack of cache data” 및 “erased invalidated context checkpoint” 반복 출력
매 응답마다 약 91k 토큰을 처음부터 재처리
→ 프롬프트 평가 130초(약 2분) 소요 → 장기 세션에서 응답이 매우 느림

원인

OpenClaw 기본 설정 contextInjection이 “always”로 되어 있어, 매 턴(연속 응답 포함)마다 AGENTS.md 등 부트스트랩 파일(약 15KB)을 시스템 프롬프트에 재주입
프롬프트 접두사가 조금이라도 변하면 llama.cpp의 캐시가 일치하지 않아 재처리하게 됨 → 캐시가 ‘깨진’ 것이 아니라 클라이언트가 프롬프트를 매번 달라지게 함

해결(핵심)

OpenClaw 설정 변경:

openclaw config set agents.defaults.contextInjection continuation-skip --merge

게이트웨이 재시작: 새 사용자 메시지일 때만 부트스트랩 파일 주입, 연속(turn)에서는 건너뜀 → 캐시 재사용 가능

결과(개선 효과)

재처리 토큰: 91,403 → 약 513 신규 토큰(실제 변경분만)
프롬프트 평가 시간: 130초 → 1.3초
캐시 재사용률: 0% → 99.7%
응답 속도: 2분+ → 약 5초 (약 100배 개선)

추가로 조정한 항목(권장 사항)

–ctx-size 320k → 400k (세션당 컨텍스트 토큰 상향)
OpenClaw contextTokens를 200k로 맞춤
memoryFlush.softThresholdTokens를 30k → 10k로 낮춤

진단 방법

llama-server 로그에서 아래 메시지 확인:

문제: “forcing full prompt re-processing due to lack of cache data”, “erased invalidated context checkpoint”, 프롬프트 처리 시간이 길음
정상: “restored context checkpoint”, f_keep ≥ 0.99, “graphs reused =”, 처리 시간 짧음

핵심 교훈

로컬 llama.cpp 기반 환경에서는 클라이언트의 프롬프트 주입 방식이 캐시 재사용에 결정적 영향.
OpenClaw의 contextInjection 기본값이 로컬 캐시 환경과 맞지 않아 성능이 크게 저하될 수 있음.

※ 지난 게시글:

※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude

넷플릭스 크리스마스 영화 2023 추천작

【최애의 아이】(推しの子,OSHI NO KO) 2023 애니 강추 작품 !

플래시(The Flash)

스파이더맨: 어크로스 더 유니버스