4월 시작하자마자 Gemma 4, Qwen 3.6, GLM-5V-Turbo 와 같이 기존 모델 보다 성능이 더 좋은 AI 모델을 발표하고 있습니다. PrismML의 Bonsai-qwen 1-bit 양자화 모델, ByteShape사의 Qwen 3.5-9B 경량화 모델도 흥미롭습니다.
4월 버전 발표: Gemma 4, Qwen 3.6, GLM-5V-Turbo
시험 장비가 RAM 32GB + RTX 4060 Ti (8GB) 인데 Ollama 로 26B(70%/30% CPU/GPU) 사용 가능합니다. MoE 모델이라서 Local 실행이 가능한 것 같고, 질문에 대한 Thinking 이 길어서 그런지 nemotrao-cascade-2 30B (MoE) 보다 대답 속도는 조금 늦는 것 같습니다.
Gemma4:31B 모델은 총 메모리 부족으로 실패 !!
Qwen 3.6 plus 모델은 vision 지원한다고 합니다. 최대 1백만 토큰 지원에 API 무료 사용 가능합니다. 참고로, AI 모델 Leader Rank 사이트에서 “Best Value” (무료라서?) 받았네요.
zAI 첫 번째 ‘멀티 모달 코딩 모델’ 이라고 하는데 이미지,영상,파일을 입력 받아서 코딩하는데 사용하는 걸까요? 벤치 결과는 Opus 4.6 보다 좋다고 해 놓았습니다. 유료라서 찍먹은 어렵겠네요.
Qwen 기반 Bonsai 1-bit vs. ByteShape Qwen 3.5 9B
재미있는 모델입니다.
ByteShape Qwen 3.5 9B 양자 컴퓨팅: 하드웨어별 선택 사항 + 로컬 OpenCode 설정 가이드
ByteShape가 밝히길 자신들은 모델 품질과 하드웨어에 가장 잘 맞는 모델을 개발하려 한다고 합니다. 원본 모델의 양자화 모델로 만들고, 여러 종류의 CPU, GPU에 따른 품질/크기/성능 비교 결과를 알려서 사용자 본인 하드웨어에 맞는 모델을 사용할 수 있도록 하는 것이지요. 이번 버전은 RPi 미지원이지만 이전 모델은 RPi 에서도 실행시킬 수 있습니다.
Bonsai (PrismML’s 1 bit version of Qwen3 8B 4B 1.7B)
PrisimML에서 Qwen3을 1-bit 양자화한 모델을 발표했는데 저자는 자신의 4060 에서 Bonsai-8B 모델을 시험한 결과, 107 t/s 생성, 1,114 t/s 이상의 프롬프트 처리 속도를 얻었다고 합니다. 참고로, 동일 프롬프트를 사용해서 qwen 3.5 4B Q4 시험했을 때는 56 t/s 였다고 합니다. 문장 요약 품질은 좋았으나 코딩 시험은 해 보지 못했다고 합니다.
HugginFace에 있는 PrismLM 설명을 추가해 보면 원 모델이 FP16 16.6GB 라면 Bonsai 모델 크기는 1.16GB 정도라고 합니다. 8GB VRAM GPU 에서도 충분히 실행 가능한 크기이죠.
아직 ollama로는 사용할 수는 없어서 PrismLM 설명대로 llama.cpp 이용해서 저도 시험해 보았는데 안타깝게도 실행이 되지 않았습니다.
repowise – Open-source codebase indexer with MCP server works with Ollama and local models
프로젝트 핵심 기능 (Repowise)
- 코드베이스를 파싱하여 인덱싱: tree-sitter 기반 AST, 의존성 그래프, git 히스토리 등을 수집.
- MCP(Multi-Call Protocol?) 서버로 결과를 제공 — MCP 호환 에이전트가 도구를 호출 가능.
- Ollama 직접 연동 지원: –provider ollama 플래그로 작동한다는 언급.
- 로컬 엔드포인트 지원: LiteLLM 같은 로컬 엔드포인트와 함께 동작.
- –index-only 모드: LLM이 전혀 필요하지 않음(오프라인 정적 분석만으로 작동).
- MCP 도구의 반환값은 구조화된 컨텍스트(원시 파일 전체가 아니라 요약/구조화된 정보)여서 토큰 소비를 관리하기 쉬움.
- 호출당 반환되는 컨텍스트 크기 예시: 대략 500–2000 토큰 수준으로, 컨텍스트 길이가 병목이 되지 않을 수 있음.
- index-only로 제공되는 분석 예시: 의존성 그래프, 죽은 코드 탐지, 핫스팟 랭킹, 코드 소유권 정보 등.
- LLM 기반 기능(예: 위키 생성, 코드베이스 채팅)은 선택적임.
Awesome OpenClaw Tips – 반복 작업을 위한 오픈 소스 가이드
OpenClaw을 재미있는 챗봇에서 반복 업무를 위한 신뢰할 수 있는 운영 체제로 전환하기 위한 실용적인 실행 지침입니다. 저자가 실무 사용, 문서, 커뮤니티 설정 및 저장소 심층 분석에서 수집한 것이라고 합니다.
Github “Star”를 더 받아야 하는 Open-source AI Agent framework
※ 지난 게시글:
- AI & OpenClaw – 2026.4.2 소식
- AI & OpenClaw – 2026.4.1 소식
- AI & OpenClaw – 2026.3.31 소식
- AI & OpenClaw – 2026.3.30 소식
- AI & OpenClaw – 2026.3.27 소식
※ 출처: Reddit/LocalLLaMa, OpenClaw












