목차
구글에서 최근 발표한 새로은 온라인 벡터 양자화 알고리즘 TurboQuant 을 직접 시험해 본 결과가 재미있습니다. 그 외에도 오늘은 다양한 소식이 많으니 직접 확인해 보시기 바랍니다.
구글의 TurboQuant 방식을 테스트해본 결과, 99.5%의 정확도로 5배의 압축률을 달성했습니다!
구글에서 최근 발표한 새로운 온라인 벡터 양자화 알고리즘 TurboQuant 관련해서 저자가 직접 시험해 보았다고 합니다. 아래는 저자의 설명입니다.
“구글은 LLM 메모리를 정확도 손실 없이 6배까지 줄이는 압축 알고리즘인 TurboQuant (https://turboquant.net/ko) 를 발표했습니다. 하지만 이 알고리즘이 일반 소비자용 하드웨어에서 실제로 작동할까요? 논문을 읽고 Claude Code에서 알고리즘을 처음부터 구현한 후, RTX 3060에서 실제 모델(Qwen 2.5 3B)로 테스트해 보았습니다. 결과는 3비트에서 5배 압축에 99.5%의 어텐션 정확도를 달성했고, 계산상으로도 타당하다고 합니다.”
Youtube 영상인데 자동 더빙으로 우리 말로 설명을 들을 수 있어서 좋습니다. 저자는 실제 시험해 볼 수 있도록 오픈 소스도 제공하고 있습니다.
아직 OpenClaw 업데이트 하지 않았다면 이 글을 먼저 읽으세요.
OpenClaw 업데이트 간격이 빨라지면서 새로운 기능들이 무섭게 증가하고 있습니다만 최근 2026.3.22 버전 부터는 업데이트로 인한 오류가 증가하는 문제가 발생하고 있습니다. 이에 저자는 무조건 적으로 업데이트 하기 전에 확인할 내용을 설명하고 있습니다.
핵심 문제
- 이번 OpenClaw 대형 업데이트는 호환성 깨짐(breaking changes)이 많아, 아무 준비 없이 업데이트하면 설정이 ‘사라진’ 것처럼 보일 수 있음.
- 특히 환경 변수 이름 변경과 상태 디렉터리 이름 변경이 가장 흔한 사고 원인임.
Step 1. 환경 변수 이름 확인 및 변경
- CLAWDBOT_* 또는 MOLTBOT_* 같은 이전 사용 명칭이 있으면 모두 OPENCLAW_* 로 바꿀 것.
- 확인 명령 예:
env | grep -i clawdbot 또는 env | grep -i moltbot - 시스템 프로필(.env, .bashrc, .zshrc, systemd unit, docker-compose 등) 전부 점검.
Step 2. 상태 디렉터리 점검
- 옛 디렉터리
/.moltbot이 남아 있으면 OpenClaw이 새 디렉터리(/.openclaw)를 못 찾음. - 옮기기:
mv ~/.moltbot ~/.openclaw또는 OPENCLAW_STATE_DIR 환경변수로 경로 지정.
Step 3. 설정 백업
- 업데이트 전 전체 백업 권장:
cp -r ~/.openclaw ~/.openclaw-backup-$(date +%Y%m%d)
Step 4. 브라우저 자동화(있다면) 재설정
- 기존 chrome extension relay 완전 제거됨. driver: “extension” 또는 relay 관련 설정은 더 이상 동작하지 않음.
- 새 방식: 기존 세션에 연결하거나(OpenClaw가 자체 브라우저 프로파일 관리), CDP(Chrome DevTools Protocol)로 연결하도록 구성해야 함.
- 확인 명령 예:
openclaw config get | grep -i browser
Step 5. Clawhub/플러그인 변화 확인
- Clawhub가 기본 저장소가 됨(설치 명령이 먼저 Clawhub를 찾음). npm은 여전히 fallback이나, private npm 같은 경우 –source npm 등의 명시가 필요할 수 있음.
- 기존 커뮤니티 플러그인이 import 경로(openclaw/extension-api 등)를 사용하면 실패 가능 — plugin-sdk 경로로 마이그레이션 필요.
Step 6. 업데이트 후 게이트웨이와 채널 확인
- 인증 토큰/채널 바인딩 방식 변경: openclaw start, openclaw status 로 서비스와 채널(텔레그램·WhatsApp 등) 연결 상태 확인. 끊겼으면 재연결 필요.
- openclaw channels 로 상태 확인 및 재연결 지침 따르기.
Step 7. 보안 패치 및 정리 명령
- 30+ 보안 패치 포함(예: Windows SMB credential leak 패치, 채널 ID 처리 강화).
- 잔존된(ghost) 플러그인 레퍼런스 정리: openclaw doctor –fix
업데이트/마이그레이션 관련 주요 명령(요약)
- 백업:
cp -r ~/.openclaw ~/.openclaw-backup-YYYYMMDD - 상태/폴더 확인:
ls ~/.moltbot, ls ~/.openclaw - 환경 확인:
env | grep -i clawdbot, env | grep -i moltbot - 이동/설정:
mv /.moltbot ~/.openclaw 또는 export OPENCLAW_STATE_DIR=/.openclaw - 업데이트 설치:
npm install -g openclaw@latest(또는pnpm add -g openclaw@latest) - 스킬/플러그인 동기화:
openclaw skills update - 문제 정리:
openclaw doctor --fix - 서비스 확인:
openclaw start / openclaw status / openclaw channels
자주 보고되는 문제/주의사항
- 옛 env 변수나 디렉터리를 그대로 두면 OpenClaw가 새 기본값으로 부팅하여 기존 설정(에이전트, 스킬, 메모리 등)을 찾지 못함(데이터는 삭제되지 않음).
- 플러그인 SDK 경로 변경으로 일부 커뮤니티 플러그인이 런타임에서 실패할 수 있음 — 플러그인별 마이그레이션 필요.
- 스킬 슬러그에 유니코드 문자가 있던 경우 마이그레이션 오류가 날 수 있음(업데이트가 한 번 실행되어야 마이그레이션 됨).
업데이트로 좋아진 점(주요 개선)
- 게이트웨이 콜드 스타트가 훨씬 빨라짐.
- Clawhub 통합 개선(메타데이터, 게이트웨이 통합).
- 브라우저 자동화의 안정성 향상(attachment 모델).
- 채널 바인딩이 영속화되어 재시작 후에도 유지될 가능성 증가.
- 모델 페일오버 개선(주 모델 한계 시 보조 모델로 자동 전환).
- 최신 모델 지원(예: GPT-5.4, Gemini 3.1 Flash), MiniMax 기본 버전 업데이트(M2.7).
Cevahir AI 엔진 – 언어 모델 생성을 위한 풀스택 오픈 소스 AI 엔진
Muhammed Yasin Yılmaz이 개발한 오픈 소스 AI 엔진입니다. 튀르키에 언어 기반 학습 모델을 위해 개발을 했지만 다른 모든 언어 기반 학습을 위해 공개했다고 합니다. 언어 학습 모델에 필요한 토크나이징, Transformer, 인지 계층까지 모든 것을 포함하고 있다고 합니다. 개발자가 밝힌 “비전”이 아주 마음에 듭니다. 올 8월이면 우리도 독자 기술력으로 만든 AI 플랫폼이 만들어지겠죠?
“Cevahir은 거대한 GPU 농장과 폐쇄형 알고리즘이 지배하는 시대에 지식의 민주화를 옹호합니다.
- 제한된 자원, 무한한 혁신: 세계적 수준의 성과는 대규모 예산이 아니라 최적화되고 지능적인 아키텍처로 달성할 수 있다는 증거입니다.
- 터키 청년을 위한 선물: 기술을 단순히 소비하는 세대가 아니라 기술을 형성하는 세대를 위한 참조 아키텍처입니다.
- 완전한 AI 인프라: 토크나이저 교육부터 인지 계층까지 단일 저장소에 전체 AI 인프라를 제공하는 드문 오픈 소스 프로젝트 중 하나입니다; 모든 구성 요소가 오픈 소스입니다.
Cevahir은 터키어에 국한되지 않습니다. 엔진은 처음에 터키어에 최적화되었지만, 언어에 구애받지 않는 인프라를 제공하므로 어떤 언어와 어떤 데이터셋으로도 자체 모델을 훈련할 수 있습니다.”
멀티에이전트 시스템(MAS) 아키텍처에 대한 실무 조언
- 한 번에 많은 에이전트로 시작하지 말라: 먼저 1개를 잘 만들고 작동시키며 문제와 한계를 파악한 뒤 차례로 추가하라.
- 권장 에이전트 수: 대부분 비즈니스는 2–4개면 충분하다(작성자는 이발소 자동화에 4개 사용).
- 오케스트레이터 패턴 채택: 하나의 중앙 오케스트레이터(‘뇌’)가 일을 라우팅하고 전문 에이전트들은 수행하는 구조가 효과적. 민주적 분배나 라운드로빈은 비효율적.
- 공유 상태(메모리)는 어렵다: 중복·모순·자원 낭비를 막기 위해 에이전트들이 서로의 작업을 볼 수 있어야 함.
- 간단한 공유 방식 제안: 복잡한 DB나 벡터스토어 대신 JSON 파일 같은 ‘공유 브레인 디렉터리’를 사용해 읽고 쓰게 하는 실용적 접근.
- 모델 매칭: 모든 에이전트가 고가 모델을 쓸 필요 없음. 작업 특성에 맞춰 저비용 모델과 고품질 모델을 적절히 배치하라(오케스트레이터·고난도 작업에만 비싼 모델).
- 모델 라우팅으로 비용 절감: 작업의 종류에 따라 모델을 라우팅하면 예산을 크게 절감할 수 있음.
- 확인 루프(검수 프로세스): 각 에이전트는 결과를 채널에 올리고 오케스트레이터가 검토 후 통과시키거나 피드백으로 되돌려 보냄. 시스템 밖으로 결과가 나가지 않도록 검사 단계 필요.
- 실천적 조언: 전체 시스템을 한 번에 설계하려 하지 말고, 하나씩 해결 가능한 문제부터 구현하면서 확장하라.
OpenViking 설명: AI 에이전트를 위한 기억과 맥락 재발명
※ Github: https://github.com/volcengine/OpenViking
OpenViking은 AI 에이전트를 위한 ‘컨텍스트 운영체제(Context OS)’를 목표로 하는 오픈소스 프로젝트다. 기존의 RAG(검색 기반 보강) 방식처럼 맥락을 무작위 조각으로 다루는 대신, 메모리·지식·리소스·툴을 파일시스템처럼 계층적이고 구조화된 저장소로 통합해 관리한다. 이렇게 하면 컨텍스트가 분산되는 문제를 해결하고, 필요할 때만 적절한 수준의 정보를 불러와 토큰 비용을 크게 줄이며(티어드 로딩), 더 정확하고 설명 가능한 검색을 가능하게 한다.
핵심 문제와 해결책
- 분산된 컨텍스트: 메모리·임베딩 DB·툴이 따로 있어 관리와 디버깅이 어렵다 → OpenViking은 단일 네임스페이스(viking://…)로 통합.
- 컨텍스트 폭발: 장기 실행 에이전트가 생성하는 방대한 데이터로 인한 비용·손실 문제 → 요약(L0), 개요(L1), 전체(L2)로 나누어 필요 수준만 로딩.
- 약한 검색: 평면적 벡터 검색만으로는 전역적 이해가 부족 → 시맨틱 검색, 디렉토리 탐색, 컨텍스트 인지형 탐색을 결합한 재귀적(Recursive) 검색.
- 블랙박스 검색: 무엇이 왜 선택됐는지 불명확 → 검색 경로를 보여주고 선택 이유를 추적할 수 있는 관찰성 제공.
- 메모리 진화의 부재: 과제 수행 경험을 지속적으로 학습하지 못함 → 자동으로 인사이트를 추출하고 메모리를 업데이트하는 자기개선 기능.
구조와 작동 방식
- 파일시스템 패러다임: viking://resources/, viking://user/memories/ 등으로 구조화.
- 3계층 컨텍스트: L0 (100토큰 요약), L1 (2k 토큰 개요), L2 (원문 전체). 에이전트는 의도와 필요에 따라 적절한 레벨을 불러와 토큰을 절감.
- 검색 방식: 단순 벡터 매칭을 넘어서 디렉토리 트래버설과 의도 기반 탐색을 결합, 더 정확하고 완전한 응답 생성.
- 관찰성과 디버깅: 어떤 데이터가, 어떤 경로로 선택되었는지 추적 가능해 신뢰성과 문제 해결 용이.
실행·설치·요구사항(문서 예시)
- 파이썬 패키지와 선택적 Rust CLI를 제공하며 서버를 실행해 에이전트를 구동할 수 있음.
- LLM(VLM) 및 임베딩 모델 필요(예: 제공자별 모델 설정).
- 설정 파일(예:
~/.openviking/ov.conf)을 통해 스토리지, 임베딩, VLM 등을 지정.
오픈소스·기여
Apache 2.0 라이선스의 오픈소스 프로젝트로 GitHub에 공개되어 있음. 상용 사용·수정·기여가 가능하며, 포크·브랜치·PR 과정을 통해 기여하도록 권장한다.
장점·실험적 성과
- 개발자 관점에서: 파이프라인 관리 시간 감소, 운영 토큰 비용 대폭 절감, 디버깅·관찰성 향상, 장기 상태 보유(stateful) 에이전트 구축 가능.
- 문서에서 제시된 실험 결과: 작업 완료율 +52%, 토큰 사용량 최대 96% 절감(문맥상 실험 결과로 제시됨).
결론
OpenViking은 기존 RAG 기반 파이프라인의 한계를 극복하려는 근본적 접근이다. 컨텍스트를 단순 검색 대상이 아닌 네비게이션 가능한 자원으로 재구성하고, 티어드 로딩·의도 기반 검색·자기개선형 메모리 등을 통해 더 효율적이고 설명 가능한 에이전트를 지향한다. 이는 장기적으로 에이전트 설계에서 ‘컨텍스트 관리’의 중요성을 부각시키는 전환점이 될 수 있다.
CODEC – LLM으로의 상시/직접 통로 이용해서 자신의 장치에 접근할 수 있게 해주는 오픈 소스 컴퓨터 명령 프레임워크
MAC 전용. Siri/Alexa와 같이 음성 명령을 이용해서 각종 작업을 수행하도록 할 수 있다고 합니다.
“CODEC는 컴퓨터를 음성으로 제어하는 AI 워크스테이션으로 바꿉니다. 키를 누르거나 “헤이 Q”라고 말하면 CODEC가 듣고, 생각하고(선택한 어떤 LLM을 사용하든), 동작합니다: 앱을 열고, 메시지를 초안하고, 화면을 읽고, 문서를 분석하고, Spotify를 제어하고, 타이머를 설정하고, 코드를 작성하고, 그리고 당신이 설명할 수 있는 그 어떤 것도 수행합니다.”
MCPSafari: Native Safari MCP Server
MAC 전용. Claude Code가 MAC Safari를 제어해서 검색,크롤링, 스크린캡처 등 작업을 손쉽게 해 줄 수 있다고 합니다. 실리콘 MAC에서 개발했지만 인텔 MAC에서도 동작한다고 합니다.
왜 MCPSafari인가?
- 더 똑똑한 요소 타겟팅(UID + CSS + 텍스트 + 좌표 + 상호작용 순위)
- 복잡한 사이트에서도 완벽하게 작동
- 로컬 및 비공개(사용자의 Mac에서 실행)
- Mac 우선 에이전트 워크플로우에 완벽하게 바로 적용 가능
왜 사파리인가, 크롬보다?
- 애플 실리콘에서 CPU/발열 40–60% 절감
- 기존 사파리 로그인/쿠키 유지
- 네이티브 접근성 트리(복잡한 UI에서 Playwright보다 우수)
InferrLM (Previously Inferra) – Android/iOS 장치를 로컬 LLM/SLM 서버로 만들어 주는 앱
핵심 추론
- Android 및 iOS에서 GGUF 모델을 지원하는 llama.cpp를 통한 로컬 추론.
- Apple Silicon MLX 추론(iOS만 해당).
- OpenAI, Gemini, Anthropic의 클라우드 기반 모델과 원활하게 통합됩니다. 원격 모델을 사용하려면 자체 API 키와 InferrLM 등록 계정이 필요합니다. 원격 모델 사용은 선택 사항입니다.
- OpenRouter, Groq, Ollama, LM Studio, Together AI와 같은 OpenAI 호환 제공업체에 대한 사용자 지정 가능한 기본 URL을 제공합니다. 이를 통해 대체 API 엔드포인트에 액세스할 수 있습니다.
- Apple Intelligence 지원 기기에 대한 Apple Foundation 모델 지원(iOS만 해당).
비전 및 멀티모달
- 멀티모달 모델과 해당 프로젝터(mmproj) 파일을 통한 비전 지원.
- 내장 카메라(expo-camera 기반)를 사용하여 앱에서 직접 사진을 촬영하고 모델로 전송할 수 있습니다. 촬영한 사진은 기본적으로 갤러리에 저장됩니다.
문서 처리 및 RAG
- RAG(Retrieval-Augmented Generation) 지원을 통해 문서 이해도를 높이고 문맥에 기반한 응답을 제공합니다.
- 내장 문서 추출기를 통해 파일 첨부를 지원하며, 문서의 모든 페이지에 대해 로컬에서 OCR을 수행하고 텍스트 콘텐츠를 추출하여 모델(로컬 또는 원격)로 전송합니다.
- 문서 수집 시스템은 대화 중 효율적인 검색을 위해 파일을 처리하고 색인을 생성합니다.
로컬 서버
- 내장 HTTP 서버는 Wi-Fi 네트워크에 연결된 모든 장치에서 모델에 액세스할 수 있도록 REST API를 제공합니다.
- 서버는 ‘서버’ 탭에서 네트워크 액세스 및 자동 시작 옵션을 설정하여 시작할 수 있습니다.
- 간단한 URL 또는 QR 코드를 통해 컴퓨터, 태블릿 또는 기타 장치와 InferrLM 채팅 인터페이스를 공유할 수 있습니다.
- 전체 API 문서는 여기(HERE)와 서버 실행 시 서버 홈페이지에서 확인할 수 있습니다.
- 이러한 REST API를 사용하여 애플리케이션을 구축하는 방법을 보여주는 명령줄 인터페이스 도구는 github.com/sbhjt-gr/InferrLM-CLI에서 사용할 수 있습니다.
모델 관리
- HuggingFace에서 모델을 직접 가져오는 다운로드 관리자입니다. 엣지 디바이스에서 실행되도록 최적화된 엄선된 모델 목록은 모델 -> 모델 다운로드 탭에서 확인할 수 있습니다.
- 다운로드한 모델은 채팅 화면의 모델 선택기와 “모델” 섹션의 “저장된 모델” 탭에 표시됩니다.
- 로컬 저장소에서 모델을 가져오거나 사용자 지정 URL에서 다운로드할 수 있습니다.
- 앱 또는 REST API를 통해 로드, 언로드, 다시 로드, 새로 고침 등의 모델 작업을 수행할 수 있습니다.
채팅 환경
- 메시지는 편집, 재생성, 복사 기능 및 마크다운 렌더링을 지원합니다.
- Nitro Modules 브리지 기반의 C++ 렌더러인 react-native-nitro-markdown을 사용하여 수학 및 LaTeX를 지원하는 빠른 네이티브 마크다운 렌더링을 제공합니다.
- 각 채팅 버블에 전용 분기 기능을 지원하여 어떤 메시지에서든 대화를 분기할 수 있으며, 원래 스레드를 유지하면서 이전 컨텍스트를 잃지 않고 다른 방향으로 탐색할 수 있습니다.
- 모델에서 생성된 코드는 클립보드 복사 기능이 있는 코드 블록으로 렌더링됩니다.
- 대화를 생성, 저장 및 정리할 수 있는 채팅 기록 관리 기능을 제공합니다. 로컬 모델과 원격 모델 모두에 대한 실시간 스트리밍 응답.
OpenCode 소스 코드 감사: 7개의 외부 도메인에 접촉, 개인정보 처리방침 없음, 12개의 커뮤니티 PR이 3개월 이상 미병합됨
OpenCode는 오픈 소스 AI 코딩 에이전트입니다. 저자는 OpenCode 소스를 분석한 결과를 공유하고 있습니다. OpenCode 이용하는 목적에는 OpenCode + Local LLM을 이용함으로써 외부 서비스로의 소스 전달을 금지하거나 꺼리는 문제를 해결하고자 하는 것이 있습니다. 저자는 이런 측면에서 보았을 때 OpenCode가 완전히 외부 세계와 단절되어서 사용이 되는지도 함께 살펴 보았습니다. 확인한 바에 따르면 Web UI를 제외하고는 옵션을 통해서 외부 세계와의 통신을 단절한 상태에서 사용이 가능했습니다. 이와 별개로 저자는 OpenCode가 외부 세계와 통신할 때를 확인하기 위한 일종의 감시 체계를 시험하고 있습니다.
TTS 모델 비교
연구 목적으로 시작한 TTS 모델간 비교입니다.
AI 및 HPC 워크로드에 중점을 둔 AMD 최적화 Rocky Linux 배포판
AMD + CIQ 협력으로 AMD의 AI 소프트웨어 스택인 ROCm에 최적화한 Rocky Linux 배포판을 준비 중에 있다고 합니다.
Rocky Linux 에 대한 글은 https://blog.naver.com/simula/223710231440 를 참고하십시오.

※ 지난 게시글:
- AI & OpenClaw – 2026.3.24 소식
- AI & OpenClaw – 2026.3.24 소식
- AI & OpenClaw – 2026.3.23 소식
- AI & OpenClaw – 2026.3.19 소식
- AI & OpenClaw – 2026.3.18 소식
※ 출처: Reddit/LocalLLaMa, OpenClaw













