TurboQuant 실제 구현/시험한 내용들이 보이기 시작합니다. 원본 모델의 품질 저하 없이 KV 캐시 메모리를 더 작은 bit로 양자화 할 수 있는 기술이라니 관심이 많을 수 밖에 없습니다. MS BitNet 관련한 소식도 있네요. iPhone 13 mini에서 1-bit 모델을 실행했다고 합니다. 이 외에도 다양한 소식이 있으니 직접 확인하세요.

Google TurboQuant 논문 내용을 실제 코딩으로 적용해서 시험한 결과입니다. 저자는 Mistral-7B (FP16) 모델에 TurboQuant 기술을 적용해서 4bit, 3.5bit, 3bit, 2.5bit KV 캐시 메모리 양자화를 적용해 보았습니다. 결과를 보면 원래 25MB 정도였던 KV 캐시 메모리가 4bit 6.7MB, 3.5bit 5.9MB로 줄었다고 합니다. 하지만 3bit, 2.5bit 양자화에서는 원본 모델 대비 품질 저하가 있었다고 합니다. 자세한 내용은 원문을 참고하십시오.

AD

가중치용 TurboQuant: 손실 없는 8비트 잔여값을 활용한 거의 최적의 4비트 대형 언어 모델(LLM) 양자화

TurboQuant 기술 적용한 또 다른 사례입니다. 저자는 KV 캐시 양자화에서 가중치 압축으로 TurboQuant를 적용했다고 합니다. Qwen 3.5-0.8B와 4B 모델 이용한 실험 결과, 4+4 residual 적용했을 때 절반 정도로 압축이 되었다고 합니다. 압축에 따른 품질 변화를 나타내는데 사용하는 PPL(다음 단어 예측 성능), KLD(정보 손실량) 변화가 동일하거나 거의 없었다고 합니다. 

Microsoft “1-bit” model on iPhone

MS 발표는 작년이었지만 몇 주 전에 다시 화제가 된 BitNet 소식입니다. MS Bitnet 1-bit 모델을 LocAI for iOS 이용해서 iPhone 13 mini에서도 충분히 실행 가능했다고 합니다. 자세한 내용은 없네요.

의료 음성에 대한 31개 STT 모델 시험 결과

저자는 상용/오픈 소스 STT 모델들을 시험해서 지속적으로 공유하고 있습니다. 이번 발표가 v3 인데 오픈 소스 중에서는 MS의 VibeVoice 9B 모델이 가장 좋은 성능을 나타냈다고 합니다. 1,3위는 Google Gemini 2.5 Pro, 3 Pro가 각각 차지했네요. MS VibeVoice 9B는 8.34% WER (Word Error Rate), 91.66% 정확도를 나타냈는데 시험 장비가 H100 이었네요. 18GB VRAM 이 필요하다고 하니 일반인이 구현하기에는 무리가 있군요. 

OpenClaw 보안  101: 안전하게 구성하기 위한 ‘13단계’ 체크리스트

  1. 별도 머신에서 실행: 개인 노트북 대신 VPS나 별도 장비에 설치해 로컬 자산 노출 위험을 줄임.
  2. 루트(root)로 실행하지 않기: 전용 사용자 계정을 만들고 권한을 제한해 침해 시 피해 범위를 축소.
  3. 기본 포트 변경: 기본 8080 등 자동 스캔 대상 포트를 임의의 높은 포트로 변경해 자동 공격 차단.
  4. Tailscale 설치(또는 비슷한 VPN): 서버를 인터넷에서 보이지 않게 만들어 승인된 장치만 접근 가능하도록 설정 — 가장 큰 효과를 줌.
  5. SSH 키 및 fail2ban 설정: 비밀번호 로그인 비활성화, SSH 키 사용, 실패 로그인 차단(fail2ban)으로 원격 공격 방지.
  6. UFW 등 방화벽 사용: 불필요한 포트 차단. Tailscale 사용 시 외부 노출을 최소화.
  7. 사용자 허용리스트(allowlist): 봇과 통신 가능한 계정(예: Telegram 계정)을 명시적으로 지정해 허가되지 않은 요청 무시.
  8. 봇에게 자체 감사 요청: 구성 파일을 자가 점검하게 하거나 오픈소스 검사 플러그인(예: Adversa AI의 검사 도구)을 사용해 취약점 자동 발굴.
  9. 실시간 알림 설정: 실패 로그인, 설정 변경, 새로운 SSH 접속 등 이상 징후를 즉시 알림으로 받아 침해를 빠르게 감지.
  10. 그룹 채팅 대신 DM 전용 사용: 그룹에 두면 누구나 명령 가능하므로 개인 DM만 허용. 그룹 필요 시 별도 인스턴스 운영.
  11. 서브에이전트는 Docker 등으로 샌드박스화: 웹 브라우징·파일 접근을 하는 서브에이전트가 프롬프트 인젝션 등으로 키·파일을 유출하지 못하도록 격리(agents.defaults.sandbox: true). 서드파티 스킬은 사전 검토 권장.
  12. 일일 보안 감사(CRON): 설정변경·패키지 업데이트로 인한 구성 붕괴를 방지하기 위해 매일 자동 감사 실행.
  13. OpenClaw 업데이트 유지 또는 매니지드 서비스 이용:직접 관리하기 어렵다면 관리형 서비스(업데이트·운영 대행)를 이용해 위험 최소화.

Awesome Openclaw

OpenClaw 관련 모음입니다.

Clawvard – 당신의 에이전트의 IQ를 테스트하고 점수를 제공합니다.

AI Agent 시험하고 점수를 매겨주는 사이트입니다.

(참고) 별도 검색해 보니 https://clawvard.school/ 인 것 같습니다.

※ 작동 방식:
• 테스트: 에이전트를 시험해 보세요.
• 보고서: 학업 성과에 대한 자세한 분석을 받으세요.
• 튜터링: 봇의 실력을 향상시키기 위한 맞춤형 기술 권장 사항을 받으세요.

 

※ 출처: Reddit/LocalLLaMa, OpenClaw

AD

LEAVE A REPLY

Please enter your comment!
Please enter your name here