1개 GPU로는 불가능한 대용량 모델 추론을 복수 기기를 이용할 수 있도록 하는 분산 추론 프로젝트 “mesh”가 있습니다. 아직 시작 단계이지만 실제 구현 방안이 소개되어 있으니 시험해 보시고 결과도 공유해 주시기 바랍니다. Meta Muse는 코딩과 사무 업무 부문에서는 GPT-5.4 보다 살짝 성능이 떨어진다는 보고가 있습니다.
mesh – 복수의 장비 이용한 Local 추론 네트워크 구성
Local AI 모델을 구동하는데 가장 큰 걸림돌이 GPU VRAM 크기입니다. 120B 이상의 대용량 모델을 Local 실행하기 위해서 필요한 128GB RAM을 가지는 Nvidia RTX GPU 는 수 천 만원을 호가하고 있고, 128GB 통합 RAM이 있는 Nvidia DGX Spark, Strix Halo, MAC도 대당 7백만원을 호가하고 있는 상황입니다. mesh는 이런 불편함을 복수 장비를 이용한 분산(?) 컴퓨팅으로 해결해 보고자 하는 시도로 보입니다. 물론, 현재로 단일 기기에서 2~3장의 GPU를 이용해서 대용량 Local AI 모델 실행에 사용하는 사례도 있긴 합니다만 외부 기기로의 분산 컴퓨팅 방식을 본 적은 없습니다. 댓글에 보면 현재의 Local AI 추론 엔진들은 복수의 GPU를 인식하긴 해도 전체 합산한 크기의 VRAM을 이용하지는 않고 모델에 맞는 크기의 VRAM을 가진 GPU 1개에서만 실행되는 것 같다 합니다.
mesh 핵심 아이디어:
- 같은 LAN의 워커들이 연산 자원을 기여합니다.
- 워커들은 자신들이 제공하는 모델을 위한 모델 링에 가입합니다.
- 작업들은 제어 평면을 통해 전송됩니다.
- 텐서들은 데이터 평면에서 워커들 간에 직접 이동합니다.
- 결과와 크레딧은 제어 평면에 의해 영구적으로 기록됩니다.
Mesh에는 하나의 프로덕션 실행 경로가 있습니다. 이 저장소에는 모의(mock)나 합성(synthetic) 실행기가 없습니다.
Meta의 MUSE Spark LLM이 건강-챠트에서는 GPT-5.4를 능가하지만 코딩과 사무 업무는 조금 떨어지는 성능 벤치 결과를 보임
4/8 Meta에서 발표한 새로은 LLM 모델인 MUSE 벤치한 결과입니다. 원 출처에 가시면 자세한 성능 검증 방식과 결과를 보실 수 있습니다. 제목에 밝혔듯이 건강-챠트 부문에서는 GPT-5.4 보다 좋은 품질을 보였지만 코딩 실력과 일반 사무 업무에서는 GPT-5.4 보다 품질이 떨어진다고 합니다. 상세 내용은 원문을 참고하십시오.
의료 음성에 대한 42개 STT 모델 시험 결과
지난 3월 30일에 소개해 드렸던 의료_음성에_대한_31개_STT_모델_시험_결과 내용의 업데이트 소식입니다. 기존 31개 모델 시험 결과에 새롭게 11개 STT 모델엔 대한 추가 시험한 결과입니다.
신규 시험한 추가 모델 (11개):
Soniox stt-async-v4 → #4 on M-WER
AssemblyAI Universal-3 Pro (
domain: medical-v1) → #7Deepgram Nova-3 Medical → #9
Microsoft MAI-Transcribe-1 → #11
Qwen3-ASR 1.7B → #8, best small open-source model this round
Cohere Transcribe (Mar 2026) → #18, extremely fast
Parakeet TDT 1.1B → #15
Facebook MMS-1B-all → #42 dead last on this dataset
위 신규 추가한 Microsoft MAI-Transcribe-1 모델은 폐쇄 모델인데 기존 오픈 모델인 MS VibeVoice (#3)에 비해 성능이 오히려 낮게 나왔다고 합니다. vibeVoice가 좋긴 한데 9B로 추론 시간이 오래 걸리는 단점이 있어서 최적의 실용 모델로는 Qwen 3-ASR 1.7B 적당하다고 합니다.
모바일 기기용 오픈소스/오프라인 AI App인 Off Grid에 Gemma4 탑재
“Off Grid” 오픈소스,오프라인 AI App에 최신 Gemma4 (E2B, E4B) 변형 모델을 탑재했다고 합니다. 현재는 Android 버전만 있고, iOS용도 곧 출시(?) 예정이라고 합니다.
- 핵심 차별점: 완전 온디바이스 실행(서버·Python·랩톱 불필요), 클라우드 없이 핸드폰의 NPU/CPU에서 동작.
- 주요 기능:
- Gemma 4의 128K 컨텍스트 윈도우를 온디바이스에서 지원(긴 문서·코드 처리에 유용).
- 네이티브 비전: 카메라를 향해 질문 가능.
- Whisper 음성인식(음성→텍스트), Stable Diffusion 이미지 생성, 툴 콜링 등 통합 제공.
- 성능 정보: Snapdragon 8 Gen 3 / Apple A17 Pro에서 약 15–30 토큰/초 보고(기기별 차이 요청).
- 메모리/모델 변종:
- E2B 변종은 폰에서 1.5GB 이하 RAM으로 실행 가능하다고 보고됨(상당히 경량).
- E4B는 128K 컨텍스트와 비전을 지원하는 고기능 변종으로 강조됨.
GLM 5.1을 Local 에서 실행하세요.
GLM 5.1 744B (40B 활성 MoE) 모델을 Dynamic 2-bit 이용해서 원래 크기 1.65TB에서 220GB로 -86% 줄였기에 MAC 256GB 모델이나 동일 크기의 RAM/VRAM 구성 기기에서 실행이 가능하다고 합니다. 댓글을 보면 자학 수준이네요. 256GB VRAM이나 통합 RAM 기기 가격이 개인이 Local 구축하기에는 부담스럽기도 하고, 굳이 Local 에서 대용량 모델을 돌리는 것이 필요하지 않을 것이라는 글도 보입니다. 하지만 1.65TB 크기의 모델을 양자화를 이용해서 줄일 수 있었다는 것은 나름대로 의미가 있어 보입니다. 압축 전/후 AI 품질 측정한 자료는 없는 것 같습니다.
※ 지난 게시글:
- AI & OpenClaw – 2026.4.9 소식
- AI & OpenClaw – 2026.4.8 소식
- AI & OpenClaw – 2026.4.7 소식
- AI & OpenClaw – 2026.4.6 소식
- AI & OpenClaw – 2026.4.3 소식
※ 출처: Reddit/LocalLLM, OpenClaw, unsloth










